BR112019020515A2 - aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente - Google Patents

aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente Download PDF

Info

Publication number
BR112019020515A2
BR112019020515A2 BR112019020515A BR112019020515A BR112019020515A2 BR 112019020515 A2 BR112019020515 A2 BR 112019020515A2 BR 112019020515 A BR112019020515 A BR 112019020515A BR 112019020515 A BR112019020515 A BR 112019020515A BR 112019020515 A2 BR112019020515 A2 BR 112019020515A2
Authority
BR
Brazil
Prior art keywords
signal
transient
time
spectral
echo
Prior art date
Application number
BR112019020515A
Other languages
English (en)
Inventor
Karampourniotis Antonios
Uhle Christian
richter Daniel
havenstein Julia
Herre Jürgen
Hellmuth Oliver
Gampp Patrick
Prokein Peter
Disch Sascha
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of BR112019020515A2 publication Critical patent/BR112019020515A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

aparelho para pós-processamento de um sinal de áudio que compreende: um conversor (100) para converter o sinal de áudio em uma representação de frequência de tempo; um estimador de localização transiente (120) para estimar uma localização no tempo de uma porção transiente usando o sinal de áudio ou a representação de frequência de tempo; e um manipulador de sinal (140) para manipular a representação de frequência de tempo, em que o manipulador de sinal (140) está configurado para reduzir ou eliminar um pré-eco na representação de frequência de tempo em um local no tempo antes da localização transiente ou para executar uma modelagem da representação de frequência de tempo no local transiente para amplificar um ataque da porção transiente.

Description

APARELHO PARA PÓS-PROCESSAMENTO DE UM SINAL DE ÁUDIO USANDO UMA DETECÇÃO DE LOCALIZAÇÃO TRANSIENTE [0001] A presente invenção refere-se ao processamento do sinal de áudio e, em particular, ao pósprocessamento do sinal de áudio, a fim de melhorar a qualidade do áudio removendo artefatos de codificação.
[0002] Codificação de áudio é o domínio da compressão do sinal que lida com a exploração redundância e irrelevância em sinais de áudio com o uso do conhecimento psicoacústico. Em condições de baixa taxa de bits, artefatos geralmente indesejados são introduzidos no sinal de áudio. Um artefato de destaque são os pré e pós-ecos temporais que são acionados por componentes de sinal transientes.
[0003] Especialmente no processamento de áudio baseado em bloco, esses pré e pós-ecos ocorrem, pois, por exemplo, o ruído de quantização dos coeficientes espectrais em um codificador de transformação no domínio da frequência está espalhado por toda a duração de um bloco. Ferramentas de codificação semiparamétricas como preenchimento de falhas, áudio espacial paramétrico ou extensão de largura de banda também podem levar a artefatos de eco restrito à banda de parâmetros, pois os ajustes acionados por parâmetros geralmente ocorrem dentro de um bloco de tempo de amostras.
[0004] A invenção refere-se a um pós-processador não guiado que reduz ou mitiga as deficiências subjetivas
Petição 870190097668, de 30/09/2019, pág. 12/194
2/114 da qualidade dos transientes que foram introduzidos por codificação de transformação perceptiva.
[0005] As abordagens de última geração para evitar artefatos de pré e pós-eco dentro de um codec incluem comutação de bloco de codec de transformação e modelagem de ruído temporal. Uma abordagem de última geração para suprimir artefatos de pré e pós-eco usando técnicas de pósprocessamento atrás de uma cadeia de codecs é publicada em [1] · [0006] [1] Imen Samaali, Mania Turki-Hadj Alauane, Gael Mahe, Temporal Envelope Correction for Attack Restoration in Low Bit-Rate Audio Coding, 17th European Signal Processing Conference (EUSIPCO 2009), Escócia, 24 a 28 de agosto de 2009; e [0007] [2] Jimmy Lapierre e Roch Lefebvre, PreEcho Noise Reduction In Frequency-Domain Audio Codecs, ICASSP 2017, New Orleans, EUA.
[0008] A primeira classe de abordagens precisa ser inserida na cadeia de codecs e não pode ser aplicada a posteriori em itens que foram codificados anteriormente (por exemplo, material sonoro arquivado). Embora a segunda abordagem seja essencialmente implantada como um pósprocessador para o decodificador, ela ainda precisa de informações de controle derivadas do sinal de entrada original no lado do codificador.
[0009] É um objetivo da presente invenção fornecer um conceito aprimorado para pós-processamento de um sinal de áudio.
Petição 870190097668, de 30/09/2019, pág. 13/194
3/114 [0010]
Esse objetivo é alcançado por um aparelho para pós-processamento de um sinal de áudio da reivindicação 1, um método para pós-processamento de um sinal de áudio da reivindicação 17 ou um programa de computador da reivindicação 18.
[0011]
Um aspecto da presente invenção baseia-se na constatação de que os transientes ainda podem ser localizados em sinais de áudio que foram submetidos a codificação e decodificação anteriores, uma vez que essas operações de codificação/decodificação anteriores, apesar de degradarem a qualidade perceptiva, não eliminam completamente os transientes. Portanto, um estimador de localização transiente é fornecido para estimar uma localização no tempo de uma porção transiente com o uso do sinal de áudio ou a representação de frequência de tempo do sinal de áudio. De acordo com a presente invenção, uma representação de frequência do sinal de áudio é manipulada para reduzir ou eliminar o pré-eco na representação de frequência no local no tempo anterior à localização transiente ou para realizar uma modelagem do tempo, representação de frequência na localização transiente e, dependendo da implantação, subsequente à localização transiente, de modo que um ataque da porção transiente seja amplificado.
[0012] De acordo com a presente invenção, uma manipulação de sinal é realizada dentro de uma representação de tempo-frequência do sinal de áudio com base na localização transiente detectada. Assim, uma
Petição 870190097668, de 30/09/2019, pág. 14/194
4/114 detecção transiente de localização bastante precisa e, por um lado, uma correspondente redução pré-eco útil e, por outro lado, uma amplificação de ataque podem ser obtidas através do processamento de operações no domínio da frequência, para que um tempo de frequência final A conversão resulta em uma suavização/distribuição automática de manipulações em todo o quadro e, devido à sobreposição, adiciona operações em mais de um quadro. No final, isso evita cliques audíveis devido à manipulação do sinal de áudio e, é claro, resulta em um sinal de áudio aprimorado sem pré-eco ou com uma quantidade reduzida de pré-eco, por um lado, e/ou com nitidez. ataques para as porções transientes, por outro lado.
[0013] As modalidades preferenciais se referem a um pós-processador não guiado que reduz ou mitiga as deficiências subjetivas da qualidade dos transientes que foram introduzidos pela codificação de transformação perceptiva.
[0014] De acordo com um aspecto adicional da presente invenção, o processamento de melhoria transiente é realizado sem a necessidade específica de um estimador de localização transiente. Nesse aspecto, é utilizado um conversor de espectro temporal para converter o sinal de áudio em uma representação espectral compreendendo uma sequência de quadros espectrais. Um analisador de predição calcula os dados do filtro de predição para uma predição por frequência dentro de um quadro espectral e um filtro de modelagem conectado subsequentemente controlado pelos dados
Petição 870190097668, de 30/09/2019, pág. 15/194
5/114 do filtro de predição molda o quadro espectral para aprimorar uma porção transiente dentro do quadro espectral. 0 pós-processamento do sinal de áudio é concluído com a conversão de espectro-tempo para converter uma sequência de quadros espectrais compreendendo um quadro espectral modelado de volta em um domínio de tempo.
[0015] Assim, mais uma vez, quaisquer modificações são feitas dentro de uma representação espectral, e não em uma representação no domínio do tempo, para que sejam evitados quaisquer cliques audíveis, etc., devido a um processamento no domínio do tempo. Além disso, devido ao fato de que um analisador de predição para calcular dados filtrados de predição para uma predição de frequência dentro de um quadro espectral é usado, o envelope de domínio de tempo correspondente do sinal de áudio é automaticamente influenciado pelas formas subsequentes. Particularmente, a modelagem é feita de modo que, devido ao processamento no domínio espectral e ao fato de a predição por frequência ser usada, o envelope no domínio do tempo do sinal de áudio seja aprimorado, ou seja, feito para que o envelope no domínio do tempo tem picos mais altos e vales mais profundos. Em outras palavras, o oposto da suavização é realizado pela modelagem que aprimora automaticamente os transientes sem a necessidade de localizar os transientes.
[0016] De preferência, dois tipos de dados de filtro de predição são derivados. Os primeiros dados do filtro de predição são dados de filtro de predição para uma característica de filtro nivelador e os segundos dados do
Petição 870190097668, de 30/09/2019, pág. 16/194
6/114 filtro de predição são dados de filtro de predição para uma característica de filtro de modelagem. Em outras palavras, a característica de filtro de nivelamento é uma característica de filtro inverso e a característica de filtro de modelagem é uma característica de filtro de síntese de predição. No entanto, mais uma vez, esses dois dados de filtro são derivados através da realização de uma predição de frequência dentro de um quadro espectral. De preferência, as constantes de tempo para a derivação dos diferentes coeficientes de filtro são diferentes, de modo que, para calcular os primeiros coeficientes de filtro de predição, é usada uma primeira constante de tempo e para a computação dos segundos coeficientes de filtro de predição, é usada uma segunda constante de tempo, em que a segunda constante de tempo é maior que a primeira constante de tempo. Esse processamento, mais uma vez, garante automaticamente que as partes transientes do sinal sejam muito mais influenciadas do que as partes não transientes. Em outras palavras, embora o processamento não dependa de um método explícito de detecção transiente, as porções transientes são muito mais influenciadas do que a porção não transiente por meio do achatamento e modelagem subsequente baseados em diferentes constantes de tempo.
[0017] Assim, de acordo com a presente invenção e devido à aplicação de uma predição por frequência, é obtido um tipo automático de procedimento de melhoria transiente, no qual o envelope no domínio do tempo é aprimorado (em vez de suavizado).
Petição 870190097668, de 30/09/2019, pág. 17/194
7/114 [0018] Modalidades da presente invenção são projetadas como pós-processadores em material sonoro previamente codificado operando sem exigir mais informações de orientação. Portanto, essas modalidades podem ser aplicadas em material sonoro arquivado que foi prejudicado por meio de codificação perceptiva que foi aplicada a esse material sonoro arquivado antes de ser arquivado.
[0019] As modalidades preferenciais do primeiro aspecto consistem nas seguintes etapas principais de processamento:
Detecção não guiada de locais transientes dentro dos sinais para encontrar os locais transientes;
Estimativa da duraçao e força pré-eco anteriores ao
transiente;
Derivar uma curva de ganho temporal adequada para silenciar
o artefato pré-eco;
Abaixamento/amortecimento do pré-eco estimado através da referida curva de ganho temporal adaptada antes do transiente (para mitigar o pré-eco); no ataque, atenue a dispersão do ataque;
Exclusão de bandas espectrais tonais ou outras estacionárias quase estacionárias do abaixamento.
[0020] As modalidades preferenciais do segundo aspecto consistem nas seguintes etapas principais de processamento:
Detecção não guiada de locais transientes nos sinais para encontrar os locais transientes (esta etapa é opcional);
Petição 870190097668, de 30/09/2019, pág. 18/194
8/114
Afiação de um envelope de ataque através da aplicação de um filtro de nivelamento de coeficientes lineares de predição de domínio de frequência (FD-LPC) e um filtro de modelagem subsequente de FD-LPC, o filtro de nivelamento representando um envelope temporal suavizado e o filtro de modelagem representando um envelope temporal menos suave, em que os ganhos de predição de ambos os filtros são compensados.
[0021] Uma modalidade preferencial é a de um pósprocessador que implementa aprimoramento transiente não guiado como uma última etapa em uma cadeia de processamento de várias etapas. Se outras técnicas de aprimoramento forem aplicadas, por exemplo, extensão de largura de banda não guiada, preenchimento de gap espectral etc., é preferível que o aprimoramento transiente seja o último da cadeia, de modo que o aprimoramento inclua e seja eficaz nas modificações de sinal introduzidas a partir de versões anteriores, estágios de aprimoramento.
[0022] Todos os aspectos da invenção podem ser implantados como pós-processadores, um, dois ou três módulos podem ser computados em série ou podem compartilhar módulos comuns (por exemplo, (I) STFT, detecção transiente, detecção de tonalidade) para eficiência computacional.
[0023] Deve-se notar que os dois aspectos aqui descritos podem ser usados independentemente um do outro ou juntos para pós-processamento de um sinal de áudio. O primeiro aspecto baseado na detecção de localização transiente e na redução pré-eco e na amplificação do ataque
Petição 870190097668, de 30/09/2019, pág. 19/194
9/114 pode ser usado para aprimorar um sinal sem o segundo aspecto. Do mesmo modo, o segundo aspecto baseado na análise de LPC sobre a frequência e a correspondente filtragem de forma no domínio da frequência não depende necessariamente de uma detecção transiente, mas aprimora automaticamente os transientes sem um detector explícito de localização transiente. Esta modalidade pode ser aprimorada por um detector de localização transiente, mas esse detector de localização transiente não é necessariamente necessário. Além disso, o segundo aspecto pode ser aplicado independentemente do primeiro aspecto. Além disso, deve ser enfatizado que, em outras modalidades, o segundo aspecto pode ser aplicado a um sinal de áudio que foi pósprocessado pelo primeiro aspecto. Alternativamente, no entanto, a ordem pode ser feita de forma que, na primeira etapa, o segundo aspecto seja aplicado e, posteriormente, o primeiro aspecto seja aplicado para pós-processar um sinal de áudio para melhorar sua qualidade de áudio removendo artefatos de codificação introduzidos anteriormente.
[0024] Além disso, deve-se notar que o primeiro aspecto tem basicamente dois subaspectos. O primeiro subaspecto é a redução de pré-eco que é baseada na detecção de localização transiente e o segundo subaspecto é a amplificação de ataque com base na detecção de localização transiente. De preferência, ambos os subaspectos são combinados em série, em que, ainda mais preferencialmente, a redução pré-eco é realizada primeiro e depois a amplificação do ataque. Em outras modalidades, no entanto,
Petição 870190097668, de 30/09/2019, pág. 20/194
10/114 os dois subaspectos diferentes podem ser implantados independentemente um do outro e podem até ser combinados com o segundo subaspecto, conforme o caso. Assim, uma redução pré-eco pode ser combinada com o procedimento de aprimoramento transiente baseado em predição sem qualquer amplificação de ataque. Em outras implantações, uma redução pré-eco não é pré-formada, mas uma amplificação de ataque é realizada junto com uma modelagem transiente subsequente baseada em LPC, não necessariamente exigindo uma detecção transiente de localização.
[0025] Em uma modalidade combinada, o primeiro aspecto, incluindo ambos os subaspectos e o segundo, é executado em uma ordem específica, em que essa ordem consiste em executar primeiro a redução pré-eco, executar a amplificação do ataque e executar o ataque baseado em LPC/procedimento de aprimoramento transiente com base em uma predição de um quadro espectral sobre a frequência.
[0026] As modalidades preferenciais da presente invenção são subsequentemente discutidas com relação aos desenhos anexos, nos quais:
[0027] A Figura 1 é um diagrama de blocos esquemático de acordo com o primeiro aspecto;
[0028] A Figura 2a é uma implantação preferencial do primeiro aspecto com base em um estimador de tonalidade; [0029] A Figura 2b é uma implantação preferencial do primeiro aspecto com base em uma estimativa de largura pré-eco;
Petição 870190097668, de 30/09/2019, pág. 21/194
11/114
[0030] A Figura 2c é uma modalidade preferencial
do primeiro aspecto com base em uma estimativa de limiar
pré-eco;
[0031] A Figura 2d é uma modalidade preferencial
do primeiro subaspecto relacionado à reduçao/eliminaçao
pré-eco;
[0032] A Figura 3a é uma implantação preferencial
do primeiro [0033] subaspecto; A Figura 3b é uma implantação preferencial
do primeiro [0034] subaspecto; A Figura 4 é uma implantação preferencial
adicional do primeiro subaspecto;
[0035] A Figura 5 ilustra os dois subaspectos do primeiro aspecto da presente invenção;
[0036] A Figura 6a ilustra uma visão geral sobre o segundo subaspecto;
[0037] A Figura 6b ilustra uma implantação preferencial do segundo subaspecto que depende de uma divisão em uma parte transiente e uma parte sustentada;
[0038] A figura 6c ilustra uma outra modalidade da
divisão da figura 6b;
[0039] A Figura 6d ilustra uma implantaçao
adicional do segundo subaspecto;
[0040] A Figura 6e ilustra uma outra modalidade do
segundo subaspecto;
[0041] A Figura 7 ilustra um diagrama de blocos de uma modalidade do segundo aspecto da presente invenção;
Petição 870190097668, de 30/09/2019, pág. 22/194
12/114 [0042] A Figura 8a ilustra uma implantação preferencial do segundo aspecto com base em dois dados de filtro diferentes;
[0043] A Figura 8b ilustra uma implantação preferencial do segundo aspecto para a computação dos dois dados diferentes do filtro de predição;
[0044] A figura 8c ilustra uma implantação preferencial do filtro de modelagem da figura 7;
[0045] A figura 8d ilustra uma implantação adicional do filtro de modelagem da figura 7;
[0046] A Figura 8e ilustra uma outra modalidade do segundo aspecto da presente invenção;
[0047] A Figura 8f ilustra uma implantação preferencial para a estimativa de filtro LPC com diferentes constantes de tempo;
[0048] A Figura 9 ilustra uma visão geral sobre uma implantação preferencial para um procedimento de pósprocessamento baseado no primeiro subaspecto e no segundo subaspecto do primeiro aspecto da presente invenção e, adicionalmente, no segundo aspecto da presente invenção realizado em uma saída de um procedimento com base no primeiro aspecto da presente invenção;
[0049] A Figura 10a ilustra uma implantação preferencial do detector de localização transiente;
[0050] A Figura 10b ilustra uma implantação preferencial para a computação da função de detecção da Figura 10a;
Petição 870190097668, de 30/09/2019, pág. 23/194
13/114 [0051] A Figura 10c ilustra uma implantação preferencial do dispositivo de partida da Figura 10a;
[0052] A Figura 11 ilustra uma configuração geral da presente invenção de acordo com o primeiro e/ou o segundo aspecto como um pós-processador de aprimoramento transiente;
[0053] A Figura 12.1 ilustra uma filtragem de
média móvel [0054] Λ A Figura 12.2 ilustra uma média recursive
unipolar e [0055] filtragem de passa alta; A Figura 12.3 ilustra uma prediçao de sinal
de tempo e [0056] residual; A Figura 12.4 ilustra uma autocorrelação do
erro de prediçao;
[0057] A Figura 12.5 ilustra uma estimativa do
envelope espectral com LPC;
[0058] A Figura 12.6 ilustra uma estimativa do
envelope temporal com LPC;
[0059] A Figura 12.7 ilustra um transiente de
ataque vs. transiente no domínio da frequência;
[0060] A Figura 12.8 ilustra espectros de um transiente no domínio da frequência;
[0061] A Figura 12.9 ilustra a diferenciação entre transiente, início e ataque;
[0062] A Figura 12.10 ilustra um limiar absoluto no mascaramento silencioso e simultâneo;
[0063] A Figura 12.11 ilustra um mascaramento temporal;
Petição 870190097668, de 30/09/2019, pág. 24/194
14/114
[0064] A Figura 12.12 ilustra uma estrutura
genérica de um codificador de áudio perceptivo;
[0065] A Figura 12.13 ilustra uma estrutura
genérica de um decodificador de áudio perceptivo;
[0066] A Figura 12.14 ilustra uma limitação de
largura de banda na codificação de áudio perceptiva;
[0067] A Figura 12.15 ilustra um caráter de ataque
degradado;
[0068] A Figura 12.16 ilustra um artefato pré-eco;
[0069] A Figura 13.1 ilustra um algoritmo de
aprimoramento transiente;
[0070] A Figura 13.2 ilustra uma detecção
transiente: Função de Detecção (Castanets);
[0071] A Figura 13.3 ilustra uma detecção
transiente: Função de Detecção (Funk);
[0072] A Figura 13.4 ilustra um diagrama de blocos
do método de redução pré-eco;
[0073] A Figura 13.5 ilustra uma detecção de
componentes tonais;
[0074] A Figura 13.6 ilustra uma estimativa
esquemática da largura pré-eco;
[0075] A Figura 13.7 ilustra uma estimativa de
largura pré-eco - exemplos;
[0076] A Figura 13.8 ilustra uma função de
estimativa de largura pré-eco-detecçao;
[0077] A Figura 13.9 ilustra uma redução pré-eco -
espectrogramas (Castanets);
Petição 870190097668, de 30/09/2019, pág. 25/194
15/114 [0078] A Figura 13.10 é uma ilustraçãoda determinação do limiar pré-eco (Castanets);
[0079] A Figura 13.11 é uma ilustraçãoda determinação do limiar pré-eco para um componente tonal;
[0080] A Figura 13.12 ilustra uma curvade desvanecimento paramétrica para a redução pré-eco;
[0081] A Figura 13.13 ilustra um modelo do limiar de pré-mascaramento;
[0082] A Figura 13.14 ilustra um cálculo da magnitude do alvo após a redução pré-eco [0083] A Figura 13.15 ilustra uma redução pré-eco
- espectrogramas (glockenspiel);
[0084] A Figura 13.16 ilustra um aprimoramento de ataque transiente adaptável;
[0085] A Figura 13.17 ilustra uma curva de desvanecimento para o aprimoramento de ataque transiente adaptável;
[0086] A Figura 13.18 ilustra as funções da janela de autocorrelação;
[0087] A Figura 13.19 ilustra uma função de
transferência no domínio do tempo do filtro de modelagem
LPC; e
[0088] A Figura 13.20 ilustra uma forma de
envelope LPC - sinal de entrada e saída.
[0089] A Figura 1 ilustra um aparelho para pósprocessamento de um sinal de áudio com o uso de uma detecção de localização transiente. Particularmente, o aparelho para pós-processamento é colocado, em relação a
Petição 870190097668, de 30/09/2019, pág. 26/194
16/114 uma estrutura geral, como ilustrado na Figura 11. Particularmente, a Figura 11 ilustra uma entrada de um sinal de áudio prejudicado mostrado em 10. Esta entrada é encaminhada para um pós-processador de aprimoramento transiente 20 e o pós-processador de aprimoramento transiente 20 emite um sinal de áudio aprimorado, como ilustrado em 30 na Figura 11.
[0090] O aparelho para pós-processamento 20 ilustrado na Figura 1 compreende um conversor 100 para converter o sinal de áudio em uma representação de frequência de tempo. Além disso, o aparelho compreende um estimador de localização transiente 120 para estimar uma localização no tempo de uma porção transiente. O estimador de localização transiente 120 opera usando a representação de frequência de tempo, como mostrado pela conexão entre o conversor 100 e a estimativa de localização transiente 120, ou usa o sinal de áudio dentro de um domínio de tempo. Esta alternativa é ilustrada pela linha tracejada na Figura 1. Além disso, o aparelho compreende um manipulador de sinal 140 para manipular a representação de frequência de tempo. O manipulador de sinal 140 é configurado para reduzir ou eliminar um pré-eco na representação de frequência de tempo em um local no tempo antes da localização transiente, onde a localização transiente é sinalizada pelo estimador de localização transiente 120. Alternativa ou adicionalmente, o manipulador de sinal 140 é configurado para realizar uma modelagem da representação de frequência de tempo, como ilustrado pela linha entre o conversor 100 e o manipulador
Petição 870190097668, de 30/09/2019, pág. 27/194
17/114 de sinal 140 na localização transiente, de modo que um ataque da porção transiente seja amplificado.
[0091] Assim, o aparelho para pós-processamento na Figura 1 reduz ou elimina um pré-eco e/ou molda a representação de frequência de tempo para amplificar um ataque da porção transiente.
[0092] A Figura 2a ilustra um estimador de tonalidade 200. Particularmente, o manipulador de sinal 140 da Figura 1 compreende um estimador de tonalidade 200 para detectar componentes de sinal tonal na representação de frequência de tempo que precede a porção transiente no tempo. Particularmente, o manipulador de sinal 140 é configurado para aplicar a redução ou eliminação pré-eco de uma maneira seletiva de frequência, de modo que, nas frequências em que os componentes do sinal tonal foram detectados, a manipulação do sinal é reduzida ou desligada em comparação com as frequências, onde o componentes de sinal tonal não foram detectados. Nessa modalidade, a redução/eliminação pré-eco, como ilustrado pelo bloco 220, é, portanto, ativada ou desativada seletivamente por frequência ou, pelo menos, gradualmente reduzida nos locais de frequência em certos quadros, onde componentes de sinal tonal foram detectados. Isso garante que os componentes do sinal tonal não sejam manipulados, pois, normalmente, os componentes do sinal tonal não podem, ao mesmo tempo, ser um pré-eco ou transiente. Isso se deve ao fato de que uma natureza típica do transiente é que um transiente é um efeito de banda larga que simultaneamente influencia muitas
Petição 870190097668, de 30/09/2019, pág. 28/194
18/114 caixas de frequências, enquanto, pelo contrário, um componente tonal é, com relação a um determinado quadro, um certo compartimento de frequência com um pico de energia, enquanto outras frequências nesse quadro têm apenas uma energia baixa.
[0093] Além disso, como ilustrado na Figura 2b, o manipulador de sinal 140 compreende um estimador de largura pré-eco 240. Este bloco está configurado para estimar uma largura no tempo do pré-eco anterior à localização transiente. Esta estimativa assegura que a porção de tempo correta antes da localização transiente seja manipulada pelo manipulador de sinal 140 em um esforço para reduzir ou eliminar o pré-eco. A estimativa da largura de pré-eco no tempo é baseada no desenvolvimento de uma energia de sinal do sinal de áudio ao longo do tempo, a fim de determinar um quadro inicial de pré-eco na representação de frequência de tempo compreendendo uma pluralidade de quadros de sinal de áudio subsequentes. Normalmente, esse desenvolvimento da energia do sinal de áudio ao longo do tempo será uma energia de sinal crescente ou constante, mas não será um desenvolvimento de energia em queda ao longo do tempo.
[0094] A Figura 2b ilustra um diagrama de blocos de uma modalidade preferencial do pós-processamento de acordo com um primeiro subaspecto do primeiro aspecto da presente invenção, isto é, onde uma redução ou eliminação pré-eco ou, como indicado na Figura 2d, é realizado um ducking pré-eco.
Petição 870190097668, de 30/09/2019, pág. 29/194
19/114 [0095] Um sinal de áudio prejudicado é fornecido em uma entrada 10 e esse sinal de áudio é inserido em um conversor 100 que é, de preferência, implantado como analisador de transformada de Fourier de curto prazo operando com um determinado comprimento de bloco e operando com blocos sobrepostos.
[0096] Além disso, o estimador de tonalidade 200, conforme discutido na Figura 2a, é fornecido para controlar um estágio de ducking de pré-eco 320 que é implantado a fim de aplicar uma curva de ducking de pré-eco 160 à representação de tempo-frequência gerada pelo bloco 100, a fim de reduzir ou eliminar pré-ecos. A saída do bloco 320 é então novamente convertida no domínio do tempo usando um conversor de frequência e tempo 370. Esse conversor de frequência e tempo é preferencialmente implantado como um bloco de síntese de transformada de Fourier inverso de curto prazo que opera com uma operação de adição de sobreposição para diminuir/diminuir de cada bloco para o próximo, a fim de evitar artefatos de bloqueio.
[0097] O resultado do bloco 370 é a saída do sinal de áudio aprimorado 30.
[0098] De preferência, o bloco de curva de desvio de pré-eco 160 é controlado por um estimador de pré-eco 150 que coleta características relacionadas ao pré-eco, como a largura de pré-eco, conforme determinado pelo bloco 240 da Figura 2b ou o limiar de pré-eco como determinado pelo bloco 260 ou outras características de pré-eco, como discutido em relação às Figuras 3a, 3b, 4.
Petição 870190097668, de 30/09/2019, pág. 30/194
20/114 [0099] De preferência, como descrito na Figura 3a, a curva de desvio de pré-eco 160 pode ser considerada uma matriz de ponderação que possui um certo fator de ponderação no domínio da frequência para cada compartimento de frequência de uma pluralidade de períodos de tempo, conforme gerado pelo bloco 100. A Figura 3a ilustra um estimador de limiar de pré-eco 260 que controla uma calculadora de matriz de ponderação espectral 300 correspondente ao bloco 160 na Figura 2d, que controla um ponderador espectral 320 correspondente à operação de abaixamento de pré-eco 320 da Figura 2d.
[0100] De preferência, o estimador de limiar de pré-eco 260 é controlado pela largura do pré-eco e também recebe informações sobre a representação de frequência de tempo. O mesmo vale para a calculadora da matriz de ponderação espectral 300 e, é claro, para o ponderador espectral 320 que, no final, aplica a matriz do fator de ponderação à representação de frequência de tempo, a fim de gerar um sinal de saída no domínio da frequência, em qual o pré-eco é reduzido ou eliminado. De preferência, a calculadora da matriz de ponderação espectral 300 opera em uma certa faixa de frequência igual ou superior a 700 Hz e preferencialmente igual ou superior a 800 Hz. Além disso, a calculadora da matriz de ponderação espectral 300 é limitada para calcular fatores de ponderação, de modo que apenas para a área de pré-eco que, adicionalmente, dependa de uma característica de adição de sobreposição aplicada pelo conversor 100 da Figura 1. Além disso, o estimador de
Petição 870190097668, de 30/09/2019, pág. 31/194
21/114 limiar de pré-eco 260 é configurado para estimar limiares de pré-eco para valores espectrais na representação de frequência de tempo dentro de uma largura de pré-eco como, por exemplo, determinado pelo bloco 240 da Figura 2b, em que o pré- limiares de eco indicam limites de amplitude dos valores espectrais correspondentes que devem ocorrer após a redução ou eliminação pré-eco, ou seja, que devem corresponder às amplitudes reais do sinal sem um pré-eco.
[0101] De preferência, o estimador de limiar de pré-eco 260 é configurado para determinar o limiar de préeco com o uso de uma curva de ponderação que tem uma característica crescente desde o início da largura de préeco até a localização transiente. Particularmente, essa curva de ponderação é determinada pelo bloco 350 na Figura 3b com base na largura do pré-eco indicada por Mpr. Em seguida, esta ponderação curva Cm é aplicada aos valores espectrais no bloco 340, onde os valores espectrais foram alisados antes por meio do bloco 330. Então, como ilustrado no bloco 360, os mínimos são selecionados como limites para todos os índices de frequência k. Assim, de acordo com uma modalidade preferencial, o estimador de limiar de pré-eco 260 é configurado para suavizar 330 a representação de frequência de tempo através de uma pluralidade de quadros subsequentes da representação na frequência no tempo e ponderar (340) a representação na frequência no tempo suavizada com o uso de uma curva de ponderação com uma característica crescente desde o início da largura do préeco até a localização transiente. Essa característica
Petição 870190097668, de 30/09/2019, pág. 32/194
22/114 crescente garante que um certo aumento ou diminuição de energia do sinal normal, ou seja, seja permitido um sinal sem um artefato de pré-eco.
[0102] Em uma modalidade adicional, o manipulador de sinal 140 é configurado para usar uma calculadora de pesos espectrais 300, 160 para calcular pesos espectrais individuais para valores espectrais da representação tempofrequência. Além disso, um ponderador espectral 320 é fornecido para a ponderação os valores espectrais da representação tempo-frequência usando os pesos espectrais para obter uma representação tempo-frequência manipulado. Assim, a manipulação é realizada dentro do domínio da
frequência usando pesos e ponderando caixas de
tempo/frequência individuais, conversor 100 da Figura 1. conforme gerado pelo
[0103] De preferência, os pesos espectrais são
computados como ilustrado na modalidade específica ilustrada na Figura 4. O peso espectral 320 recebe, como uma primeira entrada, a representação de frequência de tempo Xk,m e recebe, como uma segunda entrada, os pesos espectrais. Esses pesos espectrais são computados pela calculadora de pesos brutos 450 que é configurada para determinar pesos espectrais brutos usando um valor espectral real e um valor espectral alvo que são ambos inseridos neste bloco. A calculadora de pesos brutos opera como ilustrado na equação 4.18, ilustrada posteriormente, mas outras implantações que contam com um valor real, por um lado, e um valor alvo, por outro, também são úteis. Além
Petição 870190097668, de 30/09/2019, pág. 33/194
23/114 disso, alternativamente ou adicionalmente, os pesos espectrais são suavizados ao longo do tempo para evitar artefatos e para evitar mudanças que são muito fortes de um quadro para o outro.
[0104] De preferência, o valor alvo inserido na calculadora de pesos brutos 450 é computado especificamente por um modelador de pré-mascaramento 420. O modelador de pré-mascaramento 420 opera preferencialmente de acordo com a equação 4.26 definida posteriormente, mas outras implantações também podem ser usadas que dependem de efeitos psicoacústicos e, particularmente, dependem de uma característica de pré-mascaramento que normalmente ocorre para um transiente. O modelador de pré-mascaramento 420 é, por um lado, controlado por um estimador de máscara 410 que calcula especificamente uma máscara que se baseia no efeito acústico do tipo pré-mascaramento. Em uma modalidade, o estimador de máscara 410 opera de acordo com a equação 4.21 descrita mais adiante, mas, alternativamente, outras estimativas de máscara podem ser aplicadas que se baseiam no efeito de pré-mascaramento psicoacústico.
[0105] Além disso, um atenuador 430 é usado para redução gradual ou eliminação do pré-eco com o uso de uma curva de desbotamento sobre uma pluralidade de quadros no início da largura do pré-eco. Essa curva de desvanecimento é preferencialmente controlada pelo valor real em um determinado quadro e pelo limite pré-eco determinado thk. O atenuador 430 garante que a redução/eliminação pré-eco não apenas inicie de uma só vez, mas seja suavemente desbotada.
Petição 870190097668, de 30/09/2019, pág. 34/194
24/114
Uma implantação preferencial é ilustrada mais tarde em conexão com a equação 4.20, mas outras operações de desvanecimento também são úteis. De preferência, o atenuador 430 é controlado por um estimador de curva de desbotamento 440 controlado pela largura de pré-eco Mpr^, conforme determinado, por exemplo, pelo estimador de largura de pré-eco 240. Modalidades do estimador de curva de desvanecimento operam de acordo com a equação 4.19 discutida mais adiante, mas outras implantações também são úteis. Todas essas operações pelos blocos 410, 420, 430,
440 sao úteis para calcular um determinado valor-alvo, de
modo que, no final, juntamente com o valor real, um
determinado peso possa ser determinado pelo bloco 450, que
é aplicado ao tempo. representação de frequência e,
particularmente, ao compartimento de tempo/frequência específico subsequente a uma suavização preferencial.
[0106] Naturalmente, um valor alvo também pode ser determinado sem qualquer efeito psicoacústico pré-mascarado e sem desbotamento. Então, o valor alvo seria diretamente o limiar thk, mas foi verificado que os cálculos específicos executados pelos blocos 410, 420, 430, 440 resultam em uma redução pré-eco aprimorada no sinal de saída do peso espectral 320.
[0107] Assim, é preferível determinar o valor espectral alvo para que o valor espectral com uma amplitude abaixo de um limiar de pré-eco não seja influenciado pela manipulação do sinal ou para determinar os valores espectrais alvo com o uso do modelo de pré-mascaramento
Petição 870190097668, de 30/09/2019, pág. 35/194
25/114
410, 420 para que um amortecimento de um valor espectral na área de pré-eco é reduzido com base no modelo de prémascaramento 410.
[0108] De preferência, o algoritmo realizado no conversor 100 é para que a representação de frequência de tempo compreenda valores espectrais de valor complexo. Por outro lado, no entanto, o manipulador de sinal é configurado para aplicar valores de ponderação espectral com valor real aos valores espectrais de valor complexo, de modo que, após a manipulação no bloco 320, apenas as amplitudes foram alteradas, mas as fases são as mesmo que antes da manipulação.
[0109] A Figura 5 ilustra uma implantação preferencial do manipulador de sinal 140 da Figura 1. Particularmente, o manipulador de sinal 140 compreende o redutor/eliminador de pré-eco operando antes da localização transiente ilustrada em 220 ou compreende um amplificador de ataque operando após/na localização transiente, como ilustrado pelo bloco 500. Ambos os blocos 220, 500 são controlados por uma localização transiente, conforme determinado pelo estimador de localização transiente 120. O redutor de pré-eco 220 corresponde ao primeiro subaspecto e o bloco 500 corresponde ao segundo subaspecto de acordo com o primeiro aspecto da presente invenção. Ambos os aspectos podem ser usados alternativamente entre si, ou seja, sem o outro aspecto, conforme ilustrado pelas linhas tracejadas na Figura 5. Por outro lado, no entanto, é preferível usar ambas as operações na ordem específica ilustrada na Figura
Petição 870190097668, de 30/09/2019, pág. 36/194
26/114
5, ou seja, que o redutor de pré-eco 220 esteja operacional e a saída do redutor/eliminador de pré-eco 220 seja inserida na o amplificador de ataque 500.
[0110] A Figura 6a ilustra uma modalidade preferencial do amplificador de ataque 500. Mais uma vez, o amplificador de ataque 500 compreende um computador espectral pesos 610 e uma espectral subsequentemente ligado ponderador 620. Assim, o manipulador de sinal é configurado para amplificar 500 valores espectrais dentro de um quadro transiente da representação de frequência-tempo e, de preferência, para amplificar adicionalmente valores espectrais dentro de um ou mais quadros, seguindo o quadro transiente dentro da representação de tempo-frequência.
[0111] De preferência, o manipulador de sinal 140 é configurado para amplificar apenas valores espectrais acima de uma frequência mínima, onde essa frequência mínima é maior que 250 Hz e menor que 2 KHz. A amplificação pode ser realizada até a frequência da borda superior, pois os ataques no início da localização transiente geralmente se estendem por toda a faixa de alta frequência do sinal.
[0112] De preferência, o manipulador de sinal 140 e, particularmente, o amplificador de ataque 500 da Figura 5 compreende um divisor 630 para dividir o quadro dentro de uma parte transiente, por um lado, e uma parte sustentada, por outro lado. A parte transiente é então sujeita à ponderação espectral e, adicionalmente, os pesos espectrais também são computados dependendo das informações da parte transiente. Então, apenas a parte transiente é
Petição 870190097668, de 30/09/2019, pág. 37/194
27/114 espectralmente ponderada e o resultado do bloco 610, 620 na Figura 6b, por um lado, e a parte sustentada como saída pelo divisor 630 são finalmente combinados dentro de um combinador 640, a fim de emitir um sinal de áudio onde um ataque foi amplificado. Assim, o manipulador de sinal 140 está configurado para dividir 630 a representação de frequência de tempo na localização transiente em uma parte sustentada e a parte transiente e, de preferência, dividir adicionalmente quadros subsequentes à localização transiente. O manipulador de sinal 140 é configurado para amplificar apenas a parte transiente e não amplificar ou manipular a parte sustentada.
[0113] Como afirmado, o manipulador de sinal 140 é configurado para também amplificar uma porção de tempo da representação de frequência de tempo subsequente à localização transiente no tempo com o uso de uma característica de desvanecimento 685, como ilustrado pelo bloco 680. Particularmente, o computador pesos espectrais 610 compreende um fator de ponderação determinador 680 recebe informação sobre a parte transiente, por um lado, sobre a parte prolongada, por outro lado, sobre o desvanecimento curva G m 685 e de preferência também receber informação sobre a amplitude do valor espectral correspondente Xk,m. De preferência, o determinante do fator de ponderação 6 80 opera de acordo com a equação 4. 29 discutida posteriormente, mas outras implantações que contam com informações da parte transiente, da parte
Petição 870190097668, de 30/09/2019, pág. 38/194
28/114 sustentada e da característica de desvanecimento 685 também são úteis.
[0114] Após a determinação do fator de ponderação 680, uma suavização através da frequência é realizada no bloco 690 e, então, na saída do bloco 690, os fatores de ponderação para os valores de frequência individuais estão disponíveis e estão prontos para serem usados pelo peso espectral 620 em para ponderar espectralmente a representação de tempo/frequência. De preferência, a parte amplificada como determinada, por exemplo, por um máximo das características de desvanecimento 685 é predeterminada e entre 300% e 150%. Em uma modalidade preferencial, como fator de amplificação máximo de 2,2 é usado que diminui, ao longo de um número de tramas, até um valor de 1, onde, conforme ilustrado na Figura 13.17, essa diminuição é obtida, por exemplo, após 60 tramas. Embora a Figura 13.17 ilustre um tipo de decaimento exponencial, outros decaimentos, como um decaimento linear ou um decaimento de cosseno, também podem ser usados.
[0115] De preferência, o resultado da manipulação de sinal 140 é convertido do domínio da frequência no domínio do tempo usando um conversor de tempo espectral 370 ilustrado na Figura 2d. De preferência, o conversor de tempo espectral 370 aplica uma operação de sobreposiçãoadição envolvendo pelo menos dois quadros adjacentes da representação de frequência de tempo, mas também podem ser utilizados procedimentos de sobreposição múltipla, em que é usada uma sobreposição de três ou quatro quadros.
Petição 870190097668, de 30/09/2019, pág. 39/194
29/114 [0116] De preferência, o conversor 100, por um lado, e o outro conversor 370, por outro lado, aplicam o mesmo tamanho de salto entre 1 e 3 ms ou uma janela de análise com um comprimento de janela entre 2 e 6 ms. E, de preferência, a faixa de sobreposição, por um lado, o tamanho do salto, por outro lado, ou as janelas aplicadas pelo conversor de frequência e tempo 100 e pelo conversor de frequência e tempo 370 são iguais entre si.
[0117] A Figura 7 ilustra um aparelho para pósprocessamento 20 de um sinal de áudio de acordo com o segundo aspecto da presente invenção. O aparelho compreende um conversor de espectro temporal 700 para converter o sinal de áudio em uma representação espectral compreendendo uma sequência de quadros espectrais. Além disso, é utilizado um analisador de predição 720 para calcular dados de filtro de predição para uma predição por frequência dentro do quadro espectral. O analisador de predição que opera sobre a frequência 720 gera dados de filtro para um quadro e esses dados de filtro para um quadro são usados por um quadro 740 de filtro de modelagem para aprimorar uma porção transiente dentro do quadro espectral. A saída do filtro de modelagem 740 é encaminhada para um conversor de espectro-tempo 760 para converter uma sequência de quadros espectrais compreendendo um quadro espectral moldado em um domínio de tempo.
[0118] De preferência, o analisador de predição 720, por um lado, ou o filtro de modelagem 740, por outro lado, operam sem uma detecção de localização transiente
Petição 870190097668, de 30/09/2019, pág. 40/194
30/114 explícita. Em vez disso, devido à predição de frequência aplicada pelo bloco 720 e devido à configuração para aprimorar a porção transiente gerada pelo bloco 740, um envelope de tempo do sinal de áudio é manipulado para que uma porção transiente seja aprimorada automaticamente, sem nenhuma detecção transiente específica. No entanto, conforme o caso, o bloco 720, 740 também pode ser suportado por uma detecção explícita de localização transiente, a fim de garantir que quaisquer artefatos prováveis não sejam impressos no sinal de áudio em porções não transientes.
[0119] De preferência, o analisador de predição 720 é configurado para calcular os primeiros dados do filtro de predição 720a para uma característica de filtro de nivelamento 740a e os segundos dados do filtro de predição 720b para uma característica de filtro de modelagem 740b, como ilustrado na Figura 8a. Em particular, o analisador de predição 720 recebe, como entrada, um quadro completo da sequência de quadros e, em seguida, executa uma operação para a análise de predição por frequência, a fim de obter a característica de dados do filtro de nivelamento ou gerar a característica do filtro de modelagem. A característica de filtro de nivelamento é a característica de filtro que, no final, se assemelha a um filtro inverso que também pode ser representado por uma característica F40 (resposta de impulso finito) 740a, na qual os segundos dados de filtro para a modelagem correspondem a um filtro de síntese ou IIR característica (IIR = Resposta Infinita ao Impulso) ilustrada em 740b.
Petição 870190097668, de 30/09/2019, pág. 41/194
31/114 [0120] De preferência, o grau de modelagem representado pelos segundos dados de filtro 720b é maior que o grau de nivelamento 720a representado pelos primeiros dados de filtro, de modo que, após a aplicação do filtro de modelagem com ambas as características 740a, 740b, uma espécie de é obtida sobredimensionagem do sinal que resulta em um envelope temporal sendo menos plano do que o envelope temporal original. É exatamente isso que é necessário para um aprimoramento transiente.
[0121] Embora a Figura 8a ilustra uma situação na qual são computadas duas características de filtro diferentes, um filtro de modelagem e um filtro de nivelamento, outras modalidades dependem de uma única característica de filtro de modelagem. Isto se deve ao fato de que um sinal também pode, é claro, ser modelado sem um achatamento anterior, de modo que, no final, mais uma vez seja obtido um sinal sobreformado que automaticamente transiente melhorado. Este efeito da sobreposição pode ser controlado por um detector de localização transiente, mas esse detector de localização transiente não é necessário devido a uma implantação preferencial de uma manipulação de sinal que influencia automaticamente as partes não transientes menos do que as partes transientes. Ambos os procedimentos dependem totalmente do fato de que a predição por frequência é aplicada pelo analisador de predição 720, a fim de obter informações sobre o envelope de tempo do sinal no domínio do tempo que é então manipulado, a fim de melhorar a natureza transiente do sinal de áudio.
Petição 870190097668, de 30/09/2019, pág. 42/194
32/114
[0122] Nessa modalidade, um sinal de
autocorrelação 800 é computado a partir de um quadro
espectral, como ilustrado em 800 na Figura 8b. Uma j anela
com uma primeira constante de tempo é então usada para exibir o resultado do bloco 800, como ilustrado no bloco 802. Além disso, uma janela com uma segunda constante de tempo maior que a primeira constante de tempo é usada para fazer janelas do sinal de autocorrelação obtido pelo bloco 800, como ilustrado no bloco 804. A partir do sinal de resultado obtido do bloco 802, os primeiros dados do filtro de predição são computados como ilustrado pelo bloco 806, preferencialmente aplicando uma recursão de LevinsonDurbin. Da mesma forma, os segundos dados do filtro de predição 808 são computados a partir do bloco 804 com a maior constante de tempo. Mais uma vez, o bloco 808 utiliza preferencialmente o mesmo algoritmo de Levinson-Durbin.
[0123] Devido ao fato de o sinal de autocorrelação estar em janela com janelas com duas constantes de tempo diferentes, é obtido o aprimoramento transiente automático. Normalmente, a janela é tal que as diferentes constantes de tempo têm impacto apenas em uma classe de sinais, mas não na outra classe de sinais. Os sinais transientes são realmente influenciados por meio de duas constantes de tempo diferentes, enquanto os sinais não transientes têm um sinal de autocorrelação que, ao se movimentar com a segunda maior constante de tempo, resulta quase na mesma saída que se aproxima da primeira vez. Com respeito às Figuras 13 e 18, isso se deve ao fato de que sinais não transientes não
Petição 870190097668, de 30/09/2019, pág. 43/194
33/114
apresentam picos significativos ; em intervalos de tempo
altos e, portanto, o uso de duas constantes de tempo
diferentes não faz diferença em relação a esses sinais. No
entanto, i sso é diferente para sinais transient es . Sinais
transientes têm picos em intervalos de tempo mais altos e, portanto, aplicando diferentes constantes de tempo ao sinal de autocorrelação que realmente apresenta os picos em intervalos de tempo mais altos, como ilustrado nas Figuras 13 e 18 às 1300, por exemplo, resulta em saídas diferentes para as diferentes operações de janelas com constantes de tempo diferentes.
[0124] Dependendo da implantação, o filtro de
modelagem pode ser implantado de várias maneiras
diferentes. Uma maneira é ilustrada na Figura 8c e é uma
cascata de um subfiltro de nivelamento controlado pelos
primeiros dados de filtro 806, como ilustrado em 809, e um subfiltro de modelagem controlado pelos segundos dados de filtro 808, como ilustrado em 810, e um compensador de ganho 811 que também é implantado em cascata.
[0125] No entanto, as duas características de filtro diferentes e a compensação de ganho também podem ser implantadas dentro de um único filtro de modelagem 740 e a característica de filtro combinada do filtro de modelagem 740 é computada por um combinador de características de filtro 820 confiando, por um lado, tanto em primeiro como
em outro. segundo dados de filtro e, adicionalmente,
confiando, por outro lado, nos ganhos dos primeiros dados
de filtro e dos segundos dados de filtro para finalmente
Petição 870190097668, de 30/09/2019, pág. 44/194
34/114 também implementar também a função de compensação de ganho 811. Assim, em relação à Figura 8d modalidade na qual um filtro combinado é aplicado, o quadro é inserido em um único filtro de modelagem 740 e a saída é o quadro moldado que possui as duas características de filtro, por um lado, e a funcionalidade de compensação de ganho, por outro lado, implantado nele.
[0126] A Figura 8e ilustra uma implantação adicional do segundo aspecto da presente invenção, em que a funcionalidade do filtro de moldagem combinado 740 da Figura 8d é ilustrada de acordo com a Figura 8c, mas devese notar que a Figura 8e pode realmente ser uma implantação de três estágios separados 809, 810, 811, mas, ao mesmo tempo, pode ser vista como uma representação lógica que é praticamente implantada usando um único filtro com uma característica de filtro com um nominador e um denominador, nos quais o nominador possui a característica de filtro inverso/nivelador e o denominador tem a característica de síntese e na qual, adicionalmente, uma compensação de ganho é incluída como, por exemplo, ilustrado na equação 4. 33 que é determinada posteriormente.
[0127] A Figura 8f ilustra a funcionalidade da janela obtida pelo bloco 802, 804 da Figura 8b, na qual r(k) é o sinal de autocorrelação e wlag é a janela r' (k) é a saída da janela, ou seja, a saída dos blocos 802, 804 e, adicionalmente, uma função de janela é exemplarmente ilustrada que, no final, representa um filtro de decaimento exponencial com duas constantes de tempo diferentes que
Petição 870190097668, de 30/09/2019, pág. 45/194
35/114 podem ser definidas usando um determinado valor para a na Figura 8f.
[0128] Assim, aplicar uma janela ao valor de autocorrelação anterior à recursão de Levinson-Durbin resulta em uma expansão do suporte de tempo em picos temporais locais. Em particular, a expansão com o uso de uma janela gaussiana é descrita pela Figura 8f. As modalidades aqui baseiam-se na ideia de derivar um filtro de achatamento temporal que tem uma maior expansão do suporte de tempo em envelopes não planos locais do que o filtro de modelagem subsequente por meio da escolha de diferentes valores 4a. Juntos, esses filtros resultam em um aumento nos ataques temporais no sinal. No resultado, há uma compensação para os ganhos de predição do filtro, de modo que a energia espectral da região espectral filtrada seja preservada.
[0129] Assim, é obtido um fluxo de sinal de uma configuração de ataque baseada no LPC no domínio da frequência, como ilustrado nas Figura 8a a 8e.
[0130] A Figura 9 ilustra uma implantação preferencial de modalidades que se baseiam no primeiro aspecto ilustrado do bloco 100 a 370 na Figura 9 e em um segundo aspecto subsequentemente executado ilustrado pelos blocos 700 a 760. De preferência, o segundo aspecto baseiase em uma conversão separada do espectro temporal que utiliza um tamanho de quadro grande, como um tamanho de quadro de 512 e a sobreposição de 50%. Por outro lado, o primeiro aspecto depende de um tamanho de quadro pequeno
Petição 870190097668, de 30/09/2019, pág. 46/194
36/114 para obter uma melhor resolução de tempo para a detecção de localização transiente. Um tamanho de quadro menor é, por exemplo, um tamanho de quadro de 128 amostras e uma sobreposição de 50%. Geralmente, no entanto, é preferível usar conversões de espectro temporal separadas para o primeiro e o segundo aspectos nos quais o aspecto do tamanho do quadro é maior (a resolução do tempo é menor, mas a resolução da frequência é maior) enquanto a resolução do tempo para o primeiro aspecto é mais alto com uma resolução de frequência mais baixa correspondente.
[0131] A Figura 10a ilustra uma implantação preferencial do estimador de localização transiente 120 da Figura 1. O estimador de localização transiente 120 pode ser implantado como conhecido na técnica, mas, na modalidade preferencial, conta com uma calculadora de função de detecção 1000 e o selecionador de onset 1100 conectado subsequentemente 1100, de modo que, no final, um valor binário para cada quadro indicando uma presença é obtido um onset transiente no quadro.
[0132] A calculadora da função de detecção 1000 baseia-se em várias etapas ilustradas na Figura 10b. Estes são um resumo dos valores de energia no bloco 1020. No bloco 1030, é realizada uma computação dos envelopes temporais. Posteriormente, na etapa 1040, é realizada uma filtragem passa alta de cada envelope temporal do sinal de passagem de banda. Na etapa 1050, é realizada uma soma dos sinais filtrados passa-alto resultantes na direção da frequência e no bloco 1060 é realizada uma contabilização
Petição 870190097668, de 30/09/2019, pág. 47/194
37/114 do pós-mascaramento temporal, para que, no final, seja obtida uma função de detecção.
[0133] A Figura 10c ilustra uma maneira preferencial de escolher o inicio da função de detecção como obtida pelo bloco 1060. Na etapa 1110, os máximos locais (picos) são encontrados na função de detecção. No
bloco 1120, uma comparação de limite é realizada para
manter apenas os picos para a acusação adicional que está
acima de um determinado limite mínimo.
[0134] No bloco 1130, a área ao redor de cada pico
é varrida em busca de um pico maior, a fim de determinar a partir dessa área os picos relevantes. A área em torno dos picos se estende uma série de L B quadros antes do pico e um número de quadros 1 subsequente para o pico.
[0135] No bloco 1140, picos próximos são descartados de modo que, no final, os índices de quadro de onset transiente m ± sejam determinados.
[0136] Posteriormente, técnicas e auditivo conceitos, que são utilizados nos métodos propostos de aprimoramento transiente são revelados. Primeiro, algumas técnicas básicas de processamento de sinal digital a respeito de operações selecionadas de filtragem e predição linear serão introduzidas, seguido por uma definição do transientes. Subsequentemente, o conceito psicoacústico do mascaramento auditivo é explicado, que é explorado na codificação perceptivo de conteúdo de áudio. Essa porção fecha com uma breve descrição do um codec de áudio perceptivo genérico codec de áudio e os artefatos de
Petição 870190097668, de 30/09/2019, pág. 48/194
38/114 compactaçao induzida, que sao submetidos a métodos de aprimoramento de acordo com a invenção.
FILTROS DE SUAVIZAÇAO E DIFERENCIAÇÃO
[0137] Os métodos de aprimoramento transiente
descritos posteriormente frequentemente usam algumas
operações particulares de filtragem. A introdução a esses
filtros será apresentada na seçao abaixo. Referir-se a [9,
10] para uma descrição mais detalhada. A Equaçao (2.1)
descreve filtro passa-baixa de resposta de impulso finito (FIR) que computa o valor de amostra de saída atual yn como o valor médio das amostras atual e do passado de um sinal de entrada xn. 0 processo de filtragem desse assim chamado
filtro de média móvel é dado por M® * *''v
[0138] em que p é a ordem do filtro. A imagem superior da Figura 12.1 mostra o resultado da operação de filtro de média móvel na Equação (2.1) para um sinal de entrada xn. O sinal de saída yn na imagem inferior foi computado aplicando o filtro da média móvel duas vezes em xn, na direção para frente e para trás. Isso compensa o atraso do filtro e também resulta em um sinal de saída mais suave ynr pois xn é filtrado duas vezes.
[0139] Uma maneira diferente de suavizar um sinal é aplicar um filtro de média recursive de polo único, que é dado pela seguinte equação de diferença:
Petição 870190097668, de 30/09/2019, pág. 49/194
39/114 yí? & I (I -Φ) -.)¾...í í [0140] com yo = Xi e Ν denotando ο número de amostras em xn. A Figura 12.2 (a) exibe o resultado de um filtro de média recursive de polo único aplicado a uma função retangular. Em (b) , o filtro foi aplicado em ambas _ , , , max as direções para suavizar ainda mais o sinal. Ao tomar yn min e yn como ;,ρ':ίΛ - ™ {
1¾>
~ $$ (yí;: x) - f \ ’ [0141] em que xn e yn sao os sinais de entrada e saída da Equação (2.2), respectivamente, os sinais de saída maxmin resultantes yn e yn seguem diretamente a fase de ataque ou decaimento do sinal de entrada. A Figura 12.2 (c) mostra maxmin yn como a curva preta solida e yn como a curva preta tracejada.
[0142] Os fortes incrementos ou decréscimos de amplitude de um sinal de entrada xn podem ser detectados filtrando xn com um filtro passa-alta FIR, como [0143] com b = [1, -1] ou b = [1, 0, ..., -1]. O sinal resultante após a filtragem passa-alta da função retangular é mostrado na Figura 12.2 (d) como a curva preta.
Petição 870190097668, de 30/09/2019, pág. 50/194
40/114
PREDIÇAO LINEAR [0144] A predição linear (LP) é um método útil para a codificação de áudio. Alguns estudos anteriores descrevem particularmente sua capacidade de modelar o processo de produção da fala [11, 12, 13], enquanto outros também o aplicam para a análise de sinais de áudio em geral [14, 15, 16, 17] . A seção a seguir é baseada em [11, 12, 13, 15, 18] .
[0145] Na codificação preditiva linear (LPC), um sinal de tempo amostrado s ( nT) — = sn, sendo T o período de amostragem, pode ser previsto por uma combinação linear ponderada de seus valores passados na forma de [0146] em que n é o índice de tempo que identifica uma determinada amostra de tempo do sinal, p é a ordem de predição, ar, com 1 < r < p, são os coeficientes de predição linear (e, nesse caso, os coeficientes de filtro de um filtro de resposta ao impulso infinito polipolar (HR) , G é o fator de ganho e un é um sinal de entrada que excita o modelo ao realizar a transformada z da Equação (2.6), a função de transferência polipolar H (z) do sistema correspondente é em que
Petição 870190097668, de 30/09/2019, pág. 51/194
41/114 [0147] O filtro UR H(z) é chamado de filtro de síntese ou LPC, enquanto o filtro FIR A (z ) = 1-/ é chamado de filtro inverso. Usando os coeficientes de prediçao ar como os coeficientes de filtro de um filtro FIR, uma predição do sinal sn pode ser obtida por í„ ou = .«tÉ0·'·1 *-WM· .-.i .>·% [0148] Isso resulta em um erro de predição entre o sinal previsto “^e o sinal real sn que pode ser formulado por
Figure BR112019020515A2_D0001
[0149] com a representação equivalente do erro de prediçao no domínio z sendo
- <4 s(4( i - p(4] 3(4« [0150] A Figura 12.3 mostra o sinal original sn, o sinal previsto $ne o sinal de diferença en,pr com uma ordem de previsão p = 10. Esse sinal de diferença en,p também é chamado de residual. Na Figura 2.4, a função de autocorrelação do resíduo mostra decorrelação quase completa entre amostras vizinhas, o que indica que en,P pode ser visto tão próximo quanto ao ruído gaussiano branco. Usando en,p da Equação (2.10) como o sinal de entrada un na Equação (2.6) ou filtrando Ep( z ) da Equação (2.11) com o filtro polipolar H (z) da Equação (2.7) (com G = 1) o sinal original pode ser perfeitamente recuperado por
Petição 870190097668, de 30/09/2019, pág. 52/194
42/114
5(<) respectivamente .
[0151] Com o aumento da ordem de previsão p, a energia do residual diminui. Além do número de coeficientes preditores, a energia residual também depende dos próprios coeficientes. Portanto, o problema na codificação preditiva linear é como obter os coeficientes de filtro ideais ar, para que a energia do resíduo seja minimizada. Primeiro, tomamos o erro quadrado total (energia total) do resíduo de um bloco de sinal em janela xn = sn wn, onde m é uma função da janela com largura N e sua previsão A por
Figure BR112019020515A2_D0002
com [0, else.
[0152] Para minimizar o erro quadrático total E, o gradiente da Equação (2.14) deve ser computado em relação a ç/.fe cada ar e definido como 0 definindo
Isso leva às chamadas equações normais:
V A V.xík. s· Aa ~ V.Ç A.;1 < í < p <···.·. Ϊ » Ma 1 Ú Âí JA &·χ·£
Petição 870190097668, de 30/09/2019, pág. 53/194
43/114
Ri representa o autocorrelação do sinal xn como [0153] A Equação (2.17) forma um sistema de p equações lineares, a partir do qual os coeficientes de previsão desconhecidos ar, 1 < r < p, que minimizam o erro quadrático total, podem ser computados. Com a Equação (2.14) e a Equação (2.17), o erro quadrático total mínimo Ep pode ser obtido por
Y st Y Cr Y/A 5 v [0154] Uma maneira rápida de resolver as equações normais na Equação (2.17) é o algoritmo de Levinson-Durbin fl9]. O algoritmo funciona recursivamente, o que traz a vantagem de que, com o aumento da ordem de previsão, o mesmo produz os coeficientes preditores da ordem atual e de todas as ordens anteriores inferiores a p. Primeiro, o algoritmo é inicializado definindo
Eo — Ro.
[0155] Posteriormente, para as ordens de previsão m = 1, ..., p, os coeficientes de previsão ar (m), que são os coeficientes ar da ordem atual m, sao computados com os coeficientes de correlação parciais pm, como segue:
Petição 870190097668, de 30/09/2019, pág. 54/194
44/114 [0156] A cada iteração, o erro quadrático total mínimo Em da ordem atual m é computado na Equação (2,24). Como Em é sempre positivo e com Eo = Ro, pode-se demonstrar que, com ordem crescente m, a energia total mínima diminui, de modo a ter [0157] Portanto, a recursão traz outra vantagem, pois a computação dos coeficientes preditores pode ser interrompido quando Em cair abaixo de um determinado limite.
ESTIMATIVA DE ENVELOPE NO DOMÍNIO DO TEMPO E FREQUÊNCIA [0158] Uma característica importante dos filtros
LPC é sua capacidade de modelar as características de um sinal no domínio da frequência, se os coeficientes do filtro forem computados em um sinal de tempo. Equivalente à previsão da sequência temporal, a previsão linear aproxima o espectro da sequência. Dependendo da ordem de previsão, os filtros LPC podem ser usados para calcular um envelope mais ou menos detalhado da resposta de frequência dos sinais. A seção a seguir é baseada em [11, 12, 13, 14, 16, 17, 20, 21].
[0159] Da Equação (2.13), pode-se ver que o espectro de sinal original pode ser perfeitamente reconstruído a partir do espectro residual, filtrando o mesmo com o filtro polipolar H(z). Configurando un = δη na Equação (2.6), em que δη é a função delta do Dirac, o
Petição 870190097668, de 30/09/2019, pág. 55/194
45/114 espectro de sinal S( z ) pode ser modelado pelo filtro polipolar da Equação S(z) (2.7) como <. .. , s O'
Λί e.: /'f í ç) :: ·<>
[0160] Com os coeficientes de previsão sendo computados usando o algoritmo Levinson-Durbin na Equação (2.21) - (2.24), apenas o fator de ganho G deve ser determinado. Com un = δη Equação (2.6) torna-se / prfp;.. s·- t C/Ai-S [0161] onde hn é a resposta ao impulso do filtro de síntese H(z). De acordo com a Equação (2.17), a autocorrelação da resposta ao impulso hn é ? s l £ í £ [0162] Pela quadrature de hn na Equação (2.27) e, somando todos os η, o 0-ésimo coeficiente de autocorrelação da resposta de impulso do filtro de síntese se torna $ks5· /ç; · 5 íp 5' 5 íçXf 'FU'.
[0163] Visto que Ro=Zn$n=E, ° 0-ésimo coeficiente de autocorrelação corresponde à energia total do sinal sn. Com a condição de que as energias totais no espectro de sinal original S(z) e sua aproximação sejam iguais, seguese Ro = Ro · Com essa conclusão, a relaçao entre as autocorrelações do sinal sn e a resposta ao impulso hn na Equação (2.17) e na Equação (2.28) torna-se respectivamente
Petição 870190097668, de 30/09/2019, pág. 56/194
46/114
para 0 d i d p. 0 fator de ganho G pode ser computado
remodelando a Equaçao (2.29) . - < e com - G =« a Equaçao (2.19) s/£,.. como
[0164] A Figura 12 . 5 mostra o espectro S(z) de um
quadro (1024 amostras) de um sinal de fala Sn. A curva
preta mais suave é o envelope espectral S(z) computado de acordo com a Equação (2.26), com uma ordem de previsão p = 20. À medida que a ordem de previsão p aumenta, a aproximação S(z) se adapta sempre mais de perto ao espectro original S(z) . A curva tracejada é computada com a mesma fórmula da curva preta, mas com uma ordem de previsão p = 100. Pode-se observar que essa aproximação é muito mais detalhada e fornece um melhor ajuste para S(z) . Com p comprimento(Sn) , também é possível modelar exatamente S(z) com o filtro polivalente S(z), de modo que S(z) = S (z), desde que o sinal de tempo sn seja fase mínima.
[0165] Devido à dualidade entre tempo e frequência, também é possível aplicar predição linear no domínio da frequência no espectro de um sinal, a fim de modelar seu envelope temporal. A computação da estimativa temporal é feita da mesma maneira, apenas que a computação dos coeficientes preditores é realizado no espectro do sinal, e a resposta ao impulso do filtro polipolar resultante é então transformada no domínio do tempo. A Figura 2.6 mostra os valores absolutos do sinal de tempo original e duas aproximações com uma ordem de previsão de p = 10 e p = 20. Quanto à estimativa da resposta em
Petição 870190097668, de 30/09/2019, pág. 57/194
47/114 frequência, pode-se observar que a aproximaçao temporal é mais exata em ordens mais altas.
TRANSIENTES [0166] Na literatura, muitas definições diferentes de transientes podem ser encontradas. Alguns se referem a o mesmo como ataques ou ataques [22, 23, 24, 25], enquanto outros usam esses termos para descrever transientes [26, 27] . Esta seção tem como objetivo descrever as diferentes abordagens para definir transientes e caracterizá-los para os fins desta revelação.
CARACTERIZAÇÃO [0167] Algumas definições anteriores de transientes as descrevem apenas como um fenômeno do domínio do tempo não, por exemplo, como encontrado em Kliewer e Mertins [24]. os mesmos descrevem os transientes como segmentos de sinal no domínio do tempo, cuja energia sobe rapidamente de um valor baixo para um valor alto. Para definir os limites desses segmentos, os mesmos usam a razão das energias dentro de duas janelas deslizantes sobre o sinal de energia no domínio do tempo antes e depois de uma amostra de sinal η. A divisão da energia da janela logo após n pela energia da janela anterior resulta em uma função de critério simples C(n), cujos valores de pico correspondem ao início do período transiente. Esses valores de pico ocorrem quando a energia logo após n é substancialmente maior do que antes, marcando o início de um aumento acentuado de energia. O final do transiente é
Petição 870190097668, de 30/09/2019, pág. 58/194
48/114
então definido como o instante de tempo em que C(n) cai
abaixo de um certo limite após o iní cio.
[0168] Masri e Bateman [28] descrevem os
transientes como uma mudança radical no envelope temporal dos sinais, onde os segmentos de sinais antes e depois do início do transiente são altamente não correlacionados. 0 espectro de frequências de um período de tempo estreito contendo um evento transiente percussivo geralmente mostra uma grande explosão de energia em todas as frequências, o que pode ser visto no espectrograma de um transiente de castanhola na Figura 2.7 (b). Outros trabalhos [23, 29, 25] também caracterizam transientes em uma representação de tempo-frequência do sinal, onde correspondem a períodos de tempo com acentuados aumentos de energia aparecendo simultaneamente em várias faixas de frequência vizinhas. Rodet e Jaillet [25] afirmam ainda que esse aumento abrupto de energia é especialmente notável em frequências mais altas, uma vez que a energia geral do sinal está concentrada principalmente na área de baixa frequência.
[0169] Herre [20] e Zhang et al. [30] caracterizam transientes com o grau de planicidade do envelope temporal. Com o aumento repentino de energia ao longo do tempo, um sinal transiente possui uma estrutura de tempo muito não plana, com um envelope espectral plano correspondente. Uma maneira de determinar a planicidade espectral é aplicar uma Medida de Planicidade Espectral (SEM) [31] no domínio da frequência. O nivelamento espectral SE de um sinal pode ser
Petição 870190097668, de 30/09/2019, pág. 59/194
49/114 computado considerando a razao da média geométrica Gm e a média aritmética Am do espectro de potência:
Figure BR112019020515A2_D0003
[0170] lÃfcl denota o valor de magnitude do coeficiente espectral indice k e K o número total de coeficientes do espectro Xk. Um sinal tem uma estrutura de frequência não plana se SF 0 e, portanto, é mais provável que seja tonal. Ao contrário, se SF 1, o envelope espectral é mais plano, o que pode corresponder a um sinal transiente ou semelhante ao ruído. Um espectro plano não especifica rigorosamente um transiente, cuja resposta de fase tem uma alta correlação oposta a um sinal de ruído. Para determinar o nivelamento do envelope temporal, a medida na Equação (2.31) também pode ser aplicada de maneira semelhante no domínio do tempo.
[0171] Suresh Babu et al. [27] além disso, distinguem entre transientes de ataque e transientes no domínio da frequência. Os mesmos caracterizam transientes no domínio da frequência por uma mudança abrupta no envelope espectral entre os prazos vizinhos, e não por uma mudança de energia no domínio do tempo, como descrito anteriormente. Esses eventos de sinal podem ser produzidos, por exemplo, por instrumentos curvados, como violinos ou pela fala humana, alterando o tom de um som apresentado. A Figura 12.7 mostra as diferenças entre transientes de ataque e transientes no domínio da frequência. O sinal em
Petição 870190097668, de 30/09/2019, pág. 60/194
50/114 (c) representa um sinal de áudio produzido por um violino. A linha tracejada vertical marca o instante de tempo de uma mudança de tom do sinal apresentado, isto é, o início de um novo tom ou um domínio de frequência transiente, respectivamente. Oposto ao transiente de ataque produzido pelas castanets em (a), esse novo início de nota não causa uma mudança perceptível na amplitude dos sinais. O instante de tempo dessa mudança no conteúdo espectral pode ser visto no espectrograma em (d). Entretanto, as diferenças espectrais antes e depois do transiente são mais óbvias na Figura 2.8, que mostra dois espectros do sinal de violino na Figura 12.7(c), sendo um o espectro do período anterior e o outro após o início da o domínio da frequência transiente. Destaca-se que os componentes harmônicos diferem entre os dois espectros. No entanto, a codificação perceptive de transientes no domínio da frequência não causa os tipos de artefatos que serão abordados pelos algoritmos de restauração apresentados nesta tese e, portanto, serão desconsiderados. A partir de agora, o termo transiente será usado para representar apenas os transientes de ataque.
DIFERENCIAÇÃO DE TRANSIENTES, ONSETS E ATAQUES [0172] Uma diferenciação entre os conceitos de transientes, onsets e ataques pode ser encontrada em Bello et ai. [26], que serão adotados nesta tese. A diferenciação desses termos também é ilustrada na Figura 12.9, usando o exemplo de um sinal transiente produzido por castanets.
Petição 870190097668, de 30/09/2019, pág. 61/194
51/114 [0173] · · Em geral, o conceito de transientes ainda não é definido de maneira abrangente pelos autores, mas os mesmos o caracterizam como um curto intervalo de tempo, em vez de um instante de tempo distinto. Nesse período transiente, a amplitude de um sinal aumenta rapidamente de maneira relativamente imprevisível. Mas não está exatamente definido onde o transiente termina depois que sua amplitude atinge seu pico. Na sua definição informal, os mesmos também incluem parte do decaimento da amplitude para o intervalo transiente. Por essa caracterização, os instrumentos acústicos produzem transientes, durante os quais os mesmos são excitados (por exemplo, quando uma corda de violão é tocada ou uma tarola é tocada) e depois amortecidos. Após esse decaimento inicial, o decaimento de sinal mais lento a seguir é causado apenas pelas frequências de ressonância do corpo do instrumento.
[0174] · Onsets são os instantes de tempo em que a amplitude do sinal começa a aumentar. Para este trabalho, os onsets serão definidos como o horário de onset do transientes.
[0175] · O ataque de um transiente é o período de tempo dentro de um transiente entre o onset e o pico, durante o qual a amplitude aumenta.
PSICOACÚSTICA [0176] Esta seção fornece uma introdução básica aos conceitos psicoacústicos usados na codificação de áudio perceptivo, bem como no algoritmo de aprimoramento
Petição 870190097668, de 30/09/2019, pág. 62/194
52/114 transiente descrito mais adiante. 0 objetivo da psicoacústica é descrever a relação entre propriedades físicas mensuráveis dos sinais sonoros e as percepções internas que esses sons evocam em um ouvinte [32] . A percepção auditiva humana tem seus limites, que podem ser explorados por codificadores de áudio perceptivos no processo de codificação do conteúdo de áudio para reduzir substancialmente a taxa de bits do sinal de áudio codificado. Embora o objetivo da codificação perceptiva de áudio seja codificar o material de áudio de forma que o sinal de áudio decodificado pareça exatamente ou o mais próximo possível do sinal original [1], o mesmo ainda pode apresentar alguns artefatos de codificação audíveis. Os antecedentes necessários para entender a origem desses artefatos e como o modelo psicoacústico utilizado pelo codificador de áudio perceptivo será fornecido nesta seção. 0 leitor é referido [33, 34] para uma descrição mais detalhada sobre psicoacústica.
MASCARAMENTO SIMULTÂNEO [0177] O mascaramento simultâneo se refere ao fenômeno psicoacúst ico de que um som (maskee) pode ser inaudível para um ouvinte humano quando é apresentado simultaneamente com um som mais forte (mascarador), se ambos os sons estiverem próximos na frequência. Um exemplo amplamente usado para descrever esse fenômeno é o de uma conversa entre duas pessoas ao lado de uma estrada. Sem ruído interferente, os mesmos podem se perceber perfeitamente, mas precisam aumentar o volume de fala se um
Petição 870190097668, de 30/09/2019, pág. 63/194
53/114 carro ou um caminhão passar, a fim de continuar se entendendo.
[0178] O conceito de mascaramento simultâneo pode ser explicado pelo exame da funcionalidade do sistema auditivo humano. Se um som de sonda é apresentado a um ouvinte, O mesmo induz uma onda de deslocamento ao longo da membrana basilar (BM) dentro da cóclea, se espalhando de sua base na janela oval até o ápice em seu final [17] . Começando na janela oval, o deslocamento vertical da onda móvel sobe lentamente, atinge seu máximo em uma determinada posição e depois diminui abruptamente depois [33, 34] . A posição do seu deslocamento máximo depende da frequência do estímulo. O BM é estreito e rígido na base e cerca de três vezes mais largo e menos rígido no ápice. Dessa forma, toda posição ao longo do BM é mais sensível a uma frequência específica, com componentes de sinal de alta frequência causando um deslocamento máximo próximo à base e baixas frequências perto do ápice do BM. Essa frequência específica é frequentemente chamada de frequência característica (CF) [33, 34, 35, 36]. Dessa forma, a cóclea pode ser considerada como um analisador de frequência com um banco de filtros passa-banda altamente sobrepostos com resposta de frequência assimétrica, chamados filtros auditivos [17, 33, 34, 37] . As bandas passantes desses filtros auditivos mostram uma largura de banda não uniforme, denominada largura de banda crítica. O conceito de bandas críticas foi introduzido pela primeira vez por Fletcher em 1933 [38, 39] . O mesmo assumiu que a
Petição 870190097668, de 30/09/2019, pág. 64/194
54/114 audibilidade de um som da sonda que é apresentado simultaneamente com um sinal de ruído depende apenas da quantidade de energia sonora que é próxima em frequência ao som da sonda. Se a relação sinal-ruído (SNR) nesta área de frequência estiver abaixo de um certo limite, ou seja, a energia do sinal de ruído for até um certo grau superior à energia do som da sonda, então o sinal da sonda será inaudível por um ouvinte humano [17, 33, 34]. No entanto, o mascaramento simultâneo não ocorre apenas em uma única banda crítica. De fato, um mascarador no CF de uma banda crítica também pode afetar a audibilidade de um maskee fora dos limites dessa banda crítica, ainda que em menor grau [17] . 0 efeito de mascaramento simultâneo é ilustrado na Figura 12.10. A curva tracejada representa o limiar em silêncio, que descreve o nível mínimo de pressão sonora necessário para que um som de banda estreita seja detectado por ouvintes humanos na ausência de outros sons [32] . A curva preta é o limiar de mascaramento simultâneo correspondente a um mascarador de ruído de banda estreita descrito como a barra cinza escura. Um som da sonda (barra cinza claro) é mascarado pelo mascarador, se seu nível de pressão sonora for menor que o limiar de mascaramento simultâneo na frequência específica do maskee.
MASCARAMENTO TEMPORAL [0179] O mascaramento não é apenas eficaz se o mascarador e o mascarado são apresentados ao mesmo tempo, mas também se são separados temporalmente. Um som da sonda pode ser mascarado antes e depois do período em que o
Petição 870190097668, de 30/09/2019, pág. 65/194
55/114 mascarador está presente [40], que é chamado de prémascaramento e pós-mascaramento. Uma ilustração dos efeitos de mascaramento temporal é mostrada na Figura 2.11. O prémascaramento ocorre antes do início do som de mascaramento, representado pelos valores negativos de t. Após o período de pré-mascaramento, o mascaramento simultâneo é efetivo, com um efeito de superação diretamente após a ativação do mascarador, onde o limiar de mascaramento simultâneo é temporariamente aumentado [37] . Depois que o mascarador é desligado (mostrado para valores positivos de t), o pósmascaramento é efetivo. O pré-mascaramento pode ser explicado com o tempo de integração necessário pelo sistema auditivo para produzir a percepção de um som apresentado [40] . Além disso, sons mais altos estão sendo processados mais rapidamente pelo sistema auditivo do que sons mais fracos [33] . O período durante o qual o pré-mascaramento ocorre é altamente dependente da quantidade de treinamento de um determinado ouvinte [17, 34] e pode durar até 20 ms [33], porém sendo significativo apenas em um período de 1-5 ms antes do início do mascaramento [17, 37] . A quantidade de pós-mascaramento depende da frequência do som do mascarador e da sonda, do nível e duração do mascarador, bem como do período de tempo entre o som da sonda e o instante em que o mascarador é desligado [17, 34] . De acordo com Moore [34], o pós-mascaramento é eficaz por pelo menos 20 ms, com outros estudos mostrando durações ainda mais longas até cerca de 200 ms [33]. Além disso, Painter e Spanias afirmam que o pós-mascaramento também exibe um
Petição 870190097668, de 30/09/2019, pág. 66/194
56/114 comportamento dependente da frequência semelhante ao mascaramento simultâneo que pode ser observado quando o relacionamento entre o mascarador e a frequência de relação da sonda é variada [17, 34] .
CODIFICAÇÃO DE ÁUDIO PERCEPTIVA [0180] O objetivo da codificação perceptiva de áudio é comprimir um sinal de áudio de forma que a taxa de bits resultante seja a menor possível em comparação com o áudio original, mantendo uma qualidade de som transparente, onde o sinal reconstruído (decodificado) não deve ser distinguível do sinal não comprimido [1, 17, 32, 37, 41, 42] . Isso é feito removendo informações redundantes e irrelevantes do sinal de entrada, explorando algumas limitações do sistema auditivo humano. Embora a redundância possa ser removida, por exemplo, explorando a correlação entre amostras de sinais subsequentes, coeficientes espectrais ou mesmo canais de áudio diferentes e uma codificação de entropia apropriada, a irrelevância pode ser tratada pela quantização dos coeficientes espectrais.
ESTRUTURA GENÉRICA DE UM CÓDIGO DE ÁUDIO PERCEPTUAL [0181] A estrutura básica de um codificador de áudio perceptivo monofônico é mostrada na Figura 12.12. Primeiro, o sinal de áudio de entrada é transformado em uma representação no domínio da frequência, aplicando um banco de filtros de análise. Desta forma, os coeficientes espectrais recebidos podem ser quantificados seletivamente dependendo do seu conteúdo de frequência [32]. O bloco de
Petição 870190097668, de 30/09/2019, pág. 67/194
57/114 quantização arredonda os valores contínuos dos coeficientes espectrais para um conjunto discreto de valores, para reduzir a quantidade de dados no sinal de áudio codificado. Dessa forma, a compressão se torna com perdas, uma vez que não é possível reconstruir os valores exatos do sinal original no decodificador. A introdução desse erro de quantização pode ser considerada como um sinal de ruído aditivo, chamado de ruído de quantização. A quantização é orientada pela saída de um modelo perceptivo que calcula os limiares de mascaramento temporal e simultâneo para cada coeficiente espectral em cada janela de análise. 0 limiar absoluto em silêncio também pode ser utilizado, assumindo que um sinal de 4 kHz, com uma magnitude de pico de ± 1 bit menos significativo em um número inteiro de 16 bits esteja no limiar absoluto da audição [31] . No bloco de alocação de bits, esses limites de mascaramento são usados para determinar o número de bits necessários, para que o ruído de quantização induzido se torne inaudível para um ouvinte humano. Além disso, os coeficientes espectrais que estão abaixo dos limiares de mascaramento computados (e, portanto, irrelevantes para a percepção auditiva humana) não precisam ser transmitidos e podem ser quantificados para zero. Os coeficientes espectrais quantizados são então codificados por entropia (por exemplo, aplicando a codificação de Huffman ou codificação aritmética) , o que reduz a redundância nos dados do sinal. Finalmente, o sinal de áudio codificado, bem como informações adicionais, como os fatores de escala de quantização, são multiplexados para
Petição 870190097668, de 30/09/2019, pág. 68/194
58/114 formar um fluxo de bit único, que é então transmitido ao receptor. 0 decodificador de áudio (veja a Figura 12.13) no lado do receptor executa operações inversas desmultiplexando o fluxo de bits de entrada, reconstruindo os valores espectrais com os fatores de escala transmitidos e aplicando um banco de filtros de síntese complementar ao banco de filtros de análise do codificador, para reconstruir a saída resultante sinal de tempo.
ARTEFATOS DE CODIFICAÇÃO TRANSIENTE [0182] Apesar do objetivo da codificação perceptiva de áudio para produzir uma qualidade de som transparente do sinal de áudio decodificado, o mesmo ainda exibe artefatos audíveis. Alguns desses artefatos que afetam a qualidade percebida dos transientes serão descritos abaixo.
BIRDIES E LIMITAÇÃO DE LARGURA DE BANDA [0183] Existe apenas uma quantidade limitada de bits disponíveis para o processo de alocação de bits para fornecer a quantização de um bloco de sinal de áudio. Se a demanda de bits para um quadro for muito alta, alguns coeficientes espectrais poderão ser excluídos quantificando-os para zero [1, 43, 44]. Isso essencialmente causa a perda temporária de algum conteúdo de alta frequência e é principalmente um problema para codificação com baixa taxa de bits ou quando se lida com sinais muito exigentes, por exemplo, um sinal com eventos transientes frequentes. A alocação de bits varia de um bloco para o próximo, portanto, o conteúdo de frequência de um
Petição 870190097668, de 30/09/2019, pág. 69/194
59/114 coeficiente espectral pode ser excluído em um quadro e estar presente no seguinte. As lacunas espectrais induzidas são chamadas de birdies e podem ser vistas na imagem inferior da Figura 2.14. Especialmente a codificação de transientes é propensa a produzir artefatos de passarinho, uma vez que a energia nessas partes do sinal se espalha por todo o espectro de frequências. Uma abordagem comum é limitar a largura da banda do sinal de áudio antes do processo de codificação, para salvar os bits disponíveis para a quantização do conteúdo LF, que também é ilustrado para o sinal codificado na Figura 2.14. Essa troca é
adequada, já que os birdies têm um impacto maior na
qualidade percebida do áudio do que uma perda constante de
largura de banda, que geralmente é mais tolerada. No
entanto, mesmo com a limitação da largura de banda, ainda é possível a ocorrência de birdies. Embora os métodos de aprimoramento transiente descritos mais adiante não tenham como objetivo corrigir lacunas espectrais ou estender a largura de banda do sinal codificado, a perda de altas frequências também causa uma energia reduzida e um ataque transiente degradado (veja a Figura 12.15), que está sujeito a os métodos de aprimoramento de ataques descritos mais adiante.
PRÉ-ECOS
[0184] Outro artefato de compressão comum é o
chamado pré -eco [1, 17 , 20, 43, 44] . Os pré-ecos ocorrem se
um aumento acentuado da energia do sinal (isto é, um
transiente) ocorre perto do final de um bloco de sinal. A
Petição 870190097668, de 30/09/2019, pág. 70/194
60/114 energia substancial contida nas partes transientes do sinal é distribuída por uma ampla faixa de frequências, o que causa a estimativa de limiares de mascaramento comparativamente altos no modelo psicoacústico e, portanto, a alocação de apenas alguns bits para a quantização dos coeficientes espectrais. A alta quantidade de ruído de quantização adicionada é então espalhada por toda a duração do bloco de sinal no processo de decodificação. Para um sinal estacionário, presume-se que o ruído de quantização seja completamente mascarado, mas para um bloco de sinal contendo um transiente, o ruído de quantização pode preceder o onset transiente e tornar-se audível, se se estender além do período de pré-mascaramento [1] . Embora existam vários métodos propostos para lidar com préecos, esses artefatos ainda estão sujeitos à pesquisa atual. A Figura 12.16 mostra um exemplo de artefato de préeco para um transiente de castanet. A curva preta pontilhada é a forma de onda do sinal original sem energia de sinal substancial antes do onset transiente. Portanto, o pré-eco induzido que precede o transiente do sinal codificado (curva cinza) não é mascarado simultaneamente e pode ser percebido mesmo sem uma comparação direta com o sinal original. O método proposto para a redução suplementar do ruído pré-eco será apresentado mais adiante. [0185] Existem várias abordagens para melhorar a qualidade dos transientes que foram propostos nos últimos anos. Esses métodos de aprimoramento podem ser categorizados naqueles integrados no codec de áudio e
Petição 870190097668, de 30/09/2019, pág. 71/194
61/114 naqueles que funcionam como um módulo de pós-processamento no sinal de áudio decodificado. Uma visão geral sobre estudos e métodos anteriores sobre o aprimoramento transiente, bem como a detecção de eventos transientes, é apresentada a seguir.
DETECÇÃO TRANSIENTE [0186] Uma abordagem inicial para a detecção de transientes foi proposta por Edler [6] em 1989. Essa detecção é usada para controlar o método de troca de janelas adaptável, que será descrito mais adiante neste capítulo. O método proposto apenas detecta se um transiente está presente em um quadro de sinal do sinal de entrada original no codificador de áudio, e não em sua posição exata dentro do quadro. Dois critérios de decisão estão sendo computados para determinar a probabilidade de um presente transiente em um quadro de sinal específico. Para o primeiro critério, o sinal de entrada x(n) é filtrado com um filtro passa-alto FIR de acordo com a EQUAÇÃO (2.5) com os coeficientes do filtro b = [1, -1]. O sinal de diferença resultante d(n) mostra grandes picos nos instantes do tempo em que a amplitude entre amostras adjacentes muda rapidamente. A razão das somas de magnitude de d(n) para dois blocos vizinhos é então usada para a computação do
primeiro critério:
??
[0187] A variável m indica o número do quadro e N
o número de amostras em um quadro. No entanto, ci (m) luta
Petição 870190097668, de 30/09/2019, pág. 72/194
62/114 com a detecção de transientes muito pequenos no final de urn quadro de sinal, uma vez que sua contribuição para a energia total dentro do quadro é bastante pequena. Portanto, é formulado um segundo critério, que calcula a razão entre o valor máximo de magnitude de x(n) e a magnitude média dentro de um quadro: ---------------------------[0188] Se Ci (m) ou c2 (m) excederem um certo limite, então o quadro particular m é determinado para conter um evento transiente.
[0189] Kliewer e Mertins [24] também propõem um método de detecção que opera exclusivamente no domínio do tempo. Sua abordagem visa determinar as amostras exatas de onset e fim de um transiente, empregando duas janelas retangulares deslizantes na energia do sinal. A energia do sinal dentro das janelas é computada como
1 «a.
[0190] em que L é o comprimento da janela e n indica a amostra de sinal bem no meio entre a janela esquerda e direita. Uma função de detecção D(n) é, então, computada por n.- x , - p , s>
WlWW '·----- com ' A^-VO/
Petição 870190097668, de 30/09/2019, pág. 73/194
63/114 [0191] Os valores de pico de D(n) correspondem ao início de um transiente, se forem maiores que um determinado limiar Tb. O final de um evento transiente é determinado como o maior valor de D( n) sendo menor que algum limite Te diretamente após o inicio [24].
[0192] Outros métodos de detecção são baseados em previsão linear no domínio do tempo para distinguir entre partes de sinal transientes e de estado estacionário, usando a previsibilidade da forma de onda do sinal [45]. Um método que usa previsão linear foi proposto por Lee e Kuo [46] em 2006. Eles decompõem o sinal de entrada em várias sub-bandas para calcular uma função de detecção para cada um dos sinais resultantes de banda estreita. As funções de detecção são obtidas como saída após a filtragem do sinal de banda estreita com o filtro inverso de acordo com a Equação (2.10) Um algoritmo de seleção de pico subsequente determina os valores máximos locais dos sinais de erro de previsão resultantes como candidatos ao tempo de onset para cada sinal de sub-banda, que são então usados para determinar um único tempo de onset transiente para o sinal de banda larga.
[0193] A abordagem de Niemeyer e Edler [23] trabalha em uma representação complexa de frequência no tempo do sinal de entrada e determina os ataques transientes como um aumento acentuado da energia do sinal nas bandas vizinhas. Cada sinal de passagem de banda é filtrado de acordo com a Equação (2.3) para calcular um envelope temporal que segue a energia repentina aumenta à
Petição 870190097668, de 30/09/2019, pág. 74/194
64/114 medida que a função de detecção. Um critério transiente é então computado não apenas para a banda de frequência k, mas também considerando K = 7 bandas de frequência vizinhas em ambos os lados de k.
[0194] Subsequentemente, serão descritas diferentes estratégias para o aprimoramento das partes transientes do sinal. O diagrama de blocos da Figura 13.1 mostra uma visão geral das diferentes partes do algoritmo de restauração. O algoritmo pega o sinal codificado sn, que é representado no domínio do tempo, e o transforma em uma representação de frequência no tempo Xk, m por meio da transformada de Fourier de curto prazo (STFT). O aprimoramento das partes transientes do sinal é então realizado no domínio STFT. No primeiro estágio do algoritmo de aprimoramento, os pré-ecos logo antes do transiente estão sendo reduzidos. O segundo estágio aprimora o ataque do transiente e o terceiro estágio aprimora o transiente usando um método baseado em previsão linear. O sinal aprimorado Ykr m é então transformado de volta ao domínio do tempo com a transformada de Fourier de curto prazo inversa (ISTFT), para obter o sinal de saída yn.
[0195] Ao aplicar o STFT, o sinal de entrada sn é primeiro dividido em vários quadros de comprimento N, que se sobrepõem às amostras L e são mostrados em janela com uma função da janela de análise wnr m para obter os blocos de sinal xn,m = sn ’ wn,m · Cada quadro xn,m é então transformado no domínio da frequência usando a Transformada Discreta de Fourier (DFT) . Isso produz o espectro Xk,m do
Petição 870190097668, de 30/09/2019, pág. 75/194
65/114 quadro de sinal em janela xn,m, onde k é o índice do coeficiente espectral e m é o número do quadro. A análise por STFT pode ser formulada pela seguinte equação:
X. .« STFF is» £ - V .pusu « .
*·<·· *· <sv.+ ·· com s - (m I.) (W - £), m <s FF e 0 < £ < έ « N.
[0196] ( N -L ) também é conhecido como tamanho do salto. Para a janela de análise wnr m uma janela senoidal do formulário
Figure BR112019020515A2_D0004
[0197] foi usado. Para capturar a fina estrutura temporal dos eventos transientes, o tamanho do quadro foi escolhido para ser comparativamente pequeno. Para os fins deste trabalho, foi definido como N = 128 amostras para cada período de tempo, com uma sobreposição de L = N / 2 = 64 amostras para dois quadros vizinhos. K na Equação (4.2) define o número de pontos DFT e foi definido como K = 256. Isso corresponde ao número de coeficientes espectrais do espectro de dois lados de Xk,m· Antes da análise STFT, cada quadro de sinal de entrada em janela é zeropadeado para obter um vetor mais longo de comprimento K, para corresponder ao número de pontos DFT. Esses parâmetros fornecem uma resolução de tempo suficientemente fina para isolar as partes transientes do sinal em um quadro do restante do sinal, enquanto fornecem coeficientes espectrais suficientes para as seguintes operações de
Petição 870190097668, de 30/09/2019, pág. 76/194
66/114 aprimoramento seletivo de frequência.
DETECÇÃO TRANSIENTE [0198]
Nas Modalidades os métodos para o aprimoramento de transientes são aplicados exclusivamente aos próprios eventos transientes, em vez de modificar constantemente o sinal. Portanto, os instantes dos transientes devem ser detectados. Para os fins deste trabalho, foi implementado um método de detecção de transientes, que foi ajustado para cada sinal de áudio individual separadamente. Isso significa que os parâmetros e limites específicos do método de detecção de transientes, que serão descritos mais adiante nesta seção, são ajustados especificamente para cada arquivo de som em particular, para obter uma detecção ideal das partes do sinal transiente. O resultado dessa detecção é um valor binário para cada quadro, indicando a presença de um onset transiente.
[0199] O método de detecção transiente implementado pode ser dividido em dois estágios separados: a computação de uma função de detecção adequada e um método de seleção de onset que usa a função de detecção como seu sinal de entrada. Para a incorporação da detecção transiente em um algoritmo de processamento em tempo real, é necessária uma previsão adequada, uma vez que o método de redução pré-eco subsequente opera no intervalo de tempo que antecede o onset transiente detectado.
COMPUTAÇÃO DE UMA FUNÇÃO DE DETECÇÃO
Petição 870190097668, de 30/09/2019, pág. 77/194
67/114 [0200] Para a computação da função de detecção, ο sinal de entrada é transformado em uma representação que permite uma detecção de onset aprimorada em relação ao sinal original. A entrada do bloco de detecção de transientes na Figura 13.1 é a representação em tempofrequência Xb,m do sinal de entrada sn. A computação da função de detecção é feita em cinco etapas:
[0201] Para cada quadro, resuma os valores de energia de vários coeficientes espectrais vizinhos.
[0202] Calcular o envelope temporal dos sinais de passagem de banda resultantes por todos os quadros de tempo.
[0203] Filtrar por passa-alta cada envelope temporal de sinal de passagem de banda.
[0204] Somar os sinais filtrados passa-alta resultantes na direção da frequência.
Figure BR112019020515A2_D0005
Petição 870190097668, de 30/09/2019, pág. 78/194
68/114
TABELA 4.1 FREQUÊNCIAS DE BORDA FBaixo E Falto E LARGURA DE BANDA AF DAS PASSAGENS DE BANDA RESULTANTES DE X K,M APÓS A CONEXÃO DE N COEFICIENTES ESPECÍFICOS ADJACENTES DO ESPECTRO DE ENERGIA MAGNITUDE DO SINAL XK/M.
[0206] Primeiro, a energia dos vários coeficientes espectrais vizinhos de Xk,m está resumida acima para cada quadro do tempo m, considerando
Figure BR112019020515A2_D0006
[0207] em que K denota o índice dos sinais resultantes da sub-banda. Portanto, Χκ,τη consiste em 7 valores para cada quadro m, representando a energia contida em uma determinada faixa de frequência do espectro Xk,m. As frequências de borda fluem e altas, bem como a largura de banda da banda passante Af e o número n de coeficientes espectrais conectados, são mostrados na Tabela 4.1. Os valores dos sinais de passagem de banda em Χκ,τη são então suavizados em todos os períodos de tempo. Isso é feito filtrando cada sinal de sub-banda Χκ,τα com um filtro passabaixa IIR na direção do tempo, de acordo com a Equação (2.2) como
Figure BR112019020515A2_D0007
[0208] Xk,m θ o sinal de energia suavizada resultante para cada canal de frequência K. Os coeficientes de filtro b e a = 1 - b são adaptados para cada sinal de
Petição 870190097668, de 30/09/2019, pág. 79/194
69/114 áudio processado separadamente, para produzir constantes de tempo satisfatórias. A inclinação de XK,m θ então computada via filtragem passa-alta (HP) de cada sinal de passagem de
A,; - ç banda com o uso da Equação (2.5) como em que SK,m é o envelope diferenciado, b± são os coeficientes de inclinação do filtro passa-alta FIR implantado e p é a ordem do filtro. Os coeficientes de filtro específicos b± também foram definidos separadamente para cada sinal individual. Posteriormente, SK,m é resumido na direção da frequência em todo K, para obter a inclinação geral do envelope Fm. Grandes picos em Fm correspondem aos prazos nos quais um evento transiente ocorre. Para negligenciar picos menores, principalmente após os maiores, a amplitude de Fm é reduzida em um limiar de 0,1 de uma maneira que Fm = max (Fm -0,1, 0) . O pós-mascaramento após picos maiores também é considerado pela filtragem de Fm com um filtro de média recursive de polo único equivalente à Equação (2.2) por ·· ' Ê:.: 4 ' /'ss, em que /rv'O [0209] e tomando os valores maiores de Fm e Fm para cada quadro m de acordo com a Equação (2.3) para produzir a função de detecção resultante Dm.
[0210] A Figura 13.2 mostra o sinal de castanet no domínio do tempo e no domínio STFT, com a função de detecção derivada Dm ilustrada na imagem inferior. Dm é
Petição 870190097668, de 30/09/2019, pág. 80/194
70/114
então usado como o sinal de entrada para o método de
separaçao, que será descrito na ESCOLHA DE ONSET [0211] Essencialmente, seçao a seguir. o método de seleção de
onset determina as instâncias dos máximos locais na função de detecção Dm como os prazos de onset dos eventos transientes em Sn. Para a função de detecção do sinal de castanets na Figura 13.2, essa é obviamente uma tarefa trivial. Os resultados do método de escolha de onset são exibidos na imagem inferior como círculos vermelhos. No entanto, outros sinais nem sempre produzem uma função de detecção tão fácil de manusear, portanto, a determinação dos onsets transientes reais fica um pouco mais complexa. Por exemplo, a função de detecção de um sinal musical na parte inferior da Figura 13.3 exibe vários valores de pico locais que não estão associados a um quadro de onset transiente. Portanto, o algoritmo de escolha de onset deve
distinguir entre os onsets transientes falsos e os
reais. [0212] Antes de tudo, a amplitude dos valores de
pico em Dm precisa estar acima de um certo thpico, para ser
considerada como candidata ao onset. Isso é feito para evitar alterações menores de amplitude no envelope do sinal de entrada snr que não são tratadas pelos filtros de suavização e pós-mascaramento na Equação (4.5) e Equação. (4.7), a ser detectado como onsets transientes. Para cada valor Dm = 1 da função de detecção Dm, o algoritmo de seleção de onset varre a área que antecede e segue o quadro
Petição 870190097668, de 30/09/2019, pág. 81/194
71/114 atual 1 para um valor maior que Dm = 1 · Se não existir um valor maior, lh quadros antes e la quadros após o quadro atual , então 1 é determinado como um quadro transiente. 0 número de quadros look-back e look-ahead lh e la, bem como o pico do limite, foram definidos para cada sinal de áudio individualmente. Depois que os valores de pico relevantes forem identificados, os quadros de onset transiente detectados, que estão mais próximos que 50 ms do início anterior, serão descartados [50, 51]. A saída do método de separação de onset (e a detecção transiente em geral) são os índices dos quadros de onset transiente m2,
necessários para os seguintes blocos de aprimoramento
transiente. [0213] REDUÇÃO PRÉ-ECO 0 objetivo desse estágio de aprimoramento é
reduzir o artefato de codificação conhecido como pré-eco
que pode ser audível em um determinado período de tempo
antes do iní cio de um transiente. Uma visão geral do
algoritmo de redução pré-eco é exibida na Figura 4.4. 0
estágio de redução pré-eco recebe a saída após a análise STFT Xk,m (100) como sinal de entrada, bem como o índice de quadros de onset transiente detectado anteriormente ιρ. Na pior das hipóteses, o pré-eco inicia no comprimento de uma janela de análise de bloco longo no lado do codificador (que é 2048 amostras, independentemente da taxa de amostragem do codec) antes do evento transiente. A duração dessa janela depende da frequência de amostragem do codificador específico. Para o pior cenário, é assumida uma
Petição 870190097668, de 30/09/2019, pág. 82/194
72/114 frequência mínima de amostragem de codec de 8 kHz . A uma taxa de amostragem de 44,1 kHz para o sinal de entrada decodificado e reamostrado sn, o comprimento de uma janela de análise longa (e, portanto, a extensão potencial da área de pré-eco) corresponde a Nlong = 2048 · 44,1 kHz/8 kHz = 11290 amostras (ou 256 ms) do sinal de tempo sn. Como os métodos de aprimoramento descritos neste capítulo operam na representação de frequência de tempo Xk,mz· Niong deve ser convertido em Miong = (Niong - L)/(N - L) = (11290 -64)/( 128 -64) = 176 quadros. N e L são o tamanho do quadro e a sobreposição do bloco de análise STFT (100) na Figura 13. 1. Mlong é definido como o limite superior da largura do pré-eco e é usado para limitar a área de pesquisa do quadro inicial de pré-eco antes de um quadro de onset transiente detectado ιρ. Para este trabalho, a taxa de amostragem do sinal decodificado antes da reamostragem é tomada como uma verdade do solo, de modo que o limite superior Mlong para a largura do pré-eco seja adaptado ao codec específico, usado para codificar sn.
[0214] Antes de estimar a largura real do pré-eco, os componentes de frequência tonal que precedem o transiente estão sendo detectados (200) . Depois disso, a largura do pré-eco é determinada (240) em uma área de M quadros longos antes do quadro transiente. Com esta estimativa, um limiar para o envelope de sinal na área de pré-eco pode ser computado (260), para reduzir a energia nos coeficientes espectrais cujos valores de magnitude excedem esse limiar. Para a eventual redução pré-eco, é
Petição 870190097668, de 30/09/2019, pág. 83/194
73/114 computada uma matriz de ponderação espectral (450), contendo fatores de multiplicação para cada k e m, que é então multiplicado por elementos com a área de pré-eco de Xk, m ·
DETECÇÃO DE COMPONENTES DE SINAL TONAL ANTERIORES AO TRANSIENTE [0215] Os coeficientes espectrais detectados subsequentes, correspondentes aos componentes de frequência tonal antes do onset transiente, são utilizados na seguinte estimativa de largura pré-eco, conforme descrito na próxima subseção. Também pode ser benéfico usá-los no seguinte algoritmo de redução pré-eco, para pular a redução de energia para esses coeficientes espectrais tonais, uma vez que os artefatos pré-eco provavelmente serão mascarados pelos componentes tonais presentes. No entanto, em alguns casos, o pulo dos coeficientes tonais resultou na introdução de um artefato adicional na forma de um aumento de energia audível em algumas frequências na proximidade das frequências tonais detectadas, portanto essa abordagem foi omitida para a redução pré-eco método nesta modalidade. [0216] A Figura 13.5 mostra o espectrograma da área potencial de pré-eco antes de um transiente do sinal de áudio de Glockenspiel. Os coeficientes espectrais dos componentes tonais entre as duas linhas horizontais tracejadas são detectados combinando duas abordagens diferentes:
[0217] 1. Previsão linear ao longo dos quadros de cada coeficiente espectral e
Petição 870190097668, de 30/09/2019, pág. 84/194
74/114 [0218] 2. uma comparação de energia entre a energia em cada k em todos os quadros Mlong antes do onset transiente e uma energia média corrente de todas as áreas de pré-eco potenciais anteriores de comprimento Mlong [0219] Primeiro, uma análise de previsão linear é realizada em cada coeficiente STFT de valor complexo k ao longo do tempo, onde os coeficientes de previsão ak,r são computados com o algoritmo Levinson-Durbin de acordo com a Equação (2,21) - (2,24) . Com esses coeficientes de previsão, um ganho de previsão RP,k [52, 53, 54J pode ser computado para cada k como
S.,f.....MtoUÃU ' VsJ
2 ~ ~ [0220] em que (TXk e (TEk sao as variações do sinal de entrada Xk,m e seu erro de previsão Ek,m, respectivamente, para cada k. Ek,m é computado de acordo com a Equação (2.
10) . O ganho de previsão é uma indicação da precisão de Xk,m com os coeficientes de previsão ak,r com um alto ganho de previsão correspondente a uma boa previsibilidade do sinal. Sinais transientes e semelhantes a ruídos tendem a causar um ganho de predição mais baixo para uma predição linear no domínio do tempo; portanto, se RP,k for alto o suficiente para um certo k, é provável que esse coeficiente espectral contenha componentes de sinais tonais. Para este método, o limiar para um ganho de predição correspondente a um componente de frequência tonal foi definido como lOdB.
Petição 870190097668, de 30/09/2019, pág. 85/194
75/114 [0221] Além de um alto ganho de previsão, os componentes de frequência tonal também devem conter uma energia comparativamente alta sobre o restante do espectro de sinal. A energia Cik na área potencial de pré-eco do iésimo transiente atual é, portanto, comparada a um certo limiar de energia, é computado por
Figure BR112019020515A2_D0008
[0222] O limite de energia é computado com uma energia média corrente das áreas anteriores ao eco, que é atualizada para cada próximo transiente. A energia média corrente deve ser indicada como . Observe que f] ainda não considera a energia na atual área de pré-eco do i-ésimo transiente. O índice i apenas indica que í^é usado para a detecção do transiente atual. Se é a energia total sobre todos os coeficientes espectrais k e quadros m da área anterior ao pré-eco, então ε{ é computado por & ~ f (1 - > ) Cp, i > co» >0,7 >
[0223] Portanto, um índice de coeficiente espectral k na área atual de pré-eco é definido para conter componentes tonais, se [0224] O resultado do componente de sinal tonal (200) é área de pré-eco anterior a um transiente detectado, que especifica os índices do coeficiente espectral k que atendem às condições da Equação (4.11) .
método de detecção de um vetor ktonal a para cada
Petição 870190097668, de 30/09/2019, pág. 86/194
76/114
ESTIMATIVA DA LARGURA PRÉ-ECO [0225] Como não há informações sobre o enquadramento exato do decodificador (e, portanto, sobre a largura real de pré-eco) disponível para o sinal decodificado snr o quadro inicial de pré-eco real deve ser estimado (240) para cada transiente antes do pré processo de redução. Essa estimativa é crucial para a qualidade do som resultante do sinal processado após a redução pré-eco. Se a área estimada de pré-eco for muito pequena, parte do pré-eco atual permanecerá no sinal de saída. Se for muito grande, grande parte da amplitude do sinal antes que o transiente seja amortecido, resultando potencialmente em interrupções audíveis do sinal. Como descrito anteriormente, Mlong representa o tamanho de uma janela de análise longa usada no codificador de áudio e é considerado o número máximo possível de quadros da propagação do préeco antes do evento transiente. O alcance máximo Mlong dessa propagação pré-eco será indicado como a área de pesquisa pré-eco.
[0226] A Figura 13.6 mostra uma representação esquemática da abordagem de estimativa pré-eco. O método de estimativa segue a premissa de que o pré-eco induzido causa um aumento na amplitude do envelope temporal antes do início do transiente. Isso é mostrado na Figura 13.6 para a área entre as duas linhas verticais tracejadas. No processo de decodificação do sinal de áudio codificado, o ruído de quantização não é distribuído igualmente por todo o bloco de síntese, mas será modelado pela forma particular da
Petição 870190097668, de 30/09/2019, pág. 87/194
77/114 função de janela usada. Portanto, o pré-eco induzido causa um aumento gradual e não um aumento repentino da amplitude. Antes do início do pré-eco, o sinal pode conter silêncio ou outros componentes do sinal, como a parte sustentada de outro evento acústico que ocorreu algum tempo antes.
Portanto, o objetivo do método de estimativa da largura
pré-eco é encontrar o instante de tempo em que o aumento da
amplitude do sinal corresponde ao início do ruído de
quantizaçao induzido, ou seja, o artefato pré-eco.
[0227] 0 algoritmo de detecção usa apenas o
conteúdo HF de Xk,m acima de 3 kHz, uma vez que a maior parte da energia do sinal de entrada está concentrada na área LF. Para os parâmetros STFT específicos usados aqui, isso corresponde aos coeficientes espectrais com k > 18. Dessa forma, a detecção do início do pré-eco fica mais robusta devido à suposta ausência de outros componentes de sinal que poderíam complicar o processo de detecção. Além disso, os coeficientes espectrais tonais ktOnair que foram detectados com o método de detecção de componente tonal descrito anteriormente, também serão excluídos do processo de estimativa, se corresponderem a frequências acima de 3 kHz. Os coeficientes restantes são então usados para calcular uma função de detecção adequada que simplifica a estimativa pré-eco. Primeiro, a energia do sinal é resumida na direção da frequência para todos os quadros na área de pesquisa pré-eco, para obter o sinal de magnitude Lm como
Figure BR112019020515A2_D0009
Petição 870190097668, de 30/09/2019, pág. 88/194
78/114 [0228] k max corresponde à frequência de corte do filtro passa-baixa que foi usado no processo de codificação para limitar a largura de banda do sinal de áudio original. Depois disso, Lm é suavizado para reduzir as flutuações no nível do sinal. A suavização é feita filtrando Lm com um filtro de média em execução de 3 toques nas direções para frente e para trás ao longo do tempo, para produzir o sinal de magnitude suavizada. Dessa forma, o atraso do filtro é compensado e o filtro passa a fase zero. Lm é então derivado para calcular sua inclinação por
Figure BR112019020515A2_D0010
[0229] é então filtrado com o mesmo filtro de média operacional usado para Lm antes. Isso produz a inclinação suavizada Lm , que é usada como a função de detecção resultante Dm =Dm Lm para determinar o quadro inicial do pré-eco.
[0230] A ideia básica da estimativa pré-eco é encontrar o último quadro com um valor negativo de Dm, que marca o instante de tempo após o qual a energia do sinal aumenta até o início do transiente. A Figura 13.7 mostra dois exemplos para a computação da função de detecção Dm e o quadro inicial de pré-eco subsequentemente estimado. Para ambos os sinais em (a) e (b) , a magnitude sinaliza Lm e é exibida na imagem superior, enquanto a imagem inferior mostra as inclinações Lm e Lm , que também é a função de detecção Dm. Para o sinal na Figura 13.7 (a), a detecção requer simplesmente encontrar o último quadro com um
Petição 870190097668, de 30/09/2019, pág. 89/194
79/114 valor negativo de Dm na imagem inferior, isto é, D _ < 0. 0 quadro inicial de pré-eco determinado mpre=miast θ representado como a linha vertical. A plausibilidade dessa estimativa pode ser vista por um exame visual da imagem superior da Figura 13.7 (a). No entanto, receber exclusivamente o último valor negativo de Dm não daria um resultado adequado para o sinal mais baixo (funk) em (b) . Aqui, a função de detecção termina com um valor negativo e assumir esse último quadro como mpre resultaria efetivamente em nenhuma redução do pré-eco. Além disso, pode haver outros quadros com valores negativos de Dm antes disso, que também não se encaixam no início real do préeco. Isso pode ser visto, por exemplo, na função de detecção do sinal (b) para 52 < m < 58. Portanto, o algoritmo de busca deve considerar essas flutuações no sinal de amplitude de magnitude, que também podem estar presentes na área real de pré-eco .
[0231] A estimativa do quadro de início pré-eco mpre é feita empregando um algoritmo de busca iterativo. O processo para a estimativa do quadro inicial de pré-eco será descrito com a função de detecção de exemplo mostrada na Figura 13.8 (que é a mesma função de detecção do sinal na Figura 13.7 (b) ) . Os diagramas superior e inferior da Figura 13.8 ilustram as duas primeiras iterações do algoritmo de busca. O método de estimativa varre Dm na ordem inversa, desde o início estimado do transiente até o início da área de pesquisa pré-eco e determina vários quadros em que o sinal de Dm é alterado. Esses quadros são
Petição 870190097668, de 30/09/2019, pág. 90/194
80/114 representados como as linhas verticais numeradas no diagrama. A primeira iteração na imagem superior começa no último quadro com um valor positivo de Dm (linha 1), indicado aqui como nfast e determina o quadro anterior em que o sinal muda de + - como candidato ao quadro inicial de pré-eco (linha 2) Para decidir se o quadro candidato deve ser considerado como a estimativa final de mpre, dois quadros adicionais com uma mudança de sinal m+ (linha 3) e m~ (linha 4) são determinados antes do quadro candidato. A decisão sobre se o quadro candidato deve ser tomado como o quadro inicial pré-eco resultante mpre é baseado na comparação entre os valores resumidos na área cinza e preta (A+ e A~) . Esta comparação verifica se a área preta A~, em que exibe um declive negativo, pode ser considerada a parte sustentada do sinal de entrada antes do ponto inicial do pré-eco, ou se é uma diminuição temporária da amplitude dentro da área pré-eco real. As inclinações resumidas A + e A- são computadas como
Figure BR112019020515A2_D0011
[0232] Com A+ e A~, o quadro inicial de pré-eco candidato na linha 2 será definido como o quadro inicial resultante mpré, se
A >
[0233] O fator a é inicialmente definido como a = 0,5 para a primeira iteração do algoritmo de estimativa e, em seguida, é ajustado para a = 0,92 · a para cada iteração
Petição 870190097668, de 30/09/2019, pág. 91/194
81/114 subsequente. Isso dá uma ênfase maior à área de inclinação negativa A~, necessária para alguns sinais que exibem variações mais amplas de amplitude no sinal de magnitude Lm em toda a área de pesquisa. Se o critério de parada na Equação (4.15) não se mantém (como é o caso da primeira iteração na imagem superior da Figura 13.8), a próxima iteração, conforme ilustrada na imagem inferior, toma o m+ previamente determinado como o último quadro considerado mtast e Precede o equivalente à iteração passada. Pode ser visto que a Equação (4.15) vale para a segunda iteração, já que A~ é obviamente maior que A+, portanto, o quadro candidato na linha 2 será tomado como a estimativa final do quadro inicial pré-eco mpre.
REDUÇÃO DE PRÉ-ECO ADAPTAIIVA [0234] A seguinte execução da redução adaptativa de pré-eco pode ser dividida em três fases, como pode ser visto na camada inferior do diagrama de blocos na Figura 13.4: a determinação de um limiar de magnitude pré-eco thk através da computação de uma matriz de ponderação espectral Wk,m e a redução do ruído pré-eco por uma multiplicação element o-element o de Fi/g™ com o sinal de entrada de valor complexo Xk, m. A Figura 13.9 mostra o espectrograma do sinal de entrada Xk,m na imagem superior, bem como o espectrograma do sinal de saída processado Yk, m na imagem do meio, onde os pré-ecos foram reduzidos. A redução préeco é executada por uma multiplicação por elementos de Xk,m e pesos espectrais computados Wk,m (exibidos na imagem inferior da Figura 13.9) como
Petição 870190097668, de 30/09/2019, pág. 92/194
82/114 [0235] O objetivo do método de redução pré-eco é ponderar os valores de Xk,m na área pré-eco estimada anteriormente, de modo que os valores de magnitude resultantes de Yk,m fiquem abaixo de um certo limite thk. A matriz de peso espectral é criada determinando esse limiar thk para cada coeficiente espectral em Xk,m sobre a área de pré-eco e calculando os fatores de ponderação necessários para a atenuação de pré-eco para cada quadro m. a computação de Wk,m é limitado aos coeficientes espectrais entre kmin < k < kmax, em que kmkn é o índice do coeficiente espectral correspondente à frequência mais próxima de fmin = 8 0 0Hz, de modo que 1 para k <kmin e k> kmax · fmin foi escolhido para evitar uma redução de amplitude na área de baixa frequência, uma vez que a maioria das frequências fundamentais de instrumentos musicais e fala está abaixo de 800 Hz. Um amortecimento de amplitude nesta área de frequência é propenso a produzir quedas de sinal sonoras antes dos transientes, especialmente para sinais de áudio musical complexos. Além disso, Wk,m é restrito à área estimada de pré-eco com mpre d m d ng - 2, onde ng é o onset transiente detectado. Devido à sobreposição de 50% entre os períodos adjacentes na análise STFT do sinal de entrada snr o quadro diretamente anterior ao quadro de onset transiente ng também pode conter o evento transiente. Portanto, o amortecimento pré-eco é limitado aos quadros m d ng - 2.
DETERMINAÇÃO DE LIMITE PRÉ-ECO
Petição 870190097668, de 30/09/2019, pág. 93/194
83/114 [0236] Como afirmado anteriormente, um limiar thk precisa ser determinado (260) para cada coeficiente espectral Xk,m, com kmkn d k d kmax, usado para determinar os pesos espectrais necessários para a atenuação do pré-eco no pré-eco individual áreas que precedem cada início transiente detectado. thk corresponde ao valor de magnitude ao qual os valores de magnitude do sinal de Xk,m devem ser reduzidos, para obter o sinal de saída Yk,m. Uma maneira intuitiva podería ser simplesmente pegar o valor do primeiro quadro mpre do área de pré-eco estimada, uma vez que deve corresponder ao instante de tempo em que a amplitude do sinal começa a aumentar constantemente como resultado do ruído de quantização pré-eco induzido. No entanto, |xfcm | não representa necessariamente o valor mínimo de magnitude para todos os sinais, por exemplo, se a área de pré-eco foi estimada muito grande ou devido a possíveis flutuações do sinal de magnitude na área de préeco. Dois exemplos de um sinal de magnitude na área de préeco |ã/„,| que precede um início transiente são exibidos como as curvas cinzas sólidas na Figura 4.10. A imagem superior representa um coeficiente espectral de um sinal de castanet e a imagem inferior um sinal de glockenspiel na sub-banda de um componente tonal sustentado de um tom de glockenspiel anterior. Para calcular um limite adequado, |Xfcm| primeiro é filtrado com um filtro médio em execução de dois toques para frente e para trás ao longo do tempo, para obter o envelope suavizado |xfc m| (ilustrado como a curva preta tracejada) . O sinal suavizado é então
Petição 870190097668, de 30/09/2019, pág. 94/194
84/114 multiplicado com uma curva de ponderação Cm para aumentar os valores de magnitude no final da área de pré-eco. Cm é exibido na Figura 13.11 e pode ser gerado como
Figure BR112019020515A2_D0012
[023 7] em que Mpre é o número de quadros na área de pré-eco. O envelope ponderado após a multiplicação de |xim| com Cm é mostrado como a curva cinza tracejada nos dois diagramas da Figura 13.10. Posteriormente, o limiar de ruído pré-eco thk será considerado o valor mínimo de indicado pelos círculos pretos. Os limiares resultantes thk para ambos os sinais são representados como linhas horizontais pontilhadas por traço. Para o sinal de castanet na imagem superior, seria suficiente simplesmente pegar o valor mínimo do sinal de magnitude suavizada |xfcm| , sem ponderá-lo com Cm. No entanto, a aplicação da curva de ponderação é necessária para o sinal glockenspiel na imagem inferior, onde o valor mínimo de X, está localizado no final da área de pré-eco. Tomando esse valor como thk resultaria em um forte amortecimento do componente de sinal tonal, portanto, induziría artefatos de abandono sonoro. Além disso, devido à maior energia do sinal nesse coeficiente espectral tonal, o pré-eco provavelmente é mascarado e, portanto, inaudível. Pode-se observar que a multiplicação de |xfcm| com a curva de ponderação Cm não altera muito o valor mínimo de |xfcm| no sinal superior na Figura 4.10, resultando em um thk adequadamente alto para o componente glockenspiel tonal exibido no diagrama inferior.
Petição 870190097668, de 30/09/2019, pág. 95/194
85/114
COMPUTAÇÃO DOS PESOS ESPECTRAIS [0238] O limiar resultante thk é usado para calcular os pesos espectrais necessários para diminuir os valores de magnitude de Xk,m· Portanto, um sinal de magnitude alvo |xfcm|será computado (450) para cada índice de coeficiente espectral k, que representa o sinal de saída ideal com pré-eco reduzido para cada indivíduo k. Com ÀÇl , a matriz de peso espectral Wk,m pode ser computada como [0239] Wk,m é subsequentemente suavizado (460) através da frequência, aplicando um filtro médio de corrida de dois toques na direção para frente e para trás para cada quadro m, para reduzir grandes diferenças entre os fatores de ponderação dos coeficientes espectrais vizinhos k antes
da multiplicação com o sinal de entrada Xk,m- 0
amortecimento dos pré-ecos não é feito imediatamente no
quadro inicial de pré-eco em toda a sua extensão, mas
diminui ao longo do período da área de pré-eco. Isso é feito empregando (430) uma curva de desvanecimento paramétrica fm com inclinação ajustável, que é gerada (440) como
Figure BR112019020515A2_D0013
[0240] onde o expoente 10c determina a inclinação de fm. A Figura 13.12 mostra as curvas de desvanecimento para diferentes valores de c, que foram definidas como c =
Petição 870190097668, de 30/09/2019, pág. 96/194
86/114
-0,5 para este trabalho. Com fm e thk, o sinal de magnitude alvo pode ser computado como
Figure BR112019020515A2_D0014
[0241] Isso reduz efetivamente os valores de mais que são mais altos que o limite thkf mantendo os valores abaixo thk intocados.
APLICAÇÃO DE UM MODELO DE PRÉ-MASCARAMENTO
TEMPORAL [0242] Um evento transiente atua como um som de máscara que pode mascarar temporariamente os sons anteriores e posteriores aos mais fracos. Um modelo de prémascaramento também é aplicado (420) aqui, de uma maneira que os valores de |XtJ somente devem ser reduzidos até que caiam abaixo do limiar de pré-mascaramento, onde eles são considerados inaudíveis. O modelo de pré-mascaramento usado primeiro calcula um limiar de pré-mascaramento protótipo 7 proto mask'' , , que e então ajustado ao nível do sinal do transiente de mascaramento específico em Xk,m. Os parâmetros para a computação dos limiares de pré-mascaramento foram escolhidos de acordo com B. Edler (comunicação pessoal, 22 de novembro de 2016) [55].
mask^’1 , e gerado como uma função exponencial como [0243] como a
Os parâmetros L e inclinação, de . O α determinam o nível, bem parâmetro de nível L foi definido como
Petição 870190097668, de 30/09/2019, pág. 97/194
87/114 tfall = 3ms antes do som de mascaramento, o limiar de prémascaramento deve ser diminuído em Lfall = 50dB. Primeiro, o tfaii precisa ser convertido em um número correspondente de frames mfanf considerando
Uv·' Á 3ms „ . ...^ m .2X2.. ...:2..,.. ,. ............ 44J kHz 2.067X J ' /v Z. I.Ü0Ü 64 [0244] onde ( N -L) é o tamanho do salto da análise STFT e fs é a frequência de amostragem. Com L, Lfan e nifan Equação (4.21) torna-se [0245] então o parâmetro α pode ser determinado pela transformação da Equação (4.24) como J .· .< Ιπ Π ···-γ-)
Q_bC.4/ò.[0246] O limite preliminar de pré-mascaramento resultante e mostrado na Figura 13.13 para o período anterior ao início de um som mascarado (ocorrendo em m = 0) . A linha tracejada vertical marca o tempo de queda instantânea - m, correspondente a tfan antes do início do mascarador, onde o limiar diminui em hfall = 50dB. Segundo Fasti e Zwicker, assim como Moore, o pré-mascaramento pode durar até 20 ms. Para os parâmetros de enquadramento usados na análise STFT, isso corresponde a uma duração de prémascaramento de Mmask « 14 quadros, de modo que seja definido para -oo quadros m < - Mrnmask.
[0247] Para a computação da máscara inicial de
Petição 870190097668, de 30/09/2019, pág. 98/194
88/114 limiar de pré-mascaramento dependente de sinal k,m,í em cada área de pré-eco de Xk,m, o quadro transiente detectado mif bem como os seguintes Mmask quadros vai ser considerado como os instantes de tempo de potenciais mascaradores.
[0248]
Consequentemente, é deslocado para cada mi < m <mp + Mmask e ajustado ao nível do sinal do Xk,m com um sinal para mascarar proporção do -6 dB (isto é, a distância entre a nível de mascarador e no quadro de mascarador) para cada coeficiente espectral. Depois disso, os valores máximos dos limiares sobrepostos são tomados como limiares de pré-mascaramento resultantes rnaskk,m,i para a respectiva área de pré-eco. Finalmente, rnaskk,m,i é suavizado através da frequência em ambas as direções, aplicando um filtro de média recursive de polo único equivalente à operação de filtragem na Equação (2.2), com um coeficiente de filtro b = 0,3.
[0249] O limiar de pré-mascaramento maskk,m,i é então usado para ajustar os valores do sinal de magnitude alvo |xfcm| (conforme computado na Equação (4.20)), considerando [0250]
A Figura
13.14 mostra os mesmos dois sinais da Figura 13.10 com o sinal de magnitude alvo resultante das curvas |xfcm| em preto sólido. Para o sinal de castanholas na imagem superior, pode ser visto como a redução da magnitude do sinal para o limiar thk é diminuída
Petição 870190097668, de 30/09/2019, pág. 99/194
89/114 na área de pré-eco, bem como a influência do limiar de prémascaramento para o último quadro m = 16, onde |xfcl6| = |xfcl6|. A imagem inferior (componente espectral tonal do sinal glockenspiel) mostra que o método adaptativo de redução de pré-eco tem apenas um impacto menor nos componentes do sinal tonal sustentado, amortecendo ligeiramente os picos menores, mantendo a magnitude geral do sinal de entrada Xk, m · [0251] Os pesos espectrais resultantes Wk, m são então calculados (450) com Xk,m θ |xfcm| de acordo com a Equação (4.18) e suavizados através da frequência, antes de serem aplicados ao sinal de entrada Xk, m · Finalmente, o sinal de saída Yk,m do método adaptativo de redução de préeco é obtido aplicando (320) os pesos espectrais a Xk,m através da multiplicação por elementos de acordo com a Equação (4.16) Observe que é com valor real e, portanto, não altera a resposta de fase do Xk,m com valor complexo. A Figura 4.15 mostra o resultado da redução préeco de um transiente de glockenspiel com um componente tonal anterior ao início do transiente. Os pesos espectrais Wk,m na imagem inferior mostram valores em torno de 0 dB na banda de frequência do componente tonal, resultando na retenção da parte tonal sustentada do sinal de entrada.
APRIMORAMENTO DO ATAQUE TRANSIENTE [0252] Os métodos discutidos nesta seção visam aprimorar o ataque transiente degradado, bem como enfatizar a amplitude dos eventos transientes.
Petição 870190097668, de 30/09/2019, pág. 100/194
90/114
ADAPTATIVO
APRIMORAMENTO
DE
ATAQUE
TRANSIENTE [0253]
Além do quadro transiente p, o sinal no período após o transiente também é amplificado, com o ganho de amplificação diminuindo nesse intervalo. O método de aprimoramento de ataque transiente adaptativo toma o sinal de saída do estágio de redução pré-eco como seu sinal de entrada Xk,m. Semelhante ao método de redução pré-eco, uma matriz de ponderação espectral Wk,m é calculada (610) e aplicada (620) a Xk,m como [0254]
No entanto, neste caso, é usado para aumentar a amplitude do quadro transiente mi e, em menor medida, também os quadros depois disso, em vez de modificar o período anterior ao transiente. A amplificação é, portanto, restrita a frequências acima de fmin = 400Hz e abaixo da frequência de corte fmax do filtro passa-baixo aplicado no codificador de áudio. Primeiro, o sinal de entrada Xk,m é dividido em uma parte sustentada e uma parte transiente . A amplificação de sinal subsequente é aplicada apenas à parte do sinal transiente, enquanto a parte sustentada é totalmente retida. é calculado filtrando o sinal de magnitude |Xfcm| (650) com um filtro de média recursive monopolar de acordo com a Eq. (2.4), com o coeficiente de filtro usado definido como b = 0,41. A imagem superior da Figura 13.16 mostra um exemplo da magnitude do sinal de entrada |Xfcm| como a curva cinza, bem como a parte do sinal sustentado correspondente X“X como a
Petição 870190097668, de 30/09/2019, pág. 101/194
91/114 curva tracejada. A parte do sinal transiente é então calculada (670) como r rs i— i— ί -η ·ι V trans Ί , Ί Ί [0255] A parte transiente da magnitude do sinal de entrada correspondente |Xfcm| na imagem superior é exibida na imagem inferior da Figura 13.16 como a curva cinza. Em vez de multiplicar apenas em ny com um certo fator de ganho G, a quantidade de amplificação é bastante reduzida (680) durante um período de tempo de Tamp = 100ms = Mamp = 69 quadros após o quadro transiente. A curva de ganho desbotada GUI é mostrada na Figura 4.17. O fator de ganho para o quadro transiente de é definido como G1 =
2,2, o que corresponde a um aumento no nível de magnitude de 6,85 dB, com o ganho para os quadros subsequentes diminuindo de acordo com Gm. Com a curva de ganho Gill e as partes do sinal sustentado e transiente, a matriz de ponderação espectral Wk,m será obtida (680) por
Hi...... m · f.....'
m [0256] e então suavizado (690) através da frequência, tanto na direção para frente quanto para trás, de acordo com a Equação (2.2), antes de melhorar o ataque transiente de acordo com a Equaçao (4,27). Na imagem inferior da Figura 13.16, o resultado da amplificação da MT parte do sinal transiente com a curva de ganho, Gm pode ser vista como a curva preta. A magnitude do sinal de saída yy “com o ataque transiente aprimorado é mostrado na imagem
Petição 870190097668, de 30/09/2019, pág. 102/194
92/114 superior como a curva preta sólida.
FORMAÇÃO DE ENVELOPE TEMPORAL COM O USO DE
PREDIÇÃO LINEAR [0257]
Ao contrário do método de aprimoramento de ataque transiente adaptável descrito anteriormente, esse método visa aguçar o ataque de um evento transiente, sem aumentar sua amplitude. Em vez disso, afiar o transiente é realizado aplicando (720) predição linear ar no domínio da frequência e usando dois conjuntos diferentes de coeficientes de predição para o filtro inverso (720a) e de síntese (720b) para modelar (740) o envelope temporal do sinal do tempo sn. Ao filtrar o espectro do sinal de entrada com o filtro inverso (740a), o resíduo de previsão pode ser obtido de acordo com a Equação (2.9) e (2.10) como [0258]
O filtro inverso (740a) correlaciona o sinal de entrada filtrado Xk,m no domínio da frequência e do tempo, achatando efetivamente o envelope temporal do sinal de entrada sn. Filtragem Ek m com o filtro de síntese (740b) de acordo com a Equação (2.12) (usando os coeficientes de previsão asrynth ) reconstrói perfeitamente o sinal de entrada se Xkm = asynth=a^at . O objetivodo aprimoramento do ataque é calcular os coeficientesde previsão a^at e asynth de uma maneira que a combinaçãodo filtro inverso e do filtro de síntese exagere o transiente, atenuando as partes do sinal antes e depois dele no quadro transiente específico.
Petição 870190097668, de 30/09/2019, pág. 103/194
93/114 [0259] O método de modelagem LPC funciona com diferentes parâmetros de enquadramento como os métodos de aprimoramento anteriores. Portanto, o sinal de saída do estágio de aprimoramento de ataque adaptativo anterior precisa ser ressintetizado com o ISTFT e analisado novamente com os novos parâmetros. Para este método, é utilizado um tamanho de quadro de N = 512 amostras, com uma sobreposição de 50% de L = N / 2 = 256 amostras. O tamanho da DFT foi definido como 512. O tamanho de quadro maior foi escolhido para melhorar a computação dos coeficientes de previsão no domínio da frequência, pelo que uma resolução de alta frequência é mais importante do que uma alta resolução temporal. Os coeficientes de previsão aP at e asrynth são computados no espectro complexo do sinal de entrada X, m para uma banda de frequência entre f- = 800 Hz e f ¥ K, 4- -L mill V ΙΙΙαΛ (que corresponde aos coeficientes espectrais com kmin = 10 < Y-Yax) com ° algoritmo Levinson-Durbin após a Equação (2.21) - (2.24) e uma ordem LPC de p = 24. Antes disso, a função de autocorrelação Ri do sinal de passagem de banda X klpc mi é multiplicada (802, 804) por duas funções diferentes da janela e VYí/! para a computação e aPat e asynth para suavizar o envelope temporal descrito pelos respectivos filtros LPC [56]. As funções da janela são geradas como
Figure BR112019020515A2_D0015
[0260] com 0,4 e 0,94. A imagem superior da Figura 4.13 mostra as duas funções diferentes da janela, que são multiplicadas com Ri. A função de correlação
Petição 870190097668, de 30/09/2019, pág. 104/194
94/114 automática de um quadro de sinal de entrada de exemplo é representada na imagem inferior, juntamente com as duas versões em janela ( ) e ( '' '' ) . Com os coeficientes de predição resultantes como os coeficientes de filtro do filtro de nivelamento e modelagem, o sinal de entrada >í-'e modelado com o uso do resultado da Equação (4.30) com a Equação (2.6) como
Figure BR112019020515A2_D0016
[0261] Isso descreve a operação de filtragem com o filtro de modelagem resultante, que pode ser interpretado como a aplicação combinada (820) do filtro inverso (809) e o filtro de síntese (810). Transformando a Equação (4. 32) com a FFT produz a função de transferência de filtro no domínio do tempo (TF) do sistema [0262] com o filtro FIR (inverso/achatamento) filtro (1-Pn) e IIR (síntese) An. A Equação (4,32) pode ser formulada de forma equivalente no domínio do tempo como a multiplicação do sinal de quadro de entrada Sn com o filtro formador TF como [0263]
A Figura 13.13 mostra os diferentes TFs no domínio do tempo da Equaçao tracejadas correspondem a ' * e (4,33). As duas curvas , com a curva cinza
Petição 870190097668, de 30/09/2019, pág. 105/194
95/114 sólida representando a combinação (820) do filtro inverso e
de síntese ( ’ ' s ) antes da multiplicação com o fator
de ganho G (811). Pode-se observar que a operação de
filtragem com um fator de ganho de G = 1 resultaria em um forte aumento de amplitude do evento transiente, neste caso para a parte do sinal entre 140 <n> 426. Um fator de ganho
apropriado G pode ser computado como a razao dos dois
ganhos de « Ή χ. predição e para o filtro inverso e o
filtro de síntese por
G «......
[0264] 0 ganho de predição R p é computado a
partir dos coeficientes de correlação parciais pm, com 1
, que estão relacionados aos coeficientes de predição
à e sao computados junto com *{V na Equaçao (2. 21) do
algoritmo Levinson-Durbin. Com pm, o ganho de predição
(811) é então obtido por
·><
[0265] 0 TF final s com a amplitude ajustada é
exibido na Figura 4. 13 como a curva preta sólida. A Figura
4. 13 mostra a forma de onda do sinal de saída resultante ’após a configuração do envelope LPC na imagem superior, bem como o sinal de entrada s n no quadro transiente. A imagem inferior compara o espectro de magnitude do sinal de
entrada y, ®com o espectro de magnitude filtrada .
Petição 870190097668, de 30/09/2019, pág. 106/194
96/114 [0266] Além disso, exemplos de modalidades particularmente relacionados ao segundo aspecto são apresentados posteriormente:
[0267] 1. Aparelho para pós-processamento (20) de um sinal de áudio que compreende:
[0268] um conversor de espectro temporal (700)
para converter o sinal de áudio em uma representação
espectral que compreende uma sequência de quadros
espectrais; [0269] um analisador de previsão (720) para
calcular dados de filtro de previsão para uma previsão de
frequência dentro [0270] um de um quadro espectral; filtro de modelagem (740) controlado
pelos dados do filtro de previsão para modelar a trama espectral para melhorar uma porção transiente dentro da trama espectral; e [0271] um conversor de espectro-tempo (760) para converter uma sequência de quadros espectrais que compreende um quadro espectral moldado em um domínio de tempo.
[0272] 2. Aparelho do exemplo 1, [0273] em que o analisador de previsão (720) está configurado para calcular os primeiros dados do filtro de previsão (720a) para uma característica do filtro de nivelamento (740a) e o segundo dado do filtro de previsão (720b) para uma característica do filtro de modelagem (740b) .
[0274] 3. Aparelho do exemplo 2,
Petição 870190097668, de 30/09/2019, pág. 107/194
97/114 [0275] em que o analisador de previsão (720) está configurado para calcular os primeiros dados do filtro de previsão (720a) usando uma primeira constante de tempo e para calcular os segundos dados do filtro de previsão usando uma segunda constante de tempo (720b), sendo a segunda constante de tempo maior que a primeira tempo constante.
[0276] 4 . Aparelho do exemplo 2 ou 3,
[0277] em que a característica de filtro de
nivelamento (740a) é uma característica de f i itro de
análise FIR ou uma característica de filtro totalmente zero resultante, quando aplicada à estrutura espectral, em uma estrutura espectral modificada com um envelope temporal mais plano em comparação com um envelope temporal da estrutura espectral; ou [0278] em que a característica de filtro de modelagem (740b) é uma característica de filtro IIR de síntese ou uma característica de filtro de todos os polos resultante, quando aplicada a uma estrutura espectral, em
uma estrutura espectral modificada que tem um envelope
temporal menos plano, em comparação com um envelope
temporal da estrutura espectral.
[0279] 5. Aparelho de qualquer um dos exemplos
anteriores, [0280] em que o analisador de previsão (720) está configurado:
[0281] calcular (800) um sinal de autocorrelação a partir do quadro espectral;
Petição 870190097668, de 30/09/2019, pág. 108/194
98/114 [0282] j anelar (802
804) sinal de autocorrelação usando uma janela com uma primeira constante de tempo ou com uma segunda constante de tempo, em que a segunda constante de tempo é maior que a primeira constante de tempo;
[0283] calcular (806, 808) os primeiros dados do filtro de previsão a partir de um sinal de autocorrelação em janela visualizado com o uso de uma primeira constante de tempo ou calcular os coeficientes do segundo filtrode previsão a partir de um sinal de autocorrelação em janela visualizado com o uso de uma segunda constante de tempo;e [0284] em que o filtro de modelagem (740)é configurado para moldar o quadro espectral usando os segundos coeficientes de filtro de previsão ou usando os segundos coeficientes de filtro de previsão e os primeiros coeficientes de filtro de previsão.
[0285] 6. Aparelho de qualquer um dos exemplos anteriores, [0286] em que o filtro de modelagem (740) compreende uma cascata de dois subfiltros controláveis (809, 810), um primeiro subfiltro (809) sendo um filtro achatador com uma característica de filtro achatador e um segundo subfiltro (810) sendo um filtro de modelagem com uma característica de filtro de modelagem, [0287] em que os subfiltros (809, 810) são controlados pelos dados do filtro de previsão derivados pelo analisador de previsão (720), ou
Petição 870190097668, de 30/09/2019, pág. 109/194
99/114 [0288] em que o filtro de modelagem (740) é um filtro com uma característica de filtro combinada derivada da combinação (820) de uma característica de nivelamento e uma característica de modelagem, em que a característica combinada é controlada pelos dados do filtro de previsão derivados do analisador de previsão (720).
[0289] 7. Aparelho do exemplo 6, [0290] em que o analisador de previsão (720) está configurado para determinar [0291] os dados do filtro de previsão para que o uso de dados do filtro de previsão para o filtro de modelagem (740) resulte em um grau de modelagem superior ao grau de nivelamento obtido pelo uso dos dados do filtro de previsão para a característica do filtro de nivelamento.
[0292] 8. Aparelho de qualquer um dos exemplos anteriores, [0293] em que o analisador de previsão (720) está configurado para aplicar (806, 808) um algoritmo de Levinson-Durbin a um sinal de autocorrelação filtrado derivado da estrutura espectral.
[0294] 9. Aparelho de qualquer um dos exemplos anteriores, [0295] em que o filtro de modelagem (740) está configurado para aplicar uma compensação de ganho de modo que uma energia de uma estrutura espectral modelada seja igual a uma energia da estrutura espectral gerada pelo conversor espectral no tempo (700) ou esteja dentro de uma
Petição 870190097668, de 30/09/2019, pág. 110/194
100/114 faixa de tolerância de ± 20% de uma energia da estrutura espectral.
[0296] 10. Aparelho de qualquer um dos exemplos anteriores, [0297] em que o filtro de modelagem (740) está configurado para aplicar uma característica de filtro de nivelamento (740a) com um ganho de nivelamento e uma característica de filtro de modelagem (740b) com um ganho de modelagem, e [0298] em que o filtro de modelagem (740) está configurado para executar uma compensação de ganho para compensar uma influência do ganho de nivelamento e ganho de modelagem.
[0299] 11. Aparelho do exemplo 6, [0300] em que o analisador de previsão (720) está configurado para calcular um ganho de nivelamento e um ganho de modelagem,
[0301] em que a cascata dos dois subfiltros
controláveis ( 809, 810) compreende ainda um estágio de
ganho separado (81 1) ou uma função de ganho incluída em
pelo menos um dos dois subfiltros para aplicar um ganho
derivado do ganho de nivelamento e/ou o ganho de modelagem, ou [0302] em que o filtro (740) com a característica combinada é configurado para aplicar um ganho derivado do ganho de nivelamento e/ou ganho de modelagem.
[0303] 12. Aparelho do exemplo 5,
Petição 870190097668, de 30/09/2019, pág. 111/194
101/114 [0304] em que a janela compreende uma janela gaussiana com um intervalo de tempo como parâmetro.
[0305] 13. Aparelho de qualquer um dos exemplos anteriores, [0306] em que o analisador de previsão (720) está configurado para calcular os dados do filtro de previsão para uma pluralidade de quadros, de modo que o filtro de modelagem (740) controlado pelos dados do filtro de previsão execute uma manipulação de sinal para um quadro da pluralidade de quadros que compreende uma porção transiente e [0307] de modo que o filtro de modelagem (740) não execute uma manipulação de sinal ou execute uma manipulação de sinal menor do que a manipulação de sinal para o quadro para um quadro adicional da pluralidade de quadros que não compreende uma porção transiente.
[0308] 14. Aparelho de qualquer um dos exemplos anteriores, [0309] em que o conversor de espectro-tempo (760) está configurado para aplicar uma operação de adição de sobreposição envolvendo pelo menos dois quadros adjacentes da representação espectral.
[0310] 15. Aparelho de qualquer um dos exemplos anteriores, [0311] em que o conversor de espectro temporal (700) está configurado para aplicar um tamanho de salto entre 3 e 8 ms ou uma janela de análise com um comprimento de janela entre 6 e 16 ms, ou
Petição 870190097668, de 30/09/2019, pág. 112/194
102/114 [0312] em que o conversor de espectro-tempo (760) está configurado para usar e sobrepor a faixa correspondente a um tamanho de sobreposição de janelas sobrepostas ou correspondente a um tamanho de salto usado pelo conversor entre 3 e 8 ms ou para usar uma janela de síntese com um comprimento de janela entre 6 e 16 ms, ou em que a janela de análise e a janela de síntese são idênticas uma à outra.
[0313] 16. Aparelho do exemplo 2 ou 3, [0314] em que a característica de filtro de nivelamento (740a) é uma característica de filtro inverso resultante, quando aplicada à estrutura espectral, em uma estrutura espectral modificada que tem um envelope temporal mais plano em comparação com um envelope temporal da estrutura espectral; ou [0315] em que a característica do filtro de modelagem (740b) é uma característica do filtro de síntese resultante, quando aplicada a uma estrutura espectral, em uma estrutura espectral modificada que tem um envelope temporal menos achatado em comparaçao com um envelope temporal da estrutura espectral.
[0316]
17. Aparelho de qualquer um dos exemplos anteriores em que o analisador de previsão (720) configurado para calcular dados do filtro de previsão para uma característica do filtro de modelagem (740b), e em que o filtro de modelagem (740) é configurado para filtrar a estrutura espectral conforme obtida pelo conversor de
Petição 870190097668, de 30/09/2019, pág. 113/194
103/114 espectro temporal (700), por exemplo, sem um achatamento anterior.
[0317] 18. Aparelho de qualquer um dos exemplos anteriores, em que o filtro de modelagem (740) é configurado para representar uma ação de modelagem de acordo com um envelope de tempo da estrutura espectral com uma resolução de tempo máxima ou menor que a máxima e em que o filtro de modelagem (740) está configurado para representar nenhuma ação de nivelamento ou uma ação de nivelamento de acordo com uma resolução de tempo menor do que a resolução de tempo associada à ação de modelagem.
[0318] 19. Método para pós-processamento (20) de um sinal de áudio, que compreende:
[0319] converter (700) o sinal de áudio em uma representação espectral que compreende uma sequência de quadros espectrais;
[0320] calcular (720) dados de filtro de previsão para uma previsão de frequência dentro de um quadro espectral;
[0321] moldar (740), em resposta aos dados do filtro de previsão, a estrutura espectral para melhorar uma porção transiente dentro da estrutura espectral; e [0322] converter (760) uma sequência de quadros espectrais que compreende um quadro espectral moldado em um domínio de tempo.
[0323] 20. Programa de computador para executar, ao executar em um computador ou processador, o método do exemplo 19.
Petição 870190097668, de 30/09/2019, pág. 114/194
104/114 [0324] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa do método ou a um recurso de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente.
[0325] Dependendo de certos requisitos de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada usando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, com sinais de controle legíveis eletronicamente armazenados nela, os quais cooperam (ou tenham a capacidade de cooperar) com um sistema de computador programável, de modo que o método respectivo seja executado.
[0326] Algumas modalidades de acordo com a invenção compreendem um portador de dados com sinais de controle legíveis eletronicamente, que têm a capacidade de cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.
[0327] Geralmente, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, sendo o código de programa operacional para executar um dos métodos quando o
Petição 870190097668, de 30/09/2019, pág. 115/194
105/114 produto de programa de computador é executado em um computador. O código do programa pode, por exemplo, ser armazenado em um suporte legível por máquina.
[0328] Outras modalidades compreendem o programa de computador para executar um dos métodos aqui descritos, armazenados em um suporte legível por máquina ou em um meio de armazenamento não transiente.
[0329] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador com um código de programa para executar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.
[0330] Uma modalidade adicional dos métodos inventivos é, portanto, um suporte de dados (ou um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para executar um dos métodos aqui descritos.
[0331] Uma modalidade adicional do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para executar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[0332] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado ou adaptado para executar um dos métodos aqui descritos.
Petição 870190097668, de 30/09/2019, pág. 116/194
106/114 [0333] Uma modalidade adicional compreende um computador tendo instalado nele o programa de computador para executar um dos métodos aqui descritos.
[0334] Em algumas modalidades, um dispositivo lógico programável (por exemplo, uma matriz de portas programável em campo) pode ser usado para executar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas modalidades, uma matriz de portas programável em campo pode cooperar com um microprocessador para executar um dos métodos descritos aqui. Geralmente, os métodos são preferencialmente realizados por qualquer aparelho de hardware.
[0335] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações dos arranjos e os detalhes aqui descritos serão evidentes para outros especialistas na técnica. É intenção, portanto, limitar-se apenas ao escopo das reivindicações iminentes de patentes e não aos detalhes específicos apresentados por meio de descrição e explicação das modalidades aqui apresentadas.
BIBLIOGRAFIA
K. Brandenburg, MP3 and AAC explained, em Audio Engineering Society Conference:
17th International Conference: High-Quality Audio Coding, Setembro de 1999.
K. Brandenburg e G. Stoll, ISO/MPEG-1 audio: A generic standard for coding of high-quality
Petição 870190097668, de 30/09/2019, pág. 117/194
107/114 digital audio, J. Audio Eng. Soc., vol. 42, páginas 780 a 792, Outubro de 1994.
ISO/IEC 11172-3, MPEG-1: Coding of moving pictures and associated audio for digital storage media at up to about 1. 5 mbit/s - part 3: Audio, international standard, ISO/IEC, 1993. JTC1/SC29/WG11.
ISO/IEC 13818-1, Information technology generic coding of moving pictures and associated audio information: Systems, international standard, ISO/IEC, 2000. ISO/IEC JTC1/SC29.
J. Herre e J. D. Johnston, Enhancing the performance of perceptual audio coders by using temporal noise shaping (INS), in 101st Audio Engineering Society Convention, n- 4384, AES, Novembro de 1996.
B. Edler, Codierung von audiosignalen mit uberlappender transformation und adaptiven fensterfunktionen, Frequenz - Zeitschrift fur Telekommunikation, vol. 43, páginas 253 a 256, Setembro de 1989 .
I. Samaali, Μ. T. -H. Alouane, e G. Mahé, Temporal envelope correction for attack restoration im low bit-rate audio coding, em 17th European Signal Processing Conference (EUSIPCO), (Glasgow, Scotland), IEEE, Agosto de 2009 .
J. Lapierre e R. Lefebvre, Pre-echo noise reduction in frequency-domain áudio codecs, em 42nd IEEE International Conference on Acoustics, Speech and Signal Processing, páginas 686 a 690, IEEE, Março de 2017.
Petição 870190097668, de 30/09/2019, pág. 118/194
108/114
A. V. Oppenheim e R. W. Schafer, DiscreteTime Signal Processing. Harlow, UK: Pearson Education Limited, 3. ed., 2014.
J. G. Proakis e D. G. Manolakis, Digital Signal Processing - Principles, Algorithms, and Applications. New Jersey, US: Pearson Education Limited, 4. ed., 2007.
J. Benesty, J. Chen, e Y. Huang, Springer handbook of speech processing, ch. 7.
Linear Prediction, pp. 121-134. Berlin: Springer, 2008.
J. Makhoul, Spectral analysis of speech by linear prediction, em IEEE Transactions on Audio and Electroacoustics, vol. 21, páginas 140 a 148, IEEE, Junho de 1973.
J. Makhoul, Linear prediction: A tutorial review, em Proceedings of the IEEE, vol. 63, páginas 561 a 580, IEEE, Abril de 2000.
M. Athineos and D. P. W. Ellis, Frequencydomain linear prediction for temporal features, em IEEE Workshop on Automatic Speech Recognition and Understanding, páginas 261 a 266, IEEE, Novembro de 2003.
F. Keiler, D. Arfib, e U. Zolzer, Efficient linear prediction for digital áudio effects, em COST G-6 Conference on Digital Audio Effects (DAFX-00), (Verona, Itália), Dezembro de 2000.
J. Makhoul, Spectral linear prediction: Properties and applications, em IEEE Transactions on
Petição 870190097668, de 30/09/2019, pág. 119/194
109/114
Acoustics, Speech, and Signal Processing, vol. 23, páginas 283 a 296, IEEE, Junho de 1975.
T. Painter e A. Spanias, Perceptual coding of digital audio, em Proceedings of the IEEE, vol. 88, Abril de 2000 .
J. Makhoul, Stable and efficient lattice methods for linear prediction, em IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-25, páginas 423 a 428, IEEE, Outubro de 1977.
N. Levinson, The wiener rms (root mean square) error criterion in filter design and prediction, Journal of Mathematics and Physics, vol. 25, páginas 261 a 278, Abril de 1946.
J. Herre, Temporal noise shaping, qualtization and coding methods in perceptual audio coding: A tutorial introduction, em Audio Engineering Society Conference: 17th International Conference: High-Quality Audio Coding, vol. 17, AES, Agosto de 1999.
M. R. Schroeder, Linear prediction, entropy and signal analysis, IEEE ASSP Magazine, vol. 1, páginas 3 a 11, Julho de 1984.
L. Daudet, S. Molla, e B. Torrésani, Transient detection and encoding using wavelet coeffcient
trees, Colloques sur le Traitement du Signal et des
Images, Setembro de 2001 .
B. Edler e 0. Niemeyer, Detection and
extraction of transients for audio coding, em Audio
Petição 870190097668, de 30/09/2019, pág. 120/194
110/114
Engineering Society Convention 120, n- 6811, (Paris, França), Maio de 2006.
J. Kliewer e A. Mertins, Audio subband coding with improved representation of transient signal segments, em 9th European Signal Processing Conference, vol. 9, (Rhodes), páginas 1 a 4, IEEE, Setembro de 1998.
X. Rodet e F. Jaillet, Detection and modeling of fast attack transients, em Proceedings of the International Computer Music Conference, (Havana, Cuba), páginas 30 a 33, 2001.
J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, and M. Davies, A tutorial on onset detection in music signals, IEEE Transactions on Speech and Audio Processing, vol. 13, páginas 1035 a 1047, Setembro de 2005.
V. Suresh Babu, A. K. Malot, V. Vijayachandran, e M. Vinay, Transient detection for transform domain coders, em Audio Engineering Society Convention 116, n- 6175, (Berlim, Alemanha), Maio de 2004.
P. Masri e A. Bateman, Improved modelling of attack transients in music analysis-resynthesis, em International Computer Music Conference, páginas 100 a 103, Janeiro de 1996.
M. D. Kwong e R. Lefebvre, Transient detection of audio signals based on na adaptive comb filter in the frequency domain, em Conference on Signals, Systems and Computers, 2004. Conference Record of the ThirtySeventh Asilomar, vol. 1, páginas 542 a 545, IEEE, Novembro de 2003 .
Petição 870190097668, de 30/09/2019, pág. 121/194
111/114
X. Zhang, C. Cai, e J. Zhang, A transient signal detection technique based on flatness measure, em 6th International Conference on Computer Science and Education, (Singapore), páginas 310 a 312, IEEE, Agosto de 2011 .
J. D. Johnston, Transform coding of audio signals using perceptual noise criteria, IEEE Journal on Selected Areas in Communications, vol. 6, páginas 314 a 323, Fevereiro de 1988.
J. Herre e S. Disch, Academic press library in Signal processing, vol. 4, cap. 28. Perceptual Audio Coding, páginas 757 a 799. Academic press, 2014.
H. Fasti e E. Zwicker, Psychoacoustics Facts and Models. Heidelberg: Springer, 3. ed., 2007.
B. C. J. Moore, An Introduction to the Psychology of Hearing. London: Emerald, 6. ed., 2012.
P. Dallos, A. N. Popper, e R. R. Fay, The Cochlea. New York: Springer, 1. ed., 1996.
W. M. Hartmann, Signals, Sound, and Sensation. Springer, 5. ed., 2005.
K. Brandenburg, C. Faller, J. Herre, J. D. Johnston, e B. Kleijn, Perceptual coding of high-quality digital audio, em IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 101, páginas 1.905 a 1.919, IEEE, Setembro de 2013.
H. Fletcher e W. A. Munson, Loudness, its definition, measurement and calculation, The Bell System Technical Journal, vol. 12, no. 4, páginas 377 a 430, 1933.
Petição 870190097668, de 30/09/2019, pág. 122/194
112/114
H. Fletcher, Auditory patterns, Reviews of Modern Physics, vol. 12, η- 1, páginas 47 a 65, 1940.
M. Bosi e R. E. Goldberg, Introduction to Digital Audio Coding and Standards. Kluwer Academic Publishers, 1. ed., 2003.
P. Noll, MPEG digital audio coding, IEEE Signal Processing Magazine, vol. 14, páginas 59 a 81, Setembro de 1997.
D. Pan, A tutorial on MPEG/audio compression, IEEE MultiMedia, vol. 2, n- 2, páginas 60 a 74, 1995.
M. Erne, Perceptual audio coders what to listen for, em 111st Audio Engineering Society Convention, n- 5489, AES, Setembro de 2001.
C. -M. Liu, H. -W. Hsu, e W. Lee, Compression artifacts in perceptual áudio coding, em IEEE Transactions on Audio, Speech, and Language Processing, vol. 16, páginas 681 a 695, IEEE, Maio de 2008.
L. Daudet, A review on techniques for the extraction of transients in musical signals, em Proceedings of the Third international conference on Computer Music, páginas 219 a 232, Setembro de 2005.
W. —C. Lee e C. -C. J. Kuo, Musical onset detection based on adaptive linear prediction, em IEEE International Conference on Multimedia and Expo, (Toronto, Ontário), páginas 957 a 960, IEEE, Julho de 2006.
M. Link, An attack processing of audio signals for optimizing the temporal characteristics of a
Petição 870190097668, de 30/09/2019, pág. 123/194
113/114 low bit-rate audio coding system, em Audio Engineering Society Convention, vol. 95, Outubro de 1993.
T. Vaupel, Ein Beitrag zur Transformationscodierung von Audiosignalen unter Verwendung der Methode der Time Domain Aliasing Cancellation (TDAC) und einer Signalkompandierung im Zeitbereich. Ph. d. thesis, Universitãt Duisburg, Duisburg, Alemanha, Abril de 1991.
G. Bertini, M. Magrini, e T. Giunti, A time-domain system for transient enhancement in recorded music, em 14th European Signal Processing Conference (EUSIPCO), (Florence, Italia), IEEE, Setembro de 2013.
C. Duxbury, M. Sandler, and M. Davies, A hybrid approach to musical note onset detection, em Proc, of the 5th Int. Conference on Digital Audio Effects (DAFx02), (Hamburg, Alemanha), páginas 33 a 38, Setembro de 2002 .
A. Klapuri, Sound onset detection by applying psychoacoustic knowledge, em Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal
Processing, Março de 1999.
S. L. Goh e D. P. Mandic, Nonlinear adaptive prediction of complex-valued signals by complexvalued PRNN, em IEEE Transactions on Signal Processing, vol. 53, páginas 1.827 a 1.836, IEEE, Maio de 2005.
S. Haykin e L. Li, Nonlinear adaptive prediction of nonstationary signals, em IEEE Transactions
Petição 870190097668, de 30/09/2019, pág. 124/194
114/114 on Signal Processing, vol. 43, páginas 526 a 535, IEEE, Fevereiro de 1995.
D. P. Mandic, S. Javidi, S. L. Goh, e K. Aihara, Complex-valued prediction of wind profile using augmented complex statistics, em Renewable Energy, vol. 34, páginas 196 a 201, Elsevier Ltd., Janeiro de 2009.
B. Edler, Parametrization of a pre-masking model. Personal communication, 22 de Novembro de 2016.
ITU-R Recommendation BS. 1116-3, Method for the subjective assessment of small impairments in audio systems, recommendation, International Telecommunication Union, Genebra, Suíça, Fevereiro de 2015.
ITU-R Recommendation BS. 1534-3, Method for the subjective assessment of intermediate quality level of audio systems, recommendation, International Telecommunication Union, Genebra, Suíça, Outubro de 2015.
ITU-R Recommendation BS. 1770-4, Algorithms to measure audio programme loudness and truepeak audio level, recommendation, International Telecommunication Union, Genebra, Suíça, Outubro de 2015.
S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists. Elsevier, 3. ed., 2004 .

Claims (18)

REIVINDICAÇÕES
1. Aparelho para pós-processamento (20) de um sinal de áudio caracterizado por compreender:
um conversor (100) para converter o sinal de áudio em uma representação de frequência de tempo;
um estimador de localização transiente (120) para estimar uma localização no tempo de uma porção transiente com o uso do sinal de áudio ou a representação de frequência de tempo; e um manipulador de sinal (140) para manipular a representação de frequência de tempo, em que o manipulador de sinal está configurado para reduzir (220) ou eliminar um pré-eco na representação de frequência de tempo em. um. local no tempo antes da localização transiente ou para executar um modelagem (500) da representação de frequência de tempo na localização transiente para amplificar um ataque da porção transiente.
2. Aparelho, de acordo com a reivindicação
J- f caracterizado pelo manipulador de sinal (140) compreender um estimador de tonalidade (200) para detectar componentes de sinal tonal na representação de frequência de tempo que precede a porção transiente no tempo, e em que o manipulador de sinal (140) está configurado para aplicar a redução ou eliminação pré-eco (220) de uma maneira seletiva de frequência, de modo que, nas frequências em que os componentes do sinal tonal foram
Petição 870190097668, de 30/09/2019, pág. 126/194 detectados, a manipulação do sinal é reduzida ou desligada em comparação com frequências em que os componentes do sinal tonal não foram detectados.
3. Aparelho, de acordo com as reivindicações 1 ou 2, caracterizado pelo manipulador de sinal (140) compreender um estimador de largura pré-eco (240) para estimar uma largura no tempo do pré-eco anterior à localização transiente com base no desenvolvimento de uma energia de sinal do áudio sinal ao longo do tempo para determinar um quadro inicial de pré-eco na representação de frequência de tempo compreendendo uma pluralidade de quadros de sinal de áudio subsequentes.
4. Aparelho, de acordo com qualquer uma das r e i v i n d i c a ç õ e s a n t e r i o r e s, caracterizado pelo manipulador de sinal
(140) compreender um estimador de li miar de pré-eco (26 0) para estimar limiares de pré-ec,í o para valores espectrais na representação de freqi jencia de tempo dentro de uma largura
de pré-eco, em que os limiares de pré-eco indicam limiares de amplitude correspondentes valores espectrais subsequentes à redução ou eliminação pré-eco.
5. Aparelho, de acordo com a reivindicação 4, caracterizado pelo estimador de limiar de pré-eco (260) estar configurado para determinar o limiar de pré-eco com o uso de uma curva de ponderação com uma característica crescente desde o início da largura do pré-eco até a localizaçao transients.
6. Aparelho, de acordo com qualquer uma das
Petição 870190097668, de 30/09/2019, pág. 127/194 reivindicações anteriores, caracterizado pelo estimator de limiar de pré-eco (260) estar configurado:
suavizar (330) a representação da frequência do tempo sobre uma pluralidade de quadros subsequentes da representação da frequência do tempo, e ponderar (340) a representação de frequência de tempo suavizada com o uso de uma curva de ponderação que tem uma característica crescente desde o inicio da largura do pré-eco até a localização transiente.
7. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o manipulador de sinal (140) compreender:
uma calculadora de pesos espectrais (300, 160) para calcular pesos espectrais individuais para valores espectrais da representação tempo-frequência; e um. ponderador espectral (320) para ponderar valores espectrais da representação tempo-frequência usando os pesos espectrais para obter uma representação manipulada t e mp o - f r e qu ê n. c i a .
8. Aparelho, de acordo com a reivindicação 7, caracterizado pela calculadora de pesos espectrais (300) estar configurada para:
determinar (450) pesos espectrais brutos usando um valor espectral real e um valor espectral alvo, suavizar (460) os pesos espectrais brutos em frequência dentro de um quadro da representação de frequência de tempo, ou
Petição 870190097668, de 30/09/2019, pág. 128/194 desvanecer (4ju) uma redução ou eliminação do pré-eco com o uso de uma curva de desvanecimento sobre uma pluralidade de quadros no início da largura do pré-eco, ou determinar (420) o valor espectral alvo, de modo que o valor espectral com uma amplitude abaixo de um limiar de pré-eco não seja influenciado pela manipulação do sinal, ou
determinar (420) os val. ores espectra is alvo usando um mod elo de pré-m ascaramen t o { 410) de modo que um amo r t e c i me n t o de um valor espectral. n área de pré-e co se~ja
reduzido com base no modelo de pré-mascaramento (410) .
9. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado por a representação de frequência de tempo compreender valores espectrais de valor complexo, e em. que o manipulador de sinal (140) está configurado para aplicar valores de ponderação espectral com valor real aos valores espectrais de valor complexo.
10. Aparelho, de acordo com. qualquer uma das reivindicações anteriores, caracterizado pelo manipulador de sinal (140) estar configurado para amplificar (500) valores espectrais dentro de um quadro transiente da representação de frequência de tempo.
11. Aparelho, de acordo com qualquer uma das reivindicações anteriores,
Petição 870190097668, de 30/09/2019, pág. 129/194 caracterizado pelo manipulador de sinal (140) estar configurado para amplificar apenas valores espectrais acima de uma frequência mínima, em que a frequência mínima é maior que 250 Hz e menor que 2 kHz.
12. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo manipulador de sinal (140) estar configurado para dividir (630) a representação de frequência de tempo na localização transiente em uma parte sustentada e a parte transiente, em que o manipulador de sinal (140) está configurado para amplificar apenas a parte transiente e não amplificar a parte sustentada.
13. Aparelho, de acordo com qualquer uma d a s r e i v i n d i c a ç õ e s a n t e r i o r e s,
caracterizado pelo m a n i p u 1 a d o r de sinal (140) estar configurado para também. amplificar uma porção de tempo da representação de frequência de tempo subsequente à localização trar isiente no tempo cc iim o uso de uma caracter ística de desvanec imento (685). 14. Aparelho, Q. Θ a C! or do com. qu lalqu ier uma das reivindi cações anteriores, caracterizado pelo m a n _i p u 1 a d o r de sinal
(14 0) estar c o n f i g u r a d o para calcular (680) um fator de ponde ração θ spectral par a um valor espectral com o uso de uma parte sustentada do valor espectral, uma parte
transiente amplificada e uma magnitude do valor espectral, em que uma quantidade de amplificação da amplificada parte
Petição 870190097668, de 30/09/2019, pág. 130/194 é pré-determinada e entre 300% e 150%, ou em que os pesos espectrais são suavizados (690) através da frequência.
15 Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado por compreender ainda um conversor de tempo espectral para converter (3'70) uma representação de frequência de tempo manipulada em um domínio de tempo com o uso de uma operação de adição de sobreposição envolvendo pelo menos quadros adjacentes da representação de frequência de tempo.
16. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo conversor (100) estar configurado para aplicar um tamanho de salto entre 1 e 3 ms ou uma janela de análise com um comprimento de janela entre 2 e 6 ms, ou em. que o conversor de tempo espectral (3'70) está configurado para usar e sobrepor a faixa correspondente a um. tamanho de sobreposição de janelas sobrepostas ou a. um tamanho de salto usado pelo conversor entre 1 e 3 ms ou para usar uma janela de síntese com um comprimento de janela entre 2 e 6 ms, ou em que a janela de análise e a janela de síntese são idênticas uma à outra.
17. Método de pós-processamento (20) de um sinal de áudio caracterizado por compreender:
converter (100) o sinal de áudio em uma representação de frequência de tempo;
Petição 870190097668, de 30/09/2019, pág. 131/194 estimar (120) uma localização transiente no tempo de uma porção transiente com o uso do sinal de áudio ou a representação de frequência de tempo; e manipular (140) a representação da frequência do tempo para reduzir (220) ou eliminar um préeco na representação da frequência do tempo em um local no tempo anterior à localização transiente, ou para realizar uma modelagem (500) da representação da frequência do tempo na localização transiente para amplificar um ataque da p o r ç ã o t r a n s i e n t e .
18 Programa de computador caracterizado por realizar, quando executado em um computador ou processador, o método de acordo com. a reivindicação 17.
BR112019020515A 2017-03-31 2018-03-28 aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente BR112019020515A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17164350 2017-03-31
EP17183134.0A EP3382700A1 (en) 2017-03-31 2017-07-25 Apparatus and method for post-processing an audio signal using a transient location detection
PCT/EP2018/025076 WO2018177608A1 (en) 2017-03-31 2018-03-28 Apparatus for post-processing an audio signal using a transient location detection

Publications (1)

Publication Number Publication Date
BR112019020515A2 true BR112019020515A2 (pt) 2020-05-05

Family

ID=58632739

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112019020515A BR112019020515A2 (pt) 2017-03-31 2018-03-28 aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente

Country Status (7)

Country Link
US (1) US11373666B2 (pt)
EP (2) EP3382700A1 (pt)
JP (1) JP7055542B2 (pt)
CN (1) CN110832581B (pt)
BR (1) BR112019020515A2 (pt)
RU (1) RU2734781C1 (pt)
WO (1) WO2018177608A1 (pt)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3382701A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
IL278223B2 (en) 2018-04-25 2023-12-01 Dolby Int Ab Combining high-frequency audio reconstruction techniques
IL313348A (en) 2018-04-25 2024-08-01 Dolby Int Ab Combining high-frequency restoration techniques with reduced post-processing delay
US11601307B2 (en) * 2018-12-17 2023-03-07 U-Blox Ag Estimating one or more characteristics of a communications channel
CN112863539B (zh) * 2019-11-28 2024-04-16 科大讯飞股份有限公司 一种高采样率语音波形生成方法、装置、设备及存储介质
US20220337937A1 (en) * 2020-01-07 2022-10-20 The Regents of the University pf California Embodied sound device and method
TWI783215B (zh) * 2020-03-05 2022-11-11 緯創資通股份有限公司 信號處理系統及其信號降噪的判定方法與信號補償方法
CN111429926B (zh) * 2020-03-24 2022-04-15 北京百瑞互联技术有限公司 一种优化音频编码速度的方法和装置
CN111768793B (zh) * 2020-07-11 2023-09-01 北京百瑞互联技术有限公司 一种lc3音频编码器编码优化方法、系统、存储介质
US11916634B2 (en) * 2020-10-22 2024-02-27 Qualcomm Incorporated Channel state information (CSI) prediction and reporting
CN113421592B (zh) * 2021-08-25 2021-12-14 中国科学院自动化研究所 篡改音频的检测方法、装置及存储介质
CN114678037B (zh) * 2022-04-13 2022-10-25 北京远鉴信息技术有限公司 一种重叠语音的检测方法、装置、电子设备及存储介质
GB2625347A (en) * 2022-12-14 2024-06-19 Meridian Audio Ltd Generating vibrotactile signals from audio content for playback over haptic acoustic transducers
CN118136042B (zh) * 2024-05-10 2024-07-23 四川湖山电器股份有限公司 基于iir频谱拟合的频谱优化方法、系统、终端及介质

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933801A (en) * 1994-11-25 1999-08-03 Fink; Flemming K. Method for transforming a speech signal using a pitch manipulator
JPH08223049A (ja) * 1995-02-14 1996-08-30 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法
US5825320A (en) * 1996-03-19 1998-10-20 Sony Corporation Gain control method for audio encoding device
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
ES2292581T3 (es) * 2000-03-15 2008-03-16 Koninklijke Philips Electronics N.V. Funcion laguerre para la codificacion de audio.
CN1408146A (zh) * 2000-11-03 2003-04-02 皇家菲利浦电子有限公司 音频信号的参数编码
AU2001276588A1 (en) * 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
MXPA03010237A (es) * 2001-05-10 2004-03-16 Dolby Lab Licensing Corp Mejoramiento del funcionamiento de transitorios en sistemas de codificacion de audio de baja tasa de transferencia de bitios mediante la reduccion del pre-ruido.
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
KR100462615B1 (ko) 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
WO2004008437A2 (en) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
SG108862A1 (en) * 2002-07-24 2005-02-28 St Microelectronics Asia Method and system for parametric characterization of transient audio signals
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
EP1780895B1 (en) * 2004-07-28 2020-07-01 III Holdings 12, LLC Signal decoding apparatus
US7418394B2 (en) * 2005-04-28 2008-08-26 Dolby Laboratories Licensing Corporation Method and system for operating audio encoders utilizing data from overlapping audio segments
US7966190B2 (en) * 2005-07-11 2011-06-21 Lg Electronics Inc. Apparatus and method for processing an audio signal using linear prediction
FR2888704A1 (pt) * 2005-07-12 2007-01-19 France Telecom
US7565289B2 (en) * 2005-09-30 2009-07-21 Apple Inc. Echo avoidance in audio time stretching
US8473298B2 (en) * 2005-11-01 2013-06-25 Apple Inc. Pre-resampling to achieve continuously variable analysis time/frequency resolution
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
FR2897733A1 (fr) * 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
US8417532B2 (en) * 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
PL2186090T3 (pl) * 2007-08-27 2017-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Detektor stanów przejściowych i sposób wspierający kodowanie sygnału audio
US8015002B2 (en) * 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US8630848B2 (en) * 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
CA2836871C (en) * 2008-07-11 2017-07-18 Stefan Bayer Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
AR075199A1 (es) * 2009-01-28 2011-03-16 Fraunhofer Ges Forschung Codificador de audio decodificador de audio informacion de audio codificada metodos para la codificacion y decodificacion de una senal de audio y programa de computadora
RU2493618C2 (ru) * 2009-01-28 2013-09-20 Долби Интернешнл Аб Усовершенствованное гармоническое преобразование
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
EP2234103B1 (en) * 2009-03-26 2011-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for manipulating an audio signal
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
BR122020024236B1 (pt) * 2009-10-20 2021-09-14 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio, método para prover uma representação decodificada de um conteúdo de áudio e programa de computador para uso em aplicações de baixo retardamento
CN102257567B (zh) 2009-10-21 2014-05-07 松下电器产业株式会社 音响信号处理装置、音响编码装置及音响解码装置
US8793126B2 (en) * 2010-04-14 2014-07-29 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
CN101908342B (zh) * 2010-07-23 2012-09-26 北京理工大学 利用频域滤波后处理进行音频暂态信号预回声抑制的方法
KR101551046B1 (ko) * 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
DE102011011975A1 (de) 2011-02-22 2012-08-23 Valeo Klimasysteme Gmbh Luftansaugvorrichtung einer Fahrzeuginnenraumbelüftungsanlage und Fahrzeuginnenraumbelüftungsanlage
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
WO2013075753A1 (en) * 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
EP2786377B1 (en) * 2011-11-30 2016-03-02 Dolby International AB Chroma extraction from an audio codec
JP5898534B2 (ja) * 2012-03-12 2016-04-06 クラリオン株式会社 音響信号処理装置および音響信号処理方法
US9786275B2 (en) * 2012-03-16 2017-10-10 Yale University System and method for anomaly detection and extraction
CA2877161C (en) 2012-06-28 2020-01-21 Tom Backstrom Linear prediction based audio coding using improved probability distribution estimation
FR2992766A1 (fr) * 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
FR3000328A1 (fr) * 2012-12-21 2014-06-27 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
RU2625560C2 (ru) * 2013-02-20 2017-07-14 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ кодирования или декодирования аудиосигнала с использованием перекрытия, зависящего от местоположения перехода
CN105324982B (zh) * 2013-05-06 2018-10-12 波音频有限公司 用于抑制不需要的音频信号的方法和设备
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2916321B1 (en) * 2014-03-07 2017-10-25 Oticon A/s Processing of a noisy audio signal to estimate target and noise spectral variances
JP6035270B2 (ja) 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
FR3025923A1 (fr) * 2014-09-12 2016-03-18 Orange Discrimination et attenuation de pre-echos dans un signal audionumerique
JP6668372B2 (ja) * 2015-02-26 2020-03-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
WO2017080835A1 (en) * 2015-11-10 2017-05-18 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
EP3182410A3 (en) * 2015-12-18 2017-11-01 Dolby International AB Enhanced block switching and bit allocation for improved transform audio coding

Also Published As

Publication number Publication date
RU2734781C1 (ru) 2020-10-23
WO2018177608A1 (en) 2018-10-04
CN110832581B (zh) 2023-12-29
US11373666B2 (en) 2022-06-28
US20200020349A1 (en) 2020-01-16
CN110832581A (zh) 2020-02-21
EP3602549B1 (en) 2021-08-25
JP2020512598A (ja) 2020-04-23
JP7055542B2 (ja) 2022-04-18
EP3382700A1 (en) 2018-10-03
EP3602549A1 (en) 2020-02-05

Similar Documents

Publication Publication Date Title
BR112019020515A2 (pt) aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente
RU2649940C2 (ru) Устройство и способ для декодирования или кодирования звукового сигнала с использованием значений информации энергии для полосы частот восстановления
RU2676416C2 (ru) Аудиопроцессор и способ для обработки аудиосигнала с использованием горизонтальной фазовой коррекции
US6708145B1 (en) Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
KR101143724B1 (ko) 부호화 장치 및 부호화 방법, 및 부호화 장치를 구비한 통신 단말 장치 및 기지국 장치
JP4740260B2 (ja) 音声信号の帯域幅を疑似的に拡張するための方法および装置
RU2631988C2 (ru) Заполнение шумом при аудиокодировании с перцепционным преобразованием
KR102257100B1 (ko) 보상 값을 사용하여 오디오 신호를 인코딩하기 위한 장치 및 방법
JP2774203B2 (ja) オーディオ信号処理方法
BR112019020491A2 (pt) aparelho e método para pós-processamento de um sinal de áudio usando formato com base em previsão
RU2625945C2 (ru) Устройство и способ для генерирования сигнала с улучшенным спектром, используя операцию ограничения энергии

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]
B06W Patent application suspended after preliminary examination (for patents with searches from other patent authorities) chapter 6.23 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 19/26 , G10L 19/025 , G10L 19/02

Ipc: G10L 19/02 (2013.01), G10L 19/025 (2013.01), G10L