BR112019020515A2

BR112019020515A2 - aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente

Info

Publication number: BR112019020515A2
Application number: BR112019020515A
Authority: BR
Inventors: Karampourniotis Antonios; Uhle Christian; richter Daniel; havenstein Julia; Herre Jürgen; Hellmuth Oliver; Gampp Patrick; Prokein Peter; Disch Sascha
Original assignee: Fraunhofer Ges Forschung
Priority date: 2017-03-31
Filing date: 2018-03-28
Publication date: 2020-05-05
Also published as: CN110832581A; RU2734781C1; US20200020349A1; WO2018177608A1; JP2020512598A; EP3602549B1; EP3602549A1; CN110832581B; US11373666B2; JP7055542B2; EP3382700A1

Abstract

aparelho para pós-processamento de um sinal de áudio que compreende: um conversor (100) para converter o sinal de áudio em uma representação de frequência de tempo; um estimador de localização transiente (120) para estimar uma localização no tempo de uma porção transiente usando o sinal de áudio ou a representação de frequência de tempo; e um manipulador de sinal (140) para manipular a representação de frequência de tempo, em que o manipulador de sinal (140) está configurado para reduzir ou eliminar um pré-eco na representação de frequência de tempo em um local no tempo antes da localização transiente ou para executar uma modelagem da representação de frequência de tempo no local transiente para amplificar um ataque da porção transiente.

Description

APARELHO PARA PÓS-PROCESSAMENTO DE UM SINAL DE ÁUDIO USANDO UMA DETECÇÃO DE LOCALIZAÇÃO TRANSIENTE [0001] A presente invenção refere-se ao processamento do sinal de áudio e, em particular, ao pósprocessamento do sinal de áudio, a fim de melhorar a qualidade do áudio removendo artefatos de codificação.

[0002] Codificação de áudio é o domínio da compressão do sinal que lida com a exploração redundância e irrelevância em sinais de áudio com o uso do conhecimento psicoacústico. Em condições de baixa taxa de bits, artefatos geralmente indesejados são introduzidos no sinal de áudio. Um artefato de destaque são os pré e pós-ecos temporais que são acionados por componentes de sinal transientes.

[0003] Especialmente no processamento de áudio baseado em bloco, esses pré e pós-ecos ocorrem, pois, por exemplo, o ruído de quantização dos coeficientes espectrais em um codificador de transformação no domínio da frequência está espalhado por toda a duração de um bloco. Ferramentas de codificação semiparamétricas como preenchimento de falhas, áudio espacial paramétrico ou extensão de largura de banda também podem levar a artefatos de eco restrito à banda de parâmetros, pois os ajustes acionados por parâmetros geralmente ocorrem dentro de um bloco de tempo de amostras.

[0004] A invenção refere-se a um pós-processador não guiado que reduz ou mitiga as deficiências subjetivas

Petição 870190097668, de 30/09/2019, pág. 12/194

2/114 da qualidade dos transientes que foram introduzidos por codificação de transformação perceptiva.

[0005] As abordagens de última geração para evitar artefatos de pré e pós-eco dentro de um codec incluem comutação de bloco de codec de transformação e modelagem de ruído temporal. Uma abordagem de última geração para suprimir artefatos de pré e pós-eco usando técnicas de pósprocessamento atrás de uma cadeia de codecs é publicada em [1] · [0006] [1] Imen Samaali, Mania Turki-Hadj Alauane, Gael Mahe, Temporal Envelope Correction for Attack Restoration in Low Bit-Rate Audio Coding, 17th European Signal Processing Conference (EUSIPCO 2009), Escócia, 24 a 28 de agosto de 2009; e [0007] [2] Jimmy Lapierre e Roch Lefebvre, PreEcho Noise Reduction In Frequency-Domain Audio Codecs, ICASSP 2017, New Orleans, EUA.

[0008] A primeira classe de abordagens precisa ser inserida na cadeia de codecs e não pode ser aplicada a posteriori em itens que foram codificados anteriormente (por exemplo, material sonoro arquivado). Embora a segunda abordagem seja essencialmente implantada como um pósprocessador para o decodificador, ela ainda precisa de informações de controle derivadas do sinal de entrada original no lado do codificador.

[0009] É um objetivo da presente invenção fornecer um conceito aprimorado para pós-processamento de um sinal de áudio.

Petição 870190097668, de 30/09/2019, pág. 13/194

3/114 [0010]

Esse objetivo é alcançado por um aparelho para pós-processamento de um sinal de áudio da reivindicação 1, um método para pós-processamento de um sinal de áudio da reivindicação 17 ou um programa de computador da reivindicação 18.

[0011]

Um aspecto da presente invenção baseia-se na constatação de que os transientes ainda podem ser localizados em sinais de áudio que foram submetidos a codificação e decodificação anteriores, uma vez que essas operações de codificação/decodificação anteriores, apesar de degradarem a qualidade perceptiva, não eliminam completamente os transientes. Portanto, um estimador de localização transiente é fornecido para estimar uma localização no tempo de uma porção transiente com o uso do sinal de áudio ou a representação de frequência de tempo do sinal de áudio. De acordo com a presente invenção, uma representação de frequência do sinal de áudio é manipulada para reduzir ou eliminar o pré-eco na representação de frequência no local no tempo anterior à localização transiente ou para realizar uma modelagem do tempo, representação de frequência na localização transiente e, dependendo da implantação, subsequente à localização transiente, de modo que um ataque da porção transiente seja amplificado.

[0012] De acordo com a presente invenção, uma manipulação de sinal é realizada dentro de uma representação de tempo-frequência do sinal de áudio com base na localização transiente detectada. Assim, uma

Petição 870190097668, de 30/09/2019, pág. 14/194

4/114 detecção transiente de localização bastante precisa e, por um lado, uma correspondente redução pré-eco útil e, por outro lado, uma amplificação de ataque podem ser obtidas através do processamento de operações no domínio da frequência, para que um tempo de frequência final A conversão resulta em uma suavização/distribuição automática de manipulações em todo o quadro e, devido à sobreposição, adiciona operações em mais de um quadro. No final, isso evita cliques audíveis devido à manipulação do sinal de áudio e, é claro, resulta em um sinal de áudio aprimorado sem pré-eco ou com uma quantidade reduzida de pré-eco, por um lado, e/ou com nitidez. ataques para as porções transientes, por outro lado.

[0013] As modalidades preferenciais se referem a um pós-processador não guiado que reduz ou mitiga as deficiências subjetivas da qualidade dos transientes que foram introduzidos pela codificação de transformação perceptiva.

[0014] De acordo com um aspecto adicional da presente invenção, o processamento de melhoria transiente é realizado sem a necessidade específica de um estimador de localização transiente. Nesse aspecto, é utilizado um conversor de espectro temporal para converter o sinal de áudio em uma representação espectral compreendendo uma sequência de quadros espectrais. Um analisador de predição calcula os dados do filtro de predição para uma predição por frequência dentro de um quadro espectral e um filtro de modelagem conectado subsequentemente controlado pelos dados

Petição 870190097668, de 30/09/2019, pág. 15/194

5/114 do filtro de predição molda o quadro espectral para aprimorar uma porção transiente dentro do quadro espectral. 0 pós-processamento do sinal de áudio é concluído com a conversão de espectro-tempo para converter uma sequência de quadros espectrais compreendendo um quadro espectral modelado de volta em um domínio de tempo.

[0015] Assim, mais uma vez, quaisquer modificações são feitas dentro de uma representação espectral, e não em uma representação no domínio do tempo, para que sejam evitados quaisquer cliques audíveis, etc., devido a um processamento no domínio do tempo. Além disso, devido ao fato de que um analisador de predição para calcular dados filtrados de predição para uma predição de frequência dentro de um quadro espectral é usado, o envelope de domínio de tempo correspondente do sinal de áudio é automaticamente influenciado pelas formas subsequentes. Particularmente, a modelagem é feita de modo que, devido ao processamento no domínio espectral e ao fato de a predição por frequência ser usada, o envelope no domínio do tempo do sinal de áudio seja aprimorado, ou seja, feito para que o envelope no domínio do tempo tem picos mais altos e vales mais profundos. Em outras palavras, o oposto da suavização é realizado pela modelagem que aprimora automaticamente os transientes sem a necessidade de localizar os transientes.

[0016] De preferência, dois tipos de dados de filtro de predição são derivados. Os primeiros dados do filtro de predição são dados de filtro de predição para uma característica de filtro nivelador e os segundos dados do

Petição 870190097668, de 30/09/2019, pág. 16/194

6/114 filtro de predição são dados de filtro de predição para uma característica de filtro de modelagem. Em outras palavras, a característica de filtro de nivelamento é uma característica de filtro inverso e a característica de filtro de modelagem é uma característica de filtro de síntese de predição. No entanto, mais uma vez, esses dois dados de filtro são derivados através da realização de uma predição de frequência dentro de um quadro espectral. De preferência, as constantes de tempo para a derivação dos diferentes coeficientes de filtro são diferentes, de modo que, para calcular os primeiros coeficientes de filtro de predição, é usada uma primeira constante de tempo e para a computação dos segundos coeficientes de filtro de predição, é usada uma segunda constante de tempo, em que a segunda constante de tempo é maior que a primeira constante de tempo. Esse processamento, mais uma vez, garante automaticamente que as partes transientes do sinal sejam muito mais influenciadas do que as partes não transientes. Em outras palavras, embora o processamento não dependa de um método explícito de detecção transiente, as porções transientes são muito mais influenciadas do que a porção não transiente por meio do achatamento e modelagem subsequente baseados em diferentes constantes de tempo.

[0017] Assim, de acordo com a presente invenção e devido à aplicação de uma predição por frequência, é obtido um tipo automático de procedimento de melhoria transiente, no qual o envelope no domínio do tempo é aprimorado (em vez de suavizado).

Petição 870190097668, de 30/09/2019, pág. 17/194

7/114 [0018] Modalidades da presente invenção são projetadas como pós-processadores em material sonoro previamente codificado operando sem exigir mais informações de orientação. Portanto, essas modalidades podem ser aplicadas em material sonoro arquivado que foi prejudicado por meio de codificação perceptiva que foi aplicada a esse material sonoro arquivado antes de ser arquivado.

[0019] As modalidades preferenciais do primeiro aspecto consistem nas seguintes etapas principais de processamento:

Detecção não guiada de locais transientes dentro dos sinais para encontrar os locais transientes;

Estimativa	da duraçao e	força	pré-eco	anteriores ao
transiente;
Derivar uma	curva de ganho	temporal	adequada	para silenciar

o artefato pré-eco;

Abaixamento/amortecimento do pré-eco estimado através da referida curva de ganho temporal adaptada antes do transiente (para mitigar o pré-eco); no ataque, atenue a dispersão do ataque;

Exclusão de bandas espectrais tonais ou outras estacionárias quase estacionárias do abaixamento.

[0020] As modalidades preferenciais do segundo aspecto consistem nas seguintes etapas principais de processamento:

Detecção não guiada de locais transientes nos sinais para encontrar os locais transientes (esta etapa é opcional);

Petição 870190097668, de 30/09/2019, pág. 18/194

8/114

Afiação de um envelope de ataque através da aplicação de um filtro de nivelamento de coeficientes lineares de predição de domínio de frequência (FD-LPC) e um filtro de modelagem subsequente de FD-LPC, o filtro de nivelamento representando um envelope temporal suavizado e o filtro de modelagem representando um envelope temporal menos suave, em que os ganhos de predição de ambos os filtros são compensados.

[0021] Uma modalidade preferencial é a de um pósprocessador que implementa aprimoramento transiente não guiado como uma última etapa em uma cadeia de processamento de várias etapas. Se outras técnicas de aprimoramento forem aplicadas, por exemplo, extensão de largura de banda não guiada, preenchimento de gap espectral etc., é preferível que o aprimoramento transiente seja o último da cadeia, de modo que o aprimoramento inclua e seja eficaz nas modificações de sinal introduzidas a partir de versões anteriores, estágios de aprimoramento.

[0022] Todos os aspectos da invenção podem ser implantados como pós-processadores, um, dois ou três módulos podem ser computados em série ou podem compartilhar módulos comuns (por exemplo, (I) STFT, detecção transiente, detecção de tonalidade) para eficiência computacional.

[0023] Deve-se notar que os dois aspectos aqui descritos podem ser usados independentemente um do outro ou juntos para pós-processamento de um sinal de áudio. O primeiro aspecto baseado na detecção de localização transiente e na redução pré-eco e na amplificação do ataque

Petição 870190097668, de 30/09/2019, pág. 19/194

9/114 pode ser usado para aprimorar um sinal sem o segundo aspecto. Do mesmo modo, o segundo aspecto baseado na análise de LPC sobre a frequência e a correspondente filtragem de forma no domínio da frequência não depende necessariamente de uma detecção transiente, mas aprimora automaticamente os transientes sem um detector explícito de localização transiente. Esta modalidade pode ser aprimorada por um detector de localização transiente, mas esse detector de localização transiente não é necessariamente necessário. Além disso, o segundo aspecto pode ser aplicado independentemente do primeiro aspecto. Além disso, deve ser enfatizado que, em outras modalidades, o segundo aspecto pode ser aplicado a um sinal de áudio que foi pósprocessado pelo primeiro aspecto. Alternativamente, no entanto, a ordem pode ser feita de forma que, na primeira etapa, o segundo aspecto seja aplicado e, posteriormente, o primeiro aspecto seja aplicado para pós-processar um sinal de áudio para melhorar sua qualidade de áudio removendo artefatos de codificação introduzidos anteriormente.

[0024] Além disso, deve-se notar que o primeiro aspecto tem basicamente dois subaspectos. O primeiro subaspecto é a redução de pré-eco que é baseada na detecção de localização transiente e o segundo subaspecto é a amplificação de ataque com base na detecção de localização transiente. De preferência, ambos os subaspectos são combinados em série, em que, ainda mais preferencialmente, a redução pré-eco é realizada primeiro e depois a amplificação do ataque. Em outras modalidades, no entanto,

Petição 870190097668, de 30/09/2019, pág. 20/194

10/114 os dois subaspectos diferentes podem ser implantados independentemente um do outro e podem até ser combinados com o segundo subaspecto, conforme o caso. Assim, uma redução pré-eco pode ser combinada com o procedimento de aprimoramento transiente baseado em predição sem qualquer amplificação de ataque. Em outras implantações, uma redução pré-eco não é pré-formada, mas uma amplificação de ataque é realizada junto com uma modelagem transiente subsequente baseada em LPC, não necessariamente exigindo uma detecção transiente de localização.

[0025] Em uma modalidade combinada, o primeiro aspecto, incluindo ambos os subaspectos e o segundo, é executado em uma ordem específica, em que essa ordem consiste em executar primeiro a redução pré-eco, executar a amplificação do ataque e executar o ataque baseado em LPC/procedimento de aprimoramento transiente com base em uma predição de um quadro espectral sobre a frequência.

[0026] As modalidades preferenciais da presente invenção são subsequentemente discutidas com relação aos desenhos anexos, nos quais:

[0027] A Figura 1 é um diagrama de blocos esquemático de acordo com o primeiro aspecto;

[0028] A Figura 2a é uma implantação preferencial do primeiro aspecto com base em um estimador de tonalidade; [0029] A Figura 2b é uma implantação preferencial do primeiro aspecto com base em uma estimativa de largura pré-eco;

Petição 870190097668, de 30/09/2019, pág. 21/194

11/114

[0030]	A Figura	2c é	uma modalidade preferencial
do primeiro	aspecto com	base	em uma estimativa de limiar
pré-eco;
[0031]	A Figura	2d é	uma modalidade preferencial
do primeiro	subaspecto	relacionado à reduçao/eliminaçao
pré-eco;
[0032]	A Figura	3a é	uma implantação preferencial
do primeiro [0033]	subaspecto; A Figura	3b é	uma implantação preferencial
do primeiro [0034]	subaspecto; A Figura	4 é	uma implantação preferencial

adicional do primeiro subaspecto;

[0035] A Figura 5 ilustra os dois subaspectos do primeiro aspecto da presente invenção;

[0036] A Figura 6a ilustra uma visão geral sobre o segundo subaspecto;

[0037] A Figura 6b ilustra uma implantação preferencial do segundo subaspecto que depende de uma divisão em uma parte transiente e uma parte sustentada;

[0038]	A	figura 6c	ilustra uma outra	modalidade	da
divisão da	figura	6b;
[0039]	A	Figura	6d ilustra uma	implantaçao
adicional	do segundo subaspecto;
[0040]	A	Figura 6e	ilustra uma outra	modalidade	do

segundo subaspecto;

[0041] A Figura 7 ilustra um diagrama de blocos de uma modalidade do segundo aspecto da presente invenção;

Petição 870190097668, de 30/09/2019, pág. 22/194

12/114 [0042] A Figura 8a ilustra uma implantação preferencial do segundo aspecto com base em dois dados de filtro diferentes;

[0043] A Figura 8b ilustra uma implantação preferencial do segundo aspecto para a computação dos dois dados diferentes do filtro de predição;

[0044] A figura 8c ilustra uma implantação preferencial do filtro de modelagem da figura 7;

[0045] A figura 8d ilustra uma implantação adicional do filtro de modelagem da figura 7;

[0046] A Figura 8e ilustra uma outra modalidade do segundo aspecto da presente invenção;

[0047] A Figura 8f ilustra uma implantação preferencial para a estimativa de filtro LPC com diferentes constantes de tempo;

[0048] A Figura 9 ilustra uma visão geral sobre uma implantação preferencial para um procedimento de pósprocessamento baseado no primeiro subaspecto e no segundo subaspecto do primeiro aspecto da presente invenção e, adicionalmente, no segundo aspecto da presente invenção realizado em uma saída de um procedimento com base no primeiro aspecto da presente invenção;

[0049] A Figura 10a ilustra uma implantação preferencial do detector de localização transiente;

[0050] A Figura 10b ilustra uma implantação preferencial para a computação da função de detecção da Figura 10a;

Petição 870190097668, de 30/09/2019, pág. 23/194

13/114 [0051] A Figura 10c ilustra uma implantação preferencial do dispositivo de partida da Figura 10a;

[0052] A Figura 11 ilustra uma configuração geral da presente invenção de acordo com o primeiro e/ou o segundo aspecto como um pós-processador de aprimoramento transiente;

[0053]	A Figura	12.1 ilustra	uma filtragem de
média móvel [0054]	Λ A Figura	12.2 ilustra uma média recursive
unipolar e [0055]	filtragem de passa alta; A Figura 12.3 ilustra uma	prediçao de sinal
de tempo e [0056]	residual; A Figura	12.4 ilustra uma	autocorrelação do

erro de prediçao;

[0057]	A	Figura 12.5	ilustra	uma	estimativa	do
envelope	espectral	com LPC;
[0058]	A	Figura 12.6	ilustra	uma	estimativa	do
envelope	temporal	com LPC;
[0059]	A	Figura 12.7	ilustra	um	transiente	de

ataque vs. transiente no domínio da frequência;

[0060] A Figura 12.8 ilustra espectros de um transiente no domínio da frequência;

[0061] A Figura 12.9 ilustra a diferenciação entre transiente, início e ataque;

[0062] A Figura 12.10 ilustra um limiar absoluto no mascaramento silencioso e simultâneo;

[0063] A Figura 12.11 ilustra um mascaramento temporal;

Petição 870190097668, de 30/09/2019, pág. 24/194

14/114

[0064]	A Figura 12.12 ilustra uma estrutura
genérica de	um codificador de áudio perceptivo;
[0065]	A Figura 12.13 ilustra uma estrutura
genérica de	um decodificador de áudio perceptivo;
[0066]	A Figura 12.14 ilustra uma limitação de

largura de banda na codificação de áudio perceptiva;

[0067]

A Figura 12.15 ilustra um caráter de ataque

degradado;

[0068]	A Figura 12.16 ilustra um artefato pré-eco;
[0069]	A Figura 13.1 ilustra um algoritmo de

aprimoramento transiente;

[0070]	A Figura 13.2 ilustra uma detecção
transiente:	Função de Detecção (Castanets);
[0071]	A Figura 13.3 ilustra uma detecção
transiente:	Função de Detecção (Funk);
[0072]	A Figura 13.4 ilustra um diagrama de blocos

do método de redução pré-eco;

[0073]	A Figura 13.5 ilustra uma detecção de
componentes	tonais;
[0074]	A Figura 13.6 ilustra uma estimativa
esquemática	da largura pré-eco;
[0075]	A Figura 13.7 ilustra uma estimativa de

largura pré-eco - exemplos;

[0076]

A Figura 13.8 ilustra uma função de

estimativa de largura pré-eco-detecçao;

[0077]

A Figura 13.9 ilustra uma redução pré-eco -

espectrogramas (Castanets);

Petição 870190097668, de 30/09/2019, pág. 25/194

15/114 [0078] A Figura 13.10 é uma ilustraçãoda determinação do limiar pré-eco (Castanets);

[0079] A Figura 13.11 é uma ilustraçãoda determinação do limiar pré-eco para um componente tonal;

[0080] A Figura 13.12 ilustra uma curvade desvanecimento paramétrica para a redução pré-eco;

[0081] A Figura 13.13 ilustra um modelo do limiar de pré-mascaramento;

[0082] A Figura 13.14 ilustra um cálculo da magnitude do alvo após a redução pré-eco [0083] A Figura 13.15 ilustra uma redução pré-eco

- espectrogramas (glockenspiel);

[0084] A Figura 13.16 ilustra um aprimoramento de ataque transiente adaptável;

[0085] A Figura 13.17 ilustra uma curva de desvanecimento para o aprimoramento de ataque transiente adaptável;

[0086] A Figura 13.18 ilustra as funções da janela de autocorrelação;

[0087]	A	Figura	13.19	ilustra	uma	função	de
transferência	no	domínio	do tempo	do filtro de	modelagem
LPC; e
[0088]	A	Figura	13.20	ilustra	uma	forma	de

envelope LPC - sinal de entrada e saída.

[0089] A Figura 1 ilustra um aparelho para pósprocessamento de um sinal de áudio com o uso de uma detecção de localização transiente. Particularmente, o aparelho para pós-processamento é colocado, em relação a

Petição 870190097668, de 30/09/2019, pág. 26/194

16/114 uma estrutura geral, como ilustrado na Figura 11. Particularmente, a Figura 11 ilustra uma entrada de um sinal de áudio prejudicado mostrado em 10. Esta entrada é encaminhada para um pós-processador de aprimoramento transiente 20 e o pós-processador de aprimoramento transiente 20 emite um sinal de áudio aprimorado, como ilustrado em 30 na Figura 11.

[0090] O aparelho para pós-processamento 20 ilustrado na Figura 1 compreende um conversor 100 para converter o sinal de áudio em uma representação de frequência de tempo. Além disso, o aparelho compreende um estimador de localização transiente 120 para estimar uma localização no tempo de uma porção transiente. O estimador de localização transiente 120 opera usando a representação de frequência de tempo, como mostrado pela conexão entre o conversor 100 e a estimativa de localização transiente 120, ou usa o sinal de áudio dentro de um domínio de tempo. Esta alternativa é ilustrada pela linha tracejada na Figura 1. Além disso, o aparelho compreende um manipulador de sinal 140 para manipular a representação de frequência de tempo. O manipulador de sinal 140 é configurado para reduzir ou eliminar um pré-eco na representação de frequência de tempo em um local no tempo antes da localização transiente, onde a localização transiente é sinalizada pelo estimador de localização transiente 120. Alternativa ou adicionalmente, o manipulador de sinal 140 é configurado para realizar uma modelagem da representação de frequência de tempo, como ilustrado pela linha entre o conversor 100 e o manipulador

Petição 870190097668, de 30/09/2019, pág. 27/194

17/114 de sinal 140 na localização transiente, de modo que um ataque da porção transiente seja amplificado.

[0091] Assim, o aparelho para pós-processamento na Figura 1 reduz ou elimina um pré-eco e/ou molda a representação de frequência de tempo para amplificar um ataque da porção transiente.

[0092] A Figura 2a ilustra um estimador de tonalidade 200. Particularmente, o manipulador de sinal 140 da Figura 1 compreende um estimador de tonalidade 200 para detectar componentes de sinal tonal na representação de frequência de tempo que precede a porção transiente no tempo. Particularmente, o manipulador de sinal 140 é configurado para aplicar a redução ou eliminação pré-eco de uma maneira seletiva de frequência, de modo que, nas frequências em que os componentes do sinal tonal foram detectados, a manipulação do sinal é reduzida ou desligada em comparação com as frequências, onde o componentes de sinal tonal não foram detectados. Nessa modalidade, a redução/eliminação pré-eco, como ilustrado pelo bloco 220, é, portanto, ativada ou desativada seletivamente por frequência ou, pelo menos, gradualmente reduzida nos locais de frequência em certos quadros, onde componentes de sinal tonal foram detectados. Isso garante que os componentes do sinal tonal não sejam manipulados, pois, normalmente, os componentes do sinal tonal não podem, ao mesmo tempo, ser um pré-eco ou transiente. Isso se deve ao fato de que uma natureza típica do transiente é que um transiente é um efeito de banda larga que simultaneamente influencia muitas

Petição 870190097668, de 30/09/2019, pág. 28/194

18/114 caixas de frequências, enquanto, pelo contrário, um componente tonal é, com relação a um determinado quadro, um certo compartimento de frequência com um pico de energia, enquanto outras frequências nesse quadro têm apenas uma energia baixa.

[0093] Além disso, como ilustrado na Figura 2b, o manipulador de sinal 140 compreende um estimador de largura pré-eco 240. Este bloco está configurado para estimar uma largura no tempo do pré-eco anterior à localização transiente. Esta estimativa assegura que a porção de tempo correta antes da localização transiente seja manipulada pelo manipulador de sinal 140 em um esforço para reduzir ou eliminar o pré-eco. A estimativa da largura de pré-eco no tempo é baseada no desenvolvimento de uma energia de sinal do sinal de áudio ao longo do tempo, a fim de determinar um quadro inicial de pré-eco na representação de frequência de tempo compreendendo uma pluralidade de quadros de sinal de áudio subsequentes. Normalmente, esse desenvolvimento da energia do sinal de áudio ao longo do tempo será uma energia de sinal crescente ou constante, mas não será um desenvolvimento de energia em queda ao longo do tempo.

[0094] A Figura 2b ilustra um diagrama de blocos de uma modalidade preferencial do pós-processamento de acordo com um primeiro subaspecto do primeiro aspecto da presente invenção, isto é, onde uma redução ou eliminação pré-eco ou, como indicado na Figura 2d, é realizado um ducking pré-eco.

Petição 870190097668, de 30/09/2019, pág. 29/194

19/114 [0095] Um sinal de áudio prejudicado é fornecido em uma entrada 10 e esse sinal de áudio é inserido em um conversor 100 que é, de preferência, implantado como analisador de transformada de Fourier de curto prazo operando com um determinado comprimento de bloco e operando com blocos sobrepostos.

[0096] Além disso, o estimador de tonalidade 200, conforme discutido na Figura 2a, é fornecido para controlar um estágio de ducking de pré-eco 320 que é implantado a fim de aplicar uma curva de ducking de pré-eco 160 à representação de tempo-frequência gerada pelo bloco 100, a fim de reduzir ou eliminar pré-ecos. A saída do bloco 320 é então novamente convertida no domínio do tempo usando um conversor de frequência e tempo 370. Esse conversor de frequência e tempo é preferencialmente implantado como um bloco de síntese de transformada de Fourier inverso de curto prazo que opera com uma operação de adição de sobreposição para diminuir/diminuir de cada bloco para o próximo, a fim de evitar artefatos de bloqueio.

[0097] O resultado do bloco 370 é a saída do sinal de áudio aprimorado 30.

[0098] De preferência, o bloco de curva de desvio de pré-eco 160 é controlado por um estimador de pré-eco 150 que coleta características relacionadas ao pré-eco, como a largura de pré-eco, conforme determinado pelo bloco 240 da Figura 2b ou o limiar de pré-eco como determinado pelo bloco 260 ou outras características de pré-eco, como discutido em relação às Figuras 3a, 3b, 4.

Petição 870190097668, de 30/09/2019, pág. 30/194

20/114 [0099] De preferência, como descrito na Figura 3a, a curva de desvio de pré-eco 160 pode ser considerada uma matriz de ponderação que possui um certo fator de ponderação no domínio da frequência para cada compartimento de frequência de uma pluralidade de períodos de tempo, conforme gerado pelo bloco 100. A Figura 3a ilustra um estimador de limiar de pré-eco 260 que controla uma calculadora de matriz de ponderação espectral 300 correspondente ao bloco 160 na Figura 2d, que controla um ponderador espectral 320 correspondente à operação de abaixamento de pré-eco 320 da Figura 2d.

[0100] De preferência, o estimador de limiar de pré-eco 260 é controlado pela largura do pré-eco e também recebe informações sobre a representação de frequência de tempo. O mesmo vale para a calculadora da matriz de ponderação espectral 300 e, é claro, para o ponderador espectral 320 que, no final, aplica a matriz do fator de ponderação à representação de frequência de tempo, a fim de gerar um sinal de saída no domínio da frequência, em qual o pré-eco é reduzido ou eliminado. De preferência, a calculadora da matriz de ponderação espectral 300 opera em uma certa faixa de frequência igual ou superior a 700 Hz e preferencialmente igual ou superior a 800 Hz. Além disso, a calculadora da matriz de ponderação espectral 300 é limitada para calcular fatores de ponderação, de modo que apenas para a área de pré-eco que, adicionalmente, dependa de uma característica de adição de sobreposição aplicada pelo conversor 100 da Figura 1. Além disso, o estimador de

Petição 870190097668, de 30/09/2019, pág. 31/194

21/114 limiar de pré-eco 260 é configurado para estimar limiares de pré-eco para valores espectrais na representação de frequência de tempo dentro de uma largura de pré-eco como, por exemplo, determinado pelo bloco 240 da Figura 2b, em que o pré- limiares de eco indicam limites de amplitude dos valores espectrais correspondentes que devem ocorrer após a redução ou eliminação pré-eco, ou seja, que devem corresponder às amplitudes reais do sinal sem um pré-eco.

[0101] De preferência, o estimador de limiar de pré-eco 260 é configurado para determinar o limiar de préeco com o uso de uma curva de ponderação que tem uma característica crescente desde o início da largura de préeco até a localização transiente. Particularmente, essa curva de ponderação é determinada pelo bloco 350 na Figura 3b com base na largura do pré-eco indicada por M_pr. Em seguida, esta ponderação curva C_m é aplicada aos valores espectrais no bloco 340, onde os valores espectrais foram alisados antes por meio do bloco 330. Então, como ilustrado no bloco 360, os mínimos são selecionados como limites para todos os índices de frequência k. Assim, de acordo com uma modalidade preferencial, o estimador de limiar de pré-eco 260 é configurado para suavizar 330 a representação de frequência de tempo através de uma pluralidade de quadros subsequentes da representação na frequência no tempo e ponderar (340) a representação na frequência no tempo suavizada com o uso de uma curva de ponderação com uma característica crescente desde o início da largura do préeco até a localização transiente. Essa característica

Petição 870190097668, de 30/09/2019, pág. 32/194

22/114 crescente garante que um certo aumento ou diminuição de energia do sinal normal, ou seja, seja permitido um sinal sem um artefato de pré-eco.

[0102] Em uma modalidade adicional, o manipulador de sinal 140 é configurado para usar uma calculadora de pesos espectrais 300, 160 para calcular pesos espectrais individuais para valores espectrais da representação tempofrequência. Além disso, um ponderador espectral 320 é fornecido para a ponderação os valores espectrais da representação tempo-frequência usando os pesos espectrais para obter uma representação tempo-frequência manipulado. Assim, a manipulação é realizada dentro do domínio da

frequência	usando pesos e	ponderando caixas	de
tempo/frequência individuais, conversor 100 da Figura 1.	conforme gerado	pelo
[0103]	De preferência,	os pesos espectrais	são

computados como ilustrado na modalidade específica ilustrada na Figura 4. O peso espectral 320 recebe, como uma primeira entrada, a representação de frequência de tempo Xk,_m e recebe, como uma segunda entrada, os pesos espectrais. Esses pesos espectrais são computados pela calculadora de pesos brutos 450 que é configurada para determinar pesos espectrais brutos usando um valor espectral real e um valor espectral alvo que são ambos inseridos neste bloco. A calculadora de pesos brutos opera como ilustrado na equação 4.18, ilustrada posteriormente, mas outras implantações que contam com um valor real, por um lado, e um valor alvo, por outro, também são úteis. Além

Petição 870190097668, de 30/09/2019, pág. 33/194

23/114 disso, alternativamente ou adicionalmente, os pesos espectrais são suavizados ao longo do tempo para evitar artefatos e para evitar mudanças que são muito fortes de um quadro para o outro.

[0104] De preferência, o valor alvo inserido na calculadora de pesos brutos 450 é computado especificamente por um modelador de pré-mascaramento 420. O modelador de pré-mascaramento 420 opera preferencialmente de acordo com a equação 4.26 definida posteriormente, mas outras implantações também podem ser usadas que dependem de efeitos psicoacústicos e, particularmente, dependem de uma característica de pré-mascaramento que normalmente ocorre para um transiente. O modelador de pré-mascaramento 420 é, por um lado, controlado por um estimador de máscara 410 que calcula especificamente uma máscara que se baseia no efeito acústico do tipo pré-mascaramento. Em uma modalidade, o estimador de máscara 410 opera de acordo com a equação 4.21 descrita mais adiante, mas, alternativamente, outras estimativas de máscara podem ser aplicadas que se baseiam no efeito de pré-mascaramento psicoacústico.

[0105] Além disso, um atenuador 430 é usado para redução gradual ou eliminação do pré-eco com o uso de uma curva de desbotamento sobre uma pluralidade de quadros no início da largura do pré-eco. Essa curva de desvanecimento é preferencialmente controlada pelo valor real em um determinado quadro e pelo limite pré-eco determinado th_k. O atenuador 430 garante que a redução/eliminação pré-eco não apenas inicie de uma só vez, mas seja suavemente desbotada.

Petição 870190097668, de 30/09/2019, pág. 34/194

24/114

Uma implantação preferencial é ilustrada mais tarde em conexão com a equação 4.20, mas outras operações de desvanecimento também são úteis. De preferência, o atenuador 430 é controlado por um estimador de curva de desbotamento 440 controlado pela largura de pré-eco M_pr^, conforme determinado, por exemplo, pelo estimador de largura de pré-eco 240. Modalidades do estimador de curva de desvanecimento operam de acordo com a equação 4.19 discutida mais adiante, mas outras implantações também são úteis. Todas essas operações pelos blocos 410, 420, 430,

440 sao úteis para calcular um determinado	valor-alvo,	de
modo que, no final, juntamente com o valor real,	um
determinado peso possa ser determinado pelo	bloco 450,	que
é aplicado ao tempo. representação de	frequência	e,

particularmente, ao compartimento de tempo/frequência específico subsequente a uma suavização preferencial.

[0106] Naturalmente, um valor alvo também pode ser determinado sem qualquer efeito psicoacústico pré-mascarado e sem desbotamento. Então, o valor alvo seria diretamente o limiar th_k, mas foi verificado que os cálculos específicos executados pelos blocos 410, 420, 430, 440 resultam em uma redução pré-eco aprimorada no sinal de saída do peso espectral 320.

[0107] Assim, é preferível determinar o valor espectral alvo para que o valor espectral com uma amplitude abaixo de um limiar de pré-eco não seja influenciado pela manipulação do sinal ou para determinar os valores espectrais alvo com o uso do modelo de pré-mascaramento

Petição 870190097668, de 30/09/2019, pág. 35/194

25/114

410, 420 para que um amortecimento de um valor espectral na área de pré-eco é reduzido com base no modelo de prémascaramento 410.

[0108] De preferência, o algoritmo realizado no conversor 100 é para que a representação de frequência de tempo compreenda valores espectrais de valor complexo. Por outro lado, no entanto, o manipulador de sinal é configurado para aplicar valores de ponderação espectral com valor real aos valores espectrais de valor complexo, de modo que, após a manipulação no bloco 320, apenas as amplitudes foram alteradas, mas as fases são as mesmo que antes da manipulação.

[0109] A Figura 5 ilustra uma implantação preferencial do manipulador de sinal 140 da Figura 1. Particularmente, o manipulador de sinal 140 compreende o redutor/eliminador de pré-eco operando antes da localização transiente ilustrada em 220 ou compreende um amplificador de ataque operando após/na localização transiente, como ilustrado pelo bloco 500. Ambos os blocos 220, 500 são controlados por uma localização transiente, conforme determinado pelo estimador de localização transiente 120. O redutor de pré-eco 220 corresponde ao primeiro subaspecto e o bloco 500 corresponde ao segundo subaspecto de acordo com o primeiro aspecto da presente invenção. Ambos os aspectos podem ser usados alternativamente entre si, ou seja, sem o outro aspecto, conforme ilustrado pelas linhas tracejadas na Figura 5. Por outro lado, no entanto, é preferível usar ambas as operações na ordem específica ilustrada na Figura

Petição 870190097668, de 30/09/2019, pág. 36/194

26/114

5, ou seja, que o redutor de pré-eco 220 esteja operacional e a saída do redutor/eliminador de pré-eco 220 seja inserida na o amplificador de ataque 500.

[0110] A Figura 6a ilustra uma modalidade preferencial do amplificador de ataque 500. Mais uma vez, o amplificador de ataque 500 compreende um computador espectral pesos 610 e uma espectral subsequentemente ligado ponderador 620. Assim, o manipulador de sinal é configurado para amplificar 500 valores espectrais dentro de um quadro transiente da representação de frequência-tempo e, de preferência, para amplificar adicionalmente valores espectrais dentro de um ou mais quadros, seguindo o quadro transiente dentro da representação de tempo-frequência.

[0111] De preferência, o manipulador de sinal 140 é configurado para amplificar apenas valores espectrais acima de uma frequência mínima, onde essa frequência mínima é maior que 250 Hz e menor que 2 KHz. A amplificação pode ser realizada até a frequência da borda superior, pois os ataques no início da localização transiente geralmente se estendem por toda a faixa de alta frequência do sinal.

[0112] De preferência, o manipulador de sinal 140 e, particularmente, o amplificador de ataque 500 da Figura 5 compreende um divisor 630 para dividir o quadro dentro de uma parte transiente, por um lado, e uma parte sustentada, por outro lado. A parte transiente é então sujeita à ponderação espectral e, adicionalmente, os pesos espectrais também são computados dependendo das informações da parte transiente. Então, apenas a parte transiente é

Petição 870190097668, de 30/09/2019, pág. 37/194

27/114 espectralmente ponderada e o resultado do bloco 610, 620 na Figura 6b, por um lado, e a parte sustentada como saída pelo divisor 630 são finalmente combinados dentro de um combinador 640, a fim de emitir um sinal de áudio onde um ataque foi amplificado. Assim, o manipulador de sinal 140 está configurado para dividir 630 a representação de frequência de tempo na localização transiente em uma parte sustentada e a parte transiente e, de preferência, dividir adicionalmente quadros subsequentes à localização transiente. O manipulador de sinal 140 é configurado para amplificar apenas a parte transiente e não amplificar ou manipular a parte sustentada.

[0113] Como afirmado, o manipulador de sinal 140 é configurado para também amplificar uma porção de tempo da representação de frequência de tempo subsequente à localização transiente no tempo com o uso de uma característica de desvanecimento 685, como ilustrado pelo bloco 680. Particularmente, o computador pesos espectrais 610 compreende um fator de ponderação determinador 680 recebe informação sobre a parte transiente, por um lado, sobre a parte prolongada, por outro lado, sobre o desvanecimento curva G _m 685 e de preferência também receber informação sobre a amplitude do valor espectral correspondente X_k,_m. De preferência, o determinante do fator de ponderação 6 80 opera de acordo com a equação 4. 29 discutida posteriormente, mas outras implantações que contam com informações da parte transiente, da parte

Petição 870190097668, de 30/09/2019, pág. 38/194

28/114 sustentada e da característica de desvanecimento 685 também são úteis.

[0114] Após a determinação do fator de ponderação 680, uma suavização através da frequência é realizada no bloco 690 e, então, na saída do bloco 690, os fatores de ponderação para os valores de frequência individuais estão disponíveis e estão prontos para serem usados pelo peso espectral 620 em para ponderar espectralmente a representação de tempo/frequência. De preferência, a parte amplificada como determinada, por exemplo, por um máximo das características de desvanecimento 685 é predeterminada e entre 300% e 150%. Em uma modalidade preferencial, como fator de amplificação máximo de 2,2 é usado que diminui, ao longo de um número de tramas, até um valor de 1, onde, conforme ilustrado na Figura 13.17, essa diminuição é obtida, por exemplo, após 60 tramas. Embora a Figura 13.17 ilustre um tipo de decaimento exponencial, outros decaimentos, como um decaimento linear ou um decaimento de cosseno, também podem ser usados.

[0115] De preferência, o resultado da manipulação de sinal 140 é convertido do domínio da frequência no domínio do tempo usando um conversor de tempo espectral 370 ilustrado na Figura 2d. De preferência, o conversor de tempo espectral 370 aplica uma operação de sobreposiçãoadição envolvendo pelo menos dois quadros adjacentes da representação de frequência de tempo, mas também podem ser utilizados procedimentos de sobreposição múltipla, em que é usada uma sobreposição de três ou quatro quadros.

Petição 870190097668, de 30/09/2019, pág. 39/194

29/114 [0116] De preferência, o conversor 100, por um lado, e o outro conversor 370, por outro lado, aplicam o mesmo tamanho de salto entre 1 e 3 ms ou uma janela de análise com um comprimento de janela entre 2 e 6 ms. E, de preferência, a faixa de sobreposição, por um lado, o tamanho do salto, por outro lado, ou as janelas aplicadas pelo conversor de frequência e tempo 100 e pelo conversor de frequência e tempo 370 são iguais entre si.

[0117] A Figura 7 ilustra um aparelho para pósprocessamento 20 de um sinal de áudio de acordo com o segundo aspecto da presente invenção. O aparelho compreende um conversor de espectro temporal 700 para converter o sinal de áudio em uma representação espectral compreendendo uma sequência de quadros espectrais. Além disso, é utilizado um analisador de predição 720 para calcular dados de filtro de predição para uma predição por frequência dentro do quadro espectral. O analisador de predição que opera sobre a frequência 720 gera dados de filtro para um quadro e esses dados de filtro para um quadro são usados por um quadro 740 de filtro de modelagem para aprimorar uma porção transiente dentro do quadro espectral. A saída do filtro de modelagem 740 é encaminhada para um conversor de espectro-tempo 760 para converter uma sequência de quadros espectrais compreendendo um quadro espectral moldado em um domínio de tempo.

[0118] De preferência, o analisador de predição 720, por um lado, ou o filtro de modelagem 740, por outro lado, operam sem uma detecção de localização transiente

Petição 870190097668, de 30/09/2019, pág. 40/194

30/114 explícita. Em vez disso, devido à predição de frequência aplicada pelo bloco 720 e devido à configuração para aprimorar a porção transiente gerada pelo bloco 740, um envelope de tempo do sinal de áudio é manipulado para que uma porção transiente seja aprimorada automaticamente, sem nenhuma detecção transiente específica. No entanto, conforme o caso, o bloco 720, 740 também pode ser suportado por uma detecção explícita de localização transiente, a fim de garantir que quaisquer artefatos prováveis não sejam impressos no sinal de áudio em porções não transientes.

[0119] De preferência, o analisador de predição 720 é configurado para calcular os primeiros dados do filtro de predição 720a para uma característica de filtro de nivelamento 740a e os segundos dados do filtro de predição 720b para uma característica de filtro de modelagem 740b, como ilustrado na Figura 8a. Em particular, o analisador de predição 720 recebe, como entrada, um quadro completo da sequência de quadros e, em seguida, executa uma operação para a análise de predição por frequência, a fim de obter a característica de dados do filtro de nivelamento ou gerar a característica do filtro de modelagem. A característica de filtro de nivelamento é a característica de filtro que, no final, se assemelha a um filtro inverso que também pode ser representado por uma característica F40 (resposta de impulso finito) 740a, na qual os segundos dados de filtro para a modelagem correspondem a um filtro de síntese ou IIR característica (IIR = Resposta Infinita ao Impulso) ilustrada em 740b.

Petição 870190097668, de 30/09/2019, pág. 41/194

31/114 [0120] De preferência, o grau de modelagem representado pelos segundos dados de filtro 720b é maior que o grau de nivelamento 720a representado pelos primeiros dados de filtro, de modo que, após a aplicação do filtro de modelagem com ambas as características 740a, 740b, uma espécie de é obtida sobredimensionagem do sinal que resulta em um envelope temporal sendo menos plano do que o envelope temporal original. É exatamente isso que é necessário para um aprimoramento transiente.

[0121] Embora a Figura 8a ilustra uma situação na qual são computadas duas características de filtro diferentes, um filtro de modelagem e um filtro de nivelamento, outras modalidades dependem de uma única característica de filtro de modelagem. Isto se deve ao fato de que um sinal também pode, é claro, ser modelado sem um achatamento anterior, de modo que, no final, mais uma vez seja obtido um sinal sobreformado que automaticamente transiente melhorado. Este efeito da sobreposição pode ser controlado por um detector de localização transiente, mas esse detector de localização transiente não é necessário devido a uma implantação preferencial de uma manipulação de sinal que influencia automaticamente as partes não transientes menos do que as partes transientes. Ambos os procedimentos dependem totalmente do fato de que a predição por frequência é aplicada pelo analisador de predição 720, a fim de obter informações sobre o envelope de tempo do sinal no domínio do tempo que é então manipulado, a fim de melhorar a natureza transiente do sinal de áudio.

Petição 870190097668, de 30/09/2019, pág. 42/194

32/114

[0122]	Nessa	modalidade,	um	sinal	de
autocorrelação	800 é	computado a	partir	de um	quadro
espectral, como	ilustrado em 800 na	Figura	8b. Uma	j anela

com uma primeira constante de tempo é então usada para exibir o resultado do bloco 800, como ilustrado no bloco 802. Além disso, uma janela com uma segunda constante de tempo maior que a primeira constante de tempo é usada para fazer janelas do sinal de autocorrelação obtido pelo bloco 800, como ilustrado no bloco 804. A partir do sinal de resultado obtido do bloco 802, os primeiros dados do filtro de predição são computados como ilustrado pelo bloco 806, preferencialmente aplicando uma recursão de LevinsonDurbin. Da mesma forma, os segundos dados do filtro de predição 808 são computados a partir do bloco 804 com a maior constante de tempo. Mais uma vez, o bloco 808 utiliza preferencialmente o mesmo algoritmo de Levinson-Durbin.

[0123] Devido ao fato de o sinal de autocorrelação estar em janela com janelas com duas constantes de tempo diferentes, é obtido o aprimoramento transiente automático. Normalmente, a janela é tal que as diferentes constantes de tempo têm impacto apenas em uma classe de sinais, mas não na outra classe de sinais. Os sinais transientes são realmente influenciados por meio de duas constantes de tempo diferentes, enquanto os sinais não transientes têm um sinal de autocorrelação que, ao se movimentar com a segunda maior constante de tempo, resulta quase na mesma saída que se aproxima da primeira vez. Com respeito às Figuras 13 e 18, isso se deve ao fato de que sinais não transientes não

Petição 870190097668, de 30/09/2019, pág. 43/194

33/114

apresentam	picos significativos	; em intervalos	de	tempo
altos e,	portanto, o uso de	duas constantes	de	tempo
diferentes	não faz diferença em	relação a esses	sinais. No
entanto, i	sso é diferente para	sinais transient	es .	Sinais

transientes têm picos em intervalos de tempo mais altos e, portanto, aplicando diferentes constantes de tempo ao sinal de autocorrelação que realmente apresenta os picos em intervalos de tempo mais altos, como ilustrado nas Figuras 13 e 18 às 1300, por exemplo, resulta em saídas diferentes para as diferentes operações de janelas com constantes de tempo diferentes.

[0124] Dependendo da implantação, o filtro de

modelagem	pode	ser	implantado	de	várias maneiras
diferentes.	Uma	maneira	é ilustrada	na	Figura 8c e é uma
cascata de	um	subfiltro	de nivelamento	controlado pelos

primeiros dados de filtro 806, como ilustrado em 809, e um subfiltro de modelagem controlado pelos segundos dados de filtro 808, como ilustrado em 810, e um compensador de ganho 811 que também é implantado em cascata.

[0125] No entanto, as duas características de filtro diferentes e a compensação de ganho também podem ser implantadas dentro de um único filtro de modelagem 740 e a característica de filtro combinada do filtro de modelagem 740 é computada por um combinador de características de filtro 820 confiando, por um lado, tanto em primeiro como

em	outro.	segundo dados	de	filtro	e,	adicionalmente,
confiando,	por outro lado,	nos	ganhos	dos	primeiros dados
de	filtro	e dos segundos	dados	de filtro	para finalmente

Petição 870190097668, de 30/09/2019, pág. 44/194

34/114 também implementar também a função de compensação de ganho 811. Assim, em relação à Figura 8d modalidade na qual um filtro combinado é aplicado, o quadro é inserido em um único filtro de modelagem 740 e a saída é o quadro moldado que possui as duas características de filtro, por um lado, e a funcionalidade de compensação de ganho, por outro lado, implantado nele.

[0126] A Figura 8e ilustra uma implantação adicional do segundo aspecto da presente invenção, em que a funcionalidade do filtro de moldagem combinado 740 da Figura 8d é ilustrada de acordo com a Figura 8c, mas devese notar que a Figura 8e pode realmente ser uma implantação de três estágios separados 809, 810, 811, mas, ao mesmo tempo, pode ser vista como uma representação lógica que é praticamente implantada usando um único filtro com uma característica de filtro com um nominador e um denominador, nos quais o nominador possui a característica de filtro inverso/nivelador e o denominador tem a característica de síntese e na qual, adicionalmente, uma compensação de ganho é incluída como, por exemplo, ilustrado na equação 4. 33 que é determinada posteriormente.

[0127] A Figura 8f ilustra a funcionalidade da janela obtida pelo bloco 802, 804 da Figura 8b, na qual r(k) é o sinal de autocorrelação e w_lag é a janela r' (k) é a saída da janela, ou seja, a saída dos blocos 802, 804 e, adicionalmente, uma função de janela é exemplarmente ilustrada que, no final, representa um filtro de decaimento exponencial com duas constantes de tempo diferentes que

Petição 870190097668, de 30/09/2019, pág. 45/194

35/114 podem ser definidas usando um determinado valor para a na Figura 8f.

[0128] Assim, aplicar uma janela ao valor de autocorrelação anterior à recursão de Levinson-Durbin resulta em uma expansão do suporte de tempo em picos temporais locais. Em particular, a expansão com o uso de uma janela gaussiana é descrita pela Figura 8f. As modalidades aqui baseiam-se na ideia de derivar um filtro de achatamento temporal que tem uma maior expansão do suporte de tempo em envelopes não planos locais do que o filtro de modelagem subsequente por meio da escolha de diferentes valores 4a. Juntos, esses filtros resultam em um aumento nos ataques temporais no sinal. No resultado, há uma compensação para os ganhos de predição do filtro, de modo que a energia espectral da região espectral filtrada seja preservada.

[0129] Assim, é obtido um fluxo de sinal de uma configuração de ataque baseada no LPC no domínio da frequência, como ilustrado nas Figura 8a a 8e.

[0130] A Figura 9 ilustra uma implantação preferencial de modalidades que se baseiam no primeiro aspecto ilustrado do bloco 100 a 370 na Figura 9 e em um segundo aspecto subsequentemente executado ilustrado pelos blocos 700 a 760. De preferência, o segundo aspecto baseiase em uma conversão separada do espectro temporal que utiliza um tamanho de quadro grande, como um tamanho de quadro de 512 e a sobreposição de 50%. Por outro lado, o primeiro aspecto depende de um tamanho de quadro pequeno

Petição 870190097668, de 30/09/2019, pág. 46/194

36/114 para obter uma melhor resolução de tempo para a detecção de localização transiente. Um tamanho de quadro menor é, por exemplo, um tamanho de quadro de 128 amostras e uma sobreposição de 50%. Geralmente, no entanto, é preferível usar conversões de espectro temporal separadas para o primeiro e o segundo aspectos nos quais o aspecto do tamanho do quadro é maior (a resolução do tempo é menor, mas a resolução da frequência é maior) enquanto a resolução do tempo para o primeiro aspecto é mais alto com uma resolução de frequência mais baixa correspondente.

[0131] A Figura 10a ilustra uma implantação preferencial do estimador de localização transiente 120 da Figura 1. O estimador de localização transiente 120 pode ser implantado como conhecido na técnica, mas, na modalidade preferencial, conta com uma calculadora de função de detecção 1000 e o selecionador de onset 1100 conectado subsequentemente 1100, de modo que, no final, um valor binário para cada quadro indicando uma presença é obtido um onset transiente no quadro.

[0132] A calculadora da função de detecção 1000 baseia-se em várias etapas ilustradas na Figura 10b. Estes são um resumo dos valores de energia no bloco 1020. No bloco 1030, é realizada uma computação dos envelopes temporais. Posteriormente, na etapa 1040, é realizada uma filtragem passa alta de cada envelope temporal do sinal de passagem de banda. Na etapa 1050, é realizada uma soma dos sinais filtrados passa-alto resultantes na direção da frequência e no bloco 1060 é realizada uma contabilização

Petição 870190097668, de 30/09/2019, pág. 47/194

37/114 do pós-mascaramento temporal, para que, no final, seja obtida uma função de detecção.

[0133] A Figura 10c ilustra uma maneira preferencial de escolher o inicio da função de detecção como obtida pelo bloco 1060. Na etapa 1110, os máximos locais (picos) são encontrados na função de detecção. No

bloco	1120, uma comparação	de limite	é realizada	para
manter	apenas os picos para a	acusação	adicional	que	está
acima	de um determinado limite	mínimo.
[0134]	No bloco 1130,	a área ao	redor de	cada	pico

é varrida em busca de um pico maior, a fim de determinar a partir dessa área os picos relevantes. A área em torno dos picos se estende uma série de L _B quadros antes do pico e um número de quadros 1 subsequente para o pico.

[0135] No bloco 1140, picos próximos são descartados de modo que, no final, os índices de quadro de onset transiente m _± sejam determinados.

[0136] Posteriormente, técnicas e auditivo conceitos, que são utilizados nos métodos propostos de aprimoramento transiente são revelados. Primeiro, algumas técnicas básicas de processamento de sinal digital a respeito de operações selecionadas de filtragem e predição linear serão introduzidas, seguido por uma definição do transientes. Subsequentemente, o conceito psicoacústico do mascaramento auditivo é explicado, que é explorado na codificação perceptivo de conteúdo de áudio. Essa porção fecha com uma breve descrição do um codec de áudio perceptivo genérico codec de áudio e os artefatos de

Petição 870190097668, de 30/09/2019, pág. 48/194

38/114 compactaçao induzida, que sao submetidos a métodos de aprimoramento de acordo com a invenção.

	FILTROS DE SUAVIZAÇAO E DIFERENCIAÇÃO
[0137]	Os métodos de aprimoramento transiente
descritos	posteriormente frequentemente usam algumas
operações	particulares de filtragem. A introdução a esses

filtros será apresentada na seçao abaixo. Referir-se a [9,

10] para

uma descrição mais detalhada. A Equaçao (2.1)

descreve filtro passa-baixa de resposta de impulso finito (FIR) que computa o valor de amostra de saída atual y_n como o valor médio das amostras atual e do passado de um sinal de entrada x_n. 0 processo de filtragem desse assim chamado

filtro de

média móvel é dado por M® * *''^v

[0138] em que p é a ordem do filtro. A imagem superior da Figura 12.1 mostra o resultado da operação de filtro de média móvel na Equação (2.1) para um sinal de entrada x_n. O sinal de saída y_n na imagem inferior foi computado aplicando o filtro da média móvel duas vezes em xn, na direção para frente e para trás. Isso compensa o atraso do filtro e também resulta em um sinal de saída mais suave y_nr pois x_n é filtrado duas vezes.

[0139] Uma maneira diferente de suavizar um sinal é aplicar um filtro de média recursive de polo único, que é dado pela seguinte equação de diferença:

Petição 870190097668, de 30/09/2019, pág. 49/194

39/114 y_í? & I (I -Φ) -.)¾...í í [0140] com yo = Xi e Ν denotando ο número de amostras em x_n. A Figura 12.2 (a) exibe o resultado de um filtro de média recursive de polo único aplicado a uma função retangular. Em (b) , o filtro foi aplicado em ambas _ , , , max as direções para suavizar ainda mais o sinal. Ao tomar y_nmin e y_n como ;,ρ'^:ίΛ - ™ {

1¾>

~ $$ (y_í;: x_fí) - f \ ’ [0141] em que x_n e y_n sao os sinais de entrada e saída da Equação (2.2), respectivamente, os sinais de saída maxmin resultantes y_n e y_n seguem diretamente a fase de ataque ou decaimento do sinal de entrada. A Figura 12.2 (c) mostra maxmin y_n como a curva preta solida e y_n como a curva preta tracejada.

[0142] Os fortes incrementos ou decréscimos de amplitude de um sinal de entrada x_n podem ser detectados filtrando x_n com um filtro passa-alta FIR, como [0143] com b = [1, -1] ou b = [1, 0, ..., -1]. O sinal resultante após a filtragem passa-alta da função retangular é mostrado na Figura 12.2 (d) como a curva preta.

Petição 870190097668, de 30/09/2019, pág. 50/194

40/114

PREDIÇAO LINEAR [0144] A predição linear (LP) é um método útil para a codificação de áudio. Alguns estudos anteriores descrevem particularmente sua capacidade de modelar o processo de produção da fala [11, 12, 13], enquanto outros também o aplicam para a análise de sinais de áudio em geral [14, 15, 16, 17] . A seção a seguir é baseada em [11, 12, 13, 15, 18] .

[0145] Na codificação preditiva linear (LPC), um sinal de tempo amostrado s ( nT) — = s_n, sendo T o período de amostragem, pode ser previsto por uma combinação linear ponderada de seus valores passados na forma de [0146] em que n é o índice de tempo que identifica uma determinada amostra de tempo do sinal, p é a ordem de predição, a_r, com 1 < r < p, são os coeficientes de predição linear (e, nesse caso, os coeficientes de filtro de um filtro de resposta ao impulso infinito polipolar (HR) , G é o fator de ganho e u_n é um sinal de entrada que excita o modelo ao realizar a transformada z da Equação (2.6), a função de transferência polipolar H (z) do sistema correspondente é em que

Petição 870190097668, de 30/09/2019, pág. 51/194

41/114 [0147] O filtro UR H(z) é chamado de filtro de síntese ou LPC, enquanto o filtro FIR A (z ) = 1-/ é chamado de filtro inverso. Usando os coeficientes de prediçao a_r como os coeficientes de filtro de um filtro FIR, uma predição do sinal s_n pode ser obtida por í„ _ou = .«tÉ⁰·'·¹ *-WM· .-.i .>·% [0148] Isso resulta em um erro de predição entre o sinal previsto “^e o sinal real s_n que pode ser formulado por

[0149] com a representação equivalente do erro de prediçao no domínio z sendo

- <4 s(4( i - p(4] 3(4« [0150] A Figura 12.3 mostra o sinal original sn, o sinal previsto $_ne o sinal de diferença e_n,_pr com uma ordem de previsão p = 10. Esse sinal de diferença e_n,_p também é chamado de residual. Na Figura 2.4, a função de autocorrelação do resíduo mostra decorrelação quase completa entre amostras vizinhas, o que indica que e_n,_P pode ser visto tão próximo quanto ao ruído gaussiano branco. Usando e_n,_p da Equação (2.10) como o sinal de entrada u_n na Equação (2.6) ou filtrando Ep( z ) da Equação (2.11) com o filtro polipolar H (z) da Equação (2.7) (com G = 1) o sinal original pode ser perfeitamente recuperado por

Petição 870190097668, de 30/09/2019, pág. 52/194

42/114

5(<) respectivamente .

[0151] Com o aumento da ordem de previsão p, a energia do residual diminui. Além do número de coeficientes preditores, a energia residual também depende dos próprios coeficientes. Portanto, o problema na codificação preditiva linear é como obter os coeficientes de filtro ideais ar, para que a energia do resíduo seja minimizada. Primeiro, tomamos o erro quadrado total (energia total) do resíduo de um bloco de sinal em janela xn = sn wn, onde m é uma função da janela com largura N e sua previsão A por

com [0, else.

[0152] Para minimizar o erro quadrático total E, o gradiente da Equação (2.14) deve ser computado em relação a ç/.fe cada a_r e definido como 0 definindo

Isso leva às chamadas equações normais:

V A V.x_ík. s· Aa ~ V.Ç A._;1 < í < p <···.·. Ϊ » Ma 1 Ú Âí JA &·χ·£

Petição 870190097668, de 30/09/2019, pág. 53/194

43/114

Ri representa o autocorrelação do sinal x_n como [0153] A Equação (2.17) forma um sistema de p equações lineares, a partir do qual os coeficientes de previsão desconhecidos ar, 1 < r < p, que minimizam o erro quadrático total, podem ser computados. Com a Equação (2.14) e a Equação (2.17), o erro quadrático total mínimo E_p pode ser obtido por

Y st Y Cr Y/A 5 _v [0154] Uma maneira rápida de resolver as equações normais na Equação (2.17) é o algoritmo de Levinson-Durbin fl9]. O algoritmo funciona recursivamente, o que traz a vantagem de que, com o aumento da ordem de previsão, o mesmo produz os coeficientes preditores da ordem atual e de todas as ordens anteriores inferiores a p. Primeiro, o algoritmo é inicializado definindo

E_o — R_o.

[0155] Posteriormente, para as ordens de previsão m = 1, ..., p, os coeficientes de previsão a_r ^(m), que são os coeficientes a_r da ordem atual m, sao computados com os coeficientes de correlação parciais p_m, como segue:

Petição 870190097668, de 30/09/2019, pág. 54/194

44/114 [0156] A cada iteração, o erro quadrático total mínimo E_m da ordem atual m é computado na Equação (2,24). Como E_m é sempre positivo e com Eo = Ro, pode-se demonstrar que, com ordem crescente m, a energia total mínima diminui, de modo a ter [0157] Portanto, a recursão traz outra vantagem, pois a computação dos coeficientes preditores pode ser interrompido quando Em cair abaixo de um determinado limite.

ESTIMATIVA DE ENVELOPE NO DOMÍNIO DO TEMPO E FREQUÊNCIA [0158] Uma característica importante dos filtros

LPC é sua capacidade de modelar as características de um sinal no domínio da frequência, se os coeficientes do filtro forem computados em um sinal de tempo. Equivalente à previsão da sequência temporal, a previsão linear aproxima o espectro da sequência. Dependendo da ordem de previsão, os filtros LPC podem ser usados para calcular um envelope mais ou menos detalhado da resposta de frequência dos sinais. A seção a seguir é baseada em [11, 12, 13, 14, 16, 17, 20, 21].

[0159] Da Equação (2.13), pode-se ver que o espectro de sinal original pode ser perfeitamente reconstruído a partir do espectro residual, filtrando o mesmo com o filtro polipolar H(z). Configurando u_n = δ_η na Equação (2.6), em que δ_η é a função delta do Dirac, o

Petição 870190097668, de 30/09/2019, pág. 55/194

45/114 espectro de sinal S( z ) pode ser modelado pelo filtro polipolar da Equação S(z) (2.7) como <. .. , s O'

Λί e.: /'f í ç) :: ·<>

[0160] Com os coeficientes de previsão sendo computados usando o algoritmo Levinson-Durbin na Equação (2.21) - (2.24), apenas o fator de ganho G deve ser determinado. Com u_n = δ_η Equação (2.6) torna-se / prfp;.. s·- t C/Ai-S [0161] onde h_n é a resposta ao impulso do filtro de síntese H(z). De acordo com a Equação (2.17), a autocorrelação da resposta ao impulso h_n é ? _s l £ í £ [0162] Pela quadrature de h_n na Equação (2.27) e, somando todos os η, o 0-ésimo coeficiente de autocorrelação da resposta de impulso do filtro de síntese se torna $ks5· /ç; · 5 íp 5' 5 íçXf 'FU'.

[0163] Visto que Ro=Zn$n⁼E, ° 0-ésimo coeficiente de autocorrelação corresponde à energia total do sinal s_n. Com a condição de que as energias totais no espectro de sinal original S(z) e sua aproximação sejam iguais, seguese Ro = Ro · Com essa conclusão, a relaçao entre as autocorrelações do sinal s_n e a resposta ao impulso h_n na Equação (2.17) e na Equação (2.28) torna-se respectivamente

Petição 870190097668, de 30/09/2019, pág. 56/194

46/114

para 0 d i d	p. 0 fator	de	ganho	G pode ser computado
remodelando a	Equaçao (2.29) . - <	e com - G =«	a Equaçao (2.19) _s/£,..	como
[0164]	A Figura 12	. 5	mostra	o espectro S(z)	de um
quadro (1024	amostras) de	um	sinal	de fala Sn. A	curva

preta mais suave é o envelope espectral S(z) computado de acordo com a Equação (2.26), com uma ordem de previsão p = 20. À medida que a ordem de previsão p aumenta, a aproximação S(z) se adapta sempre mais de perto ao espectro original S(z) . A curva tracejada é computada com a mesma fórmula da curva preta, mas com uma ordem de previsão p = 100. Pode-se observar que essa aproximação é muito mais detalhada e fornece um melhor ajuste para S(z) . Com p comprimento(Sn) , também é possível modelar exatamente S(z) com o filtro polivalente S(z), de modo que S(z) = S (z), desde que o sinal de tempo s_n seja fase mínima.

[0165] Devido à dualidade entre tempo e frequência, também é possível aplicar predição linear no domínio da frequência no espectro de um sinal, a fim de modelar seu envelope temporal. A computação da estimativa temporal é feita da mesma maneira, apenas que a computação dos coeficientes preditores é realizado no espectro do sinal, e a resposta ao impulso do filtro polipolar resultante é então transformada no domínio do tempo. A Figura 2.6 mostra os valores absolutos do sinal de tempo original e duas aproximações com uma ordem de previsão de p = 10 e p = 20. Quanto à estimativa da resposta em

Petição 870190097668, de 30/09/2019, pág. 57/194

47/114 frequência, pode-se observar que a aproximaçao temporal é mais exata em ordens mais altas.

TRANSIENTES [0166] Na literatura, muitas definições diferentes de transientes podem ser encontradas. Alguns se referem a o mesmo como ataques ou ataques [22, 23, 24, 25], enquanto outros usam esses termos para descrever transientes [26, 27] . Esta seção tem como objetivo descrever as diferentes abordagens para definir transientes e caracterizá-los para os fins desta revelação.

CARACTERIZAÇÃO [0167] Algumas definições anteriores de transientes as descrevem apenas como um fenômeno do domínio do tempo não, por exemplo, como encontrado em Kliewer e Mertins [24]. os mesmos descrevem os transientes como segmentos de sinal no domínio do tempo, cuja energia sobe rapidamente de um valor baixo para um valor alto. Para definir os limites desses segmentos, os mesmos usam a razão das energias dentro de duas janelas deslizantes sobre o sinal de energia no domínio do tempo antes e depois de uma amostra de sinal η. A divisão da energia da janela logo após n pela energia da janela anterior resulta em uma função de critério simples C(n), cujos valores de pico correspondem ao início do período transiente. Esses valores de pico ocorrem quando a energia logo após n é substancialmente maior do que antes, marcando o início de um aumento acentuado de energia. O final do transiente é

Petição 870190097668, de 30/09/2019, pág. 58/194

48/114

então	definido	como o instante	de	tempo	em que	C(n)	cai
abaixo	de um certo limite	após o	iní	cio.
[0168]		Masri e	Bateman	[28]	descrevem	os

transientes como uma mudança radical no envelope temporal dos sinais, onde os segmentos de sinais antes e depois do início do transiente são altamente não correlacionados. 0 espectro de frequências de um período de tempo estreito contendo um evento transiente percussivo geralmente mostra uma grande explosão de energia em todas as frequências, o que pode ser visto no espectrograma de um transiente de castanhola na Figura 2.7 (b). Outros trabalhos [23, 29, 25] também caracterizam transientes em uma representação de tempo-frequência do sinal, onde correspondem a períodos de tempo com acentuados aumentos de energia aparecendo simultaneamente em várias faixas de frequência vizinhas. Rodet e Jaillet [25] afirmam ainda que esse aumento abrupto de energia é especialmente notável em frequências mais altas, uma vez que a energia geral do sinal está concentrada principalmente na área de baixa frequência.

[0169] Herre [20] e Zhang et al. [30] caracterizam transientes com o grau de planicidade do envelope temporal. Com o aumento repentino de energia ao longo do tempo, um sinal transiente possui uma estrutura de tempo muito não plana, com um envelope espectral plano correspondente. Uma maneira de determinar a planicidade espectral é aplicar uma Medida de Planicidade Espectral (SEM) [31] no domínio da frequência. O nivelamento espectral SE de um sinal pode ser

Petição 870190097668, de 30/09/2019, pág. 59/194

49/114 computado considerando a razao da média geométrica Gm e a média aritmética Am do espectro de potência:

[0170] lÃfcl denota o valor de magnitude do coeficiente espectral indice k e K o número total de coeficientes do espectro X_k. Um sinal tem uma estrutura de frequência não plana se SF 0 e, portanto, é mais provável que seja tonal. Ao contrário, se SF 1, o envelope espectral é mais plano, o que pode corresponder a um sinal transiente ou semelhante ao ruído. Um espectro plano não especifica rigorosamente um transiente, cuja resposta de fase tem uma alta correlação oposta a um sinal de ruído. Para determinar o nivelamento do envelope temporal, a medida na Equação (2.31) também pode ser aplicada de maneira semelhante no domínio do tempo.

[0171] Suresh Babu et al. [27] além disso, distinguem entre transientes de ataque e transientes no domínio da frequência. Os mesmos caracterizam transientes no domínio da frequência por uma mudança abrupta no envelope espectral entre os prazos vizinhos, e não por uma mudança de energia no domínio do tempo, como descrito anteriormente. Esses eventos de sinal podem ser produzidos, por exemplo, por instrumentos curvados, como violinos ou pela fala humana, alterando o tom de um som apresentado. A Figura 12.7 mostra as diferenças entre transientes de ataque e transientes no domínio da frequência. O sinal em

Petição 870190097668, de 30/09/2019, pág. 60/194

50/114 (c) representa um sinal de áudio produzido por um violino. A linha tracejada vertical marca o instante de tempo de uma mudança de tom do sinal apresentado, isto é, o início de um novo tom ou um domínio de frequência transiente, respectivamente. Oposto ao transiente de ataque produzido pelas castanets em (a), esse novo início de nota não causa uma mudança perceptível na amplitude dos sinais. O instante de tempo dessa mudança no conteúdo espectral pode ser visto no espectrograma em (d). Entretanto, as diferenças espectrais antes e depois do transiente são mais óbvias na Figura 2.8, que mostra dois espectros do sinal de violino na Figura 12.7(c), sendo um o espectro do período anterior e o outro após o início da o domínio da frequência transiente. Destaca-se que os componentes harmônicos diferem entre os dois espectros. No entanto, a codificação perceptive de transientes no domínio da frequência não causa os tipos de artefatos que serão abordados pelos algoritmos de restauração apresentados nesta tese e, portanto, serão desconsiderados. A partir de agora, o termo transiente será usado para representar apenas os transientes de ataque.

DIFERENCIAÇÃO DE TRANSIENTES, ONSETS E ATAQUES [0172] Uma diferenciação entre os conceitos de transientes, onsets e ataques pode ser encontrada em Bello et ai. [26], que serão adotados nesta tese. A diferenciação desses termos também é ilustrada na Figura 12.9, usando o exemplo de um sinal transiente produzido por castanets.

Petição 870190097668, de 30/09/2019, pág. 61/194

51/114 [0173] · · Em geral, o conceito de transientes ainda não é definido de maneira abrangente pelos autores, mas os mesmos o caracterizam como um curto intervalo de tempo, em vez de um instante de tempo distinto. Nesse período transiente, a amplitude de um sinal aumenta rapidamente de maneira relativamente imprevisível. Mas não está exatamente definido onde o transiente termina depois que sua amplitude atinge seu pico. Na sua definição informal, os mesmos também incluem parte do decaimento da amplitude para o intervalo transiente. Por essa caracterização, os instrumentos acústicos produzem transientes, durante os quais os mesmos são excitados (por exemplo, quando uma corda de violão é tocada ou uma tarola é tocada) e depois amortecidos. Após esse decaimento inicial, o decaimento de sinal mais lento a seguir é causado apenas pelas frequências de ressonância do corpo do instrumento.

[0174] · Onsets são os instantes de tempo em que a amplitude do sinal começa a aumentar. Para este trabalho, os onsets serão definidos como o horário de onset do transientes.

[0175] · O ataque de um transiente é o período de tempo dentro de um transiente entre o onset e o pico, durante o qual a amplitude aumenta.

PSICOACÚSTICA [0176] Esta seção fornece uma introdução básica aos conceitos psicoacústicos usados na codificação de áudio perceptivo, bem como no algoritmo de aprimoramento

Petição 870190097668, de 30/09/2019, pág. 62/194

52/114 transiente descrito mais adiante. 0 objetivo da psicoacústica é descrever a relação entre propriedades físicas mensuráveis dos sinais sonoros e as percepções internas que esses sons evocam em um ouvinte [32] . A percepção auditiva humana tem seus limites, que podem ser explorados por codificadores de áudio perceptivos no processo de codificação do conteúdo de áudio para reduzir substancialmente a taxa de bits do sinal de áudio codificado. Embora o objetivo da codificação perceptiva de áudio seja codificar o material de áudio de forma que o sinal de áudio decodificado pareça exatamente ou o mais próximo possível do sinal original [1], o mesmo ainda pode apresentar alguns artefatos de codificação audíveis. Os antecedentes necessários para entender a origem desses artefatos e como o modelo psicoacústico utilizado pelo codificador de áudio perceptivo será fornecido nesta seção. 0 leitor é referido [33, 34] para uma descrição mais detalhada sobre psicoacústica.

MASCARAMENTO SIMULTÂNEO [0177] O mascaramento simultâneo se refere ao fenômeno psicoacúst ico de que um som (maskee) pode ser inaudível para um ouvinte humano quando é apresentado simultaneamente com um som mais forte (mascarador), se ambos os sons estiverem próximos na frequência. Um exemplo amplamente usado para descrever esse fenômeno é o de uma conversa entre duas pessoas ao lado de uma estrada. Sem ruído interferente, os mesmos podem se perceber perfeitamente, mas precisam aumentar o volume de fala se um

Petição 870190097668, de 30/09/2019, pág. 63/194

53/114 carro ou um caminhão passar, a fim de continuar se entendendo.

[0178] O conceito de mascaramento simultâneo pode ser explicado pelo exame da funcionalidade do sistema auditivo humano. Se um som de sonda é apresentado a um ouvinte, O mesmo induz uma onda de deslocamento ao longo da membrana basilar (BM) dentro da cóclea, se espalhando de sua base na janela oval até o ápice em seu final [17] . Começando na janela oval, o deslocamento vertical da onda móvel sobe lentamente, atinge seu máximo em uma determinada posição e depois diminui abruptamente depois [33, 34] . A posição do seu deslocamento máximo depende da frequência do estímulo. O BM é estreito e rígido na base e cerca de três vezes mais largo e menos rígido no ápice. Dessa forma, toda posição ao longo do BM é mais sensível a uma frequência específica, com componentes de sinal de alta frequência causando um deslocamento máximo próximo à base e baixas frequências perto do ápice do BM. Essa frequência específica é frequentemente chamada de frequência característica (CF) [33, 34, 35, 36]. Dessa forma, a cóclea pode ser considerada como um analisador de frequência com um banco de filtros passa-banda altamente sobrepostos com resposta de frequência assimétrica, chamados filtros auditivos [17, 33, 34, 37] . As bandas passantes desses filtros auditivos mostram uma largura de banda não uniforme, denominada largura de banda crítica. O conceito de bandas críticas foi introduzido pela primeira vez por Fletcher em 1933 [38, 39] . O mesmo assumiu que a

Petição 870190097668, de 30/09/2019, pág. 64/194

54/114 audibilidade de um som da sonda que é apresentado simultaneamente com um sinal de ruído depende apenas da quantidade de energia sonora que é próxima em frequência ao som da sonda. Se a relação sinal-ruído (SNR) nesta área de frequência estiver abaixo de um certo limite, ou seja, a energia do sinal de ruído for até um certo grau superior à energia do som da sonda, então o sinal da sonda será inaudível por um ouvinte humano [17, 33, 34]. No entanto, o mascaramento simultâneo não ocorre apenas em uma única banda crítica. De fato, um mascarador no CF de uma banda crítica também pode afetar a audibilidade de um maskee fora dos limites dessa banda crítica, ainda que em menor grau [17] . 0 efeito de mascaramento simultâneo é ilustrado na Figura 12.10. A curva tracejada representa o limiar em silêncio, que descreve o nível mínimo de pressão sonora necessário para que um som de banda estreita seja detectado por ouvintes humanos na ausência de outros sons [32] . A curva preta é o limiar de mascaramento simultâneo correspondente a um mascarador de ruído de banda estreita descrito como a barra cinza escura. Um som da sonda (barra cinza claro) é mascarado pelo mascarador, se seu nível de pressão sonora for menor que o limiar de mascaramento simultâneo na frequência específica do maskee.

MASCARAMENTO TEMPORAL [0179] O mascaramento não é apenas eficaz se o mascarador e o mascarado são apresentados ao mesmo tempo, mas também se são separados temporalmente. Um som da sonda pode ser mascarado antes e depois do período em que o

Petição 870190097668, de 30/09/2019, pág. 65/194

55/114 mascarador está presente [40], que é chamado de prémascaramento e pós-mascaramento. Uma ilustração dos efeitos de mascaramento temporal é mostrada na Figura 2.11. O prémascaramento ocorre antes do início do som de mascaramento, representado pelos valores negativos de t. Após o período de pré-mascaramento, o mascaramento simultâneo é efetivo, com um efeito de superação diretamente após a ativação do mascarador, onde o limiar de mascaramento simultâneo é temporariamente aumentado [37] . Depois que o mascarador é desligado (mostrado para valores positivos de t), o pósmascaramento é efetivo. O pré-mascaramento pode ser explicado com o tempo de integração necessário pelo sistema auditivo para produzir a percepção de um som apresentado [40] . Além disso, sons mais altos estão sendo processados mais rapidamente pelo sistema auditivo do que sons mais fracos [33] . O período durante o qual o pré-mascaramento ocorre é altamente dependente da quantidade de treinamento de um determinado ouvinte [17, 34] e pode durar até 20 ms [33], porém sendo significativo apenas em um período de 1-5 ms antes do início do mascaramento [17, 37] . A quantidade de pós-mascaramento depende da frequência do som do mascarador e da sonda, do nível e duração do mascarador, bem como do período de tempo entre o som da sonda e o instante em que o mascarador é desligado [17, 34] . De acordo com Moore [34], o pós-mascaramento é eficaz por pelo menos 20 ms, com outros estudos mostrando durações ainda mais longas até cerca de 200 ms [33]. Além disso, Painter e Spanias afirmam que o pós-mascaramento também exibe um

Petição 870190097668, de 30/09/2019, pág. 66/194

56/114 comportamento dependente da frequência semelhante ao mascaramento simultâneo que pode ser observado quando o relacionamento entre o mascarador e a frequência de relação da sonda é variada [17, 34] .

CODIFICAÇÃO DE ÁUDIO PERCEPTIVA [0180] O objetivo da codificação perceptiva de áudio é comprimir um sinal de áudio de forma que a taxa de bits resultante seja a menor possível em comparação com o áudio original, mantendo uma qualidade de som transparente, onde o sinal reconstruído (decodificado) não deve ser distinguível do sinal não comprimido [1, 17, 32, 37, 41, 42] . Isso é feito removendo informações redundantes e irrelevantes do sinal de entrada, explorando algumas limitações do sistema auditivo humano. Embora a redundância possa ser removida, por exemplo, explorando a correlação entre amostras de sinais subsequentes, coeficientes espectrais ou mesmo canais de áudio diferentes e uma codificação de entropia apropriada, a irrelevância pode ser tratada pela quantização dos coeficientes espectrais.

ESTRUTURA GENÉRICA DE UM CÓDIGO DE ÁUDIO PERCEPTUAL [0181] A estrutura básica de um codificador de áudio perceptivo monofônico é mostrada na Figura 12.12. Primeiro, o sinal de áudio de entrada é transformado em uma representação no domínio da frequência, aplicando um banco de filtros de análise. Desta forma, os coeficientes espectrais recebidos podem ser quantificados seletivamente dependendo do seu conteúdo de frequência [32]. O bloco de

Petição 870190097668, de 30/09/2019, pág. 67/194

57/114 quantização arredonda os valores contínuos dos coeficientes espectrais para um conjunto discreto de valores, para reduzir a quantidade de dados no sinal de áudio codificado. Dessa forma, a compressão se torna com perdas, uma vez que não é possível reconstruir os valores exatos do sinal original no decodificador. A introdução desse erro de quantização pode ser considerada como um sinal de ruído aditivo, chamado de ruído de quantização. A quantização é orientada pela saída de um modelo perceptivo que calcula os limiares de mascaramento temporal e simultâneo para cada coeficiente espectral em cada janela de análise. 0 limiar absoluto em silêncio também pode ser utilizado, assumindo que um sinal de 4 kHz, com uma magnitude de pico de ± 1 bit menos significativo em um número inteiro de 16 bits esteja no limiar absoluto da audição [31] . No bloco de alocação de bits, esses limites de mascaramento são usados para determinar o número de bits necessários, para que o ruído de quantização induzido se torne inaudível para um ouvinte humano. Além disso, os coeficientes espectrais que estão abaixo dos limiares de mascaramento computados (e, portanto, irrelevantes para a percepção auditiva humana) não precisam ser transmitidos e podem ser quantificados para zero. Os coeficientes espectrais quantizados são então codificados por entropia (por exemplo, aplicando a codificação de Huffman ou codificação aritmética) , o que reduz a redundância nos dados do sinal. Finalmente, o sinal de áudio codificado, bem como informações adicionais, como os fatores de escala de quantização, são multiplexados para

Petição 870190097668, de 30/09/2019, pág. 68/194

58/114 formar um fluxo de bit único, que é então transmitido ao receptor. 0 decodificador de áudio (veja a Figura 12.13) no lado do receptor executa operações inversas desmultiplexando o fluxo de bits de entrada, reconstruindo os valores espectrais com os fatores de escala transmitidos e aplicando um banco de filtros de síntese complementar ao banco de filtros de análise do codificador, para reconstruir a saída resultante sinal de tempo.

ARTEFATOS DE CODIFICAÇÃO TRANSIENTE [0182] Apesar do objetivo da codificação perceptiva de áudio para produzir uma qualidade de som transparente do sinal de áudio decodificado, o mesmo ainda exibe artefatos audíveis. Alguns desses artefatos que afetam a qualidade percebida dos transientes serão descritos abaixo.

BIRDIES E LIMITAÇÃO DE LARGURA DE BANDA [0183] Existe apenas uma quantidade limitada de bits disponíveis para o processo de alocação de bits para fornecer a quantização de um bloco de sinal de áudio. Se a demanda de bits para um quadro for muito alta, alguns coeficientes espectrais poderão ser excluídos quantificando-os para zero [1, 43, 44]. Isso essencialmente causa a perda temporária de algum conteúdo de alta frequência e é principalmente um problema para codificação com baixa taxa de bits ou quando se lida com sinais muito exigentes, por exemplo, um sinal com eventos transientes frequentes. A alocação de bits varia de um bloco para o próximo, portanto, o conteúdo de frequência de um

Petição 870190097668, de 30/09/2019, pág. 69/194

59/114 coeficiente espectral pode ser excluído em um quadro e estar presente no seguinte. As lacunas espectrais induzidas são chamadas de birdies e podem ser vistas na imagem inferior da Figura 2.14. Especialmente a codificação de transientes é propensa a produzir artefatos de passarinho, uma vez que a energia nessas partes do sinal se espalha por todo o espectro de frequências. Uma abordagem comum é limitar a largura da banda do sinal de áudio antes do processo de codificação, para salvar os bits disponíveis para a quantização do conteúdo LF, que também é ilustrado para o sinal codificado na Figura 2.14. Essa troca é

adequada, já que	os	birdies	têm	um	impacto maior	na
qualidade percebida	do	áudio do	que	uma	perda constante	de
largura de banda,	que geralmente	é	mais tolerada.	No

entanto, mesmo com a limitação da largura de banda, ainda é possível a ocorrência de birdies. Embora os métodos de aprimoramento transiente descritos mais adiante não tenham como objetivo corrigir lacunas espectrais ou estender a largura de banda do sinal codificado, a perda de altas frequências também causa uma energia reduzida e um ataque transiente degradado (veja a Figura 12.15), que está sujeito a os métodos de aprimoramento de ataques descritos mais adiante.

PRÉ-ECOS

[0184]	Outro	artefato de	compressão	comum é	o
chamado pré	-eco [1, 17	, 20, 43, 44]	. Os pré-ecos ocorrem	se
um aumento	acentuado	da energia	do sinal	(isto é,	um
transiente)	ocorre perto do final	de um bloco	de sinal.	A

Petição 870190097668, de 30/09/2019, pág. 70/194

60/114 energia substancial contida nas partes transientes do sinal é distribuída por uma ampla faixa de frequências, o que causa a estimativa de limiares de mascaramento comparativamente altos no modelo psicoacústico e, portanto, a alocação de apenas alguns bits para a quantização dos coeficientes espectrais. A alta quantidade de ruído de quantização adicionada é então espalhada por toda a duração do bloco de sinal no processo de decodificação. Para um sinal estacionário, presume-se que o ruído de quantização seja completamente mascarado, mas para um bloco de sinal contendo um transiente, o ruído de quantização pode preceder o onset transiente e tornar-se audível, se se estender além do período de pré-mascaramento [1] . Embora existam vários métodos propostos para lidar com préecos, esses artefatos ainda estão sujeitos à pesquisa atual. A Figura 12.16 mostra um exemplo de artefato de préeco para um transiente de castanet. A curva preta pontilhada é a forma de onda do sinal original sem energia de sinal substancial antes do onset transiente. Portanto, o pré-eco induzido que precede o transiente do sinal codificado (curva cinza) não é mascarado simultaneamente e pode ser percebido mesmo sem uma comparação direta com o sinal original. O método proposto para a redução suplementar do ruído pré-eco será apresentado mais adiante. [0185] Existem várias abordagens para melhorar a qualidade dos transientes que foram propostos nos últimos anos. Esses métodos de aprimoramento podem ser categorizados naqueles integrados no codec de áudio e

Petição 870190097668, de 30/09/2019, pág. 71/194

61/114 naqueles que funcionam como um módulo de pós-processamento no sinal de áudio decodificado. Uma visão geral sobre estudos e métodos anteriores sobre o aprimoramento transiente, bem como a detecção de eventos transientes, é apresentada a seguir.

DETECÇÃO TRANSIENTE [0186] Uma abordagem inicial para a detecção de transientes foi proposta por Edler [6] em 1989. Essa detecção é usada para controlar o método de troca de janelas adaptável, que será descrito mais adiante neste capítulo. O método proposto apenas detecta se um transiente está presente em um quadro de sinal do sinal de entrada original no codificador de áudio, e não em sua posição exata dentro do quadro. Dois critérios de decisão estão sendo computados para determinar a probabilidade de um presente transiente em um quadro de sinal específico. Para o primeiro critério, o sinal de entrada x(n) é filtrado com um filtro passa-alto FIR de acordo com a EQUAÇÃO (2.5) com os coeficientes do filtro b = [1, -1]. O sinal de diferença resultante d(n) mostra grandes picos nos instantes do tempo em que a amplitude entre amostras adjacentes muda rapidamente. A razão das somas de magnitude de d(n) para dois blocos vizinhos é então usada para a computação do

primeiro	critério:
		??
[0187]	A variável m indica	o número do	quadro	e N
o número	de amostras em um quadro.	No entanto,	ci (m)	luta

Petição 870190097668, de 30/09/2019, pág. 72/194

62/114 com a detecção de transientes muito pequenos no final de urn quadro de sinal, uma vez que sua contribuição para a energia total dentro do quadro é bastante pequena. Portanto, é formulado um segundo critério, que calcula a razão entre o valor máximo de magnitude de x(n) e a magnitude média dentro de um quadro: ---------------------------[0188] Se Ci (m) ou c₂ (m) excederem um certo limite, então o quadro particular m é determinado para conter um evento transiente.

[0189] Kliewer e Mertins [24] também propõem um método de detecção que opera exclusivamente no domínio do tempo. Sua abordagem visa determinar as amostras exatas de onset e fim de um transiente, empregando duas janelas retangulares deslizantes na energia do sinal. A energia do sinal dentro das janelas é computada como

1 «a.

[0190] em que L é o comprimento da janela e n indica a amostra de sinal bem no meio entre a janela esquerda e direita. Uma função de detecção D(n) é, então, computada por _n.- x , - p , _s>

WlWW '·----- com ' A^-VO/

Petição 870190097668, de 30/09/2019, pág. 73/194

63/114 [0191] Os valores de pico de D(n) correspondem ao início de um transiente, se forem maiores que um determinado limiar T_b. O final de um evento transiente é determinado como o maior valor de D( n) sendo menor que algum limite T_e diretamente após o inicio [24].

[0192] Outros métodos de detecção são baseados em previsão linear no domínio do tempo para distinguir entre partes de sinal transientes e de estado estacionário, usando a previsibilidade da forma de onda do sinal [45]. Um método que usa previsão linear foi proposto por Lee e Kuo [46] em 2006. Eles decompõem o sinal de entrada em várias sub-bandas para calcular uma função de detecção para cada um dos sinais resultantes de banda estreita. As funções de detecção são obtidas como saída após a filtragem do sinal de banda estreita com o filtro inverso de acordo com a Equação (2.10) Um algoritmo de seleção de pico subsequente determina os valores máximos locais dos sinais de erro de previsão resultantes como candidatos ao tempo de onset para cada sinal de sub-banda, que são então usados para determinar um único tempo de onset transiente para o sinal de banda larga.

[0193] A abordagem de Niemeyer e Edler [23] trabalha em uma representação complexa de frequência no tempo do sinal de entrada e determina os ataques transientes como um aumento acentuado da energia do sinal nas bandas vizinhas. Cada sinal de passagem de banda é filtrado de acordo com a Equação (2.3) para calcular um envelope temporal que segue a energia repentina aumenta à

Petição 870190097668, de 30/09/2019, pág. 74/194

64/114 medida que a função de detecção. Um critério transiente é então computado não apenas para a banda de frequência k, mas também considerando K = 7 bandas de frequência vizinhas em ambos os lados de k.

[0194] Subsequentemente, serão descritas diferentes estratégias para o aprimoramento das partes transientes do sinal. O diagrama de blocos da Figura 13.1 mostra uma visão geral das diferentes partes do algoritmo de restauração. O algoritmo pega o sinal codificado sn, que é representado no domínio do tempo, e o transforma em uma representação de frequência no tempo X_k, m por meio da transformada de Fourier de curto prazo (STFT). O aprimoramento das partes transientes do sinal é então realizado no domínio STFT. No primeiro estágio do algoritmo de aprimoramento, os pré-ecos logo antes do transiente estão sendo reduzidos. O segundo estágio aprimora o ataque do transiente e o terceiro estágio aprimora o transiente usando um método baseado em previsão linear. O sinal aprimorado Y_kr m é então transformado de volta ao domínio do tempo com a transformada de Fourier de curto prazo inversa (ISTFT), para obter o sinal de saída y_n.

[0195] Ao aplicar o STFT, o sinal de entrada sn é primeiro dividido em vários quadros de comprimento N, que se sobrepõem às amostras L e são mostrados em janela com uma função da janela de análise w_nr m para obter os blocos de sinal x_n,m = s_n ’ w_n,m · Cada quadro x_n,m é então transformado no domínio da frequência usando a Transformada Discreta de Fourier (DFT) . Isso produz o espectro X_k,_m do

Petição 870190097668, de 30/09/2019, pág. 75/194

65/114 quadro de sinal em janela x_n,m, onde k é o índice do coeficiente espectral e m é o número do quadro. A análise por STFT pode ser formulada pela seguinte equação:

X. .« STFF is» £ - V .pusu « .

*·<·· *· <_sv.+ ·· com s - (m I.) (W - £), m <s FF ^e 0 < £ < έ « N.

[0196] ( N -L ) também é conhecido como tamanho do salto. Para a janela de análise w_nr m uma janela senoidal do formulário

[0197] foi usado. Para capturar a fina estrutura temporal dos eventos transientes, o tamanho do quadro foi escolhido para ser comparativamente pequeno. Para os fins deste trabalho, foi definido como N = 128 amostras para cada período de tempo, com uma sobreposição de L = N / 2 = 64 amostras para dois quadros vizinhos. K na Equação (4.2) define o número de pontos DFT e foi definido como K = 256. Isso corresponde ao número de coeficientes espectrais do espectro de dois lados de Xk,m· Antes da análise STFT, cada quadro de sinal de entrada em janela é zeropadeado para obter um vetor mais longo de comprimento K, para corresponder ao número de pontos DFT. Esses parâmetros fornecem uma resolução de tempo suficientemente fina para isolar as partes transientes do sinal em um quadro do restante do sinal, enquanto fornecem coeficientes espectrais suficientes para as seguintes operações de

Petição 870190097668, de 30/09/2019, pág. 76/194

66/114 aprimoramento seletivo de frequência.

DETECÇÃO TRANSIENTE [0198]

Nas Modalidades os métodos para o aprimoramento de transientes são aplicados exclusivamente aos próprios eventos transientes, em vez de modificar constantemente o sinal. Portanto, os instantes dos transientes devem ser detectados. Para os fins deste trabalho, foi implementado um método de detecção de transientes, que foi ajustado para cada sinal de áudio individual separadamente. Isso significa que os parâmetros e limites específicos do método de detecção de transientes, que serão descritos mais adiante nesta seção, são ajustados especificamente para cada arquivo de som em particular, para obter uma detecção ideal das partes do sinal transiente. O resultado dessa detecção é um valor binário para cada quadro, indicando a presença de um onset transiente.

[0199] O método de detecção transiente implementado pode ser dividido em dois estágios separados: a computação de uma função de detecção adequada e um método de seleção de onset que usa a função de detecção como seu sinal de entrada. Para a incorporação da detecção transiente em um algoritmo de processamento em tempo real, é necessária uma previsão adequada, uma vez que o método de redução pré-eco subsequente opera no intervalo de tempo que antecede o onset transiente detectado.

COMPUTAÇÃO DE UMA FUNÇÃO DE DETECÇÃO

Petição 870190097668, de 30/09/2019, pág. 77/194

67/114 [0200] Para a computação da função de detecção, ο sinal de entrada é transformado em uma representação que permite uma detecção de onset aprimorada em relação ao sinal original. A entrada do bloco de detecção de transientes na Figura 13.1 é a representação em tempofrequência X_b,m do sinal de entrada sn. A computação da função de detecção é feita em cinco etapas:

[0201] Para cada quadro, resuma os valores de energia de vários coeficientes espectrais vizinhos.

[0202] Calcular o envelope temporal dos sinais de passagem de banda resultantes por todos os quadros de tempo.

[0203] Filtrar por passa-alta cada envelope temporal de sinal de passagem de banda.

[0204] Somar os sinais filtrados passa-alta resultantes na direção da frequência.

Petição 870190097668, de 30/09/2019, pág. 78/194

68/114

TABELA 4.1 FREQUÊNCIAS DE BORDA F_Baixo E F_altoE LARGURA DE BANDA AF DAS PASSAGENS DE BANDA RESULTANTES DE X _K,M APÓS A CONEXÃO DE N COEFICIENTES ESPECÍFICOS ADJACENTES DO ESPECTRO DE ENERGIA MAGNITUDE DO SINAL X_K/M.

[0206] Primeiro, a energia dos vários coeficientes espectrais vizinhos de X_k,_m está resumida acima para cada quadro do tempo m, considerando

[0207] em que K denota o índice dos sinais resultantes da sub-banda. Portanto, Χκ,τη consiste em 7 valores para cada quadro m, representando a energia contida em uma determinada faixa de frequência do espectro X_k,_m. As frequências de borda fluem e altas, bem como a largura de banda da banda passante Af e o número n de coeficientes espectrais conectados, são mostrados na Tabela 4.1. Os valores dos sinais de passagem de banda em Χκ,τη são então suavizados em todos os períodos de tempo. Isso é feito filtrando cada sinal de sub-banda Χκ,τα com um filtro passabaixa IIR na direção do tempo, de acordo com a Equação (2.2) como

[0208] Xk,_m θ o sinal de energia suavizada resultante para cada canal de frequência K. Os coeficientes de filtro b e a = 1 - b são adaptados para cada sinal de

Petição 870190097668, de 30/09/2019, pág. 79/194

69/114 áudio processado separadamente, para produzir constantes de tempo satisfatórias. A inclinação de X_K,_m θ então computada via filtragem passa-alta (HP) de cada sinal de passagem de

A,_; - ç banda com o uso da Equação (2.5) como em que S_K,_m é o envelope diferenciado, b± são os coeficientes de inclinação do filtro passa-alta FIR implantado e p é a ordem do filtro. Os coeficientes de filtro específicos b± também foram definidos separadamente para cada sinal individual. Posteriormente, S_K,_m é resumido na direção da frequência em todo K, para obter a inclinação geral do envelope F_m. Grandes picos em F_m correspondem aos prazos nos quais um evento transiente ocorre. Para negligenciar picos menores, principalmente após os maiores, a amplitude de F_m é reduzida em um limiar de 0,1 de uma maneira que Fm = max (F_m -0,1, 0) . O pós-mascaramento após picos maiores também é considerado pela filtragem de Fm com um filtro de média recursive de polo único equivalente à Equação (2.2) por ·· ' Ê_:.: ⁴ ' /'ss, em que /rv'O [0209] e tomando os valores maiores de F_m e Fm para cada quadro m de acordo com a Equação (2.3) para produzir a função de detecção resultante D_m.

[0210] A Figura 13.2 mostra o sinal de castanet no domínio do tempo e no domínio STFT, com a função de detecção derivada D_m ilustrada na imagem inferior. D_m é

Petição 870190097668, de 30/09/2019, pág. 80/194

70/114

então	usado como o sinal de	entrada	para o	método	de
separaçao, que será descrito na ESCOLHA DE ONSET [0211] Essencialmente,	seçao a seguir. o método de	seleção	de

onset determina as instâncias dos máximos locais na função de detecção D_m como os prazos de onset dos eventos transientes em S_n. Para a função de detecção do sinal de castanets na Figura 13.2, essa é obviamente uma tarefa trivial. Os resultados do método de escolha de onset são exibidos na imagem inferior como círculos vermelhos. No entanto, outros sinais nem sempre produzem uma função de detecção tão fácil de manusear, portanto, a determinação dos onsets transientes reais fica um pouco mais complexa. Por exemplo, a função de detecção de um sinal musical na parte inferior da Figura 13.3 exibe vários valores de pico locais que não estão associados a um quadro de onset transiente. Portanto, o algoritmo de escolha de onset deve

distinguir	entre	os	onsets	transientes	falsos e	os
reais. [0212]	Antes	de tudo,	a amplitude	dos valores	de
pico em D_m	precisa	estar acima	de um certo	thp_ico, para	ser

considerada como candidata ao onset. Isso é feito para evitar alterações menores de amplitude no envelope do sinal de entrada s_nr que não são tratadas pelos filtros de suavização e pós-mascaramento na Equação (4.5) e Equação. (4.7), a ser detectado como onsets transientes. Para cada valor D_m = 1 da função de detecção D_m, o algoritmo de seleção de onset varre a área que antecede e segue o quadro

Petição 870190097668, de 30/09/2019, pág. 81/194

71/114 atual 1 para um valor maior que D_m = 1 · Se não existir um valor maior, l_h quadros antes e l_a quadros após o quadro atual , então 1 é determinado como um quadro transiente. 0 número de quadros look-back e look-ahead l_h e l_a, bem como o pico do limite, foram definidos para cada sinal de áudio individualmente. Depois que os valores de pico relevantes forem identificados, os quadros de onset transiente detectados, que estão mais próximos que 50 ms do início anterior, serão descartados [50, 51]. A saída do método de separação de onset (e a detecção transiente em geral) são os índices dos quadros de onset transiente m₂,

necessários	para	os seguintes	blocos	de aprimoramento
transiente. [0213]	REDUÇÃO PRÉ-ECO 0 objetivo desse	estágio	de aprimoramento é

reduzir o artefato de codificação conhecido como pré-eco

que pode	ser	audível	em um determinado	período de tempo
antes do	iní	cio de	um transiente. Uma	visão geral do
algoritmo	de	redução	pré-eco é exibida	na Figura 4.4. 0

estágio de redução pré-eco recebe a saída após a análise STFT Xk,_m (100) como sinal de entrada, bem como o índice de quadros de onset transiente detectado anteriormente ιρ. Na pior das hipóteses, o pré-eco inicia no comprimento de uma janela de análise de bloco longo no lado do codificador (que é 2048 amostras, independentemente da taxa de amostragem do codec) antes do evento transiente. A duração dessa janela depende da frequência de amostragem do codificador específico. Para o pior cenário, é assumida uma

Petição 870190097668, de 30/09/2019, pág. 82/194

72/114 frequência mínima de amostragem de codec de 8 kHz . A uma taxa de amostragem de 44,1 kHz para o sinal de entrada decodificado e reamostrado s_n, o comprimento de uma janela de análise longa (e, portanto, a extensão potencial da área de pré-eco) corresponde a N_long = 2048 · 44,1 kHz/8 kHz = 11290 amostras (ou 256 ms) do sinal de tempo s_n. Como os métodos de aprimoramento descritos neste capítulo operam na representação de frequência de tempo Xk,mz· Ni_ong deve ser convertido em Mi_ong = (Ni_ong - L)/(N - L) = (11290 -64)/( 128 -64) = 176 quadros. N e L são o tamanho do quadro e a sobreposição do bloco de análise STFT (100) na Figura 13. 1. M_long é definido como o limite superior da largura do pré-eco e é usado para limitar a área de pesquisa do quadro inicial de pré-eco antes de um quadro de onset transiente detectado ιρ. Para este trabalho, a taxa de amostragem do sinal decodificado antes da reamostragem é tomada como uma verdade do solo, de modo que o limite superior M_long para a largura do pré-eco seja adaptado ao codec específico, usado para codificar s_n.

[0214] Antes de estimar a largura real do pré-eco, os componentes de frequência tonal que precedem o transiente estão sendo detectados (200) . Depois disso, a largura do pré-eco é determinada (240) em uma área de M quadros longos antes do quadro transiente. Com esta estimativa, um limiar para o envelope de sinal na área de pré-eco pode ser computado (260), para reduzir a energia nos coeficientes espectrais cujos valores de magnitude excedem esse limiar. Para a eventual redução pré-eco, é

Petição 870190097668, de 30/09/2019, pág. 83/194

73/114 computada uma matriz de ponderação espectral (450), contendo fatores de multiplicação para cada k e m, que é então multiplicado por elementos com a área de pré-eco de Xk, m ·

DETECÇÃO DE COMPONENTES DE SINAL TONAL ANTERIORES AO TRANSIENTE [0215] Os coeficientes espectrais detectados subsequentes, correspondentes aos componentes de frequência tonal antes do onset transiente, são utilizados na seguinte estimativa de largura pré-eco, conforme descrito na próxima subseção. Também pode ser benéfico usá-los no seguinte algoritmo de redução pré-eco, para pular a redução de energia para esses coeficientes espectrais tonais, uma vez que os artefatos pré-eco provavelmente serão mascarados pelos componentes tonais presentes. No entanto, em alguns casos, o pulo dos coeficientes tonais resultou na introdução de um artefato adicional na forma de um aumento de energia audível em algumas frequências na proximidade das frequências tonais detectadas, portanto essa abordagem foi omitida para a redução pré-eco método nesta modalidade. [0216] A Figura 13.5 mostra o espectrograma da área potencial de pré-eco antes de um transiente do sinal de áudio de Glockenspiel. Os coeficientes espectrais dos componentes tonais entre as duas linhas horizontais tracejadas são detectados combinando duas abordagens diferentes:

[0217] 1. Previsão linear ao longo dos quadros de cada coeficiente espectral e

Petição 870190097668, de 30/09/2019, pág. 84/194

74/114 [0218] 2. uma comparação de energia entre a energia em cada k em todos os quadros M_long antes do onset transiente e uma energia média corrente de todas as áreas de pré-eco potenciais anteriores de comprimento M_long [0219] Primeiro, uma análise de previsão linear é realizada em cada coeficiente STFT de valor complexo k ao longo do tempo, onde os coeficientes de previsão a_k,_r são computados com o algoritmo Levinson-Durbin de acordo com a Equação (2,21) - (2,24) . Com esses coeficientes de previsão, um ganho de previsão R_P,k [52, 53, 54J pode ser computado para cada k como

S.,_f.....MtoUÃU ' VsJ

2 ~ ~ [0220] em que (T_Xk e (T_Ek sao as variações do sinal de entrada X_k,_m e seu erro de previsão E_k,_m, respectivamente, para cada k. E_k,_m é computado de acordo com a Equação (2.

10) . O ganho de previsão é uma indicação da precisão de X_k,_mcom os coeficientes de previsão a_k,_r com um alto ganho de previsão correspondente a uma boa previsibilidade do sinal. Sinais transientes e semelhantes a ruídos tendem a causar um ganho de predição mais baixo para uma predição linear no domínio do tempo; portanto, se R_P,k for alto o suficiente para um certo k, é provável que esse coeficiente espectral contenha componentes de sinais tonais. Para este método, o limiar para um ganho de predição correspondente a um componente de frequência tonal foi definido como lOdB.

Petição 870190097668, de 30/09/2019, pág. 85/194

75/114 [0221] Além de um alto ganho de previsão, os componentes de frequência tonal também devem conter uma energia comparativamente alta sobre o restante do espectro de sinal. A energia C_ik na área potencial de pré-eco do iésimo transiente atual é, portanto, comparada a um certo limiar de energia, é computado por

[0222] O limite de energia é computado com uma energia média corrente das áreas anteriores ao eco, que é atualizada para cada próximo transiente. A energia média corrente deve ser indicada como . Observe que f] ainda não considera a energia na atual área de pré-eco do i-ésimo transiente. O índice i apenas indica que í^é usado para a detecção do transiente atual. Se é a energia total sobre todos os coeficientes espectrais k e quadros m da área anterior ao pré-eco, então ε_{ é computado por & ~ f (1 - > ) Cp, i > co» >0,7 >

[0223] Portanto, um índice de coeficiente espectral k na área atual de pré-eco é definido para conter componentes tonais, se [0224] O resultado do componente de sinal tonal (200) é área de pré-eco anterior a um transiente detectado, que especifica os índices do coeficiente espectral k que atendem às condições da Equação (4.11) .

método de detecção de um vetor k_{tonal a} para cada

Petição 870190097668, de 30/09/2019, pág. 86/194

76/114

ESTIMATIVA DA LARGURA PRÉ-ECO [0225] Como não há informações sobre o enquadramento exato do decodificador (e, portanto, sobre a largura real de pré-eco) disponível para o sinal decodificado s_nr o quadro inicial de pré-eco real deve ser estimado (240) para cada transiente antes do pré processo de redução. Essa estimativa é crucial para a qualidade do som resultante do sinal processado após a redução pré-eco. Se a área estimada de pré-eco for muito pequena, parte do pré-eco atual permanecerá no sinal de saída. Se for muito grande, grande parte da amplitude do sinal antes que o transiente seja amortecido, resultando potencialmente em interrupções audíveis do sinal. Como descrito anteriormente, M_long representa o tamanho de uma janela de análise longa usada no codificador de áudio e é considerado o número máximo possível de quadros da propagação do préeco antes do evento transiente. O alcance máximo M_long dessa propagação pré-eco será indicado como a área de pesquisa pré-eco.

[0226] A Figura 13.6 mostra uma representação esquemática da abordagem de estimativa pré-eco. O método de estimativa segue a premissa de que o pré-eco induzido causa um aumento na amplitude do envelope temporal antes do início do transiente. Isso é mostrado na Figura 13.6 para a área entre as duas linhas verticais tracejadas. No processo de decodificação do sinal de áudio codificado, o ruído de quantização não é distribuído igualmente por todo o bloco de síntese, mas será modelado pela forma particular da

Petição 870190097668, de 30/09/2019, pág. 87/194

77/114 função de janela usada. Portanto, o pré-eco induzido causa um aumento gradual e não um aumento repentino da amplitude. Antes do início do pré-eco, o sinal pode conter silêncio ou outros componentes do sinal, como a parte sustentada de outro evento acústico que ocorreu algum tempo antes.

Portanto,	o objetivo	do método	de estimativa	da largura
pré-eco é	encontrar o	instante de	tempo em que o	aumento da
amplitude	do sinal	corresponde	ao início do	ruído de
quantizaçao induzido,	ou seja, o	artefato pré-eco.
[0227]	0 algoritmo de	detecção usa	apenas o

conteúdo HF de Xk,m acima de 3 kHz, uma vez que a maior parte da energia do sinal de entrada está concentrada na área LF. Para os parâmetros STFT específicos usados aqui, isso corresponde aos coeficientes espectrais com k > 18. Dessa forma, a detecção do início do pré-eco fica mais robusta devido à suposta ausência de outros componentes de sinal que poderíam complicar o processo de detecção. Além disso, os coeficientes espectrais tonais k_tOnair que foram detectados com o método de detecção de componente tonal descrito anteriormente, também serão excluídos do processo de estimativa, se corresponderem a frequências acima de 3 kHz. Os coeficientes restantes são então usados para calcular uma função de detecção adequada que simplifica a estimativa pré-eco. Primeiro, a energia do sinal é resumida na direção da frequência para todos os quadros na área de pesquisa pré-eco, para obter o sinal de magnitude L_m como

Petição 870190097668, de 30/09/2019, pág. 88/194

78/114 [0228] k _max corresponde à frequência de corte do filtro passa-baixa que foi usado no processo de codificação para limitar a largura de banda do sinal de áudio original. Depois disso, Lm é suavizado para reduzir as flutuações no nível do sinal. A suavização é feita filtrando Lm com um filtro de média em execução de 3 toques nas direções para frente e para trás ao longo do tempo, para produzir o sinal de magnitude suavizada. Dessa forma, o atraso do filtro é compensado e o filtro passa a fase zero. L_m é então derivado para calcular sua inclinação por

[0229] é então filtrado com o mesmo filtro de média operacional usado para L_m antes. Isso produz a inclinação suavizada L_m , que é usada como a função de detecção resultante D_m =D_m L_m para determinar o quadro inicial do pré-eco.

[0230] A ideia básica da estimativa pré-eco é encontrar o último quadro com um valor negativo de D_m, que marca o instante de tempo após o qual a energia do sinal aumenta até o início do transiente. A Figura 13.7 mostra dois exemplos para a computação da função de detecção D_m e o quadro inicial de pré-eco subsequentemente estimado. Para ambos os sinais em (a) e (b) , a magnitude sinaliza L_m e é exibida na imagem superior, enquanto a imagem inferior mostra as inclinações L_m e L_m , que também é a função de detecção Dm. Para o sinal na Figura 13.7 (a), a detecção requer simplesmente encontrar o último quadro com um

Petição 870190097668, de 30/09/2019, pág. 89/194

79/114 valor negativo de D_m na imagem inferior, isto é, D _ < 0. 0 quadro inicial de pré-eco determinado ^mpre^=miast θ representado como a linha vertical. A plausibilidade dessa estimativa pode ser vista por um exame visual da imagem superior da Figura 13.7 (a). No entanto, receber exclusivamente o último valor negativo de Dm não daria um resultado adequado para o sinal mais baixo (funk) em (b) . Aqui, a função de detecção termina com um valor negativo e assumir esse último quadro como mpre resultaria efetivamente em nenhuma redução do pré-eco. Além disso, pode haver outros quadros com valores negativos de Dm antes disso, que também não se encaixam no início real do préeco. Isso pode ser visto, por exemplo, na função de detecção do sinal (b) para 52 < m < 58. Portanto, o algoritmo de busca deve considerar essas flutuações no sinal de amplitude de magnitude, que também podem estar presentes na área real de pré-eco .

[0231] A estimativa do quadro de início pré-eco mpre é feita empregando um algoritmo de busca iterativo. O processo para a estimativa do quadro inicial de pré-eco será descrito com a função de detecção de exemplo mostrada na Figura 13.8 (que é a mesma função de detecção do sinal na Figura 13.7 (b) ) . Os diagramas superior e inferior da Figura 13.8 ilustram as duas primeiras iterações do algoritmo de busca. O método de estimativa varre D_m na ordem inversa, desde o início estimado do transiente até o início da área de pesquisa pré-eco e determina vários quadros em que o sinal de D_m é alterado. Esses quadros são

Petição 870190097668, de 30/09/2019, pág. 90/194

80/114 representados como as linhas verticais numeradas no diagrama. A primeira iteração na imagem superior começa no último quadro com um valor positivo de D_m (linha 1), indicado aqui como nf_ast e determina o quadro anterior em que o sinal muda de + - como candidato ao quadro inicial de pré-eco (linha 2) Para decidir se o quadro candidato deve ser considerado como a estimativa final de m_pre, dois quadros adicionais com uma mudança de sinal m⁺ (linha 3) e m~ (linha 4) são determinados antes do quadro candidato. A decisão sobre se o quadro candidato deve ser tomado como o quadro inicial pré-eco resultante mpre é baseado na comparação entre os valores resumidos na área cinza e preta (A⁺ e A~) . Esta comparação verifica se a área preta A~, em que exibe um declive negativo, pode ser considerada a parte sustentada do sinal de entrada antes do ponto inicial do pré-eco, ou se é uma diminuição temporária da amplitude dentro da área pré-eco real. As inclinações resumidas A + e A- são computadas como

[0232] Com A⁺ e A~, o quadro inicial de pré-eco candidato na linha 2 será definido como o quadro inicial resultante m_pré, se

A >

[0233] O fator a é inicialmente definido como a = 0,5 para a primeira iteração do algoritmo de estimativa e, em seguida, é ajustado para a = 0,92 · a para cada iteração

Petição 870190097668, de 30/09/2019, pág. 91/194

81/114 subsequente. Isso dá uma ênfase maior à área de inclinação negativa A~, necessária para alguns sinais que exibem variações mais amplas de amplitude no sinal de magnitude L_mem toda a área de pesquisa. Se o critério de parada na Equação (4.15) não se mantém (como é o caso da primeira iteração na imagem superior da Figura 13.8), a próxima iteração, conforme ilustrada na imagem inferior, toma o m⁺previamente determinado como o último quadro considerado ^mtast ^e Precede o equivalente à iteração passada. Pode ser visto que a Equação (4.15) vale para a segunda iteração, já que A~ é obviamente maior que A⁺, portanto, o quadro candidato na linha 2 será tomado como a estimativa final do quadro inicial pré-eco m_pre.

REDUÇÃO DE PRÉ-ECO ADAPTAIIVA [0234] A seguinte execução da redução adaptativa de pré-eco pode ser dividida em três fases, como pode ser visto na camada inferior do diagrama de blocos na Figura 13.4: a determinação de um limiar de magnitude pré-eco th_katravés da computação de uma matriz de ponderação espectral W_k,_m e a redução do ruído pré-eco por uma multiplicação element o-element o de Fi/g™ com o sinal de entrada de valor complexo Xk, m. A Figura 13.9 mostra o espectrograma do sinal de entrada X_k,_m na imagem superior, bem como o espectrograma do sinal de saída processado Yk, m na imagem do meio, onde os pré-ecos foram reduzidos. A redução préeco é executada por uma multiplicação por elementos de X_k,_me pesos espectrais computados W_k,_m (exibidos na imagem inferior da Figura 13.9) como

Petição 870190097668, de 30/09/2019, pág. 92/194

82/114 [0235] O objetivo do método de redução pré-eco é ponderar os valores de X_k,_m na área pré-eco estimada anteriormente, de modo que os valores de magnitude resultantes de Y_k,_m fiquem abaixo de um certo limite thk. A matriz de peso espectral é criada determinando esse limiar th_k para cada coeficiente espectral em X_k,_m sobre a área de pré-eco e calculando os fatores de ponderação necessários para a atenuação de pré-eco para cada quadro m. a computação de W_k,_m é limitado aos coeficientes espectrais entre k_mi_n < k < kmax, em que k_mkn é o índice do coeficiente espectral correspondente à frequência mais próxima de f_mi_n = 8 0 0Hz, de modo que 1 para k <k_mi_n e k> k_max · f_mi_n foi escolhido para evitar uma redução de amplitude na área de baixa frequência, uma vez que a maioria das frequências fundamentais de instrumentos musicais e fala está abaixo de 800 Hz. Um amortecimento de amplitude nesta área de frequência é propenso a produzir quedas de sinal sonoras antes dos transientes, especialmente para sinais de áudio musical complexos. Além disso, W_k,_m é restrito à área estimada de pré-eco com m_pre d m d ng - 2, onde ng é o onset transiente detectado. Devido à sobreposição de 50% entre os períodos adjacentes na análise STFT do sinal de entrada s_nro quadro diretamente anterior ao quadro de onset transiente ng também pode conter o evento transiente. Portanto, o amortecimento pré-eco é limitado aos quadros m d ng - 2.

DETERMINAÇÃO DE LIMITE PRÉ-ECO

Petição 870190097668, de 30/09/2019, pág. 93/194

83/114 [0236] Como afirmado anteriormente, um limiar thk precisa ser determinado (260) para cada coeficiente espectral X_k,_m, com k_mkn d k d k_max, usado para determinar os pesos espectrais necessários para a atenuação do pré-eco no pré-eco individual áreas que precedem cada início transiente detectado. t_hk corresponde ao valor de magnitude ao qual os valores de magnitude do sinal de X_k,_m devem ser reduzidos, para obter o sinal de saída Y_k,_m. Uma maneira intuitiva podería ser simplesmente pegar o valor do primeiro quadro m_pre do área de pré-eco estimada, uma vez que deve corresponder ao instante de tempo em que a amplitude do sinal começa a aumentar constantemente como resultado do ruído de quantização pré-eco induzido. No entanto, |x_fcm | não representa necessariamente o valor mínimo de magnitude para todos os sinais, por exemplo, se a área de pré-eco foi estimada muito grande ou devido a possíveis flutuações do sinal de magnitude na área de préeco. Dois exemplos de um sinal de magnitude na área de préeco |ã/„,| que precede um início transiente são exibidos como as curvas cinzas sólidas na Figura 4.10. A imagem superior representa um coeficiente espectral de um sinal de castanet e a imagem inferior um sinal de glockenspiel na sub-banda de um componente tonal sustentado de um tom de glockenspiel anterior. Para calcular um limite adequado, |X_fcm| primeiro é filtrado com um filtro médio em execução de dois toques para frente e para trás ao longo do tempo, para obter o envelope suavizado |x_{fc m}| (ilustrado como a curva preta tracejada) . O sinal suavizado é então

Petição 870190097668, de 30/09/2019, pág. 94/194

84/114 multiplicado com uma curva de ponderação C_m para aumentar os valores de magnitude no final da área de pré-eco. Cm é exibido na Figura 13.11 e pode ser gerado como

[023 7] em que M_pre é o número de quadros na área de pré-eco. O envelope ponderado após a multiplicação de |x_im| com C_m é mostrado como a curva cinza tracejada nos dois diagramas da Figura 13.10. Posteriormente, o limiar de ruído pré-eco thk será considerado o valor mínimo de indicado pelos círculos pretos. Os limiares resultantes thk para ambos os sinais são representados como linhas horizontais pontilhadas por traço. Para o sinal de castanet na imagem superior, seria suficiente simplesmente pegar o valor mínimo do sinal de magnitude suavizada |x_fcm| , sem ponderá-lo com C_m. No entanto, a aplicação da curva de ponderação é necessária para o sinal glockenspiel na imagem inferior, onde o valor mínimo de X, está localizado no final da área de pré-eco. Tomando esse valor como thk resultaria em um forte amortecimento do componente de sinal tonal, portanto, induziría artefatos de abandono sonoro. Além disso, devido à maior energia do sinal nesse coeficiente espectral tonal, o pré-eco provavelmente é mascarado e, portanto, inaudível. Pode-se observar que a multiplicação de |x_fcm| com a curva de ponderação C_m não altera muito o valor mínimo de |x_fcm| no sinal superior na Figura 4.10, resultando em um thk adequadamente alto para o componente glockenspiel tonal exibido no diagrama inferior.

Petição 870190097668, de 30/09/2019, pág. 95/194

85/114

COMPUTAÇÃO DOS PESOS ESPECTRAIS [0238] O limiar resultante th_k é usado para calcular os pesos espectrais necessários para diminuir os valores de magnitude de Xk,m· Portanto, um sinal de magnitude alvo |x_fcm|será computado (450) para cada índice de coeficiente espectral k, que representa o sinal de saída ideal com pré-eco reduzido para cada indivíduo k. Com ÀÇl , a matriz de peso espectral W_k,_m pode ser computada como [0239] W_k,m é subsequentemente suavizado (460) através da frequência, aplicando um filtro médio de corrida de dois toques na direção para frente e para trás para cada quadro m, para reduzir grandes diferenças entre os fatores de ponderação dos coeficientes espectrais vizinhos k antes

da multiplicação	com o	sinal de entrada Xk,m-	0
amortecimento dos	pré-ecos	não é feito imediatamente	no
quadro inicial de	pré-eco	em toda a sua extensão,	mas

diminui ao longo do período da área de pré-eco. Isso é feito empregando (430) uma curva de desvanecimento paramétrica f_m com inclinação ajustável, que é gerada (440) como

[0240] onde o expoente 10^c determina a inclinação de f_m. A Figura 13.12 mostra as curvas de desvanecimento para diferentes valores de c, que foram definidas como c =

Petição 870190097668, de 30/09/2019, pág. 96/194

86/114

-0,5 para este trabalho. Com f_m e th_k, o sinal de magnitude alvo pode ser computado como

[0241] Isso reduz efetivamente os valores de mais que são mais altos que o limite th_kf mantendo os valores abaixo th_k intocados.

APLICAÇÃO DE UM MODELO DE PRÉ-MASCARAMENTO

TEMPORAL [0242] Um evento transiente atua como um som de máscara que pode mascarar temporariamente os sons anteriores e posteriores aos mais fracos. Um modelo de prémascaramento também é aplicado (420) aqui, de uma maneira que os valores de |X_tJ somente devem ser reduzidos até que caiam abaixo do limiar de pré-mascaramento, onde eles são considerados inaudíveis. O modelo de pré-mascaramento usado primeiro calcula um limiar de pré-mascaramento protótipo 7 proto mask'' , , que e então ajustado ao nível do sinal do transiente de mascaramento específico em X_k,_m. Os parâmetros para a computação dos limiares de pré-mascaramento foram escolhidos de acordo com B. Edler (comunicação pessoal, 22 de novembro de 2016) [55].

mask^’¹ , e gerado como uma função exponencial como [0243] como a

Os parâmetros L e inclinação, de . O α determinam o nível, bem parâmetro de nível L foi definido como

Petição 870190097668, de 30/09/2019, pág. 97/194

87/114 t_fall = 3ms antes do som de mascaramento, o limiar de prémascaramento deve ser diminuído em L_fall = 50dB. Primeiro, o tf_aii precisa ser convertido em um número correspondente de frames m_fan_f considerando

Uv·' Á 3ms „ . ...^ _m .2X2.. ...:2..,.. ,. ............ 44J kHz 2.067X ^J ' /v Z. I.Ü0Ü 64 [0244] onde ( N -L) é o tamanho do salto da análise STFT e f_s é a frequência de amostragem. Com L, L_fan e nifan Equação (4.21) torna-se [0245] então o parâmetro α pode ser determinado pela transformação da Equação (4.24) como J .· .< Ιπ Π ···-γ-)

Q_bC.4/ò.[0246] O limite preliminar de pré-mascaramento resultante e mostrado na Figura 13.13 para o período anterior ao início de um som mascarado (ocorrendo em m = 0) . A linha tracejada vertical marca o tempo de queda instantânea - m, correspondente a tf_an antes do início do mascarador, onde o limiar diminui em hfall = 50dB. Segundo Fasti e Zwicker, assim como Moore, o pré-mascaramento pode durar até 20 ms. Para os parâmetros de enquadramento usados na análise STFT, isso corresponde a uma duração de prémascaramento de M_mask « 14 quadros, de modo que seja definido para -oo quadros m < - Mrn_mask.

[0247] Para a computação da máscara inicial de

Petição 870190097668, de 30/09/2019, pág. 98/194

88/114 limiar de pré-mascaramento dependente de sinal _k,m,í em cada área de pré-eco de X_k,_m, o quadro transiente detectado m_ifbem como os seguintes M_mask quadros vai ser considerado como os instantes de tempo de potenciais mascaradores.

[0248]

Consequentemente, é deslocado para cada mi < m <mp + M_mask e ajustado ao nível do sinal do X_k,_mcom um sinal para mascarar proporção do -6 dB (isto é, a distância entre a nível de mascarador e no quadro de mascarador) para cada coeficiente espectral. Depois disso, os valores máximos dos limiares sobrepostos são tomados como limiares de pré-mascaramento resultantes rnask_k,_m,i para a respectiva área de pré-eco. Finalmente, rnask_k,_m,i é suavizado através da frequência em ambas as direções, aplicando um filtro de média recursive de polo único equivalente à operação de filtragem na Equação (2.2), com um coeficiente de filtro b = 0,3.

[0249] O limiar de pré-mascaramento maskk,_m,i é então usado para ajustar os valores do sinal de magnitude alvo |x_fcm| (conforme computado na Equação (4.20)), considerando [0250]

A Figura

13.14 mostra os mesmos dois sinais da Figura 13.10 com o sinal de magnitude alvo resultante das curvas |x_fcm| em preto sólido. Para o sinal de castanholas na imagem superior, pode ser visto como a redução da magnitude do sinal para o limiar thk é diminuída

Petição 870190097668, de 30/09/2019, pág. 99/194

89/114 na área de pré-eco, bem como a influência do limiar de prémascaramento para o último quadro m = 16, onde |x_fcl6| = |x_fcl6|. A imagem inferior (componente espectral tonal do sinal glockenspiel) mostra que o método adaptativo de redução de pré-eco tem apenas um impacto menor nos componentes do sinal tonal sustentado, amortecendo ligeiramente os picos menores, mantendo a magnitude geral do sinal de entrada Xk, m · [0251] Os pesos espectrais resultantes Wk, m são então calculados (450) com Xk,_m θ |x_fcm| de acordo com a Equação (4.18) e suavizados através da frequência, antes de serem aplicados ao sinal de entrada Xk, m · Finalmente, o sinal de saída Yk,m do método adaptativo de redução de préeco é obtido aplicando (320) os pesos espectrais a Xk,m através da multiplicação por elementos de acordo com a Equação (4.16) Observe que é com valor real e, portanto, não altera a resposta de fase do Xk,m com valor complexo. A Figura 4.15 mostra o resultado da redução préeco de um transiente de glockenspiel com um componente tonal anterior ao início do transiente. Os pesos espectrais W_k,m na imagem inferior mostram valores em torno de 0 dB na banda de frequência do componente tonal, resultando na retenção da parte tonal sustentada do sinal de entrada.

APRIMORAMENTO DO ATAQUE TRANSIENTE [0252] Os métodos discutidos nesta seção visam aprimorar o ataque transiente degradado, bem como enfatizar a amplitude dos eventos transientes.

Petição 870190097668, de 30/09/2019, pág. 100/194

90/114

ADAPTATIVO

APRIMORAMENTO

DE

ATAQUE

TRANSIENTE [0253]

Além do quadro transiente p, o sinal no período após o transiente também é amplificado, com o ganho de amplificação diminuindo nesse intervalo. O método de aprimoramento de ataque transiente adaptativo toma o sinal de saída do estágio de redução pré-eco como seu sinal de entrada X_k,_m. Semelhante ao método de redução pré-eco, uma matriz de ponderação espectral W_k,_m é calculada (610) e aplicada (620) a X_k,_m como [0254]

No entanto, neste caso, é usado para aumentar a amplitude do quadro transiente mi e, em menor medida, também os quadros depois disso, em vez de modificar o período anterior ao transiente. A amplificação é, portanto, restrita a frequências acima de fmin = 400Hz e abaixo da frequência de corte f_max do filtro passa-baixo aplicado no codificador de áudio. Primeiro, o sinal de entrada X_k,_m é dividido em uma parte sustentada e uma parte transiente . A amplificação de sinal subsequente é aplicada apenas à parte do sinal transiente, enquanto a parte sustentada é totalmente retida. é calculado filtrando o sinal de magnitude |X_fcm| (650) com um filtro de média recursive monopolar de acordo com a Eq. (2.4), com o coeficiente de filtro usado definido como b = 0,41. A imagem superior da Figura 13.16 mostra um exemplo da magnitude do sinal de entrada |X_fcm| como a curva cinza, bem como a parte do sinal sustentado correspondente X“X como a

Petição 870190097668, de 30/09/2019, pág. 101/194

91/114 curva tracejada. A parte do sinal transiente é então calculada (670) como r rs i— i— ί -η ·ι V trans _Ί , _{Ί Ί} [0255] A parte transiente da magnitude do sinal de entrada correspondente |X_fcm| na imagem superior é exibida na imagem inferior da Figura 13.16 como a curva cinza. Em vez de multiplicar apenas em ny com um certo fator de ganho G, a quantidade de amplificação é bastante reduzida (680) durante um período de tempo de Tamp = 100ms = M_amp = 69 quadros após o quadro transiente. A curva de ganho desbotada GUI é mostrada na Figura 4.17. O fator de ganho para o quadro transiente de é definido como G1 =

2,2, o que corresponde a um aumento no nível de magnitude de 6,85 dB, com o ganho para os quadros subsequentes diminuindo de acordo com G_m. Com a curva de ganho Gill e as partes do sinal sustentado e transiente, a matriz de ponderação espectral W_k,_m será obtida (680) por

Hi...... _m · ^f.....'

MÓ _m [0256] e então suavizado (690) através da frequência, tanto na direção para frente quanto para trás, de acordo com a Equação (2.2), antes de melhorar o ataque transiente de acordo com a Equaçao (4,27). Na imagem inferior da Figura 13.16, o resultado da amplificação da MT parte do sinal transiente com a curva de ganho, G_m pode ser vista como a curva preta. A magnitude do sinal de saída yy “com o ataque transiente aprimorado é mostrado na imagem

Petição 870190097668, de 30/09/2019, pág. 102/194

92/114 superior como a curva preta sólida.

FORMAÇÃO DE ENVELOPE TEMPORAL COM O USO DE

PREDIÇÃO LINEAR [0257]

Ao contrário do método de aprimoramento de ataque transiente adaptável descrito anteriormente, esse método visa aguçar o ataque de um evento transiente, sem aumentar sua amplitude. Em vez disso, afiar o transiente é realizado aplicando (720) predição linear a_r no domínio da frequência e usando dois conjuntos diferentes de coeficientes de predição para o filtro inverso (720a) e de síntese (720b) para modelar (740) o envelope temporal do sinal do tempo s_n. Ao filtrar o espectro do sinal de entrada com o filtro inverso (740a), o resíduo de previsão pode ser obtido de acordo com a Equação (2.9) e (2.10) como [0258]

O filtro inverso (740a) correlaciona o sinal de entrada filtrado Xk,m no domínio da frequência e do tempo, achatando efetivamente o envelope temporal do sinal de entrada sn. Filtragem E_{k m} com o filtro de síntese (740b) de acordo com a Equação (2.12) (usando os coeficientes de previsão a^sr^ynth ) reconstrói perfeitamente o sinal de entrada se Xkm = a^synth=a^^at . O objetivodo aprimoramento do ataque é calcular os coeficientesde previsão a^^at e a^synth de uma maneira que a combinaçãodo filtro inverso e do filtro de síntese exagere o transiente, atenuando as partes do sinal antes e depois dele no quadro transiente específico.

Petição 870190097668, de 30/09/2019, pág. 103/194

93/114 [0259] O método de modelagem LPC funciona com diferentes parâmetros de enquadramento como os métodos de aprimoramento anteriores. Portanto, o sinal de saída do estágio de aprimoramento de ataque adaptativo anterior precisa ser ressintetizado com o ISTFT e analisado novamente com os novos parâmetros. Para este método, é utilizado um tamanho de quadro de N = 512 amostras, com uma sobreposição de 50% de L = N / 2 = 256 amostras. O tamanho da DFT foi definido como 512. O tamanho de quadro maior foi escolhido para melhorar a computação dos coeficientes de previsão no domínio da frequência, pelo que uma resolução de alta frequência é mais importante do que uma alta resolução temporal. Os coeficientes de previsão a_P ^at e a^sr^ynthsão computados no espectro complexo do sinal de entrada X, m para uma banda de frequência entre f- = 800 Hz e f _¥K, 4- -L mill V ΙΙΙαΛ (que corresponde aos coeficientes espectrais com k_min = 10 < Y-Yax) ^com ° algoritmo Levinson-Durbin após a Equação (2.21) - (2.24) e uma ordem LPC de p = 24. Antes disso, a função de autocorrelação Ri do sinal de passagem de banda X klpc mi é multiplicada (802, 804) por duas funções diferentes da janela e VY^í/! para a computação e aP^at e a^synth para suavizar o envelope temporal descrito pelos respectivos filtros LPC [56]. As funções da janela são geradas como

[0260] com 0,4 e 0,94. A imagem superior da Figura 4.13 mostra as duas funções diferentes da janela, que são multiplicadas com Ri. A função de correlação

Petição 870190097668, de 30/09/2019, pág. 104/194

94/114 automática de um quadro de sinal de entrada de exemplo é representada na imagem inferior, juntamente com as duas versões em janela ( ) e ( '' '' ) . Com os coeficientes de predição resultantes como os coeficientes de filtro do filtro de nivelamento e modelagem, o sinal de entrada ^>í-'e modelado com o uso do resultado da Equação (4.30) com a Equação (2.6) como

[0261] Isso descreve a operação de filtragem com o filtro de modelagem resultante, que pode ser interpretado como a aplicação combinada (820) do filtro inverso (809) e o filtro de síntese (810). Transformando a Equação (4. 32) com a FFT produz a função de transferência de filtro no domínio do tempo (TF) do sistema [0262] com o filtro FIR (inverso/achatamento) filtro (1-P_n) e IIR (síntese) A_n. A Equação (4,32) pode ser formulada de forma equivalente no domínio do tempo como a multiplicação do sinal de quadro de entrada Sn com o filtro formador TF como [0263]

A Figura 13.13 mostra os diferentes TFs no domínio do tempo da Equaçao tracejadas correspondem a ' * e (4,33). As duas curvas , com a curva cinza

Petição 870190097668, de 30/09/2019, pág. 105/194

95/114 sólida representando a combinação (820) do filtro inverso e

de síntese	( ’ ' ^s ) antes da multiplicação com o fator
de ganho	G (811). Pode-se observar que a operação de

filtragem com um fator de ganho de G = 1 resultaria em um forte aumento de amplitude do evento transiente, neste caso para a parte do sinal entre 140 <n> 426. Um fator de ganho

apropriado	G pode ser computado como a razao dos dois
ganhos de	« Ή χ. predição e para o filtro inverso e o

filtro de síntese por

	G «......
[0264]	0 ganho de predição R _p é computado a
partir dos	coeficientes de correlação parciais p_m, com 1
, que	estão relacionados aos coeficientes de predição

Ã e sao computados junto com *^{V na Equaçao (2. 21) do

algoritmo

Levinson-Durbin. Com p_m, o ganho de predição

(811) é então obtido por

	·><
[0265]	0 TF final ^s com a amplitude ajustada é
exibido na	Figura 4. 13 como a curva preta sólida. A Figura

4. 13 mostra a forma de onda do sinal de saída resultante ’após a configuração do envelope LPC na imagem superior, bem como o sinal de entrada s _n no quadro transiente. A imagem inferior compara o espectro de magnitude do sinal de

entrada

y, ®com o espectro de magnitude filtrada .

Petição 870190097668, de 30/09/2019, pág. 106/194

96/114 [0266] Além disso, exemplos de modalidades particularmente relacionados ao segundo aspecto são apresentados posteriormente:

[0267] 1. Aparelho para pós-processamento (20) de um sinal de áudio que compreende:

[0268] um	conversor de espectro temporal (700)
para converter o	sinal de áudio em uma representação
espectral que compreende uma sequência de quadros
espectrais; [0269] um	analisador de previsão (720) para
calcular dados de	filtro de previsão para uma previsão de
frequência dentro [0270] um	de um quadro espectral; filtro de modelagem (740) controlado

pelos dados do filtro de previsão para modelar a trama espectral para melhorar uma porção transiente dentro da trama espectral; e [0271] um conversor de espectro-tempo (760) para converter uma sequência de quadros espectrais que compreende um quadro espectral moldado em um domínio de tempo.

[0272] 2. Aparelho do exemplo 1, [0273] em que o analisador de previsão (720) está configurado para calcular os primeiros dados do filtro de previsão (720a) para uma característica do filtro de nivelamento (740a) e o segundo dado do filtro de previsão (720b) para uma característica do filtro de modelagem (740b) .

[0274] 3. Aparelho do exemplo 2,

Petição 870190097668, de 30/09/2019, pág. 107/194

97/114 [0275] em que o analisador de previsão (720) está configurado para calcular os primeiros dados do filtro de previsão (720a) usando uma primeira constante de tempo e para calcular os segundos dados do filtro de previsão usando uma segunda constante de tempo (720b), sendo a segunda constante de tempo maior que a primeira tempo constante.

[0276]	4 .	Aparelho	do exemplo 2 ou 3,
[0277]	em	que a	característica de	filtro	de
nivelamento	(740a)	é uma	característica de	f i itro	de

análise FIR ou uma característica de filtro totalmente zero resultante, quando aplicada à estrutura espectral, em uma estrutura espectral modificada com um envelope temporal mais plano em comparação com um envelope temporal da estrutura espectral; ou [0278] em que a característica de filtro de modelagem (740b) é uma característica de filtro IIR de síntese ou uma característica de filtro de todos os polos resultante, quando aplicada a uma estrutura espectral, em

uma estrutura espectral modificada que	tem	um	envelope
temporal	menos plano, em comparação	com	um	envelope
temporal	da estrutura espectral.
[0279]	5. Aparelho de qualquer	um	dos	exemplos

anteriores, [0280] em que o analisador de previsão (720) está configurado:

[0281] calcular (800) um sinal de autocorrelação a partir do quadro espectral;

Petição 870190097668, de 30/09/2019, pág. 108/194

98/114 [0282] j anelar (802

804) sinal de autocorrelação usando uma janela com uma primeira constante de tempo ou com uma segunda constante de tempo, em que a segunda constante de tempo é maior que a primeira constante de tempo;

[0283] calcular (806, 808) os primeiros dados do filtro de previsão a partir de um sinal de autocorrelação em janela visualizado com o uso de uma primeira constante de tempo ou calcular os coeficientes do segundo filtrode previsão a partir de um sinal de autocorrelação em janela visualizado com o uso de uma segunda constante de tempo;e [0284] em que o filtro de modelagem (740)é configurado para moldar o quadro espectral usando os segundos coeficientes de filtro de previsão ou usando os segundos coeficientes de filtro de previsão e os primeiros coeficientes de filtro de previsão.

[0285] 6. Aparelho de qualquer um dos exemplos anteriores, [0286] em que o filtro de modelagem (740) compreende uma cascata de dois subfiltros controláveis (809, 810), um primeiro subfiltro (809) sendo um filtro achatador com uma característica de filtro achatador e um segundo subfiltro (810) sendo um filtro de modelagem com uma característica de filtro de modelagem, [0287] em que os subfiltros (809, 810) são controlados pelos dados do filtro de previsão derivados pelo analisador de previsão (720), ou

Petição 870190097668, de 30/09/2019, pág. 109/194

99/114 [0288] em que o filtro de modelagem (740) é um filtro com uma característica de filtro combinada derivada da combinação (820) de uma característica de nivelamento e uma característica de modelagem, em que a característica combinada é controlada pelos dados do filtro de previsão derivados do analisador de previsão (720).

[0289] 7. Aparelho do exemplo 6, [0290] em que o analisador de previsão (720) está configurado para determinar [0291] os dados do filtro de previsão para que o uso de dados do filtro de previsão para o filtro de modelagem (740) resulte em um grau de modelagem superior ao grau de nivelamento obtido pelo uso dos dados do filtro de previsão para a característica do filtro de nivelamento.

[0292] 8. Aparelho de qualquer um dos exemplos anteriores, [0293] em que o analisador de previsão (720) está configurado para aplicar (806, 808) um algoritmo de Levinson-Durbin a um sinal de autocorrelação filtrado derivado da estrutura espectral.

[0294] 9. Aparelho de qualquer um dos exemplos anteriores, [0295] em que o filtro de modelagem (740) está configurado para aplicar uma compensação de ganho de modo que uma energia de uma estrutura espectral modelada seja igual a uma energia da estrutura espectral gerada pelo conversor espectral no tempo (700) ou esteja dentro de uma

Petição 870190097668, de 30/09/2019, pág. 110/194

100/114 faixa de tolerância de ± 20% de uma energia da estrutura espectral.

[0296] 10. Aparelho de qualquer um dos exemplos anteriores, [0297] em que o filtro de modelagem (740) está configurado para aplicar uma característica de filtro de nivelamento (740a) com um ganho de nivelamento e uma característica de filtro de modelagem (740b) com um ganho de modelagem, e [0298] em que o filtro de modelagem (740) está configurado para executar uma compensação de ganho para compensar uma influência do ganho de nivelamento e ganho de modelagem.

[0299] 11. Aparelho do exemplo 6, [0300] em que o analisador de previsão (720) está configurado para calcular um ganho de nivelamento e um ganho de modelagem,

[0301]	em	que	a cascata	dos	dois	subfiltros
controláveis (	809,	810)	compreende	ainda um	estágio de
ganho separado	(81	1) ou	uma função	de	ganho	incluída em
pelo menos um	dos	dois	subfiltros	para	aplicar um ganho

derivado do ganho de nivelamento e/ou o ganho de modelagem, ou [0302] em que o filtro (740) com a característica combinada é configurado para aplicar um ganho derivado do ganho de nivelamento e/ou ganho de modelagem.

[0303] 12. Aparelho do exemplo 5,

Petição 870190097668, de 30/09/2019, pág. 111/194

101/114 [0304] em que a janela compreende uma janela gaussiana com um intervalo de tempo como parâmetro.

[0305] 13. Aparelho de qualquer um dos exemplos anteriores, [0306] em que o analisador de previsão (720) está configurado para calcular os dados do filtro de previsão para uma pluralidade de quadros, de modo que o filtro de modelagem (740) controlado pelos dados do filtro de previsão execute uma manipulação de sinal para um quadro da pluralidade de quadros que compreende uma porção transiente e [0307] de modo que o filtro de modelagem (740) não execute uma manipulação de sinal ou execute uma manipulação de sinal menor do que a manipulação de sinal para o quadro para um quadro adicional da pluralidade de quadros que não compreende uma porção transiente.

[0308] 14. Aparelho de qualquer um dos exemplos anteriores, [0309] em que o conversor de espectro-tempo (760) está configurado para aplicar uma operação de adição de sobreposição envolvendo pelo menos dois quadros adjacentes da representação espectral.

[0310] 15. Aparelho de qualquer um dos exemplos anteriores, [0311] em que o conversor de espectro temporal (700) está configurado para aplicar um tamanho de salto entre 3 e 8 ms ou uma janela de análise com um comprimento de janela entre 6 e 16 ms, ou

Petição 870190097668, de 30/09/2019, pág. 112/194

102/114 [0312] em que o conversor de espectro-tempo (760) está configurado para usar e sobrepor a faixa correspondente a um tamanho de sobreposição de janelas sobrepostas ou correspondente a um tamanho de salto usado pelo conversor entre 3 e 8 ms ou para usar uma janela de síntese com um comprimento de janela entre 6 e 16 ms, ou em que a janela de análise e a janela de síntese são idênticas uma à outra.

[0313] 16. Aparelho do exemplo 2 ou 3, [0314] em que a característica de filtro de nivelamento (740a) é uma característica de filtro inverso resultante, quando aplicada à estrutura espectral, em uma estrutura espectral modificada que tem um envelope temporal mais plano em comparação com um envelope temporal da estrutura espectral; ou [0315] em que a característica do filtro de modelagem (740b) é uma característica do filtro de síntese resultante, quando aplicada a uma estrutura espectral, em uma estrutura espectral modificada que tem um envelope temporal menos achatado em comparaçao com um envelope temporal da estrutura espectral.

[0316]

17. Aparelho de qualquer um dos exemplos anteriores em que o analisador de previsão (720) configurado para calcular dados do filtro de previsão para uma característica do filtro de modelagem (740b), e em que o filtro de modelagem (740) é configurado para filtrar a estrutura espectral conforme obtida pelo conversor de

Petição 870190097668, de 30/09/2019, pág. 113/194

103/114 espectro temporal (700), por exemplo, sem um achatamento anterior.

[0317] 18. Aparelho de qualquer um dos exemplos anteriores, em que o filtro de modelagem (740) é configurado para representar uma ação de modelagem de acordo com um envelope de tempo da estrutura espectral com uma resolução de tempo máxima ou menor que a máxima e em que o filtro de modelagem (740) está configurado para representar nenhuma ação de nivelamento ou uma ação de nivelamento de acordo com uma resolução de tempo menor do que a resolução de tempo associada à ação de modelagem.

[0318] 19. Método para pós-processamento (20) de um sinal de áudio, que compreende:

[0319] converter (700) o sinal de áudio em uma representação espectral que compreende uma sequência de quadros espectrais;

[0320] calcular (720) dados de filtro de previsão para uma previsão de frequência dentro de um quadro espectral;

[0321] moldar (740), em resposta aos dados do filtro de previsão, a estrutura espectral para melhorar uma porção transiente dentro da estrutura espectral; e [0322] converter (760) uma sequência de quadros espectrais que compreende um quadro espectral moldado em um domínio de tempo.

[0323] 20. Programa de computador para executar, ao executar em um computador ou processador, o método do exemplo 19.

Petição 870190097668, de 30/09/2019, pág. 114/194

104/114 [0324] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa do método ou a um recurso de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente.

[0325] Dependendo de certos requisitos de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada usando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, com sinais de controle legíveis eletronicamente armazenados nela, os quais cooperam (ou tenham a capacidade de cooperar) com um sistema de computador programável, de modo que o método respectivo seja executado.

[0326] Algumas modalidades de acordo com a invenção compreendem um portador de dados com sinais de controle legíveis eletronicamente, que têm a capacidade de cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.

[0327] Geralmente, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, sendo o código de programa operacional para executar um dos métodos quando o

Petição 870190097668, de 30/09/2019, pág. 115/194

105/114 produto de programa de computador é executado em um computador. O código do programa pode, por exemplo, ser armazenado em um suporte legível por máquina.

[0328] Outras modalidades compreendem o programa de computador para executar um dos métodos aqui descritos, armazenados em um suporte legível por máquina ou em um meio de armazenamento não transiente.

[0329] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador com um código de programa para executar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.

[0330] Uma modalidade adicional dos métodos inventivos é, portanto, um suporte de dados (ou um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para executar um dos métodos aqui descritos.

[0331] Uma modalidade adicional do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para executar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.

[0332] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado ou adaptado para executar um dos métodos aqui descritos.

Petição 870190097668, de 30/09/2019, pág. 116/194

106/114 [0333] Uma modalidade adicional compreende um computador tendo instalado nele o programa de computador para executar um dos métodos aqui descritos.

[0334] Em algumas modalidades, um dispositivo lógico programável (por exemplo, uma matriz de portas programável em campo) pode ser usado para executar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas modalidades, uma matriz de portas programável em campo pode cooperar com um microprocessador para executar um dos métodos descritos aqui. Geralmente, os métodos são preferencialmente realizados por qualquer aparelho de hardware.

[0335] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações dos arranjos e os detalhes aqui descritos serão evidentes para outros especialistas na técnica. É intenção, portanto, limitar-se apenas ao escopo das reivindicações iminentes de patentes e não aos detalhes específicos apresentados por meio de descrição e explicação das modalidades aqui apresentadas.

BIBLIOGRAFIA

K. Brandenburg, MP3 and AAC explained, em Audio Engineering Society Conference:

17th International Conference: High-Quality Audio Coding, Setembro de 1999.

K. Brandenburg e G. Stoll, ISO/MPEG-1 audio: A generic standard for coding of high-quality

Petição 870190097668, de 30/09/2019, pág. 117/194

107/114 digital audio, J. Audio Eng. Soc., vol. 42, páginas 780 a 792, Outubro de 1994.

ISO/IEC 11172-3, MPEG-1: Coding of moving pictures and associated audio for digital storage media at up to about 1. 5 mbit/s - part 3: Audio, international standard, ISO/IEC, 1993. JTC1/SC29/WG11.

ISO/IEC 13818-1, Information technology generic coding of moving pictures and associated audio information: Systems, international standard, ISO/IEC, 2000. ISO/IEC JTC1/SC29.

J. Herre e J. D. Johnston, Enhancing the performance of perceptual audio coders by using temporal noise shaping (INS), in 101st Audio Engineering Society Convention, n- 4384, AES, Novembro de 1996.

B. Edler, Codierung von audiosignalen mit uberlappender transformation und adaptiven fensterfunktionen, Frequenz - Zeitschrift fur Telekommunikation, vol. 43, páginas 253 a 256, Setembro de 1989 .

I. Samaali, Μ. T. -H. Alouane, e G. Mahé, Temporal envelope correction for attack restoration im low bit-rate audio coding, em 17th European Signal Processing Conference (EUSIPCO), (Glasgow, Scotland), IEEE, Agosto de 2009 .

J. Lapierre e R. Lefebvre, Pre-echo noise reduction in frequency-domain áudio codecs, em 42nd IEEE International Conference on Acoustics, Speech and Signal Processing, páginas 686 a 690, IEEE, Março de 2017.

Petição 870190097668, de 30/09/2019, pág. 118/194

108/114

A. V. Oppenheim e R. W. Schafer, DiscreteTime Signal Processing. Harlow, UK: Pearson Education Limited, 3. ed., 2014.

J. G. Proakis e D. G. Manolakis, Digital Signal Processing - Principles, Algorithms, and Applications. New Jersey, US: Pearson Education Limited, 4. ed., 2007.

J. Benesty, J. Chen, e Y. Huang, Springer handbook of speech processing, ch. 7.

Linear Prediction, pp. 121-134. Berlin: Springer, 2008.

J. Makhoul, Spectral analysis of speech by linear prediction, em IEEE Transactions on Audio and Electroacoustics, vol. 21, páginas 140 a 148, IEEE, Junho de 1973.

J. Makhoul, Linear prediction: A tutorial review, em Proceedings of the IEEE, vol. 63, páginas 561 a 580, IEEE, Abril de 2000.

M. Athineos and D. P. W. Ellis, Frequencydomain linear prediction for temporal features, em IEEE Workshop on Automatic Speech Recognition and Understanding, páginas 261 a 266, IEEE, Novembro de 2003.

F. Keiler, D. Arfib, e U. Zolzer, Efficient linear prediction for digital áudio effects, em COST G-6 Conference on Digital Audio Effects (DAFX-00), (Verona, Itália), Dezembro de 2000.

J. Makhoul, Spectral linear prediction: Properties and applications, em IEEE Transactions on

Petição 870190097668, de 30/09/2019, pág. 119/194

109/114

Acoustics, Speech, and Signal Processing, vol. 23, páginas 283 a 296, IEEE, Junho de 1975.

T. Painter e A. Spanias, Perceptual coding of digital audio, em Proceedings of the IEEE, vol. 88, Abril de 2000 .

J. Makhoul, Stable and efficient lattice methods for linear prediction, em IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-25, páginas 423 a 428, IEEE, Outubro de 1977.

N. Levinson, The wiener rms (root mean square) error criterion in filter design and prediction, Journal of Mathematics and Physics, vol. 25, páginas 261 a 278, Abril de 1946.

J. Herre, Temporal noise shaping, qualtization and coding methods in perceptual audio coding: A tutorial introduction, em Audio Engineering Society Conference: 17th International Conference: High-Quality Audio Coding, vol. 17, AES, Agosto de 1999.

M. R. Schroeder, Linear prediction, entropy and signal analysis, IEEE ASSP Magazine, vol. 1, páginas 3 a 11, Julho de 1984.

L. Daudet, S. Molla, e B. Torrésani, Transient detection and encoding using wavelet coeffcient

trees,	Colloques	sur le	Traitement du	Signal et	des
Images,	Setembro de	2001 .
	B.	Edler e	0. Niemeyer,	Detection	and

extraction of transients for audio coding, em Audio

Petição 870190097668, de 30/09/2019, pág. 120/194

110/114

Engineering Society Convention 120, n- 6811, (Paris, França), Maio de 2006.

J. Kliewer e A. Mertins, Audio subband coding with improved representation of transient signal segments, em 9th European Signal Processing Conference, vol. 9, (Rhodes), páginas 1 a 4, IEEE, Setembro de 1998.

X. Rodet e F. Jaillet, Detection and modeling of fast attack transients, em Proceedings of the International Computer Music Conference, (Havana, Cuba), páginas 30 a 33, 2001.

J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, and M. Davies, A tutorial on onset detection in music signals, IEEE Transactions on Speech and Audio Processing, vol. 13, páginas 1035 a 1047, Setembro de 2005.

V. Suresh Babu, A. K. Malot, V. Vijayachandran, e M. Vinay, Transient detection for transform domain coders, em Audio Engineering Society Convention 116, n- 6175, (Berlim, Alemanha), Maio de 2004.

P. Masri e A. Bateman, Improved modelling of attack transients in music analysis-resynthesis, em International Computer Music Conference, páginas 100 a 103, Janeiro de 1996.

M. D. Kwong e R. Lefebvre, Transient detection of audio signals based on na adaptive comb filter in the frequency domain, em Conference on Signals, Systems and Computers, 2004. Conference Record of the ThirtySeventh Asilomar, vol. 1, páginas 542 a 545, IEEE, Novembro de 2003 .

Petição 870190097668, de 30/09/2019, pág. 121/194

111/114

X. Zhang, C. Cai, e J. Zhang, A transient signal detection technique based on flatness measure, em 6th International Conference on Computer Science and Education, (Singapore), páginas 310 a 312, IEEE, Agosto de 2011 .

J. D. Johnston, Transform coding of audio signals using perceptual noise criteria, IEEE Journal on Selected Areas in Communications, vol. 6, páginas 314 a 323, Fevereiro de 1988.

J. Herre e S. Disch, Academic press library in Signal processing, vol. 4, cap. 28. Perceptual Audio Coding, páginas 757 a 799. Academic press, 2014.

H. Fasti e E. Zwicker, Psychoacoustics Facts and Models. Heidelberg: Springer, 3. ed., 2007.

B. C. J. Moore, An Introduction to the Psychology of Hearing. London: Emerald, 6. ed., 2012.

P. Dallos, A. N. Popper, e R. R. Fay, The Cochlea. New York: Springer, 1. ed., 1996.

W. M. Hartmann, Signals, Sound, and Sensation. Springer, 5. ed., 2005.

K. Brandenburg, C. Faller, J. Herre, J. D. Johnston, e B. Kleijn, Perceptual coding of high-quality digital audio, em IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 101, páginas 1.905 a 1.919, IEEE, Setembro de 2013.

H. Fletcher e W. A. Munson, Loudness, its definition, measurement and calculation, The Bell System Technical Journal, vol. 12, no. 4, páginas 377 a 430, 1933.

Petição 870190097668, de 30/09/2019, pág. 122/194

112/114

H. Fletcher, Auditory patterns, Reviews of Modern Physics, vol. 12, η- 1, páginas 47 a 65, 1940.

M. Bosi e R. E. Goldberg, Introduction to Digital Audio Coding and Standards. Kluwer Academic Publishers, 1. ed., 2003.

P. Noll, MPEG digital audio coding, IEEE Signal Processing Magazine, vol. 14, páginas 59 a 81, Setembro de 1997.

D. Pan, A tutorial on MPEG/audio compression, IEEE MultiMedia, vol. 2, n- 2, páginas 60 a 74, 1995.

M. Erne, Perceptual audio coders what to listen for, em 111st Audio Engineering Society Convention, n- 5489, AES, Setembro de 2001.

C. -M. Liu, H. -W. Hsu, e W. Lee, Compression artifacts in perceptual áudio coding, em IEEE Transactions on Audio, Speech, and Language Processing, vol. 16, páginas 681 a 695, IEEE, Maio de 2008.

L. Daudet, A review on techniques for the extraction of transients in musical signals, em Proceedings of the Third international conference on Computer Music, páginas 219 a 232, Setembro de 2005.

W. —C. Lee e C. -C. J. Kuo, Musical onset detection based on adaptive linear prediction, em IEEE International Conference on Multimedia and Expo, (Toronto, Ontário), páginas 957 a 960, IEEE, Julho de 2006.

M. Link, An attack processing of audio signals for optimizing the temporal characteristics of a

Petição 870190097668, de 30/09/2019, pág. 123/194

113/114 low bit-rate audio coding system, em Audio Engineering Society Convention, vol. 95, Outubro de 1993.

T. Vaupel, Ein Beitrag zur Transformationscodierung von Audiosignalen unter Verwendung der Methode der Time Domain Aliasing Cancellation (TDAC) und einer Signalkompandierung im Zeitbereich. Ph. d. thesis, Universitãt Duisburg, Duisburg, Alemanha, Abril de 1991.

G. Bertini, M. Magrini, e T. Giunti, A time-domain system for transient enhancement in recorded music, em 14th European Signal Processing Conference (EUSIPCO), (Florence, Italia), IEEE, Setembro de 2013.

C. Duxbury, M. Sandler, and M. Davies, A hybrid approach to musical note onset detection, em Proc, of the 5th Int. Conference on Digital Audio Effects (DAFx02), (Hamburg, Alemanha), páginas 33 a 38, Setembro de 2002 .

A. Klapuri, Sound onset detection by applying psychoacoustic knowledge, em Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal

Processing, Março de 1999.

S. L. Goh e D. P. Mandic, Nonlinear adaptive prediction of complex-valued signals by complexvalued PRNN, em IEEE Transactions on Signal Processing, vol. 53, páginas 1.827 a 1.836, IEEE, Maio de 2005.

S. Haykin e L. Li, Nonlinear adaptive prediction of nonstationary signals, em IEEE Transactions

Petição 870190097668, de 30/09/2019, pág. 124/194

114/114 on Signal Processing, vol. 43, páginas 526 a 535, IEEE, Fevereiro de 1995.

D. P. Mandic, S. Javidi, S. L. Goh, e K. Aihara, Complex-valued prediction of wind profile using augmented complex statistics, em Renewable Energy, vol. 34, páginas 196 a 201, Elsevier Ltd., Janeiro de 2009.

B. Edler, Parametrization of a pre-masking model. Personal communication, 22 de Novembro de 2016.

ITU-R Recommendation BS. 1116-3, Method for the subjective assessment of small impairments in audio systems, recommendation, International Telecommunication Union, Genebra, Suíça, Fevereiro de 2015.

ITU-R Recommendation BS. 1534-3, Method for the subjective assessment of intermediate quality level of audio systems, recommendation, International Telecommunication Union, Genebra, Suíça, Outubro de 2015.

ITU-R Recommendation BS. 1770-4, Algorithms to measure audio programme loudness and truepeak audio level, recommendation, International Telecommunication Union, Genebra, Suíça, Outubro de 2015.

S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists. Elsevier, 3. ed., 2004 .

Claims

REIVINDICAÇÕES

1. Aparelho para pós-processamento (20) de um sinal de áudio caracterizado por compreender:

um conversor (100) para converter o sinal de áudio em uma representação de frequência de tempo;

um estimador de localização transiente (120) para estimar uma localização no tempo de uma porção transiente com o uso do sinal de áudio ou a representação de frequência de tempo; e um manipulador de sinal (140) para manipular a representação de frequência de tempo, em que o manipulador de sinal está configurado para reduzir (220) ou eliminar um pré-eco na representação de frequência de tempo em. um. local no tempo antes da localização transiente ou para executar um modelagem (500) da representação de frequência de tempo na localização transiente para amplificar um ataque da porção transiente.

2. Aparelho, de acordo com a reivindicação

J- f caracterizado pelo manipulador de sinal (140) compreender um estimador de tonalidade (200) para detectar componentes de sinal tonal na representação de frequência de tempo que precede a porção transiente no tempo, e em que o manipulador de sinal (140) está configurado para aplicar a redução ou eliminação pré-eco (220) de uma maneira seletiva de frequência, de modo que, nas frequências em que os componentes do sinal tonal foram

Petição 870190097668, de 30/09/2019, pág. 126/194 detectados, a manipulação do sinal é reduzida ou desligada em comparação com frequências em que os componentes do sinal tonal não foram detectados.

3. Aparelho, de acordo com as reivindicações 1 ou 2, caracterizado pelo manipulador de sinal (140) compreender um estimador de largura pré-eco (240) para estimar uma largura no tempo do pré-eco anterior à localização transiente com base no desenvolvimento de uma energia de sinal do áudio sinal ao longo do tempo para determinar um quadro inicial de pré-eco na representação de frequência de tempo compreendendo uma pluralidade de quadros de sinal de áudio subsequentes.

4. Aparelho, de acordo com qualquer uma das r e i v i n d i c a ç õ e s a n t e r i o r e s, caracterizado pelo manipulador de sinal

(140) compreender um estimador de li miar de pré-eco (26 0) para estimar limiares de pré-ec,í o para valores espectrais na representação de freqi jencia de tempo dentro de uma largura

de pré-eco, em que os limiares de pré-eco indicam limiares de amplitude correspondentes valores espectrais subsequentes à redução ou eliminação pré-eco.

5. Aparelho, de acordo com a reivindicação 4, caracterizado pelo estimador de limiar de pré-eco (260) estar configurado para determinar o limiar de pré-eco com o uso de uma curva de ponderação com uma característica crescente desde o início da largura do pré-eco até a localizaçao transients.

6. Aparelho, de acordo com qualquer uma das

Petição 870190097668, de 30/09/2019, pág. 127/194 reivindicações anteriores, caracterizado pelo estimator de limiar de pré-eco (260) estar configurado:

suavizar (330) a representação da frequência do tempo sobre uma pluralidade de quadros subsequentes da representação da frequência do tempo, e ponderar (340) a representação de frequência de tempo suavizada com o uso de uma curva de ponderação que tem uma característica crescente desde o inicio da largura do pré-eco até a localização transiente.

7. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o manipulador de sinal (140) compreender:

uma calculadora de pesos espectrais (300, 160) para calcular pesos espectrais individuais para valores espectrais da representação tempo-frequência; e um. ponderador espectral (320) para ponderar valores espectrais da representação tempo-frequência usando os pesos espectrais para obter uma representação manipulada t e mp o - f r e qu ê n. c i a .

8. Aparelho, de acordo com a reivindicação 7, caracterizado pela calculadora de pesos espectrais (300) estar configurada para:

determinar (450) pesos espectrais brutos usando um valor espectral real e um valor espectral alvo, suavizar (460) os pesos espectrais brutos em frequência dentro de um quadro da representação de frequência de tempo, ou

Petição 870190097668, de 30/09/2019, pág. 128/194 desvanecer (4ju) uma redução ou eliminação do pré-eco com o uso de uma curva de desvanecimento sobre uma pluralidade de quadros no início da largura do pré-eco, ou determinar (420) o valor espectral alvo, de modo que o valor espectral com uma amplitude abaixo de um limiar de pré-eco não seja influenciado pela manipulação do sinal, ou

determinar (420) os val. ores espectra is alvo usando um mod elo de pré-m ascaramen t o { 410) de modo que um amo r t e c i me n t o de um valor espectral. n área de pré-e co se~ja

reduzido com base no modelo de pré-mascaramento (410) .

9. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado por a representação de frequência de tempo compreender valores espectrais de valor complexo, e em. que o manipulador de sinal (140) está configurado para aplicar valores de ponderação espectral com valor real aos valores espectrais de valor complexo.

10. Aparelho, de acordo com. qualquer uma das reivindicações anteriores, caracterizado pelo manipulador de sinal (140) estar configurado para amplificar (500) valores espectrais dentro de um quadro transiente da representação de frequência de tempo.

11. Aparelho, de acordo com qualquer uma das reivindicações anteriores,

Petição 870190097668, de 30/09/2019, pág. 129/194 caracterizado pelo manipulador de sinal (140) estar configurado para amplificar apenas valores espectrais acima de uma frequência mínima, em que a frequência mínima é maior que 250 Hz e menor que 2 kHz.

12. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo manipulador de sinal (140) estar configurado para dividir (630) a representação de frequência de tempo na localização transiente em uma parte sustentada e a parte transiente, em que o manipulador de sinal (140) está configurado para amplificar apenas a parte transiente e não amplificar a parte sustentada.

13. Aparelho, de acordo com qualquer uma d a s r e i v i n d i c a ç õ e s a n t e r i o r e s,

caracterizado pelo m a n i p u 1 a d o r de sinal (140) estar configurado para também. amplificar uma porção de tempo da representação de frequência de tempo subsequente à localização trar isiente no tempo cc iim o uso de uma caracter ística de desvanec imento (685). 14. Aparelho, Q. Θ a C^! or do com. qu lalqu ier uma das reivindi cações anteriores, caracterizado pelo m a n _i p u 1 a d o r de sinal

(14 0) estar c o n f i g u r a d o para calcular (680) um fator de ponde ração θ spectral par a um valor espectral com o uso de uma parte sustentada do valor espectral, uma parte

transiente amplificada e uma magnitude do valor espectral, em que uma quantidade de amplificação da amplificada parte

Petição 870190097668, de 30/09/2019, pág. 130/194 é pré-determinada e entre 300% e 150%, ou em que os pesos espectrais são suavizados (690) através da frequência.

15 Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado por compreender ainda um conversor de tempo espectral para converter (3'70) uma representação de frequência de tempo manipulada em um domínio de tempo com o uso de uma operação de adição de sobreposição envolvendo pelo menos quadros adjacentes da representação de frequência de tempo.

16. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo conversor (100) estar configurado para aplicar um tamanho de salto entre 1 e 3 ms ou uma janela de análise com um comprimento de janela entre 2 e 6 ms, ou em. que o conversor de tempo espectral (3'70) está configurado para usar e sobrepor a faixa correspondente a um. tamanho de sobreposição de janelas sobrepostas ou a. um tamanho de salto usado pelo conversor entre 1 e 3 ms ou para usar uma janela de síntese com um comprimento de janela entre 2 e 6 ms, ou em que a janela de análise e a janela de síntese são idênticas uma à outra.

17. Método de pós-processamento (20) de um sinal de áudio caracterizado por compreender:

converter (100) o sinal de áudio em uma representação de frequência de tempo;

Petição 870190097668, de 30/09/2019, pág. 131/194 estimar (120) uma localização transiente no tempo de uma porção transiente com o uso do sinal de áudio ou a representação de frequência de tempo; e manipular (140) a representação da frequência do tempo para reduzir (220) ou eliminar um préeco na representação da frequência do tempo em um local no tempo anterior à localização transiente, ou para realizar uma modelagem (500) da representação da frequência do tempo na localização transiente para amplificar um ataque da p o r ç ã o t r a n s i e n t e .

18 Programa de computador caracterizado por realizar, quando executado em um computador ou processador, o método de acordo com. a reivindicação 17.