BR112020009117A2

BR112020009117A2 - decodificador de áudio que suporta um conjunto de diferentes ferramentas de ocultação de perda

Info

Publication number: BR112020009117A2
Application number: BR112020009117-0A
Authority: BR
Inventors: Adrian TOMASEK; Emmanuel RAVELLI; Markus Schnell; Alexander TSCHEKALINSKIJ; Michael Schnabel; Ralph Sperschneider
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date: 2017-11-10
Filing date: 2018-11-05
Publication date: 2020-10-13
Also published as: EP4152316A1; CN111630591A; KR102424897B1; AU2018363136B2; EP3707705A1; ES2933273T3; TWI704554B; FI3707705T3; MX2020004791A; KR20200077575A; PT3707705T; TWI776236B; JP7073492B2; RU2759092C1; AR113571A1; SG11202004223RA; WO2019091924A1; PL3707705T3; US20200265846A1; EP3483878A1

Abstract

A presente invenção se refere a uma atribuição de uma do conjunto de fases de diferentes ferramentas de ocultação de perda de um decodificador de áudio a uma parte do sinal de áudio a ser decodificada a partir de um fluxo de dados, parte esta que é afetada pela perda, isto é, a seleção dentre o conjunto de diferentes ferramentas de ocultação de perda, pode ser feita de uma maneira que leva a uma ocultação de perda mais agradável se a atribuição/seleção for feita com base em duas medições: uma primeira medição, que compreende medições determinadas de uma posição espectral de um centroide espectral de um espectro do sinal de áudio e uma segunda medição que compreende medições determinadas de uma previsibilidade temporal do sinal de áudio. A ferramenta de ocultação de perda atribuída ou selecionada pode, então, ser usada para recuperar a parte do sinal de áudio.

Description

Relatório Descritivo da Patente de Invenção para “DECODIFICADOR DE ÁUDIO

QUE SUPORTA UM CONJUNTO DE DIFERENTES FERRAMENTAS DE OCULTAÇÃO DE PERDA”

[001] O presente pedido se relaciona a um decodificador de áudio que suporta um conjunto de diferentes ferramentas de ocultação de perda.

[002] A ocultação de perda de pacote (PLC) é usada em codecs de áudio para ocultar pacotes perdidos ou corrompidos durante a transmissão do codificador para o decodificador. A PLC é realizada no lado do decodificador e funciona extrapolando o sinal decodificado tanto no domínio da transformação quanto no domínio do tempo. De forma ideal, o sinal oculto deve ser livre de artefatos e deve ter as mesmas características espectrais do sinal ausente.

[003] Codecs de áudio robustos contra erro, da forma descrita em [2] e [4], no geral, têm múltiplos métodos de ocultação para os vários tipos de sinal, como fala, como um exemplo para um sinal monofônico, música, como um exemplo para sinal polifônico, ou sinal de ruído. A seleção é com base em um conjunto de recursos de sinal, que são transmitidos e decodificados a partir do fluxo de bits ou estimados no decodificador.

[004] As técnicas de PLC com base em timbre geralmente produzem bons resultados para sinais de fala e monofônicos. Essas abordagens assumem que o sinal está localmente estacionário e recuperam o sinal perdido sintetizando um sinal periódico usando um período de timbre extrapolado. Estas técnicas são amplamente utilizadas na codificação de fala com base em CELP, como no ITU-T G.718 [2]. A mesmas também podem ser usadas para codificação PCM, como em ITU-T G.711 [3] e, mais recentemente, as mesmas foram aplicadas à codificação de áudio com base em DECT, o melhor exemplo sendo ocultação de domínio de tempo TCX, TCX TD- PLC, no padrão 3GPP EVS [4].

[005] O retardo de timbre é o principal parâmetro usado na PLC com base em timbre. Este parâmetro pode ser estimado no lado do codificador e codificado no fluxo de bits. Neste caso, o retardo de timbre do último quadro bom é usado para ocultar o quadro perdido atual, como em [2] e [4]. Se não houver um retardo de timbre no fluxo contínuo de bits, o mesmo pode ser estimado no lado do decodificador pela execução de um algoritmo de detecção de timbre no sinal decodificado, como em [3].

[006] Para sinais não periódicos, não tonais, semelhantes a ruídos, uma técnica de baixa complexidade chamada de repetição de quadros com embaralhamento de sinais foi descoberta como efetiva. A mesma é com base na repetição do último quadro e na multiplicação dos coeficientes espectrais com um sinal gerado aleatoriamente para ocultar o quadro perdido. Um exemplo de repetição de quadros MDCT com embaralhamento de sinais pode ser encontrado no padrão 3GPP EVS [4].

[007] Para sinais polifônicos tonais ou sinais de música complexos, é usado um método que é com base na previsão da fase dos coeficientes espectrais de qualquer componente tonal detectado. Este método mostra uma melhoria consistente para sinais tonais estacionários. Um componente tonal consiste em um pico que também existia no(s) quadro(s) recebido(s) anterior(es). A fase dos coeficientes espectrais que pertencem aos componentes tonais é determinada a partir do espectro de potência do(s) último(s) quadro(s) recebido(s). Um exemplo de ocultação MDCT tonal pode ser encontrado no padrão 3GPP EVS [4].

[008] Resumindo o exposto, diferentes métodos PLC são conhecidos, mas os mesmos são específicos para certas situações, isto é, para certas características de áudio. Isto é, um codificador de áudio que suporta vários desses métodos PLC deve ter um mecanismo para escolher o método PLC mais adequado no momento em que se encontra a perda de quadros ou pacotes. O método PLC mais adequado é aquele que leva ao substituto menos perceptível para o sinal perdido.

[009] O objetivo do presente pedido é prover um conceito de decodificação de áudio que permite que um decodificador de áudio que compreende um conjunto de diferentes ferramentas de ocultação de perda alcance uma melhor ocultação de perda.

[010] Este objeto é alcançado pelo assunto em questão das reivindicações independentes do presente pedido.

[011] A ideia da presente invenção é com base na descoberta de que uma atribuição de um do conjunto de fases de diferentes ferramentas de ocultação de perda de um decodificador de áudio a uma parte do sinal de áudio a ser decodificado a partir de um fluxo de dados, parte esta que é afetada pela perda, isto é, a seleção a partir do conjunto de diferentes ferramentas de ocultação perda, pode ser feita de uma maneira que leva a uma ocultação de perdas mais agradável se a atribuição/seleção for feita com base em duas medições: uma primeira medição, que compreende medições determinadas de uma posição espectral de um centroide espectral de um espectro do sinal de áudio e uma segunda medição que compreende medições determinadas de uma previsibilidade temporal do sinal de áudio. A ferramenta de ocultação de perdas atribuída ou selecionada pode, então, ser usada para recuperar a parte do sinal de áudio.

[012] Por exemplo, com base nas primeira e segunda medições supramencionadas, uma das primeira e segunda ferramentas de ocultação de perda pode ser atribuída à parte perdida, com uma primeira sendo configurada para recuperar o sinal de áudio pela síntese do sinal de áudio usando um sinal periódico de uma periodicidade que depende de um valor de timbre derivado a partir do fluxo de dados, e a segunda ferramenta de ocultação de perda pode ser configurada para recuperar o sinal de áudio pela detecção dos componentes espectrais tonais do sinal de áudio, pela realização da detecção de fase nos componentes espectrais tonais e síntese do sinal de áudio pela combinação dos sinais de periodicidades que dependem dos componentes espectrais tonais no ajuste de uma mudança de fase mútua entre os sinais, dependendo da detecção de fase. Em outras palavras, com base na primeira e na segunda medições, uma de uma ferramenta PLC de domínio de frequência tonal e uma ferramenta de PLC de domínio de tempo tonal pode ser atribuída à parte perdida.

[013] De acordo com uma modalidade, a atribuição/seleção para uma porção perdida é realizada em estágios: uma terceira medição que mede uma tonalidade do espectro do sinal de áudio é determinada e um de um primeiro e um segundo subconjuntos de uma ou mais ferramentas de ocultação de perda dentre o conjunto de diferentes ferramentas de ocultação de perda é atribuído à parte perdida, e meramente se o primeiro subconjunto de uma ou mais ferramentas de ocultação de perda for atribuído à parte perdida, a atribuição de uma ferramenta PLC para a parte perdida é realizada com base na primeira e na segunda medições dentre este primeiro subconjunto. Caso contrário, a atribuição/seleção é realizada a partir do segundo subconjunto.

[014] Os aspectos vantajosos do presente pedido são o objeto das reivindicações dependentes. As modalidades preferidas do presente pedido são apresentadas a seguir em relação às figuras, dentre as quais: a figura 1 mostra de uma maneira esquemática um diagrama de blocos de um decodificador de áudio de acordo com uma modalidade do presente pedido; a figura 2 mostra um fluxograma de um modo de operação do atribuidor 32 do decodificador de áudio da figura 1 de acordo com uma modalidade; a figura 3 mostra um diagrama esquemático que ilustra uma detecção de centroide espectral para determinar a primeira medição para atribuição de PLC na figura 2 de acordo com uma modalidade; a figura 4 mostra um diagrama esquemático que ilustra a detecção de previsibilidade temporal para determinar a segunda medição para atribuição de PLC da figura 2 de acordo com uma modalidade; a figura 5 ilustra um diagrama esquemático para ilustrar o modo de operação da PLC 1 da figura 2; a figura 6 mostra um diagrama esquemático que ilustra um modo de operação do PLC 2 de acordo com uma modalidade; a figura 7 mostra um fluxograma de uma versão modificada da operação de atribuição da figura 2, estendida para realizar uma atribuição a partir de um conjunto de ferramentas PLC para ocultação de perda de pacotes PLC 1 a PLC 3 de acordo com uma modalidade; e a figura 8 mostra uma árvore de decisão para decidir entre três ferramentas PLC, árvore de decisão à qual a modalidade da figura 7 corresponde.

[015] A figura 1 mostra um decodificador de áudio de acordo com uma modalidade do presente pedido. Da forma aqui mostrada, o decodificador de áudio 10 é configurado para decodificar um sinal de áudio 12 a partir de um fluxo contínuo de dados 14. O sinal de áudio 12 pode ser codificado em um fluxo de dados 14 de acordo com qualquer codec de áudio adequado, tais como um codec de áudio com base no domínio de tempo ou um codec de áudio de domínio de frequência. O sinal de áudio 12 pode ser codificado em um fluxo de dados 14 em unidades de partes temporais 16 de quadros 18, respectivamente. Para ser mais preciso, o sinal de áudio 12 pode ser temporalmente subdividido em partes ou intervalos temporais sobrepostos ou não sobrepostos 16, cada um dos quais correspondendo a um certo quadro dentre os quadros 18 no qual o fluxo contínuo de dados 14 é subdividido. Cada quadro 18 codifica uma parte temporal correspondente 16. Por exemplo, uma parte 18 pode conter informações sobre coeficientes de predição linear que descrevem um envelope espectral do sinal de áudio na parte correspondente 16. Adicionalmente, o quadro 18 pode ter codificado nos mesmos coeficientes espectrais que descrevem um espectro do sinal de áudio 12 na parte 16 que deve ser modelada, por exemplo, pelo decodificador de áudio 10 de acordo com os coeficientes de predição linear contidos nesse quadro. Um processo de adição de sobreposição também pode ser aplicado pelo decodificador de áudio 10 na reconstrução do sinal de áudio 12 a partir do fluxo contínuo de dados 14. Naturalmente, as possibilidades também se aplicam com os exemplos aqui apresentados meramente servindo para facilidade de compreensão.

[016] O fluxo contínuo de dados 14 pode ser recebido pelo decodificador de áudio 10 em uma forma empacotada, isto é, em unidades de pacotes. A subdivisão do fluxo contínuo de dados 14 no próprio quadro 18 representa um tipo de empacotamento, isto é, os quadros 18 representam os pacotes. Adicionalmente, o fluxo contínuo de dados 14 pode ser empacotado em pacotes de um fluxo contínuo de transporte ou formato de arquivo de mídia, mas essa circunstância não é aqui inspecionada com mais detalhes. Em vez disso, deve ser suficiente declarar que a recepção do fluxo contínuo de dados 14 pelo decodificador de áudio 10 é responsável pela perda de dados ou sinal, chamada de perda de pacotes a seguir. Isto é, alguma parte contínua 20 do fluxo contínuo de dados 14 pode ter se perdido durante a transmissão, assim, não recebida pelo decodificador de áudio 10, de forma que a parte correspondente esteja ausente e não está disponível para o decodificador de áudio 10. Como uma consequência, o decodificador de áudio 10 perde informações no fluxo contínuo de dados 14 para reconstruir uma parte 22 correspondente à parte 20. Em outras palavras, o decodificador de áudio 10 não é capaz de reconstruir a parte 22 a partir do fluxo contínuo de dados 14 de acordo com um processo normal de decodificação de áudio implementado, por exemplo, em um núcleo de decodificação de áudio 24 do decodificador de áudio, já que a parte 20 do fluxo contínuo de dados 14 está ausente. Em vez disso, a fim de lidar com tais partes ausentes 20, o decodificador de áudio 10 compreende um conjunto 26 de ferramentas PLC 28 para recuperar ou sintetizar o sinal de áudio 12 na parte 22 por um sinal substituto 30. As ferramentas PLC 28 compreendidas pelo conjunto 26 diferem em sua adequabilidade para diferentes características de sinal de áudio. Isto é, o grau de incômodo durante o uso de uma certa ferramenta PLC para a recuperação de um sinal substituto 30 em uma certa parte 22 do sinal de áudio 12 depende da característica do sinal de áudio nessa parte 22 e as ferramentas PLC 28 no conjunto 26 mostram graus mutuamente diferentes de incômodo para um certo conjunto de características do sinal de áudio. Assim, o decodificador de áudio 10 compreende um atribuidor 32 que atribui um do conjunto 26 de ferramentas de ocultação de perda de pacote 28 à parte 22 do sinal de áudio 12 que é afetada por uma perda de pacote, tal como a parte perdida 22 do fluxo contínuo de dados 14. O atribuidor 32 tenta atribuir a melhor ferramenta PLC 28 à parte 22, a saber, aquela que leva ao menor incômodo.

[017] Uma vez que o atribuidor 32 atribuiu uma certa ferramenta PLC 28 a uma parte perdida 22 do sinal de áudio 12, o decodificador de áudio 10 recupera essa parte 22 do sinal de áudio usando a ferramenta PLC 28 atribuída, desse modo, substituindo o sinal de áudio 12 nesta parte 22, já que o mesmo teria sido reconstruído a partir do áudio fluxo de dados 14 se a parte do fluxo contínuo de dados correspondente 22 não tivesse se perdido, por um sinal substituto 30 obtido usando a ferramenta PLC 28 atribuída para a parte 22 pelo atribuidor 32.

[018] Da forma já indicada anteriormente, a atribuição de uma ferramenta PLC em particular 28 a uma certa parte perdida 22 deve ser feita dependente do sinal, a fim de tornar a ocultação perdida o menos incômoda possível. A dependência do sinal, no entanto, é restrita a partes do fluxo contínuo de dados 14 que precedem a parte do fluxo de dados perdida 20 e, de acordo com a modalidade aqui descrita, o atribuidor 32 age como segue.

[019] A fim de explicar isso com mais detalhes, é feita referência à figura 2. A figura 2 mostra que a íntegra do processo de atribuição para uma certa parte ausente 22 pode, possivelmente, ser disparada por um detector de perda 34 possivelmente presente no decodificador de áudio 10. Em particular, se a detecção perdida 36 realizada pelo detector de perda 34 revelar que alguma parte 20 do fluxo contínuo de dados 14 está ausente ou foi perdida, da forma verificada em 38, o seguinte processo de atribuição é disparado. Uma determinação 40 é realizada a fim de determinar uma primeira medição 42 que mede uma posição espectral de um centroide espectral de um espectro do sinal de áudio. Isto é, o atribuidor 32 determina uma posição espectral de um centro de massa de um espectro do sinal de áudio, veja a figura 3. O decodificador de áudio recupera, a partir de uma parte 44 precedente à parte perdida 20 do fluxo de dados 14, que precede na ordem de fluxo contínuo de dados, um espectro 46 do sinal de áudio. Da forma descrita anteriormente em relação à figura 1, pode ser que o fluxo contínuo de dados 14 tenha um sinal de áudio 12 codificado no mesmo no domínio espectral de alguma maneira, de forma que nenhuma decomposição espectral seja necessária para que atribuidor 32 obtenha o espectro

46. Por exemplo, os coeficientes espectrais de um quadro mais recentemente recebido 18 ou mais de um quadro mais recentemente recuperado 18 do fluxo de dados 14, antes da parte perdida 20, são usados para obter o espectro 46. Se mais do que um quadro 18 for usado, pode ser que o espectro 46 usado pelo atribuidor 32 seja obtido por ponderação. A fim de realizar a determinação 40, o centro de massa deste espectro 46 é determinado, isto é, uma medição 42 que mede uma posição espectral 48 do espectro 46. Posteriormente, um exemplo específico é apresentado.

[020] Adicionalmente, o processo de atribuição disparado pela detecção de perda compreende uma determinação 50 de uma previsibilidade temporal do sinal de áudio para obter uma medição 52 dessa previsibilidade temporal, veja a figura 4 para mais detalhes. Da forma aqui mostrada, de acordo com uma modalidade, a detecção de previsibilidade temporal 50 pode se basear no sinal decodificado ou no sinal de áudio 12 derivado a partir do fluxo contínuo de dados 14 até a parte de sinal 22 que está ausente devido à perda da parte 20 do fluxo contínuo de dados 14. Em outras palavras, a detecção de previsibilidade temporal 50 pode ser com base no sinal de áudio 12 na porção 50 que precede imediatamente a parte perdida 22, cuja perda deve ser ocultada, e que é decodificada a partir da parte 44 do fluxo contínuo de dados

14. A detecção da previsibilidade temporal 50 pode ser feita de uma maneira para que a medição 52 seja uma medição para uma autossimilaridade ou autocorrelação da parte do sinal 50, da forma ilustrada em 54 na figura 4. As mudanças mútuas para as quais a autossimilaridade do sinal 50 é medida pela medição 52 podem ser determinadas pelo atribuidor 32 de maneiras diferentes. Por exemplo, o atribuidor 32 pode inspecionar um parâmetro de timbre correspondente conduzido em um ou mais dos quadros 18 na porção 44 que precede a parte perdida 20 do fluxo contínuo de dados 14. Isto é, as mudanças mútuas nas quais a autossimilaridade pode ser medida podem corresponder a um período de timbre com um timbre sendo determinado com base em um parâmetro no fluxo contínuo de dados 14, a saber, a parte 44. A autossimilaridade ou a correlação 56 nessa mudança de período de timbre pode ser usada como a segunda medida 52.

[021] É óbvio que a ordem de realização das determinações 40 e 50, respectivamente, pode ser comutada ou que ambas as detecções podem ser realizadas concorrentemente. Com base nas medições 42 e 52, uma atribuição 60 é realizada. Esta atribuição 60 seleciona uma das duas ferramentas PLC 28 para ocultação da perda da parte 22. Esta ferramenta PLC, isto é, aquela atribuída 62, é,

então, usada para a ocultação da perda da porção 22.

[022] Como uma breve nota, deve-se notar que o número de ferramentas PLC 28, entre as quais a seleção por atribuição 60 é realizada, pode ser maior do que duas.

[023] De acordo com uma modalidade adicional esboçada a seguir, no entanto, a ferramenta PLC (PLC 1) da figura 2 pode ser descrita como 1, cujo uso do sinal substituto 30, isto é, a estimativa do sinal de áudio na parte 22, é obtido ou recuperado usando ocultação de perda de pacotes de domínio temporal tonal. Em outras palavras, o PLC 1 pode ser uma ocultação de perda de pacotes dedicada para recuperação do sinal de áudio de partes monofônicas. A PLC 1 pode recuperar um sinal de áudio em uma parte ausente 22 de um sinal de áudio 12 usando um sinal periódico de uma periodicidade que depende de um parâmetro de timbre ou valor de timbre derivado a partir do fluxo contínuo de dados, a saber, a partir da parte 44 do fluxo contínuo de dados 14, isto é, a parte 44 que precede a parte perdida 20 do fluxo contínuo de dados

14.

[024] A segunda ferramenta PLC (PLC 2) pode ser dedicada para a recuperação de sinais de áudio de tipo polifônico. A ocultação desta segunda ferramenta PLC (PLC 2) pode ser com base na ocultação de perda de pacotes de domínio de frequência tonal.

[025] Em relação às figuras 5 e 6, uma possível implementação da PLC 1 e da PLC 2 será explicada em resumo.

[026] A figura 5 ilustra a PLC 1. Um parâmetro de timbre ou um valor de timbre 66 conduzidos em um quadro 18 na parte 44 que precede a parte perdida 20 do fluxo contínuo de dados 14 são usados para definir uma periodicidade ou um comprimento de período 68 de um sinal periódico 70 que é, então, usado para formar um substituto ou usado para ocultar a perda na parte 22 do sinal de áudio 12. O parâmetro de timbre ou o valor de timbre 66 podem estar presentes no fluxo contínuo de dados 14 para serem usados pelo decodificador de áudio 10 no caso de decodificação de áudio normal, isto é, sem perda de sinal, para controlar, por exemplo, uma ferramenta de filtro harmônico ou congêneres. Isto é, o parâmetro 66 pode estar presente no fluxo de dados 14 de qualquer maneira. Caso contrário, a ferramenta PLC 28 que realiza a PLC 1 de acordo com a figura 5 pode determinar o período de timbre passo 68 pela análise, tal como pela análise do sinal decodificado 50 na frente da parte perdida 22 ou pela análise da versão acessível mais recente do espectro, tal como o espectro 46 representado na figura 3.

[027] A figura 6 ilustra a PLC 2 de acordo com uma modalidade. Aqui, a ferramenta PLC 28, responsável pela realização da PLC 2, usa, por exemplo, um ou dois ou mais espectros mais recentemente obtidos, obtidos a partir da parte 44 do fluxo contínuo de dados 14, para detectar ou determinar os componentes espectrais tonais nos mesmos, isto é, picos 72 no espectro 46 ou picos 72 no espectro 46 que ocorrem nessa posição ou em uma posição suficientemente similar no espectro de um certo número de espectros ou quadros consecutivos 18, respectivamente. As posições suficientemente similares podem ser aquelas cuja distância espectral está abaixo de um certo limiar. As posições espectrais dos picos 72 representam os componentes espectrais tonais e, aqui, nesses locais espectrais, a detecção de fase é realizada pelo uso de, por exemplo, ou pela avaliação de, por exemplo, um espectro de potência do sinal de áudio. Então, na parte temporal 22 na qual a perda de sinal deve ser ocultada, uma combinação de sinais, cuja periodicidade depende dos componentes espectrais tonais, é formada para produzir o sinal complementar 30, em que uma mudança de fase mútua entre os sinais combinados é ajustada dependendo da detecção de fase. Por exemplo, uma fase é determinada para cada componente tonal 72 ou meramente diferenças de fase entre esses componentes tonais são determinadas, e um sinal é formado como o substituto 30 na parte 22 que é sintetizada por esses componentes tonais 72 com obediência às diferenças de fase ou fases. A combinação pode ser formada no domínio espectral com a derivação do sinal substituto 30 por transformação inversa, ou no domínio do tempo diretamente pela adição, por exemplo, de sinais mutuamente mudados, a mudança mútua refletindo a mudança de fase mútua determinada.

[028] Da forma descrita com mais detalhes a seguir, a atribuição 60 pode ser feita de uma maneira para que a PLC 1 seja escolhida ou atribuída à parte 22 quanto mais provável que a posição espectral seja mais baixa 48 e quanto mais alta for a previsibilidade temporal e, vice-versa, a PLC 2 seja atribuída ou selecionada quanto mais provável que a espectral posição seja mais alta 48 e quanto mais baixa for a previsibilidade temporal. Uma posição espectral mais alta corresponde a uma frequência mais alta e uma posição espectral mais baixa a uma frequência mais baixa. Fazendo isso dessa maneira, é mais provável que a PLC 1 seja escolhida no caso da parte 22 correspondente à fala perdida e é mais provável que a PLC 2 seja selecionada no caso da parte 22 em relação aos sinais de polifônicos ou música.

[029] A título de completude, a figura 7 mostra o fato de que o processo de atribuição da figura 2 pode ser estendido. Em particular, da forma mostrada na figura 2, a atribuição 60 foi feita pela restrição da atribuição ou pela seleção da atribuição 60 em um subconjunto 80 de ferramentas PLC 28. O conjunto 26 de ferramentas PLC 28 pode conter um subconjunto adicional de uma ou mais ferramentas PLC 28, tal como o subconjunto 82 e, quando disparada pela detecção de perdas 36, uma detecção de tonalidade 84 pode ser usada pelo atribuidor 32 primeiro, a fim de determinar se a parte 22 se relaciona a uma parte tonal ou não. A determinação da tonalidade 84 produz uma medição ou indicador de tonalidade 86 e este indicador de medição de tonalidade 86 pode ser obtido em 84 pelo uso de um ou mais parâmetros na parte 44 do fluxo contínuo de dados 14, por exemplo, tal como pela inspeção se um quadro 18 mais recente na parte 44 compreende ou não um certo parâmetro de timbre, tal como um valor de timbre 66, da forma descrita na figura 5. No caso de ausência, isso pode ser interpretado como uma indicação de que o sinal de áudio é atualmente não tonal e, no caso da presença do parâmetro de timbre 66, isso pode ser interpretado como indicando que o sinal de áudio é atualmente tonal. Esta indicação é, então, a medição de tonalidade 86. Usando a medição 86, é discriminado em 88 se o sinal de áudio é tonal ou não e, se o mesmo não for tonal, a PLC 62 atribuída à parte 22 é atribuída fora do subconjunto 82. A figura 7 ilustra o caso em que uma ferramenta PLC 28 é composta pelo subconjunto 82 e este é escolhido. No entanto, mesmo aqui, uma seleção adicional fora do subconjunto 82 pode seguir. Se a tonalidade for confirmada em 88, a atribuição 60 com base nas determinações 40 e 50 é realizada em relação ao subconjunto 80, da forma descrita anteriormente em relação à figura 2.

[030] A PLC 3 pode ser uma PLC não tonal, tal como uma PLC que recupera um sinal de áudio para uma parte 22 pelo uso da repetição de quadros com ou sem modificação réplica, quando a modificação de réplica puder, da forma indicada anteriormente, envolver embaralhamento de sinais, isto é, uma viragem de sinal aleatória dos coeficientes espectrais de um espectro recebido mais recentemente, tal como o espectro 46, que é, então, inversamente transformado e usado para derivar o sinal substituto 30.

[031] A figura 8 visualiza uma árvore de decisão para selecionar entre as ferramentas PLC 28 de acordo com uma maneira que corresponde, por exemplo, à figura 7. As decisões A e B são tomadas para decidir quais dos três métodos PLC 1 a PLC 3, que são desenhados para diferentes tipos de sinal, devem ser usados para uma certa parte de sinal ausente 22, a fim de obter o melhor desempenho de ocultação. A primeira decisão, decisão A, é com base na tonalidade. Se o sinal se revelar como não tonal, a PLC 3 é usada para a ocultação. Se tonal, a decisão B é tomada. A decisão B verifica as características do sinal tonal com base nas medições 42 e 52, da maneira descrita anteriormente em relação às figuras 2 e 7 e, dependendo das características, escolhe uma das PLC 1 ou PLC 2. Da forma explicada anteriormente, a PLC 1 pode ser uma PLC de domínio de tempo tonal para sinais monofônicos e/ou de fala, ao mesmo tempo em que a PLC 2 pode ser uma PLC de domínio de frequência tonal para sinais polifônicos e/ou de música.

[032] A árvore de decisão da figura 8, assim, visualiza as decisões, que podem ser tomadas entre três métodos de PLC para diferentes tipos de sinal para obter o melhor desempenho de ocultação. A decisão A, que pode corresponder à verificação 88 da figura 7, pode ser feita pela inspeção de uma classificação do tipo de sinal, isto é, usando o mesmo como uma indicação, ou pela derivação a partir do mesmo, de um indicador de tonalidade. A classificação do tipo de sinal está, possivelmente, presente em cada quadro 18 e indica uma classe de quadro de cada quadro. A mesma pode ser calculada no lado do codificador e transmitida no fluxo contínuo de bits 14 para o decodificador de áudio. Ainda alternativamente, a mesma pode ser calculada no lado do decodificador. No entanto, o cálculo da classe de quadro é muito complexo e pode exigir que todos os recursos sejam calculados em cada quadro devido a uma dependência de quadros da classe de quadros. Portanto, para aplicações de baixa complexidade, pode ser preferido se uma abordagem mais simples for usada. Da forma indicada anteriormente, a presença ou a ausência de algum parâmetro de timbre 66 podem ser usadas como indicador 86.

[033] A decisão B, que corresponde à atribuição 60 com base nas determinações 40 e 52, produz uma boa escolha entre PLC nº 1 e PLC nº 2. Em [6], uma escolha como esta foi feita com base em uma medição de estabilidade do envelope espectral, que se correlaciona com a estacionariedade de curto prazo do sinal. No entanto, quanto mais estacionário for um sinal, melhor será o desempenho dos métodos PLC tonal tanto PLC nº 1 quanto PLC nº 2. Isso significa que a estacionariedade não é, portanto, um critério adequado para selecionar o método de ocultação tonal ideal. A característica de estacionariedade indica a tonalidade muito bem, no entanto, a mesma não pode diferenciar entre fala/monofônica e polifônica/música.

[034] Da forma discutida anteriormente, é possível realizar a árvore de decisão da figura 8 usando um classificador de PLC representado pelo atribuidor 32, que pode operar em uma base quadro a quadro sem quaisquer dependências interquadro e, assim, necessita meramente de uma baixa complexidade. O mesmo pode calcular suas características de classificação 42 e 52 somente no caso de uma perda de quadros, conforme detectado ou verificado em 38, e, portanto, não adiciona um deslocamento de complexidade imanente nos quadros livres de erros entre os quadros 18.

[035] A decisão A pode ser feita com base em um indicador de tonalidade 86, que pode ser a presença de um valor de timbre no último bom quadro de áudio recebido. A decisão B pode ser feita pelo uso do centroide espectral 48 e um ganho de previsão de longo prazo 56 calculado no último bom quadro de áudio recebido.

[036] A decisão B pode comutar entre um método de ocultação de domínio de tempo com base em timbre PLC nº 1, melhor adequado para sinais monofônicos e tipo fala, e métodos de domínio de frequência PLC nº 2, melhor adequados para complexos sinais polifônicos ou de música. Uma vantagem da classificação da decisão B resulta do fato de que: * o centroide espectral fica espectralmente localizado muito baixo para sinais de fala e mais alto para sinais de música; * o ganho de previsão de longo prazo é alto para sinais monofônicos e estacionários, como sinais de fala, e baixo para sinais polifônicos ou menos estacionários, como sinais tonais ou de música complexos.

[037] Portanto, uma combinação ponderada de ambas as características 42 e 52 pode ser usada para a decisão B e o processo de atribuição 60 e resulta em uma discriminação confiável dos sinais de fala/monofônicos e de música polifônicos/complexos. Ao mesmo tempo, a complexidade pode ser mantida baixa.

[038] Se o decodificador de áudio receber um quadro corrompido ou se o quadro for perdido, isto é, encontrar uma parte perdida 20, da forma detectada em 38, o seguinte pode ser feito, em que a referência também é feita à figura 2: a. a decisão A é tomada, em 88, se usa-se um método de ocultação tonal, como PLC nº 2 ou PLC nº 1 para ocultar o quadro perdido/corrompido que representa a parte 20, ou ocultar a perda da parte 22 correspondente. Esta decisão A é com base em um indicador de tonalidade 68 para o qual a presença de um valor de timbre 66 no último quadro bom no fluxo contínuo de bits pode ser usada; b. para uma decisão negativa A, nenhum PLC tonal é usado. Em vez disso, um outro método PLC é usado nesse caso, isto é, PLC nº 3. O mesmo pode usar repetição de quadro com embaralhamento de sinal; c. para uma decisão A positiva, um dos dois métodos PLC tonal PLC nº 1 e PLC nº 2 é usado para ocultar o quadro perdido/corrompido. Os dois métodos PLC podem ser tanto o PLC com base em timbre no domínio do tempo, tal como o TCX

TD-PLC de [4], quanto a ocultação tonal no domínio de frequência, tal como a ocultação MDCT tonal em [4], em que a descrição correspondente é aqui incorporada pela referência.

[039] Para uma decisão A positiva, as características 42 e 52 podem ser calculadas com base no último quadro bom da seguinte maneira: * como recurso ou medição 52, um ganho de previsão de longo prazo 𝑥𝑐𝑜𝑟𝑟: ∑𝑁−1 𝑘=0 𝑥(𝑘) ∙ 𝑥(𝑘 − 𝑇𝑐 ) 𝑥𝑐𝑜𝑟𝑟 = √(∑𝑁−1 𝑁−1 𝑘=0 𝑥(𝑘) ∙ 𝑥(𝑘)) ∙ (∑𝑘=0 𝑥(𝑘 − 𝑇𝑐 ) ∙ 𝑥(𝑘 − 𝑇𝑐 )) pode ser computado em 50, em que 𝑇𝑐 é o valor de timbre do último quadro bom e 𝑥(𝑘), 𝑘 = 0 … 𝑁 − 1, são as últimas amostras de tempo decodificadas do último quadro bom e 𝑇, 𝑇𝑐 < 𝑁𝐹 𝑁={ 𝑐 𝑁𝐹 , 𝑠𝑒𝑛ã𝑜 em que 𝑁𝐹 pode ser um valor limitado, como o máximo valor de timbre ou um comprimento de quadro (por exemplo, 10 ms); * como característica ou medição 42, um centroide espectral 𝑠𝑐: 𝑘+1 ∑𝑁−1 𝑘=0 |𝑋𝑠_𝑙𝑎𝑠𝑡𝐺𝑜𝑜𝑑 (𝑘)| ∙ 𝑁 𝑠𝑐 = ∑𝑁−1 𝑘=0 |𝑋𝑠_𝑙𝑎𝑠𝑡𝐺𝑜𝑜𝑑 (𝑘)| pode ser computado em 40, em que 𝑁 é o comprimento do último espectro recebido 𝑋𝑠_𝑙𝑎𝑠𝑡𝐺𝑜𝑜𝑑 (𝑘) e |𝑋𝑠_𝑙𝑎𝑠𝑡𝐺𝑜𝑜𝑑 (𝑘)| significa o espectro de magnitude.

[040] As duas características calculadas são combinadas com a seguinte fórmula: 𝑐𝑙𝑎𝑠𝑠 = 𝑤1 ∙ 𝑥𝑐𝑜𝑟𝑟 + 𝑤2 ∙ 𝑠𝑐 + 𝛽 em que 𝑤1, 𝑤2 e 𝛽 são pesos. Em uma modalidade, os mesmos são 𝑤1 = 520 287 1 , 𝑤2 = −1 e 𝛽 = − 1185. Alternativas são definir 𝑤1, 𝑤2 e 𝛽 de forma que 4 < 𝑤1 < 1185 3 1 1 1 , −2 < 𝑤2 < − 2, e − 2 < 𝛽 < − 16. Os pesos podem ser aqui normalizados para ficar 4 no intervalo [-1:1].

[041] Então, a PLC nº 1, por exemplo, o método PLC com base em timbre no domínio de tempo, pode ser escolhida se 𝑐𝑙𝑎𝑠𝑠 > 0 em 60 e PLC nº 2, tal como uma ocultação tonal no domínio de frequência, em outras circunstâncias.

[042] Devem ser feitas algumas observações em relação à descrição exposta.

Por exemplo, o espectro, cujo centroide espectral é medido para obter a primeira medição 42, pode ser uma assim denominada versão ponderada, tal como uma versão pré-enfatizada.

Tal ponderação é usada, por exemplo, para adaptar o ruído de quantização ao limiar de mascaramento psicoacústico.

Em outras palavras, pode ser que a primeira medição 42 meça uma posição espectral 48 de um centroide espectral de um espectro escalado psicoacústico do sinal de áudio.

Isso pode ser especialmente vantajoso nos casos em que a decodificação de áudio normal do núcleo de decodificação de áudio subjacente codificado 24 envolve que o fluxo contínuo de dados 14 tenha sinal de áudio 12 codificado no mesmo no domínio espectral de qualquer maneira, a saber, no domínio ponderado.

Adicionalmente ou alternativamente, o espectro, cujo centroide espectral é medido para obter a primeira medição 42, não é necessariamente aquele representado em uma resolução espectral tão alta quanto a resolução espectral usada no núcleo de decodificação de áudio 24 para transição para o domínio do tempo.

Em vez disso, o mesmo pode ser mais alto ou mais baixo.

Ainda adicionalmente ou alternativamente, deve-se notar que o espectro do sinal de áudio também se manifesta em fatores de escala.

Tais fatores de escala podem ser transmitidos no fluxo contínuo de dados 14, juntamente com coeficientes espectrais, a fim de, juntos, formarem uma representação codificada do espectro do sinal de áudio.

Para uma certa parte 22, os coeficientes espectrais são escalados de acordo com os fatores de escala.

Há mais coeficientes espectrais do que fatores escaladores.

Cada fator de escala, por exemplo, é atribuído a uma das diversas bandas espectrais, assim denominadas bandas de fator de escala, nas quais a largura de banda do sinal de áudio é particionada.

Os fatores de escala, assim, definem o espectro do sinal de áudio para uma certa parte em termos de envelope em alguma resolução espectral reduzida, se comparada com aquela na qual os coeficientes espectrais quantizados são codificados no fluxo contínuo de dados 14. Pode até mesmo ser que a resolução espectral na qual os fatores de escala são codificados no fluxo contínuo de dados 14 seja ainda mais baixa do que uma resolução espectral na qual o núcleo de decodificação 24 realiza a dequantização dos coeficientes espectrais. Por exemplo, o núcleo de decodificação 24 pode sujeitar os fatores de escala codificados no fluxo contínuo de dados 14 à interpolação espectral para obter fatores de escala interpolados de resolução espectral mais alta como aqueles codificados no fluxo contínuo de dados, e usar os fatores de escala interpolados para dequantização. Qualquer um dos fatores de escala codificados no fluxo contínuo de dados e dos fatores de escala interpolados podem ser usados como o espectro do sinal de áudio cujo centroide espectral é medido pela primeira medição

42. Isso significa que a medição do centroide se torna bastante eficiente do ponto de vista computacional, o que é determinado, já que o número de operações computacionais que serão realizadas para determinar a primeira medição é baixo, se comparado com a realização da medição do centroide em qualquer resolução mais alta, tal como aquela na qual o coeficiente espectral é codificado ou alguma outra resolução no caso da obtenção do espectro para a medição do centroide pela sujeição do sinal de áudio decodificado a uma decomposição espectral extra que aumentaria ainda adicionalmente os esforços. Assim, como um exemplo concreto, a primeira e a segunda medições podem ser computadas como segue, com base em fatores de escala codificados por amostragem descendente SNS (modelagem de ruído espectral): em primeiro lugar, um valor de timbre 𝑇𝑐 pode ser computado como uma base: 0, pitch_present = 0 𝑇𝑐 = { (1) pitch_int, pitch_present = 1 em que pitch_present e pitch_int são parâmetros do fluxo contínuo de bits derivados pelo decodificador a partir do último quadro bom. pitch_present pode ser interpretado como um indicador de tonalidade.

[043] Como a segunda medição, um ganho de previsão de longo prazo 𝑥𝑐𝑜𝑟𝑟 pode ser computado de acordo com: ∑𝑁−1 𝑘=0 𝑥(𝑘) ∙ 𝑥(𝑘 − 𝑇𝑐 ) 𝑥𝑐𝑜𝑟𝑟 = (2) √(∑𝑁−1 𝑁−1 𝑘=0 𝑥(𝑘) ∙ 𝑥(𝑘)) ∙ (∑𝑘=0 𝑥(𝑘 − 𝑇𝑐 ) ∙ 𝑥(𝑘 − 𝑇𝑐 ))

em que 𝑥(𝑘), 𝑘 = 0 … 𝑁 − 1 são as últimas amostras de tempo decodificadas e 𝑁 pode ser um valor de comprimento predeterminado, tal como um valor limitado, como o máximo valor de timbre ou um comprimento de quadro 𝑁𝐹 (por exemplo, 10 ms), por exemplo 2 ∙ pitmin, 𝑇𝑐 < 2 ∙ pitmin 𝑁={ 𝑇𝑐 , 2 ∙ pitmin ≤ 𝑇𝑐 ≤ 𝑁𝐹 (3) 𝑁𝐹 , 𝑇𝑐 > 𝑁𝐹 em que pitmin é o mínimo valor de timbre. Assim, a segunda medição será computada como a autossimilaridade do sinal de tempo de áudio decodificado na parte mais recentemente recebida com o mesmo, mutuamente mudado no timbre.

[044] Como a segunda medição, um centroide espectral 𝑠𝑐 pode ser computado como: 𝑏𝑎𝑛𝑑𝑠(𝑘) 𝑓𝑠 ∑15𝑘=0 𝑔𝑑 (𝑘) ∙ 𝑁𝐹 (4) 𝑠𝑐 = ∙ 15 48000 ∑𝑘=0 𝑔𝑑 (𝑘) ∙ (𝐼𝑓𝑠 (4𝑘 + 4) − 𝐼𝑓𝑠 (4𝑘)) em que 𝑓𝑠 é a taxa de amostragem e 𝐼𝑓𝑠 (4𝑘+4) 𝑏𝑎𝑛𝑑𝑠(𝑘) = ∑ 𝑏 𝑓𝑜𝑟 𝑘 = 0. . 15 (5) 𝑏=𝐼𝑓𝑠 (4𝑘)+1 e 𝐼𝑓𝑠 são índices de banda não uniformes, isto é, índices de banda que definem, para cada banda, a borda de frequência inferior e superior de uma maneira para que as larguras de banda definidas pela diferença entre as bordas inferior e superior associadas difiram umas das outras, tal como o aumento com a frequência crescente, embora a diferença seja opcional. Os índices de banda podem ser definidos na dependência da taxa/frequência de amostragem do sinal de áudio. Adicionalmente, 2𝑠𝑐𝑓𝑄−1(𝑘) 𝑔𝑑 (𝑘) = 𝑔𝑡𝑖𝑙𝑡 𝑝𝑎𝑟𝑎 𝑘 = 0. . 15 (6) 10𝑘∙ 150 em que 𝑠𝑐𝑓𝑄−1 (𝑘) é o vetor de fator de escala armazenado no fluxo contínuo de bits do último quadro bom e 𝑔𝑡𝑖𝑙𝑡 é um fator de inclinação predeterminado que pode ser definido por padrão e, possivelmente, dependendo da frequência de amostra do sinal de áudio. O termo 2𝑠𝑐𝑓𝑄−1(𝑘) é aplicado para voltar os fatores de 1 escala codificados no domínio logarítmico para o domínio linear. O termo 𝑔𝑡𝑖𝑙𝑡 é 𝑘∙ 10 150 aplicado para inverter o filtro de pré-ênfase no lado do codificador, que é chamado de filtro de desênfase.

[045] O vetor do fator de escala é calculado no lado do codificador e transmitido no fluxo contínuo de bits. O mesmo determinado nas energias por banda dos coeficientes de MDCT, em que as bandas são não uniformes e seguem a escala de Bark perceptivamente relevante (menor em baixas frequências, maior em altas frequências). Depois de uniformizar, pré-enfatizar e transformar as energias no domínio logarítmico, as mesmas são, no lado do codificador, descendentemente amostradas de 64 parâmetros para 16 parâmetros para formar o vetor do fator de escala, que, posteriormente, é codificado e transmitido no fluxo contínuo de bits. Assim, 𝑠𝑐 é uma medição para uma posição espectral 48 de um centroide espectral de um espectro 46 do sinal de áudio, aqui determinado com base na versão amostrada espectralmente grosseira do mesmo, a saber, os parâmetros SNS.

[046] A decisão ou a seleção entre os vários métodos PLC pode, então, ser feita com os critérios 𝑥𝑐𝑜𝑟𝑟 e 𝑠𝑐. A repetição de quadros com embaralhamento de sinal pode ser selecionada se 𝑇𝑐 = 0 (o que significa que o indicador de tonalidade pitch_present = 0). Caso contrário, o valor 𝑐𝑙𝑎𝑠𝑠 é calculado como segue: 7640 5112 𝑐𝑙𝑎𝑠𝑠 = 𝑥𝑐𝑜𝑟𝑟 − 𝑠𝑐 − (7) 32768 32768 o método PLC com base em timbre no domínio de tempo pode ser escolhido se 𝑐𝑙𝑎𝑠𝑠 > 0; ocultação tonal do domínio de frequência, caso contrário.

[047] Assim, um decodificador de áudio para decodificar um sinal de áudio 12 a partir de um fluxo contínuo de dados 14, que compreende um conjunto 26 de diferentes ferramentas de ocultação de perda 28 pode ser configurado para determinar 40 uma primeira medição 42 que mede uma posição espectral 48 de um centroide espectral de um espectro 46 do sinal de áudio pela derivação do espectro a partir de fatores de escala em uma parte não perdida mais recente do fluxo contínuo de dados, determinar 50 uma segunda medição 52 que mede uma previsibilidade temporal do sinal de áudio, atribuir 32 uma 62 do conjunto 26 de diferentes ferramentas de ocultação de perda 28 a uma parte 22 do sinal de áudio 12 afetada pela perda com base nas primeira e segunda medições, e recuperar a parte 22 do sinal de áudio usando aquela ferramenta de ocultação de perda 62 atribuída à parte

22. A derivação do espectro pode envolver, da forma descrita, sujeitar os fatores escaladores codificados no fluxo contínuo de dados à interpolação espectral. Adicionalmente ou alternativamente, os mesmos podem ser sujeitos a filtragem de desênfase, isto é, os mesmos podem ser multiplicados pela função de transferência de um filtro de desênfase. Os fatores de escala resultantes podem, então, ser sujeitos à medição do centroide espectral. Todos os outros detalhes supradescritos também podem, então, ser aplicados. Isto é, mencionam-se exemplos que não pretende-se que sejam exclusivos: o conjunto 26 de diferentes ferramentas de ocultação de perda pode compreender uma primeira ferramenta de ocultação de perda para recuperação de sinal de áudio de partes monofônicas, e uma segunda ferramenta de ocultação de perda para recuperação do sinal de áudio de partes polifônicas, e o decodificador de áudio pode ser configurado para, na atribuição de um do conjunto de diferentes ferramentas de ocultação de perda à parte do sinal de áudio com base nas primeira e segunda medições, atribuir a primeira ferramenta de ocultação de perda à parte quanto mais provável for a posição espectral inferior do centroide espectral e mais alta a previsibilidade temporal, e atribuir a segunda ferramenta de ocultação de perda à parte quanto mais provável for a posição espectral superior do centroide espectral e mais baixa for a previsibilidade temporal. Adicionalmente ou alternativamente, o decodificador de áudio pode ser configurado para, na atribuição de um do conjunto de diferentes ferramentas de ocultação de perda a uma parte 22 do sinal de áudio afetada pela perda com base nas primeira e segunda medições, realizar uma somatória nas primeira e segunda medições 42, 52, para obter um valor de soma escalar e sujeitar o valor de soma escalar ao limiar.

[048] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, fica claro que estes aspectos também representam uma descrição do método correspondente, em que um bloco ou um dispositivo correspondem a uma etapa do método ou a uma característica de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou um item ou uma característica correspondentes de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, uma ou mais das etapas do método mais importantes podem ser executadas por um aparelho como este.

[049] Dependendo de certas exigências de implementação, as modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, com sinais de controle eletronicamente legíveis armazenados na mesma, que cooperem (ou são capazes de cooperar) com um sistema de computador programável, de maneira tal que o respectivo método seja realizado. Portanto, a mídia de armazenamento digital pode ser legível por computador.

[050] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados com sinais de controle eletronicamente legíveis, que são capazes de cooperar com um sistema de computador programável, de maneira tal que um dos métodos aqui descritos seja realizado.

[051] No geral, as modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto de programa de computador executar em um computador. O código do programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.

[052] Outras modalidades compreendem o programa de computador para realizar um dos métodos aqui descritos, armazenado em uma portadora legível por máquina.

[053] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador executar em um computador.

[054] Uma outra modalidade dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, gravado na mesma, o programa de computador para realizar um dos métodos aqui descritos. A portadora de dados, a mídia de armazenamento digital ou a mídia gravada são tipicamente tangíveis e/ou não transitórias.

[055] Uma outra modalidade do método inventivo é, portanto, um fluxo contínuo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos aqui descritos. O fluxo contínuo de dados ou a sequência de sinais podem, por exemplo, ser configurados para serem transferidos por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.

[056] Uma outra modalidade compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos aqui descritos.

[057] Uma outra modalidade compreende um computador que tem, instalado no mesmo, o programa de computador para realizar um dos métodos aqui descritos.

[058] Uma modalidade adicional de acordo com a invenção compreende um aparelho ou um sistema configurados para transferir (por exemplo, eletronicamente ou opticamente) um programa de computador para realizar um dos métodos aqui descritos para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou congêneres. O aparelho ou o sistema podem, por exemplo, compreender um servidor de arquivos para transferir o programa de computador para o receptor.

[059] Em algumas modalidades, um dispositivo lógico programável (por exemplo, um arranjo de porta programável de campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas modalidades, um arranjo de porta programável de campo pode cooperar com um microprocessador, a fim de realizar um dos métodos aqui descritos. No geral, os métodos são preferivelmente realizados por qualquer aparelho de hardware.

[060] O aparelho aqui descrito pode ser implementado usando um aparelho de hardware, ou usando um computador, ou usando uma combinação de um aparelho de hardware e um computador.

[061] O aparelho aqui descrito, ou quaisquer componentes do aparelho aqui descrito, podem ser implementados, pelo menos parcialmente, em hardware e/ou em software.

[062] Os métodos aqui descritos podem ser realizados usando um aparelho de hardware, ou usando um computador ou usando uma combinação de um aparelho de hardware e um computador.

[063] Os métodos aqui descritos, ou quaisquer componentes do aparelho aqui descrito, podem ser realizados, pelo menos parcialmente, por hardware e/ou por software.

[064] As modalidades supradescritas são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações dos arranjos e dos detalhes aqui descritos ficarão aparentes para os versados na técnica. Pretende-se, portanto, que seja limitada apenas pelo escopo das iminentes reivindicações de patente e não pelos detalhes específicos apresentados a título de descrição e explanação das modalidades aqui expostas.

[065] [1] 3GPP TS 26.445; Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.

[066] [2] ITU-T G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s.

[067] [3] ITU-T G.711 Appendix I: A high quality low-complexity algorithm for packet loss concealment with G.711.

[068] [4] 3GPP TS 26.447; Codec for Enhanced Voice Services (EVS); Error concealment of lost packets.

[069] [5] Method and device for efficient frame erasure concealment in speech codecs; WO2007073604 (A1) ― 2007-07-05.

[070] [6] Selecting a Packet Loss Concealment Procedure; EP3111624 A1 – 2017-01-04.

Claims

REIVINDICAÇÕES

1. Decodificador de áudio para decodificar um sinal de áudio (12) a partir de um fluxo contínuo de dados (14), caracterizado por o decodificador de áudio compreender um conjunto (26) de diferentes ferramentas de ocultação de perdas (28) e configurado para determinar (40) uma primeira medição (42) que mede uma posição espectral (48) de um centroide espectral de um espectro (46) do sinal de áudio, determinar (50) uma segunda medição (52) que mede uma previsibilidade temporal do sinal de áudio, atribuir (32) uma (62) do conjunto (26) de diferentes ferramentas de ocultação de perda (28) a uma parte (22) do sinal de áudio (12) afetada pela perda com base nas primeira e segunda medições, e recuperar a parte (22) do sinal de áudio usando aquela ferramenta de ocultação de perda (62) atribuída à parte (22).

2. Decodificador de áudio, de acordo com a reivindicação 1, caracterizado por o conjunto (26) de diferentes ferramentas de ocultação de perdas (28) compreender um ou mais de uma primeira ferramenta de ocultação de perda (PLC nº 1) para recuperação de sinal de áudio pela síntese do sinal de áudio usando um sinal periódico (70) de uma periodicidade (68) que depende de um valor de timbre (66) derivado a partir do fluxo de dados, e uma segunda ferramenta de ocultação de perda (PLC nº 2) para recuperação de sinal de áudio pela detecção de componentes espectrais tonais (72) do sinal de áudio, realizando a detecção de fase nos componentes espectrais tonais (72) e a síntese do sinal de áudio pela combinação dos sinais de periodicidades que dependem dos componentes espectrais tonais (72) com o ajuste de uma mudança de fase mútua entre os sinais, dependendo da detecção de fase, e uma terceira ferramenta de ocultação de perda (PLC nº 3) para recuperação do sinal de áudio pelo uso de repetição de quadros, com ou sem modificação de réplica.

3. Decodificador de áudio, de acordo com a reivindicação 1 ou 2, caracterizado por o conjunto (26) de diferentes ferramentas de ocultação de perda compreender uma ferramenta de ocultação de primeira perda (PLC nº 1) para recuperação do sinal de áudio de partes monofônicas e uma segunda ferramenta de ocultação de perda (PLC nº 2) para recuperação do sinal de áudio de partes polifônicas.

4. Decodificador de áudio, de acordo com a reivindicação 1 ou 2, caracterizado por o conjunto (26) de diferentes ferramentas de ocultação de perda compreender uma primeira ferramenta de ocultação de perda (PLC nº 1) para recuperação de sinal de áudio usando ocultação de perda de pacotes no domínio do tempo tonal, e uma segunda ferramenta de ocultação de perda (PLC nº 2) para recuperação de sinal de áudio usando ocultação de perda de pacotes no domínio da frequência tonal.

5. Decodificador de áudio, de acordo com a reivindicação 1 ou 2, caracterizado por o conjunto de diferentes ferramentas de ocultação de perda compreender uma primeira ferramenta de ocultação de perda (PLC nº 1) para recuperação de sinal de áudio pela síntese de sinal de áudio usando um sinal periódico de periodicidade que depende de um valor de timbre derivado a partir do fluxo contínuo de dados, e uma segunda ferramenta de ocultação de perda (PLC nº 2) para recuperação de sinal de áudio pela detecção dos componentes espectrais tonais do sinal de áudio, realizando a detecção de fase nos componentes espectrais tonais e a síntese do sinal de áudio pela combinação dos sinais de periodicidades que dependem dos componentes espectrais tonais com ajuste de uma mudança de fase mútua entre os sinais, dependendo da detecção de fase.

6. Decodificador de áudio, de acordo com a reivindicação 5, caracterizado por o decodificador de áudio ser configurado para derivar o valor de timbre (66) a partir do fluxo contínuo de dados pelo uso de um parâmetro de timbre mais recente conduzido no fluxo contínuo de dados como o valor do timbre.

7. Decodificador de áudio, de acordo com a reivindicação 5 ou 6, caracterizado por o decodificador de áudio ser configurado para realizar a detecção dos componentes espectrais tonais (72) pela identificação dos picos colocalizados em um ou mais espectros consecutivos (46) derivados a partir de uma parte não perdida mais recente do fluxo contínuo de dados.

8. Decodificador de áudio, de acordo com a reivindicação 7, caracterizado por o fluxo contínuo de dados (14) ter a parte não perdida mais recente do fluxo contínuo de dados codificada no mesmo no domínio espectral.

9. Decodificador de áudio, de acordo com qualquer uma das reivindicações 3 a 8, caracterizado por o decodificador de áudio ser configurado para, na atribuição a um do conjunto de diferentes ferramentas de ocultação de perdas à parte do sinal de áudio com base nas primeira e segunda medições, atribuir a primeira ferramenta de ocultação de perdas à parte quanto mais provável for a posição espectral mais baixa do centroide espectral e quanto mais alta for a previsibilidade temporal, e atribuir a segunda ferramenta de ocultação de perda à parte quanto mais provável for a posição espectral mais alta do centroide espectral e mais baixa for a previsibilidade temporal.

10. Decodificador de áudio de qualquer uma das reivindicações anteriores, caracterizado por ser configurado para realizar detecção de perda (36) para detectar as partes (22) afetadas pela perda, realizar a determinação das primeira e segunda medições (42; 52) para a parte (22) responsivo à detecção de perda que detecta a parte (22) afetada pela perda, e abster-se de realizar a determinação para as partes não afetadas pela perda.

11. Decodificador de áudio de qualquer uma das reivindicações 1 a 10, caracterizado por ser adicionalmente configurado para determinar (84) um indicador de tonalidade (86) indicativo de uma tonalidade do sinal de áudio, atribuir uma dos primeiro e segundo subconjuntos (80, 82) de uma ou mais ferramentas de ocultação de perdas dentre o conjunto (26) de diferentes ferramentas de ocultação de perdas, que são mutuamente disjuntas, à parte (22) do sinal de áudio com base no indicador de tonalidade (86), e realizar a atribuição de uma do conjunto de diferentes ferramentas de ocultação de perdas à parte do sinal de áudio com base nas primeira e segunda medições pela atribuição (60) daquela do conjunto de diferentes ferramentas de ocultação de perdas à parte do sinal de áudio com base nas primeira e segunda medições dente o primeiro subconjunto (80) de uma ou mais ferramentas de ocultação de perdas se o primeiro subconjunto (80) for atribuído à parte (22) com a realização da recuperação da parte (22) do sinal de áudio usando aquela ferramenta de ocultação de perda (62) atribuída à parte (22), e realizar a recuperação da parte (22) do sinal de áudio usando uma dentre o segundo subconjunto (82) das ferramentas de ocultação de perda se o segundo subconjunto (82) das ferramentas de ocultação de perdas for atribuído à parte.

12. Decodificador de áudio, de acordo com a reivindicação 11, caracterizado por o decodificador de áudio ser configurado para usar um parâmetro conduzido no fluxo contínuo de dados como a terceira medição.

13. Decodificador de áudio, de acordo com a reivindicação 11 ou 12, caracterizado por o decodificador de áudio ser configurado para usar uma presença ou não presença de um parâmetro de timbre (66) em um quadro não perdido mais recente do fluxo contínuo de dados como a terceira medição (86).

14. Decodificador de áudio, de acordo com qualquer uma das reivindicações 11 a 13, caracterizado por o conjunto (26) de diferentes ferramentas de ocultação de perda compreender uma primeira ferramenta de ocultação de perda (PLC nº 1) para recuperação de sinal de áudio pela síntese do sinal de áudio usando um sinal periódico de uma periodicidade que depende de um valor de timbre derivado a partir do fluxo contínuo de dados, e uma segunda ferramenta de ocultação de perda (PLC nº 2) para recuperação do sinal de áudio pela detecção dos componentes espectrais tonais do sinal de áudio, realizando a detecção de fase nos componentes espectrais tonais e a síntese dos sinais de áudio pela combinação dos sinais de periodicidades que dependem dos componentes espectrais tonais com ajuste de uma mudança de fase mútua entre os sinais, dependendo da detecção de fase, e uma terceira ferramenta de ocultação de perda (PLC nº 3) para recuperação do sinal de áudio pelo uso da repetição de quadros, com ou sem modificação de réplica, em que a terceira ferramenta de ocultação de perda é incluída no segundo subconjunto (82) e a segunda e a primeira e segunda ferramentas de ocultação de perda são incluídas no primeiro subconjunto (80).

15. Decodificador de áudio de qualquer uma das reivindicações anteriores, caracterizado por ser configurado para determinar (40) a primeira medição (42) por uma soma ponderada dos valores de localização do componente espectral, cada um dos quais ponderado usando o espectro do sinal de áudio no respectivo valor de localização do componente espectral.

16. Decodificador de áudio de qualquer uma das reivindicações anteriores, caracterizado por ser configurado para determinar (50) a segunda medição (52) por uma medida de correlação que mede uma autossimilaridade do sinal de áudio.

17. Decodificador de áudio de qualquer uma das reivindicações anteriores,

caracterizado por ser configurado para determinar (50) a segunda medição (52) pela derivação de um timbre a partir do sinal de áudio e pela determinação da segunda medição como uma medição de correlação que mede uma autocorrelação do sinal de áudio em uma(s) mudança(s) temporal(is) que depende do timbre.

18. Decodificador de áudio de qualquer uma das reivindicações anteriores, caracterizado por ser configurado para, na atribuição de uma do conjunto de diferentes ferramentas de ocultação de perda a uma parte (22) do sinal de áudio afetada pela perda com base nas primeira e segunda medições, realizar uma somatória nas primeira e segunda medições (42, 52) para obter um valor da soma escalar e sujeitar o valor da soma escalar ao limiar.

19. Decodificador de áudio de qualquer uma das reivindicações anteriores, caracterizado por ser configurado para determinar (40) a primeira medição (42) pela derivação do espectro a partir dos fatores de escala em uma parte não perdida mais recente do fluxo de dados.

20. Decodificador de áudio de qualquer uma das reivindicações anteriores, caracterizado por ser configurado para determinar (40) a primeira medição (42) pela derivação do espectro a partir dos fatores de escala em uma parte não perdida mais recente do fluxo contínuo de dados e pela sujeição dos fatores de escala codificados no fluxo contínuo de dados à interpolação espectral.

21. Decodificador de áudio, de acordo com a reivindicação 19 ou 20, caracterizado por ser configurado para sujeitar os fatores de escala a uma filtragem de desênfase pela multiplicação com a função de transferência de um filtro de desênfase.

22. Método para realizar ocultação de perda na decodificação de áudio de um sinal de áudio (12) proveniente de um fluxo contínuo de dados (14), caracterizado por o método ser configurado para determinar (40) uma primeira medição (42) que mede uma posição espectral (48) de um centroide espectral de um espectro (46) do sinal de áudio, determinar (50) uma segunda medição (52) que mede uma previsibilidade temporal do sinal de áudio, atribuir (32) uma (62) de um conjunto (26) de diferentes ferramentas de ocultação de perda (28) a uma parte (22) do sinal de áudio (12) afetada pela perda com base nas primeira e segunda medições, e recuperar a parte (22) do sinal de áudio usando aquela ferramenta de ocultação de perda (62) atribuída à parte (22).

23. Programa de computador, caracterizado por ter um código de programa para executar, durante a execução em um processador, um método da reivindicação 22.