BR112018067944A2 - ?unidade e método de ocultação de erro, codificador e decodificador de áudio, representação de áudio codificada e seu método, sistema? - Google Patents

?unidade e método de ocultação de erro, codificador e decodificador de áudio, representação de áudio codificada e seu método, sistema? Download PDF

Info

Publication number
BR112018067944A2
BR112018067944A2 BR112018067944A BR112018067944A BR112018067944A2 BR 112018067944 A2 BR112018067944 A2 BR 112018067944A2 BR 112018067944 A BR112018067944 A BR 112018067944A BR 112018067944 A BR112018067944 A BR 112018067944A BR 112018067944 A2 BR112018067944 A2 BR 112018067944A2
Authority
BR
Brazil
Prior art keywords
audio
error
hiding
error concealment
frequency
Prior art date
Application number
BR112018067944A
Other languages
English (en)
Other versions
BR112018067944B1 (pt
Inventor
Tomasek Adrian
Lecomte Jérémie
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of BR112018067944A2 publication Critical patent/BR112018067944A2/pt
Publication of BR112018067944B1 publication Critical patent/BR112018067944B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations

Abstract

modalidades da invenção se referem a uma unidade de ocultação de erro (800, 800b) para fornecer uma informação de áudio de ocultação de erro (802) para ocultar uma perda de um quadro de áudio em uma informação de áudio codificada. a unidade de ocultação de erro fornece um primeiro componente de informações de áudio de ocultação de erro (807?) para uma primeira faixa de frequência com o uso de uma ocultação no domínio de frequência (805). a unidade de ocultação de erro também fornece um segundo componente de informações de áudio de ocultação de erro (811?) para uma segunda faixa de frequência, que compreende frequências inferiores a primeira faixa de frequência, com o uso de uma ocultação no domínio de tempo (809). a unidade de ocultação de erro também combina (812) o primeiro componente de informações de áudio de ocultação de erro (807?) e o segundo componente de informações de áudio de ocultação de erro (811?), para obter as informações de áudio de ocultação de erro. outras modalidades da invenção se referem a um decodificador que compreende a unidade de ocultação de erro, bem como codificadores, métodos e programas de computador relacionados para decodificação e/ou ocultação.

Description

Relatório Descritivo da Patente de Invenção para “UNIDADE E MÉTODO DE OCULTAÇÃO DE ERRO, CODIFICADOR E DECODIFICADOR DE ÁUDIO, REPRESENTAÇÃO DE ÁUDIO CODIFICADA E SEU MÉTODO, SISTEMA”
1. CAMPO DA TÉCNICA [001] Modalidades de acordo com a invenção criam unidades de ocultação de erro para fornecer uma informação de áudio de ocultação de erro para ocultar uma perda de um quadro de áudio em uma informação de áudio codificada com base em um componente de ocultação no domínio de tempo e um componente de ocultação no domínio de frequência.
[002] Modalidades de acordo com a invenção criam áudio decodificadores para fornecer uma informação de áudio decodificada com base em uma informação de áudio codificada, sendo que os decodificadores compreendem as ditas unidades de ocultação de erro.
[003] Modalidades de acordo com a invenção criam codificadores de áudio para fornecer uma informação de áudio codificada e informações adicionais para serem usadas para funções de ocultação, caso necessário.
[004] Algumas modalidades de acordo com a invenção criam métodos para fornecer uma informação de áudio de ocultação de erro para ocultar uma perda de um quadro de áudio em uma informação de áudio codificada com base em um componente de ocultação no domínio de tempo e um componente de ocultação no domínio de frequência.
[005] Algumas modalidades de acordo com a invenção criam programas de computador para realizar um dos ditos métodos.
2. ANTECEDENTES DA INVENÇÃO [006] Nos últimos anos há uma demanda crescente por uma transmissão digital e armazenamento de conteúdos de áudio. No entanto, conteúdos de áudio são frequentemente transmitidos por canais não confiáveis, o que traz junto o risco de que unidades de dados (por exemplo, pacotes) que compreendem um ou mais quadros de áudio (por exemplo, na forma de uma representação codificada, como, por exemplo, uma representação de domínio de frequência codificada ou uma representação de domínio de tempo codificada) sejam perdidas. Em algumas situações, seria possível solicitar uma repetição (reenvio) de quadros de áudio perdidos (ou de unidades de dados, como pacotes, que compreendem um ou mais
Petição 870180127015, de 05/09/2018, pág. 9/244
2/74 quadros de áudio perdidos). No entanto, isso tipicamente traria um atraso substancial, e, portanto, exigiría um armazenamento temporário extensivo de quadros de áudio. Em outros casos, dificilmente é possível solicitar uma repetição de quadros de áudio perdidos.
[007] A fim de obter uma qualidade de áudio boa, ou pelo menos aceitável, dado o caso em que quadros de áudio são perdidos sem fornecer armazenamento temporário extensivo (o que consumiría uma grande quantidade de memória e que também degradaria substancialmente capacidades de tempo real da codificação de áudio) é desejável para ter conceitos para lidar com uma perda de um ou mais quadros de áudio. Em particular, é desejável ter conceitos que tragam junto uma boa qualidade de áudio, ou pelo menos uma qualidade de áudio aceitável, ainda no caso em que quadros de áudio são perdidos.
[008] Particularmente, um perda de quadro implica que um quadro não foi decodificado apropriadamente (em particular, não decodificado em tempo para ser emitido). Uma perda de quadro pode ocorrer quando um quadro é completamente não detectado, ou quando um quadro chega tarde demais, ou em um caso em que um erro de bit é detectado (por esse motivo, o quadro é perdido no sentido em que o mesmo não é utilizável, e deve ser oculto). Para essas falhas (as quais pode ser tidas como sendo parte da classe de “perdas de quadro”), o resultado é que não é possível decodificar o quadro e é necessário realizar uma operação de ocultação de erro.
[009] No passado, alguns conceitos de ocultação de erro foram desenvolvidos, os quais podem ser empregados em conceitos de codificação de áudio diferentes.
[010] Uma técnica de ocultação convencional em codec de áudio avançada (AAC) é substituição de ruído [1]. A mesma opera no domínio de frequência e é adequada para itens de ruído e música.
[011] Não obstante, foi constatado que, para segmentos de fala, substituição de ruído de domínio de frequência frequentemente produz descontinuidades de fase que terminam em distorções de “estalido” incômodas no domínio de tempo.
[012] Portanto, uma abordagem de domínio de tempo similar a ACELP pode ser usada para segmentos de fala (por exemplo, TD-TCX PLC em [2] ou [3]), determinados por um classificador.
Petição 870180127015, de 05/09/2018, pág. 10/244
3/74 [013] Um problema com ocultação no domínio de tempo é a harmonicidade artificial gerada na faixa de frequência completa. Uma distorção de “bipe” incômoda pode ser produzida.
[014] Outra desvantagem de ocultação no domínio de tempo é a alta complexidade computacional para comparação a decodificação sem erro ou ocultação com substituição de ruído.
[015] Um solução é necessária para superar as deficiências da técnica anterior.
3. SUMÁRIO DA INVENÇÃO [016] De acordo com a invenção, é fornecida uma unidade de ocultação de erro para fornecer uma informação de áudio de ocultação de erro para ocultar uma perda de um quadro de áudio em uma informação de áudio codificada. A unidade de ocultação de erro é configurada para fornecer um primeiro componente de informações de áudio de ocultação de erro para uma primeira faixa de frequência com o uso de uma ocultação no domínio de frequência. A unidade de ocultação de erro é configurada adicionalmente para fornecer um segundo componente de informações de áudio de ocultação de erro para uma segunda faixa de frequência, a qual compreende frequências inferiores a primeira faixa de frequência, com o uso de uma ocultação no domínio de tempo. A unidade de ocultação de erro é configurada adicionalmente para combinar o primeiro componente de informações de áudio de ocultação de erro e o segundo componente de informações de áudio de ocultação de erro, para obter as informações de áudio de ocultação de erro (em que informações adicionais em relação à ocultação de erro também podem, opcionalmente, ser fornecidas).
[017] Com o uso de uma ocultação no domínio de frequência para frequências altas (principalmente ruído) e ocultação no domínio de tempo para frequências baixas (principalmente fala), a harmonicidade forte gerada artificial para ruído (que estaria implícita no uso da ocultação no domínio de tempo ao invés da faixa de frequência completa) é evitada, e as distorções de estalido mencionadas acima (que estariam implícitas no uso da ocultação no domínio de frequência ao invés da faixa de frequência completa) e distorções de bipe (que estariam implícitas no uso da ocultação no domínio de tempo ao invés da faixa de frequência completa) também podem ser evitadas ou reduzidas.
Petição 870180127015, de 05/09/2018, pág. 11/244 [018] Ademais, a complexidade computacional (que está implícita quando a ocultação no domínio de tempo é usada ao invés da faixa de frequência completa) também é reduzida.
[019] Em particular, o problema da harmonicidade artificial gerada na faixa de frequência completa é solucionado. Caso o sinal tenha apenas harmônicos fortes em frequências inferiores (para itens de fala esse é usualmente até em torno de 4 kHz), em que ruído de fundo está nas frequências superiores, os harmônicos gerados até frequência de Nyquist produziríam distorções de bipe incômodas. Com a presente invenção, esse problema é extremamente reduzido ou, na maior parte dos casos, é solucionado.
[020] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada de modo que o primeiro componente de informações de áudio de ocultação de erro represente uma porção de alta frequência de um dado quadro de áudio perdido, e de modo que o segundo componente de informações de áudio de ocultação de erro represente uma porção de baixa frequência do dado quadro de áudio perdido, de modo que informações de áudio de ocultação de erro associadas com o dado quadro de áudio perdido são obtidas com o uso tanto da ocultação no domínio de frequência quanto da ocultação no domínio de tempo.
[021] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para derivar o primeiro componente de informações de áudio de ocultação de erro com o uso de uma representação de domínio de transformada de uma porção de alta frequência de um quadro de áudio decodificado apropriadamente que precede um quadro de áudio perdido, e/ou a unidade de ocultação de erro é configurada para derivar o segundo componente de informações de áudio de ocultação de erro com o uso de uma síntese de sinal de domínio de tempo com base em uma porção de baixa frequência do quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido.
[022] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para usar uma cópia em escala ou sem escala da representação de domínio de transformada da porção de alta frequência do quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido, para obter uma representação de domínio de transformada da porção de alta frequência do quadro de áudio perdido, e para converter a representação de domínio de
Petição 870180127015, de 05/09/2018, pág. 12/244
5/74 transformada da porção de alta frequência do quadro de áudio perdido no domínio de tempo, para obter um componente de sinal de domínio de tempo que é o primeiro componente de informações de áudio de ocultação de erro.
[023] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para obter um ou mais parâmetros de estímulo de síntese e um ou mais parâmetros de filtro de síntese com base na porção de baixa frequência do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, e para obter o segundo componente de informações de áudio de ocultação de erro com o uso de uma síntese de sinal, parâmetros de estímulo e parâmetros de filtro dos quais sínteses de sinal são derivadas com base nos parâmetros de estímulo de síntese obtidos e nos parâmetros de filtro de síntese obtidos ou igual aos parâmetros de estímulo de síntese obtidos e aos parâmetros de filtro de síntese obtidos.
[024] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para realizar um controle para determinar e/ou variar adaptativamente o sinal da primeira e/ou da segunda faixas de frequência.
[025] Consequentemente, um usuário ou uma aplicação de controle pode selecionar as faixas de frequência preferidas. Além disso, é possível modificar a ocultação de acordo com os sinais decodificados.
[026] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para realizar o controle com base em características escolhidas entre características de um ou mais quadros de áudio codificados e características de um ou mais quadros de áudio decodificados apropriadamente.
[027] Consequentemente, é possível adaptar as faixas de frequência ás características do sinal.
[028] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para obter uma informação sobre uma harmonicidade de um ou mais quadros de áudio decodificados apropriadamente e realizar o controle com base nas informações da harmonicidade. Além disso ou como alternativa, a unidade de ocultação de erro é configurada para obter uma informação sobre uma inclinação espectral de um ou mais quadros de áudio decodificados apropriadamente e para realizar o controle com base nas informações sobre a inclinação espectral.
[029] Consequentemente, é possível realizar operações especiais. Por
Petição 870180127015, de 05/09/2018, pág. 13/244
6/74 exemplo, onde a inclinação de energia dos harmônicos é constante pelas frequências, pode ser preferencial realizar uma ocultação de frequência completa no domínio de tempo (nenhuma ocultação no domínio de frequência em absoluto). Uma ocultação no domínio de frequência espectro completo (absolutamente nenhuma ocultação no domínio de tempo) pode ser preferencial onde o sinal não contém nenhuma harmonicidade.
[030] De acordo com um aspecto da invenção, é possível tornar a harmonicidade comparativamente menor na primeira faixa de frequência (principalmente ruído) quando comparada à harmonicidade na segunda faixa de frequência (principalmente fala).
[031] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para determinar até qual frequência o quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, compreende uma harmonicidade que é mais forte do que um limiar de harmonicidade, e para escolher a primeira faixa de frequência e a segunda faixa de frequência na dependência da mesma.
[032] Com o uso da comparação com o limiar, é possível, por exemplo, distinguir ruído de fala e determinar as frequências a serem ocultas com o uso de ocultação no domínio de tempo e as frequências a serem ocultas com o uso de ocultação no domínio de frequência.
[033] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para determinar ou estimar uma borda de frequência em que uma inclinação espectral do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, muda de uma inclinação espectral menor para uma inclinação espectral maior, e para escolher a primeira faixa de frequência e a segunda faixa de frequência na dependência da mesma.
[034] É possível pretender que com uma pequena inclinação espectral uma resposta de frequência bastante (ou pelo menos predominantemente) plana ocorra, enquanto que com uma grande inclinação espectral o sinal tem muito mais energia na banda baixa do que na banda alta ou o contrário.
[035] Em outras palavras, uma pequena (ou menor) inclinação espectral pode significar que a resposta de frequência é “bastante” plana, enquanto que com uma grande (ou maior) inclinação espectral o sinal tem (muito) mais energia
Petição 870180127015, de 05/09/2018, pág. 14/244
7/74 (por exemplo, por compartimento espectral ou por intervalo de frequência) na banda baixa do que na banda alta, ou o contrário.
[036] Também é possível realizar um estimativa de inclinação espectral básica (não complexa) para obter uma tendência da energia da banda de frequência que pode ser uma primeira função de ordem (por exemplo, que pode ser representada por uma linha). Nesse caso, é possível detectar uma região em que energia (por exemplo, energia de banda média) é inferior a um certo limiar (predeterminado).
[037] No caso a banda baixa tenha quase nenhuma energia mas a banda alta tenha, então, é possível usar FD (por exemplo, ocultação de domínio de frequência) apenas em algumas modalidades.
[038] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para ajustar a primeira (em geral, superior) faixa de frequência e a segunda (em geral, inferior) faixa de frequência, de modo que a primeira faixa de frequência cubra uma região espectral que compreende uma estrutura espectral semelhante a ruído, e de modo que a segunda faixa de frequência cubra uma região espectral que compreende uma estrutura espectral harmônica.
[039] Consequentemente, é possível usar técnicas de ocultação diferentes para fala e ruído.
[040] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para realizar um controle de modo a adaptar uma extremidade de frequência inferior da primeira faixa de frequência e/ou uma extremidade de frequência superior da segunda faixa de frequência na dependência de uma relação de energia entre harmônicos e ruído.
[041] Analisando-se a relação de energia entre harmônicos e ruído, é possível determinar, com um bom grau de certeza, as frequências a serem processadas com o uso de ocultação no domínio de tempo e as frequências a serem processadas com o uso de ocultação no domínio de frequência.
[042] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para realizar um controle de modo a inibir seletivamente pelo menos uma dentre a ocultação no domínio de tempo e a ocultação no domínio de frequência e/ou realizar a ocultação no domínio de tempo apenas ou a ocultação no domínio de frequência apenas para obter as informações de áudio de ocultação de erro.
Petição 870180127015, de 05/09/2018, pág. 15/244
8/74 [043] Essa propriedade permite realizar operações especiais. Por exemplo, é possível inibir seletivamente a ocultação no domínio de frequência quando a inclinação de energia dos harmônicos for constante pelas frequências. A ocultação no domínio de tempo pode ser inibida quando o sinal não contém nenhuma harmonicidade (principalmente ruído).
[044] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para determinar ou estimar se uma variação de uma inclinação espectral do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que um limiar de inclinação espectral predeterminado por uma dada faixa de frequência, e para obter as informações de áudio de ocultação de erro com o uso da ocultação de tempo-domínio apenas se for constatado que a variação de uma inclinação espectral do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que o limiar de inclinação espectral predeterminado.
[045] Consequentemente, é possível ter uma técnica fácil para determinar se operar apenas com ocultação no domínio de tempo observando-se a evolução da inclinação espectral.
[046] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para determinar ou estimar se uma harmonicidade do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que um limiar de harmonicidade predeterminado, e para obter as informações de áudio de ocultação de erro com o uso da ocultação no domínio de frequência apenas se for constatado que a harmonicidade do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que o limiar de harmonicidade predeterminado.
[047] Consequentemente, é possível fornecer uma solução para determinar se operar com ocultação no domínio de frequência apenas observando-se a evolução da harmonicidade.
[048] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para adaptar um tom de um quadro oculto com base em um tom de um quadro de áudio decodificado apropriadamente, que precede um quadro de áudio perdido, e/ou na dependência de uma evolução temporal do tom no quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido, e/ou na
Petição 870180127015, de 05/09/2018, pág. 16/244
9/74 dependência de uma interpelação do tom entre o quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, e um quadro de áudio decodificado apropriadamente, que segue o quadro de áudio perdido.
[049] Caso o tom seja conhecido para cada quadro, é possível variar o tom dentro do quadro oculto com base no valor de tom passado.
[050] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para realizar o controle com base em informações transmitidas por um codificador.
[051] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada adicionalmente para combinar o primeiro componente de informações de áudio de ocultação de erro e o segundo componente de informações de áudio de ocultação de erro com o uso de um mecanismo de sobreposição e adição, OLA.
[052] Consequentemente, é possível realizar facilmente a combinação entre os dois componentes das informações de áudio de ocultação de erro entre o primeiro componente e o segundo componente.
[053] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para realizar uma transformada de cosseno distinta modificada inversa (IMDCT) com base em uma representação de domínio espectral obtida pelo ocultação de erro de domínio de frequência, a fim de obter uma representação de domínio de tempo do primeiro componente de informações de áudio de ocultação de erro.
[054] Consequentemente, é possível fornecer uma interface útil entre a ocultação no domínio de frequência e a ocultação no domínio de tempo.
[055] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para fornecer o segundo componente de informações de áudio de ocultação de erro de modo que o segundo componente de informações de áudio de ocultação de erro compreenda uma duração temporal que seja pelo menos 25 por cento mais longa do que o quadro de áudio perdido, para permitir uma sobreposição e adição. De acordo com um aspecto da invenção, a unidade de ocultação de erro pode ser configurada para realizar um IMDCT duas vezes para obter dois quadros consecutivos no domínio de tempo.
[056] Para combinar as partes ou trajetórias de frequência inferior e alta,
Petição 870180127015, de 05/09/2018, pág. 17/244
10/74 o mecanismo de OLA é realizado no domínio de tempo. Para codec similar a AAC, isso significa que mais do que um quadro (tipicamente um quadro e meio) tem que ser atualizado para um quadro oculto. Isso se deve ao fato de que o método de análise e síntese da OLA tem um atraso de meio quadro. Quando uma transformada de cosseno distinta modificada inversa (IMDCT) é usada, a IMDCT produz apenas um quadro: portanto, meio quadro adicional é necessário. Assim, a IMDCT pode ser chamada duas vezes para obter dois quadros consecutivos no domínio de tempo.
[057] Particularmente, se o comprimento do quadro consiste em um número predeterminado de amostras (por exemplo, 1.024 amostras) para AAC, no codificador a transformada MDCT consiste em primeiro aplicar uma janela que é duas vezes o comprimento do quadro. No decodificador após um MDCT e antes de uma operação de sobreposição e adição, o número de amostras também é duplo (por exemplo, 2.048). Essas amostras contêm serrilhado. Nesse caso, é após a sobreposição e adição com um quadro anterior que serrilhado é cancelado para a parte esquerda (1.024 amostras). O último corresponde ao quadro que seria descartado pelo decodificador.
[058] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para realizar uma filtragem passa-alta do primeiro componente de informações de áudio de ocultação de erro, a jusante da ocultação no domínio de frequência.
[059] Consequentemente, é possível obter, com um bom grau de confiabilidade, o componente de alta frequência da informações de ocultação.
[060] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para realizar uma filtragem passa-alta com uma frequência de corte entre 6 KHz e 10 KHz, preferencialmente, 7 KHz e 9 KHz, mais preferencialmente, entre 7,5 KHz e 8,5 KHz, ainda mais preferencialmente, entre 7,9 KHz e 8,1 KHz e, ainda mais preferencialmente, 8 KHz.
[061] Essa frequência se provou particularmente adaptada para distinguir ruído de fala.
[062] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para ajustar adaptativamente o sinal a um limite inferior de frequência da filtragem passa-alta, para, desse modo, variar uma largura de banda da primeira faixa de frequência.
Petição 870180127015, de 05/09/2018, pág. 18/244
11/74 [063] Consequentemente, é possível cortar (em qualquer situação) as frequências de ruído das frequências de fala. Uma vez que obter tais filtros (HP e LP) que cortam com precisão é usualmente muito complexo, então, na prática a frequência de corte é bem definida (mesmo caso a atenuação também possa não ser perfeita para as frequências acima ou abaixo).
[064] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para reduzir a resolução de uma representação de tempodomínio de um quadro de áudio que precede o quadro de áudio perdido, a fim de obter uma representação de tempo-domínio de resolução reduzida do quadro de áudio que precede o quadro de áudio perdido, em que a representação de tempo-domínio de resolução reduzida representa apenas uma porção de baixa frequência do quadro de áudio que precede o quadro de áudio perdido, e para realizar a ocultação no domínio de tempo com o uso da representação de tempo-domínio de resolução reduzida do quadro de áudio que precede o quadro de áudio perdido, e para aumentar a resolução de uma informação de áudio oculta fornecida pela ocultação no domínio de tempo, ou uma versão pós-processada da mesma, a fim de obter o segundo componente de informações de áudio de ocultação de erro, de modo que a ocultação no domínio de tempo seja realizada com o uso de uma frequência de amostragem que é menor do que uma frequência de amostragem exigida para representar totalmente o quadro de áudio que precede o quadro de áudio perdido. O segundo componente de informações de áudio de ocultação de erro de resolução aumentada pode então ser combinado com o primeiro componente de informações de áudio de ocultação de erro.
[065] Operando-se em um ambiente com resolução reduzida, a ocultação no domínio de tempo tem uma complexidade computacional reduzida.
[066] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para ajustar adaptativamente o sinal a uma taxa de amostragem da representação de tempo-domínio de resolução reduzida, para, desse modo, variar uma largura de banda da segunda faixa de frequência.
[067] Consequentemente, é possível variar a taxa de amostragem da representação de tempo-domínio de resolução reduzida para a frequência apropriada, em particular, quando condições do sinal variam (por exemplo, quando um sinal particular exige aumentar a taxa de amostragem). Consequentemente, é possível obter a taxa de amostragem preferencial, por exemplo, com o propósito de separar
Petição 870180127015, de 05/09/2018, pág. 19/244
12/74 ruído de fala.
[068] De acordo com um aspecto da invenção, a unidade de ocultação de erro é configurada para realizar um esmaecimento com o uso de um fator de amortecimento.
[069] Consequentemente, é possível elegantemente degradar os quadros ocultos subsequentes para reduzir sua intensidade.
[070] Usualmente, se faz esmaecimento quando há mais do que uma perda de quadro. A maior parte do tempo já se aplica algum tipo de esmaecimento na primeira perda de quadro, mas a parte mais importante é esmaecer agradavelmente para silêncio ou ruído de fundo caso se tenha rajada de erro (múltiplas perdas de quadro em sequência).
[071] De acordo com um aspecto adicional da invenção, a unidade de ocultação de erro é configurada para colocar em escala uma representação espectral do quadro de áudio que precede o quadro de áudio perdido com o uso do fator de amortecimento, a fim de derivar o primeiro componente de informações de áudio de ocultação de erro.
[072] Foi observado que essa estratégia permite alcançar uma degradação elegante particularmente adaptada à invenção.
[073] De acordo com um aspecto da invenção, a ocultação de erro é configurada para aplicar filtro passa-baixa a um sinal de saída da ocultação no domínio de tempo, ou uma versão de resolução aumentada do mesmo, a fim de obter o segundo componente de informações de áudio de ocultação de erro.
[074] Dessa forma, é possível alcançar uma forma fácil, mas confiável para conseguir que o segundo componente de informações de áudio de ocultação de erro esteja em uma faixa de baixa frequência.
[075] A invenção também é dirigida a um decodificador de áudio para fornecer uma informação de áudio decodificada com base em informações de áudio codificadas, sendo que o decodificador de áudio compreende uma unidade de ocultação de erro de acordo com qualquer dos aspectos indicados acima.
[076] De acordo com um aspecto da invenção, o decodificador de áudio é configurado para obter uma representação de domínio espectral de um quadro de áudio com base em uma representação codificada da representação de domínio espectral do quadro de áudio, e em que o decodificador de áudio é configurado para
Petição 870180127015, de 05/09/2018, pág. 20/244
13/74 realizar uma conversão de domínio espectral para domínio de tempo, a fim de obter uma representação de tempo decodificada do quadro de áudio. A ocultação de erro é configurada para realizar a ocultação no domínio de frequência com o uso de uma representação de domínio espectral de um quadro de áudio decodificado apropriadamente que precede um quadro de áudio perdido, ou uma porção do mesmo. A ocultação de erro é configurada para realizar a ocultação no domínio de tempo com o uso de uma representação de domínio de tempo decodificada de um quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido.
[077] A invenção também se refere a um método de ocultação de erro para fornecer uma informação de áudio de ocultação de erro para ocultar uma perda de um quadro de áudio em uma informação de áudio codificada, sendo que o método compreende:
[078] - fornecer um primeiro componente de informações de áudio de ocultação de erro para uma primeira faixa de frequência com o uso de uma ocultação no domínio de frequência, [079] - fornecer um segundo componente de informações de áudio de ocultação de erro para uma segunda faixa de frequência, a qual compreende frequências inferiores à primeira faixa de frequência, com o uso de uma ocultação no domínio de tempo, e [080] - combinar o primeiro componente de informações de áudio de ocultação de erro e o segundo componente de informações de áudio de ocultação de erro, para obter as informações de áudio de ocultação de erro.
[081] O método inventivo também pode compreender controlar adaptativamente o sinal da primeira e da segunda faixas de frequência. O método também pode compreender comutar adaptativamente para um modo no qual apenas uma ocultação no domínio de tempo ou apenas uma ocultação no domínio de frequência é usada para obter uma informação de áudio de ocultação de erro para pelo menos um quadro de áudio perdido.
[082] A invenção também se refere a um programa de computador para realizar o método inventivo quando o programa de computador é executado em um computador e/ou para controlar a unidade de ocultação de erro inventiva e/ou o decodificador inventivo.
Petição 870180127015, de 05/09/2018, pág. 21/244
14/74 [083] A invenção também se refere a um codificador de áudio para fornecer uma representação de áudio codificada com base em uma informação de áudio de entrada. O codificador de áudio compreende: um codificador de domínio de frequência configurado para fornecer uma representação de domínio de frequência codificada com base nas informações de áudio de entrada, e/ou um codificador de domínio de predição linear configurado para fornecer uma representação de domínio de predição linear codificada com base nas informações de áudio de entrada; e um determinador de frequência cruzada configurado para determinar uma informação de frequência de transição que define uma frequência de transição entre uma ocultação de erro de domínio de tempo e uma ocultação de erro de domínio de frequência a ser usada no lado de um decodificador de áudio. O codificador de áudio é configurado para incluir a representação de domínio de frequência codificada e/ou a representação de domínio de predição linear codificada e também as informações de frequência de transição na representação de áudio codificada.
[084] Consequentemente, não é necessário reconhecer a primeira e a segunda faixas de frequência no lado de decodificador. Essas informações podem ser facilmente fornecidas pelo codificador.
[085] No entanto, o codificador de áudio pode, por exemplo, recorrer aos mesmos conceitos para determinar a frequência de transição que o decodificador de áudio (em que o sinal de áudio de entrada pode ser usado em lugar das informações de áudio decodificadas).
[086] A invenção também se refere a um método para fornecer uma representação de áudio codificada com base em uma informação de áudio de entrada. O método compreende:
[087] uma etapa de codificação de domínio de frequência para fornecer uma representação de domínio de frequência codificada com base nas informações de áudio de entrada, e/ou uma etapa de codificação de domínio de predição linear para fornecer uma representação de domínio de predição linear codificada com base nas informações de áudio de entrada; e [088] - uma etapa de determinação de frequência de transição para determinar uma informação de frequência de transição que define uma frequência de transição entre uma ocultação de erro de domínio de tempo e uma ocultação de erro de domínio de frequência a ser usada no lado de um decodificador de áudio.
Petição 870180127015, de 05/09/2018, pág. 22/244
15/74 [089] A etapa de codificação é configurada para incluir a representação de domínio de frequência codificada e/ou a representação de domínio de predição linear codificada e também as informações de frequência de transição na representação de áudio codificada.
[090] A invenção também se refere a uma representação de áudio codificada que compreende: uma representação de domínio de frequência codificada que representa um conteúdo de áudio, e/ou uma representação de domínio de predição linear codificada que representa um conteúdo de áudio; e uma informação de frequência de transição que define uma frequência de transição entre uma ocultação de erro de domínio de tempo e uma ocultação de erro de domínio de frequência a ser usada no lado de um decodificador de áudio.
[091] Consequentemente, é possível simplesmente transmitir dados de áudio que incluem (por exemplo, em seu fluxo de bits) informações relacionadas à primeira e à segunda faixas de frequência ou ao limite entre a primeira e a segunda faixas de frequência. O decodificador que recebe a representação de áudio codificada pode, portanto, simplesmente adaptar as faixas de frequência à ocultação de FD e à ocultação de TD para instruções fornecidas pelo codificador.
[092] A invenção também se refere a um sistema que compreende um codificador de áudio como mencionado acima e um decodificador de áudio como mencionado acima. Um controle pode ser configurado para determinar a primeira e a segunda faixas de frequência com base nas informações de frequência de transição fornecidas pelo codificador de áudio.
[093] Consequentemente, o decodificador pode modificar adaptativamente as faixas de frequência das ocultações de TD e FD para comandos fornecidos pelo codificador.
4. BREVE DESCRIÇÃO DAS FIGURAS [094] Modalidades da presente invenção serão descritas tendo como referência as Figuras anexas, em que:
A Figura 1 mostra um diagrama de blocos esquemático de uma unidade de ocultação, de acordo com a invenção;
A Figura 2 mostra um diagrama de blocos esquemático de um decodificador de áudio, de acordo com uma modalidade da presente invenção;
A Figura 3 mostra um diagrama de blocos esquemático de um
Petição 870180127015, de 05/09/2018, pág. 23/244
16/74 decodificador de áudio, de acordo com outra modalidade da presente invenção;
A Figura 4 é formada pelas Figuras 4A e 4B e mostra um diagrama de blocos esquemático de um decodificador de áudio, de acordo com outra modalidade da presente invenção;
A Figura 5 mostra um diagrama de blocos esquemático de uma ocultação no domínio de tempo;
A Figura 6 mostra um diagrama de blocos esquemático de uma ocultação no domínio de tempo;
A Figura 7 mostra um diagrama que ilustra uma operação de ocultação no domínio de frequência;
A Figura 8a mostra um diagrama de blocos esquemático de uma ocultação, de acordo com uma modalidade da invenção;
A Figura 8b mostra um diagrama de blocos esquemático de uma ocultação, de acordo com outra modalidade da invenção;
A Figura 9 mostra um fluxograma de um método de ocultação inventivo;
A Figura 10 mostra um fluxograma de um método de ocultação inventivo;
A Figura 11 mostra um particular de uma operação da invenção em relação a uma operação em janela e de sobreposição e adição;
As Figuras 12 a 18 mostram exemplos comparativos de diagramas de sinal;
A Figura 19 mostra um diagrama de blocos esquemático de um codificador de áudio, de acordo com uma modalidade da presente invenção;
A Figura 20 mostra um fluxograma de um método de codificação inventivo.
5. DESCRIÇÃO DAS MODALIDADES [095] Na presente seção, modalidades da invenção são discutidas com referência aos desenhos.
5.1 UNIDADE DE OCULTAÇÃO DE ERRO DE ACORDO COM A FIGURA 1 [096] A Figura 1 mostra um diagrama de blocos esquemático de uma unidade de ocultação de erro 100 de acordo com a invenção.
[097] A unidade de ocultação de erro 100 fornece uma informação de áudio de ocultação de erro 102 para ocultar uma perda de um quadro de áudio em uma informação de áudio codificada. A unidade de ocultação de erro 100 é inserida por informações de áudio, tal como um quadro de áudio decodificado apropriadamente
Petição 870180127015, de 05/09/2018, pág. 24/244
17/74
101 (entende-se que o quadro de áudio decodificado apropriadamente foi decodificado anteriormente).
[098] A unidade de ocultação de erro 100 é configurada para fornecer (por exemplo, com o uso de uma unidade de ocultação de domínio de frequência 105) um primeiro componente de informações de áudio de ocultação de erro 103 para uma primeira faixa de frequência com o uso de uma ocultação no domínio de frequência. A unidade de ocultação de erro 100 é configurada adicionalmente para fornecer (por exemplo, com o uso de uma unidade de ocultação de domínio de tempo 106) um segundo componente de informações de áudio de ocultação de erro 104 para uma segunda faixa de frequência, com o uso de uma ocultação no domínio de tempo. A segunda faixa de frequência compreende frequências inferiores à primeira faixa de frequência. A unidade de ocultação de erro 100 é configurada adicionalmente para combinar (por exemplo, com o uso de um combinador 107) o primeiro componente de informações de áudio de ocultação de erro 103 e o segundo componente de informações de áudio de ocultação de erro 104 para obter as informações de áudio de ocultação de erro 102.
[099] O primeiro componente de informações de áudio de ocultação de erro 103 pode ser interpretado como representando uma porção de alta frequência (ou uma porção de frequência comparativamente superior) de um dado quadro de áudio perdido. O segundo componente de informações de áudio de ocultação de erro 104 pode ser interpretado como representando uma porção de baixa frequência (ou uma porção de frequência comparativamente inferior) do dado quadro de áudio perdido. Informações de áudio de ocultação de erro 102 associadas com o quadro de áudio perdido são obtidas com o uso tanto da unidade de ocultação de domínio de frequência 105 quanto da unidade de ocultação de domínio de tempo 106.
5.1.1 OCULTAÇÃO DE ERRO NO DOMÍNIO DE TEMPO [0100] Algumas informações são fornecidas aqui em relação a uma ocultação no domínio de tempo como pode ser incorporada pela ocultação no domínio de tempo 106.
[0101] Como tal, uma ocultação no domínio de tempo pode, por exemplo, ser configurada para modificar um sinal de excitação de domínio de tempo obtido com base em um ou mais quadros de áudio que precedem um quadro de áudio perdido, a fim de obter o segundo componente de informações de áudio de ocultação de erro
Petição 870180127015, de 05/09/2018, pág. 25/244
18/74 das informações de áudio de ocultação de erro. No entanto, em algumas modalidades simples, o sinal de excitação de domínio de tempo pode ser usado sem modificação. Dito de forma diferente, a ocultação no domínio de tempo pode obter (ou derivar) um sinal de excitação de domínio de tempo para (ou com base em) um ou mais quadros de áudio codificados que precedem um quadro de áudio perdido, e pode modificar o dito sinal de excitação de domínio de tempo, que é obtido para (ou com base em) um ou mais quadros de áudio recebidos apropriadamente que precedem um quadro de áudio perdido, para, desse modo, obter (pela modificação) um sinal de excitação de domínio de tempo que é usada para fornecer o segundo componente de informações de áudio de ocultação de erro das informações de áudio de ocultação de erro. Em outras palavras, o sinal de excitação de domínio de tempo modificado (ou um sinal de excitação de domínio de tempo não modificado) pode ser usado como uma entrada (ou como um componente de uma entrada) para uma síntese (por exemplo, síntese de LPC) das informações de áudio de ocultação de erro associadas com o quadro de áudio perdido (ou ainda com múltiplos quadros de áudio perdidos). Fornecendo-se o segundo componente de informações de áudio de ocultação de erro das informações de áudio de ocultação de erro com base no sinal de excitação de domínio de tempo obtido com base em um ou mais quadros de áudio recebidos apropriadamente, que precedem o quadro de áudio perdido, descontinuidades audíveis podem ser evitadas. Por outro lado, modificando-se (opcionalmente) o sinal de excitação de domínio de tempo derivado para (ou a partir de) um ou mais quadros de áudio que precedem o quadro de áudio perdido, e fornecendo-se as informações de áudio de ocultação de erro com base no sinal de excitação de domínio de tempo modificado (opcionalmente), é possível considerar características variáveis do conteúdo de áudio (por exemplo, uma mudança de tom), e também é possível evitar uma impressão auditiva não natural (por exemplo, por “esmaecimento” de um componente de sinal determinístico (por exemplo, pelo menos aproximadamente periódico)). Assim, pode ser conseguido que as informações de áudio de ocultação de erro compreendam alguma similaridade com as informações de áudio decodificadas obtidas com base em quadros de áudio decodificados apropriadamente que precedem o quadro de áudio perdido, e ainda pode ser conseguido que as informações de áudio de ocultação de erro compreendam um conteúdo de áudio de certa forma diferente quando comparadas às informações de áudio decodificadas associadas com o quadro de áudio que precede o quadro de
Petição 870180127015, de 05/09/2018, pág. 26/244
19/74 áudio perdido modificando-se de certa forma o sinal de excitação de domínio de tempo. A modificação do sinal de excitação de domínio de tempo usado para a provisão do segundo componente de informações de áudio de ocultação de erro das informações de áudio de ocultação de erro (associado com o quadro de áudio perdido) pode, por exemplo, compreender um dimensionamento de amplitude ou um dimensionamento de tempo. No entanto, outro tipos de modificação (ou ainda uma combinação de um dimensionamento de amplitude e um dimensionamento de tempo) são possíveis, em que preferencialmente, um certo grau de relação entre o sinal de excitação de domínio de tempo obtido (como uma informação de entrada) pela ocultação de erro e o sinal de excitação de domínio de tempo modificado deve permanecer.
[0102] Em conclusão, um decodificador de áudio permite fornecer as informações de áudio de ocultação de erro, de modo que as informações de áudio de ocultação de erro proporcionem uma boa impressão auditiva mesmo no caso em que um ou mais quadros de áudio são perdidos. A ocultação de erro é realizada com base em um sinal de excitação de domínio de tempo, em que uma variação das características de sinal do conteúdo de áudio durante o quadro de áudio perdido pode ser considerada modificando-se o sinal de excitação de domínio de tempo obtido com base no um mais quadros de áudio que precedem um quadro de áudio perdido.
5.1.2 OCULTAÇÃO DE ERRO NO DOMÍNIO DE FREQUÊNCIA [0103] Algumas informações são fornecidas aqui em relação a uma ocultação no domínio de frequência como pode ser incorporada pela ocultação no domínio de frequência 105. No entanto, na unidade de ocultação de erro inventiva, a ocultação de erro de domínio de frequência discutida abaixo é realizada em uma faixa de frequência limitada.
[0104] No entanto, deve ser observado que a ocultação no domínio de frequência descrita aqui deve ser considerada apenas como exemplo, em que conceitos diferentes ou mais avançados também poderíam ser aplicados. Em outras palavras, o conceito descrito no presente documento é usado em alguns codecs específicos, mas não precisa ser aplicado a todos os decodificadores de domínio de frequência.
[0105] Uma função de ocultação no domínio de frequência pode, em algumas implantações, aumentar o atraso de um decodificador por um quadro (por
Petição 870180127015, de 05/09/2018, pág. 27/244
20/74 exemplo, caso a ocultação no domínio de frequência use interpelação). Em algumas implantações (ou em alguns decodificadores) ocultação no domínio de Frequência trabalha nos dados espectrais imediatamente antes da conversão de frequência para tempo final. Caso um único quadro seja corrompido, a ocultação pode, por exemplo, interpelar entre o último (ou um dos últimos) quadro bom (quadro de áudio decodificado apropriadamente) e o primeiro quadro bom para criar os dados espectrais para o quadro faltante. No entanto, alguns decodificadores podem não ser capazes de realizar uma interpelação. Nesse caso, pode ser usada uma ocultação no domínio de frequência mais simples, como, por exemplo, uma cópia ou uma extrapolação de valores espectrais previamente decodificados. O quadro anterior pode ser processado pela conversão de frequência para tempo, assim, aqui o quadro faltante a ser substituído é o quadro anterior, o último quadro bom é o quadro antes do anterior e o primeiro quadro bom é o quadro atual. Caso múltiplos quadros sejam corrompidos, a ocultação implanta primeiro um esmaecimento com base em valores espectrais levemente modificados do último quadro bom. Logo que quadros bons estejam disponíveis, a ocultação desvanece nos novos dados espectrais.
[0106] A seguir o quadro atual é o quadro número η, o quadro corrompido a ser interpelado é o quadro n-1 e o penúltimo quadro tem o número n-2. A determinação de sequência de janela e do formato de janela do quadro corrompido segue da tabela abaixo:
TABELA 1: SEQUÊNCIAS DE JANELA INTERPOLADAS E FORMATOS
DE JANELA (CONFORME USADOS POR ALGUNS DECODIFICADORES DA FAMÍLIA AAC E USAC)
sequência de janela n-2 sequência de janela n sequência de janela /7-1 format o de janela /7-1
ONLY_LONG_SEQUEN CE ou LO N G_STA RT_S EQ U E N CE ou LONG_STOP_SEQUEN CE ONLY_LONG_SEQUE NCE ou LONG_START_SEQU ENCE ou LONG_STOP_SEQUE NCE ONLY_LONG_SEQUE NCE 0
Petição 870180127015, de 05/09/2018, pág. 28/244
21/74
ONLY_LONG_SEQUEN CE ou LO N G_STA RT_S EQ U E N CE ou LONG_STOP_SEQUEN CE EIGHT_SHORT_SEQU ENCE LONG_START_SEQU ENCE 1
EIGHT_SHORT_SEQUE NCE EIGHT_SHORT_SEQU ENCE EIGHT_SHORT_SEQU ENCE 1
EIGHT_SHORT SEQUENCE ONLY_LONG_SEQUE NCE ou LONG_START_SEQU ENCE ou LONG_STOP_SEQUE NCE LONG_STOP_SEQUE NCE 0
[0107] As energias de banda de fator de escala de quadros n-2 e n são calculadas. Caso a sequência de janela em um desses quadros seja um EIGHT_SHORT_SEQUENCE e a sequência de janela final para o quadro n-1 seja uma das janelas de transformada longas, as energias de banda de fator de escala são calculadas para bandas de fator de escala de bloco longo mapeando-se o índice de linha de frequência de coeficientes espectrais de bloco curto para uma representação de bloco longo. O espectro interpelado novo é construído reutilizando-se o espectro do quadro n-2 mais antigo multiplicando-se um fator para cada coeficiente espectral. Uma exceção é feita no caso de uma sequência de janela curta no quadro n-2 e uma sequência de janela longa no quadro n, aqui o espectro do quadro atual n é modificado pelo fator de interpolação. Esse fator é constante pela faixa de cada banda de fator de escala e é derivado das diferenças de energia de banda de fator de escala de quadros n-2 e n. Por fim, o sinal dos coeficientes espectrais interpelados será invertido aleatoriamente.
[0108] Um esmaecimento completo toma 5 quadros. Os coeficientes espectrais do último quadro bom são copiados e atenuados por um fator de:
Fmar se _ com nFadeOutFrame COmo contador de quadro desde o último quadro bom.
[0109] Após 5 quadros de esmaecimento a ocultação comuta para silenciamento, que significa que o espectro completo será definido para 0.
Petição 870180127015, de 05/09/2018, pág. 29/244
22/74 [0110] O decodificador desvanece quando recebe quadros bons novamente. O processo de desvanecimento também toma 5 quadros, e o fator multiplicado ao espectro é:
Faíc?’ A em que nFadeinFrame θ 0 contador de quadro desde o primeiro quadro bom após ocultar múltiplos quadros.
[0111] Recentemente, novas soluções foram introduzidas. Em relação a esses sistemas, agora é possível copiar um intervalo de frequência imediatamente após a decodificação do último quadro bom anterior, e, então, aplicar independentemente o outro processamento semelhante a TNS e/ou preenchimento de ruído.
[0112] Soluções diferentes também podem ser usadas em EVS ou ELD.
5.2. DECODIFICADOR DE ÁUDIO DE ACORDO COM A FIGURA 2 [0113] A Figura 2 mostra um diagrama de blocos esquemático de um decodificador de áudio 200, de acordo com uma modalidade da presente invenção. O decodificador de áudio 200 recebe uma informação de áudio codificada 210, a qual pode, por exemplo, compreender um quadro de áudio codificado em uma representação de domínio de frequência. A informação de áudio codificada 210 é, em princípio, recebida por meio de um canal não confiável, de modo que uma perda de quadro ocorre de tempos em tempos. Também é possível que um quadro seja recebido ou detectado tarde demais, ou que um erro de bit seja detectado. Essas ocorrências têm o efeito de uma perda de quadro: o quadro não fica disponível para decodificação. Em resposta a uma dessas falhas, o decodificador pode agir em um modo de ocultação. O decodificador de áudio 200 fornece adicionalmente, com base nas informações de áudio codificadas 210, as informações de áudio decodificadas 212.
[0114] O decodificador de áudio 200 pode compreender uma decodificação/processamento 220, que fornece as informações de áudio decodificadas 222 com base nas informações de áudio codificadas na ausência de uma perda de quadro.
[0115] O decodificador de áudio 200 compreende adicionalmente uma
Petição 870180127015, de 05/09/2018, pág. 30/244
23/74 ocultação de erro 230 (que pode ser incorporada pela unidade de ocultação de erro 100), a qual fornece uma informação de áudio de ocultação de erro 232. A ocultação de erro 230 é configurado para fornecer as informações de áudio de ocultação de erro 232 para ocultar uma perda de um quadro de áudio.
[0116] Em outras palavras, a decodificação/processamento 220 pode fornecer uma informação de áudio decodificada 222 para quadros de áudio que são codificados na forma de uma representação de domínio de frequência, isto é na forma de uma representação codificada, cujos valores codificados descrevem intensidades em compartimentos de frequência diferentes. Dito de forma diferente, a decodificação/processamento 220 pode, por exemplo, compreender um decodificador de áudio de domínio de frequência, o qual deriva um conjunto de valores espectrais a partir das informações de áudio codificadas 210 e realiza uma transformada de domínio de frequência para domínio de tempo para, desse modo, derivar uma representação de domínio de tempo que constitui as informações de áudio decodificadas 222 ou que forma a base para a provisão das informações de áudio decodificadas 222 caso haja pós- processamento adicional.
[0117] Além disso, deve ser observado que o decodificador de áudio 200 pode ser suplementado por qualquer dos recursos e funcionalidades descritos a seguir, individualmente ou tomados em combinação.
5.3. DECODIFICADOR DE ÁUDIO DE ACORDO COM A FIGURA 3 [0118] A Figura 3 mostra um diagrama de blocos esquemático de um decodificador de áudio 300, de acordo com uma modalidade da invenção.
[0119] O decodificador de áudio 300 é configurado para receber uma informação de áudio codificada 310 e fornecer, com base na mesma, uma informação de áudio decodificada 312. O decodificador de áudio 300 compreende um analisador de fluxo de bits 320 (que também pode ser designado como um “desformatador de fluxo de bits” ou “analisador de fluxo de bits”). O analisador de fluxo de bits 320 recebe as informações de áudio codificadas 310 e fornece, com base na mesma, uma representação de domínio de frequência 322 e possivelmente, informações de controle adicionais 324. A representação de domínio de frequência 322 pode, por exemplo, compreender valores codificados espectrais 326, fatores de escala codificados (ou representação de LPC) 328 e, opcionalmente, uma informação secundária adicional 330 a qual pode, por exemplo, controlar etapas de
Petição 870180127015, de 05/09/2018, pág. 31/244
24/74 processamento específicas, como, por exemplo, um preenchimento de ruído, um processamento ou um pós-processamento intermediário. O decodificador de áudio 300 também compreende uma decodificação de valor espectral 340 a qual é configurada para receber os valores codificados espectrais 326, e fornecer, com base nos mesmos, um conjunto de valores decodificados espectrais 342. O decodificador de áudio 300 também pode compreender uma decodificação de fator de escala 350, a qual pode ser configurada para receber os fatores de escala codificados 328 e fornecer, com base nos mesmos, um conjunto de fatores de escala decodificados 352.
[0120] Alternativamente à decodificação de fator de escala, uma conversão de LPC para fator de escala 354 pode ser usada, por exemplo, no caso em que as informações de áudio codificadas compreendem uma informação de LPC codificada, em vez de uma informação de um fator de escala. No entanto, em algum modos de codificação (por exemplo, no modo de decodificação de TCX do decodificador de áudio USAC ou no decodificador de áudio EVS) um conjunto de coeficientes LPC pode ser usado para derivar um conjunto de fatores de escala no lado do decodificador de áudio. Essa funcionalidade pode ser alcançada pela conversão de LPC para fator de escala 354.
[0121] O decodificador de áudio 300 também pode compreender um aplicador de escala 360, o qual pode ser configurado para aplicar o conjunto de fatores em escala 352 ao conjunto de valores espectrais 342, para, desse modo, obter um conjunto de valores decodificados espectrais em escala 362. Por exemplo, uma primeira banda de frequência que compreende múltiplos valores decodificados espectrais 342 pode ser colocada em escala com o uso de um primeiro fator de escala, e uma segunda banda de frequência que compreende múltiplos valores decodificados espectrais 342 pode ser colocada em escala com o uso de um segundo fator de escala. Consequentemente, o conjunto de valores decodificados espectrais em escala 362 é obtido. O decodificador de áudio 300 pode compreender adicionalmente um processamento opcional 366, o qual pode aplicar algum processamento aos valores decodificados espectrais em escala 362. Por exemplo, o processamento opcional 366 pode compreender um preenchimento de ruído ou algumas outras operações.
[0122] O decodificador de áudio 300 também pode compreender uma transformada de domínio de frequência para domínio de tempo 370, a qual é configurada para receber os valores decodificados espectrais em escala 362, ou uma
Petição 870180127015, de 05/09/2018, pág. 32/244
25/74 versão processada 368 dos mesmos, e fornecer uma representação de domínio de tempo 372 associada com um conjunto de valores decodificados espectrais em escala 362. Por exemplo, a transformada de domínio de frequência para domínio de tempo 370 pode fornecer uma representação de domínio de tempo 372, a qual é associada com um quadro ou subquadro do conteúdo de áudio. Por exemplo, a transformada de domínio de frequência para domínio de tempo pode receber um conjunto de coeficientes de MDCT (que podem ser considerados como valores decodificados espectrais em escala) e fornecer, com base no mesmo, um bloco de amostras de domínio de tempo, o qual pode formar a representação de domínio de tempo 372.
[0123] O decodificador de áudio 300 pode, opcionalmente, compreender um pós-processamento 376, o qual pode receber a representação de domínio de tempo 372 e de certa forma modificar a representação de domínio de tempo 372, para, desse modo, obter uma versão pós-processada 378 da representação de domínio de tempo 372.
[0124] O decodificador de áudio 300 também compreende uma ocultação de erro 380 a qual recebe a representação de domínio de tempo 372 da transformada de domínio de frequência para domínio de tempo 370 e os valores decodificados espectrais em escala 362 (ou sua versão processada 368). Além disso, a ocultação de erro 380 fornece uma informação de áudio de ocultação de erro 382 para um ou mais quadros de áudio perdidos. Em outras palavras, caso um quadro de áudio seja perdido, de modo que, por exemplo, nenhum valor codificado espectral 326 esteja disponível para o dito quadro de áudio (ou subquadro de áudio), a ocultação de erro 380 pode fornecer as informações de áudio de ocultação de erro com base na representação de domínio de tempo 372 associada com um ou mais quadros de áudio que precedem o quadro de áudio perdido e com os valores decodificados espectrais em escala 362 (ou sua versão processada 368). A informação de áudio de ocultação de erro pode, tipicamente, ser uma representação de domínio de tempo de um conteúdo de áudio.
[0125] Deve ser observado que a ocultação de erro 380 pode, por exemplo, realizar a funcionalidade da unidade de ocultação de erro 100 e/ou da ocultação de erro 230 descritas acima.
[0126] Em relação à ocultação de erro, deve ser observado que a ocultação de erro não acontece no mesmo tempo do quadro decodificação. Por
Petição 870180127015, de 05/09/2018, pág. 33/244
26/74 exemplo caso o quadro n seja bom então é feita uma decodificação, normal e no final é salva alguma variável que ajudará caso se tenha que ocultar o próximo quadro, então caso o quadro n+1 seja perdido chama-se a função de ocultação que dá a variável que vem do quadro bom anterior. Também são atualizadas algumas variáveis para ajudar na próxima perda de quadro ou na recuperação para o próximo quadro bom.
[0127] O decodificador de áudio 300 também compreende uma combinação de sinal 390, a qual é configurada para receber a representação de domínio de tempo 372 (ou a representação de domínio de tempo pós-processada 378 no caso em que há um pós-processamento 376). Além disso, a combinação de sinal 390 pode receber as informações de áudio de ocultação de erro 382, as quais também são tipicamente uma representação de domínio de tempo de uma ocultação de erro de sinal de áudio fornecida para um quadro de áudio perdido. A combinação de sinal 390 pode, por exemplo, combinar representações de domínio de tempo associadas com quadros de áudio subsequentes. No caso em que há quadros de áudio decodificados apropriadamente subsequentes, a combinação de sinal 390 pode combinar (por exemplo, sobreposição e adição) representações de domínio de tempo associadas com esses quadros de áudio decodificados apropriadamente subsequentes. No entanto, caso um quadro de áudio seja perdido, a combinação de sinal 390 pode combinar (por exemplo, sobreposição e adição) a representação de domínio de tempo associada com o quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, e as informações de áudio de ocultação de erro associadas com o quadro de áudio perdido, para, desse modo, ter uma transição suave entre o quadro de áudio recebido apropriadamente e o quadro de áudio perdido. De maneira similar, a combinação de sinal 390 pode ser configurada para combinar (por exemplo, sobreposição e adição) as informações de áudio de ocultação de erro associadas com o quadro de áudio perdido e a representação de domínio de tempo associada com outro quadro de áudio decodificado apropriadamente, que segue o quadro de áudio perdido (ou outras informações de áudio de ocultação de erro associadas com outro quadro de áudio perdido no caso em que múltiplos quadros consecutivos de áudio são perdidos).
[0128] Consequentemente, a combinação de sinal 390 pode fornecer uma informação de áudio decodificada 312, de modo que a representação de domínio
Petição 870180127015, de 05/09/2018, pág. 34/244
27/74 de tempo 372, ou uma versão pós-processada 378 da mesma, seja fornecida para quadros de áudio decodificados apropriadamente, e de modo que as informações de áudio de ocultação de erro 382 sejam fornecidas para quadros de áudio perdidos, em que uma operação de sobreposição e adição é realizada tipicamente entre as informações de áudio (independentemente das mesmas serem fornecidas pela transformada de domínio de frequência para domínio de tempo 370 ou pela ocultação de erro 380) de quadros de áudio subsequentes. Uma vez que alguns codecs têm algum serrilhado na parte de sobreposição e adição que precisa ser cancelado, opcionalmente pode-se criar algum serrilhado artificial no meio de um quadro que tenha sido criado para realizar a sobreposição e adição.
[0129] Deve ser observado que a funcionalidade do decodificador de áudio 300 é similar à funcionalidade do decodificador de áudio 200 de acordo com a Figura 2. Além disso, deve ser observado que o decodificador de áudio 300 de acordo com a Figura 3 pode ser suplementado por qualquer um dentre os recursos e funcionalidades descritos no presente documento. Em particular, a ocultação de erro 380 pode ser suplementada por qualquer um dentre os recursos e funcionalidades descritos no presente documento com relação à ocultação de erro.
5.4. DECODIFICADOR DE ÁUDIO 400 DE ACORDO COM A FIGURA 4 [0130] A Figura 4 mostra um decodificador de áudio 400 de acordo com outra modalidade da presente invenção.
[0131] O decodificador de áudio 400 é configurado para receber uma informação de áudio codificada e fornecer, com base na mesma, uma informação de áudio decodificada 412. O decodificador de áudio 400 pode, por exemplo, ser configurado para receber uma informação de áudio codificada 410, em que diferentes quadros de áudio são codificados com o uso de modos de codificação diferentes. Por exemplo, o decodificador de áudio 400 pode ser considerado como um decodificador de áudio de múltiplos modos ou um decodificador de áudio com “comutação”. Por exemplo, alguns dos quadros de áudio podem ser codificados com o uso de uma representação de domínio de frequência, em que as informações de áudio codificadas compreendem uma representação codificada de valores espectrais (por exemplo, valores de FFT ou valores de MDCT) e fatores de escala que representam um dimensionamento de bandas de frequência diferentes. Além disso, as informações de áudio codificadas 410 também podem compreender uma “representação de domínio
Petição 870180127015, de 05/09/2018, pág. 35/244
28/74 de tempo” de quadros de áudio, ou uma “representação de domínio de codificaçãopredição linear” de múltiplos quadros de áudio. A “representação de domínio de codificação-predição linear” (também designada de forma abreviada como “representação de LPC“) pode, por exemplo, compreender uma representação codificada de um sinal de excitação, e uma representação codificada de parâmetros de LPC (parâmetros de codificação-predição linear), em que os parâmetros de codificação-predição linear descrevem, por exemplo, um filtro de síntese de codificação-predição linear, o qual é usado para reconstruir um sinal de áudio com base no sinal de excitação de domínio de tempo.
[0132] A seguir, alguns detalhes do decodificador de áudio 400 serão descritos.
[0133] O decodificador de áudio 400 compreende um analisador de fluxo de bits 420 que pode, por exemplo, analisar as informações de áudio codificadas 410 e extrair, a partir das informações de áudio codificadas 410, uma representação de domínio de frequência 422, que compreende, por exemplo, valores codificados espectrais, fatores de escala codificados e, opcionalmente, uma informação secundária adicional. O analisador de fluxo de bits 420 também pode ser configurado para extrair uma representação de domínio de codificação-predição linear 424, a qual pode, por exemplo, compreender uma excitação codificada 426 e coeficientes de predição linear codificados 428 (que também podem ser considerados como parâmetros de predição linear codificados). Além disso, o analisador de fluxo de bits pode, opcionalmente, extrair informações secundárias adicionais, as quais podem ser usadas para controlar etapas de processamento adicionais, a partir das informações de áudio codificadas.
[0134] O decodificador de áudio 400 compreende uma trajetória de decodificação de domínio de frequência 430, a qual pode, por exemplo, ser substancialmente idêntica à trajetória de decodificação do decodificador de áudio 300 de acordo com a Figura 3. Em outras palavras, a trajetória de decodificação de domínio de frequência 430 pode compreender uma decodificação de valor espectral 340, uma decodificação de fator de escala 350, um aplicador de escala 360, um processamento opcional 366, uma transformada de domínio de frequência para domínio de tempo 370, um pós-processamento opcional 376 e uma ocultação de erro 380 conforme descrito acima com referência à Figura 3.
Petição 870180127015, de 05/09/2018, pág. 36/244 [0135] Ο decodificador de áudio 400 também pode compreender uma trajetória de decodificação de domínio de predição linear 440 (a qual também pode ser considerada como um domínio de tempo trajetória de decodificação, uma vez que a síntese de LPC é realizada no domínio de tempo). A trajetória de decodificação de domínio de predição linear compreende uma decodificação de excitação 450, a qual recebe a excitação codificada 426 fornecida pelo analisador de fluxo de bits 420 e fornece, com base na mesma, uma excitação decodificada 452 (que pode assumir a forma de um sinal de excitação de domínio de tempo decodificado). Por exemplo, a decodificação de excitação 450 pode receber uma informação de excitação convertida em código de transformada codificada, e pode fornecer, com base na mesma, um sinal de excitação de domínio de tempo decodificado. No entanto, alternativa ou adicionalmente, a decodificação de excitação 450 pode receber uma excitação de ACELP codificada, e pode fornecer o sinal de excitação de domínio de tempo decodificado 452 com base nas ditas informações excitação de ACELP codificadas.
[0136] Deve ser observado que há opções diferentes para a decodificação de excitação. É feita referência, por exemplo, aos Padrões e publicações que definem os conceitos de codificação de CELP, os conceitos de codificação de ACELP, modificações dos conceitos de codificação de CELP e dos conceitos de codificação de ACELP e do conceito de codificação de TCX.
[0137] A trajetória de decodificação de domínio de predição linear 440 compreende, opcionalmente, um processamento 454 no qual um sinal de excitação de domínio de tempo processado 456 é derivado do sinal de excitação de domínio de tempo 452.
[0138] A trajetória de decodificação de domínio de predição linear 440 também compreende uma decodificação de coeficiente de predição linear 460, a qual é configurada para receber coeficientes de predição linear codificados e fornecer, com base nos mesmos, coeficientes de predição linear decodificados 462. A decodificação de coeficiente de predição linear 460 pode usar representações diferentes de um coeficiente de predição linear como uma informação de entrada 428 e pode fornecer representações diferentes dos coeficientes de predição linear decodificados como as informações de saída 462. Para detalhes, é feita referência à documentos de Padrão diferentes nos quais uma codificação e/ou decodificação de coeficientes de predição linear é descrita.
Petição 870180127015, de 05/09/2018, pág. 37/244
30/74 [0139] A trajetória de decodificação de domínio de predição linear 440 compreende, opcionalmente, um processamento 464, o qual pode processar os coeficientes de predição linear decodificados e fornecer uma versão processada 466 dos mesmos.
[0140] A trajetória de decodificação de domínio de predição linear 440 também compreende uma síntese de LPC (síntese de conversão de predição linear em código) 470, a qual é configurada para receber a excitação decodificada 452, ou a versão processada 456 da mesma, e os coeficientes de predição linear decodificados 462, ou a versão processada 466 dos mesmos, e fornecer um sinal de áudio de domínio de tempo decodificado 472. Por exemplo, a síntese de LPC 470 pode ser configurada para aplicar uma filtragem, a qual é definida pelos coeficientes de predição linear decodificados 462 (ou a versão processada 466 dos mesmos), ao sinal de excitação de domínio de tempo decodificado 452, ou à versão processada do mesmo, de modo que o sinal de áudio de domínio de tempo decodificado 472 seja obtido por filtragem (filtragem de síntese) do sinal de excitação de domínio de tempo 452 (ou 456). A trajetória de decodificação de domínio de predição linear 440 pode compreender, opcionalmente, um pós-processamento 474, o qual pode ser usado para refinar ou ajustar características do sinal de áudio de domínio de tempo decodificado 472.
[0141] A trajetória de decodificação de domínio de predição linear 440 também compreende uma ocultação de erro 480, a qual é configurada para receber os coeficientes de predição linear decodificados 462 (ou a versão processada 466 dos mesmos) e o sinal de excitação de domínio de tempo decodificado 452 (ou a versão processada 456 do mesmo). A ocultação de erro 480 pode, opcionalmente, receber informações adicionais, como, por exemplo, uma informação de tom. A ocultação de erro 480 pode, consequentemente, fornecer uma informação de áudio de ocultação de erro, a qual pode ser na forma de um sinal de áudio de domínio de tempo, no caso em que um quadro (ou subquadro) das informações de áudio codificadas 410 é perdido. Assim, a ocultação de erro 480 pode fornecer as informações de áudio de ocultação de erro 482 de modo que as características das informações de áudio de ocultação de erro 482 são adaptadas substancialmente às características de um último quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido. Deve ser observado que a ocultação de erro 480 pode compreender qualquer
Petição 870180127015, de 05/09/2018, pág. 38/244
31/74 um dos recursos e funcionalidades descritos com relação à ocultação de erro 100 e/ou 230 e/ou 380. Além disso, deve ser observado que a ocultação de erro 480 também pode compreender qualquer um dos recursos e funcionalidades descritos com relação à ocultação no domínio de tempo da Figura 6.
[0142] O decodificador de áudio 400 também compreende um combinador de sinal (ou combinação de sinal 490), o qual é configurado para receber o sinal de áudio de domínio de tempo decodificado 372 (ou a versão pós-processada 378 do mesmo), as informações de áudio de ocultação de erro 382 fornecidas pela ocultação de erro 380, o sinal de áudio de domínio de tempo decodificado 472 (ou a versão pós-processada 476 do mesmo) e as informações de áudio de ocultação de erro 482 fornecidas pela ocultação de erro 480. O combinador de sinal 490 pode ser configurado para combinar os ditos sinais 372 (ou 378), 382, 472 (ou 476) e 482 para, desse modo, obter as informações de áudio decodificadas 412. Em particular, uma operação de sobreposição e adição pode ser aplicada pelo combinador de sinal 490. Consequentemente, o combinador de sinal 490 pode fornecer transições suaves entre quadros de áudio subsequentes para os quais o sinal de áudio de domínio de tempo é fornecido por entidades diferentes (por exemplo, por trajetórias de decodificação diferentes 430, 440). No entanto, o combinador de sinal 490 também pode proporcionar transições suaves caso o sinal de áudio de domínio de tempo seja fornecido pela mesma entidade (por exemplo, transformada de domínio de frequência para domínio de tempo 370 ou síntese de LPC 470) para quadros subsequentes. Uma vez que alguns codecs têm algum serrilhado na parte de sobreposição e adição que precisam ser cancelados, opcionalmente pode ser criado algum serrilhado artificial no meio de um quadro que tenha sido criado para realizar a sobreposição e adição. Em outras palavras, uma compensação de serrilhado de domínio de tempo artificial (TDAC) pode ser usada opcionalmente.
[0143] Além disso, o combinador de sinal 490 pode fornecer transições suaves para e a partir de quadros para os quais uma informação de áudio de ocultação de erro (que também é, tipicamente, um sinal de áudio de domínio de tempo) é fornecida.
[0144] Para resumir, o decodificador de áudio 400 permite decodificar quadros de áudio que são codificados no domínio de frequência e quadros de áudio que são codificados no domínio de predição linear. Em particular, é possível comutar
Petição 870180127015, de 05/09/2018, pág. 39/244
32/74 entre um uso da trajetória de decodificação de domínio de frequência e um uso da trajetória de decodificação de domínio de predição linear na dependência das características de sinal (por exemplo, com o uso de uma informação de sinalização fornecida por um codificador de áudio). Tipos diferentes de ocultação de erro podem ser usados para fornecer uma informação de áudio de ocultação de erro no caso de uma perda de quadro, dependendo de um último quadro de áudio decodificado apropriadamente ter sido codificado no domínio de frequência (ou, de modo equivalente, em uma representação de domínio de frequência) ou no domínio de tempo (ou de modo equivalente, em uma representação de domínio de tempo, ou, de modo equivalente, em um domínio de predição linear, ou, de modo equivalente, em uma representação de domínio de predição linear).
5.5. OCULTAÇÃO DE DOMÍNIO DE TEMPO DE ACORDO COM A FIGURA 5 [0145] A Figura 5 mostra um diagrama de blocos esquemático de uma ocultação de erro de domínio de tempo de acordo com uma modalidade da presente invenção. A ocultação de erro de acordo com a Figura 5 é designada em sua totalidade como 500 e pode incorporar a ocultação no domínio de tempo 106 da Figura 1. No entanto, uma redução de resolução que pode ser usada em uma entrada da ocultação no domínio de tempo (por exemplo, aplicada ao sinal 510), e um aumento de resolução, o qual pode ser usado em uma saída da ocultação no domínio de tempo, e uma filtragem passa-baixa também pode ser aplicada, embora não mostrada na Figura 5 por brevidade.
[0146] A ocultação de erro de domínio de tempo 500 é configurada para receber um sinal de áudio de domínio de tempo 510 (que pode ser uma faixa de baixa frequência do sinal 101) e fornecer, com base no mesmo, um componente de informações de áudio de ocultação de erro 512, o qual toma a forma de um sinal de áudio de domínio de tempo (por exemplo, sinal 104) que pode ser usada para fornecer o segundo componente de informações de áudio de ocultação de erro.
[0147] A ocultação de erro 500 compreende uma pré-ênfase 520, a qual pode ser considerada como opcional. A pré-ênfase recebe o sinal de áudio de domínio de tempo e fornece, com base no mesmo, um sinal de áudio de domínio de tempo pré-enfatizado 522.
[0148] A ocultação de erro 500 também compreende uma análise de
Petição 870180127015, de 05/09/2018, pág. 40/244
33/74
LPC 530, a qual é configurada para receber o sinal de áudio de domínio de tempo 510, ou a versão pré-enfatizada 522 do mesmo, e obter uma informação de LPC 532, a qual pode compreender um conjunto de parâmetros de LPC 532. Por exemplo, as informações de LPC podem compreender um conjunto de coeficientes de filtro de LPC (ou uma representação do mesmo) e um sinal de excitação de domínio de tempo (que é adaptado para uma excitação de um filtro de síntese de LPC configurado de acordo com os coeficientes de filtro de LPC, para reconstruir, pelo menos aproximadamente, o sinal de entrada da análise de LPC).
[0149] A ocultação de erro 500 também compreende uma busca de tom 540, a qual é configurada para obter uma informação de tom 542, por exemplo, com base em um quadro de áudio decodificado previamente.
[0150] A ocultação de erro 500 também compreende uma extrapolação 550, a qual pode ser configurada para obter um sinal de excitação de domínio de tempo extrapolado com base no resultado da análise de LPC (por exemplo, com base no sinal de excitação de domínio de tempo determinado pela análise de LPC), e possivelmente, com base no resultado da busca de tom.
[0151] A ocultação de erro 500 também compreende uma geração de ruído 560, a qual fornece um sinal de ruído 562. A ocultação de erro 500 também compreende um combinador/atenuador 570, o qual é configurado para receber o sinal de excitação de domínio de tempo extrapolado 552 e o sinal de ruído 562, e fornecer, com base no mesmo, um sinal de excitação de domínio de tempo combinado 572. O combinador/atenuador 570 pode ser configurado para combinar o sinal de excitação de domínio de tempo extrapolado 552 e o sinal de ruído 562, em que um esmaecimento pode ser realizado, de modo que uma contribuição relativa do sinal de excitação de domínio de tempo extrapolado 552 (o qual determina um componente determinístico do sinal de entrada da síntese de LPC) diminua ao longo do tempo enquanto uma contribuição relativa do sinal de ruído 562 aumenta ao longo do tempo. No entanto, uma funcionalidade diferente do combinador/atenuador também é possível. Além disso, é feita referência à descrição abaixo.
[0152] A ocultação de erro 500 também compreende uma síntese de LPC 580, a qual recebe o sinal de excitação de domínio de tempo combinado 572 e fornece um sinal de áudio de domínio de tempo 582 com base no mesmo. Por exemplo, a síntese de LPC também pode receber coeficientes de filtro de LPC que
Petição 870180127015, de 05/09/2018, pág. 41/244
34/74 descrevem um filtro de modelagem de LPC, o qual é aplicado ao sinal de excitação de domínio de tempo combinado 572, para derivar o sinal de áudio de domínio de tempo 582. A síntese de LPC 580 pode, por exemplo, usar coeficientes de LPC obtidos com base em um ou mais quadros de áudio decodificados previamente (por exemplo, fornecidos pela análise de LPC 530).
[0153] A ocultação de erro 500 também compreende uma de-ênfase 584, a qual pode ser considerada como opcional. A de-ênfase 584 pode fornecer um sinal de áudio de domínio de tempo de ocultação de erro de-enfatizado 586.
[0154] A ocultação de erro 500 também compreende, opcionalmente, uma sobreposição e adição 590, a qual realiza uma operação de sobreposição e adição de sinais de áudio de domínio de tempo associados com quadros (ou subquadros) subsequentes. No entanto, deve ser observado que a sobreposição e adição 590 deve ser considerada como opcional, uma vez que a ocultação de erro também pode usar uma combinação de sinal que já é fornecida no ambiente de decodificador de áudio.
[0155] A seguir, alguns detalhes adicionais em relação à ocultação de erro 500 serão descritos.
[0156] A ocultação de erro 500, de acordo com a Figura 5, cobre o contexto de um codec de domínio de transformada como AAC_LC ou AAC_ELD. Dito de forma diferente, a ocultação de erro 500 é bem adaptada para uso nesse codec de domínio de transformada (e, em particular, nesse decodificador de áudio de domínio de transformada). No caso de um codec de transformada apenas (por exemplo, na ausência de uma trajetória de decodificação de domínio de predição linear), um sinal de saída de um último quadro é usado como um ponto de partida. Por exemplo, um sinal de áudio de domínio de tempo 372 pode ser usado como um ponto de partida para a ocultação de erro. Preferencialmente, nenhum sinal de excitação está disponível, apenas um sinal de saída de domínio de tempo a partir de (um ou mais) quadros anteriores (como, por exemplo, o sinal de áudio de domínio de tempo 372).
[0157] A seguir, as subunidades e funcionalidades da ocultação de erro 500 serão descritas em mais detalhes.
5.5.1. ANÁLISE DE LPC [0158] Na modalidade de acordo com a Figura 5, toda a ocultação é feita no domínio de excitação para obter uma transição mais suave entre quadros
Petição 870180127015, de 05/09/2018, pág. 42/244
35/74 consecutivos. Portanto, é necessário primeiro encontrar (ou, de forma mais geral, obter) um conjunto apropriado de parâmetros de LPC. Na modalidade, de acordo com a Figura 5, uma análise de LPC 530 é feita no sinal de domínio de tempo préenfatizado passado 522. Os parâmetros de LPC (ou coeficientes de filtro de LPC) são usados para realizar análise de LPC do sinal de síntese passado (por exemplo, com base no sinal de áudio de domínio de tempo 510, ou com base no sinal de áudio de domínio de tempo pré-enfatizado 522) para obter um sinal de excitação (por exemplo, um sinal de excitação de domínio de tempo).
5.5.2. BUSCA DE TOM [0159] Há diferentes abordagens para obter o tom a ser usado para construir o novo sinal (por exemplo, as informações de áudio de ocultação de erro).
[0160] No contexto do codec com o uso de um filtro de LTP (filtro de predição de longo prazo), como LTP de AAC, caso o último quadro fosse AAC com LTP, usa-se esse último atraso de tom de LTP recebido e o ganho correspondente para gerar a parte de harmônico. Nesse caso, o ganho é usado para decidir quanto à possibilidade de construção na parte de harmônico no sinal. Por exemplo, caso o ganho de LTP seja superior a 0,6 (ou qualquer outro valor predeterminado), então as informações de LTP são usadas para construir a parte de harmônico.
[0161] Caso não haja quaisquer informações de tom disponíveis a partir do quadro anterior, então há, por exemplo, duas soluções, que serão descritas a seguir.
[0162] Por exemplo, é possível fazer uma busca de tom no codificador e transmitir no fluxo de bits o atraso de tom e o ganho. Esse é similar ao LTP, mas não é aplicada qualquer filtragem (também nenhuma filtragem de LTP no canal limpo).
[0163] Alternativamente, é possível realizar uma busca de tom no decodificador. A busca de tom AMR-WB em caso de TCX é feita no domínio de FFT. Em ELD, por exemplo, caso o domínio de MDCT fosse usado então as fases seriam perdidas. Portanto, a busca de tom é feita, preferencialmente, de forma direta no domínio de excitação. Isso proporciona resultados melhores do que fazer a busca de tom no domínio de síntese. A busca de tom no domínio de excitação é feita primeiro com um ciclo aberto por uma correlação cruzada normalizada. Então, opcionalmente, refina-se a busca de tom fazendo-se uma busca de ciclo fechado em torno do tom de ciclo aberto com um certo delta. Devido às limitações de janela de ELD, um tom errado
Petição 870180127015, de 05/09/2018, pág. 43/244
36/74 poderia ser encontrado, assim, também se verifica que o tom encontrado é correto ou, caso contrário, se descarta o mesmo de outra forma.
[0164] Em conclusão, o tom do último quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, pode ser considerado quando se fornece as informações de áudio de ocultação de erro. Em alguns casos, há uma informação de tom disponível a partir da decodificação do quadro anterior (isto é, o último quadro que precede o quadro de áudio perdido). Nesse caso, esse tom pode ser reutilizado (possivelmente, com alguma extrapolação e uma consideração de uma mudança de tom pelo tempo). Também se pode, opcionalmente, reutilizar o tom de mais do que um quadro do passado para tentar extrapolar ou predizer o tom que é necessário no o final do quadro oculto.
[0165] Além disso, caso haja uma informação (por exemplo, designada como ganho de predição de longo prazo) disponível, que descreva uma intensidade (ou intensidade relativa) de um componente de sinal determinístico (por exemplo, pelo menos aproximadamente periódico), esse valor pode ser usado para decidir se um componente determinístico (ou harmônico) deve ser incluído nas informações de áudio de ocultação de erro. Em outras palavras, comparando-se o dito valor (por exemplo, ganho de LTP) com um valor limiar predeterminado, pode ser decidido se um sinal de excitação de domínio de tempo derivado e um quadro de áudio decodificado previamente deve ser considerado para a provisão das informações de áudio de ocultação de erro ou não.
[0166] Caso não haja informações de tom disponíveis do quadro anterior (ou, mais precisamente, da decodificação do quadro anterior), há opções diferentes. As informações de tom poderíam ser transmitidas de um codificador de áudio para um decodificador de áudio, o que simplificaria o decodificador de áudio mas criaria uma sobrecarga de taxa de bits. Alternativamente, as informações de tom podem ser determinadas no decodificador de áudio, por exemplo, no domínio de excitação, isto é com base em um sinal de excitação de domínio de tempo. Por exemplo, o sinal de excitação de domínio de tempo derivado de um quadro de áudio decodificado apropriadamente anterior pode ser avaliado para identificar as informações de tom a serem usadas para a provisão das informações de áudio de ocultação de erro.
5.5.3. EXTRAPOLAÇÃO DA EXCITAÇÃO OU CRIAÇÃO DA PARTE DE HARMÔNICO
Petição 870180127015, de 05/09/2018, pág. 44/244
37/74 [0167] A excitação (por exemplo, o sinal de excitação de domínio de tempo) obtida a partir do quadro anterior (seja apenas computada para quadro perdido ou já salva no quadro perdido anterior para perdas de quadro múltiplas) é usada para construir a parte de harmônico (também designada como componente determinístico ou componente aproximadamente periódico) na excitação (por exemplo, no sinal de entrada da síntese de LPC) copiando-se o último ciclo de tom tantas vezes quanto necessário para obter um quadro e meio. Para reduzir a complexidade também podese criar um quadro e meio apenas para a primeira perda de quadro e então deslocar o processamento para perda de quadro subsequente por metade de um quadro e criar apenas um quadro para cada uma. Então sempre se tem acesso a metade de um quadro de sobreposição.
[0168] No caso do primeiro quadro perdido após uma quadro bom (isto é um quadro decodificado apropriadamente), o primeiro ciclo de tom (por exemplo, do sinal de excitação de domínio de tempo obtido com base no último quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido) é filtrado em passa-baixa com um filtro dependente de taxa de amostragem (uma vez que ELD cubra uma taxa de amostragem combinação realmente ampla - que vai de núcleo de AAC-ELD para AAC-ELD com SBR ou AAC-ELD com SBR de taxa dupla).
[0169] O tom em um sinal de voz está quase sempre mudando. Portanto, a ocultação apresentada acima tende a criar alguns problemas (ou pelo menos distorções) na recuperação devido ao tom no final do sinal oculto (isto é no final das informações de áudio de ocultação de erro) frequentemente não corresponder ao tom do primeiro quadro bom. Portanto, opcionalmente, em algumas modalidades tenta-se predizer o tom no final do quadro oculto para que corresponda ao tom no início do quadro de recuperação. Por exemplo, o tom no final de um quadro perdido (o qual é considerado como um quadro oculto) é predito, em que o alvo da predição é definir o tom no final do quadro perdido (quadro oculto) para se aproximar ao tom no início do primeiro quadro decodificado apropriadamente que segue um ou mais quadros perdidos (em que o primeiro quadro decodificado apropriadamente também é chamado “quadro de recuperação”). Isso podería ser feito durante a perda de quadro ou durante o primeiro quadro bom (isto é durante o primeiro quadro recebido apropriadamente). Para obter resultados ainda melhores, é possível, opcionalmente, reutilizar algumas ferramentas convencionais e adaptá-las, tais como a Predição de
Petição 870180127015, de 05/09/2018, pág. 45/244
38/74
Tom e ressincronização de Pulso. Para detalhes, é feita referência, por exemplo, referência a [4] e [5].
[0170] Caso uma predição de longo prazo (LTP) seja usada em um codec de domínio de frequência, é possível usar o atraso como as informações de partida sobre o tom. No entanto, em algumas modalidades, também se deseja ter uma melhor granularidade para ser capaz de rastrear melhor o contorno do tom. Portanto, é preferido fazer uma busca de tom no início e no final do último quadro bom (decodificado apropriadamente). Para adaptar o sinal ao tom móvel, é desejável usar uma ressincronização de pulso, que está presente no estado da técnica.
5.5.4. GANHO DE TOM [0171] Em algumas modalidades, é preferido aplicar um ganho na excitação obtida previamente a fim de alcançar o nível desejado. O “ganho do tom” (por exemplo, o ganho do componente determinístico do sinal de excitação de domínio de tempo, isto é o ganho aplicado a um sinal de excitação de domínio de tempo derivado de um quadro de áudio decodificado previamente, a fim de obter o sinal de entrada da síntese de LPC), pode, por exemplo, ser obtido fazendo-se uma correlação normalizada no domínio de tempo no final do último quadro bom (por exemplo, decodificado apropriadamente). O comprimento da correlação pode ser equivalente a dois comprimentos de subquadros, ou pode ser mudado adaptativamente. O atraso é equivalente ao atraso de tom usado para a criação da parte de harmônico. Também se pode, opcionalmente, realizar o cálculo de ganho apenas no primeiro quadro perdido e, então, apenas aplicar um esmaecimento (ganho reduzido) à perda de quadro consecutiva seguinte.
[0172] O “ganho de tom” determinará a quantidade de tonalidade (ou a quantidade de componentes de sinal determinísticos pelo menos aproximadamente periódicos) que será criada. No entanto, é desejável adicionar algum ruído modelado para não ter apenas um tom artificial. Caso se obtenha ganho muito baixo do tom então constrói-se um sinal que consiste apenas em um ruído modelado.
[0173] Em conclusão, em alguns casos o sinal de excitação de domínio de tempo obtido, por exemplo, com base em um quadro de áudio decodificado previamente, é colocado em escala na dependência do ganho (por exemplo, para obter o sinal de entrada para a análise de LPC). Consequentemente, uma vez que o sinal de excitação de domínio de tempo determine um componente de sinal
Petição 870180127015, de 05/09/2018, pág. 46/244
39/74 determinístico (pelo menos aproximadamente periódico), o ganho pode determinar uma intensidade relativa dos ditos componentes de sinal determinísticos (pelo menos aproximadamente periódico) nas informações de áudio de ocultação de erro. Além disso, as informações de áudio de ocultação de erro podem ser com base em um ruído, o qual também é modelado pela síntese de LPC, de modo que uma energia total das informações de áudio de ocultação de erro seja adaptada, pelo menos em algum grau, a um quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, e, idealmente, também a um quadro de áudio decodificado apropriadamente que segue o um ou mais quadros de áudio perdidos.
5.5.5. CRIAÇÃO DA PARTE DE RUÍDO [0174] Uma “inovação” é criada por um gerador de ruído aleatório. Esse ruído é, opcionalmente, filtrado em passa-alta de forma adicional e, opcionalmente, pré-enfatizado para quadros de voz e de início. Como para a parte de passa-baixa do harmônico, esse filtro (por exemplo, o filtro passa-alta) é dependente de taxa de amostragem. Esse ruído (o qual é fornecido, por exemplo, por uma geração de ruído 560) será modelado pelo LPC (por exemplo, pela síntese de LPC 580) para chegar tão próximo ao ruído de fundo quanto possível. A característica de passa-alta também é mudada opcionalmente durante perda de quadro consecutiva de modo que após uma certa quantidade de perda de quadro não haja mais filtragem para obter apenas o ruído modelado de banda completa para obter um ruído de conforto aproximado ao ruído de fundo.
[0175] Um ganho de inovação (que pode, por exemplo, determinar um ganho do ruído 562 na combinação/esmaecimento 570, isto é um ganho com o uso do qual o sinal de ruído 562 é incluído no sinal de entrada 572 da síntese de LPC) é, por exemplo, calculado removendo-se a contribuição computada previamente do tom (caso exista) (por exemplo, uma versão colocada em escala, colocada em escala com o uso do “ganho de tom”, do sinal de excitação de domínio de tempo obtido com base no último quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido) e fazendo-se uma correlação na extremidade do último quadro bom. Como para o tom ganho, isso podería ser feito opcionalmente apenas no primeiro quadro perdido e, então, esmaecimento, mas nesse caso o esmaecimento podería ir para 0, o que resulta em um silenciamento completo, ou para um nível de ruído estimado presente no fundo. O comprimento da correlação é, por exemplo,
Petição 870180127015, de 05/09/2018, pág. 47/244
40/74 equivalente ao comprimento de dois subquadros e o atraso é equivalente ao atraso de tom usado para a criação da parte de harmônico.
[0176] Opcionalmente, esse ganho também é multiplicado por (1 -“ganho de tom”) para aplicar o ganho suficiente no ruído para alcançar a energia faltante caso o ganho de tom não seja um. Opcionalmente, esse ganho também é multiplicado por um fator de ruído. Esse fator de ruído vem, por exemplo, do quadro válido anterior (por exemplo, do último quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido).
5.5.6. ESMAECIMENTO [0177] O esmaecimento é usado principalmente para múltiplas perdas de quadro. No entanto, o esmaecimento também pode ser usado no caso em que apenas um único quadro de áudio é perdido.
[0178] No caso de uma perda de quadro múltipla, os parâmetros de LPC não são recalculados. O último computado é mantido, ou ocultação de LPC é feita convergindo-se para um formato de fundo. Nesse caso, a periodicidade do sinal é convergida para zero. Por exemplo, o sinal de excitação de domínio de tempo 552 obtido com base em um ou mais quadros de áudio que precedem um quadro de áudio perdido ainda usa um ganho que é gradualmente reduzido ao longo do tempo enquanto o sinal de ruído 562 é mantido constante ou colocado em escala com um ganho que é crescente gradualmente ao longo do tempo, de modo que o peso relativo do sinal de excitação de domínio de tempo 552 seja reduzido ao longo do tempo quando comparado ao peso relativo do sinal de ruído 562. Consequentemente, o sinal de entrada 572 da síntese de LPC 580 fica cada vez mais “semelhante a ruído”. Consequentemente, a “periodicidade” (ou, mais precisamente, o componente determinístico, ou pelo menos aproximadamente periódico do sinal de saída 582 da síntese de LPC 580) é reduzida ao longo do tempo.
[0179] A velocidade da convergência de acordo com a qual a periodicidade do sinal 572, e/ou a periodicidade do sinal 582, é convergida para 0 é dependente dos parâmetros do último quadro recebido corretamente (ou decodificado apropriadamente) e/ou do número de quadros apagados consecutivos, e é controlado por um fator de atenuação, α. O fator, a, é dependente adicionalmente da estabilidade do filtro de LP. Opcionalmente, é possível alterar o fator α em razão com o comprimento de tom. Caso o tom (por exemplo, um comprimento de período
Petição 870180127015, de 05/09/2018, pág. 48/244
41/74 associado com o tom) seja realmente longo, então mantém-se α “normal”, mas caso o tom seja realmente curto, tipicamente é necessário copiar várias vezes a mesma parte de excitação passada. Isso rapidamente soará muito artificial, e, portanto, é preferido esmaecimento mais rápido desse sinal.
[0180] Além disso, opcionalmente, caso disponível, pode-se levar em conta a saída de predição de tom. Caso um tom seja predito, isso significa que o tom já estava mudando no quadro anterior e, então, quanto mais quadros se perde, mais distante se está da verdade. Portanto, é preferido acelerar um pouco o esmaecimento da parte tonal nesse caso.
[0181] Caso a predição de tom falhe devido ao tom estar mudando muito, isso significa que os valores de tom não são realmente confiáveis ou que o sinal é realmente imprevisível. Portanto, novamente, é preferido esmaecimento mais rápido (por exemplo, esmaecer mais rápido o sinal de excitação de domínio de tempo 552 obtido com base em um ou mais quadros de áudio decodificados apropriadamente que precedem o um ou mais quadros de áudio perdidos).
5.5.7. SÍNTESE DE LPC [0182] Para voltar ao domínio de tempo, é preferido realizar uma síntese de LPC 580 na soma das duas excitações (parte tonal e parte de ruído) seguida por uma de-ênfase. Dito de forma diferente, é preferido realizar a síntese de LPC 580 com base em um combinação ponderada de um sinal de excitação de domínio de tempo 552 obtido com base em um ou mais quadros de áudio decodificados apropriadamente, que precede o quadro de áudio perdido, (parte tonal) e o sinal de ruído 562 (parte de ruído). Conforme mencionado acima, o sinal de excitação de domínio de tempo 552 pode ser modificado quando comparado ao sinal de excitação de domínio de tempo 532 obtido pela análise de LPC 530 (além de coeficientes de LPC que descrevem uma característica do filtro de síntese de LPC usado para a síntese de LPC 580). Por exemplo, o sinal de excitação de domínio de tempo 552 pode ser um cópia em escala de tempo do sinal de excitação de domínio de tempo 532 obtida pela análise de LPC 530, em que o dimensionamento de tempo pode ser usado para adaptar o tom do sinal de excitação de domínio de tempo 552 para um tom desejado.
5.5.8. SOBREPOSIÇÃO E ADIÇÃO [0183] No caso de uma codec de transformada apenas, para obter a
Petição 870180127015, de 05/09/2018, pág. 49/244
42/74 melhor sobreposição-adição cria-se um sinal artificial para meio quadro mais do que o quadro oculto e cria-se serrilhado artificial no mesmo. No entanto, conceitos de sobreposição-adição diferentes podem ser aplicados.
[0184] No contexto de AAC ou TCX regular, uma sobreposição e adição é aplicada entre a metade extra de quadro que vem a partir da ocultação e a primeira parte do primeiro quadro bom (poderia ser metade ou menos para reduzir janelas de atraso como AAC-LD).
[0185] No caso especial de ELD (atraso extra baixo), para o primeiro quadro perdido, é preferido executar a análise três vezes para obter a contribuição apropriada das últimas três janelas e, então, para o primeiro quadro de ocultação e todos os seguinte para os quais a análise é executada mais uma vez. Então uma síntese de ELD é feita para estar de volta em domínio de tempo com toda a memória apropriada para o quadro seguinte no domínio de MDCT.
[0186] Em conclusão, o sinal de entrada 572 da síntese de LPC 580 (e/ou o sinal de excitação de domínio de tempo 552) pode ser fornecido por uma duração temporal que é mais longa do que uma duração de um quadro de áudio perdido. Consequentemente, o sinal de saída 582 da síntese de LPC 580 também pode ser fornecida por um período de tempo que é mais longo do que um quadro de áudio perdido. Consequentemente, uma sobreposição e adição pode ser realizada entre as informações de áudio de ocultação de erro (que é consequentemente obtida por um período de tempo mais longo do que uma extensão temporal do quadro de áudio perdido) e uma informação de áudio decodificada fornecida para um quadro de áudio decodificado apropriadamente que segue um ou mais quadros de áudio perdidos.
5.6 OCULTAÇÃO DE DOMÍNIO DE TEMPO DE ACORDO COM A FIGURA 6 [0187] A Figura 6 mostra um diagrama de blocos esquemático de uma ocultação no domínio de tempo que pode ser usada para um codec de comutação. Por exemplo, a ocultação no domínio de tempo 600 de acordo com a Figura 6 pode, por exemplo, tomar o lugar da ocultação de erro de domínio de tempo 106, por exemplo na ocultação de erro 380 da Figura 3 ou da Figura 4.
[0188] No caso de um codec comutado (e ainda no caso de um codec que meramente realiza a decodificação no domínio de coeficiente de predição linear) usualmente já se tem o sinal de excitação (por exemplo, o sinal de excitação de
Petição 870180127015, de 05/09/2018, pág. 50/244
43/74 domínio de tempo) que vem de um quadro anterior (por exemplo, um quadro de áudio decodificado apropriadamente que precede um quadro de áudio perdido). Caso contrário (por exemplo, caso o sinal de excitação de domínio de tempo não esteja disponível), é possível fazer conforme explicado na modalidade de acordo com a Figura 5, isto é, realizar uma análise de LPC. Caso o quadro anterior fosse semelhante a ACELP, também já se tem as informações de tom dos subquadros no último quadro. Caso o último quadro fosse TCX (excitação codificada em transformada) com LTP (predição de longo prazo) também se tem as informações de atraso que vêm da predição de longo prazo. E caso o último quadro estivesse no domínio de frequência sem predição de longo prazo (LTP) então a busca de tom é preferencialmente, feita diretamente no domínio de excitação (por exemplo, com base em um sinal de excitação de domínio de tempo fornecido por uma análise de LPC).
[0189] Caso o decodificador já esteja usando alguns parâmetros de LPC no domínio de tempo, reutiliza-se os mesmos e extrapola-se um novo conjunto de parâmetros de LPC. A extrapolação dos parâmetros de LPC é com base no LPC passado, por exemplo, a média dos últimos três quadros e (opcionalmente) o formato de LPC derivado durante a estimativa de ruído de DTX caso DTX (transmissão descontínua) exista no codec.
[0190] Toda a ocultação é feita no domínio de excitação para obter transição mais suave entre quadros consecutivos.
[0191] A seguir, a ocultação de erro 600 de acordo com a Figura 6 será descrita em mais detalhes.
[0192] A ocultação de erro 600 recebe uma excitação passada 610 e uma informação de tom passada 640. Além disso, a ocultação de erro 600 fornece uma informação de áudio de ocultação de erro 612.
[0193] Deve ser observado que a excitação passada 610 recebida pela ocultação de erro 600 pode, por exemplo, corresponder à saída 532 da análise de LPC 530. Além disso, as informações de tom passadas 640 podem, por exemplo, corresponder às informações de saída 542 da busca de tom 540.
[0194] A ocultação de erro 600 compreende adicionalmente uma extrapolação 650, a qual pode corresponder à extrapolação 550, de modo que referência é feita à discussão acima.
[0195] Além disso, a ocultação de erro compreende um gerador de ruído
Petição 870180127015, de 05/09/2018, pág. 51/244
44/74
660, o qual pode corresponder ao gerador de ruído 560, de modo que referência é feita à discussão acima.
[0196] A extrapolação 650 fornece um sinal de excitação de domínio de tempo extrapolado 652, o qual pode corresponder ao sinal de excitação de domínio de tempo extrapolado 552. O gerador de ruído 660 fornece um sinal de ruído 662, o qual corresponde ao sinal de ruído 562.
[0197] A ocultação de erro 600 também compreende um combinador/atenuador 670, o qual recebe o sinal de excitação de domínio de tempo extrapolado 652 e o sinal de ruído 662 e fornece, com base nos mesmos, um sinal de entrada 672 para uma síntese de LPC 680, em que a síntese de LPC 680 pode corresponder à síntese de LPC 580, de modo que as explicações acima também se aplicam. A síntese de LPC 680 fornece um sinal de áudio de domínio de tempo 682, o qual pode corresponder ao sinal de áudio de domínio de tempo 582. A ocultação de erro também compreende (opcionalmente) uma de-ênfase 684, a qual pode corresponder à de-ênfase 584 e que fornece um sinal de áudio de domínio de tempo de ocultação de erro de-enfatizado 686. A ocultação de erro 600 compreende, opcionalmente, uma sobreposição e adição 690, a qual pode corresponder à sobreposição e adição 590. No entanto, as explicações acima com relação à sobreposição e adição 590 também se aplicam à sobreposição e adição 690. Em outras palavras a sobreposição e adição 690 também pode ser substituída pela sobreposição e adição geral do decodificador de áudio, de modo que o sinal de saída 682 da síntese de LPC ou o sinal de saída 686 da de-ênfase possa ser considerado como as informações de áudio de ocultação de erro.
[0198] Em conclusão, a ocultação de erro 600 difere substancialmente da ocultação de erro 500 em que a ocultação de erro 600 obtém diretamente as informações de excitação passadas 610 e as informações de tom passadas 640 diretamente de um ou mais quadros de áudio decodificados previamente sem a necessidade de realizar uma análise de LPC e/ou uma análise de tom. No entanto, deve ser observado que a ocultação de erro 600 pode, opcionalmente, compreender uma análise de LPC e/ou uma análise de tom (busca de tom).
[0199] A seguir, alguns detalhes da ocultação de erro 600 serão descritos em mais detalhes. No entanto, deve ser observado que os detalhes específicos devem ser considerados como exemplos, em vez de como recursos
Petição 870180127015, de 05/09/2018, pág. 52/244
45/74 essenciais.
5.6.1. TOM PASSADO DE BUSCA DE TOM [0200] Há abordagens diferentes para obter o tom a ser usado para construir o novo sinal.
[0201] No contexto do codec com o uso de filtro de LPT, como AAC-LTP, caso o último quadro (que precede o quadro perdido) fosse AAC com LTP, se tem as informações de tom que vem do último atraso de tom de LTP e o ganho correspondente. Nesse caso usa-se o ganho para decidir quanto à possibilidade de construção da parte de harmônico no sinal. Por exemplo, caso o ganho de LTP seja superior a 0,6 então usa-se as informações de LTP para construir a parte de harmônico.
[0202] Caso não se tenha quaisquer informações de tom disponíveis do quadro anterior, então há, por exemplo, duas outras soluções.
[0203] Uma solução é fazer uma busca de tom no codificador e transmitir no fluxo de bits o atraso de tom e o ganho. Isso é similar à predição de longo prazo (LTP), mas não se aplica qualquer filtragem (também nenhuma filtragem de LTP no canal limpo).
[0204] Outra solução é realizar uma busca de tom no decodificador. A busca de tom AMR-WB em caso de TCX é feita no domínio de FFT. Em TCX por exemplo, usa-se o domínio de MDCT, então as fases estão sendo perdidas. Portanto, a busca de tom é feita diretamente no domínio de excitação (por exemplo, com base no sinal de excitação de domínio de tempo usado como a entrada da síntese de LPC, ou usado para derivar a entrada para a síntese de LPC) em uma modalidade preferida. Isso tipicamente fornece resultados melhores do que fazer a busca de tom no domínio de síntese (por exemplo, com base em um sinal de áudio de domínio de tempo totalmente decodificado).
[0205] A busca de tom no domínio de excitação (por exemplo, com base no sinal de excitação de domínio de tempo) é feita primeiro com um ciclo aberto por uma correlação cruzada normalizada. Então, opcionalmente, a busca de tom pode ser refinada fazendo-se uma busca de ciclo fechado em torno do tom de ciclo aberto com um certo delta.
[0206] Em implantações preferidas, não se considera simplesmente um valor máximo da correlação. Caso se tenha uma informação de tom a partir de um
Petição 870180127015, de 05/09/2018, pág. 53/244
46/74 quadro anterior não sujeito a erro, então seleciona-se o tom que corresponde a um dos cinco valores mais altos no domínio de correlação cruzada normalizada, mas o mais próximo ao tom de quadro anterior. Então, também é verificado que o máximo encontrado não é um máximo errado devido à limitação de janela.
[0207] Em conclusão, há conceitos diferentes para determinar o tom, em que é computacionalmente eficiente considerar um tom passado (isto é tom associado com um quadro de áudio decodificado previamente). Alternativamente, as informações de tom podem ser transmitidas de um codificador de áudio para um decodificador de áudio. Como outra alternativa, uma busca de tom pode ser realizada no lado do decodificador de áudio, em que a determinação de tom é, preferencialmente, realizada com base no sinal de excitação de domínio de tempo (isto é no domínio de excitação). Uma busca de tom de dois estágios que compreende uma busca de ciclo aberto e uma busca de ciclo fechado pode ser realizada a fim de obter uma informação de tom particularmente confiável e precisa. Alternativa ou adicionalmente, uma informação de tom de um quadro de áudio decodificado previamente pode ser usada a fim de garantir que a busca de tom forneça um resultado confiável.
5.6.2. EXTRAPOLAÇÃO DA EXCITAÇÃO OU CRIAÇÃO DA PARTE DE HARMÔNICO [0208] A excitação (por exemplo, na forma de um sinal de excitação de domínio de tempo) obtida a partir do quadro anterior (apenas computada para quadro perdido ou já salva no quadro perdido anterior para múltiplas perdas de quadro) é usada para construir a parte de harmônico na excitação (por exemplo, o sinal de excitação de domínio de tempo extrapolado 662) copiando-se o último ciclo de tom (por exemplo, uma porção do sinal de excitação de domínio de tempo 610, uma duração temporal do qual é igual a um período duração do tom) tantas vezes quanto necessário para obter, por exemplo, um quadro e meio (perdido).
[0209] Para obter ainda resultados melhores, é, opcionalmente, possível reutilizar algumas ferramentas conhecidas do estado da técnica e adaptá-las. Pode ser feita referência, por exemplo, a referência [4] e/ou a referência [5].
[0210] Foi constatado que o tom em um sinal de voz está quase sempre mudando. Foi constatado que, portanto, a ocultação apresentada acima tende a criar alguns problemas na recuperação devido ao tom no final do sinal oculto
Petição 870180127015, de 05/09/2018, pág. 54/244
47/74 frequentemente não corresponder ao tom do primeiro quadro bom. Portanto, opcionalmente, tenta-se predizer o tom no final do quadro oculto para corresponder ao tom no início do quadro de recuperação. Essa funcionalidade será realizada, por exemplo, pela extrapolação 650.
[0211] Caso LTP em TCX seja usado, o atraso pode ser usado como as informações de partida sobre o tom. No entanto, é desejável ter uma granularidade melhor para ser capaz de rastrear melhor o contorno do tom. Portanto, uma busca de tom é feita, opcionalmente, no início e no final do último quadro bom. Para adaptar o sinal ao tom móvel, uma ressincronização de pulso, a qual está presente no estado da técnica, pode ser usada.
[0212] Em conclusão, a extrapolação (por exemplo, do sinal de excitação de domínio de tempo associado com, ou obtido com base em, um último quadro de áudio decodificado apropriadamente que precede o quadro perdido) pode compreender uma cópia de uma porção de tempo do dito sinal de excitação de domínio de tempo associado com um quadro anterior de áudio, em que a porção de tempo copiada pode ser modificada na dependência de uma computação, ou estimativa, de uma mudança de tom (esperada) durante o quadro de áudio perdido. Conceitos diferentes estão disponíveis para determinar a mudança de tom.
5.6.3. GANHO DE TOM [0213] Na modalidade de acordo com a Figura 6, um ganho é aplicado na excitação obtida previamente a fim de alcançar um nível desejado. O ganho do tom é obtido, por exemplo, fazendo-se uma correlação normalizada no domínio de tempo no final do último quadro bom. Por exemplo, o comprimento da correlação pode ser equivalente ao comprimento de dois subquadros e o atraso pode ser equivalente ao atraso de tom usado para a criação da parte de harmônico (por exemplo, para copiar o sinal de excitação de domínio de tempo). Foi constatado que fazer o cálculo de ganho no domínio de tempo proporciona ganho muito mais confiável do que fazê-lo no domínio de excitação. A LPC está mudando a cada quadro e, então, aplicar um ganho, calculado no quadro anterior, em um sinal de excitação que será processado por um outro conjunto de LPC, não dará a energia esperada no domínio de tempo.
[0214] O ganho do tom determina a quantidade de tonalidade que será criada, mas algum ruído modelado também será adicionado para não ter apenas um tom artificial. Caso um ganho muito baixo de tom seja obtido, então pode ser
Petição 870180127015, de 05/09/2018, pág. 55/244
48/74 construído um sinal que consiste apenas em um ruído modelado.
[0215] Em conclusão, um ganho que é aplicado para colocar em escala o sinal de excitação de domínio de tempo obtido com base no quadro anterior (ou um sinal de excitação de domínio de tempo que é obtido para um quadro decodificado previamente, ou que é associado ao quadro decodificado previamente) é ajustado para, desse modo, determinar uma ponderação de um componente tonal (ou determinístico, ou pelo menos aproximadamente periódico) dentro do sinal de entrada da síntese de LPC 680, e, consequentemente, dentro das informações de áudio de ocultação de erro. O dito ganho pode ser determinado com base em uma correlação, que é aplicada ao sinal de áudio de domínio de tempo obtida por uma decodificação do quadro decodificado previamente (em que o dito sinal de áudio de domínio de tempo pode ser obtido com o uso de uma síntese de LPC que é realizada no curso da decodificação).
5.6.4. CRIAÇÃO DA PARTE DE RUÍDO [0216] Uma inovação é criada por um gerador de ruído aleatório 660. Esse ruído é adicionalmente filtrado em passa-alta e, opcionalmente, pré-enfatizado para quadros de voz e de início. A filtragem passa-alta e a pré-ênfase, as quais podem ser realizadas seletivamente para quadros de voz e de início, não são mostradas explicitamente na Figura 6, mas podem ser realizadas, por exemplo, dentro do gerador de ruído 660 ou dentro do combinador/atenuador 670.
[0217] O ruído será modelado (por exemplo, após a combinação com o sinal de excitação de domínio de tempo 652 obtido pela extrapolação 650) pela LPC para chegar tão próximo ao ruído de fundo quanto possível.
[0218] Por exemplo, o ganho de inovação pode ser calculado removendo-se a contribuição computada previamente do tom (caso exista) e fazendose uma correlação no final do último quadro bom. O comprimento da correlação pode ser equivalente ao comprimento de dois subquadros e o atraso pode ser equivalente ao atraso de tom usado para a criação da parte de harmônico.
[0219] Opcionalmente, esse ganho também pode ser multiplicado por (1 ganho de tom) para aplicar ganho suficiente no ruído para alcançar a energia que falta caso o ganho do tom não seja um. Opcionalmente, esse ganho também é multiplicado por um fator de ruído. Esse fator de ruído pode vir de um quadro válido anterior.
[0220] Em conclusão, um componente de ruído das informações de
Petição 870180127015, de 05/09/2018, pág. 56/244
49/74 áudio de ocultação de erro é obtido modelando-se ruído fornecido pelo gerador de ruído 660 com o uso da síntese de LPC 680 (e, possivelmente, a de-ênfase 684). Além disso, uma filtragem passa-alta e/ou pré-ênfase adicional pode ser aplicada. O ganho da contribuição de ruído para o sinal de entrada 672 da síntese de LPC 680 (também designada como “ganho de inovação”) pode ser computado com base no último quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido, em que um componente determinístico (ou pelo menos aproximadamente periódico) pode ser removido do quadro de áudio que precede o quadro de áudio perdido, e em que uma correlação pode, então, ser realizada para determinar a intensidade (ou ganho) do componente de ruído dentro do sinal de domínio de tempo decodificado do quadro de áudio que precede o quadro de áudio perdido.
[0221] Opcionalmente, algumas modificações adicionais podem ser aplicadas ao ganho do componente de ruído.
5.6.5. ESMAECIMENTO [0222] O esmaecimento é usado principalmente para múltiplas perdas de quadro. No entanto, o esmaecimento também pode ser usado no caso em que apenas um único quadro de áudio é perdido.
[0223] No caso de uma perda de quadro múltipla, os parâmetros de LPC não são recalculados. O último computado é mantido ou uma ocultação de LPC é realizada conforme explicado acima.
[0224] Uma periodicidade do sinal é convergida para zero. A velocidade da convergência é dependente dos parâmetros do último quadro recebido corretamente (ou decodificado corretamente) e do número de quadros consecutivos apagados (ou perdidos), e é controlado por um fator de atenuação, α. O fator, a, é dependente adicionalmente da estabilidade do filtro de LP. Opcionalmente, o fator α pode ser alterado em razão com o comprimento de tom. Por exemplo, caso o tom seja realmente longo então α pode ser mantido normal, mas se o tom for realmente curto, pode ser desejável (ou necessário) copiar várias vezes a mesma parte de excitação passada. Uma vez que foi constatado que esse soará rapidamente muito artificial, o sinal é, portanto, esmaecido mais rápido.
[0225] Ademais, opcionalmente, é possível levar em conta a saída de predição de tom. Caso um tom seja predito, it significa que o tom já havia mudando no quadro anterior e, então, quanto mais quadros são perdidos mais distante se está
Petição 870180127015, de 05/09/2018, pág. 57/244
50/74 da verdade. Portanto, é desejável acelerar um pouco o esmaecimento da parte tonal nesse caso.
[0226] Caso a predição de tom falhe devido ao tom estar mudando muito, isso significa que os valores de tom não são realmente confiáveis ou que o sinal é realmente imprevisível. Portanto, novamente deve-se esmaecer mais rápido.
[0227] Em conclusão, a contribuição do sinal de excitação de domínio de tempo extrapolado 652 para o sinal de entrada 672 da síntese de LPC 680 é tipicamente reduzida ao longo do tempo. Isso pode ser alcançado, por exemplo, reduzindo-se um valor de ganho, o qual é aplicado ao sinal de excitação de domínio de tempo extrapolado 652, ao longo do tempo. A velocidade usada para reduzir gradualmente o ganho aplicado para colocar em escala o sinal de excitação de domínio de tempo 652 obtido com base em um ou mais quadros de áudio que precedem um quadro de áudio perdido (ou uma ou mais cópias do mesmo) é ajustada na dependência de um ou mais parâmetros do um ou mais quadros de áudio (e/ou na dependência de um número de quadros de áudio perdidos consecutivos). Em particular, o comprimento de tom e/ou a taxa em que o tom muda ao longo do tempo e/ou a questão de se uma predição de tom falha ou é bem sucedida, podem ser usados para ajustar a dita velocidade.
5.6.6. SÍNTESE DE LPC [0228] Para voltar ao domínio de tempo, uma síntese de LPC 680 é realizada na soma (ou, em geral, combinação ponderada) das duas excitações (parte tonal 652 e parte de ruído 662) seguida pela de-ênfase 684.
[0229] Em outras palavras, o resultado da combinação ponderada (esmaecimento) do sinal de excitação de domínio de tempo extrapolado 652 e do sinal de ruído 662 forma um sinal de excitação de domínio de tempo combinado e é inserido na síntese de LPC 680, a qual pode, por exemplo, realizar uma filtragem de síntese com base no dito sinal de excitação de domínio de tempo combinado 672 na dependência de coeficientes de LPC que descrevem o filtro de síntese.
5.6.7. SOBREPOSIÇÃO E ADIÇÃO [0230] Uma vez que não é conhecido durante a ocultação qual será o modo do próximo quadro a chegar (por exemplo, ACELP, TCX ou FD), é preferido preparar diferentes sobreposições antecipadamente. Para obter a melhor sobreposição e adição caso o próximo quadro esteja em um domínio de transformada
Petição 870180127015, de 05/09/2018, pág. 58/244
51/74 (TCX ou FD) um sinal artificial (por exemplo, uma informação de áudio de ocultação de erro) pode, por exemplo, ser criado para meio quadro mais do que o quadro oculto (perdido). Além disso, serrilhado artificial pode ser criado no mesmo (em que o serrilhado artificial pode, por exemplo, ser adaptado para a sobreposição e adição de MDCT).
[0231] Para obter uma boa sobreposição e adição e nenhuma descontinuidade com o quadro futuro no domínio de tempo (ACELP), faz-se acima, mas sem serrilhado, para ser capaz de aplicar janelas de adição e sobreposição longas ou caso se queira usar uma janela quadrada, a resposta de entrada zero (ZIR) é computada no final do armazenamento temporário de síntese.
[0232] Em conclusão, em um decodificador de áudio de comutação (que pode, por exemplo, comutar entre uma decodificação de ACELP, uma decodificação de TCX e uma decodificação de domínio de frequência (decodificação de FD)), uma sobreposição e adição pode ser realizada entre as informações de áudio de ocultação de erro que são fornecidas primariamente para um quadro de áudio perdido, mas também por uma certa porção de tempo que segue o quadro de áudio perdido, e as informações de áudio decodificadas fornecidas para o primeiro quadro de áudio decodificado apropriadamente que segue uma sequência de um ou mais quadros de áudio perdidos. A fim de obter uma sobreposição e adição apropriada ainda para modos de decodificação que trazem junto um domínio de tempo serrilhado em uma transição entre quadros de áudio subsequentes, uma informação de cancelamento de serrilhado (por exemplo, designada como artificial serrilhado) pode ser fornecida. Consequentemente, uma sobreposição e adição entre as informações de áudio de ocultação de erro e as informações de áudio de domínio de tempo obtidas com base no primeiro quadro de áudio decodificado apropriadamente, que segue um quadro de áudio perdido, resulta em um cancelamento de serrilhado.
[0233] Caso o primeiro quadro de áudio decodificado apropriadamente que segue a sequência de um ou mais quadros de áudio perdidos seja codificado no modo ACELP, uma informação de sobreposição específica pode ser computada, a qual pode ter como base uma resposta de entrada zero (ZIR) de um filtro de LPC.
[0234] Em conclusão, a ocultação de erro 600 é bem adequada para uso em um codec de áudio de comutação. No entanto, a ocultação de erro 600 também pode ser usada em um codec de áudio que meramente decodifica um conteúdo de
Petição 870180127015, de 05/09/2018, pág. 59/244
52/74 áudio codificado em um modo TCX ou em um modo ACELP.
5.6.8 CONCLUSÃO [0235] Deve ser observado que uma ocultação de erro particularmente boa é alcançada pelo conceito mencionado acima para extrapolar um sinal de excitação de domínio de tempo, para combinar o resultado da extrapolação com um sinal de ruído com o uso de um esmaecimento (por exemplo, um esmaecimento cruzado) e para realizar uma síntese de LPC com base em um resultado de um esmaecimento cruzado.
5.7 OCULTAÇÃO DE DOMÍNIO DE FREQUÊNCIA DE ACORDO COM A FIGURA 7 [0236] Uma ocultação no domínio de frequência é representada na Figura 7. Na etapa 701 é determinado (por exemplo, com base em CRC ou em uma estratégia similar) se as informações de áudio atuais contêm um quadro decodificado apropriadamente. Caso o resultado da determinação seja positivo, um valor espectral do quadro decodificado apropriadamente é usado como informações de áudio apropriadas em 702. O espectro é gravado em um armazenamento temporário 703 para uso adicional (por exemplo, para que quadros decodificados incorretamente futuros sejam, portanto, ocultos).
[0237] Caso o resultado da determinação seja negativo, na etapa 704 uma representação espectral gravada previamente 705 do quadro de áudio decodificado apropriadamente anterior (salva em um armazenamento temporário na etapa 703 em um ciclo anterior) é usada para substituir o quadro de áudio corrompido (e descartado).
[0238] Em particular, um copiador e aplicador de escala 707 copia e coloca em escala valores espectrais dos compartimentos de frequência (ou compartimentos espectrais) nas faixas de frequência 705a, 705b, ..., da representação espectral gravada de forma apropriada previamente 705 do quadro de áudio decodificado apropriadamente anterior, para obter valores dos compartimentos de frequência (ou compartimentos espectrais) 706a, 706b, ..., para serem usados em lugar do quadro de áudio corrompido.
[0239] Cada um dos valores espectrais pode ser multiplicado por um respectivo coeficiente de acordo com as informações específicas portadas pela banda. Além disso, fatores de amortecimento 708 entre 0 e 1 podem ser usados para
Petição 870180127015, de 05/09/2018, pág. 60/244
53/74 amortecer o sinal para reduzir iterativamente a força do sinal no caso de ocultações consecutivas. Além disso, ruído pode ser adicionado opcionalmente aos valores espectrais 706.
5.8.A) OCULTAÇÃO DE ACORDO COM A FIGURA 8A [0240] A Figura 8a mostra um diagrama de blocos esquemático de uma ocultação de erro, de acordo com uma modalidade da presente invenção. A unidade de ocultação de erro de acordo com a Figura 8a é designada em sua totalidade como 800 e pode incorporar qualquer uma das unidades de ocultação de erro 100, 230, 380 discutidas acima. A unidade de ocultação de erro 800 fornece uma informação de áudio de ocultação de erro 802 (que pode incorporar as informações 102, 232 ou 382 das modalidades discutidas acima) para ocultar uma perda de um quadro de áudio em uma informação de áudio codificada.
[0241] A unidade de ocultação de erro 800 pode ser entrada por um espectro 803 (por exemplo, o espectro do último espectro de quadro de áudio decodificado apropriadamente, ou, de maneira mais geral, o espectro de um espectro de quadro de áudio decodificado apropriadamente anterior, ou uma versão filtrada do mesmo) e uma representação de domínio de tempo 804 de um quadro (por exemplo, um último ou uma representação de domínio de tempo decodificada apropriadamente anterior de um quadro de áudio, ou um último ou um valor armazenado temporariamente de pcm anterior).
[0242] A unidade de ocultação de erro 800 compreende uma primeira parte ou trajetória (inserida pelo espectro 803 do quadro de áudio decodificado apropriadamente), a qual pode operar em (ou dentro de) uma primeira faixa de frequência, e uma segunda parte ou trajetória (inserida pela representação de domínio de tempo 804 do quadro de áudio decodificado apropriadamente), a qual pode operar em (ou dentro de) uma segunda faixa de frequência. A primeira faixa de frequência pode compreender frequências superiores às frequências da segunda faixa de frequência.
[0243] A Figura 14 mostra um exemplo de primeira faixa de frequência 1401 e um exemplo de segunda faixa de frequência 1402.
[0244] Uma ocultação no domínio de frequência 805 pode ser aplicada à primeira parte ou trajetória (à primeira faixa de frequência). Por exemplo, substituição de ruído dentro de um codec de áudio de AAC-ELD pode ser usada. Esse mecanismo
Petição 870180127015, de 05/09/2018, pág. 61/244
54/74 usa um espectro copiado do último quadro bom e adiciona ruído antes de uma transformada de cosseno distinta modificada inversa (IMDCT) ser aplicada para voltar ao domínio de tempo. O espectro oculto pode ser transformado para o domínio de tempo por meio de IMDCT.
[0245] A informação de áudio de ocultação de erro 802 fornecida pela unidade de ocultação de erro 800 é obtida como uma combinação de um primeiro componente de informações de áudio de ocultação de erro 807’ fornecido pela primeira parte e um segundo componente de informações de áudio de ocultação de erro 811’ fornecido pela segunda parte. Em algumas modalidades, o primeiro componente 807’ pode ser interpretado como representando uma porção de alta frequência de um quadro de áudio perdido, enquanto o segundo componente 811 ’ pode ser interpretado como representando uma porção de baixa frequência do quadro de áudio perdido.
[0246] A primeira parte da unidade de ocultação de erro 800 pode ser usada para derivar o primeiro componente 807’ com o uso de uma representação de domínio de transformada de uma porção de alta frequência de um quadro de áudio decodificado apropriadamente que precede um quadro de áudio perdido. A segunda parte da unidade de ocultação de erro 800 pode ser usada para derivar o segundo componente 811 ’ com o uso de uma síntese de sinal de domínio de tempo com base em uma porção de baixa frequência do quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido.
[0247] Preferencialmente, a primeira parte e a segunda parte da unidade de ocultação de erro 800 operam em paralelo (e/ou simultaneamente ou quase simultaneamente) entre si.
[0248] Na primeira parte, uma ocultação de erro de domínio de frequência 805 fornece uma primeira informação de áudio de ocultação de erro 805’ (representação de domínio espectral).
[0249] Uma transformada de cosseno distinta modificada inversa (IMDCT) 806 pode ser usada para fornecer uma representação de domínio de tempo 806’ da representação de domínio espectral 805’ obtida pela ocultação de erro de domínio de frequência 805, a fim de obter uma representação de domínio de tempo 806’ com base na primeira informação de áudio de ocultação de erro.
[0250] Como será explicado abaixo, é possível realizar a IMDCT duas
Petição 870180127015, de 05/09/2018, pág. 62/244
55/74 vezes para obter dois quadros consecutivos no domínio de tempo.
[0251] Na primeira parte ou trajetória, um filtro passa-alta 807 pode ser usado para filtrar a representação de domínio de tempo 806’ da primeira informação de áudio de ocultação de erro 805’ e para fornecer uma versão filtrada de alta frequência 807’. Em particular, o filtro passa-alta 807 pode ser posicionado a jusante da ocultação no domínio de frequência 805 (por exemplo, antes ou após a IMDCT 805). Em outras modalidades, o filtro passa-alta 807 (ou um filtro passa-alta adicional, que possa “cortar” alguns compartimentos espectrais de baixa frequência) pode ser posicionado antes da ocultação no domínio de frequência 805.
[0252] O filtro passa-alta 807 pode ser sintonizado, por exemplo, para uma frequência de corte entre 6 KHz e 10 KHz, preferencialmente, 7 KHz e 9 KHz, mais preferencialmente, entre 7,5 KHz e 8,5 KHz, ainda mais preferencialmente, entre 7,9 KHz e 8,1 KHz, e ainda mais preferencialmente, 8 KHz.
[0253] De acordo com algumas modalidades, é possível ajustar adaptativamente o sinal a um limite inferior de frequência do filtro passa-alta 807, para, desse modo, variar uma largura de banda da primeira faixa de frequência.
[0254] Na segunda parte (que é configurada para operar, pelo menos parcialmente, em frequências inferiores às frequências da primeira faixa de frequência) da unidade de ocultação de erro 800, uma ocultação de erro de domínio de tempo 809 fornece uma segunda informação de áudio de ocultação de erro 809’.
[0255] Na segunda parte, a montante da ocultação de erro de domínio de tempo 809, uma redução de resolução 808 fornece uma versão de resolução reduzida 808’ de uma representação de tempo-domínio 804 do quadro de áudio decodificado apropriadamente. A redução de resolução 808 permite obter uma representação de tempo-domínio de resolução reduzida 808’ do quadro de áudio 804 que precede o quadro de áudio perdido. Essa representação de tempo-domínio de resolução reduzida 808’ representa uma porção de baixa frequência do quadro de áudio 804.
[0256] Na segunda parte, a jusante da ocultação de erro de domínio de tempo 809, um aumento de resolução 810 fornece um versão de resolução aumentada 810’ da segunda informação de áudio de ocultação de erro 809’. Consequentemente, é possível aumentar a resolução as informações de áudio ocultas 809’ fornecidas pela ocultação no domínio de tempo 809, ou uma versão pós
Petição 870180127015, de 05/09/2018, pág. 63/244
56/74 processada das mesmas, a fim de obter o segundo componente de informações de áudio de ocultação de erro 811 [0257] A ocultação no domínio de tempo 809 é, portanto, preferencialmente, realizada com o uso de uma frequência de amostragem que é menor do que uma frequência de amostragem exigida para representar totalmente o quadro de áudio decodificado apropriadamente 804.
[0258] De acordo com uma modalidade, é possível ajustar adaptativamente o sinal a uma taxa de amostragem da representação de tempodomínio de resolução reduzida 808’, para, desse modo, variar uma largura de banda da segunda faixa de frequência.
[0259] Um filtro passa-baixa 811 pode ser fornecido para filtrar um sinal de saída 809’ da ocultação no domínio de tempo (ou o sinal de saída 810’ do aumento de resolução 810), a fim de obter o segundo componente de informações de áudio de ocultação de erro 811 ’.
[0260] De acordo com a invenção, o primeiro componente de informações de áudio de ocultação de erro (como emitido pelo filtro passa-alta 807, ou em outras modalidades pela IMDCT 806 ou pela ocultação no domínio de frequência 805) e o segundo componente de informações de áudio de ocultação de erro (como emitido pelo filtro passa-baixa 811 ou em outras modalidades pelo aumento de resolução 810 ou pela ocultação no domínio de tempo 809) podem ser compostos (ou combinados) entre si com o uso de um mecanismo de sobreposição e adição (OLA) 812.
[0261] Consequentemente, as informações de áudio de ocultação de erro 802 (que podem incorporar as informações 102, 232 ou 382 das modalidades discutidas acima) são obtidas.
5.8.B) OCULTAÇÃO DE ACORDO COM A FIGURA 8B [0262] A Figura 8b mostra uma variante 800b para a unidade de ocultação de erro 800 (todos os recursos da modalidade da Figura 8a podem se aplicar à presente variante, e, portanto, suas propriedades não são repetidas). Um controle (por exemplo, um controlador) 813 é fornecido para determinar e/ou variar adaptativamente o sinal da primeira e/ou da segunda faixas de frequência.
[0263] O controle 813 pode ser com base em características escolhidas entre características de um ou mais quadros de áudio codificados e características de
Petição 870180127015, de 05/09/2018, pág. 64/244
57/74 um ou mais quadros de áudio decodificados apropriadamente, tais como o último espectro 803 e o último valor armazenado temporariamente de pcm 804. O controle 813 também pode ser com base em dados agregados (valores integrais, valores médios, valores estatísticos, etc.) dessas entradas.
[0264] Em algumas modalidades, uma seleção 814 (por exemplo, obtida por meio de entrada apropriado tal como um teclado, um interface gráfica de usuário, um mouse, uma alavanca) pode ser fornecida. A seleção pode ser inserida por um usuário ou por um programa de computador que roda em um processador.
[0265] O controle 813 pode controlar (onde fornecido) o redutor de resolução 808, e/ou o elevador de resolução 810, e/ou o filtro passa-baixa 811, e/ou o filtro passa-alta 807. Em algumas modalidades, o controle 813 controla uma frequência de corte entre a primeira faixa de frequência e a segunda faixa de frequência.
[0266] Em algumas modalidades, o controle 813 pode obter informações sobre uma harmonicidade de um ou mais quadros de áudio decodificados apropriadamente e realizar o controle das faixas de frequência com base nas informações sobre uma harmonicidade. Além disso ou como alternativa, o controle 813 pode obter informações sobre uma inclinação espectral de um ou mais quadros de áudio decodificados apropriadamente e realizar o controle com base nas informações sobre a inclinação espectral.
[0267] Em algumas modalidades, o controle 813 pode escolher a primeira faixa de frequência e a segunda faixa de frequência de modo que a harmonicidade seja comparativamente menor na primeira faixa de frequência quando comparada à harmonicidade na segunda faixa de frequência.
[0268] É possível incorporar a invenção de modo que o controle 813 determine até qual frequência o quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, compreende uma harmonicidade que é mais forte do que um limiar de harmonicidade, e escolher a primeira faixa de frequência e a segunda faixa de frequência na dependência do mesmo.
[0269] De acordo com algumas implantações, o controle 813 pode determinar ou estimar uma borda de frequência na qual uma inclinação espectral do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, muda de uma inclinação espectral menor para uma inclinação espectral
Petição 870180127015, de 05/09/2018, pág. 65/244
58/74 maior, e escolher a primeira faixa de frequência e a segunda faixa de frequência na dependência da mesma.
[0270] Em algumas modalidades, o controle 813 determina ou estima se uma variação de uma inclinação espectral do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que um limiar de inclinação espectral predeterminado por uma dada faixa de frequência. A informação de áudio de ocultação de erro 802 é obtida com o uso da ocultação de tempo-domínio 809 apenas se for constatado que a variação de uma inclinação espectral do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que o limiar de inclinação espectral predeterminado.
[0271] De acordo com algumas modalidades, o controle 813 pode ajustar a primeira faixa de frequência e a segunda faixa de frequência, de modo que a primeira faixa de frequência cubra uma região espectral que compreende uma estrutura espectral semelhante a ruído, e de modo que a segunda faixa de frequência cubra uma região espectral que compreende uma estrutura espectral harmônica.
[0272] Em algumas implantações, o controle 813 pode adaptar uma extremidade de frequência inferior da primeira faixa de frequência e/ou uma extremidade de frequência superior da segunda faixa de frequência na dependência de uma relação de energia entre harmônicos e ruído.
[0273] De acordo com alguns aspectos preferidos da invenção, o controle 813 inibe seletivamente pelo menos uma dentre a ocultação no domínio de tempo 809 e a ocultação no domínio de frequência 805 e/ou realiza ocultação no domínio de tempo 809 apenas ou ocultação no domínio de frequência 805 apenas para obter as informações de áudio de ocultação de erro.
[0274] Em algumas modalidades, o controle 813 determina ou estima se uma harmonicidade do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que um limiar de harmonicidade predeterminado. As informações de áudio de ocultação de erro podem ser obtidas com o uso da ocultação de domínio de frequência 805 apenas se for constatado que a harmonicidade do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que o limiar de harmonicidade predeterminado.
[0275] Em algumas modalidades, o controle 813 adapta um tom de um quadro oculto com base em um tom de um quadro de áudio decodificado
Petição 870180127015, de 05/09/2018, pág. 66/244
59/74 apropriadamente, que precede um quadro de áudio perdido, e/ou na dependência de uma evolução temporal do tom no quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido, e/ou na dependência de uma interpelação do tom entre o quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, e um quadro de áudio decodificado apropriadamente, que segue o quadro de áudio perdido.
[0276] Em algumas modalidades, o controle 813 recebe dados (por exemplo, a frequência de transição ou dados relacionado à mesma) que são transmitidos pelo codificador. Consequentemente, o controle 813 pode modificar os parâmetros de outros blocos (por exemplo, blocos 807, 808, 810,811) para adaptar a primeira e a segunda faixa de frequência a um valor transmitido pelo codificador.
5.9. MÉTODO DE ACORDO COM A FIGURA 9 [0277] A Figura 9 mostra um fluxograma 900 de um método de ocultação de erro para fornecer uma informação de áudio de ocultação de erro (por exemplo, indicado com 102, 232, 382, e 802 nos exemplos anteriores) para ocultar uma perda de um quadro de áudio em uma informação de áudio codificada. O método compreende:
- em 910, fornecer um primeiro componente de informações de áudio de ocultação de erro (por exemplo, 103 ou 807’) para uma primeira faixa de frequência com o uso de uma ocultação no domínio de frequência (por exemplo, 105 ou 805),
- em 920 (que pode ser simultânea ou quase simultânea à etapa 910, e pode ser destinada a ser paralela à etapa 910), fornecer um segundo componente de informações de áudio de ocultação de erro (por exemplo, 104 ou 811’) para uma segunda faixa de frequência, que compreende (pelo menos algumas) frequências inferiores à primeira faixa de frequência, com o uso de uma ocultação no domínio de tempo (por exemplo, 106, 500, 600 ou 809), e
- em 930, combinar (por exemplo, 107 ou 812) o primeiro componente de informações de áudio de ocultação de erro e o segundo componente de informações de áudio de ocultação de erro, para obter as informações de áudio de ocultação de erro (por exemplo, 102, 232, 382 ou 802).
5.10. MÉTODO DE ACORDO COM A FIGURA 10 [0278] A Figura 10 mostra um fluxograma 1000 que é uma variante da Figura 9 em que o controle 813 da Figura 8b ou um controle similar é usado para
Petição 870180127015, de 05/09/2018, pág. 67/244
60/74 determinar e/ou variar adaptativamente o sinal da primeira e/ou da segunda faixas de frequência. Em relação ao método da Figura 9, essa variante compreende uma etapa 905 na qual a primeira e a segunda faixas de frequência são determinadas, por exemplo, com base em uma seleção de usuário 814 ou na comparação de um valor (por exemplo, um valor de inclinação ou um valor de harmonicidade) com um valor limiar.
[0279] Particularmente, a etapa 905 pode ser realizada tendo em conta os modos de operação de controle 813 (que podem ser alguns daqueles discutidos acima). Por exemplo, é possível que dados (por exemplo, uma frequência de transição) sejam transmitidos do codificador em um campo de dados particular. Nas etapas 910 e 920, a primeira e a segunda faixas de frequência são controladas (pelo menos parcialmente) pelo codificador.
5.11. CODIFICADOR DE ACORDO COM A FIGURA 19 [0280] A Figura 19 mostra um codificador de áudio 1900 que pode ser usado para incorporar a invenção de acordo com algumas modalidades.
[0281] O codificador de áudio 1900 fornece uma informação de áudio codificada 1904 com base em uma informação de áudio de entrada 1902. Particularmente, a representação de áudio codificada 1904 pode conter as informações de áudio codificadas 210, 310, 410.
[0282] Em uma modalidade, o codificador de áudio 1900 pode compreender um codificador de domínio de frequência 1906 configurado para fornecer uma representação de domínio de frequência codificada 1908 com base nas informações de áudio de entrada 1902. A representação de domínio de frequência codificada 1908 pode compreender valores espectrais 1910 e fatores de escala 1912, os quais podem corresponder às informações 422. A representação de domínio de frequência codificada 1908 pode incorporar as (ou uma parte das) informações de áudio codificadas 210, 310, 410.
[0283] Em uma modalidade, o codificador de áudio 1900 pode compreender (como uma alternativa ao codificador de domínio de frequência ou como uma substituição do codificador de domínio de frequência) um codificador de domínio de predição linear 1920 configurado para fornecer uma representação de domínio de predição linear codificada 1922 com base nas informações de áudio de entrada 1902. A representação de domínio de predição linear codificada 1922 pode conter uma
Petição 870180127015, de 05/09/2018, pág. 68/244
61/74 excitação 1924 e uma predição linear 1926, as quais podem corresponder à excitação codificada 426 e ao coeficiente de predição linear codificado 428. A representação de domínio de predição linear codificada 1922 pode incorporar as (ou uma parte das) informações de áudio codificadas 210, 310, 410.
[0284] O codificador de áudio 1900 pode compreender um determinador de frequência cruzada 1930 configurado para determinar uma informação de frequência de transição 1932. As informações de frequência de transição 1932 podem definir uma frequência de transição. A frequência de transição pode ser usada para discriminar entre uma ocultação de erro de domínio de tempo (por exemplo, 106, 809, 920) e uma ocultação de erro de domínio de frequência (por exemplo, 105, 805, 910) para ser usada no lado de um decodificador de áudio (por exemplo,100, 200, 300, 400, 800b).
[0285] O codificador de áudio 1900 pode ser configurado para incluir (por exemplo, com o uso de um combinador de fluxo de bits 1940) a representação de domínio de frequência codificada 1908 e/ou a representação de domínio de predição linear codificada 1922 e também as informações de frequência de transição 1930 na representação de áudio codificada 1904.
[0286] As informações de frequência de transição 1930, quando avaliadas no lado de um decodificador de áudio, podem ter o papel de fornecer comandos e/ou instruções para o controle 813 de uma unidade de ocultação de erro tal como a unidade de ocultação de erro 800b.
[0287] Sem repetir os recursos do controle 813, pode ser simplesmente estabelecido que as informações de frequência de transição 1930 podem ter as mesmas funções discutidas para o controle 813. Em outras palavras, as informações de frequência de transição podem ser usadas para determinar a frequência de transição, isto é a frequência limite entre ocultação de domínio de predição linear e ocultação de domínio de frequência. Assim quando recebe e usa as informações de frequência de transição, o controle 813 pode ser muito simplificado, uma vez que o controle não será mais responsável por determinar a frequência de transição nesse caso. Em vez disso, o controle pode precisar apenas ajustar os filtros 807,811 na dependência das informações de frequência de transição extraídas a partir da representação de áudio codificada pelo decodificador de áudio.
[0288] O controle pode ser, em algumas modalidades, compreendido
Petição 870180127015, de 05/09/2018, pág. 69/244
62/74 como subdividido em duas unidades (remotas) diferentes: um determinador de frequência cruzada do lado do codificador que determina as informações de frequência de transição 1930, as quais, por sua vez, determinam a frequência de transição, e um controlador do lado do decodificador 813, que recebe as informações de frequência de transição e opera definindo-se apropriadamente os componentes da unidade de ocultação de erro de decodificador 800b com base nas mesmas. Por exemplo o controlador 813 pode controlar (onde fornecido) o redutor de resolução 808, e/ou o elevador de resolução 810, e/ou o filtro passa-baixa 811, e/ou o filtro passaalta 807.
[0289] Consequentemente, em uma modalidade um sistema é formado com:
- um codificador de áudio 1900 que pode transmitir uma informação de áudio codificada que compreende as informações 1932 associadas a uma primeira faixa de frequência e a uma segunda faixa de frequência (por exemplo, uma informação de frequência de transição conforme descrito no presente documento);
- um decodificador de áudio que compreende:
o uma unidade de ocultação de erro 800b configurada para fornecer:
• um primeiro componente de informações de áudio de ocultação de erro 807’ para uma primeira faixa de frequência com o uso de uma ocultação no domínio de frequência; e • um segundo componente de informações de áudio de ocultação de erro 811 ’ para uma segunda faixa de frequência, que compreendem frequências inferiores à primeira faixa de frequência, com o uso de uma ocultação no domínio de tempo 809, o em que a unidade de ocultação de erro é configurada para realizar o controle (813) com base nas informações 1932 transmitidas pelo codificador 1900 o em que a unidade de ocultação de erro 800b é configurada adicionalmente para combinar o primeiro componente de informações de áudio de ocultação de erro 807’ e o segundo componente de informações de áudio de ocultação de erro 811 ’, para obter as informações de áudio de ocultação de erro 802.
[0290] De acordo com uma modalidade (que pode ser, por exemplo, realizada com o uso do codificador 1900 e/ou da unidade de ocultação 800b), a invenção fornece um método 2000 (Figura 20) para fornecer uma representação de áudio codificada (por exemplo, 1904) com base em uma informação de áudio de
Petição 870180127015, de 05/09/2018, pág. 70/244
63/74 entrada (por exemplo, 1902), sendo que o método compreende:
[0291] - uma etapa de codificação de domínio de frequência 2002 (por exemplo, realizada pelo bloco 1906) para fornecer uma representação de domínio de frequência codificada (por exemplo, 1908) com base nas informações de áudio de entrada, e/ou uma etapa de codificação de domínio de predição linear (por exemplo, realizada pelo bloco 1920) para fornecer uma representação de domínio de predição linear codificada (por exemplo, 1922) com base nas informações de áudio de entrada; e [0292] - uma etapa de determinação de frequência de transição 2004 (por exemplo, realizada pelo bloco 1930) para determinar uma informação de frequência de transição (por exemplo, 1932) a qual define uma frequência de transição entre uma ocultação de erro de domínio de tempo (por exemplo, realizada pelo bloco 809) e uma ocultação de erro de domínio de frequência (por exemplo, realizada pelo bloco 805) para ser usada no lado de um decodificador de áudio;
[0293] A etapa de codificação é configurada para incluir a representação de domínio de frequência codificada e/ou a representação de domínio de predição linear codificada e também as informações de frequência de transição na representação de áudio codificada.
[0294] Além disso, a representação de áudio codificada pode (opcionalmente) ser fornecida e/ou transmitida (etapa 2006) juntamente com as informações de frequência de transição incluídas nas mesmas para um receptor (decodificador), o qual pode decodificar as informações e, em caso de perda de quadro, realizar uma ocultação. Por exemplo, uma unidade de ocultação (por exemplo, 800b) do decodificador pode realizar as etapas 910 a 930 do método 1000 da Figura 10, enquanto a etapa 905 do método 1000 é incorporada pela etapa 2004 do método 2000 (ou em que a funcionalidade da etapa 905 é realizada no lado do codificador de áudio, e em que etapa 905 é substituída por avaliação das informações de frequência de transição incluídas na representação de áudio codificada).
[0295] A invenção também se refere a uma representação de áudio codificada (por exemplo, 1904), que compreende:
- uma representação de domínio de frequência codificada (por exemplo, 1908) que representa um conteúdo de áudio, e/ou uma representação de domínio de predição linear codificada (por exemplo, 1922) que representa um conteúdo de áudio;
Petição 870180127015, de 05/09/2018, pág. 71/244
64/74 e
- uma informação de frequência de transição (por exemplo, 1932) que define uma frequência de transição entre uma ocultação de erro de domínio de tempo e uma ocultação de erro de domínio de frequência para ser usada no lado de um decodificador de áudio.
5.12 ESMAECIMENTO [0296] Além disso para a revelação acima, a unidade de ocultação de erro pode esmaecer um quadro oculto. Com referência às Figuras 1, 8a e 8b, um esmaecimento pode ser operado na ocultação de FD 105 ou 805 (por exemplo, por dimensionamento de valores dos compartimentos de frequência nas faixas de frequência 705a, 705b pelos fatores de amortecimento 708 da Figura 7) para amortecer o primeiro componente de ocultação de erro 105 ou 807’. Um esmaecimento também pode ser operado na ocultação de TD 809 por dimensionamento de valores por fatores de amortecimento apropriados para amortecer o segundo componente de ocultação de erro 104 ou 811’ (consultar combinador/atenuador 570 ou seção 5.5.6 acima).
[0297] Além disso ou como alternativa, também é possível colocar em escala as informações de áudio de ocultação de erro 102 ou 802.
6. OPERAÇÃO DA INVENÇÃO [0298] Um exemplo de operação da invenção é fornecido aqui. Em um decodificador de áudio (por exemplo, o decodificador de áudio 200, 300 ou 400) algum quadro de dados pode ser perdido. Consequentemente, a unidade de ocultação de erro (por exemplo, 100, 230, 380, 800, 800b) é usada para ocultar quadros de dados perdidos com o uso de, para cada quadro de dados perdido, um quadro de áudio decodificado apropriadamente anterior.
[0299] A unidade de ocultação de erro (por exemplo, 100, 230, 380, 800, 800b) opera como segue:
- em uma primeira parte ou trajetória (por exemplo, para obter um primeiro componente de informações de áudio de ocultação de erro 807’ em uma primeira faixa de frequência), uma ocultação de erro de alta frequência de domínio de frequência do sinal perdido é realizada com o uso de uma representação de espectro de frequência (por exemplo, 803) de um quadro de áudio decodificado apropriadamente anterior;
- em paralelo e/ou simultaneamente (ou de forma substancialmente
Petição 870180127015, de 05/09/2018, pág. 72/244
65/74 simultânea), em uma segunda parte ou trajetória (para obter um segundo componente de informações de áudio de ocultação de erro em uma segunda faixa de frequência) uma ocultação de tempo-domínio é realizada para uma representação de tempodomínio (por exemplo 804) de um quadro de áudio decodificado apropriadamente anterior (por exemplo, um valor armazenado temporariamente de pcm).
[0300] Pode ser considerada a hipótese de que (por exemplo, para o filtro passa-alta 807 e o filtro passa-baixa 811) uma frequência de corte FSsaída/4 é definida (por exemplo, predefinida, pré-selecionada ou controlada, por exemplo, em uma forma semelhante à retroalimentação, por um controlador tal como o controlador 813), para que a maior parte das frequências da primeira faixa de frequência estejam sobre FSsaída/4 e a maior parte das frequências da segunda faixa de frequência estejam abaixo de FSsaída/4 (taxa de amostragem básica). FSsaída pode ser definida em um valor que pode ser, por exemplo entre 46KHz e 50 KHz, preferencialmente, entre 47 KHz e 49 KHz, e mais preferencialmente, 48 KHz.
[0301] FSsaída é normalmente (mas não necessariamente) superior (por exemplo 48 kHz) a 16 kHz (a taxa de amostragem básica).
[0302] Na segunda parte (baixa frequência) de uma unidade de ocultação de erro (por exemplo, 100, 230, 380, 800, 800b), as operações seguintes podem ser realizadas:
- em uma redução de resolução 808, uma representação de domínio de tempo 804 do quadro de áudio decodificado apropriadamente tem a resolução reduzida para a taxa de amostragem básica desejada (aqui 16 kHz);
- uma ocultação no domínio de tempo é realizada em 809 para fornecer um sinal sintetizado 809’;
- no aumento de resolução 810, o sinal sintetizado 809’ tem a resolução aumentada para fornecer o sinal 810’ na taxa de amostragem de saída (FSsaída);
- por fim, o sinal 810’ é filtrado com um filtro passa-baixa 811, preferencialmente, com uma frequência de corte (aqui 8kHz) que é metade da taxa de amostragem básica (por exemplo, 16 KHz).
[0303] Na primeira parte (alta frequência) de uma unidade de ocultação de erro, as operações seguintes podem ser realizadas:
- uma ocultação no domínio de frequência 805 oculta uma parte de alta frequência de um espectro de entrada (do quadro decodificado apropriadamente);
Petição 870180127015, de 05/09/2018, pág. 73/244
66/74
- o espectro 805’ emitido pela ocultação no domínio de frequência 805 é transformado para domínio de tempo (por exemplo, por meio de IMDCT 806) como um sinal sintetizado 806’;
- o sinal sintetizado 806’ é filtrado preferencialmente, com um filtro passaalta 807, com uma frequência de corte (8 KHz) de metade da taxa de amostragem básica (16 KHz).
[0304] Para combinar o componente de frequência superior (por exemplo, 103 ou 807’) com o componente de frequência inferior (por exemplo, 104 ou 811 ’), um mecanismo de sobreposição e adição (OLA) (por exemplo, 812) é usado no domínio de tempo. Para codec semelhante a AAC, mais do que um quadro (tipicamente um quadro e meio) tem que ser atualizado para um quadro oculto. Isso é devido ao método de análise e síntese da OLA ter um atraso de meio quadro. Uma metade de quadro adicional é necessária. Assim, a IMDCT 806 é chamada duas vezes para obter dois quadros consecutivos no domínio de tempo. Pode ser feita referência ao gráfico 1100 da Figura 11, o qual mostra a relação entre quadros ocultos 1101 e quadros perdidos 1102. Por fim, a parte de baixa frequência e alta frequência são resumidas e o mecanismo de OLA é aplicado.
[0305] Em particular com o uso do equipamento mostrado na Figura 8b ou com a implantação do método da Figura 10, é possível realizar uma seleção da primeira e da segunda faixas de frequência ou adaptar dinamicamente a frequência de transição entre a ocultação de domínio de tempo (TD) e de domínio de frequência (FD), por exemplo, com base na harmonicidade e/ou inclinação do quadro ou quadros de áudio decodificados apropriadamente anteriores.
[0306] Por exemplo, em caso de um item de fala feminina com ruído de fundo, o sinal pode ter a resolução reduzida para 5khz e a ocultação no domínio de tempo fará uma boa ocultação para a parte mais importante do sinal. A parte de ruído, então, será sintetizada com o método de Ocultação de domínio de frequência. Isso reduzirá a complexidade comparada a uma transição fixa (ou fator de redução de resolução fixo) e removerá distorções de bipe incômodas (consultar gráficos discutidos abaixo).
[0307] Caso o tom seja conhecido para cada quadro, é possível fazer uso de uma vantagem chave de ocultação de domínio de tempo comparada a qualquer ocultação tonal de domínio de frequência: é possível variar o tom dentro do
Petição 870180127015, de 05/09/2018, pág. 74/244
67/74 quadro oculto, com base no valor de tom passado (em exigência de atraso permite que também seja possível usar quadro futuro para interpolação).
[0308] A Figura 12 mostra um diagrama 1200 com um sinal sem erros, sendo que a abscissa indica tempo e a ordenada indica frequências.
[0309] A Figura 13 mostra um diagrama 1300 no qual uma ocultação no domínio de tempo é aplicada à banda de frequência completa de um sinal sujeito a erro. As linhas geradas pela ocultação de TD mostram a harmonicidade gerada artificialmente na faixa de frequência completa de um sinal sujeito a erro.
[0310] A Figura 14 mostra um diagrama 1400 que ilustra resultados da presente invenção: ruído (na primeira faixa de frequência 1401, aqui acima de 2,5 KHz) foi oculto com a ocultação no domínio de frequência (por exemplo, 105 ou 805) e fala (na segunda faixa de frequência 1402, aqui abaixo de 2,5 KHz) foi oculta com a ocultação no domínio de tempo (por exemplo, 106, 500, 600 ou 809). A comparação com A Figura 13 permite compreender que a harmonicidade gerada artificialmente na faixa de frequência de ruído foi evitada.
[0311] Caso a inclinação de energia dos harmônicos seja constante pelas frequências, faz sentido fazer uma ocultação de TD de frequência completa e nenhuma ocultação de FD em absoluto ou de outra forma caso o sinal não contenha nenhuma harmonicidade.
[0312] Como pode ser visto a partir do diagrama 1500 da Figura 15, ocultação no domínio de frequência tende a produzir descontinuidades de fase, enquanto que, como pode ser visto a partir do diagrama 1600 da Figura 16, ocultação no domínio de tempo aplicada a uma faixa de frequência completa mantém a fase de sinal e produz saída perfeita sem distorções.
[0313] O diagrama 1700 da Figura 17 mostra uma ocultação de FD na banda de frequência completa de um sinal sujeito a erro. O diagrama 1800 da Figura 18 mostra uma ocultação de TD na banda de frequência completa de um sinal sujeito a erro. Nesse caso, a ocultação de FD mantém características de sinal, enquanto que a ocultação de TD em frequência completa criaria uma distorção de “bipe” incômoda, ou cria algum grande furo no espectro que são perceptíveis.
[0314] Em particular, é possível se deslocar entre as operações mostradas nas Figuras 15 a 18 com o uso do equipamento mostrado na Figura 8 ou implantar o método da Figura 10. Um controlador tal como o controlador 813 pode
Petição 870180127015, de 05/09/2018, pág. 75/244
68/74 operar uma determinação, por exemplo, analisando-se o sinal (energia, inclinação, harmonicidade, e assim por diante), para chegar à operação mostrada na Figura 16 (apenas ocultação de TD) quando o sinal tem harmônicos fortes. Analogamente, o controlador 813 também pode operar uma determinação para chegar à operação mostrada na Figura 17 (apenas ocultação de FD) quando ruído é predominante.
6.1. CONCLUSÕES COM BASE NOS RESULTADOS EXPERIMENTAIS [0315] A técnica de ocultação convencional no codec de áudio AAC [1 ] é Substituição de Ruído. A mesma trabalha no domínio de frequência e é bem adequada para itens de ruído e música. Foi reconhecido que para segmentos de fala, Substituição de Ruído frequentemente produz descontinuidades de fase que terminam em distorções de estalido incômodas no domínio de tempo. Portanto, uma abordagem de domínio de tempo semelhante a ACELP pode ser usada para segmentos de fala (como TD-TCX PLC em [2][3]), determinados por um classificador.
[0316] Um problema com ocultação no domínio de tempo é a harmonicidade artificial gerada na faixa de frequência completa. Caso o sinal tenha apenas harmônicos fortes em frequências inferiores, para itens de fala isso é usualmente em torno de 4 kHz, em que as frequências superiores consistem em ruído de fundo, os harmônicos gerados até Nyquist produzirão distorções de bipe incômodas. Outra desvantagem da abordagem de domínio de tempo é a alta complexidade computacional em comparação à decodificação sem erro ou ocultação com Substituição de Ruído.
[0317] Para reduzir a complexidade computacional, a abordagem reivindicada usa uma combinação de ambos os métodos:
Ocultação de domínio de Tempo na parte de frequência inferior, em que sinais fala têm seu maior impacto.
Ocultação de domínio de Frequência na parte de frequência superior, em que sinais de fala têm característica de ruído.
6.1.1 PARTE DE BAIXA FREQUÊNCIA (BÁSICA) [0318] Primeiro o último armazenamento temporário de pcm tem a resolução reduzida para a taxa de amostragem básica desejada (aqui 16 kHz).
[0319] O algoritmo de ocultação de domínio de Tempo é realizado para obter um e meio quadro sintetizado. O meio quadro adicional é necessário posteriormente para o mecanismo de sobreposição-adição (OLA).
Petição 870180127015, de 05/09/2018, pág. 76/244
69/74 [0320] O sinal sintetizado tem a resolução aumentada para a taxa de amostragem de saída (FS_saída) e filtrado com um filtro passa-baixa com uma frequência de corte de FS_saída/2.
6.1.2 PARTE DE ALTA FREQUÊNCIA [0321] Para a parte de alta frequência, qualquer ocultação no domínio de frequência pode ser aplicada. Aqui, Substituição de Ruído dentro do codec de áudio de AAC-ELD será usado. Esses mecanismo usa um espectro copiado do último quadro bom e adiciona ruído antes de a IMDCT ser aplicada para voltar ao domínio de tempo.
[0322] O espectro oculto é transformado para domínio de tempo por meio de IMDCT.
[0323] No final, o sinal sintetizado com o armazenamento temporário de pcm passado é filtrado com um filtro passa-alta com uma frequência de corte de FS_saída/2
6.1.2 PARTE COMPLETA [0324] Para combinar as partes de frequência inferior e alta, o mecanismo de sobreposição e adição é feito no domínio de tempo. Para codec similar a AAC, isso significa que mais do que um quadro (tipicamente um quadro e meio) tem que ser atualizado para um quadro oculto. Isso se deve ao fato de que o método de análise e síntese da OLA tem um atraso de meio quadro. A IMDCT produz apenas um quadro, portanto, meio quadro adicional é necessário. Assim, a IMDCT é chamada duas vezes para obter dois quadros consecutivos no domínio de tempo.
[0325] As partes de baixa frequência e alta frequência são resumidas e o mecanismo de sobreposição e adição é aplicado.
6.1.3 EXTENSÕES OPCIONAIS [0326] É possível adaptar dinamicamente a frequência de transição entre ocultação de TD e FD com base na harmonicidade e inclinação do último quadro bom. Por exemplo, em caso de um item de fala feminina com ruído de fundo, o sinal pode ter a resolução reduzida para 5khz e a ocultação no domínio de tempo fará uma boa ocultação para a parte mais importante do sinal. A parte de ruído, então, será sintetizada com o método de Ocultação de domínio de frequência. Isso reduzirá a complexidade em comparação a uma transição fixa (ou fator de redução de resolução fixo) e remove as distorções de bipe incômodas (consultar as Figuras 12 a 14).
Petição 870180127015, de 05/09/2018, pág. 77/244
70/74
6.1.4 CONCLUSÕES EXPERIMENTAIS [0327] A Figura 13 mostra ocultação de TD em faixa de frequência completa; a Figura 14 mostra ocultação híbrida: 0 a 2,5 kHz (ref. 1402) com ocultação de TD e frequências superiores (ref. 1401) com ocultação de FD.
[0328] No entanto, caso a inclinação de energia dos harmônicos seja constante pelas frequências (e um tom límpido ou harmonicidade sejam detectados), faz sentido fazer uma Ocultação de TD de frequência completa e nenhuma Ocultação de FD em absoluto ou o contrário caso o sinal não contenha nenhuma harmonicidade.
[0329] A ocultação de FD (Figura 15) produz descontinuidades de fase, enquanto que a ocultação de TD (Figura 16) aplicada na faixa de frequência completa mantém os sinais fase e produz saída aproximadamente (em algum casos até mesmo perfeita) sem artefatos (saída perfeita sem artefatos pode ser alcançada com sinais realmente tonais). A ocultação de FD (Figura 17) mantém característica de sinal, em que ocultação de TD (Figura 18) na faixa de frequência completa cria distorções de bipe incômodas.
[0330] Caso o tom seja conhecido para todos os quadros, é possível fazer uso de uma vantagem chave de ocultação no domínio de tempo comparada a qualquer ocultação tonal de domínio de frequência, que pode variar o tom dentro do quadro oculto, com base no valor de tom passado (em exigência de atraso permite que também se possa usar quadro futuro para interpolação).
7. OBSERVAÇÕES ADICIONAIS [0331] Modalidades se referem a um método de ocultação híbrido, o qual compreende uma combinação de ocultação no domínio de frequência e tempo para codecs de áudio. Em outras palavras, modalidades se referem a um método de ocultação híbrido em domínio de frequência e tempo para codecs de áudio.
[0332] Uma técnica de ocultação de perda de pacote convencional no codec de áudio da família de AAC é Substituição de Ruído. A mesma trabalha no domínio de frequência (FDPLC - ocultação de perda de pacote de domínio de frequência) e é bem adequada para itens de ruído e música. Foi constatado que, para segmentos de fala, a mesma frequentemente produz descontinuidades de fase que terminam em distorções de estalido incômodas. Para superar esse problema uma abordagem domínio de tempo semelhante a ACELP de TDPLC (ocultação de perda de pacote de domínio de tempo) é usada para segmentos semelhantes a fala. Para
Petição 870180127015, de 05/09/2018, pág. 78/244
71/74 evitar a complexidade computacional e distorções de alta frequência da TDPLC, a abordagem descrita usa combinação adaptativa de ambos os métodos de ocultação: TDPLC para frequências inferiores, FDPLC para frequências superiores.
[0333] Modalidades de acordo com a invenção podem ser usadas em combinação com qualquer um dos seguintes conceitos: ELD, XLD, DRM, MPEG-H.
8. ALTERNATIVAS DE IMPLANTAÇÃO [0334] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa de método ou um recurso de uma etapa de método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou com o uso de) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, algumas ou mais das etapas mais importantes das etapas do método podem ser executadas por esse aparelho.
[0335] Dependendo de certas exigências de implantação, modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada com o uso de uma mídia de armazenamento digital, por exemplo um disco flexível, um DVD, um Blu-Ray, um CD, uma memória ROM, uma memória PROM, uma memória EPROM, uma memória EEPROM ou uma memória FLASH, que tenha sinais controle legíveis eletronicamente armazenados na mesma, os quais cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado. Portanto, a mídia de armazenamento digital pode ser legível por computador.
[0336] Algumas modalidades, de acordo com a invenção, compreendem uma portadora de dados que tem sinais de controle legíveis eletronicamente, os quais são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja realizado.
[0337] Em geral, modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, sendo que o código de programa é operacional para realizar um dos métodos quando o produto de programa de computador é executado em um
Petição 870180127015, de 05/09/2018, pág. 79/244
72/74 computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[0338] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos no presente documento, armazenado em uma portadora legível por máquina.
[0339] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para realizar um dos métodos descritos no presente documento, quando o programa de computador é executado em um computador.
[0340] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, registrado na mesma, o programa de computador para realizar um dos métodos descritos no presente documento. A portadora de dados, a mídia de armazenamento digital ou a mídia gravada são tipicamente tangíveis e/ou não transitórias.
[0341] Uma modalidade adicionalmente do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida por meio de uma conexão de comunicação de dados, por exemplo por meio da Internet.
[0342] Uma modalidade adicional compreende um meio de processamento, por exemplo um computador, ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos no presente documento.
[0343] Uma modalidade adicional compreende um computador que tem instalado no mesmo o programa de computador para realizar um dos métodos descritos no presente documento.
[0344] Uma modalidade adicional, de acordo com a invenção, compreende um aparelho e um sistema configurados para transferir (por exemplo, de modo eletrônico ou óptico) um programa de computador para realizar um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou similares. O
Petição 870180127015, de 05/09/2018, pág. 80/244
73/74 aparelho ou sistema podem compreender, por exemplo, um servidor de arquivo para transferir o programa de computador para o receptor.
[0345] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, um arranjo de portas programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, uma matriz de portas programável em campo pode cooperar com um microprocessador a fim de realizar um dos métodos descritos no presente documento. De modo geral, os métodos são realizados, de preferência, por meio de qualquer aparelho de hardware.
[0346] O aparelho descrito no presente documento pode ser implantado com a utilização de um aparelho de hardware, ou com o uso de um computador, ou com o uso de uma combinação de um aparelho de hardware e um computador.
[0347] Os métodos descritos no presente documento podem ser realizados com o uso de um aparelho de hardware, ou com o uso de um computador, ou com o uso de uma combinação de um aparelho de hardware e um computador.
[0348] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e as variações das disposições e os detalhes descritos no presente documento ficarão evidentes para outras pessoas versadas na técnica. Portanto, pretende-se que as mesmas sejam limitadas apenas pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento.
9. BIBLIOGRAFIA [1] 3GPP TS 26.402 ..Enhanced aacPlus general audio codec; Additional decoder tools (Release 11)”, [2] J. Lecomte, et al, “Enhanced time domain packet loss concealment in switched speech/audio codec”, submitted to IEEE ICASSP, Brisbane, Australia, Abril de 2015.
[3] WO 2015063045 A1 [4] Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation, 2014, PCT/EP2014/062589 [5] Apparatus and method for improved concealment of the adaptive
Petição 870180127015, de 05/09/2018, pág. 81/244
74/74 codebook in ACELP-like concealment employing improved pulse “synchronization,

Claims (41)

  1. REIVINDICAÇÕES
    1. Unidade de ocultação de erro (100, 230, 380, 800, 800b) para fornecer uma informação de áudio de ocultação de erro (102, 232, 382, 802) para ocultar uma perda de um quadro de áudio em uma informação de áudio codificada, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para fornecer um primeiro componente de informações de áudio de ocultação de erro (103, 807’) para uma primeira faixa de frequência (1401) com o uso de uma ocultação no domínio de frequência (105, 704, 805, 910), em que a unidade de ocultação de erro é configurada adicionalmente para fornecer um segundo componente de informações de áudio de ocultação de erro (104, 512, 612, 81T) para uma segunda faixa de frequência (1402), a qual compreende frequências inferiores a primeira faixa de frequência, com o uso de uma ocultação no domínio de tempo (106, 500, 600, 809, 920), e em que a unidade de ocultação de erro é configurada adicionalmente para combinar (107, 812, 930) o primeiro componente de informações de áudio de ocultação de erro (103, 807’) e o segundo componente de informações de áudio de ocultação de erro (104, 512, 612, 81T), para obter as informações de áudio de ocultação de erro.
  2. 2. Unidade de ocultação de erro, de acordo com a reivindicação 1, sendo que a unidade de ocultação de erro é caracterizada por ser configurada de modo que o primeiro componente de informações de áudio de ocultação de erro (103, 807’) represente uma porção de alta frequência de um dado quadro de áudio perdido, e de modo que o segundo componente de informações de áudio de ocultação de erro (104, 512, 612, 81T) represente uma porção de baixa frequência do dado quadro de áudio perdido, de modo que informações de áudio de ocultação de erro associadas com o dado quadro de áudio perdido são obtidas com o uso tanto da ocultação no domínio de frequência (105, 704, 805, 910) quanto da ocultação no domínio de tempo (106, 500, 600, 809, 920).
  3. 3. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 ou 2, sendo que a unidade de ocultação de erro é caracterizada por ser
    Petição 870180127015, de 05/09/2018, pág. 83/244
    2/11 configurada para derivar o primeiro componente de informações de áudio de ocultação de erro (103, 807’) com o uso de uma representação de domínio de transformada de uma porção de alta frequência de um quadro de áudio decodificado apropriadamente que precede um quadro de áudio perdido, e/ou em que a unidade de ocultação de erro é configurada para derivar o segundo componente de informações de áudio de ocultação de erro (104, 512, 612, 811’) com o uso de uma síntese de sinal de domínio de tempo com base em uma porção de baixa frequência do quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido.
  4. 4. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 3, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para usar uma cópia em escala ou sem escala da representação de domínio de transformada da porção de alta frequência do quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido, para obter uma representação de domínio de transformada da porção de alta frequência do quadro de áudio perdido, e para converter a representação de domínio de transformada da porção de alta frequência do quadro de áudio perdido no domínio de tempo, para obter um componente de sinal de domínio de tempo que é o primeiro componente de informações de áudio de ocultação de erro (103, 807’).
  5. 5. Unidade de ocultação de erro, de acordo com a reivindicação 3 ou reivindicação 4, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para obter um ou mais parâmetros de estímulo de síntese e um ou mais parâmetros de filtro de síntese com base na porção de baixa frequência do quadro de áudio decodificado apropriadamente que precede o quadro de áudio perdido, e para obter o segundo componente de informações de áudio de ocultação de erro (104, 512, 612, 811 ’) com o uso de uma síntese de sinal, parâmetros de estímulo e parâmetros de filtro dos quais a síntese de sinal é derivada com base nos parâmetros de estímulo de síntese obtidos e nos parâmetros de filtro de síntese obtidos ou igual aos parâmetros de estímulo de síntese obtidos e aos parâmetros de filtro de síntese obtidos.
  6. 6. Unidade de ocultação de erro, de acordo com qualquer uma das
    Petição 870180127015, de 05/09/2018, pág. 84/244
    3/11 reivindicações 1 a 5, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para realizar um controle (813) para determinar e/ou variar adaptativamente o sinal da primeira e/ou segunda faixas de frequência (1401, 1402).
  7. 7. Unidade de ocultação de erro, de acordo com a reivindicação 6, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para realizar o controle (813) com base em características escolhidas entre características de um ou mais quadros de áudio codificados e características de um ou mais quadros de áudio decodificados apropriadamente.
  8. 8. Unidade de ocultação de erro, de acordo com a reivindicação 6 ou 7, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para obter uma informação sobre uma harmonicidade de um ou mais quadros de áudio decodificados apropriadamente e realizar o controle (813) com base nas informações na harmonicidade; e/ou em que a unidade de ocultação de erro é configurada para obter uma informação sobre uma inclinação espectral de um ou mais quadros de áudio decodificados apropriadamente e realizar o controle (813) com base nas informações sobre a inclinação espectral.
  9. 9. Unidade de ocultação de erro, de acordo com a reivindicação 8, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para escolher a primeira faixa de frequência (1401) e a segunda faixa de frequência (1402) de modo que a harmonicidade seja comparativamente menor na primeira faixa de frequência quando comparada à harmonicidade na segunda faixa de frequência.
  10. 10. Unidade de ocultação de erro, de acordo com a reivindicação 8 ou reivindicação 9, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para determinar até qual frequência o quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, compreende uma harmonicidade que é mais forte do que um limiar de harmonicidade, e para escolher a primeira faixa de frequência (1401) e a segunda faixa de frequência (1402) na dependência do mesmo.
  11. 11. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 8 a 10, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para determinar ou estimar uma borda de frequência na qual uma inclinação espectral do quadro de áudio decodificado apropriadamente, que precede
    Petição 870180127015, de 05/09/2018, pág. 85/244
    4/11 o quadro de áudio perdido, muda de uma inclinação espectral menor para uma inclinação espectral maior, e para escolher a primeira faixa de frequência e a segunda faixa de frequência na dependência da mesma.
  12. 12. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 6 a 11, sendo que a unidade de ocultação de erro (800b) é caracterizada por ser configurada para realizar o controle (813) com base em informações transmitidas por um codificador.
  13. 13. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 12, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para ajustar a primeira faixa de frequência e a segunda faixa de frequência, de modo que a primeira faixa de frequência cubra uma região espectral que compreende uma estrutura espectral semelhante a ruído, e de modo que a segunda faixa de frequência cubra uma região espectral que compreende uma estrutura espectral harmônica.
  14. 14. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 13, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para realizar um controle de modo a adaptar uma extremidade de frequência inferior da primeira faixa de frequência (1401) e/ou uma extremidade de frequência superior da segunda faixa de frequência (1402) na dependência de uma relação de energia entre harmônicos e ruído.
  15. 15. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 14, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para realizar um controle de modo a inibir seletivamente pelo menos uma dentre a ocultação no domínio de tempo (106, 500, 600, 809, 920) e a ocultação no domínio de frequência (105, 704, 805, 910) e/ou realizar apenas a ocultação no domínio de tempo (106, 500, 600, 809, 920) ou apenas a ocultação no domínio de frequência (105, 704, 805, 910) para obter as informações de áudio de ocultação de erro.
  16. 16. Unidade de ocultação de erro, de acordo com a reivindicação 15, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para determinar ou estimar se uma variação de uma inclinação espectral do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que um limiar de inclinação espectral predeterminado sobre uma dada faixa de
    Petição 870180127015, de 05/09/2018, pág. 86/244
    5/11 frequência, e para obter as informações de áudio de ocultação de erro com o uso da ocultação de tempo-domínio apenas se for constatado que a variação de uma inclinação espectral do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que o limiar de inclinação espectral predeterminado.
  17. 17. Unidade de ocultação de erro, de acordo com a reivindicação 15 ou reivindicação 16, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para determinar ou estimar se uma harmonicidade do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que um limiar de harmonicidade predeterminado, e para obter as informações de áudio de ocultação de erro com o uso da ocultação de domínio de frequência apenas se for constatado que a harmonicidade do quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, é menor do que o limiar de harmonicidade predeterminado.
  18. 18. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 17, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para adaptar um tom de um quadro oculto com base em um tom de um quadro de áudio decodificado apropriadamente, que precede um quadro de áudio perdido, e/ou na dependência de uma evolução temporal do tom no quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, e/ou na dependência de uma interpelação do tom entre o quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido, e um quadro de áudio decodificado apropriadamente, que segue o quadro de áudio perdido.
  19. 19. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 18, sendo que a unidade de ocultação de erro é caracterizada por ser configurada adicionalmente para combinar (930) o primeiro componente de informações de áudio de ocultação de erro (103, 807’) e o segundo componente de informações de áudio de ocultação de erro (104, 512, 612, 81T) com o uso de um mecanismo de sobreposição e adição, OLA (107, 812, 930).
  20. 20. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 19, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para fornecer o segundo componente de informações de áudio de
    Petição 870180127015, de 05/09/2018, pág. 87/244
    6/11 ocultação de erro (104, 512, 612, 81T) de modo que o segundo componente de informações de áudio de ocultação de erro (104, 512, 612, 81T) compreenda um duração temporal que seja pelo menos 25 por cento mais longa do que o quadro de áudio perdido (1102), para permitir uma sobreposição e adição (812).
  21. 21. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 20, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para realizar uma transformada de cosseno distinta modificada inversa, IMDCT, (806) com base em uma representação de domínio espectral obtida pelo ocultação de erro de domínio de frequência (805), a fim de obter uma representação de domínio de tempo (806’) do primeiro componente de informações de áudio de ocultação de erro.
  22. 22. Unidade de ocultação de erro, de acordo com a reivindicação 21, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para realizar um IMDCT (806) duas vezes para obter dois quadros consecutivos no domínio de tempo.
  23. 23. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 22, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para realizar uma filtragem passa-alta (807) do primeiro componente de informações de áudio de ocultação de erro (103, 806’), a jusante da ocultação no domínio de frequência (105, 704, 805, 910).
  24. 24. Unidade de ocultação de erro, de acordo com a reivindicação 23, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para realizar uma filtragem passa-alta (807) com uma frequência de corte entre 6 KHz e 10 KHz, preferencialmente, 7 KHz e 9 KHz, mais preferencialmente, entre 7,5 KHz e 8,5 KHz, ainda mais preferencialmente, entre 7,9 KHz e 8,1 KHz e, ainda mais preferencialmente, 8 KHz.
  25. 25. Unidade de ocultação de erro, de acordo com a reivindicação 23 ou 24, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para ajustar adaptativamente o sinal a um limite inferior de frequência da filtragem passaalta (807), para, desse modo, variar uma largura de banda da primeira faixa de frequência (1401).
  26. 26. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 25, sendo que a unidade de ocultação de erro é caracterizada por
    Petição 870180127015, de 05/09/2018, pág. 88/244
    7/11 ser configurada para reduzir a resolução (808) uma representação de tempo-domínio (804) de um quadro de áudio que precede o quadro de áudio perdido, a fim de obter uma representação de tempo-domínio de resolução reduzida (808’) do quadro de áudio que precede o quadro de áudio perdido cuja representação de tempo-domínio de resolução reduzida representa apenas uma porção de baixa frequência do quadro de áudio que precede o quadro de áudio perdido, e para realizar a ocultação no domínio de tempo (106, 500, 600, 809, 920) com o uso da representação de tempo-domínio de resolução reduzida (808’) do quadro de áudio que precede o quadro de áudio perdido, e para aumentar a resolução (810) de uma informação de áudio oculta (809’) fornecida pela ocultação no domínio de tempo (106, 500, 600, 809, 920), ou uma versão pós-processada da mesma, a fim de obter o segundo componente de informações de áudio de ocultação de erro (104, 512, 612, 811 ’), de modo que a ocultação no domínio de tempo (106, 500, 600, 809, 920) seja realizada com o uso de uma frequência de amostragem que seja menor do que uma frequência de amostragem exigida para representar totalmente o quadro de áudio que precede o quadro de áudio perdido.
  27. 27. Unidade de ocultação de erro, de acordo com a reivindicação 26, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para ajustar adaptativamente o sinal a uma taxa de amostragem da representação de tempodomínio de resolução reduzida (808’), para, desse modo, variar uma largura de banda da segunda faixa de frequência (1402).
  28. 28. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 27, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para realizar um esmaecimento com o uso de um fator de amortecimento.
  29. 29. Unidade de ocultação de erro, de acordo com qualquer uma das reivindicações 1 a 28, sendo que a unidade de ocultação de erro é caracterizada por ser configurada para colocar em escala (707) uma representação espectral do quadro de áudio que precede o quadro de áudio perdido com o uso do fator de amortecimento, a fim de derivar o primeiro componente de informações de áudio de ocultação de erro (103, 807’).
  30. 30. Unidade de ocultação de erro, de acordo com qualquer uma das
    Petição 870180127015, de 05/09/2018, pág. 89/244
    8/11 reivindicações 1 a 29, caracterizada por a ocultação de erro ser configurada para aplicar filtro passa-baixa (811) a um sinal de saída (809’) da ocultação no domínio de tempo (106, 500, 600, 809, 920), ou uma versão de resolução aumentada (810’) do mesmo, a fim de obter o segundo componente de informações de áudio de ocultação de erro (104, 512, 612, 81 T).
  31. 31. Decodificador de áudio (200, 300, 400) para fornecer uma informação de áudio decodificada (212, 312, 412) com base em informações de áudio codificadas (210, 310, 410), sendo que o decodificador de áudio é caracterizada por compreender uma unidade de ocultação de erro, conforme definido em qualquer uma das reivindicações precedentes.
  32. 32. Decodificador de áudio, de acordo com a reivindicação 31, sendo que o decodificador de áudio é caracterizado por ser configurado para obter uma representação de domínio espectral de um quadro de áudio com base em uma representação codificada da representação de domínio espectral do quadro de áudio, e em que o decodificador de áudio é configurado para realizar uma conversão de domínio espectral para domínio de tempo, a fim de obter uma representação de tempo decodificada do quadro de áudio, em que a ocultação de erro é configurada para realizar a ocultação no domínio de frequência (105, 704, 805, 910) com o uso de uma representação de domínio espectral de um quadro de áudio decodificado apropriadamente, que precede um quadro de áudio perdido, ou uma porção do mesmo, e em que a ocultação de erro é configurada para realizar a ocultação no domínio de tempo (106, 500, 600, 809, 920) com o uso de uma representação de domínio de tempo decodificada de um quadro de áudio decodificado apropriadamente, que precede o quadro de áudio perdido.
  33. 33. Método de ocultação de erro para fornecer uma informação de áudio de ocultação de erro para ocultar uma perda de um quadro de áudio em uma informação de áudio codificada, sendo que o método é caracterizado por compreender:
    fornecer (910) um primeiro componente de informações de áudio de ocultação de erro (103, 807’) para uma primeira faixa de frequência com o uso de uma ocultação no domínio de frequência (105, 704, 805, 910), fornecer (920) um segundo componente de informações de áudio de
    Petição 870180127015, de 05/09/2018, pág. 90/244
    9/11 ocultação de erro (104, 512, 612, 811 ’) para uma segunda faixa de frequência, a qual compreende frequências inferiores à primeira faixa de frequência, com o uso de uma ocultação no domínio de tempo (106, 500, 600, 809, 920), e combinar (930) o primeiro componente de informações de áudio de ocultação de erro (103, 807’) e o segundo componente de informações de áudio de ocultação de erro (104, 512, 612, 81T), para obter as informações de áudio de ocultação de erro.
  34. 34. Método de ocultação de erro, de acordo com a reivindicação 33, sendo que o método é caracterizado por compreender controlar adaptativamente o sinal (905) da primeira e segunda faixas de frequência.
  35. 35. Método de ocultação de erro, de acordo com a reivindicação 34, sendo que o método é caracterizado por compreender comutar adaptativamente o sinal para um modo no qual apenas uma ocultação no domínio de tempo (106, 500, 600, 809, 920) ou apenas uma ocultação no domínio de frequência (105, 704, 805, 910) é usada para obter uma informação de áudio de ocultação de erro para pelo menos um quadro de áudio perdido.
  36. 36. Programa de computador caracterizado por realizar o método, conforme definido em uma das reivindicações 33 a 35, quando o programa de computador é executado em um computador.
  37. 37. Codificador de áudio (1900) para fornecer uma representação de áudio codificada (1904) com base em uma informação de áudio de entrada (1902), sendo que o codificador de áudio é caracterizado por compreender:
    um codificador de domínio de frequência (1906) configurado para fornecer uma representação de domínio de frequência codificada (1908) com base nas informações de áudio de entrada, e/ou um codificador de domínio de predição linear (1920) configurado para fornecer uma representação de domínio de predição linear codificada (1922) com base nas informações de áudio de entrada; e um determinador de frequência cruzada (1930) configurado para determinar uma informação de frequência de transição (1932) que define uma frequência de transição entre uma ocultação de erro de domínio de tempo (809) e uma ocultação de erro de domínio de frequência (805) para ser usada no lado de um decodificador de áudio (200, 300, 400);
    em que o codificador de áudio (1900) é configurado para incluir a
    Petição 870180127015, de 05/09/2018, pág. 91/244
    10/11 representação de domínio de frequência codificada (1908) e/ou a representação de domínio de predição linear codificada (1922) e também as informações de frequência de transição (1932) na representação de áudio codificada (1904).
  38. 38. Método (2000) para fornecer uma representação de áudio codificada com base em uma informação de áudio de entrada, sendo que o método é caracterizado por compreender:
    uma etapa de codificação de domínio de frequência (2002) para fornecer uma representação de domínio de frequência codificada com base nas informações de áudio de entrada, e/ou uma etapa de codificação de domínio de predição linear para fornecer uma representação de domínio de predição linear codificada com base nas informações de áudio de entrada; e uma etapa de determinação de frequência de transição (2004) para determinar uma informação de frequência de transição que define uma frequência de transição entre uma ocultação de erro de domínio de tempo e uma ocultação de erro de domínio de frequência a ser usada no lado de um decodificador de áudio;
    em que a representação de domínio de frequência codificada (1908) e/ou a representação de domínio de predição linear codificada (1922) e também as informações de frequência de transição (1932) são incluídas na representação de áudio codificada (1904).
  39. 39. Representação de áudio codificada (1904) caracterizada por compreender:
    uma representação de domínio de frequência codificada (1908) que representa um conteúdo de áudio, e/ou uma representação de domínio de predição linear codificada (1922) que representa um conteúdo de áudio; e uma informação de frequência de transição (1932) que define uma frequência de transição entre uma ocultação de erro de domínio de tempo (809) e uma ocultação de erro de domínio de frequência (805) para ser usada no lado de um decodificador de áudio (200, 300, 400).
  40. 40. Sistema (1900, 200, 300, 400, 800b) caracterizado por compreender: um codificador de áudio (1900), conforme definido na reivindicação 37;
    um decodificador de áudio (200, 300, 400), conforme definido na reivindicação 31 ou 32, e que compreende uma unidade de ocultação de erro (800b), conforme definido em qualquer uma das reivindicações 6 a 12 ou qualquer uma das
    Petição 870180127015, de 05/09/2018, pág. 92/244
    11/11 reivindicações 13 a 25 em combinação com qualquer uma das reivindicações 6 a 12; em que o controle (813) é configurado para determinar a primeira e a segunda faixas de frequência com base nas informações de frequência de transição (1932) fornecidas pelo codificador de áudio (1900).
  41. 41. Programa de computador caracterizado por realizar o método, conforme definido na reivindicação 38, quando o programa de computador é executado em um computador.
BR112018067944-5A 2016-03-07 2016-05-25 Unidade de ocultação de erro, método de ocultação de erro,decodificador de áudio, codificador de áudio, método para fornecer uma representação de áudio codificada e sistema BR112018067944B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16159031.0 2016-03-07
EP16159031 2016-03-07
PCT/EP2016/061865 WO2017153006A1 (en) 2016-03-07 2016-05-25 Hybrid concealment method: combination of frequency and time domain packet loss concealment in audio codecs

Publications (2)

Publication Number Publication Date
BR112018067944A2 true BR112018067944A2 (pt) 2019-09-03
BR112018067944B1 BR112018067944B1 (pt) 2024-03-05

Family

ID=55521559

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112018067944-5A BR112018067944B1 (pt) 2016-03-07 2016-05-25 Unidade de ocultação de erro, método de ocultação de erro,decodificador de áudio, codificador de áudio, método para fornecer uma representação de áudio codificada e sistema

Country Status (11)

Country Link
US (1) US10984804B2 (pt)
EP (1) EP3427256B1 (pt)
JP (1) JP6718516B2 (pt)
KR (1) KR102250472B1 (pt)
CN (1) CN109155133B (pt)
BR (1) BR112018067944B1 (pt)
CA (1) CA3016837C (pt)
ES (1) ES2797092T3 (pt)
MX (1) MX2018010753A (pt)
RU (1) RU2714365C1 (pt)
WO (1) WO2017153006A1 (pt)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402905B (zh) * 2018-12-28 2023-05-26 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
BR112021012753A2 (pt) * 2019-01-13 2021-09-08 Huawei Technologies Co., Ltd. Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório
WO2020165260A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode channel coding with mode specific coloration sequences
WO2020164753A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
CN113454713A (zh) * 2019-02-21 2021-09-28 瑞典爱立信有限公司 相位ecu f0插值分割方法及相关控制器
CN110264860B (zh) * 2019-06-14 2021-05-11 长春理工大学 一种基于多膜系阵列的多谱段图像伪装方法
CN113035208B (zh) * 2021-03-04 2023-03-28 北京百瑞互联技术有限公司 一种音频解码器的分级错误隐藏方法、装置及存储介质
CN117524253B (zh) * 2024-01-04 2024-05-07 南京龙垣信息科技有限公司 针对网络音频丢包的低延迟修复和隐藏方法及其设备

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3632213B2 (ja) 1993-06-30 2005-03-23 ソニー株式会社 信号処理装置
JPH10233692A (ja) * 1997-01-16 1998-09-02 Sony Corp オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
SE527669C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
WO2007018709A2 (en) * 2005-07-25 2007-02-15 Thomson Licensing Method and apparatus for the concealment of missing video frames
US8798172B2 (en) 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8010352B2 (en) * 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
US20110022924A1 (en) * 2007-06-14 2011-01-27 Vladimir Malenovsky Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711
JP5183741B2 (ja) * 2007-08-27 2013-04-17 テレフオンアクチーボラゲット エル エム エリクソン(パブル) ノイズ補充と帯域拡張との間の遷移周波数の適合
ES2372014T3 (es) * 2008-07-11 2012-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para calcular datos de ampliación de ancho de banda utilizando un encuadre controlado por pendiente espectral.
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
CN103620672B (zh) * 2011-02-14 2016-04-27 弗劳恩霍夫应用研究促进协会 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法
TWI585747B (zh) * 2011-10-21 2017-06-01 三星電子股份有限公司 訊框錯誤修補方法與裝置、音訊解碼方法與裝置
PL2874149T3 (pl) * 2012-06-08 2024-01-29 Samsung Electronics Co., Ltd. Sposób i urządzenie do ukrywania błędu ramki oraz sposób i urządzenie do dekodowania audio
EP2903004A4 (en) * 2012-09-24 2016-11-16 Samsung Electronics Co Ltd METHOD AND APPARATUS FOR HAMPERING FRAME ERRORS, AND METHOD AND APPARATUS FOR DECODING AUDIO DATA
CN103714821A (zh) * 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
NZ710308A (en) * 2013-02-05 2018-02-23 Ericsson Telefon Ab L M Method and apparatus for controlling audio frame loss concealment
KR20140126095A (ko) 2013-04-22 2014-10-30 주식회사 케이티 분전함
CN105408954B (zh) 2013-06-21 2020-07-17 弗朗霍夫应用科学研究促进协会 利用改进的音调滞后估计的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
RU2666327C2 (ru) 2013-06-21 2018-09-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для улучшенного маскирования адаптивной таблицы кодирования при acelp-образном маскировании с использованием улучшенной повторной синхронизации импульсов
EP3285254B1 (en) * 2013-10-31 2019-04-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
EP3336841B1 (en) * 2013-10-31 2019-12-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
NO2780522T3 (pt) * 2014-05-15 2018-06-09
TWI602172B (zh) 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
KR101686462B1 (ko) 2015-02-11 2016-12-28 삼성에스디에스 주식회사 사용자 행동 패턴을 기반으로 한 웹페이지 생성 방법 및 활용 방법
MX2018010754A (es) * 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio y método relacionado y programa de computadora que desaparece una trama de audio ocultada de acuerdo con factores de amortiguamiento diferentes para bandas de frecuencia diferentes.

Also Published As

Publication number Publication date
KR102250472B1 (ko) 2021-05-12
WO2017153006A1 (en) 2017-09-14
CN109155133A (zh) 2019-01-04
CA3016837C (en) 2021-09-28
US20190005967A1 (en) 2019-01-03
EP3427256B1 (en) 2020-04-08
US10984804B2 (en) 2021-04-20
JP6718516B2 (ja) 2020-07-08
EP3427256A1 (en) 2019-01-16
BR112018067944B1 (pt) 2024-03-05
CA3016837A1 (en) 2017-09-14
CN109155133B (zh) 2023-06-02
ES2797092T3 (es) 2020-12-01
JP2019511738A (ja) 2019-04-25
KR20180118781A (ko) 2018-10-31
MX2018010753A (es) 2019-01-14
RU2714365C1 (ru) 2020-02-14

Similar Documents

Publication Publication Date Title
BR112018067944A2 (pt) ?unidade e método de ocultação de erro, codificador e decodificador de áudio, representação de áudio codificada e seu método, sistema?
US10249309B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US10283124B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 25/05/2016, OBSERVADAS AS CONDICOES LEGAIS