BR112013020239A2

BR112013020239A2 - geração de ruído em codecs de áudio

Info

Publication number: BR112013020239A2
Application number: BR112013020239-4A
Authority: BR
Inventors: Panji Setiawan; Stephan Wilde; Antony Lombard; Martin Dietz
Original assignee: Fraunhofer-Gellschaft Zur Förderung Der Angewandten Forschung E.V
Priority date: 2011-02-14
Filing date: 2012-02-14
Publication date: 2020-11-24
Also published as: JP2014510307A; AR102715A2; ES2681429T3; CN103477386B; SG192745A1; WO2012110482A2; JP2016026319A; RU2585999C2; JP5934259B2; KR101624019B1; AU2012217162B2; EP3373296A1; US20130332176A1; JP2017223968A; US8825496B2; ZA201306874B; CA2968699C; CN103477386A; MY167776A; CA2827305C

Abstract

GERAÇÃO DE RUÍDO EM CODECS DE ÁUDIO O domínio espectral é utilizado de maneira eficiente, a fim de parametrizar o ruído de base, produzindo, com isso, uma síntese de ruído de base que é mais realística e, portanto, leva a uma troca de fase ativa para inativa mais transparente.

Description

GERAÇÃO DE RUÍDO EM CODECS DE ÁUDIO Campo da Invenção A presente invenção se refere a um codec de áudio que suporta síntese de ruído durante as fases inativas.

A possibilidade de reduzir a amplitude de faixa de transmissão ao ter vantagem de períodos inativos de fala ou outras fontes de ruído é conhecida na técnica. Esses esquemas geralmente utilizam alguma forma de detecção para distinguir entre fases inativas (ou silêncio) e ativas (sem silêncio). Durante as fases inativas, uma taxa de bits menor é alcançada ao interromper a transmissão do fluxo de dados comum codificando precisamente O sinal gravado e, ao contrário, enviando somente as atualizações de descrição de inserção de silêncio. As atualizações de SID podem ser transmitidas em um intervalo regular ou quando alterações nas 15! características de ruído de base forem detectadas. As estruturas de SID podem ser, então, utilizadas no lado de decodificação para gerar um ruído de base com características semelhantes ao ruído de base durante as fases ativas, de modo a interromper a transmissão do fluxo de dados comum, a codificação do sinal gravado não leva a uma transição desagradável da fase ativa para a fase inativa no lado do receptor.

Entretanto, ainda há uma necessidade de reduzir mais a taxa de transmissão. Um número crescente de consumidores de taxa de bits, como um número crescente de telefones móveis, e um número crescente de aplicações mais ou menos intensivas de taxa de bits, como difusão de transmissão sem fio, precisam de uma redução fixa da taxa de bits consumida.

Por outro lado, o ruído sintetizado deve emular estritamente o ruído real, de modo que a síntese seja transparente para os usuários. Da mesma forma, é um objetivo da presente invenção prover um esquema de codec de áudio que suporte a geração de ruído durante as fases inativas, o que permite a redução da taxa de bits de transmissão e/ou ajuda a aumentar a qualidade de geração de ruído alcançável.

Esse objetivo é alcançado pelo assunto de uma parte das reivindicações independentes pendentes.

Um objetivo da presente invenção é prover um codec de áudio que suporte a geração de ruído sintético durante as fases inativas, o que permite uma geração de ruído mais realística em sobrecarga moderada, em termos de, por exemplo, taxa de bits e/ou complexidade computacional.

O último objetivo também é alcançado pelo assunto de outra parte das reivindicações independentes do presente pedido.

Em particular, é uma ideia básica que delineia a presente invenção que o domínio espectral pode ser utilizado de maneira bastante eficiente, a fim de parametrizar o ruído de base, produzindo, com isso, uma síntese de ruído de base que é mais realística e, assim, leva a uma troca de fase ativa para inativa mais transparente. Ademais, descobriu-se que a parametrização do ruído de base no domínio espectral permite separar o ruído do sinal útil e, da mesma forma, a parametrização do ruído de base no domínio espectral têm uma vantagem quando combinadas à atualização contínua da estimativa de ruído de base paramétrico mencionada acima durante as fases ativas, uma vez que uma melhor separação entre o ruído e o sinal útil pode ser alcançada no domínio espectral, de modo que não seja necessária transição adicional de um domínio para o outro ao combinar ambos os aspectos vantajosos do presente pedido.

De acordo com realizações específicas, taxas de bits valiosas podem ser preservadas com a manutenção da qualidade da geração de ruído dentro das fases inativas, ao atualizar continuamente a estimativa de ruído de base paramétrico durante uma fase ativa, de modo que a geração de ruído possa ser imediatamente iniciada mediante a entrada de uma fase inativa que segue a fase ativa. Por exemplo, a atualização contínua pode ser realizada no lado de decodificação, e não há necessidade de prover de maneira preliminar o lado de decodificação de uma representação codificada do ruído de base durante uma fase de aquecimento que 15º segue imediatamente a detecção da fase inativa, essa provisão consumiria taxa de bits valiosa, uma vez que o lado de decodificação atualizou continuamente a estimativa de ruído de base paramétrico durante a fase ativa e é, portanto, preparada em qualquer momento para inserir imediatamente a fase inativa com uma geração de ruído adequada. Da mesma forma, essa fase de aquecimento pode ser evitada se a estimativa de ruído de base paramétrico for feita no lado de codificação. Ao invés de continuar preliminarmente com a provisão ao lado de decodificação de uma representação convencionalmente codificada do ruído de base, mediante a detecção da entrada da fase inativa, a fim de conhecer o ruído de base e informar o lado de decodificação após o conhecimento da fase da mesma forma, o codificador é capaz de prover o decodificador da estimativa de ruído de base paramétrico necessária imediatamente mediante a detecção da entrada da fase inativa ao retroceder na estimativa de ruído de base paramétrico continuamente atualizada durante a última fase ativa, evitando, com isso, a taxa de bits que consome a execução adicional preliminar da codificação supérflua do ruído de base.

Os detalhes vantajosos das realizações adicionais da presente invenção são o assunto das reivindicações dependentes do conjunto de reivindicações pendentes.

As realizações preferidas do presente pedido são descritas abaixo em relação às Figuras, dentre as quais: A Figura 1 apresenta um diagrama de blocos que apresenta um codificador de áudio, de acordo com uma realização; A Figura 2 apresenta uma implementação possível do mecanismo de codificação 14; A Figura 3 apresenta um diagrama de blocos de um decodificador de áudio, de acordo com uma realização; A Figura 4 apresenta uma implementação possível do mecanismo de decodificação da Figura 3, de acordo com uma realização; A Figura 5 apresenta um diagrama de blocos de um codificador de áudio, de acordo com uma descrição adicional, mais detalhada, da realização; A Figura 6 apresenta um diagrama de blocos de um decodificador que poderia ser utilizado em conexão com o codificador da Figura 5, de acordo com uma realização; A Figura 7 apresenta um diagrama de blocos de um decodificador de áudio, de acordo com uma descrição adicional, mais detalhada, da realização;

A Figura 8 apresenta um diagrama de blocos de uma parte de extensão de amplitude de faixa espectral de um codificador de áudio, de acordo com uma realização; A Figura 9 apresenta uma implementação do codificador de extensão de amplitude de faixa espectral de CNG da Figura 8, de acordo com uma realização; A Figura 10 apresenta um diagrama de blocos de um decodificador de áudio, de acordo com uma realização, utilizando extensão de amplitude de faixa espectral; A Figura 11 apresenta um diagrama de blocos de uma descrição mais detalhada possível de uma realização para um decodificador de áudio utilizando replicação de amplitude de faixa espectral; A Figura 12 apresenta um diagrama de blocos de um codificador de áudio, de acordo com uma realização adicional, utilizando a extensão de amplitude de faixa espectral; e A Figura 13 apresenta um diagrama de blocos de uma realização adicional de um decodificador de áudio.

A Figura 1 apresenta um codificador de áudio, de acordo com uma realização da presente invenção. O codificador de áudio da Figura 1 compreende um estimador de ruído de base 12, um mecanismo de codificação 14, um detector 16, uma entrada de sinal de áudio 18 e uma saída de fluxo de dados 20. O provedor 12, o mecanismo de codificação 14 e o detector 16 têm uma entrada conectada à entrada de sinal de áudio 18, respectivamente. As saídas do estimador 12 e do mecanismo de codificação 14 são respectivamente conectadas à saída de fluxo de dados 20 por meio de uma chave 22. A chave 22, o estimador 12 e o mecanismo de codificação 14 têm uma entrada de controle conectada a uma saída do detector 16, respectivamente.

O codificador 14 codifica o sinal de áudio de entrada em um fluxo de dados 30 durante uma fase ativa 24 e O detector 16 é configurado para detectar uma entrada 34 de uma fase inativa 28 que segue a fase ativa 24, com base no sinal de entrada.

A parte do fluxo de dados 30 produzida pelo mecanismo de codificação 14 é denotada 44. O estimador de ruído de base 12 é configurado para determinar uma estimativa de ruído de base paramétrico com base em uma representação de decomposição espectral de um sinal de áudio de entrada, de modo que a estimativa de ruído de base paramétrico descreva espectralmente um invólucro espectral de um ruído de base do sinal de áudio de entrada.

A determinação pode ser iniciada ao entrar na fase inativa 38, isto é, imediatamente após o instante de tempo 34 na qual o detector 16 detecta a inatividade.

Nesse caso, a parte normal 44 do fluxo de dados 30 se estenderia um pouco para a fase inativa, isto é, duraria por outro breve período suficiente para o estimador de ruído de base 12 conhecer/estimar o ruído de base do sinal de entrada, que seria, então, presumido por ser somente composto de ruído de base.

Entretanto, as realizações descritas abaixo seguem outra linha.

De acordo com as realizações alternativas descritas adicionalmente abaixo, a determinação pode ser continuamente realizada durante as fases ativas para atualizar a estimativa para uso imediato, mediante a entrada na fase inativa.

Em qualquer caso, o codificador de áudio 10 é configurado para codificar no fluxo de dados 30 a estimativa de ruído de base paramétrico durante a fase inativa 28, como pelo uso de estruturas de SID 32 e 38. Assim, embora muitas das realizações subsequentemente explicadas se refiram a casos nos quais àa estimativa de ruído é continuamente realizada durante as fases ativas, de modo a permitir o início imediato da síntese de ruído, esse não é necessariamente o caso e a implementação poderia ser diferente disso. De modo geral, todos os detalhes apresentados nessas realizações vantajosas devem ser entendidos para também explicar ou revelar as realizações nas quais a respectiva estimativa de ruído é feita mediante a detecção da estimativa de ruído, por exemplo. Assim, o estimador de ruído de base 12 pode ser configurado para atualizar continuamente a estimativa de ruído de base paramétrico durante a fase ativa 24 com base no sinal de áudio de entrada que entra no codificador de áudio 10 na entrada

18. Embora a Figura 1 sugira que o estimador de ruído de base 12 pode derivar a atualização contínua da estimativa de ruído de base paramétrico com base no sinal de áudio como a entrada na entrada 18, esse não é necessariamente o caso. O estimador de ruído de base 12 pode obter alternativa ou adicionalmente uma versão do sinal de áudio do mecanismo de codificação 14, conforme ilustrado pela linha tracejada 26. Nesse caso, o estimador de ruído de base 12 seria, alternativa ou adicionalmente, conectado à entrada 18 indiretamente por meio do cabo de conexão 26 e do mecanismo de codificação 14 respectivamente. Em particular, existem diferentes possibilidades para o estimador de ruído de base 12 atualizar continuamente a estimativa de ruído de base e algumas dessas possibilidades são descritas adicionalmente abaixo.

O mecanismo de codificação 14 é configurado para codificar o sinal de áudio de entrada que chega à entrada 18 em um fluxo de dados durante a fase ativa 24. A fase ativa deve englobar todas as vezes nas quais uma informação útil estiver contida dentro do sinal de áudio, como fala ou outro som útil de uma fonte de ruído. Por outro lado, os sons com uma característica quase invariante no tempo, como um espectro de invariância no tempo conforme causado, por exemplo, por chuva ou tráfego atrás de um orador, deve ser classificado como ruído de base e sempre que apenas esse ruído de base estiver presente, O respectivo período de tempo deve ser classificado como uma fase inativa 28. O detector 16 é responsável por detectar a entrada de uma fase inativa 28 que segue a fase ativa 24 com base no sinal de áudio de entrada na entrada 18. Em outras palavras, o detector 16 diferencia entre duas fases, a saber, fase ativa e fase inativa, em que o detector 16 decide quanto à fase que está atualmente presente. O detector 16 informa o mecanismo de codificação 14 sobre a fase atualmente presente e, conforme já mencionado, oO mecanismo de codificação 14 realiza a codificação do sinal de áudio de entrada no fluxo de dados durante as fases ativas 24. O detector 16 controla a chave 22 da mesma forma, de modo que a saída de fluxo de dados pelo mecanismo de codificação 14 seja produzida na saída 20. Durante as fases inativas, o mecanismo de codificação 14 pode interromper a codificação do sinal de áudio de entrada. Pelo menos o fluxo de dados produzido na saída 20 não é mais alimentado por qualquer fluxo de dados possivelmente produzido pelo mecanismo de codificação 14. Além disso, O mecanismo de codificação 14 pode somente realizar processamento mínimo para suportar o estimador 12 com algumas atualizações variáveis de estado.

Essa ação reduzirá grandemente a potência computacional.

A chave 22 é, por exemplo, ajustada de modo que a saída do estimador 12 seja conectada à saída 20 ao invés da saída do mecanismo de codificação.

Dessa forma, a taxa de bits valiosa de transmissão para transmitir o fluxo de dados produzido na saída

20 é reduzida.

No caso em que o estimador de ruído de base 12 é configurado para atualizar continuamente a estimativa de ruído de base paramétrico durante a fase ativa 24 com base no sinal de áudio de entrada 18, conforme já mencionado acima, o estimador 12 é capaz de inserir no fluxo de dados 30, produzido na saída 20, a estimativa de ruído de base paramétrico conforme continuamente atualizada durante a fase ativa 24, que segue imediatamente a transição da fase ativa 24 para a fase inativa 28, isto é, imediatamente na entrada para a fase inativa 28. O estimador de ruído de base 12 pode, por exemplo, inserir uma estrutura de descritor de inserção de silêncio 32 no fluxo de dados 30 imediatamente após o fim da fase ativa 24 e imediatamente após a faixa de tempo 34 na qual o detector 16 detectou a entrada da fase inativa 28. Em outras palavras, não há intervalo de tempo entre a detecção do detector da entrada da fase inativa 28 e a inserção da SID 32 necessária devido à atualização contínua do estimador de ruído de base da estimativa de ruído de base paramétrico durante a fase ativa 24. Assim, resumindo a descrição acima, O codificador de áudio 10 da Figura 1, de acordo com uma opção preferida de implementação da realização da Figura 1, pode operar como segue. Imagine, para fins de ilustração, que uma fase ativa 24 esteja atualmente presente. Nesse caso, O mecanismo de codificação 14 codifica simultaneamente o sinal de áudio de entrada na entrada 18 no fluxo de dados 20. A chave 22 conecta a saída do mecanismo de codificação 14 à saída 20. O mecanismo de codificação 14 pode utilizar a codificação paramétrica e/codificação por transformação, a fim de codificar o sinal de áudio de entrada 18 no fluxo de dados. Em particular, o mecanismo de codificação 14 pode codificar o sinal de áudio de entrada em unidades de estrutura com cada estrutura codificando um dos intervalos de tempo consecutivos - que se sobrepõem parcialmente de maneira mútua - do sinal de áudio de entrada. O mecanismo de codificação 14 pode ter adicionalmente a capacidade de mudar entre diferentes modos de codificação entre as estruturas consecutivas do fluxo de dados. Por exemplo, algumas estruturas podem ser codificadas utilizando a codificação preditiva, como codificação CELP, Ee algumas outras estruturas podem ser codificadas utilizando a codificação por transformação, como codificação TCX ou AAC. É feita referência, por exemplo, a USAC e seus modos de codificação, conforme descritos em ISO/IEC CD 23003-3, de 24 de setembro de

2010. O estimador de ruído de base 12 atualiza continuamente a estimativa de ruído de base paramétrico durante a fase ativa 24. Da mesma forma, o estimador de ruído de base 12 pode ser configurado para diferenciar entre um componente de ruído e um componente de sinal útil dentro do sinal de áudio de entrada, a fim de determinar a estimativa de ruído de base paramétrico meramente do componente de ruído.

O estimador de ruído de base 12 realiza essa atualização em um domínio espectral, como um domínio espectral também utilizado para codificação por transformação dentro do mecanismo de codificação 14. Ademais, O estimador de ruído de base 12 pode realizar a atualização com base em uma excitação ou sinal residual obtido como um resultado intermediário dentro do mecanismo de codificação 14 durante, por exemplo, a codificação por transformação de uma versão filtrada com base em LPC do sinal de entrada, ao invés do sinal de áudio, conforme entra na entrada 18 ou codificado sem perda no fluxo de dados.

Ao fazer isso, uma ampla quantidade do componente de sinal útil dentro do sinal de áudio de entrada já teria sido removida, de modo que a detecção do componente de ruído seja mais fácil para O estimador de ruído de base 12. Como O domínio espectral, um domínio de transformada sobreposta, como um domínio MDCT ou um domínio de banco de filtros, como um domínio banco de filtros com valor complexo, como um domínio QMF pode ser utilizado.

Durante a fase ativa 24, o detector 16 também está executando continuamente para detectar uma entrada da fase inativa 28. O detector 16 pode ser incorporado como um detector de atividade de voz/som (VAD/SAD) ou algum outro meio que decide se um componente de sinal útil está atualmente presente dentro do sinal de áudio de entrada ou não.

Um critério de base para O detector 16 a fim de decidir se uma fase ativa 24 continua poderia ser a verificação se uma potência filtrada por baixa passagem do sinal de áudio de entrada permanecer abaixo de um determinado limite, presumindo que uma fase inativa seja inserida assim que O limite for excedido.

Independente da maneira exata que O detector 16 realiza a detecção da entrada da fase inativa 28 que segue a fase ativa 24, o detector 16 informa imediatamente as outras entidades 12, 14 e 22 da entrada da fase inativa 28. No caso da atualização contínua do estimador de ruído de base da estimativa de ruído de base paramétrico durante a fase ativa 24, o fluxo de dados 30 produzido na saída 20 pode ser imediatamente evitado de ser alimentado adicionalmente do mecanismo de codificação 14. Preferencialmente, o estimador de ruído de base 12 inseriria, imediatamente ao ser informado da entrada da fase inativa 28, no fluxo de dados 30 as informações da última atualização da estimativa de ruído de base paramétrico na forma da estrutura de SID 32. Isto é, a estrutura de SID 32 poderia seguir imediatamente a última estrutura do mecanismo de codificação que codifica a estrutura do sinal de áudio em relação ao intervalo de tempo dentro do qual o detector 16 detectou a entrada da fase inativa.

Normalmente, o ruído de base não muda com muita frequência.

Na maioria dos casos, o ruído de base tende a ser um pouco invariante no tempo.

Da mesma forma, após o estimador de ruído de base 12 inserir a estrutura de SID 32 imediatamente após o detector 16 detectar o início da fase inativa 28, qualquer transmissão de fluxo de dados pode ser interrompida, de modo que, nessa fase de interrupção 34, o fluxo de dados 30 não consuma qualquer taxa de bits ou meramente uma taxa de bits mínima necessária para alguns objetivos de transmissão.

A fim de manter uma taxa de bits mínima, o estimador de ruído de base 12 pode repetir intermitentemente a produção de saída de SID 32. Entretanto, apesar da tendência de o ruído de base não mudar no tempo, no entanto, pode acontecer que O ruído de base mude. Por exemplo, imagine um usuário de telefone móvel que deixa o carro, de modo que o ruído de base mude de ruído de motor para ruído de tráfego fora do carro durante a ligação do usuário.

A fim de rastrear essas alterações do ruído de base, O estimador de ruído de base 12 pode ser configurado para pesquisar continuamente o ruído de base mesmo durante a fase inativa 28. Sempre que o estimador de ruído de base 12 determinar que a estimativa de ruído de base paramétrico muda em uma quantidade que excede algum limite, o estimador de base 12 pode inserir uma versão atualizada da estimativa de ruído de base paramétrico no fluxo de dados 20 por meio de outra SID 38, em que, após outra fase de interrupção 40, pode seguir até, por exemplo, outra fase ativa 42 começar, conforme detectada pelo detector 16 e assim por diante. Naturalmente, as estruturas de SID que revelam àa estimativa de ruído de base paramétrico atualmente atualizada pode, alternativa Ou adicionalmente, ser intercalada dentro das fases inativas de maneira intermediária, independente das alterações na estimativa de ruído de base paramétrico.

Obviamente, o fluxo de dados 44 produzido pelo mecanismo de codificação 14 e indicado na Figura 1 pelo uso de eclosão, consume mais taxa de bits de transmissão que OS fragmentos de fluxo de dados 32 e 38 a serem transmitidos durante as fases inativas 28 e, da mesma forma, as preservações de taxa de bits são consideráveis.

Ademais, no caso de o estimador de ruído de base 12 ser capaz de iniciar imediatamente com oO procedimento para alimentação adicional do fluxo de dados 30 pela atualização de estimativa contínua opcional, não é necessário continuar a transmitir preliminarmente o fluxo de dados 44 do mecanismo de codificação 14 além do ponto de detecção de fase inativa no tempo 34, com isso, reduzindo mais a taxa de bits consumida geral.

Conforme será explicado em mais detalhes abaixo em relação a realizações mais específicas, O mecanismo de codificação 14 pode ser configurado para, na codificação do sinal de áudio de entrada, codificar de maneira preditiva o sinal de áudio de entrada em coeficientes de previsão linear e um sinal de excitação com codificação por transformação do sinal de excitação e codificação dos coeficientes de previsão linear no fluxo de dados 30 e 44, respectivamente. Uma implementação possível é apresentada na Figura 2. De acordo com a Figura 2, o mecanismo de codificação 14 compreende um transformador 50, um modelador de ruído de domínio de frequência 52 e um quantificador 54 que são conectados em série, na ordem de sua menção, entre uma entrada de sinal de áudio 56 e uma saída de fluxo de dados 58 do mecanismo de codificação 14. Ainda, o mecanismo de codificação 14 da Figura 2 compreende um módulo de análise de previsão linear 60 que é configurado para determinar coeficientes de previsão linear do sinal de áudio 56 pelo respectivo janelamento de análise das partes do sinal de áudio e aplicação de uma auto-correlação nas partes janeladas, Ou determina uma auto-correlação com base nas transformações no domínio de transformação do sinal de áudio de entrada conforme produzido pelo transformador 50, com a utilização de seu espectro de potência e aplicação de uma DFT inversa de modo a determinar a auto-correlação, com a realização subsequente da estimativa de LPC com base na auto-correlação, como à utilização de um algoritmo de (Wiener-) Levinson-Durbin.

Com base nos coeficientes de previsão linear determinados pelo módulo de análise de previsão linear 60, o fluxo de dados produzido na saída 58 é alimentado com as respectivas informações sobre as LPCs, e o modelador de ruído de domínio de frequência é controlado de modo a modelar espectralmente o espectrograma do sinal de áudio, de acordo com uma função de transferência correspondente à função de transferência de um filtro de análise de previsão linear determinado —* pelos coeficientes de previsão linear produzidos pelo módulo 60. Uma quantificação das LPCs para transmiti-las no fluxo de dados pode ser realizada no domínio de LSP/LSF e utilizando a interpolação, de modo a reduzir à taxa de transmissão comparada à taxa de análise no analisador 60. Ainda, a LPC para ponderação espectral da conversão realizada na FDNS pode envolver a aplicação de um ODFT nas LPCs e aplicação dos valores de ponderação resultantes nos espectros do transformador como o divisor.

o quantificador 54, então, quantifica os coeficientes de transformação do espectrograma (planificado) formado espectralmente. Por exemplo, O transformador 50 utiliza uma transformada sobreposta, como uma MDCT, a fim de transferir Oo sinal de áudio do domínio de tempo para domínio espectral, obtendo, com isso, as transformações consecutivas correspondentes às partes janeladas que se sobrepõem do sinal de áudio de entrada, que são, então, formadas de maneira espectral pelo modelador de ruído de domínio de frequência 52 ao ponderar essas transformações, de acordo com a função de transferência do filtro de análise de LP.

O espectrograma formado pode ser interpretado como um sinal de excitação e, conforme é ilustrado pela seta tracejada 62, o estimador de ruído de base 12 pode ser configurado para atualizar a estimativa de ruído de base paramétrico utilizando esse sinal de excitação. Alternativamente, conforme indicado pela seta tracejada 64, o estimador de ruído de base 12 pode utilizar a representação de transformada sobreposta, conforme produzida pelo transformador 50, como uma base para a atualização direta, isto é, sem a modelação de ruído de domínio de frequência pelo modelador de ruído 52.

Os detalhes adicionais em relação à implementação possível dos elementos apresentados nas Figuras 1 a 2 são deriváveis das realizações subsequentemente mais detalhadas e é observado que todos esses detalhes são individualmente transferíveis aos elementos das Figuras 1 e 2.

Antes, entretanto, de descrever essas realizações mais detalhadas, é feita referência à Figura 3, que apresenta que, adicional ou alternativamente, a atualização da estimativa de ruído de base paramétrico pode ser realizada no lado do decodificador.

O decodificador de áudio 80 da Figura 3 é configurado para decodificar um fluxo de dados que entra em uma entrada 82 do decodificador 80, de modo a reconstruir a partir disso um sinal de áudio a ser produzido em uma saída 84 do decodificador 80. O fluxo de dados compreende pelo menos uma fase ativa 86 seguida por uma fase inativa 88. Internamente, O decodificador de áudio 80 compreende um estimador de ruído de base 90, um mecanismo de decodificação 92, um gerador aleatório paramétrico 94 e um gerador de ruído de base 96. O mecanismo de decodificação 92 é conectado entre a entrada 82 e a saída 84 e, da mesma forma, a conexão em série do provedor 90, o gerador de ruído de base 96 e o gerador aleatório paramétrico 94 são conectados entre a entrada 82 e a saída 84. O decodificador 92 é configurado para reconstruir o sinal de áudio do fluxo de dados durante a fase ativa, de modo que o sinal de áudio 98, conforme produzido na saída 84, compreenda o ruído e o som útil em uma qualidade adequada.

O estimador de ruído de base 90 é configurado para determinar uma estimativa de ruído de base paramétrico com base em uma representação de decomposição espectral do sinal de áudio de entrada obtido do fluxo de dados de modo que a estimativa de ruído de base paramétrico descreva espectralmente o invólucro 15º espectral do ruído de base do sinal de áudio de entrada. O gerador aleatório paramétrico 94 e o gerador de ruído de base 96 são configurados para reconstruir o sinal de áudio durante a fase inativa ao controlar o gerador aleatório paramétrico durante a fase inativa com a estimativa de ruído de base paramétrico.

Entretanto, conforme indicado pelas linhas tracejadas na Figura 3, o decodificador de áudio 80 pode não compreender o estimador 90. De preferência, o fluxo de dados pode ter, conforme indicado acima, codificada nele uma estimativa de ruído de base paramétrico que descreve espectralmente o invólucro espectral do ruído de base. Nesse caso, o decodificador 92 pode ser configurado para reconstruir o sinal de áudio do fluxo de dados durante a fase ativa, enquanto o gerador aleatório paramétrico 94 e o gerador de ruído de base 96 cooperam, de modo que o gerador 96 sintetize o sinal de áudio durante a fase inativa ao controlar o gerador aleatório paramétrico 94 durante a fase inativa 88, dependendo da estimativa de ruído de base paramétrico.

Se, entretanto, o estimador 90 estiver presente, o decodificador 80 da Figura 3 poderia ser informado sobre a entrada 106 da fase inativa 106 pelo fluxo de dados 88, como pelo uso de uma indicação de inatividade de início. Então, O decodificador 92 poderia proceder para continuar à decodificar uma parte alimentada adicional preliminarmente 102 e o estimador de ruído de base poderia conhecer/estimar o ruído de base dentro desse tempo preliminar após a faixa de tempo 106. Entretanto, de acordo com as realizações acima da Figura 1 e 2, é possível que o estimador de ruído de base 90 seja configurado para atualizar continuamente a estimativa de ruído de base paramétrico do fluxo de dados durante a fase ativa.

O estimador de ruído de base 90 pode não ser conectado à entrada 82 diretamente, mas por meio do mecanismo de decodificação 92, conforme ilustrado pela linha tracejada 100, de modo a obter do mecanismo de decodificação 92 alguma versão reconstruída do sinal de áudio. Em princípio, o estimador de ruído de base 90 pode ser configurado para operar bem semelhante ao estimador de ruído de base 12, além do fato de que O estimador de ruído de base 90 tem acesso meramente à versão reconstruível do sinal de áudio, isto é, incluindo a perda causada pela quantificação no lado de codificação.

o gerador aleatório paramétrico 94 pode compreender um ou mais geradores de número real ou pseudo- aleatório, cuja sequência de valores produzida pode se conformar a uma distribuição estatística que pode ser parametricamente ajustada por meio do gerador de ruído de base 296. O gerador de ruído de base 96 é configurado para sintetizar o sinal de áudio 98 durante a fase inativa 88 ao controlar o gerador aleatório paramétrico 94 durante a fase inativa 88 dependendo da estimativa de ruído de base paramétrico conforme obtida do estimador de ruído de base 90. Embora ambas as entidades 96 e 94 sejam apresentadas por serem conectadas em série, a conexão em série não deve ser interpretada como sendo limitante.

Os geradores 96 e 94 poderiam ser interconectados.

Na verdade, o gerador 94 poderia ser interpretado por ser parte do gerador 96. Assim, de acordo com uma implementação vantajosa da Figura 3, o modo de operação do decodificador de áudio 80 da Figura 3 pode ser como segue.

Durante uma fase ativa 86, a entrada 82 é continuamente provida de uma parte de fluxo de dados 102 que deve ser processada pelo mecanismo de decodificação 92 durante a fase ativa 86. O fluxo de dados 104 que entra na entrada 82, então, para a transmissão da parte de fluxo de dados 102 dedicada para decodificar pelo mecanismo 92 em algum instante de tempo 106, isto é, não está disponível estrutura adicional da parte de fluxo de dados na faixa de tempo 106 para decodificar pelo mecanismo 92. A sinalização da entrada da fase inativa 88 pode ser O rompimento da transmissão da parte de fluxo de dados 102 ou pode ser sinalizada por alguma informação 108 disposta imediatamente no início da fase inativa 88. Em qualquer caso, a entrada da fase inativa 88 ocorre muito subitamente, mas isso não é um problema, uma vez que o estimador de ruído de base 90 atualizou continuamente a estimativa de ruído de base paramétrico durante a fase ativa 86, com base na parte de fluxo de dados 102. Devido a isso, O estimador de ruído de base 90 é capaz de prover O gerador de ruído de base 96 com a mais nova versão da estimativa de ruído de base paramétrico, assim que a fase inativa 88 começar em 106. Da mesma forma, a partir do instante de tempo 106, o mecanismo de decodificação 92 para de produzir qualquer reconstrução de sinal de áudio, uma vez que oO mecanismo de decodificação 92 não é alimentado adicionalmente com uma parte de fluxo de dados 102, mas o gerador aleatório paramétrico 94 é controlado pelo gerador de ruído de base 96, de acordo com a estimativa de ruído de base paramétrico, de modo que uma emulação do ruído de base possa ser produzida na saída 84 imediatamente após o instante de tempo 106, 15º de modo a seguir sem intervalos o sinal de áudio reconstruído, conforme produzido pelo mecanismo de decodificação 92 até o instante de tempo 106. Pode ser utilizada a crossfading para transitar da última estrutura reconstruída da fase ativa, conforme produzida pelo mecanismo 92, para O ruído de base, conforme determinado pela versão recentemente atualizada da estimativa de ruído de base paramétrico.

Como o estimador de ruído de base 90 é configurado para atualizar continuamente a estimativa de ruído de base paramétrico do fluxo de dados 104 durante a fase ativa 86, ele pode ser configurado para diferenciar entre um componente de ruído e um componente de sinal útil dentro da versão do sinal de áudio, conforme reconstruída do fluxo de dados 104 na fase ativa 86 e para determinar a estimativa de ruído de base paramétrico meramente do componente de ruído ao invés do componente de sinal útil.

A maneira que o estimador de ruído de base 90 realizar essa distinção/separação corresponde à maneira delineada acima em relação ao estimador de ruído de base 12. Por exemplo, oO sinal de excitação ou residual reconstruído internamente do fluxo de dados

104 dentro do mecanismo de decodificação 92 pode ser utilizado.

Semelhante à Figura 2, a Figura 4 apresenta uma implementação possível para o mecanismo de decodificação 92. De acordo com a Figura 4, o mecanismo de decodificação 92 compreende uma entrada 110 para receber a parte de fluxo de dados 102 e uma saída 112 para produzir o sinal de áudio reconstruído dentro da fase ativa 86. Conectado em série entre eles, o mecanismo de decodificação 92 compreende um desquantificador 114, um modelador de ruído de domínio de frequência 116 e um transformador inverso 118, que são conectados entre a entrada 110 e a saída 112 na ordem de sua menção.

A parte de fluxo de dados 102 que chega na entrada 110 compreende uma versão codificada por transformação do sinal de excitação, isto é, níveis de coeficiente de transformação que O representam, que são alimentados à entrada do desquantificador 114, assim como as informações sobre os coeficientes de previsão linear, essas informações são alimentadas ao modelador de ruído de domínio de frequência 116. O desquantificador 114 desquantifica a representação espectral do sinal de excitação e encaminha algo ao modelador de ruído de domínio de frequência 116 que, por sua vez, forma espectralmente o espectrograma do sinal de excitação (junto ao ruído de quantificação plano), de acordo com uma função de transferência que corresponde a um filtro de síntese de previsão linear, formando, com isso, o ruído de quantificação.

No princípio, FDNS 116 da Figura 4 age de maneira semelhante a FDNS da Figura 2: LPCs são extraídas do fluxo de dados e, então, sujeitas a LPC para conversão de ponderação espectral, por exemplo, ao aplicar uma ODFT nas LPCs extraídas, então, com a aplicação das ponderações espectrais resultantes nos espectros desquantificados de entrada do desquantificador 114 como multiplicadores. O retransformador 118, então, transfere a reconstrução do sinal de áudio assim obtida do domínio espectral para o domínio de tempo e as saídas do sinal de áudio reconstruído assim obtidas na saída 112. Uma transformação sobreposta pode ser utilizada pelo transformador inverso 118, como por uma IMDCT. Conforme ilustrado pela linha tracejada 120, o espectrograma de sinal de excitação pode ser utilizado pelo estimador de ruído de base 90 para a atualização de ruído de base paramétrico. Alternativamente, o espectrograma do sinal de áudio em si pode ser utilizado conforme indicado pela seta tracejada 122.

Em relação à Figura 2 e 4, deve ser observado que essas realizações para uma implementação dos mecanismos de codificação/decodificação não devem ser interpretadas como restritivas. As realizações alternativas também são viáveis. Ademais, os mecanismos de codificação/decodificação podem ser de um tipo de codec de múltiplos modos, onde as partes da Figura 2 e 4, assumem meramente a responsabilidade para codi ficar /decodificar estruturas tendo uma associação de modo de codificação de estrutura específico entre elas, enquanto outras estruturas são sujeitas a outras partes dos mecanismos de codificação/decodificação não apresentadas na Figura 2 e 4. Esse outro modo de codificação de estrutura também poderia ser um modo de codificação preditiva utilizando a codificação de previsão linear, por exemplo, mas com a codificação no domínio de tempo ao invés de utilizar a codificação por transformação.

A Figura 5 apresenta uma realização mais detalhada do codificador da Figura 1. Em particular, o estimador de ruído de base 12 é apresentado em mais detalhes na Figura 5, de acordo com uma realização específica.

De acordo com a Figura 5, o estimador de ruído de base 12 compreende um transformador 140, um FDNS 142, um módulo de análise de LP 144, um estimador de ruído 146, um estimador de parâmetro 148, um medidor de fixação 150, e um quantificador 152. Alguns dos componentes mencionado acima podem ser parcial ou completamente de propriedade concomitante do mecanismo de codificação 14. Por exemplo, O transformador 140 e o transformador 50 da Figura 2 podem ser os mesmos, os módulos de análise de LPs 60 e 144 podem ser os mesmos, FDNSs 52 e 142 podem ser os mesmos e/ou os quantificadores 54 e 152 podem ser implementados em um módulo.

A Figura 5 também apresenta um empacotador de fluxo de dados 154 que assume uma responsabilidade passiva para a operação da chave 22 na Figura 1. Em particular, a VAD, conforme o detector 16 do codificador da Figura 5 é exemplarmente chamado, decide simplesmente qual caminho deve ser tomado, seja o caminho da codificação de áudio 14 ou o caminho do estimador de ruído de base 12. Para ser mais preciso, o mecanismo de codificação 14 e O estimador de ruído de base 12 são ambos conectados em paralelo entre a entrada 18 e o empacotador 154, em que, dentro do estimador de ruído de base 12, o transformador 140, o FDNS 142, Oo módulo de análise de LP 144, o estimador de ruído 146, o estimador de parâmetro 148, e o quantificador 152 são conectados em série entre a entrada 18 e o empacotador 154 (na ordem de sua menção), enquanto o módulo de análise de LP 144 é conectado entre a entrada 18 e uma entrada de LPC do módulo de FDNS 142 e uma entrada adicional do quantificador 152, respectivamente, e O medidor de fixação 150 é adicionalmente conectado entre o módulo de análise de LP 144 e uma entrada de controle do quantificador 152. O empacotador de fluxo de dados 154 realiza simplesmente O empacotamento se recebe uma entrada de qualquer uma das entidades conectadas a suas entradas.

No caso de transmitir estruturas zero, isto é, durante a fase de interrupção da fase inativa, O detector 16 informa o estimador de ruído de base 12, em particular, O quantificador 152, para parar O processamento e não enviar qualquer coisa ao empacotador de fluxo de dados 154.

De acordo com a Figura 5, oO detector 16 pode operar no domínio de tempo e/ou de transformação/espectral, de modo a detectar fases ativas/inativas.

O modo de operação do codificador da Figura 5 é como segue. Conforme ficará claro, O codificador da Figura 5 é capaz de aprimorar a qualidade do ruído de conforto, como o ruído fixo em geral, como ruído de carro, ruído de balbuciação com muitos falantes, alguns instrumentos musicais e, em particular, os que são ricos em harmônica, como gotas de chuva.

Em particular, o codificador da Figura 5 deve controlar um gerador aleatório no lado de decodificação, de modo a excitar coeficientes de transformação, de modo que O ruído detectado no lado de codificação emulado. Da mesma forma, antes de discutir a funcionalidade do codificador da Figura 5 adicionalmente, é feita breve referência à Figura 6, que apresenta uma realização possível para um decodificador que seria capaz de emular o ruído de conforto no lado de decodificação, conforme instruído pelo codificador da Figura 5. De modo mais geral, a Figura 6 apresenta uma implementação possível de um decodificador que se ajusta ao codificador da Figura 1.

Em particular, o decodificador da Figura 6 compreende um mecanismo de decodificação 160, de modo àa decodificar a parte de fluxo de dados 44 durante as fases ativas e uma parte de geração de ruído de conforto 162 para gerar o ruído de conforto com base nas informações 32 e 38 providas no fluxo de dados referente às fases inativas 28. A parte de geração de ruído de conforto 162 compreende um gerador aleatório paramétrico 164, um FDNS 166 e um transformador inverso (ou sintetizador) 168. Os módulos 164 a 168 são conectados em série entre si, de modo que, na saída do sintetizador 168, resulte o ruído de conforto, o que preenche o intervalo entre o sinal de áudio reconstruído conforme produzido pelo mecanismo de decodificação 160 durante as fases inativas 28, conforme discutido em relação à Figura 1. OS processadores FDNS 166 e o transformador inverso 168 podem ser parte do mecanismo de decodificação 160. Em particular, eles podem ser os mesmos que os FDNS 116 e 118 na Figura 4, por exemplo.

O modo de operação e funcionalidade dos módulos individuais da Figura 5 e 6 tornar-se-ão mais claros à partir da discussão a seguir.

Em particular, o transformador 140 decompõe de maneira espectral o sinal de entrada em um espectrograma, como ao utiliza uma transformação sobreposta.

Um estimador de ruído 146 é configurado para determinar parâmetros de ruído A partir disso.

Simultaneamente, o detector de atividade de voz ou som 16 avalia os aspectos derivados do sinal de entrada, de modo a detectar se uma transição de uma fase ativa para uma fase inativa Ou vice- versa ocorre.

Esses aspectos utilizados pelo detector 16 podem estar na forma de detector transiente/de início, medição de tonalidade e medição residual de LPC.

O detector transiente/de início pode ser utilizado para detectar ataque (aumento súbito de energia) ou no início da fala ativa em um ambiente limpo ou sinal sem ruído; a medição de tonalidade pode ser utilizada para distinguir o ruído de base útil, como sirene, toque de telefone e música; LPC residual pode ser utilizada para obter uma indicação de presença de fala no sinal.

Com base nesses aspectos, o detector 16 pode dar grosseiramente uma informação se à estrutura atual puder ser classificada, por exemplo, como fala, silêncio, música ou ruído.

Embora o estimador de ruído 146 possa Ser responsável para distinguir o ruído dentro do espectrograma do componente de sinal útil nele, como proposto em [R.

Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothing e Minimum Statistics, 2001), o estimador de parâmetro 148 pode ser responsável por analisar estatisticamente o componente de ruídos e determinar parâmetros para cada componente espectral, por exemplo, com base no componente de ruído.

O estimador de ruído 146 pode ser, por exemplo, configurado para buscar o mínimo local no espectrograma e O estimador de parâmetro 148 pode ser configurado para determinar as estatísticas de ruído nessas partes, assumindo que a mínima no espectrograma seja primariamente um atributo do ruído de base em vez de um som de primeiro plano.

Como uma observação intermediária, enfatiza-se que pode ser possível realizar a estimativa pelo estimador de ruído sem o FDNS 142, uma vez que a mínima também ocorre no espectro não modelado. A maior parte da descrição da Figura 5 permaneceria a mesma.

O quantificador de parâmetro 152, por sua vez, pode ser configurado para parametrizar os parâmetros estimados pelo estimador de parâmetro 148. Por exemplo, os parâmetros podem descrever uma amplitude média e um primeiro momento de ordem ou maior de uma distribuição dos valores espectrais dentro do espectrograma do sinal de entrada, até o componente de ruído ser tratado. A fim de preservar a taxa de bits, os parâmetros podem ser encaminhados ao fluxo de dados para inserção nele dentro de estruturas de SID em uma resolução espectral menor que a resolução espectral provida pelo transformador 140.

O medidor de fixação 150 pode ser configurado para derivar uma medida de fixação para a fixação de sinal de ruído. O estimador de parâmetro 148, por sua vez, pode utilizar a medida de fixação, de modo a decidir se uma atualização de parâmetro deve ser iniciada ou não ao enviar outra estrutura de SID, como a estrutura 38 na Figura 1 ou para influenciar a maneira que os parâmetros são estimados.

O módulo 152 quantifica os parâmetros calculados pelo estimador de parâmetro 148 e análise de LP 144 e sinaliza isso ao lado de decodificação. Em particular, antes de quantificar, os componentes espectrais podem ser agrupados em grupos. Esse agrupamento pode ser selecionado de acordo com os aspectos psico-acústicos, como a conformação à escala de Barkou semelhantes. O detector 16 informa o quantificador 152 se é necessário que a quantificação seja realizada ou não. No caso de não ser necessária a quantificação, estruturas zero devem seguir.

Ao transferir a descrição para um cenário concreto de troca de uma fase ativa para uma fase inativa, então, os módulos da Figura 5 agem como segue.

Durante uma fase ativa, o mecanismo de codificação 14 continua a codificar o sinal de áudio por meio do empacotador no fluxo de dados. A codificação pode ser realizada por estrutura. Cada estrutura do fluxo de dados pode representar uma parte/intervalo de tempo do sinal de áudio. O codificador de áudio 14 pode ser configurado para codificar todas as estruturas utilizando codificação de LPC. O codificador de áudio 14 pode ser configurado para codificar algumas estruturas, conforme descrito em relação à Figura 2, denominado modo de codificação de estrutura TCX, por exemplo. Os restantes podem ser codificados utilizando codificação de previsão linear excitada por código (CELP), como O modo de codificação ACELP, por exemplo. Isto é, a parte 44 do fluxo de dados pode compreender uma atualização contínua de coeficientes de LPC, utilizando alguma taxa de transmissão de LPC que pode ser igual ou maior que a taxa de estrutura.

Em paralelo, o estimador de ruído 146 inspeciona os espectros planos de LPC (filtrados por análise de LPC), de modo a identificar a mínima ku, dentro do espectrograma de TCX representado pela sequência desses espectros. De fato, essa mínima pode variar no tempo t, isto é, Kkun(t). Não obstante, a mínima pode formar traços no espectrograma produzido por FDNS 142 e, assim, para cada espectro consecutivo i no tempo ti, a mínima pode ser associável à mínima no espectro anterior e posterior, respectivamente.

O estimador de parâmetro, então, deriva os parâmetros de estimativa de ruído de base a partir disso, como, por exemplo, uma tendência central (taxa média, mediana Ou similares) m e/ou dispersão (desvio padrão, variância Ou similares) d para diferentes componentes ou faixas espectrais. A derivação pode envolver uma análise estatística dos consecutivos coeficientes espectrais dos espectros do espectrograma na mínima, produzindo, com isso, m e d para cada mínimo em knin. À interpolação ao longo da dimensão espectral entre mínima de espectro mencionada acima pode ser realizada de modo a obter m e d para outros componentes ou faixas espectrais predeterminados. A resolução espectral para a derivação e/ou interpolação da tendência central (taxa média) e a derivação da dispersão (desvio padrão, variância ou similares) podem diferir.

Os parâmetros mencionados acima são continuamente atualizados por espectro produzido por FDNS 142, por exemplo.

Assim que o detector 16 detecta a entrada de uma fase inativa, o detector 16 pode informar o mecanismo 14 da mesma forma, de modo que as estruturas ativas adicionais não sejam encaminhadas ao empacotador 154. Entretanto, o quantificador 152, ao contrário, produz os parâmetros de ruído estatísticos mencionados acima em uma primeira estrutura de SID dentro da fase inativa. A primeira estrutura de SID pode ou não compreender uma atualização das LPCs. Se uma atualização de LPC estiver presente, ela pode ser transmitida dentro do fluxo de dados na estrutura de SID 32 no formato utilizado na parte 44, isto é, durante a fase ativa, como utilizando a quantificação no domínio de LSF/LSP ou, de maneira diferente, como utilizando ponderações espectrais correspondentes à função de transferência do filtro de análise de LPC ou de síntese de LPC, como a que foi aplicada por FDNS 142 dentro da estrutura do mecanismo de codificação 14 no procedimento com uma fase ativa.

Durante a fase inativa, o estimador de ruído 146, o estimador de parâmetro 148 e o medidor de fixação 150 se mantêm em operação concomitante, de modo a manter o lado de decodificação atualizado sobre mudanças no ruído de base. Em particular, oO medidor 150 verifica a ponderação espectral definida pelas LPCs, de modo a identificar mudanças e informar o estimador 148 quando uma estrutura de SID deve ser enviada ao decodificador. Por exemplo, o medidor 150 poderia ativar o estimador da mesma forma sempre que a medida de fixação mencionada acima indicar um grau de oscilação nas LPCs que excedem uma determinada quantidade. Adicional ou alternativamente, o estimador poderia ser desencadeado para enviar os parâmetros atualizados de maneira regular. Entre essas estruturas de SID atualizadas 40, nada seria enviado nos fluxos de dados, isto é, “estruturas zero”.

No lado do decodificador, durante a fase ativa, O mecanismo de decodificação 160 assume a responsabilidade por reconstruir o sinal de áudio. Assim que a fase inativa inicia, O gerador aleatório de parâmetro adaptativo 164 utiliza OS parâmetros de gerador aleatório desquantificados enviados durante a fase inativa dentro do fluxo de dados do quantificador de parâmetro 150 para gerar componentes espectrais aleatórios, formando, com isso, um espectrograma aleatório que é formado espectralmente dentro do processador de energia espectral 166 com o sintetizador 168, então, realizando uma retransformação do domínio espectral no domínio de tempo. Para a formação espectral dentro de FDNS 166, os coeficientes de LPC mais recentes das estruturas ativas mais recentes podem ser utilizados Ou à ponderação espectral a ser aplicada por FDNS 166 pode ser derivada a partir disso por extrapolação ou a estrutura de SID 32 em si pode transmitir as informações. Por essa medida, no início da fase inativa, o FDNS 166 continua a ponderar espectralmente O espectro de chegada, de acordo com uma função de transferência de um filtro de síntese de LPC, com o LPS definindo o filtro de síntese de LPC sendo derivado da parte de dados ativa 44 ou da estrutura de SID

32. Entretanto, com o início da fase inativa, O espectro a ser formado por FDNS 166 é o espectro gerado aleatoriamente em vez de um codificado por transformação, como no caso do modo de codificação de estrutura de TCX. Ademais, a modelação espectral aplicada em 166 é meramente atualizada de maneira descontínua pelo uso das estruturas de SID 38. Uma interpolação ou aumento ou diminuição gradual poderia ser realizado para trocar gradualmente de uma definição de modelação espectral para a próxima durante as fases de interrupção 36. Conforme apresentado na Figura 6, o gerador aleatório paramétrico adaptativo como 164 pode adicional e opcionalmente utilizar os coeficientes de transformação desquantificados, conforme contidos dentro das partes mais recentes da última fase ativa no fluxo de dados, a saber, dentro da parte de fluxo de dados 44 imediatamente antes da entrada da fase inativa.

Por exemplo, o uso pode ser de modo que uma transição suave seja realizada do espectrograma dentro da fase ativa para o espectrograma aleatório dentro da fase inativa.

Referindo-se brevemente de novo à Figura 1 e 3, segue-se das realizações da Figura 5 e 6 (e a Figura 7 subsequentemente explicada) que a estimativa de ruído de base paramétrico, conforme gerada dentro do codificador e/ou decodificador, pode compreender informações estatísticas sobre uma distribuição de valores espectrais consecutivos no tempo para diferenciar partes espectrais, como faixas de Bark ou diferentes componentes espectrais.

Para cada dessa parte espectral, por exemplo, as informações estatísticas podem conter uma medida de dispersão.

A medida de dispersão seria, da mesma forma, definida nas informações espectrais em uma maneira espectralmente resolvida, a saber, amostradas em/para as partes espectrais.

A resolução espectral, isto é, o número de medidas para dispersão e propagação de tendência central ao longo do eixo espectral pode diferir entre, por exemplo, a medida de dispersão e a medida de tendência média ou central opcionalmente presente.

As informações estatísticas são contidas dentro das estruturas de SID.

Isso pode se referir a um espectro modelado, como o espectro filtrado de análise de LPC (isto é, alinhado de LPC), como o espectro de MDCT modelado, o que permite a síntese pela sintetização de um espectro aleatório, de acordo com o espectro estatístico, e desmodelando-o de acordo com uma função de transferência do filtro de síntese de

LPC.

Nesse caso, as informações de modelação espectral pode estar presentes dentro das estruturas de SID, embora isso possa ser deixado na primeira estrutura de SID 32, por exemplo.

Entretanto, conforme será apresentado posteriormente, essas informações estatísticas podem se referir alternativamente a um espectro não modelado.

Ademais, ao invés de utilizar uma representação de espectro com valor real, como um MDCT, um espectro de banco de filtros com valor complexo, como o espectro de QMF do sinal de áudio, pode ser utilizado.

Por exemplo, o espectro de QMF do sinal de áudio na forma não modelada pode ser utilizado e estatisticamente descrito pelas informações estatísticas, em cujo caso não há modelação espectral diferente da contida dentro das informações estatísticas em si.

Semelhante à relação entre a realização da Figura 3 em relação à realização da Figura 1, a Figura 7 apresenta uma implementação possível do decodificador da Figura 3. Conforme é apresentado pelo uso dos mesmos sinais de referência que na Figura 5, o decodificador da Figura 7 pode compreender um estimador de ruído 146, um estimador de parâmetro 148 e um medidor de fixação 150 que operam como os mesmos elementos na Figura 5, com Oo estimador de ruído 146 da Figura 7, entretanto, operando no espectrograma transmitido e desquantificado, como 120 ou 122, na Figura 4. O estimador de parâmetro 146, então, opera como O discutido na Figura 5. O mesmo se aplica em relação ao medidor de fixação 148, que opera nos valores de energia e espectrais ou dados de LPC que revelam o desenvolvimento temporal do espectro do filtro de análise de LPC (ou do filtro de síntese de LPC), conforme transmitido e desquantificado por meio/a partir do fluxo de dados durante a fase ativa.

Embora os elementos 146, 148 e 150 ajam como o estimador de ruído de base 90 da Figura 3, o decodificador da Figura 7 também compreende um gerador aleatório paramétrico adaptativo 164 e um FDNS 166, assim como um transformador inverso 168 e eles são conectados em série entre si, como na Figura 6, de modo a produzir o ruído de conforto na saída do sintetizador 168. Os módulos 164, 166, e 168 agem como o gerador de ruído de base 96 da Figura 3 com o módulo 164 assumindo a responsabilidade pela funcionalidade do gerador aleatório paramétrico 94. O gerador aleatório paramétrico adaptativo 94 ou 164 produz aleatoriamente os componentes espectrais gerados aleatoriamente do espectrograma, de acordo com os parâmetros determinados pelo estimador de parâmetro 148 que, por sua vez, é desencadeado utilizando a medida de fixação produzida pelo medidor de fixação 150. O processador 166, então, modela espectralmente o espectrograma assim gerado com o transformador inverso 168, realizando, então, a transição do domínio espectral para o domínio de tempo. Observe que quando, durante a fase inativa 88, o decodificador estiver recebido as informações 108, o estimador de ruído de base 90 está realizando uma atualização das estimativas de ruído, seguido por algum meio de interpolação. De outra forma, se estruturas zero forem recebidas, simplesmente fará o processamento, como interpolação e/ou aumento ou diminuição gradual.

Resumindo, as Figuras 5 a 7, essas realizações apresentam que é tecnicamente possível aplicar um gerador aleatório controlado 164 para excitar os coeficientes de TCX, que podem ser valores reais, como nos valores de MDCT ou complexos,

como em FFT.

Também seria vantajoso aplicar o gerador aleatório 164 em grupos de coeficientes geralmente alcançados por meio de bancos de filtros.

O gerador aleatório 164 é preferencialmente controlado de modo que ele modele o tipo de ruído o mais estritamente possível.

Isso poderia ser realizado se o ruído alvo for conhecido antecipadamente.

Algumas aplicações podem permitir isso.

Em muitas aplicações realísticas, nas quais um indivíduo pode encontrar diferentes tipos de ruído, um método adaptativo é necessário, conforme apresentado nas Figuras 5 a 7. Da mesma forma, um gerador aleatório de parâmetro adaptativo 164 é utilizado o que poderia ser brevemente definido como g = f (x), onde x = (xi, X2 .) é um conjunto de parâmetros de gerador aleatório, conforme providos pelos estimadores de parâmetro 146 e 150, respectivamente.

Para tornar o gerador aleatório de parâmetro adaptativo, o estimador de parâmetro de gerador aleatório 146 controla adequadamente o gerador aleatório.

A compensação de desvio pode ser incluída a fim de compensar os casos nos quais os dados são considerados por serem estatisticamente insuficientes.

Isso é feito para gerar um modelo conjugado estatisticamente do ruído, com base nas estruturas anteriores e atualizará sempre os parâmetros estimados.

É dado um exemplo no qual o gerador aleatório 164 é suposto por gerar um ruído Gaussiano.

Nesse caso, por exemplo, somente os parâmetros médios e de variância podem ser necessários e um desvio pode ser calculado e aplicado a esses parâmetros.

Um método mais avançado pode manipular qualquer tipo de ruído ou distribuição e os parâmetros não são necessariamente os momentos de uma distribuição.

Para o ruído de não fixação, é preciso ter uma medida de fixação e um gerador aleatório paramétrico menos adaptativo pode ser, então, utilizado. A medida de fixação determinada pelo medidor 148 pode ser derivada da forma espectral do sinal de entrada utilizando diversos métodos, como, Por exemplo, a medida de distância de Itakura, a medida de distância de Kullback-Leibler etc.

Para manipular a natureza descontínua das atualizações de ruído enviadas por meio de estruturas de SID, como as ilustradas por 38 na Figura l, informações adicionais estão sendo normalmente enviadas, como a forma de energia e espectral do ruído. Essas informações são úteis para a geração do ruído no decodificador tendo uma transição suave mesmo durante um período de descontinuidade dentro da fase inativa. Por fim, diversas técnicas de suavização ou filtração podem ser aplicadas para ajudar a aprimorar a qualidade do emulador de ruído de conforto.

Conforme já observado acima, as Figuras 5 e 6 por um lado e a Figura 7 por outro lado pertencem a diferentes cenários. Em um cenário correspondente às Figuras 5 e 6, a estimativa de ruído de base paramétrico é feita no codificador, com base no sinal de entrada processado e, depois disso os parâmetros são transmitidos ao decodificador. A Figura 7 corresponde ao outro cenário no qual o decodificador pode tomar cuidado da estimativa de ruído de base paramétrico com base nas últimas estruturas recebidas dentro da fase ativa. O uso de um detector de atividade de voz/sinal ou estimador de ruído pode ser benéfico para ajudar a extrair os componentes de ruído mesmo durante a fala ativa, por exemplo.

Dentre os cenários apresentados nas Figuras 5 a 7, o cenário da Figura 7 pode ser preferido, uma vez que esse cenário resulta em uma taxa de bits menor sendo transmitida.

O cenário das Figuras 5 e 6, entretanto, tem a vantagem de ter uma estimativa de ruído mais precisa disponível.

Todas as realizações acima poderiam ser combinadas com as técnicas de extensão de amplitude de faixa, como a replicação de faixa espectral (SBR), embora a extensão de amplitude de faixa, em, geral, possa ser utilizada.

Para ilustrar isso, vide a Figura 8. A Figura 8 apresenta módulos pelos quais os codificadores das Figuras 1 e 5 poderiam ser estendidos para realizar a codificação paramétrica em relação a uma parte de frequência maior do sinal de entrada.

Em particular, de acordo com Figura 8, um sinal de áudio de entrada de domínio de tempo é espectralmente decomposto por um banco de filtros de análise 200, como um banco de filtros de análise QMF, conforme apresentado na Figura 8. As realizações acima das Figuras 1 e 5 seriam, então, aplicadas somente a uma parte de frequência menor da decomposição espectral gerada pelo banco de filtros 200. A fim de transmitir informações sobre a parte de frequência maior ao lado do decodificador, a codificação paramétrica também é utilizada.

Para este fim, um codificador de replicação de faixa espectral regular 202 é configurado para parametrizar a parte de frequência maior durante as fases ativas e alimentar informações nela na forma de informações de replicação de faixa espectral dentro do fluxo de dados ao lado de decodificação.

Uma chave 204 pode ser provida entre a saída do banco de filtros QMF 200 e a entrada do codificador de replicação de faixa espectral 202 para conectar a saída do banco de filtros 200 com uma entrada de um codificador de replicação de faixa espectral 206 conectada em paralelo ao codificador 202, de modo a assumir a responsabilidade pela extensão de amplitude de faixa durante as fases inativas. Isto é, a chave 204 pode ser controlada como a chave 22 na Figura

1. Conforme será delineado em mais detalhes abaixo, o módulo de codificador de replicação de faixa espectral 206 pode ser configurado para operar semelhante ao codificador de replicação de faixa espectral 202: ambos podem ser configurados para parametrizar o invólucro espectral do sinal de áudio de entrada dentro da parte de frequência maior, isto é, a parte de frequência maior restante não sujeita à codificação central pelo mecanismo de codificação, por exemplo. Entretanto, o módulo de codificador de replicação de faixa espectral 206 pode utilizar uma resolução de tempo/frequência mínima, na qual o invólucro espectral é parametrizado e transmitido dentro do fluxo de dados, enquanto o codificador de replicação de faixa espectral 202 pode ser configurado para adaptar a resolução de tempo/frequência ao sinal de áudio de entrada, como dependendo das ocorrências de transientes dentro do sinal de áudio.

A Figura 9 apresenta uma implementação possível do módulo de codificação de extensão de amplitude de faixa 206. Um ajustador de grade de tempo/frequência 208, um calculador de energia 210 e um codificador de energia 212 são conectados em série entre si entre uma entrada e uma saída do módulo de codificação 206. O ajustador de grade de tempo/frequência 208 pode ser configurado para ajustar a resolução de tempo/frequência na qual o invólucro da parte de frequência maior é determinado.

Por exemplo, uma resolução de tempo/frequência mínima permitida é continuamente utilizada pelo módulo de codificação 206. o calculador de energia 210 pode, então, determinar a energia da parte de frequência maior do espectrograma produzido pelo banco de filtros 200 dentro da parte de frequência maior nos recortes de tempo/frequência correspondente à resolução de tempo/frequência, e o codificador de energia 212 pode utilizar codificação por entropia, por exemplo, a fim de inserir as energias calculadas pelo calculador 210 no fluxo de dados 40 (vide Figura 1) durante as fases inativas, como dentro de estruturas de SID, como a estrutura de SID 38. Deve ser observado que as informações de extensão de amplitude de faixa geradas de acordo com as realizações da 15º Figuras 8 e 9 também podem ser utilizadas em conexão com a utilização de um decodificador, de acordo com qualquer uma das realizações delineadas acima, como as Figuras 3, 4 e 7. Assim, as Figuras 8 e 9 tornam claro que a geração de ruído de conforto, conforme explicado em relação às Figuras 1 a 7, também pode ser utilizada em conexão com a replicação de faixa espectral.

Por exemplo, os codificadores e decodificadores de áudio descritos acima podem operar em diferentes modos de operação, dentre os quais, alguns podem compreender replicação de faixa espectral e outros não.

Os modos de operação de faixa ampla super poderiam, por exemplo, envolver replicação de faixa espectral.

Em qualquer caso, as realizações acima das Figuras 1 a 7 que apresentam exemplos para gerar ruído de conforto podem ser combinadas com técnicas de extensão de amplitude de faixa na maneira descrita em relação às Figuras 8 e

9. O módulo de codificação de replicação de faixa espectral 206 sendo responsável pela extensão de amplitude de faixa durante as fases inativas pode ser configurado para operar em uma resolução de tempo e frequência muito baixa. Comparado ao processamento de replicação de faixa espectral regular, o codificador 206 pode operar em uma resolução de frequência diferente que vincula uma tabela de faixa de frequência adicional com resolução de frequência muito baixa junto a filtros de suavização IIR no decodificador para cada faixa de fator de escala de geração de ruído de conforto que interpola os fatores de escala de energia no ajustador de invólucro durante as fases inativas. Conforme mencionado agora, a grade de tempo/frequência pode ser configurada para corresponder à menor resolução de tempo possível.

Isto é, a codificação de extensão de amplitude de faixa pode ser realizada de maneira diferente no domínio QMF ou espectral, dependendo do silêncio ou de fase ativa estar presente. Na fase ativa, isto é, durante estruturas ativas, a codificação de SBR regular é realizada pelo codificador 202, resultando em um fluxo de dados de SBR normal que acompanha os fluxos de dados 44 e 102, respectivamente. Nas fases inativas ou durante estruturas classificadas como estruturas de SID, somente informações sobre o invólucro espectral, representadas como fatores de escala de energia, podem ser extraídas pela aplicação de uma grade de tempo/frequência que apresenta uma resolução de frequência muito baixa e, por exemplo, à mais baixa resolução de tempo possível. Os fatores de escala resultantes poderiam ser codificados de maneira eficiente pelo codificador 212 e escritos ao fluxo de dados. Em estruturas zero ou durante fases de interrupção 36, não podem ser escritas informações paralelas ao fluxo de dados pelo módulo de codificação de replicação de faixa espectral 206 e, portanto, não pode ser realizado cálculo de energia pelo calculador 210.

Em conformidade com a Figura 8, a Figura 10 apresenta uma extensão possível das realizações de decodificador das Figuras 3 e 7 para técnicas de codificação de extensão de amplitude de faixa. Para ser mais preciso, a Figura 10 apresenta uma realização possível de um decodificador de áudio, de acordo como presente pedido. Um decodificador central 92 é conectado em paralelo a um gerador de ruído de conforto, o gerador de ruído de conforto sendo indicado com o sinal de referência 220 e compreendendo, por exemplo, o módulo de geração de ruído 162 ou módulos 90, 94 e 96 da Figura 3. Uma chave 222 é apresentada como distribuindo as estruturas dentro dos fluxos de dados 104 e 30, respectivamente, no decodificador central 92 ou gerador de ruído de conforto 220, dependendo do tipo de estrutura, a saber, Se a estrutura se refere ou pertence a uma fase ativa, ou se refere ou pertence a uma fase inativa, como estruturas de SID ou estruturas zero referente a fases de interrupção. As saídas do decodificador central 92 e do gerador de ruído de conforto 220 são conectadas a uma entrada de um decodificador de extensão de amplitude de faixa espectral 224, cuja saída revela o sinal de áudio reconstruído.

A Figura 11 apresenta uma realização mais detalhada de uma implementação possível do decodificador de extensão de amplitude de faixa 224.

Conforme apresentado na Figura 11, o decodificador de extensão de amplitude de faixa 224, de acordo com a realização da Figura 11, compreende uma entrada 226 para receber a reconstrução de domínio de tempo da parte de frequência baixa do sinal de áudio completo a ser reconstruído. É a entrada 226 que conecta o decodificador de extensão de amplitude de faixa 224 às saídas do decodificador central 92 e do gerador de ruído de conforto 220, de modo que a entrada de domínio de tempo na entrada 226 possa ser a parte de frequência menor reconstruída de um sinal de áudio compreendendo tanto o componente de ruído como o útil ou o ruído de conforto gerado para fazer ponte de tempo entre as fases ativas.

Como de acordo com a realização da Figura 11, O decodificador de extensão de amplitude de faixa 224 é construído para realizar uma replicação de amplitude de faixa espectral, o decodificador 224 é chamado de decodificador de SBR a seguir. Com relação às Figuras 8 a 10, entretanto, enfatiza-se que essas realizações não são restritas à replicação de amplitude de faixa espectral. Preferencialmente, uma maneira alternativa mais geral de extensão de amplitude de faixa pode ser utilizada em relação a essas realizações também.

Ainda, o decodificador de SBR 224 da Figura 11 compreende uma saída de domínio de tempo 228 para produzir o sinal de áudio reconstruído finalmente, isto é, em fases ativas ou fases inativas. Entre a entrada 226 e a saída 228, o decodificador de SBR 224 compreende - conectados em série na ordem de sua menção - um decompositor espectral 230 que pode ser conforme apresentado na Figura 11, um banco de filtros de análise, como um banco de filtros de análise QMF, um gerador de HF 232, um ajustador de invólucro 234 e um conversor espectral para domínio de tempo 236 que pode ser conforme apresentado na Figura 11, incorporado como um banco de filtros de síntese, como um banco de filtros de síntese QMF. os módulos 230 a 236 operam como segue.

O decompositor espectral 230 decompõe espectralmente O sinal de entrada de domínio de tempo, de modo a obter uma parte de frequência baixa reconstruída.

O gerador de HF 232 gera uma parte de réplica de frequência alta, com base na parte de frequência baixa reconstruída e o ajustador de invólucro 234 forma ou modela espectralmente a réplica de frequência alta utilizando uma representação de um invólucro espectral da parte de frequência alta, conforme transmitida por meio da parte de fluxo de dados de SBR e provida pelos módulos ainda não discutidos, mas apresentados na Figura 11 acima do ajustador de invólucro 234. Assim, O 15º ajustador de invólucro 234 ajusta o invólucro da parte de réplica de frequência alta, de acordo com a representação de grade de tempo/frequência do invólucro de frequência alta transmitido, e encaminha a parte de frequência alta assim obtida ao conversor espectral para domínio de tempo 236 para uma conversão de todo o espectro de frequência, isto é, parte de frequência alta formada espectralmente junto à parte de frequência baixa reconstruída, para um sinal de domínio de tempo reconstruído na saída 228. Conforme já mencionado acima em relação às Figuras 8 a 10, o invólucro espectral da parte de frequência alta pode ser transmitido dentro do fluxo de dados na forma de fatores de escala de energia e o decodificador de SBR 224 compreende uma entrada 238, a fim de receber essas informações sobre o invólucro espectral de parte de frequência alta.

Conforme apresentado na

Figura 11, no caso de fases ativas, isto é, estruturas ativas presentes no fluxo de dados durante as fases ativas, as entradas 238 podem ser diretamente conectadas à entrada de invólucro espectral do ajustador de invólucro 234 por meio de uma respectiva chave 240. Entretanto, o decodificador de SBR 224 compreende adicionalmente um combinador de fator de escala 242, um armazenamento de dados de fator de escala 244, uma unidade de filtração de interpolação 246, como uma unidade de filtração IIR, e um ajustador de ganho 248. Os módulos 242, 244, 246 e 248 são conectados em série entre si entre 238 e a entrada de invólucro espectral do ajustador de invólucro 234, com a chave 240 sendo conectada entre o ajustador de ganho 248 e o ajustador de invólucro 234 e uma chave adicional 250 sendo conectada entre o armazenamento de dados de fator de escala 244 e a unidade de filtração 246. A chave 250 é configurada para conectar esse armazenamento de dados de fator de escala 244 com a entrada da unidade de filtração 246 ou um rearmazenador de dados de fator de escala 252. No caso de estruturas de SID durante as fases inativas - e, opcionalmente, nos casos de estruturas ativas para as quais uma representação bastante grosseira do invólucro espectral de parte de frequência alta é aceitável - as chaves 250 e 240 conectam a sequência de módulos 242 a 248 entre a entrada 238 e o ajustador de invólucro 234. O combinador de fator de escala 242 adapta a resolução de frequência na qual o invólucro espectral de parte de frequência alta foi transmitido por meio do fluxo de dados para a resolução, esse ajustador de invólucro 234 espera receber e um armazenamento de dados de fator de escala 244 armazena o invólucro espectral resultante até uma próxima atualização.

A unidade de filtração 246 filtra o invólucro espectral no tempo e/ou dimensão espectral e o ajustador de ganho 248 adapta o ganho do invólucro espectral de parte de frequência alta.

Para este fim, o ajustador de ganho pode combinar os dados de invólucro conforme obtidos pela unidade 246 com o invólucro real conforme derivável da saída de banco de filtros QMF.

O rearmazenador de dados de fator de escala 252 reproduz os dados de fator de escala que representam o invólucro espectral dentro das fases de interrupção ou estruturas zero, conforme armazenadas pelo armazenamento de fator de escala 244. Assim, no lado do decodificador, o processamento a seguir pode ser realizado.

Em estruturas ativas ou durante fases ativas, processamento de replicação de faixa espectral regular pode ser aplicado.

Durante esses períodos ativos, os fatores de 15º escala do fluxo de dados, que são tipicamente disponíveis para um número maior de faixas de fator de escala, conforme comparado ao processamento de geração de ruído de conforto, são convertidos para a resolução de frequência de geração de ruído de conforto pelo combinador de fator de escala 242. O combinador de fator de escala combina os fatores de escala para a resolução de frequência maior para resultar em diversos fatores de escala compatíveis com CNG ao explorar margens de faixa de frequência comuns das diferentes tabelas de faixa de frequência.

Os valores de fator de escala resultantes na saída da unidade de combinação de fator de escala 242 são armazenados para reutilizar em estruturas zero e reprodução posterior pelo rearmazenador 252 e são subsequentemente utilizados para atualizar a unidade de filtração 246 para o modo de operação de CNG.

Em estruturas de SID, um leitor de fluxo de dados de SBR modificado é aplicado, que extrai as informações de fator de escala do fluxo de dados.

A configuração restante do processamento de SBR é inicializada com valores predefinidos, a grade de tempo/frequência é inicializada para a mesma resolução de tempo/frequência utilizada no codificador.

Os fatores de escala extraídos são alimentados à unidade de filtração 246, onde, por exemplo, um filtro de suavização IIR interpola a progressão da energia para uma faixa de fator de escala de resolução baixa ao longo do tempo.

No caso de estruturas zero, não é lida carga útil do fluxo de dados e a configuração de SBR, incluindo a grade de tempo/frequência, é a mesma que a utilizada em estruturas de SID.

Em estruturas zero, os filtros de suavização na unidade de filtração 246 são alimentados com um valor de fator de escala produzido da unidade de combinação de fator de escala 242 que foi 15º armazenado na última estrutura contendo informações de fator de escala válidas.

No caso de a estrutura atual ser classificada como uma estrutura inativa ou estrutura de SID, o ruído de conforto é gerado no domínio de TCX e transformado de volta para o domínio de tempo.

Subsequentemente, o sinal de domínio de tempo contendo o ruído de conforto é alimentado ao banco de filtros de análise QMF 230 do módulo de SBR 224. No domínio QMF, a extensão de amplitude de faixa do ruído de conforto é realizada por meio de transposição de cópia dentro do gerador de HF 232 e, por fim, o invólucro espectral da parte de frequência alta criada artificialmente é ajustado pela aplicação de informações de fator de escala de energia no ajustador de invólucro 234. Esses fatores de escala de energia são obtidos pela saída da unidade de filtração 246 e são escalados pela unidade de ajuste de ganho 248 antes da aplicação no ajustador de invólucro 234. Nessa unidade de ajuste de ganho 248, um valor de ganho para escalar os fatores de escala é calculado e aplicado a fim de compensar enormes diferenças de energia na margem entre a parte de frequência baixa e o conteúdo de frequência alta do sinal. As realizações descritas acima são comumente utilizadas nas realizações das Figuras 12 e 13. A Figura 12 apresenta uma realização de um codificador de áudio, de acordo com uma realização do presente pedido, e a Figura 13 apresenta uma realização de um decodificador de áudio. Os detalhes revelados em relação a essas figuras devem se aplicar igualmente aos elementos mencionados anteriormente de maneira individual. O codificador de áudio da Figura 12 compreende um banco de filtros de análise QMF 200 para decompor espectralmente um sinal de áudio de entrada. Um detector 270 e um estimador de ruído 262 são conectados a uma saída do banco de filtros de análise QMF 200. O estimador de ruído 262 assume à responsabilidade pela funcionalidade do estimador de ruído de base

12. Durante as fases ativas, os espectros QMF do banco de filtros de análise QMF são processados por uma conexão paralela de um estimador de parâmetro de replicação de faixa espectral 260 seguido por algum codificador de SBR 264 por um lado, e uma concatenação de um banco de filtros de síntese QMF 272 seguida por um codificador central 14 por outro lado. Ambos os caminhos paralelos são conectados a uma respectiva entrada do empacotador de fluxo de dados 266. No caso de produção de estruturas de SID, O codificador de estrutura de SID 274 recebe os dados do estimador de ruído 262 e produz as estruturas de SID ao empacotador de fluxo de dados 266.

Os dados de extensão de amplitude de faixa espectral produzidos pelo estimador 260 descrevem o invólucro espectral da parte de frequência alta do espectrograma ou espectro produzido pelo banco de filtros de análise QMF 200, que é, então, codificado, como por codificação por entropia, pelo codificador de SBR 264. O multiplexador de fluxo de dados 266 insere os dados de extensão de amplitude de faixa espectral em fases ativas na saída de fluxo de dados em uma saída 268 do multiplexador 266.

O detector 270 detecta se atualmente uma fase ativa ou inativa está ativa. Com base nesse detecção, uma estrutura ativa, uma estrutura de SID ou uma estrutura zero, isto é estrutura inativa, deve ser atualmente produzida. Em outras palavras, o módulo 270 decide se uma fase ativa ou uma fase 15º inativa está ativa e se a fase inativa está ativa, de uma estrutura de SID deve ser produzida ou não. As decisões são indicadas na Figura 12 utilizando I para estruturas zero, A para estruturas ativas, e S para estruturas de SID. As estruturas A que correspondem a intervalos de tempo do sinal de entrada, nos quais a fase ativa está presente, também são encaminhados à concatenação do banco de filtros de síntese QMF 272 e do codificador central

14. O banco de filtros de síntese OMF 272 tem uma resolução de frequência menor ou opera em um número menor de subfaixas de QMF subfaixas quando comparado ao banco de filtros de análise QMF 200, de modo a alcançar, a titulo de proporção de número de subfaixa, uma taxa de subamostragem correspondente na transferência das partes de estrutura ativa do sinal de entrada ao domínio de tempo novamente. Em particular, o banco de filtros de síntese QMF 272 é aplicado às partes de frequência menor ou subfaixas de frequência menor do espectrograma do banco de filtros de análise QMF dentro das estruturas ativas.

O codificador central 14, portanto, recebe uma versão subamostrada do sinal de entrada, que, assim, abrange meramente uma parte de frequência menor da entrada do sinal de entrada original no banco de filtros de análise QMF 200. A parte de frequência maior restante é parametricamente codificada pelos módulos 260 e 264. As estruturas de SID (ou, para ser mais preciso, as informações a serem transmitidas por elas) são encaminhadas ao codificador de SID 274, que assume a responsabilidade pelas funcionalidades do módulo 152 da Figura 5, por exemplo.

A única diferença: o módulo 262 opera no espectro do sinal de entrada diretamente - sem modelação de LPC.

Ademais, uma vez que a filtração de análise QMF é utilizada, a operação do módulo 262 é independente do modo de estrutura escolhido pelo codificador central ou a opção de extensão de amplitude de faixa espectral sendo aplicada ou não.

As funcionalidades do módulo 148 e 150 da Figura 5 podem ser implementadas dentro do módulo 274. O multiplexador 266 multiplexa as respectivas informações codificadas ao fluxo de dados na saída 268. O decodificador de áudio da Figura 13 é capaz de operar em um fluxo de dados, conforme produzido pelo codificador da Figura 12. Isto é, um módulo 280 é configurado para receber o fluxo de dados e para classificar as estruturas dentro do fluxo de dados em estruturas ativas, estruturas de SID e estruturas zero, isto é, uma falta de qualquer estrutura no fluxo de dados, por exemplo.

Estruturas ativas são encaminhadas a uma concatenação de um decodificador central 92, um banco de filtros de análise QMF 282 e um módulo de extensão de amplitude de faixa espectral 284. Opcionalmente, um estimador de ruído 286 é conectado à saída do banco de filtros de análise QMF. O estimador de ruído 286 pode operar semelhante e pode assumir a responsabilidade pelas funcionalidades do estimador de ruído de base 90 da Figura 3, por exemplo, com a exceção de que o estimador de ruído opera nos espectros não modelados ao invés dos espectros de excitação. A concatenação dos módulos 92, 282 e 284 é conectada a uma entrada de um banco de filtros de síntese QMF 288. As estruturas de SID são encaminhadas a uma estrutura de SID decodificador 290 que assume a responsabilidade pela funcionalidade do gerador de ruído de base 96 da Figura 3, por exemplo. Um atualizador de parâmetro de geração de ruído de conforto 292 é alimentado pelas informações do decodificador 290 e o estimador de ruído 286 com esse atualizador 292 conduzindo o gerador aleatório 294, que assume a responsabilidade da funcionalidade dos geradores aleatórios paramétricos da Figura 3. Como as estruturas inativas ou zero estão faltando, elas não devem ser encaminhadas a qualquer lugar, mas elas desencadeiam outro ciclo de geração aleatória do gerador aleatório 294. A saída do gerador aleatório 294 é conectada ao banco de filtros de síntese QMF 288, cuja saída revela o sinal de áudio reconstruído nas fases de silêncio e nas ativas no domínio de tempo.

Assim, durante as fases ativas, o decodificador central 92 reconstrói a parte de frequência baixa do sinal de áudio incluindo ambos os componentes de ruído e de sinal útil. O banco de filtros de análise QMF 282 decompõe espectralmente o sinal reconstruído e o módulo de extensão de amplitude de faixa espectral 284 utiliza as informações de extensão de amplitude de faixa espectral dentro do fluxo de dados e estruturas ativas, respectivamente, a fim de adicionar a parte de frequência alta.

O estimador de ruído 286, se presente, realiza a estimativa de ruído com base em uma parte de espectro conforme reconstruída pelo decodificador central, isto é, a parte de frequência baixa.

Nas fases inativas, as estruturas de SID transmitem informações de maneira paramétrica, descrevendo a estimativa de ruído de base derivada pela estimativa de ruído 262 no lado do codificador.

O atualizador de parâmetro 292 pode utilizar primeiramente as informações de codificador, a fim de atualizar sua estimativa de ruído de base paramétrico, utilizando as informações providas pelo estimador de ruído 286 primariamente como uma posição de recuo no 15º caso de perda de transmissão referente às estruturas de SID.

O banco de filtros de síntese QMF 288 converte o sinal decomposto espectralmente conforme produzido pelo módulo de replicação de faixa espectral 284 nas fases ativas e o espectro de sinal gerado de ruído de conforto no domínio de tempo.

Assim, as Figuras 12 e 13 tornam claro que uma estrutura de banco de filtros QMF pode ser utilizada como uma base para a geração de ruído de conforto com base em QMF.

A estrutura de QMF provê uma maneira conveniente para subamostrar novamente o sinal de entrada a uma taxa de amostragem de codificador central no codificador, ou para sobreamostrar oO sinal de saída do decodificador central do decodificador central 92 no lado do decodificador, utilizando o banco de filtros de síntese QMF 288. Ao mesmo tempo, a estrutura de QMF também pode ser utilizada em combinação com a extensão de amplitude de faixa para extrair e processar os componentes de frequência alta do sinal que são deixados pelos módulos de codificador central e de decodificador central 14 e 92. Da mesma forma, o banco de filtros QMF pode oferecer uma estrutura comum para diversas ferramentas de processamento de sinal.

De acordo com as realizações das Figuras 12 e 13, a geração de ruído de conforto é de sucesso incluída nessa estrutura.

Em particular, de acordo com as realizações das Figuras 12 e 13, pode ser visto que é possível gerar ruído de conforto no lado do decodificador após a análise QMF, mas antes da síntese QMF ao aplicar um gerador aleatório 294 para excitar as partes reais e imaginárias de cada coeficiente de QMF do banco de filtros de síntese QMF 288, por exemplo.

As amplitudes das sequências aleatórias são, por exemplo, computadas individualmente em cada faixa de OMF, de modo que o espectro do ruído de conforto gerado se assemelhe ao espectro do sinal de ruído de base real.

Isso pode ser alcançado em cada faixa de QMF, utilizando um estimador de ruído após a análise QMF no lado de codificação.

Esses parâmetros podem ser, então, transmitidos através das estruturas de SID para atualizar a amplitude das sequências aleatórias aplicadas em cada faixa de QMF no lado do decodificador.

De maneira ideal, observe que a estimativa de ruído 262 aplicada no lado do codificador deve ser capaz de operar durante tanto o período inativo (isto é, somente de ruído) como ativo (tipicamente contendo fala ruidosa), de modo que os parâmetros de ruído de conforto possam ser atualizados imediatamente no fim de cada período ativo.

Além disso, a estimativa de ruído poderia ser utilizada no lado do decodificador também. Uma vez que estruturas de somente ruído são descartadas em um sistema de codificação/decodificação com base em DTX, a estimativa de ruído no lado do decodificador é favoravelmente capaz de operar em conteúdos de fala ruidosa. A vantagem de realizar a estimativa de ruído no lado do decodificador, além do lado do codificador, é que a forma espectral do ruído de conforto pode ser atualizada sempre que a transmissão de pacote do codificador para o decodificador falhar para a(s) primeira(s) estrutura(s) de SID após um período de atividade.

A estimativa de ruído deve ser capaz de seguir precisa e rapidamente variações do conteúdo espectral de ruído de base e, idealmente, deve ser capaz de realizar durante tanto estruturas ativas como inativas, conforme declarado acima. Uma maneira de alcançar esses objetivos é rastrear a mínima obtida em cada faixa pelo espectro de potência, utilizando uma janela corrediça de extensão finita, conforme proposto em [R. Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothing e Minimum Statistics, 2001]. A ideia por trás disso é que a potência de um espectro de fala ruidosa decai frequentemente para a potência do ruído de base, por exemplo, entre palavras Ou sílabas. O rastreamento da mínima do espectro de potência provê, portanto, uma estimativa do piso de ruído em cada faixa, mesmo durante atividade de fala. Entretanto, esses pisos de ruído são subestimados no geral. Além disso, eles não permitem capturar oscilações rápidas das potências espectrais, especialmente, aumentos súbitos de energia.

Não obstante, o piso de ruído computado, conforme descrito acima, em cada faixa provê informações paralelas bastante úteis para aplicar um segundo estágio de estimativa de ruído.

Na verdade, podemos esperar que a potência de um espectro ruidoso seja próxima ao piso de ruído estimado durante a inatividade, enquanto a potência espectral será muito acima do piso do ruído durante atividade.

Os pisos de ruído computados separadamente em cada faixa podem, com isso, ser utilizados como detectores de atividade grosseiros para cada faixa.

Com base nesse conhecimento, a potência do ruído de base pode ser facilmente estimada como uma versão recursivamente suavizada do espectro de potência, como segue: on On, = Bon,l0 cont (m = 1,10 + (1- Blm,1)) ax? (m,h) , onde cº(Mk) denota a densidade espectral de potência do sinal de entrada na estrutura M e a faixa k, ofº(mhko) se refere à estimativa de potência do ruído, e f(m,k) é um fator de esquecimento (necessariamente entre O e 1) que controla a quantidade de suavização para cada faixa e cada estrutura separadamente.

Utilizando as informações de piso de ruído para refletir o status da atividade, deve-se obter um valor pequeno durante períodos inativos (isto é, quando o espectro de potência for próximo ao piso de ruído), enquanto um alto valor deve ser escolhido por aplicar mais suavização (mantendo idealmente Sº (mk) constante) durante as estruturas ativas.

Para alcançar isso, uma decisão informal pode ser feita ao computar os fatores de esquecimento como segue: 2 Bim) =1 ERRA), onde vy5? é a potência de piso do ruído e a é um parâmetro de controle. Um valor maior para à resulta em fatores de esquecimento maiores e, com isso, causa suavização mais geral. Assim, um conceito de Geração de Ruído de Conforto (CNG) foi descrito, onde o ruído artificial é produzido no lado do decodificador em um domínio de transformação. As realizações acima podem ser aplicadas em combinação virtual com qualquer tipo de ferramenta de análise espectro-temporal (isto é, uma transformação ou banco de filtros) que decompõe o sinal de domínio de tempo em múltiplas faixas espectrais.

Novamente, deve ser observado que o uso do domínio espectral isoladamente provê uma estimativa mais precisa do ruído de base e alcança vantagens sem utilizar a possibilidade acima de atualizar continuamente a estimativa durante as fases ativas. Da mesma forma, algumas realizações adicionais se diferem 15º das realizações acima ao não utilizar esse aspecto de atualização contínua da estimativa de ruído de base paramétrico. Mas essas realizações alternativas utilizam o domínio espectral de modo a determinar parametricamente a estimativa de ruído.

Da mesma forma, em uma realização adicional, o estimador de ruído de base 12 pode ser configurado para determinar uma estimativa de ruído de base paramétrico com base em uma representação de decomposição espectral de um sinal de áudio de entrada de modo que a estimativa de ruído de base paramétrico descreva espectralmente um invólucro espectral de um ruído de base do sinal de áudio de entrada. A determinação pode ser iniciada mediante a entrada da fase inativa ou as vantagens acima podem se co-utilizadas, e a determinação pode ser continuamente realizada durante as fases ativas para atualizar a estimativa para o uso imediato mediante a entrada na fase inativa.

O codificador 14 codifica o sinal de áudio de entrada em um fluxo de dados durante a fase ativa e um detector 16 pode ser configurado para detectar uma entrada de uma fase inativa que segue uma fase ativa com base no sinal de entrada.

O codificador pode ser ainda configurado para codificar no fluxo de dados a estimativa de ruído de base paramétrico.

O estimador de ruído de base pode ser configurado para realizar uma determinação da estimativa de ruído de base paramétrico na fase ativa e com a diferenciação entre um componente de ruído e um componente de sinal útil dentro da representação de decomposição espectral do sinal de áudio de entrada e para determinar a estimativa de ruído de base paramétrico meramente do componente de ruído.

Em outra realização, o codificador pode ser configurado para, na codificação do sinal 15º de áudio de entrada, codificar de maneira preditiva o sinal de áudio de entrada em coeficientes de previsão linear e um sinal de excitação, e codificar por transformação uma decomposição espectral do sinal de excitação, e codificar o coeficientes de previsão linear no fluxo de dados, em que o estimador de ruído de base é configurado para utilizar a decomposição espectral do sinal de excitação como a representação de decomposição espectral do sinal de áudio de entrada na determinação da estimativa de ruído de base paramétrico.

Ainda, o estimador de ruído de base pode ser configurado para identificar a mínima local na representação espectral do sinal de excitação e para estimar o invólucro espectral de um ruído de base do sinal de áudio de entrada utilizando interpolação entre a mínima local identificada como pontos de suporte.

Em uma realização adicional, um decodificador de áudio para decodificar um fluxo de dados, de modo a reconstruir a partir disso um sinal de áudio, o fluxo de dados compreendendo pelo menos uma fase ativa seguida por uma fase inativa. O decodificador de áudio compreende um estimador de ruído de base 90 que pode ser configurado para determinar uma estimativa de ruído de base paramétrico com base em uma representação de decomposição espectral do sinal de áudio de entrada obtido do fluxo de dados, de modo que a estimativa de ruído de base paramétrico descreva espectralmente um invólucro espectral de um ruído de base do sinal de áudio de entrada. Um decodificador 92 pode ser configurado para reconstruir o sinal de áudio do fluxo de dados durante a fase ativa. Um gerador aleatório paramétrico 94 e um gerador de ruído de base 96 pode ser configurado para reconstruir o sinal de áudio durante a fase inativa ao controlar o gerador aleatório paramétrico durante a fase inativa com a estimativa de ruído de base paramétrico.

De acordo com outra realização, o estimador de ruído de base pode ser configurado para realizar uma determinação da estimativa de ruído de base paramétrico na fase ativa e com a diferenciação entre um componente de ruído e um componente de sinal útil dentro da representação de decomposição espectral do sinal de áudio de entrada e para determinar a estimativa de ruído de base paramétrico meramente do componente de ruído.

Em uma realização adicional, o decodificador pode ser configurado para, na reconstrução do sinal de áudio a partir do fluxo de dados, aplicar modelação de uma decomposição espectral de um sinal de excitação codificado por transformação no fluxo de dados, de acordo com os coeficientes de previsão linear também codificados em dados.

O estimador de ruído de base pode ser ainda configurado para utilizar a decomposição espectral do sinal de excitação como a representação de decomposição espectral do sinal de áudio de entrada na determinação da estimativa de ruído de base paramétrico.

De acordo com uma realização adicional, o estimador de ruído de base pode ser configurado para identificar a mínima local na representação espectral do sinal de excitação e para estimar o invólucro espectral de um ruído de base do sinal de áudio de entrada utilizando a interpolação entre a mínima local identificada como pontos de suporte.

Assim, as realizações acima, inter alia, 15º descreveram uma CNG com base em TCX, onde um gerador de ruído de conforto básico emprega pulsos aleatórios para modelar o residual.

Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa de método ou um aspecto de uma etapa do método.

De maneira análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou aspecto correspondente de um aparelho correspondente.

Alguma ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico.

Em algumas realizações, alguma ou mais das etapas mais importantes do método podem ser executadas por esse aparelho.

Dependendo de determinados requerimentos — de implementação, as realizações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle eletronicamente legíveis armazenados em si, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível por computador.

Algumas realizações, de acordo com a invenção, compreendem um carregador de dados tendo sinais de controle legíveis eletronicamente, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos aqui descritos sejam realizados.

De modo geral, as realizações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operado para realizar um dos métodos quando o produto de programa de computador executar em um computador. O código de programa pode ser, por exemplo, armazenado em um carregador legível por máquina.

Outras realizações compreendem o programa de computador para realizar um dos métodos aqui descritos, armazenado em um carregador legível por máquina.

Em outras palavras, uma realização do método inventivo é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador executar em um computador.

Uma realização adicional dos métodos inventivos é, portanto, um carregador de dados (ou um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado em si, o programa de computador para realizar um dos métodos aqui descritos. O carregador de dados o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios.

Uma realização adicional do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.

Uma realização adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado ou adaptado para realizar um dos métodos aqui descritos.

Uma realização adicional compreende um computador tendo instalado em si o programa de computador para realizar um dos métodos aqui descritos.

Uma realização adicional, de acordo com a invenção, compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos aqui descritos a um receptor. O receptor pode, por exemplo, de um computador, um dispositivo móvel, um dispositivo de memória ou similares. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivos para transferir o programa de computador ao receptor.

Em algumas realizações, um dispositivo de lógica programável (por exemplo, uma matriz de porta de campo programável) pode ser utilizado para realizar alguma ou todas as funcionalidades dos métodos aqui descritos. Em algumas realizações, uma matriz de porta de campo programável pode cooperar com um microprocessador, a fim de realizar um dos métodos aqui descritos. De modo geral, os métodos são preferencialmente realizados por qualquer aparelho de hardware.

As realizações descritas acima são meramente ilustrativas para os princípios da presente invenção. Deve ser entendido que modificações e variações das disposições e os detalhes aqui descritos serão aparentes aos técnicos no assunto. Destina-se, portanto, a ser limitada somente pelo escopo das reivindicações da patente anexas e não pelos detalhes específicos apresentados a título de descrição e explicação das realizações aqui.

Claims

REIVINDICAÇÕES

1. CODIFICADOR DE ÁUDIO, caracterizado por compreender um estimador de ruído de base (12) configurado para determinar uma estimativa de ruído de base paramétrico, com base em uma representação de decomposição espectral de um sinal de áudio de entrada, de modo que a estimativa de ruído de base paramétrico descreva espectralmente um invólucro espectral de um ruído de base do sinal de áudio de entrada; um codificador (14) para codificar o sinal de áudio de entrada em um fluxo de dados durante a fase ativa; e um detector (16) configurado para detectar uma entrada de uma fase inativa que segue a fase ativa, com base no sinal de entrada, em que o codificador de áudio é configurado para codificar para o fluxo de dados a estimativa de ruído de base paramétrico na fase inativa, em que o estimador de ruído de base é 15º configurado para identificar a mínima local na representação de decomposição espectral do sinal de áudio de entrada e para estimar o invólucro espectral do ruído de base do sinal de áudio de entrada, utilizando interpolação entre a mínima local identificada como pontos de suporte, ou o codificador é configurado para, na codificação do sinal de áudio de entrada, codificar de maneira preditiva o sinal de áudio de entrada em coeficientes de previsão linear e um sinal de excitação, e codificar por transformação uma decomposição espectral do sinal de excitação, e codificar os coeficientes de previsão linear em fluxo de dados, em que o estimador de ruído de base é configurado para utilizar a decomposição espectral do sinal de excitação como a representação de decomposição espectral do sinal de áudio de entrada na determinação da estimativa de ruído de base paramétrico.

2. CODIFICADOR DE ÁUDIO, de acordo com a reivindicação 1, caracterizado por o estimador de ruído de base ser configurado para realizar a determinação da estimativa de ruído de base paramétrico na fase ativa com a distinção entre um componente de ruído e um componente de sinal útil dentro da representação de decomposição espectral do sinal de áudio de entrada e para determinar a estimativa de ruído de base paramétrico meramente do componente de ruído.

3. CODIFICADOR DE ÁUDIO, de acordo com a reivindicação 1 ou 2, caracterizado por o estimador de ruído de base ser configurado para identificar a mínima local na representação espectral do sinal de excitação e para estimar o invólucro espectral de um ruído de base do sinal de áudio de entrada utilizando interpolação entre a mínima local identificada 15º como pontos de suporte.

4. CODIFICADOR DE ÁUDIO, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o codificador ser configurado para, na codificação do sinal de áudio de entrada, utilizar codificação preditiva e/ou por transformação para codificar uma parte de frequência menor da representação de decomposição espectral do sinal de áudio de entrada, e para utilizar codificação paramétrica para codificar um invólucro espectral de uma parte de frequência maior da representação de decomposição espectral do sinal de áudio de entrada.

5. CODIFICADOR DE ÁUDIO, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o codificador ser configurado para, na codificação do sinal de áudio de entrada, utilizar a codificação preditiva e/ou por transformação para codificar uma parte de frequência menor da representação de decomposição espectral do sinal de áudio de entrada, e para escolher entre utilizar a codificação paramétrica para codificar um invólucro espectral de uma parte de frequência maior da representação de decomposição espectral do sinal de áudio de entrada ou deixar a parte de frequência maior do sinal de áudio de entrada não codificada.

6. CODIFICADOR DE ÁUDIO, de acordo com a reivindicação 4 ou 5, caracterizado por o codificador ser configurado para interromper a codificação preditiva e/ou por transformação e a codificação paramétrica nas fases inativas ou para interromper a codificação preditiva e/ou por transformação e realizar a codificação paramétrica do invólucro espectral da parte de frequência maior da representação de decomposição espectral do sinal de áudio de entrada em uma resolução tempo/frequência menor comparada ao uso da codificação paramétrica na fase ativa.

7. CODIFICADOR DE ÁUDIO, de acordo com a reivindicação 4, 5 ou 6, caracterizado por o codificador utilizar um banco de filtros a fim de decompor de maneira espectral o sinal de áudio de entrada em um conjunto de subfaixas que formam a parte de frequência menor, e um conjunto de subfaixas que formam a parte de frequência maior.

8. CODIFICADOR DE ÁUDIO, caracterizado por compreender um estimador de ruído de base (12) configurado para determinar uma estimativa de ruído de base paramétrico com base em uma representação de decomposição espectral de um sinal de áudio de entrada, de modo que a estimativa de ruído de base paramétrico descreva de maneira espectral um invólucro espectral de um ruído de base do sinal de áudio de entrada; um codificador (14) para codificar o sinal de áudio de entrada em um fluxo de dados durante a fase ativa; e um detector (16) configurado para detectar uma entrada de uma fase inativa que segue a fase ativa, com base no sinal de entrada, em que o codificador de áudio é configurado para codificar no fluxo de dados a estimativa de ruído de base paramétrico na fase inativa, em que o codificador é configurado para, na codificação do sinal de áudio de entrada, utilizar a codificação preditiva e/ou por transformação para codificar uma parte de frequência menor da representação de decomposição espectral do sinal de áudio de entrada, e utilizar codificação paramétrica para codificar um invólucro espectral de uma parte de frequência maior da representação de decomposição espectral do sinal de áudio de entrada, em que o codificador utiliza um banco 15º de filtros a fim de decompor de maneira espectral o sinal de áudio de entrada em um conjunto de subfaixas que forma a parte de frequência menor, e um conjunto de subfaixas que forma a parte de frequência maior, e em que o estimador de ruído de base é configurado para atualizar a estimativa de ruído de base paramétrico na fase ativa, com base nas partes de frequência menor e maior da representação de decomposição espectral do sinal de áudio de entrada.

9. CODIFICADOR DE ÁUDIO, de acordo com a reivindicação 8, caracterizado por o estimador de ruído de base é configurado para, na atualização da estimativa de ruído de base paramétrico, identificar a mínima local nas partes de frequência menor e maior da representação de decomposição espectral do sinal de áudio de entrada e para realizar análise estatística das partes de frequência menor e maior da representação de decomposição espectral do sinal de áudio de entrada na mínima local, de modo a derivar a estimativa de ruído de base paramétrico.

10. CODIFICADOR DE ÁUDIO, de acordo com qualquer uma das reivindicações anteriores, caracterizado por o estimador de ruído ser configurado para continuar a atualizar continuamente a estimativa de ruído de base durante a fase inativa, em que O codificador de áudio é configurado para codificar de maneira intermitente atualizações da estimativa de ruído de base paramétrico, conforme atualizadas continuamente durante a fase inativa.

11. CODIFICADOR DE ÁUDIO, de acordo com a reivindicação 10, caracterizado por o codificador de áudio ser configurado para codificar de maneira intermitente as atualizações da estimativa de ruído de base paramétrico em um intervalo de tempo fixo ou variável.

12. DECODIFICADOR DE ÁUDIO PARA DECODIFICAR UM FLUXO DE DADOS, DE MODO A RECONSTRUIR A PARTIR DISSO UM SINAL DE ÁUDIO, sendo o fluxo de dados caracterizado por compreender pelo menos uma fase ativa seguida por uma fase inativa, o decodificador de áudio compreendendo um estimador de ruído de base (90) configurado para determinar uma estimativa de ruído de base paramétrico com base em uma representação de decomposição espectral do sinal de áudio de entrada obtido do fluxo de dados, de modo que à estimativa de ruído de base paramétrico descreva de maneira espectral um invólucro espectral de um ruído de base do sinal de áudio de entrada; um decodificador (92) configurado para reconstruir o sinal de áudio do fluxo de dados durante a fase ativa; um gerador aleatório paramétrico (94); e um gerador de ruído de base (96) configurado para reconstruir o sinal de áudio durante a fase inativa ao controlar o gerador aleatório paramétrico durante a fase inativa com a estimativa de ruído de base paramétrico, em que o estimador de ruído de base é configurado para identificar mínima local na representação de decomposição espectral do sinal de áudio de entrada e para estimar o invólucro espectral do ruído de base do sinal de áudio de entrada utilizando interpolação entre a mínima local identificada como pontos de suporte.

13. DECODIFICADOR DE ÁUDIO, de acordo com a reivindicação 12, caracterizado por o estimador de ruído de base ser configurado para realizar uma determinação da estimativa de ruído de base paramétrico na fase ativa e com a distinção entre um componente de ruído e um componente de sinal útil dentro da representação de decomposição espectral do sinal de áudio de entrada e para determinar a estimativa de ruído de base paramétrico meramente do componente de ruído.

14. DECODIFICADOR DE ÁUDIO, de acordo com a reivindicação 12 ou 13, caracterizado por o decodificador ser configurado para, na reconstrução do sinal de áudio do fluxo de dados, aplicar modelação de uma decomposição espectral de um sinal de excitação codificado por transformação no fluxo de dados de acordo com coeficientes de previsão linear também codificados nos dados, em que o estimador de ruído de base é configurado para utilizar a decomposição espectral do sinal de excitação como a representação de decomposição espectral do sinal de áudio de entrada na determinação da estimativa de ruído de base paramétrico, ao identificar a mínima local na representação espectral do sinal de excitação e estimar o invólucro espectral do ruído de base do sinal de áudio de entrada utilizando interpolação entre a mínima local identificada na representação espectral do sinal de excitação como pontos de suporte.

15. MÉTODO DE CODIFICAÇÃO DE ÁUDIO, caracterizado por compreender a determinação de uma estimativa de ruído de base paramétrico com base em uma representação de decomposição espectral de um sinal de áudio de entrada, de modo que a estimativa de ruído de base paramétrico descreva espectralmente um invólucro espectral de um ruído de base do sinal de áudio de entrada; a codificação do sinal de áudio de entrada em um fluxo de dados durante a fase ativa; e a detecção de uma entrada de uma fase inativa que segue a fase ativa, com base no sinal de entrada, ea codificação no fluxo de dados da estimativa de ruído de base paramétrico na fase inativa, em que a determinação de uma estimativa de ruído de base paramétrico compreende a identificação da mínima local na representação de decomposição espectral do sinal de áudio de entrada e estimativa do invólucro espectral do ruído de base do sinal de áudio de entrada utilizando interpolação entre a mínima local identificada como pontos de suporte, Ou a codificação do sinal de áudio de entrada compreende codificar de maneira preditiva o sinal de áudio de entrada em coeficientes de previsão linear e um sinal de excitação, e codificação por transformação de uma decomposição espectral do sinal de excitação, e codificação dos coeficientes de previsão linear no fluxo de dados, em que a determinação de uma estimativa de ruído de base paramétrico compreende utilização da decomposição espectral do sinal de excitação como a representação de decomposição espectral do sinal de áudio de entrada na determinação da estimativa de ruído de base paramétrico.

16. MÉTODO DE CODIFICAÇÃO DE ÁUDIO, caracterizado por compreender à determinação de uma estimativa de ruído de base paramétrico com base em uma representação de decomposição espectral de um sinal de áudio de entrada, de modo que à estimativa de ruído de base paramétrico descreva de maneira espectral um invólucro espectral de um ruído de base do sinal de áudio de entrada; codificação do sinal de áudio de entrada em um fluxo de dados durante a fase ativa; e detecção de uma entrada de uma fase inativa que segue à fase ativa, com base no sinal de entrada, e codificação no fluxo de dados da estimativa de ruído de base paramétrico na fase inativa, em que à codificação do sinal de áudio de entrada compreende a utilização da codificação preditiva e/ou por transformação para codificar uma parte de frequência menor da representação de decomposição espectral do sinal de áudio de entrada, e utilização da codificação paramétrica para codificar um invólucro espectral de uma parte de frequência maior da representação de decomposição espectral do sinal de áudio de entrada, em que um banco de filtros é utilizado a fim de decompor de maneira espectral o sinal de áudio de entrada em um conjunto de subfaixas que forma a parte de frequência menor, e um conjunto de subfaixas que forma a parte de frequência maior, e em que à determinação de uma estimativa de ruído de base paramétrico compreende atualização da estimativa de ruído de base paramétrico na fase ativa com base nas partes de frequência menor e maior da representação de decomposição espectral do sinal de áudio de entrada.

17. MÉTODO PARA DECODIFICAR UM FLUXO DE DADOS DE MODO A RECONSTRUIR A PARTIR DISSO UM SINAL DE ÁUDIO, sendo o fluxo de dados caracterizado por compreender pelo menos uma fase ativa seguida por uma fase inativa, o método compreendendo determinação de uma estimativa de ruído de base paramétrico com base em uma representação de decomposição espectral do sinal de áudio de entrada obtido do fluxo de dados, de modo que a estimativa de ruído de base paramétrico descreva de maneira espectral um invólucro espectral de um ruído de base do sinal de áudio de entrada; reconstrução do sinal de áudio do fluxo de dados durante a fase ativa; reconstrução do sinal de áudio durante a fase inativa ao controlar um gerador aleatório paramétrico durante a fase inativa com a estimativa de ruído de base paramétrico em que a determinação de uma estimativa de ruído de base paramétrico compreende identificação da mínima local na representação de decomposição espectral do sinal de áudio de entrada e estimativa do invólucro espectral do ruído de base do sinal de áudio de entrada utilizando a interpolação entre a mínima local identificada como pontos de suporte.

18. PROGRAMA DE COMPUTADOR TENDO UM CÓDIGO DE PROGRAMA, caracterizado por realizar, ao executar em um computador, um método, de acordo com qualquer uma das reivindicações 15 a 17.

Ss . 2 z -“ õ SS á 1 é o. - SN Le - í TIN H Ex o RU? ” . AN q v W DS = No x q oc ? De = *. A >. e s

NM s = gg” Ss a 8 j E - 8 o o & 88 +. 3 58 38 8 8 o FE = so 88 Es) É 28 ã É

W =| &-

Ex 12221 oN = o oO É ns enem A- lo 1 8 ro 8 1 8 2 1! Ee o e 1 ' =? — oq o 8 an +! ss e. 8 2 — end x s & E NR 2 = 2 &s É Ss 4 1 ! mm —e——— = ' 1 1 i - ! s 1 Im o o o o ; = O t co 2º - co [O Es 2 =T O x az (TD “ 2 Ns s A 2 “ 8 Ss >“ = o 3 E >. s8 5? o ve Í Sos SE Ss ES ss s t 52 88 bx o Es) oe

N o DD podes 8 = í i o ! 88 õ 1 o 1 eo 1 o &o SP o ES 654 kl E 1 838 | SS ES 38 1 1 88 —- ' ' Le==p=-! : 7 é co O co co A s

Í NS Nx. 7 17 a EA : E =. Ne 1 - E Es Sê ss o Ds. o

— co = wo sl Lis Ex = / (, 8 m——.——s.——— o 1 < = PA E A o 1 É ro 2 o É [2 6 Z ! | 3 = o ao É 2 1 i $ Li Í o eeeqeenbqa—==a 8 ( V & o ea a =z Aee TTTT> =, 2 /

sinal de entrada 12 18 Á mTTTATqIITTOOTTO=2=tfetmrm | 144 à 1 ' ; ' 1 ; ! 1 Codificação 1 1, de áudio i FDNS 1 ! ! ! ! ! i Estimador]| i 1 de ruído ' 1 ! i 1 148 1 DX | ! ' 1 7 i estima dor medidor i ! parâmetro fixo ' ! i ' 1 ' ' ' 1 agrupamentos/ ! quantificador 1 de parâmetro i 1 1 See pacotes de fluxo de bits

Aa, pu—— 4 4 coef. espectral desquantificado desquantificado = 2 prosemesssem - 1 U 160 | a 1 1 gerador aleatório 1 I paramétrico adaptativo 1 1 ! mecanismo ! ! de 1 ! 1 , idecodificacão 1 164 I 1 ! 1 , ! FDNS i 1 1 ! 168 | 1 1 1 1 1 1 ! 1 ! [ ! ' 1 erenerr me 162

2 coef. desquantificado gi TTTTIO=AoSA=TTATAT=A=ETTA tda eeeeeemmememesaelh—o? pOTDTTT TTTTTTAIAAZATAIAF]AA 4 1 [emas Je — || 9 1 ' ! 148 is ; Mecanismo 1 N DU pes decodficação i !

FR AIIIIO A 1 gerador aleatório 1% 90 ! paramétrico adaptativo A 1 ! ! 1 ! 164/94 1 FDNS 1 1 168 1 ' 1 | ' 166 1 ' ' ds ss ud a a e a a a FIG 7

200 estrutura ativa | codificação

" de SBR entrada de eta fase regular domínio de N ativa Fluxo de tempo Banco de bits de SBR filtros de análise QMF LF fase . inativa | codificação de SBR de estuortura SID CNG 206 206 entrada de análise de codifica/escre OMF ajusta agrade caloula fatores ve os fatores | fluxo de bits def de escala de energia de escala de energia 208 210 212 o 8 ves 885 BS” o o 78 d Es Ss 2 3º

SE so oO 8 = E Fr Ss EE 8 e OS 88 2 uu oN Ss Zz o kc) o 8 so iso SIS 38 8: 88 |38 Flu 22 29 o oo

O À o so va ar 8 Ex = g &N E)

Ê oO

OO co 8% O<JW 3 EE

E SE 8 Seo, TOBu À 8 Ê= - EEE & Ss sES E

S Qo so FT / 3º (Ss 1 oo Ss 3 7 & o 28 3. to) es BS 2 88 . 2 o 22 2 3 z 88 8 32 z 2 = x) sê EÊS = - s 5sEZ : - “A. so s si = gm 3 ". 35 Es|25 S 208 às i£ Es - 28 sã 2 ge N 7 $ . 88 o no d2T8S =

ESSA E 388% F

CERA ES = Ss Ss. 2 É à SS Nos : 283 se 8 2 ss 8s aES ss o 23 888 | "E Es ê Bê oo 2 + EES ã: & és 8s S ss so co ão 8 22 & ág. 94/97

200 sinal de entrada 270 Análise VAD / DTX 262 QMF Ativo/SID/Inativo? estimativa de ruído 2º MB (O) O Ol estimativa de parâmetro de síntese QUF. 264 SBR ds 4 274 codificador de codificador codificador SBR central de SID 266 produz fluxo de bits 268 fluxo de bits fluxo de bits Ativo/Sid/Inativo? 2 (Du 290 a ra (D decodificador decodificador de central 282 estrutura de SID 286 292 Análise QMF in ati, atualização estimativa de de parâmetro de CNG 288 gerador aleatório sinal de saída