BR112017001643B1

BR112017001643B1 - método para um estimador de ruído de fundo, estimador de ruído de fundo, detector de atividade de som, codec, dispositivo sem fio, nó de rede, programa de computador, e, portadora

Info

Publication number: BR112017001643B1
Application number: BR112017001643-5A
Authority: BR
Inventors: Martin Sehlstedt
Original assignee: Telefonaktiebolaget Lm Ericsson (Publ)
Priority date: 2014-07-29
Filing date: 2015-07-01
Publication date: 2021-01-12
Also published as: RU2017106163A3; CN112927725A; PL3309784T3; US10347265B2; RU2665916C2; RU2713852C2; US11114105B2; EP3582221B1; MX2019005799A; CA2956531A1; ES2664348T3; EP3175458B1; RU2020100879A; ES2869141T3; US11636865B2; US20170069331A1; ZA201708141B; RU2760346C2; EP3175458A1; KR101895391B1

Abstract

A invenção refere-se a um estimador de ruído de fundo e a um método no mesmo para estimativa de ruído de fundo em um sinal de áudio. O método compreende obter pelo menos um parâmetro associado a um segmento de sinal de áudio, tal como um quadro ou uma parte de um quadro, com base em um primeiro ganho de previsão linear, calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 0-ésima ordem e um sinal residual proveniente de uma previsão linear de 2a ordem para o segmento de sinal de áudio; e, um segundo ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 2a ordem e um sinal residual proveniente de uma previsão linear de 16a ordem para o segmento de sinal de áudio. O método compreende adicionalmente determinar se o segmento de sinal de áudio compreende uma pausa com base pelo menos no pelo menos um parâmetro obtido; e atualizar uma estimativa de ruído de fundo com base no segmento de sinal de áudio quando o segmento de sinal de áudio compreender uma pausa.

Description

Campo Técnico

[001] As modalidades da presente invenção referem-se a processamento de sinal de áudio e, em particular, a estimativa de ruído de fundo, por exemplo, para suportar uma decisão de atividade de som.

Fundamentos

[002] Em sistemas de comunicação que utilizam transmissão descontínua (DTX), é importante encontrar um equilíbrio entre eficiência e não redução de qualidade. Em tais sistemas, um detector de atividade é usado para indicar sinais ativos, por exemplo, fala ou música, que devem ser ativamente codificados, e segmentos com sinais de fundo que podem ser substituídos com ruído confortável gerado no lado do receptor. Se o detector de atividade for muito eficiente na detecção de não atividade, ele irá introduzir corte no sinal ativo, que é, então, percebido como degradação de qualidade subjetiva quando o segmento ativo cortado for substituído com ruído confortável. Ao mesmo tempo, a eficiência da DTX é reduzida se o detector de atividade não for eficiente o suficiente e classificar segmentos de ruído de fundo como ativos e, então, codificar ativamente o ruído de fundo em vez de entrar em um modo DTX com ruído confortável. Na maioria dos casos, o problema de corte é considerado pior.

[003] A figura 1 mostra um diagrama de blocos de visão geral de um detector de atividade de som, SAD, ou detector de atividade de voz, VAD, generalizado que toma um sinal de áudio como entrada e produz uma decisão de atividade como saída. O sinal de entrada é dividido em quadros de dados, isto é, segmentos de sinal de áudio de, por exemplo, 5 - 30 ms, dependendo da implementação, e uma decisão de atividade por quadro é produzida como saída.

[004] Uma decisão primária, "prim", é feita pelo detector primário ilustrado na figura 1. A decisão primária é, basicamente, somente uma comparação dos recursos de um quadro atual com recursos de plano de fundo, que são estimadas a partir de quadros de entrada prévios. Uma diferença entre os recursos do quadro atual e os recursos de plano de fundo que é maior do que um limite causa uma decisão primária ativa. O bloco de adição de falha de desvanecimento é usado para estender a decisão primária com base em decisões primárias passadas para formar a decisão final, “sinalização”. O motivo para usar falha de desvanecimento é, principalmente, para reduzir/remover o risco de corte das extremidades média e final do surto de atividade. Da forma indicada na figura, um controlador de operação pode ajustar o(s) limite(s) para o detector primário e o comprimento da adição da falha de desvanecimento de acordo com as características do sinal de entrada. O bloco estimador de plano de fundo é usado para estimar o ruído de fundo no sinal de entrada. O ruído de fundo também pode ser aqui referido como “o plano de fundo” ou “o recurso de fundo”.

[005] A estimativa do recurso de fundo pode ser feita de acordo com dois princípios basicamente diferentes, tanto pelo uso da decisão primária, isto é, com decisão ou realimentação de métrica de decisão, que é indicada por linha tracejada - pontilhada na figura 1, quanto pelo uso de algumas outras características do sinal de entrada, isto é, sem realimentação de decisão. Também é possível usar combinações das duas estratégias.

[006] Um exemplo de um codec que usa realimentação de decisão para estimativa de plano de fundo é AMR-NB (Banda Estreita com Taxa Multi Adaptativa) e exemplos de codecs em que a realimentação de decisão não é usada são EVRC (CODEC de Taxa Variável Aprimorado) e G.718.

[007] Há inúmeros diferentes recursos ou características de sinal que podem ser usados, mas um recurso comum utilizado em VADs são as características de frequência do sinal de entrada. Um tipo comumente usado de características de frequência é a energia do quadro de sub-banda, devido à sua baixa complexidade e operação confiável em baixa SNR. Portanto, é considerado que o sinal de entrada é dividido em diferentes sub-bandas de frequência e o nível do plano de fundo é estimado para cada uma das sub-bandas. Desta maneira, um dos recursos do ruído de fundo é o vetor com os valores de energia para cada sub-banda. Estes são valores que caracterizam o ruído de fundo no sinal de entrada no domínio da frequência.

[008] Para alcançar rastreamento do ruído de fundo, a real atualização das estimativas de ruído de fundo pode ser feita em pelo menos três maneiras diferentes. Uma maneira é usar um processo Auto Regressivo, AR, por posição de frequência para tratar a atualização. Exemplos de tais codecs são AMR-NB e G.718. Basicamente, para este tipo de atualização, o tamanho da etapa da atualização é proporcional à diferença observada entre a entrada atual e a estimativa de plano de fundo atual. Uma outra maneira é usar escalonamento multiplicativo de uma estimativa atual com a restrição que a estimativa nunca pode ser maior do que a entrada atual ou menor do que um valor mínimo. Isto significa que a estimativa é aumentada em cada quadro até que ela fique mais alta do que a entrada atual. Nesta situação, a entrada atual é usada como estimativa. EVRC é um exemplo de um codec que usa esta técnica para atualizar a estimativa de plano de fundo para a função VAD. Note que EVRC usa estimativa de plano de fundo diferente para VAD e supressão de ruído. Deve-se notar que um VAD pode ser usado em contextos diferentes de DTX. Por exemplo, em codecs de taxa variável, tal como EVRC, o VAD pode ser usado como parte de uma função de determinação de taxa.

[009] Uma terceira maneira é usar uma assim denominada técnica mínima em que a estimativa é o valor mínimo durante uma janela de tempo deslizante de quadros anteriores. Isto, basicamente, dá uma estimativa mínima que é escalonada, usando um fator de compensação, para receber e aproximar estimativa média para ruído estacionário.

[0010] Em casos de alta SNR, em que o nível de sinal do sinal ativo é muito mais alto do que o sinal de fundo, pode ser bastante fácil tomar uma decisão se um sinal de entrada de áudio está ativo ou não ativo. Entretanto, separar sinais ativos e não ativos em casos de baixa SNR e, em particular, quando o plano de fundo for não estacionário ou até mesmo similar ao sinal ativo em suas características, é muito difícil.

[0011] O desempenho do VAD depende da capacidade do estimador de ruído de fundo em rastrear as características do plano de fundo - em particular, quando ele se voltar a planos de fundo não estacionários. Com melhor rastreamento, é possível tornar o VAD mais eficiente sem aumentar o risco de corte de fala.

[0012] Embora a correlação seja um importante recurso que é usado para detectar fala, principalmente, a parte vociferada da fala, também há sinais de ruído que mostram alta correlação. Nestes casos, o ruído com correlação irá impedir a atualização da estimativa de ruído de fundo. O resultado é uma alta atividade, já que tanto fala quanto ruído de fundo são codificados como conteúdo ativo. Embora, para altas SNRs (aproximadamente > 20 dB), seja possível reduzir o problema usando detecção de pausa com base em energia, isto não é confiável para a faixa de SNR 20 dB abaixo até 10 dB ou, possivelmente, 5 dB. É nesta faixa que a solução aqui descrita faz uma diferença.

Sumário

[0013] Seria desejável alcançar melhor estimativa de ruído de fundo em sinais de áudio. “Melhor”, aqui, pode implicar tomar decisão mais correta em relação a se um sinal de áudio compreende fala ativa ou música ou não, e, assim, estimando mais frequentemente, por exemplo, atualizando uma estimativa prévia, o ruído de fundo em segmentos de sinal de áudio realmente sendo livre de conteúdo ativo, tais como fala e/ou música. Aqui, um melhor método para gerar uma estimativa de ruído de fundo é provido, que pode habilitar, por exemplo, que um detector de atividade de som tome decisões mais adequadas.

[0014] Para estimativa de ruído de fundo em sinais de áudio, é importante poder encontrar características confiáveis para identificar os recursos de um sinal de ruído de fundo, também, quando um sinal de entrada compreender uma mistura desconhecida de sinais ativos e de fundo, em que os sinais ativos podem compreender fala e/ou música.

[0015] O inventor observou que recursos relacionados a energias residuais para diferentes ordens de modelo de previsão linear podem ser utilizados para detecção de pausas em sinais de áudio. Estas energias residuais podem ser extraídas, por exemplo, de uma análise de previsão linear, que é comum em codecs de fala. Os recursos podem ser filtrados e combinados para fazer um conjunto de recursos ou parâmetros que podem ser usados para detectar ruído de fundo, o que torna a solução adequada para uso em estimativa de ruído. A solução aqui descrita é particularmente eficiente para as condições quando uma SNR estiver na faixa de 10 a 20 dB.

[0016] Um outro recurso aqui provido é uma medida de proximidade espectral em relação ao plano de fundo, que pode ser feita, por exemplo, pelo uso das energias de sub-banda no domínio da frequência que são usadas, por exemplo, em um SAD de sub-banda. A medida de proximidade espectral também pode ser usada para tomar uma decisão se um sinal de áudio compreende uma pausa ou não.

[0017] De acordo com um primeiro aspecto, um método para estimativa de ruído de fundo é provido. O método compreende obter pelo menos um parâmetro associado a um segmento de sinal de áudio, tal como um quadro ou uma parte de um quadro, com base em um primeiro ganho de previsão linear, calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 0-ésima ordem e um sinal residual proveniente de uma previsão linear de 2a ordem para o segmento de sinal de áudio; e, um segundo ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 2a ordem e um sinal residual proveniente de uma previsão linear de 16a ordem para o segmento de sinal de áudio. O método compreende adicionalmente determinar se o segmento de sinal de áudio compreende uma pausa com base pelo menos no pelo menos um parâmetro obtido; e atualizar uma estimativa de ruído de fundo com base no segmento de sinal de áudio quando o segmento de sinal de áudio compreender uma pausa.

[0018] De acordo com um segundo aspecto, um estimador de ruído de fundo é provido. O estimador de ruído de fundo é configurado para obter pelo menos um parâmetro associado a um segmento de sinal de áudio com base em um primeiro ganho de previsão linear, calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 0-ésima ordem e um sinal residual proveniente de uma previsão linear de 2a ordem para o segmento de sinal de áudio; e um segundo ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 2a ordem e um sinal residual proveniente de uma previsão linear de 16a ordem para o segmento de sinal de áudio. O estimador de ruído de fundo é adicionalmente configurado para determinar se o segmento de sinal de áudio compreende uma pausa com base pelo menos no pelo menos um parâmetro obtido; e para atualizar uma estimativa de ruído de fundo com base no segmento de sinal de áudio quando o segmento de sinal de áudio compreender uma pausa.

[0019] De acordo com um terceiro aspecto, um SAD é provido, que compreende um estimador de ruído de fundo de acordo com o segundo aspecto.

[0020] De acordo com um quarto aspecto, um codec é provido, que compreende um estimador de ruído de fundo de acordo com o segundo aspecto.

[0021] De acordo com um quinto aspecto, um dispositivo de comunicação é provido, que compreende um estimador de ruído de fundo de acordo com o segundo aspecto.

[0022] De acordo com um sexto aspecto, um nó de rede é provido, que compreende um estimador de ruído de fundo de acordo com o segundo aspecto.

[0023] De acordo com um sétimo aspecto, um programa de computador é provido, que compreende instruções que, quando executadas em pelo menos um processador, fazem com que o pelo menos um processador realize o método de acordo com o primeiro aspecto.

[0024] De acordo com um oitavo aspecto, uma portadora é provida, que contém um programa de computador de acordo com o sétimo aspecto.

Breve Descrição dos Desenhos

[0025] O exposto e ainda outros objetivos, recursos e vantagens da tecnologia aqui descrita ficarão aparentes a partir da seguinte descrição mais particular de modalidades, da forma ilustrada nos desenhos anexos. Os desenhos não estão necessariamente em escala, ênfase, em vez disto, sendo dada na ilustração dos princípios da tecnologia aqui descrita.

[0026] A figura 1 é um diagrama de blocos que ilustra um detector de atividade e lógica de determinação de falha de desvanecimento.

[0027] A figura 2 é um fluxograma que ilustra um método para estimativa de ruído de fundo, de acordo com uma modalidade exemplificante.

[0028] A figura 3 é um diagrama de blocos que ilustra o cálculo de recursos relacionados às energias residuais para previsão linear de ordem 0 e 2 de acordo com uma modalidade exemplificante.

[0029] A figura 4 é um diagrama de blocos que ilustra o cálculo de recursos relacionados às energias residuais para previsão linear de ordem 2 e 16 de acordo com uma modalidade exemplificante.

[0030] A figura 5 é um diagrama de blocos que ilustra o cálculo de recursos relacionados a uma medida de proximidade espectral de acordo com uma modalidade exemplificante.

[0031] A figura 6 é um diagrama de blocos que ilustra um estimador de plano de fundo de energia de sub-banda.

[0032] A figura 7 é um fluxograma que ilustra uma lógica de decisão de atualização de plano de fundo da solução descrita no Anexo A.

[0033] As figuras 8 - 10 são diagramas que ilustram o comportamento de parâmetros diferentes aqui apresentados quando calculados para um sinal de áudio que compreende dois surtos de fala.

[0034] As figuras 11a a 11c e 12 a 13 são diagramas de blocos que ilustram diferentes implementações de um estimador de ruído de fundo de acordo com modalidades exemplificantes.

[0035] As figuras A2 a A9 nas páginas de figura marcadas com “Anexo A” são associadas ao Anexo A, e são referidas no dito Anexo A com o número que segue a letra “A”, isto é, 2 a 9.

Descrição Detalhada

[0036] A solução aqui descrita refere-se à estimativa de ruído de fundo em sinais de áudio. No detector de atividade generalizado ilustrado na figura 1, a função de estimar ruído de fundo é realizada pelo bloco denotado como “estimador de plano de fundo”. Algumas modalidades da solução aqui descrita podem ser vistas em relação a soluções previamente descritas em W02011/049514, W02011/049515, que são aqui incorporadas pela referência e, também, no Anexo A (Apêndice A). A solução aqui descrita será comparada com implementações destas soluções previamente descritas. Mesmo embora as soluções descritas em W02011/049514, W02011/049515 e Anexo A sejam boas soluções, a solução aqui apresentada ainda tem vantagens em relação a estas soluções. Por exemplo, a solução aqui apresentada é ainda mais adequada em seu rastreamento de ruído de fundo.

[0037] O desempenho de um VAD depende da capacidade do estimador de ruído de fundo em rastrear as características do plano de fundo - em particular, quando ele se voltar a planos de fundo não estacionários. Com melhor rastreamento, é possível tornar o VAD mais eficiente sem aumentar o risco de corte de fala.

[0038] Um problema com atuais métodos de estimativa de ruído é que, para alcançar bom rastreamento do ruído de fundo em baixa SNR, um confiável detector de pausa é necessário. Para entrada apenas de fala, é possível utilizar a taxa silábica ou o fato de que uma pessoa não pode conversar todo o tempo para encontrar pausas na fala. Tais soluções pode envolver o fato de que, depois de um tempo suficiente de não realização de atualizações de plano de fundo, as exigências para detecção de pausa são “relaxadas”, de maneira tal que seja mais provável detectar uma pausa na fala. Isto permite responder as abruptas mudanças nas características ou nível de ruído. Alguns exemplos de tais lógicas de recuperação de ruído são: 1) Como declarações de fala contêm segmentos com alta correlação, é usualmente seguro considerar que há uma pausa na fala depois de um número suficiente de quadros sem correlação. 2) Quando a Razão de Sinal por Ruído, SNR > 0, a energia da fala é mais alta do que o ruído de fundo, então, se a energia de quadro for próxima da mínima energia durante um tempo mais longo, por exemplo, 1 a 5 segundos, também é seguro considerar que um está em uma pausa de fala. Embora as técnicas prévias funcionem bem com entrada apenas de fala, elas não são suficientes quando música for considerada uma entrada ativa. Em música, pode haver segmentos longos com baixa correlação que ainda são música. Adicionalmente, a dinâmica da energia em música também pode disparar falsa detecção de pausa, que pode resultar em indesejadas atualizações errôneas da estimativa de ruído de fundo.

[0039] De forma ideal, uma função inversa de um detector de atividade, ou o que seria chamado de um “detector de ocorrência de pausa”, será necessária para controlar a estimativa de ruído. Isto irá garantir que a atualização das características do ruído de fundo é feita apenas quando não houver sinal ativo no quadro atual. Entretanto, da forma indicada anteriormente, não é uma tarefa fácil determinar se um segmento de sinal de áudio compreende um sinal ativo ou não.

[0040] Tradicionalmente, quando o sinal ativo foi conhecido como um sinal de fala, o detector de atividade foi chamado de Detector de Atividade de Voz (VAD). O termo VAD para detectores de atividade também é frequentemente usado quando o sinal de entrada puder compreender música. Entretanto, em codecs modernos, também é comum se referir ao detector de atividade como um Detector de Atividade de Som (SAD) quando música também precisar ser detectada como um sinal ativo.

[0041] O estimador de plano de fundo ilustrado na figura 1 utiliza realimentação proveniente do detector primário e/ou o bloco de falha de desvanecimento para localizar segmentos de sinal de áudio inativos. Durante o desenvolvimento da tecnologia aqui descrita, foi um desejo remover, ou pelo menos reduzir a dependência em tal realimentação. Para a estimativa de plano de fundo aqui descrita, portanto, foi identificado pelo inventor como importante poder encontrar recursos confiáveis para identificar as características dos sinais de fundo quando apenas um sinal de entrada com uma mistura desconhecida de sinal ativo e de fundo estiver disponível. O inventor percebeu adicionalmente que não pode ser considerado que o sinal de entrada inicia com um segmento de ruído, ou até mesmo que o sinal de entrada é fala misturada com ruído, já que pode ser o caso em que o sinal ativo é música.

[0042] Um aspecto é que, mesmo embora o quadro atual possa ter o mesmo nível de energia da atual estimativa de ruído, as características de frequência podem ser muito diferentes, o que torna indesejável realizar uma atualização da estimativa de ruído usando o quadro atual. O recurso de proximidade introduzido em relação à atualização de ruído de fundo pode ser usado para impedir atualizações nestes casos.

[0043] Adicionalmente, durante a inicialização, é desejável permitir que a estimativa de ruído inicie assim que possível ao mesmo tempo em que se evita decisões erradas, já que isto pode potencialmente resultar em corte do SAD se a atualização de ruído de fundo for feita usando conteúdo ativo. Usar uma versão específica de inicialização do recurso de proximidade durante a inicialização pode resolver pelo menos parcialmente este problema.

[0044] A solução aqui descrita refere-se a um método para estimativa de ruído de fundo, em particular, a um método para detecção de pausas em um sinal de áudio que desempenha bem em difíceis situações de SNR. A solução será descrita a seguir em relação às figuras 2 - 5.

[0045] No campo de codificação de fala, é comum usar assim denominada previsão linear para analisar a forma espectral de um sinal de entrada. A análise é tipicamente feita duas vezes por quadro e, para melhor precisão temporal, os resultados são, então, interpolados de maneira tal que haja um filtro gerado para cada bloco de 5 ms do sinal de entrada.

[0046] Previsão linear é uma operação matemática, em que valores futuros de um sinal discreto no tempo são estimados como uma função linear de amostras prévias. Em processamento de sinal digital, previsão linear é frequentemente chamada de codificação preditiva linear (LPC) e pode, assim, ser visualizada como um subconjunto de teoria de filtro. Em previsão linear em um codificador de fala, um filtro de previsão linear A(z) é aplicado em um sinal de fala de entrada. A(z) é um filtro todo zero que, quando aplicado no sinal de entrada, remove a redundância que pode ser modelada usando o filtro A(z) do sinal de entrada. Portanto, o sinal de saída do filtro tem energia mais baixa do que o sinal de entrada quando o filtro tiver sucesso na modelagem de algum aspecto ou aspectos do sinal de entrada. Este sinal de saída é denotado como “o resíduo”, “a energia residual” ou “o sinal residual”. Tais filtros de previsão linear, alternativamente denotados como filtros residuais, podem ser de diferente ordem de modelo com diferente número de coeficientes de filtro. Por exemplo, a fim de modelar apropriadamente a fala, um filtro de previsão linear de ordem de modelo 16 pode ser exigido. Assim, em um codificador de fala, um filtro de previsão linear A(z) de ordem de modelo 16 pode ser usado.

[0047] O inventor percebeu que recursos relacionados a previsão linear podem ser usados para detecção de pausas em sinais de áudio em uma faixa de SNR de 20 dB abaixo até 10 dB ou, possivelmente, 5 dB. De acordo com modalidades da solução aqui descrita, uma relação entre energias residuais para diferentes ordens de modelo para um sinal de áudio é utilizada para detecção de pausas no sinal de áudio. A relação usada é o quociente entre a energia residual de uma ordem de modelo inferior e uma ordem de modelo superior. O quociente entre energias residuais pode ser referido como o “ganho de previsão linear”, já que ele é um indicador de quanto da energia de sinal que o filtro de previsão linear foi capaz de modelar, ou remover, entre uma ordem de modelo e uma outra ordem de modelo.

[0048] A energia residual irá depender da ordem de modelo M do filtro de previsão linear A(z). Uma maneira comum de calcular os coeficientes de filtro para um filtro de previsão linear é o algoritmo Levinson-Durbin. Este algoritmo é recursivo e, no processo de criação de um filtro de previsão A(z) de ordem M, também, como um “subproduto”, irá produzir as energias residuais das ordens de modelo inferiores. Este fato pode ser utilizado de acordo com modalidades da invenção.

[0049] A figura 2 mostra um método para estimativa de ruído de fundo exemplificante geral em um sinal de áudio. O método pode ser realizado por um estimador de ruído de fundo. O método compreende obter 201 pelo menos um parâmetro associado a um segmento de sinal de áudio, tal como um quadro ou uma parte de um quadro, com base em um primeiro ganho de previsão linear, calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 0-ésima ordem e um sinal residual proveniente de uma previsão linear de 2a ordem para o segmento de sinal de áudio; e um segundo ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 2a ordem e um sinal residual proveniente de uma previsão linear de 16a ordem para o segmento de sinal de áudio.

[0050] O método compreende adicionalmente determinar 202 se o segmento de sinal de áudio compreende uma pausa, isto é, é livre de conteúdo ativo, tais como fala e música, com base pelo menos no pelo menos um parâmetro obtido; e atualizar 203 uma estimativa de ruído de fundo com base no segmento de sinal de áudio quando o segmento de sinal de áudio compreender uma pausa. Isto é, o método compreende atualizar uma estimativa de ruído de fundo quando uma pausa for detectada no segmento de sinal de áudio com base pelo menos no pelo menos um parâmetro obtido.

[0051] Os ganhos de previsão linear podem ser descritos como um primeiro ganho de previsão linear relacionado a ir da 0-ésima ordem até previsão linear de 2a ordem para o segmento de sinal de áudio; e um segundo ganho de previsão linear relacionado a ir da 2a ordem até previsão linear de 16a ordem para o segmento de sinal de áudio. Adicionalmente, a obtenção do pelo menos um parâmetro pode ser alternativamente descrita como determinar, calcular, derivar ou criar. As energias residuais relacionadas a previsões lineares de ordem de modelo 0, 2 e 16 podem ser obtidas, recebidas ou recuperadas a partir de, isto é, alguma forma provida por, uma parte do codificador em que previsão linear é realizada como parte de um processo de codificação regular. Desse modo, a complexidade computacional da solução aqui descrita pode ser reduzida, se comparada a quando as energias residuais precisarem ser derivadas especialmente para a estimativa de ruído de fundo.

[0052] O pelo menos um parâmetro obtido com base nos recursos de previsão linear pode prover uma análise independente de nível do sinal de entrada que melhora a decisão de se realiza uma atualização de ruído de fundo ou não. A solução é particularmente útil na faixa de SNR de 10 até 20 dB, em que SADs com base em energia têm desempenho limitado devido à faixa dinâmica normal de sinais de fala.

[0053] Aqui, entre outras, as variáveis E(0), ...,E(m), ..., E(M) representam as energias residuais para ordens de modelo 0 até M dos filtros M+1 Am(z). Note que E(0) é somente a energia de entrada. Uma análise de sinal de áudio de acordo com a solução aqui descrita provê diversos novos recursos ou parâmetros pela análise do ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 0-ésima ordem e um sinal residual proveniente de uma previsão linear de 2a ordem, e o ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 2a ordem e um sinal residual proveniente de uma previsão linear de 16a ordem. Isto é, o ganho de previsão linear para ir da 0-ésima ordem até previsão linear de 2a ordem é a mesma coisa da “energia residual” E(0) (para um modelo de 0- ésima ordem) dividida pela energia residual E(2) (para um modelo de 2a ordem). Correspondentemente, o ganho de previsão linear para ir da previsão linear de 2a ordem até a previsão linear de 16a ordem é a mesma coisa da energia residual E(2) (para um modelo de 2a ordem) dividida pela energia residual E(16) (para um modelo de 16a ordem). Exemplos de parâmetros e a determinação de parâmetros com base nos ganhos de previsão serão descritos com mais detalhes adicionais a seguir. O pelo menos um parâmetro obtido de acordo com a modalidade geral supradescrita pode formar uma parte de um critério de decisão usado para avaliar de se atualizam as estimativas de ruído de fundo ou não.

[0054] A fim de melhorar uma estabilidade de longo prazo do pelo menos um parâmetro ou recurso, uma versão limitada do ganho de previsões pode ser calculada. Isto é, a obtenção do pelo menos um parâmetro pode compreender limitar os ganhos de previsão linear, relacionados a ir da 0- ésima ordem até a 2a ordem e da 2a ordem até a previsão linear de 16a ordem, para impor valores em um intervalo predefinido. Por exemplo, os ganhos de previsão linear podem ser limitados a impor valores entre 0 e 8, da forma ilustrada, por exemplo, na Equação 1 e Equação 6 a seguir.

[0055] A obtenção de pelo menos um parâmetro pode compreender adicionalmente criar pelo menos uma estimativa de longo prazo de cada um do primeiro e do segundo ganhos de previsão linear, por exemplo, por meio de filtragem passa-baixa. Tal pelo menos uma estimativa de longo prazo será, então, adicionalmente com base em correspondentes ganhos de previsão linear associados a pelo menos um segmento de sinal de áudio precedente. Mais de uma estimativa de longo prazo pode ser criada, em que, por exemplo, uma primeira e uma segunda estimativas de longo prazo relacionadas a um ganho de previsão linear reagem diferentemente às mudanças no sinal de áudio. Por exemplo, uma primeira estimativa de longo prazo pode reagir mais rápido às mudanças do que uma segunda estimativa de longo prazo. Uma primeira estimativa de longo prazo como esta pode ser alternativamente denotada como uma estimativa de curto prazo.

[0056] A obtenção do pelo menos um parâmetro pode compreender adicionalmente determinar uma diferença, tal como a diferença absoluta Gd_0_2 (Equação 3) descrita a seguir, entre um dos ganhos de previsão linear associados ao segmento de sinal de áudio, e uma estimativa de longo prazo do dito ganho de previsão linear. Alternativamente, ou além do mais, uma diferença entre duas estimativas de longo prazo pode ser determinada, tal como na Equação 9 a seguir. O termo determinação pode ser alternativamente trocado por cálculo, criação ou derivação.

[0057] A obtenção do pelo menos um parâmetro pode, da forma indicada anteriormente, compreender filtragem passa-baixa dos ganhos de previsão linear, assim, derivando as estimativas de longo prazo, das quais algumas podem ser alternativamente denotadas estimativas de curto prazo, dependendo de quantos segmentos são levados em consideração na estimativa. Os coeficientes de filtro de pelo menos um filtro passa-baixa podem depender de uma relação entre um ganho de previsão linear relacionado, por exemplo, apenas, ao atual segmento de sinal de áudio e uma média, denotada, por exemplo, como média de longo prazo, ou estimativa de longo prazo, de um correspondente ganho de previsão obtido com base em uma pluralidade de segmentos de sinal de áudio precedentes. Isto pode ser realizado para criar, por exemplo, adicionalmente, estimativa de longo prazo dos ganhos de previsão. A filtragem passa-baixa pode ser realizada em duas ou mais etapas, em que cada etapa pode resultar em um parâmetro, ou estimativa, que é usado para tomar uma decisão em relação à presença de uma pausa no segmento de sinal de áudio. Por exemplo, diferentes estimativas de longo prazo (tais como G1_0_2 (Equação 2) e Gad_0_2 (Equação 4) e/ou G1_2_16 (Equação 7), G2_2_16 (Equação 8) e Gad_2_16 (Equação 10) descritos a seguir) que refletem mudanças no sinal de áudio de diferentes maneiras, podem ser analisadas ou comparadas a fim de detectar uma pausa em um atual segmento de sinal de áudio.

[0058] A determinação 202 se o segmento de sinal de áudio compreende uma pausa ou não pode ser adicionalmente com base em uma medida de proximidade espectral associada ao segmento de sinal de áudio. A medida de proximidade espectral irá indicar quão próximo o nível de energia “por banda de frequência” do segmento de sinal de áudio atualmente processado está do nível de energia “por banda de frequência” da atual estimativa de ruído de fundo, por exemplo, um valor inicial ou uma estimativa que é o resultado de uma atualização prévia feita antes da análise do atual segmento de sinal de áudio. Um exemplo de determinação ou derivação de uma medida de proximidade espectral é dado a seguir nas equações Equação 12 e Equação 13. A medida de proximidade espectral pode ser usada para impedir atualizações de ruído com base em quadros de baixa energia com uma grande diferença nas características de frequência, se comparada com a estimativa de plano de fundo atual. Por exemplo, a energia média sobre as bandas de frequência pode ser igualmente baixa para o atual segmento de sinal e a atual estimativa de ruído de fundo, mas a medida de proximidade espectral irá revelar se a energia é diferentemente distribuída sobre as bandas de frequência. Uma diferença como esta na distribuição de energia pode sugerir que o atual segmento de sinal, por exemplo, quadro, pode ser conteúdo ativo de baixo nível e uma atualização das estimativas de ruído de fundo com base no quadro pode, por exemplo, impedir a detecção de quadros futuros com conteúdo similar. Como a SNR de sub-banda é mais sensível a aumentos de energia, usar até mesmo conteúdo ativo de baixo nível pode resultar em uma grande atualização da estimativa de plano de fundo se esta faixa de frequência em particular for não existente no ruído de fundo, tal como a parte de alta frequência de fala, se comparado com ruído de carro de baixa frequência. Depois de uma atualização como esta, será mais difícil detectar a fala.

[0059] Da forma já sugerida anteriormente, a medida de proximidade espectral pode ser derivada, obtida ou calculada com base em energias para um conjunto de bandas de frequência, alternativamente denotadas sub-bandas, do segmento de sinal de áudio atualmente analisado e atuais estimativas de ruído de fundo correspondentes ao conjunto de bandas de frequência. Isto também será exemplificado e descrito com mais detalhes adicionalmente a seguir, e é ilustrado na figura 5.

[0060] Da forma indicada anteriormente, a medida de proximidade espectral pode ser derivada, obtida ou calculada pela comparação de um atual nível de energia por banda de frequência do segmento de sinal de áudio atualmente processado com um nível de energia por banda de frequência de uma atual estimativa de ruído de fundo. Entretanto, para começar, isto é, durante um primeiro período ou um primeiro número de quadros no começo da análise de um sinal de áudio, pode não haver estimativa de ruído de fundo confiável, por exemplo, já que nenhuma atualização confiável de uma estimativa de ruído de fundo ainda terá sido realizada. Portanto, um período de inicialização pode ser aplicado para determinar o valor de proximidade espectral. Durante um período de inicialização como este, os níveis de energia por banda de frequência do atual segmento de sinal de áudio, em vez disto, serão comparados com uma estimativa de plano de fundo inicial, que pode ser, por exemplo, um valor constante configurável. Nos exemplos adicionais a seguir, estas estimativas de ruído de fundo iniciais são definidas no valor exemplificante Emin = 0,0035. Depois do período de inicialização, o procedimento pode comutar para operação normal, e comparar o atual nível de energia por banda de frequência do segmento de sinal de áudio atualmente processado com um nível de energia por banda de frequência de uma atual estimativa de ruído de fundo. O comprimento do período de inicialização pode ser configurado, por exemplo, com base em simulações ou testes que indicam o tempo que leva antes de uma, por exemplo, confiável e/ou satisfatória, estimativa de ruído de fundo ser provida. Um exemplo usado a seguir, a comparação com uma estimativa de ruído de fundo inicial (em vez de com uma estimativa “real” derivada com base no atual sinal de áudio) é realizada durante os primeiros 150 quadros.

[0061] O pelo menos um parâmetro pode ser o parâmetro exemplificado no código adicional a seguir, denotado NEW_POS_BG, e/ou um ou mais da pluralidade de parâmetros descritos adicionalmente a seguir, levando à formação de um critério de decisão ou um componente em um critério de decisão para detecção de pausa. Em outras palavras, o pelo menos um parâmetro, ou recurso, obtido 201 com base nos ganhos de previsão linear pode ser um ou mais dos parâmetros descritos a seguir, pode compreender um ou mais dos parâmetros descritos a seguir e/ou ser com base em um ou mais dos parâmetros descritos a seguir.

[0062] Recursos ou parâmetros relacionados às energias residuais E(0) e E(2)

[0063] A figura 3 mostra um diagrama de blocos de visão geral da derivação de recursos ou parâmetros relacionados a E(0) e E(2), de acordo com uma modalidade exemplificante. Como pode-se ver na figura 3, o ganho de previsão é primeiro calculado como E(0)/E(2). Uma versão limitada do ganho de previsões é calculada como: G_0_2 = max(0,min(8,E(0)/E(2))) (Eq 1) em que E(0) representa a energia do sinal de entrada e E(2) é a energia residual depois de uma previsão linear de 2a ordem. A expressão na equação 1 limita o ganho de previsão a um intervalo entre 0 e 8. O ganho de previsão deve, para casos normais, ser maior do que zero, mas anomalias podem ocorrer, por exemplo, para valores próximos de zero e, portanto, uma limitação “maior do que zero” (0 <) pode ser usada. O motivo para limitar o ganho de previsão a um máximo de 8 é que, com o propósito da solução aqui descrita, é suficiente saber que o ganho de previsão é cerca de 8 ou maior do que 8, o que indica um ganho de previsão linear significativo. Deve-se notar que, quando não houver diferença entre a energia residual entre duas diferentes ordens de modelo, o ganho de previsão linear será 1, o que indica que o filtro de uma ordem de modelo superior não tem mais sucesso na modelagem do sinal de áudio do que o filtro de uma ordem de modelo inferior. Adicionalmente, se o ganho de previsão G_0_2 impuser valores muito grandes nas seguintes expressões, ele pode arriscar a estabilidade dos parâmetros derivados. Deve-se notar que 8 é somente um valor de exemplo, que foi selecionado para uma modalidade específica. O parâmetro G_0_2 pode ser alternativamente denotado, por exemplo, epsP_0_2 ou gLP_0_2.

[0064] O ganho de previsão limitado é, então, filtrado em duas etapas para criar estimativa de longo prazo deste ganho. A primeira filtragem passa- baixa e, assim, a derivação de um primeiro recurso ou parâmetro de longo prazo é feita como: G1_0_2 = 0,85 G1_0_2 + 0,15 G_0_2, (Equação 2)

[0065] Em que o segundo “G1_0_2” na expressão deve ser lido como o valor proveniente de um segmento de sinal de áudio precedente. Este parâmetro, tipicamente, será tanto 0 quanto 8, dependendo do tipo de ruído de fundo na entrada uma vez que há um segmento de entrada somente de plano de fundo. O parâmetro G1_0_2 pode ser alternativamente denotado, por exemplo, epsP_0_2_lp ou . Um outro recurso ou parâmetro pode, então, ser criado ou calculado usando a diferença entre o primeiro recurso de longo prazo G1_0_2 e o ganho de previsão limitado quadro a quadro G_0_2, de acordo com: Gd_0_2 = abs(G1_0_2-G_0_2) (Equação 3)

[0066] Isto dará uma indicação do ganho de previsão do quadro atual, se comparado com a estimativa de longo prazo do ganho de previsão. O parâmetro Gd_0_2 pode ser alternativamente denotado, por exemplo, como epsP_0_2_ad ou gad_0_2. Na figura 4, esta diferença é usada para criar uma segunda estimativa ou recurso de longo prazo Gad_0_2. Isto é feito usando um filtro que aplica diferentes coeficientes de filtro dependendo se a diferença de longo prazo é mais alta ou mais baixa do que a diferença média atualmente estimada de acordo com: Gad_0_2 = (1-a) Gad_0_2 + a Gd_0_2 (Equação 4) em que, se Gd_0_2 < Gad_0_2, então, a = 0,1, senão, a = 0,2

[0067] Em que o segundo “Gad_0_2” na expressão deve ser lido como o valor proveniente de um segmento de sinal de áudio precedente.

[0068] O parâmetro Gad_0_2 pode ser alternativamente denotado, por exemplo, como Glp_0_2, epsP_0_2_ad_lp ou . A fim de impedir a filtragem do mascaramento de altas diferenças de quadro ocasionais, um outro parâmetro pode ser derivado, que não é mostrado na figura. Isto é, o segundo recurso de longo prazo Gad_0_2 pode ser combinado com a diferença de quadro a fim de impedir tal mascaramento. Este parâmetro pode ser derivado tomando o máximo da versão de quadro Gd_0_2 e da versão de longo prazo Gad_0_2 do recurso do ganho de previsão, como: Gmax_0_2 = max(Gad_0_2,Gd_0_2) (Equação 5)

[0069] O parâmetro Gmax_0_2 pode ser alternativamente denotado, por exemplo, como epsP_0_2_ad_lp_max ou gmax_0_2.

[0070] Recursos ou parâmetros relacionados às energias residuais E(2) e E(16)

[0071] A figura 4 mostra um diagrama de blocos de visão geral da derivação de recursos ou parâmetros relacionados a E(2) e E(16), de acordo com uma modalidade exemplificante. Como pode-se ver na figura 4, o ganho de previsão é calculado primeiro como E(2)/E(16). Os recursos ou parâmetros criados usando a diferença ou a relação entre a energia residual de 2a ordem e a energia residual de 16a ordem são derivados de forma ligeiramente diferente daquelas supradescritas relacionadas à relação entre as energias residuais de 0-ésima e 2a ordem.

[0072] Aqui, também, um ganho de previsão limitado é calculado como G_2_16 = max(0,min(8,E(2)/E(16))) (Equação 6) em que E(2) representa a energia residual depois de uma previsão linear de 2a ordem e E(16) representa a energia residual depois de uma previsão linear de 16a ordem. O parâmetro G_2_16 pode ser alternativamente denotado, por exemplo, como epsP_2_16 ou gLP_2_16. Este ganho de previsão limitado é, então, usado para criar duas estimativas de longo prazo deste ganho: um quando o coeficiente de filtro diferir se a estimativa de longo prazo deve ser aumentada ou não, da forma mostrada em: G1_2_16 = (1-a) G1_2_16 + a G_2_16 (Equação 7) em que se G_2_16 > G1_2_16, então, a = 0,2, caso contrário, a = 0,03.

[0073] O parâmetro G1_2_16 pode ser alternativamente denotado, por exemplo, como epsP_2_16_lp ou .

[0074] A segunda estimativa de longo prazo usa um coeficiente de filtro constante de acordo com: G2_2_16 = (1-b) G2_2_16 + b G_2_16, em que b = 0,02 (Equação 8)

[0075] O parâmetro G2_2_16 pode ser alternativamente denotado, por exemplo, como epsP_2_16_lp2 ou .

[0076] Para a maior parte dos tipos de sinais de fundo, tanto G1_2_16 quanto G2_2_16 ficarão próximos de 0, mas eles terão diferentes respostas ao conteúdo em que a previsão linear de 16a ordem é necessária, o que é tipicamente para fala e outro conteúdo ativo. A primeira estimativa de longo prazo, G1_2_16, será usualmente mais alta do que a segunda estimativa de longo prazo G2_2_16. Esta diferença entre os recursos de longo prazo é medida de acordo com: Gd_2_16 = G1_2_16 - G2_2_16 (Equação 9)

[0077] O parâmetro Gd_2_16 pode ser alternativamente denotado como epsP_2_16_dlp ou

[0078] Gd_2_16 pode, então, ser usado como uma entrada em um filtro que cria um terceiro recurso de longo prazo de acordo com: Gad_2_16 = (1-c) Gad_2_16 + c Gd_2_16 (Equação 10) em que, se Gd_2_16 < Gad_2_16, então, c = 0,02, senão, c = 0,05.

[0079] Este filtro aplica diferentes coeficientes de filtro dependendo se o terceiro sinal de longo prazo deve ser aumentado ou não. O parâmetro Gad_2_16 pode ser alternativamente denotado, por exemplo, como epsP_2_16_dlp_lp2 ou . Também aqui, o sinal de longo prazo Gad_2_16 pode ser combinado com o sinal de entrada do filtro Gd_2_16 para impedir a filtragem das altas entradas de mascaramento ocasional para o quadro atual. O parâmetro final é, então, o máximo do quadro ou do segmento e da versão de longo prazo do recurso Gmax_2_16 = max(Gad_2_16, Gd_2_16) (Equação 11)

[0080] O parâmetro Gmax_2_16 pode ser alternativamente denotado, por exemplo, como epsP_2_16_dlp_max ou . Proximidade espectral/medida de diferença

[0081] Um recurso de proximidade espectral usa a análise de frequência do atual quadro ou segmento de entrada em que a reivindicação de sub-banda é calculada e comparada com a estimativa de plano de fundo de sub-banda. Um parâmetro ou recurso de proximidade espectral pode ser usado em combinação com um parâmetro relacionado aos ganhos de previsão linear supradescritos, por exemplo, para se certificar de que os atuais segmento ou quadro estão relativamente próximos de, ou pelo menos não muito distantes de, uma estimativa de plano de fundo prévia.

[0082] A figura 5 mostra um diagrama de blocos do cálculo de uma medida de proximidade ou diferença espectral. Durante o período de inicialização, por exemplo, os 150 primeiros quadros, a comparação é feita com uma constante correspondente à estimativa de plano de fundo inicial. Depois da inicialização, retorna-se para a operação normal e compara-se com a estimativa de plano de fundo. Note que, embora a análise espectral produza energias de sub-banda para 20 sub-bandas, o cálculo de nonstaB, aqui, usa apenas sub-bandas i = 2, ... 16, já que é nestas bandas, principalmente, que energia da fala está localizada. Aqui, nonstaB reflete a não estacionariedade.

[0083] Então, durante a inicialização, nonstaB for calculado usando um Emin, que é aqui definido em Emin = 0,0035 como: nonstaB = soma(abs(log(Ecb(i) + 1) - log(Emin + 1))) (Equação 12) em que a soma é feita sobre i = 2.16.

[0084] Isto é feito para reduzir o efeito de erros de decisão na estimativa de ruído de fundo durante a inicialização. Depois do período de inicialização, o cálculo é feito usando as atuais estimativas de ruído de fundo da respectiva sub-banda, de acordo com: nonstaB = soma(abs(log(Ecb(i) + 1) - log(Ncb(i) + 1))) (Equação 13) em que a soma é feita sobre i = 2...16

[0085] A adição da constante 1 em cada energia de sub-banda antes do logaritmo reduz a sensibilidade para a diferença espectral para quadros de baixa energia. O parâmetro nonstaB pode ser alternativamente denotado, por exemplo, como non_staB ou nonstatB.

[0086] Um diagrama de blocos que ilustra uma modalidade exemplificante de um estimador de plano de fundo é mostrado na figura 6. A modalidade na figura 6 compreende um bloco para Enquadramento de Entrada 601, que divide o sinal de entrada de áudio em quadros ou segmentos de comprimento adequado, por exemplo, 5 - 30 ms. A modalidade compreende adicionalmente um bloco para Extração de Recurso 602 que calcula os recursos, aqui também denotados como parâmetros, para cada quadro ou segmento do sinal de entrada. A modalidade compreende adicionalmente um bloco para Lógica de Decisão de Atualização 603, para determinar se ou não uma estimativa de plano de fundo pode ser atualizada com base no sinal no quadro atual, isto é, se o segmento de sinal é livre de conteúdo ativo, tais como fala e música. A modalidade compreende adicionalmente um Atualizador de Plano de Fundo 604, para atualizar as estimativas de ruído de fundo quando a Lógica de Decisão de Atualização indicar que ela é adequada para fazê-lo. Na modalidade ilustrada, uma estimativa de ruído de fundo pode ser derivada por sub-banda, isto é, para inúmeras bandas de frequência.

[0087] A solução aqui descrita pode ser usada para melhorar uma solução prévia para estimativa de ruído de fundo, descrita no Anexo A aqui exposto, e, também, no documento WO2011/049514. A seguir, a solução aqui descrita será descrita no contexto desta solução previamente descrita. Exemplos de código provenientes de uma implementação de código de uma modalidade de um estimador de ruído de fundo serão dados.

[0088] Abaixo, detalhes de implementação real são descritos para uma modalidade da invenção em um codificador com base em G.718. Esta implementação usa muitos dos recursos de energia descritos na solução do Anexo A e WO2011/049514 aqui incorporados pela referência. Para detalhes adicionais em relação àqueles apresentados a seguir, consulte Anexo A e WO2011/049514.

[0089] Os seguintes recursos de energia são definidos em W02011/049514: Etot; Etot_l_lp; Etot_v_h; totalNoise; sign_dyn_lp;

[0090] Os seguintes recursos de correlação são definidos em W02011/049514: aEn; harm_cor_cnt act_pred cor_est

[0091] Os seguintes recursos foram definidos na solução dada no Anexo A: Etot_v_h; lt_cor_est = 0.01f*cor_est + 0.99f*lt_cor_est; lt_tn_track = 0.03f* (Etot - totalNoise < 10) + 0.97f*lt_tn_track; lt_tn_dist = 0.03f* (Etot - totalNoise) + 0.97f*lt_tn_dist; lt_Ellp_dist = 0.03f* (Etot - Etot_l_lp) + 0.97f*lt_Ellp_dist; harm_cor_cnt low_tn_track_cnt

[0092] A lógica de atualização de ruído da solução dada no Anexo A é mostrada na figura 7. As melhorias, relacionadas à solução aqui descrita, do estimador de ruído do Anexo A são principalmente relacionadas à parte 701 em que recursos são calculados; à parte 702, em que decisões de pausa são feitas com base em parâmetros diferentes; e, adicionalmente, à parte 703, em que diferentes ações são tomadas com base em se uma pausa é detectada ou não. Adicionalmente, as melhorias podem ter um efeito na atualização 704 da estimativa de ruído de fundo, que pode, por exemplo, ser atualizada quando uma pausa for detectada com base nos novos recursos, que não teriam sido detectados antes de introduzir a solução aqui descrita. Na implementação exemplificante aqui descrita, os novos recursos aqui introduzidos são calculados como segue, iniciando com non_staB, que é determinado usando as energias de sub-banda do quadro atual enr[i], que correspondem a Ecb(i) exposto e, na figura 6, e as atuais estimativas de ruído de fundo bckr[i], que correspondem a Ncb(i) exposto e na figura 6. A primeira parte da primeira seção de código a seguir é relacionada a um procedimento inicial especial para os primeiros 150 quadros de um sinal de áudio, antes de uma apropriada estimativa de plano de fundo ter sido derivada. /* calcular recurso não estacionária em relação ao plano de fundo (recurso de proximidade espectral non_staB */ if (ini_frame < 150) { /* Durante início, não incluir atualizações */ if ( i >= 2 && i <= 16 ) { non_staB += (float)fabs(log(enr[i] + 1.0f) - log(E_MIN + 1.0f)); } } else { /* Depois do início, comparar com estimativa de plano de fundo */ if ( i >= 2 && i <= 16 ) { non_staB += (float)fabs(log(enr[i] + 1.0f) - log(bckr[i] + 1.0f)); } } if (non_staB >= 128) { non_staB = 32767.0/256.0f; }

[0093] As seções de código a seguir mostram como os novos recursos para as energias residuais de previsão linear, isto é, aquelas para o ganho de previsão linear, são calculados. Aqui, as energias residuais são nomeadas epsP[m] (conforme E(m) usado previamente). /* * * Eficiência de previsão linear 0 até 2 ordem *(ganho de previsão linear indo do modelo de 0-ésima até 2a ordem do filtro de previsão linear) * */ epsP_0_2 = max(0 , min(8, epsP [0]/epsP[2])); epsP_0_2_lp = 0.15f * epsP_0_2 + (1.0f-0.15f) * st- >epsP_0_2_lp; epsP_0_2_ad = (float) fabs(epsP_0_2 - epsP_0_2_lp ); if (epsP_0_2_ad < epsP_0_2_ad_lp) { epsP_0_2_ad_lp = 0.1f * epsP_0_2_ad + (1.0f - 0.1f) * epsP_0_2_ad_lp; } else { epsP_0_2_ad_lp = 0.2f * epsP_0_2_ad + (1.0f - 0.2f) * epsP_0_2_ad_lp; } epsP_0_2_ad_lp_max = max(epsP_0_2_ad,st- >epsP_0_2_ad_lp); /* * * Eficiência de previsão linear 2a até 16a ordem *(ganho de previsão linear indo do modelo de 2a até 16a ordem do filtro de previsão linear) * */ epsP_2_16 = max(0 , min(8, epsP[2]/epsP[16])); if (epsP_2_16 > epsP_2_16_lp) { epsP_2_16_lp = 0.2f * epsP_2_16 + (1.0f-0.2f) * epsP_2_16_lp; } else { epsP_2_16_lp = 0.03f * epsP_2_16 + (1.0f-0.03f) * epsP_2_16_lp; } epsP_2_16_lp2 = 0.02f * epsP_2_16 + (1.0f-0.02f) * epsP_2_16_lp2; epsP_2_16_dlp = epsP_2_16_lp-epsP_2_16_lp2; if (epsP_2_16_dlp < epsP_2_16_dlp_lp2 ) { epsP_2_16_dlp_lp2 = 0.02f * epsP_2_16_dlp + (1.0f-0.02f) * epsP_2_16_dlp_lp2; } else { epsP_2_16_dlp_lp2 = 0.05f * epsP_2_16_dlp + (1.0f-0.05f) * epsP_2_16_dlp_lp2; } epsP_2_16_dlp_max = max(epsP_2_16_dlp,epsP_2_16_dlp_lp2);

[0094] O código a seguir ilustra a criação de métricas, limites e sinalizações combinados usados para a real decisão de atualização, isto é, a determinação de se atualizam as estimativas de ruído de fundo ou não. Pelo menos alguns dos parâmetros relacionados a ganhos de previsão linear e/ou proximidade espectral são indicados no texto em negrito. comb_ahc_epsP = max(max(act_pred,lt_haco_ev),epsP_2_16_dlp); comb_hcm_epsP = max(max(lt_haco_ev,epsP_2_16_dlp_max),epsP_0_2_ad_lp_max); haco_ev_max = max(st_harm_cor_cnt==0,>lt_haco_ev); Etot_l_lp_thr = st->Etot_l_lp + (1.5f + 1.5f * (Etot_lp<50.0f))*Etot_v_h2; enr_bgd = Etot < Etot_l_lp_thr; cns_bgd = (epsP_0_2 > 7.95f) && (non_sta< 1e3f); lp_bgd = epsP_2_16_dlp_max < 0.10f; ns_mask = non_sta < 1e5f; lt_haco_mask = lt_haco_ev < 0.5f; bg_haco_mask = haco_ev_max < 0.4f; SD_1 = ( (epsP_0_2_ad > 0.5f) && (epsP_0_2 > 7.95f) ); bg_bgd3 = enr_bgd || ( ( cns_bgd || lp_bgd ) && ns_mask && lt_haco_mask && SD_1==0 ); PD_1 = (epsP_2_16_dlp_max < 0.10f ) ; PD_2 = (epsP_0_2_ad_lp_max < 0.10f ) ; PD_3 = (comb_ahc_epsP < 0.85f ); PD_4 = comb_ahc_epsP < 0.15f; PD_5 = comb_hcm_epsP < 0.30f; BG_1 = ( (SD_1==0) || (Etot < Etot_l_lp_thr) ) && bg_haco_mask && (act_pred < 0.85f) && (Etot_lp < 50.0f); PAU = (aEn==0) || ( (Etot < 55.0f) && (SD_1==0) && ( ( PD_3 && (PD_1 || PD_2 ) ) || ( PD_4 || PD_5 ) ) ); NEW_POS_BG = (PAU | BG_1) & bg_bgd3; /* detector de silêncio original funciona na maior parte dos casos */ aE_bgd = aEn == 0; /* Quando a dinâmica de sinal for alta e a energia for próxima da estimativa de fundo */ sd1_bgd = (st->sign_dyn_lp > 15) && (Etot - st->Etot_l_lp ) < 2*st->Etot_v_h2 && st->harm_cor_cnt > 20; /* condições de início caindo constantemente act_pred e/ou lt_haco_ev */ tn_ini = ini_frame < 150 && harm_cor_cnt > 5 && ( (st->act_pred < 0.59f && st->lt_haco_ev <0.23f ) || st->act_pred < 0.38f || st->lt_haco_ev < 0.15f || non_staB < 50.0f || aE_bgd ); /* Energia próxima da estimativa de plano de fundo serve como uma máscara para outros detectores de plano de fundo*/ bg_bgd2 = Etot < Etot_l_lp_thr || tn_ini ;

[0095] Como é importante não fazer uma atualização das estimativas de ruído de fundo quando um quadro ou segmento atual compreender conteúdo ativo, diversas condições são avaliadas a fim de decidir se uma atualização deve ser feita. A principal etapa de decisão na lógica de atualização de ruído é se uma atualização deve ser feita ou não, e isto é formado pela avaliação de uma expressão lógica, que é sublinhada a seguir. O novo parâmetro NEW_POS_BG (novo em relação à solução no Anexo A e WO2011/049514) é um detector de pausa, e é obtido com base nos ganhos de previsão linear que vão do modelo de 0-ésima até 2a, e de 2a até 16a ordem de um filtro de previsão linear, e tn_ini é obtido com base em recursos relacionadas a proximidade espectral. Aqui, segue uma lógica de decisão que usa os novos recursos, de acordo com a modalidade exemplificante. updt_step=0.0f; if (( bg_bgd2 && ( aE_bgd || sd1_bgd || lt_tn_track >0.90f || NEW_POS_BG ) ) || tn_ini ) { if( ( ( act_pred < 0.85f ) && aE_bgd && ( lt_Ellp_dist < 10 || sd1_bgd ) && lt_tn_dist<40 && ( ( Etot - totalNoise ) < 10.0f ) ) || ( st->first_noise_updt == 0 && st->harm_cor_cnt > 80 && aE_bgd && st->lt_aEn_zero > 0.5f ) || ( tn_ini && ( aE_bgd || non_staB < 10.0 || st- >harm_cor_cnt > 80 ) ) ) { updt_step=1.0f; st->first_noise_updt = 1; for( i=0; i< NB_BANDS; i++ ) { st->bckr[i] = tmpN[i]; } } else if ( ( ( st->act_pred < 0.80f ) && ( aE_bgd || PAU ) && st->lt_haco_ev < 0.10f ) || ( ( st->act_pred < 0.70f ) && ( aE_bgd || non_staB < 17.0f ) && PAU && st->lt_haco_ev < 0.15f ) || ( st->harm_cor_cnt > 80 && st->totalNoise > 5.0f && Etot < max(1.0f,Etot_l_lp + 1.5f* st->Etot_v_h2) ) || ( st->harm_cor_cnt > 50 && st->first_noise_updt > 30 && aE_bgd && st->lt_aEn_zero>0.5f ) || tn_ini ) { updt_step=0.1f; if ( !aE_bgd && st->harm_cor_cnt < 50 && ( st->act_pred > 0.6f || ( !tn_ini && Etot_l_lp - st->totalNoise < 10.0f && non_staB > 8.0f ) ) ) { updt_step=0.01f; } if (updt_step > 0.0f ) { st->first_noise_updt = 1; for( i=0; i< NB_BANDS; i++ ) { st->bckr[i] = st->bckr[i] + updt_step * (tmpN[i]-st- >bckr[i]); } } } else if (aE_bgd || st->harm_cor_cnt > 100 ) { ( st->first_noise_updt) += 1; } } else { /* Quando em música, abaixar bckr para cair adicionalmente */ if ( st->low_tn_track_cnt > 300 && st->lt_haco_ev >0.9f && st->totalNoise > 0.0f) { updt_step=-0.02f; for( i=0; i< NB_BANDS; i++ ) { if (st->bckr[i] > 2*E_MIN) { st->bckr[i] = 0.98f*st->bckr[i]; } } } } st->lt_aEn_zero = 0.2f * (st->aEn==0) + (1-0.2f)*st- >lt_aEn_zero;

[0096] Da forma previamente indicada, os recursos da previsão linear proveem análise independente de nível do sinal de entrada que melhora a decisão para atualização de ruído de fundo que é particularmente usada na faixa SNR 10 até 20 dB, em que SADs com base em energia têm desempenho limitado devido à faixa dinâmica normal dos sinais de fala.

[0097] Os recursos de proximidade do plano de fundo também melhoram a estimativa de ruído de fundo, já que eles podem ser usados tanto para inicialização quanto para operação normal. Durante a inicialização, pode-se permitir rápida inicialização para (nível inferior) ruído de fundo com, principalmente, conteúdo de baixa frequência, comum para ruído de carro. Também, os recursos podem ser usados para impedir atualizações de ruído de usar quadros de baixa energia com uma grande diferença nas características de frequência, comparadas com as atuais estimativas de plano de fundo, sugerindo que o quadro atual pode ser conteúdo ativo de baixo nível e uma atualização pode impedir a detecção de quadros futuros com conteúdo similar.

[0098] As figuras 8 a 10 mostram como os respectivos parâmetros ou métricas se comportam para fala em plano de fundo em ruído de carro com SNR de 10 dB. Nas figuras 8 a 10, cada um dos pontos, “•”, representa a energia de quadro. Para as figuras 8 e 9a-c, a energia foi dividida por 10 para ser mais comparável para os recursos com base em G_0_2 e G_2_16. Os diagramas correspondem a um sinal de áudio que compreende duas declarações, em que a posição aproximada para a primeira declaração é nos quadros 1310 a 1420 e, para a segunda declaração, nos quadros 1500 - 1610.

[0099] A figura 8 mostra a energia de quadro (/10) (ponto, “•”) e os recursos G_0_2 (círculo, “o”) e Gmax_0_2 (mais, “+”), para fala com SNR de 10 dB com ruído de carro. Note que o G_0_2 é 8 durante o ruído de carro, já que há alguma correlação no sinal que pode ser modelada usando previsão linear com ordem de modelo 2. Durante declarações, o recurso Gmax_0_2 fica acima de 1,5 (neste caso) e depois do surto de fala ele cai para 0. Em uma implementação específica de uma lógica de decisão, o Gmax_0_2 precisa ficar abaixo de 0,1 para permitir atualizações de ruído usando este recurso.

[00100] A figura 9a mostra a energia de quadro (/10) (ponto, “•”) e os recursos G_2_16 (círculo, “o”), G1_2_16 (cruz, “x”), G2_2_16 (mais, “+”). A figura 9b mostra a energia de quadro (/10) (ponto, “•”), e os recursos G_2_16 (círculo, “o”) Gd_2_16 (cruz, “x”), e Gad_2_16 (mais, “+”). A figura 9c mostra a energia de quadro (/10) (ponto, “•”) e os recursos G_2_16 (círculo, “o”) e Gmax_2_16 (mais, “+”). Os diagramas mostrados nas figuras 9a-c também se referem à fala com SNR de 10 dB com ruído de carro. Os recursos são mostrados em três diagramas a fim de tornar mais fácil ver cada parâmetro. Note que o G_2_16 (círculo, “o”) está justamente acima de 1 durante o ruído de carro (isto é, fora das declarações) indicando que o ganho da ordem de modelo superior é baixo para este tipo de ruído. Durante as declarações, o recurso Gmax_2_16 (mais, “+” na figura 9c) aumenta, e, então, recomeça a cair para 0. Em uma implementação específica de uma lógica de decisão, o recurso Gmax_2_16 também precisa se tornar inferior a 0,1 para permitir atualizações de ruído. Nesta amostra de sinal de áudio em particular, isto não ocorre.

[00101] A figura 10 mostra a energia de quadro (ponto, “•”) (não dividida por 10 desta vez) e o recurso nonstaB (mais, “+”) para fala com SNR de 10 dB com ruído de carro. O recurso nonstaB está na faixa de 0-10 durante segmentos apenas de ruído e, para declarações, ele fica muito maior (já que as características de frequência são diferentes para fala). Deve ser notado, entretanto, que mesmo durante as declarações, há quadros em que o recurso nonstaB cai na faixa 0 - 10. Para estes quadros, pode haver uma possibilidade de fazer atualizações de ruído de fundo e, desse modo, rastrear melhor o ruído de fundo.

[00102] A solução aqui descrita também se refere a um estimador de ruído de fundo implementado em hardware e/ou software. Estimador de ruído de fundo, figuras 11a-11c

[00103] Uma modalidade exemplificante de um estimador de ruído de fundo é ilustrada de uma maneira geral na figura 11a. Por estimador de ruído de fundo, é referido um módulo ou entidade configurados para estimar ruído de fundo em sinais de áudio que compreendem, por exemplo, fala e/ou música. O codificador 1100 é configurado para realizar pelo menos um método correspondente aos métodos supradescritos com referência, por exemplo, às figuras 2 e 7. O codificador 1100 é associado aos mesmos recursos técnicos, objetivos e vantagens das modalidades do método previamente descritas. O estimador de ruído de fundo será descrito em resumo a fim de evitar repetição desnecessária.

[00104] O estimador de ruído de fundo pode ser implementado e/ou descrito como segue:

[00105] O estimador de ruído de fundo 1100 é configurado para estimar um ruído de fundo de um sinal de áudio. O estimador de ruído de fundo 1100 compreende conjunto de circuitos de processamento, ou meio de processamento 1101 e uma interface de comunicação 1102. O conjunto de circuitos de processamento 1101 é configurado para fazer com que o codificador 1100 obtenha, por exemplo, determine ou calcule, pelo menos um parâmetro, por exemplo, NEW_POS_BG, com base em um primeiro ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 0-ésima ordem e um sinal residual proveniente de uma previsão linear de 2a ordem para o segmento de sinal de áudio; e um segundo ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 2a ordem e um sinal residual proveniente de uma previsão linear de 16a ordem para o segmento de sinal de áudio.

[00106] O conjunto de circuitos de processamento 1101 é adicionalmente configurado para fazer com que o estimador de ruído de fundo determine se o segmento de sinal de áudio compreende uma pausa, isto é, está livre de conteúdo ativo, tais como fala e música, com base no pelo menos um parâmetro. O conjunto de circuitos de processamento 1101 é adicionalmente configurado para fazer com que o estimador de ruído de fundo atualize uma estimativa de ruído de fundo com base no segmento de sinal de áudio quando o segmento de sinal de áudio compreender uma pausa.

[00107] A interface de comunicação 1102, que também pode ser denotada, por exemplo, interface de Entrada/Saída (I/O), inclui uma interface para enviar dados para e receber dados a partir de outras entidades ou módulos. Por exemplo, os sinais residuais relacionados às ordens de modelo de previsão linear 0, 2 e 16 podem ser obtidos, por exemplo, recebidos, por meio da interface I/O a partir de um codificador de sinal de áudio que realiza codificação preditiva linear.

[00108] O conjunto de circuitos de processamento 1101 pode, da forma ilustrada na figura 11b, compreender meio de processamento, tais como um processador 1103, por exemplo uma CPU, e uma memória 1104 para armazenar ou conter instruções. A memória, então, compreende instruções, por exemplo, na forma de um programa de computador 1105 que, quando executado pelo meio de processamento 1103 faz com que o codificador 1100 realize as ações supradescritas.

[00109] Uma implementação alternativa do conjunto de circuitos de processamento 1101 é mostrada na figura 11c. O conjunto de circuitos de processamento aqui exposto compreende uma unidade ou módulo de obtenção ou determinação 1106, configurada para fazer com que o estimador de ruído de fundo 1100 obtenha, por exemplo, determine ou calcule, pelo menos um parâmetro, por exemplo, NEW_POS_BG, com base em um primeiro ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 0-ésima ordem e um sinal residual proveniente de uma previsão linear de 2a ordem para o segmento de sinal de áudio; e um segundo ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 2a ordem e um sinal residual proveniente de uma previsão linear de 16a ordem para o segmento de sinal de áudio. O conjunto de circuitos de processamento compreende adicionalmente uma unidade ou módulo de determinação 1107, configurados para fazer com que o estimador de ruído de fundo 1100 determine se o segmento de sinal de áudio compreende uma pausa, isto é, está livre de conteúdo ativo, tais como fala e música, com base pelo menos no pelo menos um parâmetro. O conjunto de circuitos de processamento 1101 compreende adicionalmente uma unidade ou módulo de atualização ou de estimação 1110, configurados para fazer com que o estimador de ruído de fundo atualize uma estimativa de ruído de fundo com base no segmento de sinal de áudio quando o segmento de sinal de áudio compreender uma pausa.

[00110] O conjunto de circuitos de processamento 1101 pode compreender mais unidades, tais como uma unidade ou módulo de filtro configurados para fazer com que o estimador de ruído de fundo realize filtragem passa-baixa dos ganhos de previsão linear, assim, criando uma ou mais estimativas de longo prazo dos ganhos de previsão linear. Ações, tal como filtragem passa-baixa, podem ser de outra forma realizadas, por exemplo, pela unidade ou módulo de determinação 1107.

[00111] As modalidades de um estimador de ruído de fundo supradescrito podem ser configuradas para as diferentes modalidades do método aqui descritas, tais como limitação e filtragem passa-baixa dos ganhos de previsão linear; determinação de uma diferença entre ganhos de previsão linear e estimativa de longo prazo e entre estimativa de longo prazo; e/ou obtenção e uso de uma medida de proximidade espectral, etc.

[00112] O estimador de ruído de fundo 1100 pode ser considerado por compreender funcionalidade adicional, para realizar estimativa de ruído de fundo, tal como, por exemplo, funcionalidade exemplificada no Apêndice A.

[00113] A figura 12 ilustra um estimador de plano de fundo 1200 de acordo com uma modalidade exemplificante. O estimador de plano de fundo 1200 compreende uma unidade de entrada, por exemplo, para receber energias residuais para ordens de modelo 0, 2 e 16. O estimador de plano de fundo compreende adicionalmente um processador e uma memória, a dita memória contendo instruções executáveis pelo dito processador, de acordo com o que, o dito estimador de plano de fundo é operativo para: realizar um método de acordo com uma modalidade aqui descrita.

[00114] Desta maneira, o estimador de plano de fundo pode compreender, da forma ilustrada na figura 13, uma unidade de entrada/saída 1301, um calculador 1302 para calcular os primeiros dois conjuntos de recursos das energias residuais para ordens de modelo 0, 2 e 16 e um analisador de frequência 1303 para calcular o recurso de proximidade espectral.

[00115] Um estimador de ruído de fundo como aqueles supradescritos pode ser composto, por exemplo, em um VAD ou SAD, um codificador e/ou um decodificador, isto é, um codec, e/ou em um dispositivo, tal como um dispositivo de comunicação. O dispositivo de comunicação pode ser um equipamento de usuário (UE) na forma de um telefone celular, câmera de vídeo, gravador de som, tablet, desktop, laptop, receptores/decodificadores integrados de televisão ou servidor doméstico/porta de comunicação doméstica/ponto de acesso doméstico/roteador doméstico. O dispositivo de comunicação pode, em algumas modalidades, ser um dispositivo em rede de comunicações adaptado para codificação e/ou transcodificação dos sinais de áudio. Exemplos de tais dispositivos em rede de comunicações são servidores, tais como servidores de mídia, servidores de aplicação, roteadores, portas de comunicação e estações bases de rádio. O dispositivo de comunicação também pode ser adaptado para ficar posicionado, isto é, ser embutido, em uma embarcação, tais como um navio, drone voador, aeronave e um veículo de estrada, tais como um carro, ônibus ou caminhão. Um dispositivo embutido como este, tipicamente, irá pertencer a uma unidade de telemática de veículo ou sistema de informação e entretenimento do veículo.

[00116] As etapas, funções, procedimentos, módulos, unidades e/ou blocos aqui descritos podem ser implementados em hardware usando qualquer tecnologia convencional, tais como tecnologia de circuito discreto ou de circuito integrado, incluindo tanto conjunto de circuitos eletrônico de uso geral quanto conjunto de circuitos específico de aplicação.

[00117] Exemplos em particular incluem um ou mais processadores de sinal digital adequadamente configurados e outros circuitos eletrônicos conhecidos, por exemplo, portas lógicas discretas interconectadas para realizar uma função especializada, ou circuitos integrados específicos de aplicação (ASICs).

[00118] Alternativamente, pelo menos algumas das etapas, funções, procedimentos, módulos, unidades e/ou blocos supradescritos podem ser implementados em software, tal como um programa de computador para execução por conjunto de circuitos de processamento adequado que inclui uma ou mais unidades de processamento. O software pode ser portado por uma portadora, tais como um sinal eletrônico, um sinal ótico, um sinal de rádio ou uma mídia de armazenamento legível por computador antes e/ou durante o uso do programa de computador nos nós de rede.

[00119] O fluxograma ou os diagramas aqui apresentados podem ser considerados como um fluxograma ou diagramas de computador, quando realizado por um ou mais processadores. Um correspondente aparelho pode ser definido como um grupo de módulos de função, em que cada etapa realizada pelo processador corresponde a um módulo de função. Neste caso, os módulos de função são implementados como um programa de computador em execução no processador.

[00120] Exemplos do conjunto de circuitos de processamento incluem, mas sem limitações, um ou mais microprocessadores, um ou mais Processadores de Sinal Digital, DSPs, uma ou mais Unidades de Processamento Centrais, CPUs, e/ou qualquer conjunto de circuitos lógico programável adequado, tais como um ou mais arranjos de porta programáveis no campo, FPGAs, ou um ou mais Controladores Lógicos Programáveis, PLCs. Isto é, as unidades ou módulos nos arranjos nos diferentes nós supradescritos podem ser implementados por uma combinação de circuitos analógicos e digitais, e/ou um ou mais processadores configurados com software e/ou software embarcado, por exemplo, armazenado em uma memória. Um ou mais destes processadores, bem como o outro hardware digital, pode ser incluído em um único circuito integrado específico de aplicação, ASIC, ou diversos processadores e vários hardwares digitais podem ser distribuídos entre diversos componentes separados, sejam individualmente embalados ou montados em um sistema em um chip, SoC.

[00121] Também deve ser entendido que pode ser possível reusar as capacidades de processamento gerais de qualquer dispositivo ou unidade convencionais nos quais a tecnologia proposta é implementada. Também pode ser possível reusar software existente, por exemplo, pela reprogramação do software existente ou pela adição de novos componentes de software.

[00122] As modalidades supradescritas são dadas meramente como exemplos, e entende-se que a tecnologia proposta não é limitada à mesma. Será entendido por versados na técnica que várias modificações, combinações e mudanças podem ser feitas nas modalidades sem fugir do presente escopo. Em particular, diferentes soluções parciais nas diferentes modalidades podem ser combinadas em outras configurações, quando tecnicamente possível.

[00123] Durante o uso da palavra "compreende" ou “compreendendo”, ela deve ser interpretada como não limitante, isto é, significando "consiste pelo menos em".

[00124] Também deve ser notado que, em algumas implementações alternativas, as funções/atos notados nos blocos podem ocorrer fora da ordem notada nos fluxogramas. Por exemplo, dois blocos mostrados em sucessão podem, de fato, ser executados de forma substancialmente concorrente ou os blocos podem, algumas vezes, ser executados na ordem reversa, dependendo da funcionalidade/atos envolvidos. Além do mais, a funcionalidade de um dado bloco dos fluxogramas e/ou diagramas de blocos pode ser separada em múltiplos blocos e/ou a funcionalidade de dois ou mais blocos dos fluxogramas e/ou diagramas de blocos pode ser pelo menos parcialmente integrada. Finalmente, outros blocos podem ser adicionados/inseridos entre os blocos que são ilustrados, e/ou blocos/operações podem ser omitidos sem fugir do escopo dos conceitos inventivos.

[00125] Deve-se entender que a escolha de unidades de interação, bem como a nomeação das unidades nesta descrição são apenas com propósito de exemplificação, e nós adequados para executar qualquer um dos métodos supradescritos podem ser configurados em uma pluralidade de maneiras alternativas a fim de poder executar as ações de procedimento sugeridas.

[00126] Também deve ser notado que as unidades descritas nesta descrição devem ser consideradas como entidades lógicas e, não necessariamente, como entidades físicas separadas.

[00127] Não pretende-se que a referência a um elemento no singular signifique "um e apenas um", a menos que explicitamente assim declarado, mas, em vez disto, "um ou mais." Todos os equivalentes estruturais e funcionais aos elementos das supradescritas modalidades que são conhecidos pelos versados na técnica são aqui expressamente incorporados pela referência e pretende-se que sejam abrangidos pela presente descrição. Além do mais, não é necessário que um dispositivo ou método aborde todo e qualquer problema que se procura resolver pela tecnologia aqui descrita, para que ele seja abrangido pela presente descrição.

[00128] Em algumas instâncias aqui expostas, descrições detalhadas de dispositivos, circuitos e métodos bem conhecidos são omitidas para não obscurecer a descrição da tecnologia descrita com detalhes desnecessários. Pretende-se que todas as declarações aqui expostas que citam princípios, aspectos e modalidades da tecnologia descrita, bem como exemplos específicos das mesmas, abranjam equivalentes tanto estruturais quanto funcionais das mesmas. Adicionalmente, pretende-se que tais equivalentes incluam tanto equivalentes atualmente conhecidos, bem como equivalentes desenvolvidos no futuro, por exemplo, todos os elementos desenvolvidos que realizam a mesma função, independente da estrutura. Anexo A

[00129] As referências às figuras no texto a seguir são referências às figuras A2-A9, de maneira tal que “figura 2” a seguir corresponda à figura A2 nos desenhos.

[00130] A figura 2 é um fluxograma que ilustra uma modalidade exemplificante de um método para estimativa de ruído de fundo de acordo com a tecnologia aqui proposta. Pretende-se que o método seja realizado por um estimador de ruído de fundo, que pode ser parte de um SAD. O estimador de ruído de fundo, e o SAD, podem ser adicionalmente compreendidos em um codificador de áudio, que pode, por sua vez, ser compreendido em um dispositivo sem fio ou um nó de rede. Para o estimador de ruído de fundo descrito, que ajusta a estimativa de ruído para baixo, isto não é restrito. Para cada quadro, uma possível nova estimativa de ruído de sub-banda é calculada, independente se o quadro é plano de fundo ou conteúdo ativo, se o novo valor é inferior ao atual que foi usado diretamente, já que é mais provável que seja proveniente de um quadro de plano de fundo. A seguinte lógica de estimativa de ruído é uma segunda etapa em que é decidido se a estimativa de ruído de sub-banda pode aumentar e, se for o caso, quanto, o aumenta sendo com base na possível nova estimativa de ruído de sub-banda previamente calculada. Basicamente, esta lógica forma a decisão do quadro atual que é um quadro de plano de fundo e, se não houver certeza, ela pode permitir um menor aumento, comparado com o que foi originalmente estimado.

[00131] O método ilustrado na figura 2 compreende: quando um nível de energia de um segmento de sinal de áudio for maior do que um limite mais alto 202:1 do que um mínimo nível de energia de longo prazo, lt_min, ou, quando o nível de energia do segmento de sinal de áudio for menor do que um limite mais alto 202:2 do que lt_min, mas nenhuma pausa for detectada 204:1 no segmento de sinal de áudio:

[00132] - reduzir 206 uma atual estimativa de ruído de fundo quando o segmento de sinal de áudio for determinado 203:2 por compreender música e as atuais estimativas de ruído de fundo exceder um valor mínimo 205:1, denotado “T” na figura 2, e adicionalmente exemplificado, por exemplo, como 2*E_MIN no código a seguir.

[00133] Pela realização do exposto, e provisão das estimativas de ruído de fundo em relação a um SAD, o SAD é habilitado a realizar mais adequada detecção de atividade de som. Adicionalmente, a recuperação de atualizações de estimativa de ruído de fundo errôneas é habilitada.

[00134] O nível de energia do segmento de sinal de áudio usado no método supradescrito pode ser alternativamente referido, por exemplo, como a energia do quadro atual, Etot, ou como a energia do segmento de sinal, ou quadro, que pode ser calculada pela soma das energias de sub-banda para o atual segmento de sinal.

[00135] O outro recurso de energia usado no método exposto, isto é, o mínimo nível de energia de longo prazo, lt_min, é uma estimativa, que é determinada sobre uma pluralidade de segmentos ou quadros de sinal de áudio precedentes. lt_min pode ser alternativamente denotado, por exemplo, Etot_l_lp. Uma maneira básica de derivar lt_min seria usar o valor mínimo do histórico da energia do quadro atual sobre alguns números de quadros passados. Se o valor calculado como: "energia de quadro atual - estimativa mínima de longo prazo" estiver abaixo de um valor limite, denotado, por exemplo, como THR1, diz-se que a energia do quadro atual está próxima da mínima energia de longo prazo, ou próxima da mínima energia de longo prazo. Isto é, quando (Etot - lt_min) < THR1, a energia do quadro atual, Etot, pode ser determinada 202 como próxima da mínima energia de longo prazo lt_min. O caso em que (Etot - lt_min) = THR1 pode ser referido a cada uma das decisões, 202:1 ou 202:2, dependendo da implementação. A numeração 202:1 na figura 2 indica a decisão de que a energia do quadro atual não está próxima de lt_min, ao mesmo tempo em que 202:2 indica a decisão de que a energia do quadro atual está próxima de lt_min. Outra numeração na figura 2 na forma de XXX:Y indica decisões correspondentes. O recurso lt_min será adicionalmente descrito a seguir.

[00136] O valor mínimo, que as atuais estimativas de ruído de fundo devem exceder, a fim de ser reduzido, pode ser considerado como zero ou um pequeno valor positivo. Por exemplo, como será exemplificado no código a seguir, pode ser exigido que uma atual energia total da estimativa de plano de fundo, que pode ser denotada como “totalNoise” e ser determinada, por exemplo, como 10*log10∑backr[i], exceda um valor mínimo de zero a fim de que a redução entre em questão. Alternativamente, ou além do mais, cada entrada em um vetor backr[i] que compreende as estimativas de plano de fundo de sub-banda pode ser comparada com um valor mínimo, E_MIN, a fim de que a redução seja realizada. No exemplo de código a seguir, E_MIN é um pequeno valor positivo.

[00137] Deve-se notar que, de acordo com uma modalidade preferida da solução aqui sugerida, a decisão se o nível de energia do segmento de sinal de áudio é maior do que um limite mais alto do que lt_min é com base apenas na informação derivada do sinal de entrada de áudio, isto é, não é com base na realimentação proveniente de uma decisão do detector de atividade de som.

[00138] A determinação 204 se um quadro atual compreende uma pausa ou não pode ser realizada de diferentes maneiras, com base em um ou mais critérios. Um critério de pausa também pode ser referido como um detector de pausa. Um único detector de pausa pode ser aplicado, ou uma combinação de diferentes detectores de pausa. Com uma combinação de detectores de pausa, cada qual pode ser usado para detectar pausas em diferentes condições. Um indicador de que um quadro atual pode compreender uma pausa, ou inatividade, é que um recurso de correlação para o quadro é baixo, e que um número de quadros precedentes também teve baixos recursos de correlação. Se a energia atual estiver próxima da mínima energia de longo prazo e uma pausa for detectada, o ruído de fundo pode ser atualizado de acordo com a entrada atual, da forma ilustrada na figura 2. Uma pausa pode ser considerada como detectada quando, além disto, o nível de energia do segmento de sinal de áudio for menor do que um limite mais alto do que lt_min: um número predefinido de segmentos de sinal de áudio precedentes consecutivos foi determinado por não compreender um sinal ativo e/ou uma dinâmica do sinal de áudio excede um limite. Isto também é ilustrado no exemplo de código adicional a seguir.

[00139] A redução 206 das estimativas de ruído de fundo habilita o tratamento de situações em que as estimativas de ruído de fundo se tornaram “muito altas”, isto é, em relação a um verdadeiro ruído de fundo. Isto também pode ser expressado, por exemplo, como que as estimativas de ruído de fundo desviam do real ruído de fundo. Uma estimativa de ruído de fundo muito alta pode levar a decisões inadequadas pelo SAD, em que o atual segmento de sinal é determinado como inativo, mesmo embora ele compreenda fala ativa ou música. Um motivo para as estimativas de ruído de fundo se tornarem muito altas são, por exemplo, errôneas ou indesejadas atualizações de ruído de fundo em música, em que a estimativa de ruído errou música para plano de fundo e permitiu que a estimativa de ruído aumentasse. O método descrito permite que estimativas de ruído de fundo erroneamente atualizadas como estas sejam ajustadas, por exemplo, quando um quadro seguinte do sinal de entrada for determinado por compreender música. Este ajuste é feito por uma redução forçada da estimativa de ruído de fundo, em que a estimativa de ruído é descendentemente escalonada, mesmo se a atual energia do segmento do sinal de entrada for mais alta do que a atual estimativa de ruído de fundo, por exemplo, em uma sub-banda. Deve-se notar que a lógica supradescrita para estimativa de ruído de fundo é usada para controlar o aumento da energia de sub-banda de plano de fundo. É sempre permitido abaixar a energia de subbanda quando a energia de sub-banda do quadro atual for mais baixa do que a estimativa de ruído de fundo. Esta função não é explicitamente mostrada na figura 2. Uma diminuição como esta, usualmente, tem uma definição fixa para o tamanho da etapa. Entretanto, deve-se permitir apenas que as estimativas de ruído de fundo sejam aumentadas em associação com a lógica de decisão de acordo com o método supradescrito. Quando uma pausa for detectada, a energia e os recursos de correlação também podem ser usados para decidir 207 quão grande o tamanho da etapa de ajuste para o aumento da estimativa de plano de fundo deve ser antes que a real atualização de ruído de fundo seja feita.

[00140] Da forma previamente mencionada, alguns segmentos de música podem ser difíceis de separar do ruído de fundo, devido a que eles são muito parecidos com ruído. Assim, a lógica de atualização de ruído pode permitir acidentalmente a melhor estimativa de energia de sub-banda, mesmo embora o sinal de entrada fosse um sinal ativo. Isto pode causar problemas, já que as estimativas de ruído podem se tornar mais altas do que elas deveriam ser.

[00141] Em estimadores de ruído de fundo da tecnologia anterior, as estimativas de energia de sub-banda podem ser reduzidas apenas quando uma energia de sub-banda de entrada tiver ido abaixo de uma atual estimativa de ruído. Entretanto, já que alguns segmentos de música podem ser difíceis de separar de ruído de fundo, devido a que eles são muito parecidos com ruído, os inventores conceberam que uma estratégia de recuperação para música é necessária. Nas modalidades aqui descritas, uma recuperação como esta pode ser feita pela redução de estimativa de ruído forçada quando o sinal de entrada retornar para características tipo música. Isto é, quando a lógica de energia e pausa supradescrita impedir, 202:1, 204:1, que a estimativa de ruído seja aumentada, é testado 203 se a entrada é suspeita de ser música e, se for o caso, 203:2, as energias de sub-banda são reduzidas 206 em uma pequena quantidade em cada quadro, até que a estimativa de ruído alcance um nível mais baixo 205:2.

[00142] Um estimador de plano de fundo como aqueles supradescritos pode ser composto ou implementado em um VAD ou SAD e/ou em um codificador e/ou um decodificador, em que o codificador e/ou decodificador podem ser implementados em um dispositivo de usuário, tais como um telefone celular, um laptop, um tablet, etc. O estimador de plano de fundo pode ser adicionalmente compreendido em um nó de rede, tal como uma Porta de Comunicação de Mídia, por exemplo, como parte de um codec.

[00143] A figura 5 é um diagrama de blocos que ilustra esquematicamente uma implementação de um estimador de plano de fundo de acordo com uma modalidade exemplificante. Um bloco de enquadramento de entrada 51, primeiro, divide o sinal de entrada em quadros de comprimento adequado, por exemplo, 5 - 30 ms. Para cada quadro, um extrator de recurso 52 calcula pelo menos os seguintes recursos a partir da entrada: 1) O extrator de recurso analisa o quadro no domínio da frequência e a energia para um conjunto de sub-bandas é calculada. As sub-bandas são as mesmas subbandas que devem ser usadas para a estimativa de plano de fundo. 2) O extrator de recurso analisa adicionalmente o quadro no domínio de tempo e calcula uma correlação denotada, por exemplo, cor_est e/ou lt_cor_est, que é usada na determinação se o quadro compreende conteúdo ativo ou não. 3) O extrator de recurso utiliza adicionalmente a energia total do quadro atual, por exemplo, denotada como Etot, para atualizar recursos para histórico de energia de quadros de entrada atual e anterior, tal como a mínima energia de longo prazo, lt_min. A correlação e os recursos de energia são, então, alimentados no bloco de Lógica de Decisão de Atualização 53.

[00144] Aqui, uma lógica de decisão de acordo com a solução aqui descrita é implementada no bloco da Lógica de Decisão de Atualização 53, em que a correlação e os recursos de energia são usados para formar decisões sobre se a energia do quadro atual está próxima de uma mínima energia de longo prazo ou não; sobre se o quadro atual é parte de uma pausa (sinal não ativo) ou não; e se o quadro atual é parte de música ou não. A solução de acordo com as modalidades aqui descritas envolve como estes recursos e decisões são usados para atualizar a estimativa de ruído de fundo de uma maneira robusta.

[00145] A seguir, alguns detalhes de implementação de modalidades da solução aqui descrita serão descritos. Os detalhes de implementação a seguir são tomados a partir de uma modalidade em um codificador com base em G.718. Esta modalidade usa alguns dos recursos descritos em W02011/049514 e W02011/049515.

[00146] Os seguintes recursos são definidos no G.718 modificado descrito em W02011/09514

[00147] Etot; A energia total para quadro de entrada atual

[00148] Etot_l Rastreia o mínimo envelope de energia

[00149] Etot_l_lp; Uma versão uniformizada do mínimo envelope de energia Etot_l

[00150] totalNoise; A energia total atual da estimativa de plano de fundo

[00151] bckr[i]; O vetor com as estimativas de plano de fundo de sub-banda

[00152] tmpN[i]; Uma nova estimativa de plano de fundo em potencial precalculada

[00153] aEn; Um detector de plano de fundo que usa múltiplos recursos (um contador)

[00154] harm_cor_cnt Conta os quadros desde o último quadro com correlação ou evento harmônico

[00155] act_pred Uma previsão de atividade proveniente dos recursos do quadro de entrada somente

[00156] cor[i] Vetor com estimativas de correlação para, i = 0 fim do quadro atual,

[00157] i = 1 início do quadro atual, i = 2 fim do quadro prévio

[00158] Os seguintes recursos são definidos no G.718 modificado descrito em W02011/09515

[00159] Etot_h Rastreia o máximo envelope de energia

[00160] sign_dyn_lp; Uma dinâmica de sinal de entrada uniformizado

[00161] Também, o recurso Etot_v_h foi definido em W02011/049514, mas, nesta modalidade, ele foi modificado e é agora implementado como segue: Etot_v = (float) fabs(*Etot_last - Etot); if( Etot_v < 7.0f) /*note que nenhuma sinalização VAD ou similar é aqui usada */ { *Etot_v_h -= 0.01f; if (Etot_v > *Etot_v_h) { if ((*Etot_v -*Etot_v_h) > 0.2f) { *Etot_v_h = *Etot_v_h + 0.2f; } else { *Etot_v_h = Etot_v; }}}

[00162] Etot_v mede a variação de energia absoluta entre quadros, isto é, o valor absoluto da variação de energia instantânea entre quadros. No exemplo exposto, a variação de energia entre dois quadros é determinada como “baixa” quando a diferença entre a última e a atual energia de quadro for menor do que 7 unidades. Isto é utilizado como um indicador de que o quadro atual (e o quadro prévio) pode ser parte de uma pausa, isto é, compreende apenas ruído de fundo. Entretanto, tal baixa variância pode ser alternativamente encontrada, por exemplo, no meio de um surto de fala. A variável Etot_last é o nível de energia do quadro prévio.

[00163] As etapas expostas descritas em código podem ser realizadas como parte das etapas de “calcular/atualizar correlação e energia” no fluxograma na figura 2, isto é, como parte das ações 201. Na implementação de W02011/049514, uma sinalização VAD foi usada para determinar se o atual segmento de sinal de áudio compreendia ruído de fundo ou não. Os inventores perceberam que a dependência da informação de realimentação pode ser problemática. Na solução aqui descrita, a decisão de se atualizam as estimativas de ruído de fundo ou não, não depende de uma decisão de VAD (ou SAD).

[00164] Adicionalmente, na solução aqui descrita, os seguintes recursos, que não são parte da implementação W02011/049514, podem ser calculados/atualizados como parte das mesmas etapas, isto é, a correlação de cálculo/atualização e as etapas de energia ilustradas na figura 2. Estes recursos também são usados na lógica de decisão de se atualizam a estimativa de plano de fundo ou não.

[00165] A fim de alcançar uma estimativa de ruído de fundo mais adequada, inúmeros recursos são definidos a seguir. Por exemplo, os novos recursos relacionados à correlação cor_est e It_cor_est são definidos. O recurso cor_est é uma estimativa da correlação no quadro atual, e cor_est também é usado para produzir It_cor_est, que é uma estimativa de longo prazo uniformizada da correlação. cor_est = (cor [0] + cor[1] + cor[2])/3.0f ; st->lt_cor_est = 0.01f*cor_est + 0.99f * st->lt_cor_est;

[00166] Da forma definida anteriormente, cor[i] é um vetor que compreende estimativas de correlação, e cor [0] representa o final do quadro atual, cor[1] representa o início do quadro atual e cor[2] representa o final de um quadro prévio.

[00167] Adicionalmente, um novo recurso, It_tn_track, é calculado, que dá uma estimativa de longo prazo de quão frequentemente as estimativas de plano de fundo estão próximas da energia de quadro atual. Quando a energia de quadro atual estiver próxima o suficiente da estimativa de plano de fundo atual, isto é registrado por uma condição que sinaliza (1/0) se o plano de fundo está próximo ou não. Este sinal é usado para formar a medida de longo prazo It_tn_track. st->lt_tn_track = 0,03f* (Etot - st->totalNoise < 10) + 0.97f*st->lt_tn_track;

[00168] Neste exemplo, 0,03 é adicionado quando a energia de quadro atual estiver próxima da estimativa de ruído de fundo, e, caso contrário, o único termo restante é 0,97 vezes o valor prévio. Neste exemplo, “próximo” é definido como que a diferença entre a energia de quadro atual, Etot, e a estimativa de ruído de fundo, totalNoise, é menor do que 10 unidades. Outras definições de “próximo” também são possíveis.

[00169] Adicionalmente, a distância entre a atual estimativa de plano de fundo, Etot, e a energia do quadro atual, totalNoise, é usada para determinar um recurso, lt_tn_dist, que dá uma estimativa de longo prazo desta distância. Um recurso similar, lt_Ellp_dist, é criado para a distância entre a mínima energia de longo prazo Etot_l_lp e a energia do quadro atual, Etot. st->lt_tn_dist = 0.03f* (Etot - st->totalNoise) + 0.97f*st->lt_tn_dist; st->lt_Ellp_dist = 0.03f* (Etot - st->Etot_l_lp) + 0.97f*st->lt_Ellp_dist;

[00170] O recurso harm_cor_cnt, introduzido anteriormente, é usado para contar o número de quadros desde o último quadro com uma correlação ou um evento harmônico, isto é, desde um quadro que satisfaz certos critérios relacionados a atividade. Isto é, quando a condição harm_cor_cnt==0, isto implica que o quadro atual mais provável é um quadro ativo, já que ele mostra correlação ou um evento harmônico. Isto é usado para formar uma estimativa uniformizada de longo prazo, lt_haco_ev, de quão frequentemente tais eventos ocorrem. Neste caso, a atualização não é simétrica, isto é, diferentes restrições de tempo são usadas se a estimativa for aumentada ou diminuída, como pode-se ver a seguir. if (st->harm_cor_cnt == 0) /*quando provavelmente ativo */ { st->lt_haco_ev = 0,03f + 0.97f*st->lt_haco_ev; /*aumenta estimativa de longo prazo*/ } else { st->lt_haco_ev = 0.99f*st->lt_haco_ev; /*diminui estimativa de longo prazo*/ }

[00171] Um baixo valor do recurso It_tn_track, introduzido anteriormente, indica que a energia do quadro de entrada não estava próxima da energia do plano de fundo para alguns quadros. Isto é devido a que It_tn_track é diminuído para cada quadro em que a energia do quadro atual não está próxima da estimativa de energia de plano de fundo. It_tn_track é aumentado apenas quando a energia do quadro atual estiver próxima da estimativa de energia de plano de fundo, da forma mostrada anteriormente. Para receber uma melhor estimativa de quanto tempo este “não rastreamento”, isto é, a energia de quadro estando longe da estimativa de plano de fundo, durou, um contador, low_tn_track_cnt, para o número de quadros com esta ausência de rastreamento é formado como: if (st->lt_tn_track<0.05f) /*quando lt_tn_track for baixo*/ { st->low_tn_track_cnt++; /*adicionar 1 no contador */ } else { st->low_tn_track_cnt=0; /*redefinir contador*/ }

[00172] No exemplo exposto, “baixo” é definido como abaixo do valor 0,05. Isto deve ser visto como um valor exemplificante, que pode ser selecionado diferentemente.

[00173] Para a etapa "formar decisões de pausa e música" ilustrada na figura 2, as seguintes três expressões de código são usadas para formar detecção de pausa, também denotada como detecção de plano de fundo. Em outras modalidades e implementações, outros critérios também podem ser adicionados para detecção de pausa. A real decisão de música é formada no código usando recursos de correlação e energia. 1: bg_bgd = Etot < Etot_l_lp + 0.6f * st->Etot_v_h;

[00174] bg_bgd irá se tornar “1” ou “verdadeiro” quando Etot estiver próximo da estimativa de ruído de fundo. bg_bgd serve como uma máscara para outros detectores de plano de fundo. Isto é, se bg_bgd não for “verdadeiro”, os detectores de plano de fundo 2 e 3 a seguir não precisam ser avaliados. Etot_v_h é uma estimativa de variância de ruído, que pode ser alternativamente denotada Nvar. Etot_v_h é derivado da energia total de entrada (em domínio logarítmico) usando Etot_v, que mede a variação de energia absoluta entre quadros. Note que o recurso Etot_v_h é limitado apenas ao aumento de um máximo de um pequeno valor constante, por exemplo, 0,2 para cada quadro. Etot_l_lp é uma versão uniformizada do mínimo envelope de energia Etot_l. 2: aE_bgd = st->aEn == 0;

[00175] Quando aEn for zero, aE_bgd torna-se “1” ou “verdadeiro”. aEn é um contador que é incrementado quando um sinal ativo for determinado como presente em um quadro atual, e diminuído quando o quadro atual for determinado como não compreendendo um sinal ativo. aEn pode não ser incrementado mais do que em um certo número, por exemplo, 6, e não ser reduzido para menos do que zero. Depois de um número de quadros consecutivos, por exemplo, 6, sem um sinal ativo, aEn será igual a zero. 3: sd1_bgd = (st->sign_dyn_lp > 15) && (Etot - st->Etot_l_lp ) < st- >Etot_v_h && st->harm_cor_cnt > 20;

[00176] Aqui, sd1_bgd será “1” ou “verdadeiro” quando três diferentes condições forem verdadeiras: A dinâmica de sinal, sign_dyn_lp é alto, neste exemplo, mais do que 15; A energia do quadro atual está próxima da estimativa de plano de fundo; e: Um certo número de quadros passou sem correlação ou eventos harmônicos, neste exemplo, 20 quadros.

[00177] A função de bg_bgd deve ser uma sinalização para detecção que a energia de quadro atual está próxima da mínima energia de longo prazo. Os últimos dois, aE_bgd e sd1_bgd, representam detecção de pausa ou plano de fundo em diferentes condições. aE_bgd é o detector mais geral dos dois, embora sd1_bgd, principalmente, detecte pausas de fala em alta SNR.

[00178] Uma nova lógica de decisão de acordo com uma modalidade da tecnologia aqui descrita é construída como segue no código a seguir. A lógica de decisão compreende a condição de mascaramento bg_bgd, e os dois detectores de pausa aE_bgd e sd1_bgd. Também pode haver um terceiro detector de pausa, que avalia a estatística de longo prazo em relação a quão bem o totalNoise rastreia a mínima estimativa de energia. As condições avaliadas se a primeira linha é verdadeira é lógica de decisão sobre quão grande o tamanho da etapa deve ser, updt_step, e a real atualização de estimativa de ruído é a atribuição de valor a "st->bckr[i] =-". Note que o tmpN[i] é um potencial novo nível de ruído previamente calculado, calculado de acordo com a solução descrita em W02011/049514. A lógica de decisão a seguir segue a parte 209 da figura 2, que é parcialmente indicada em conexão com o código a seguir if (bg_bgd && ( aE_bgd II sd1_bgd II st->lt_tn_track >0.90f ) ) /*if 202:2 and 204:2)*/ { if( (st->act_pred < 0.85f II ( aE_bgd && st->lt_haco_ev < 0.05f ) ) && (st->lt_Ellp_dist < 10 II sd1_bgd ) && st->lt_tn_dist<40 && ( (Etot - st->totalNoise ) < 15.0f II st->lt_haco_ev < 0.10f ) ) /*207*/ { st->first_noise_updt = 1; for( i=0; i< NB_BANDS; i++ ) { st->bckr[i] = tmpN[i) /*208*/ } } else if (aE_bgd && st->lt_haco_ev < 0.15f) { updt_step=0.1f; if (st->act_pred > 0.85f ) { updt_step=0.01f /*207*/ } if (updt_step > 0.0f) { st->first_noise_updt = 1; for[ i=0; i< NB_BANDS; i++ ) { st->bckr[i] = st->bckr[i] + updt_step * (tmpN[i]-st- >bckr[i]); /*208*/ }}} else { (st->first_noise_updt) +=1; } } else { /* Quando em música, abaixar bckr para cair adicionalmente */ /*if 203:2 and 205:1*/ If ( st->low_tn_track_cnt > 300 && st->lt_haco_ev > 0.9f && st-> totalNoise > 0.0f) { For ( i=0; i< NB_BANDS; i++) { If (st->bckr[i] > 2 * E_MIN { St->bckr[i] = 0.98f * st->bckr[i]; /*206*/ } } } Else { (st->first_noise_updt) += 1; } }

[00179] O segmento de código no último bloco de código que começa com "/* Quando em música ... */ contém o escalonamento descendente forçado da estimativa de plano de fundo que é usado se for suspeito que a entrada atual é música. Isto é decidido como uma função: longo período de fraco ruído de fundo de rastreamento, comparado com a mínima estimativa de energia, E, frequentes ocorrências de eventos harmônicos ou de correlação, E, a última condição “totalNoise > 0” é uma verificação de que a atual energia total da estimativa de plano de fundo é maior do que zero, o que implica que uma redução da estimativa de plano de fundo pode ser considerada. Adicionalmente, é determinado se “bckr[i] > 2 * E_MIN”, em que E_MIN é um pequeno valor positivo. Esta é uma verificação de cada entrada em um vetor que compreende a estimativa de plano de fundo em sub-banda, de maneira tal que uma entrada precise exceder E_MIN a fim de ser reduzida (no exemplo, por ser multiplicada por 0,98). Estas verificações são feitas a fim de evitar a redução da estimativa de plano de fundo em valores muito pequenos.

[00180] As modalidades melhoram a estimativa de ruído de fundo que permite o melhor desempenho do SAD/VAD para alcançar solução de DTX altamente eficiente e evitar a degradação na qualidade da fala ou música causada por corte.

[00181] Com a remoção da realimentação de decisão descrita em W02011/09514 do Etot_v_h, há uma melhor separação entre a estimativa de ruído e o SAD. Isto tem benefícios, já que a estimativa de ruído não é mudada se/quando a função/sintonia de SAD for mudada. Isto é, a determinação de uma estimativa de ruído de fundo se torna independente da função do SAD. Também, a lógica da sintonia da estimativa de ruído fica mais fácil, já que não é afetada por efeitos secundários do SAD quando as estimativas de plano de fundo forem mudadas.

Claims

1. Método para um estimador de ruído de fundo para estimativa de ruído de fundo em um sinal de áudio, em que o sinal de áudio compreende uma pluralidade de segmentos de sinal de áudio, o método caracterizado pelo fato de que compreende: - obter (201) pelo menos um parâmetro associado a um segmento de sinal de áudio, com base em: - um primeiro ganho de previsão linear calculado como um quociente entre um sinal residual (E(0)) proveniente de uma previsão linear de 0-ésima ordem e um sinal residual (E(2)) proveniente de uma previsão linear de 2a ordem para o segmento de sinal de áudio; e - um segundo ganho de previsão linear calculado como um quociente entre um sinal residual (E(2)) proveniente de uma previsão linear de 2a ordem e um sinal residual (E(16)) proveniente de uma previsão linear de 16a ordem para o segmento de sinal de áudio; - determinar (202) se o segmento de sinal de áudio compreende uma pausa, isto é, é livre de conteúdo ativo, tais como fala e música, com base pelo menos no pelo menos um parâmetro obtido; e quando o segmento de sinal de áudio compreender uma pausa: - atualizar (203) uma estimativa de ruído de fundo com base no segmento de sinal de áudio.

2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a obtenção do pelo menos um parâmetro compreende: - limitar o primeiro e o segundo ganhos de previsão linear, para impor valores em um intervalo predefinido.

3. Método de acordo com qualquer uma das reivindicações 1 a 2, caracterizado pelo fato de que a obtenção do pelo menos um parâmetro compreende: - criar pelo menos uma estimativa de longo prazo de cada um do primeiro e do segundo ganhos de previsão linear, por exemplo, por meio de filtragem passa-baixa, em que a estimativa de longo prazo é adicionalmente com base em correspondentes ganhos de previsão linear associados a pelo menos um segmento de sinal de áudio precedente.

4. Método de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que a obtenção do pelo menos um parâmetro compreende: - determinar uma diferença entre um dos ganhos de previsão linear associados ao segmento de sinal de áudio e uma estimativa de longo prazo do dito ganho de previsão linear e/ou entre duas diferentes estimativas de longo prazo associadas a um ganho de previsão linear.

5. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que a obtenção do pelo menos um parâmetro compreende filtragem passa-baixa do primeiro e do segundo ganhos de previsão linear.

6. Método de acordo com a reivindicação 5, caracterizado pelo fato de que os coeficientes de filtro de pelo menos um filtro passa-baixa dependem de uma relação entre um ganho de previsão linear associado ao segmento de sinal de áudio e uma média de um correspondente ganho de previsão linear obtido com base em uma pluralidade de segmentos de sinal de áudio precedentes.

7. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que a determinação se o segmento de sinal de áudio compreende uma pausa é adicionalmente com base em uma medida de proximidade espectral associada ao segmento de sinal de áudio.

8. Método de acordo com a reivindicação 7, caracterizado pelo fato de que compreende adicionalmente obter a medida de proximidade espectral com base em energias para um conjunto de bandas de frequência do segmento de sinal de áudio e estimativas de ruído de fundo correspondentes ao conjunto de bandas de frequência.

9. Método de acordo com a reivindicação 8, caracterizado pelo fato de que, durante um período de inicialização, um valor inicial, Emin é usado como as estimativas de ruído de fundo com base nas quais a medida de proximidade espectral é obtida.

10. Estimador de ruído de fundo (1100) para estimar ruído de fundo em um sinal de áudio que compreende uma pluralidade de segmentos de sinal de áudio, caracterizado pelo fato de que o estimador de ruído de fundo é configurado para: - obter pelo menos um parâmetro com base em: - um primeiro ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 0- ésima ordem e um sinal residual proveniente de uma previsão linear de 2a ordem para o segmento de sinal de áudio; e - um segundo ganho de previsão linear calculado como um quociente entre um sinal residual proveniente de uma previsão linear de 2a ordem e um sinal residual proveniente de uma previsão linear de 16a ordem para o segmento de sinal de áudio; - determinar se o segmento de sinal de áudio compreende uma pausa, isto é, é livre de conteúdo ativo, tais como fala e música, com base pelo menos no pelo menos um parâmetro; e quando o segmento de sinal de áudio compreender uma pausa: - atualizar uma estimativa de ruído de fundo com base no segmento de sinal de áudio

11. Estimador de ruído de fundo de acordo com a reivindicação 10, caracterizado pelo fato de que a obtenção do pelo menos um parâmetro compreende limitar o primeiro e o segundo ganhos de previsão linear para impor valores em um intervalo predefinido.

12. Estimador de ruído de fundo de acordo com qualquer uma das reivindicações 10 a 11, caracterizado pelo fato de que a obtenção do pelo menos um parâmetro compreende: - criar pelo menos uma estimativa de longo prazo de cada um do primeiro e do segundo ganhos de previsão linear, por exemplo, por meio de filtragem passa-baixa, em que a estimativa de longo prazo é adicionalmente com base em correspondentes ganhos de previsão linear associados a pelo menos um segmento de sinal de áudio precedente.

13. Estimador de ruído de fundo de acordo com qualquer uma das reivindicações 10 a 12, caracterizado pelo fato de que a obtenção do pelo menos um parâmetro compreende: - determinar uma diferença entre um dos ganhos de previsão linear associados ao segmento de sinal de áudio e uma estimativa de longo prazo do dito ganho de previsão linear e/ou entre duas diferentes estimativas de longo prazo associadas a um ganho de previsão linear.

14. Estimador de ruído de fundo de acordo com qualquer uma das reivindicações 10 a 13, caracterizado pelo fato de que a obtenção do pelo menos um parâmetro compreende realizar filtragem passa-baixa no primeiro e no segundo ganhos de previsão linear.

15. Estimador de ruído de fundo de acordo com a reivindicação 14, caracterizado pelo fato de que os coeficientes de filtro de pelo menos um filtro passa-baixa dependem de uma relação entre um ganho de previsão linear associado ao segmento de sinal de áudio e uma média de um correspondente ganho de previsão linear obtido com base em uma pluralidade de segmentos de sinal de áudio precedentes.

16. Estimador de ruído de fundo de acordo com qualquer uma das reivindicações 10 a 15, caracterizado pelo fato de que é configurado para estabelecer adicionalmente a determinação de se o segmento de sinal de áudio compreende uma pausa em uma medida de proximidade espectral associada ao segmento de sinal de áudio.

17. Estimador de ruído de fundo de acordo com a reivindicação 16, caracterizado pelo fato de que é configurado para obter a medida de proximidade espectral com base em energias para um conjunto de bandas de frequência do segmento de sinal de áudio e estimativas de ruído de fundo correspondentes ao conjunto de bandas de frequência.

18. Estimador de ruído de fundo de acordo com a reivindicação 17, caracterizado pelo fato de que é configurado para usar um valor inicial, Emin, como as estimativas de ruído de fundo com base nas quais a medida de proximidade espectral é obtida, durante um período de inicialização.

19. Detector de Atividade de Som, SAD, caracterizado pelo fato de que compreende um estimador de ruído de fundo como definido em qualquer uma das reivindicações 10 a 18.

20. Codec, caracterizado pelo fato de que compreende um estimador de ruído de como definido em qualquer uma das reivindicações 10 a 18.

21. Dispositivo sem fio, caracterizado pelo fato de que compreende um estimador de ruído de fundo como definido em qualquer uma das reivindicações 10 a 18.

22. Nó de rede, caracterizado pelo fato de que compreende um estimador de ruído de fundo como definido em qualquer uma das reivindicações 10 a 18.

23. Programa de computador, caracterizado pelo fato de que compreende instruções que, quando executadas em pelo menos um processador, fazem com que o pelo menos um processador realize o método como definido em qualquer uma das reivindicações 1 a 9.

24. Portadora contendo o programa de computador como definido na reivindicação precedente, caracterizada pelo fato de que a portadora é uma de um sinal eletrônico, sinal ótico, sinal de rádio ou mídia de armazenamento legível por computador.