BR112016014104B1 - método de estimativa de ruído de fundo, estimador de ruído de fundo, detector de atividade de som, codec, dispositivo sem fio, nó de rede, meio de armazenamento legível por computador - Google Patents

método de estimativa de ruído de fundo, estimador de ruído de fundo, detector de atividade de som, codec, dispositivo sem fio, nó de rede, meio de armazenamento legível por computador Download PDF

Info

Publication number
BR112016014104B1
BR112016014104B1 BR112016014104-0A BR112016014104A BR112016014104B1 BR 112016014104 B1 BR112016014104 B1 BR 112016014104B1 BR 112016014104 A BR112016014104 A BR 112016014104A BR 112016014104 B1 BR112016014104 B1 BR 112016014104B1
Authority
BR
Brazil
Prior art keywords
background noise
audio signal
estimate
signal segment
fact
Prior art date
Application number
BR112016014104-0A
Other languages
English (en)
Inventor
Martin Sehlstedt
Original Assignee
Telefonaktiebolaget Lm Ericsson (Publ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget Lm Ericsson (Publ) filed Critical Telefonaktiebolaget Lm Ericsson (Publ)
Publication of BR112016014104B1 publication Critical patent/BR112016014104B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/62Constructional arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/22Processing or transfer of terminal data, e.g. status or physical capabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

A invenção refere-se a um estimador de ruído de fundo e a um método no mesmo, para que ofereça suporte à detecção de atividade de som em um segmento de sinal de áudio. O método compreende reduzir uma estimativa de ruído de fundo atual quando for determinado que o segmento de sinal de áudio compreende música e a estimativa de ruído de fundo atual excede um valor mínimo. Isto deve ser realizado quando um nível de energia de um segmento de sinal de áudio for maior do que um limite superior em relação ao nível de energia mínimo no longo prazo, lt_min, que é determinado durante uma pluralidade de segmentos do sinal de áudio precedentes, ou, quando o nível de energia do segmento de sinal de áudio for menor do que um limite superior a lt_min, mas nenhuma pausa for detectada no segmento de sinal de áudio. A realização do método habilita uma detecção de atividade de som mais adequada, com base na estimativa do ruído de fundo, em comparação com a técnica anterior.

Description

Campo
[001] As modalidades da presente invenção referem-se à codificação de áudio e, em particular, à estimativa de ruído de fundo por apoiar uma decisão de atividade de som.
Fundamentos
[002] Em sistemas de comunicação que utilizam transmissão descontínua (DTX), é importante encontrar um equilíbrio entre a eficiência e a não redução da qualidade. Em tais sistemas, um detector de atividade é usado para indicar sinais ativos, por exemplo, fala ou música, que devem ser ativamente codificados, e segmentos com sinais de fundo que podem ser substituídos com ruído de conforto gerados no lado do receptor. Se o detector de atividade for muito eficiente na detecção de não atividade, ele introduzirá recorte no sinal ativo, que é, então, percebido como uma degradação de qualidade subjetiva quando o segmento ativo recortado for substituído por ruído de conforto. Ao mesmo tempo, a eficiência da DTX é reduzida se o detector de atividade não for eficiente o bastante e classificar segmentos de ruído de fundo como ativos e, então, codificar ativamente o ruído de fundo em vez de entrar em um modo DTX com ruído de conforto. Na maioria dos casos, o problema de recorte é considerado o pior.
[003] A figura 1 mostra um diagrama de blocos de visão geral de um detector de atividade de som generalizada, SAD, ou detector de atividade de voz, VAD, que toma um sinal de áudio como entrada e produz uma decisão de atividade como saída. O sinal de entrada é dividido em quadros de dados, isto é, segmentos de sinal de áudio de, por exemplo, 5-30 ms, dependendo da implementação, e uma decisão de atividade por quadro é produzida como saída.
[004] Uma decisão primária, "prim", é feita pelo detector primário ilustrado na figura 1. A decisão primária é, basicamente, apenas uma comparação das características de um quadro atual com as características de fundo, que são estimadas a partir dos quadros de dados de entrada anteriores. Uma diferença entre as características do quadro atual e as características de fundo, que são maiores do que um limite, causa uma decisão primária ativa. O bloco de adição de atraso de desvanecimento é utilizado para estender uma decisão primária com base em decisões primárias anteriores para formar a decisão final, "indicador". A razão para usar o atraso de desvanecimento é, principalmente, reduzir / remover o risco de recortes médios e secundário de surto de atividade. Da forma indicada na figura, um controlador de operação pode ajustar o(s) limite(s) para o detector primário e o comprimento da adição do atraso de desvanecimento de acordo com as características do sinal de entrada. O bloco estimador de plano de fundo é usado para estimar o ruído de fundo no sinal de entrada. O ruído de fundo também pode ser aqui referido como "o plano de fundo" ou "a característica do fundo".
[005] Estimativa da característica de fundo pode ser feita de acordo com dois princípios basicamente diferentes, tanto pelo uso da decisão primária, isto é, com decisão ou realimentação de métrica da decisão, que é indicada pela linha de traços e pontos mostrada na figura 1, quanto pelo uso de algumas outras características do sinal de entrada, isto é, sem realimentação de decisão. Também é possível usar combinações das duas estratégias.
[006] Um exemplo de um codec que usa realimentação de decisão para estimativa de plano de fundo é AMR-NB (Banda Estreita Multitaxas Adaptativa) e exemplos de codecs em que realimentação de decisão não é usada são EVRC (CODEC de Taxa Variável Aprimorado) e G.718.
[007] Há inúmeras diferentes recursos ou características de sinal que podem ser usadas, mas um recurso comum usado em VADs são as características de frequência do sinal de entrada. Um tipo comumente usado de características de frequência é a energia do quadro de sub-banda, devido à sua baixa complexidade e confiável operação em baixa SRN. Portanto, é considerado que o sinal de entrada é dividido em diferentes sub-bandas de frequência e o nível de plano de fundo é estimado para cada uma das sub- bandas. Desta maneira, uma das características do ruído de fundo é o vetor com os valores de energia para cada sub-banda. Estes são valores que caracterizam o ruído de fundo no sinal de entrada no domínio da frequência.
[008] Para alcançar rastreamento do ruído de fundo, a real atualização de estimativa do ruído de fundo pode ser feita, pelo menos, de três maneiras diferentes. Uma maneira é usar um processo autorregressivo (AR), por posição de frequência, para lidar com a atualização. Exemplos de tais codecs são AMR-NB e G.718. Basicamente, para este tipo de atualização, o tamanho da etapa da atualização é proporcional à diferença observada entre a entrada atual e a estimativa de plano de fundo atual. Uma outra maneira é usar o escalonamento multiplicativo de uma estimativa atual com a restrição de que a estimativa nunca pode ser maior do que a entrada atual ou menor do que um valor mínimo. Isto significa que a estimativa é aumentada em cada quadro até ela fique mais alta do que a atual entrada. Nesta situação, a atual entrada é usada como estimativa. EVRC é um exemplo de um codec que usa esta técnica para atualizar a estimativa de plano de fundo para a função VAD. Note que EVRC usa diferentes estimativas de plano de fundo para VAD e supressão de ruído. Deve-se notar que um VAD pode ser usado em contextos diferentes de DTX. Por exemplo, em codecs de taxa variável, tais como EVRC, o VAD pode ser usado como parte de uma função de determinação de taxa.
[009] Uma terceira maneira é usar uma assim denominada técnica mínima, em que a estimativa é o valor mínimo durante uma janela de tempo móvel de quadros anteriores. Basicamente, isto oferece uma estimativa mínima, que é escalonada, usando um fator de compensação, para obter e aproximar a estimativa média para ruído estacionário.
[0010] Em casos de alta SNR, em que o nível de sinal do sinal ativo é muito maior do que o do sinal de fundo, pode ser bastante fácil tomar uma decisão sobre se um sinal de áudio de entrada está ativo ou não ativo. No entanto, separar sinais ativos e não ativos, em casos de baixa SNR e, em particular, quando o plano fundo for não estacionário ou mesmo similar ao sinal ativo em suas características, é muito difícil.
Sumário da Invenção
[0011] Seria desejável tomar decisões mais adequadas sobre se um sinal de áudio compreende fala ativa ou música, ou não. Aqui, um melhor método para gerar uma estimativa do ruído de fundo é provido, que habilita que um detector de atividade de som tome decisões mais adequadas.
[0012] De acordo com um primeiro aspecto, um método de estimativa do ruído de fundo é provido, para suportar detecção de atividade de som em um segmento de sinal de áudio. Pretende-se que o método seja realizado por um estimador de ruído de fundo. O método compreende reduzir uma estimativa de ruído de fundo atual quando for determinado que o segmento de sinal de áudio compreende música e a estimativa de ruído de fundo atual excede um valor mínimo. Isto deve ser realizado quando um nível de energia de um segmento de sinal de áudio for maior do que um limite superior a um nível de energia mínimo no longo prazo, lt_min, que é determinado durante uma pluralidade de segmentos de sinal de áudio precedentes, ou, quando o nível de energia do segmento de sinal de áudio for menor do que um limite superior a lt_min, mas nenhuma pausa for detectada no segmento de sinal de áudio.
[0013] De acordo com um segundo aspecto, um estimador de ruído de fundo é provido para suportar a detecção de som em um segmento de sinal de áudio. O estimador de ruído de fundo é configurado para: quando um nível de energia de um segmento de sinal de áudio for maior do que um limite superior a um nível mínimo de energia no longo prazo, lt_min, ou, quando o nível de energia do segmento de sinal de áudio for menor do que um limite superior a lt_min, mas nenhuma pausa for detectada no segmento de sinal de áudio: reduzir uma estimativa de ruído de fundo atual quando for determinado que o segmento de sinal de áudio compreende música e a estimativa do ruído de fundo atual excede um valor mínimo.
[0014] De acordo com um terceiro aspecto, é provido um SAD, que compreende um estimador de ruído de fundo de acordo com o segundo aspecto.
[0015] De acordo com um quarto aspecto, é provido um codec, que compreende um estimador de ruído de fundo de acordo com o segundo aspecto.
[0016] De acordo com um quinto aspecto, é provido um dispositivo de comunicação, que compreende um estimador de ruído de fundo de acordo com o segundo aspecto.
[0017] De acordo com um sexto aspecto, é provido um nó de rede, que compreende um estimador de ruído de fundo de acordo com o segundo aspecto.
[0018] De acordo com um sétimo aspecto, é provido um programa de computador, que compreende instruções que, quando executadas em pelo menos um processador, fazem com que o pelo menos um processador realize o método de acordo com o primeiro aspecto.
[0019] De acordo com um oitavo aspecto, é provido um portador, que contém um programa de computador de acordo com o sétimo aspecto.
Breve Descrição dos Desenhos
[0020] Os expostos e ainda outros objetos, características e vantagens da tecnologia aqui descrita ficarão aparentes a partir da seguinte descrição mais particular das modalidades ilustradas nos desenhos anexos. Os desenhos não estão necessariamente em escala, em vez disto, ênfase sendo colocada na ilustração dos princípios da tecnologia aqui descrita.
[0021] A figura 1 é um diagrama de blocos que ilustra um detector de atividade e a lógica de determinação de atraso de desvanecimento.
[0022] A figura 2 é um fluxograma que ilustra uma lógica de decisão de atualização de plano de fundo, de acordo com uma modalidade exemplar.
[0023] As figuras 3 e 4 mostram um estimador de plano de fundo de acordo com diferentes modalidades exemplares.
[0024] A figura 5 é um diagrama de blocos que mostra um estimador de plano de fundo de energia de sub-banda.
[0025] As figuras 6-9 são diagramas que mostram como as modalidades permitem melhor rastreamento de ruído de fundo em sinais de áudio.
Descrição Detalhada
[0026] A solução aqui descrita refere-se à estimativa de ruído de fundo em sinais de áudio. No detector de atividade generalizada, ilustrado na figura 1, a função de estimar ruído de fundo é realizada pelo bloco denotado “estimador de plano de fundo". Algumas modalidades da solução aqui descrita podem ser vistas em relação às soluções previamente descritas em WO2011/049514 e WO2011/049515, que são aqui incorporadas pela referência. A solução aqui descrita será comparada com implementações destes pedidos previamente descritos. Mesmo embora as soluções descritas em WO2011/049514 e WO2011/049515 sejam boas soluções, a solução aqui apresentada ainda tem vantagens em relação àquelas soluções. Por exemplo, a solução aqui apresentada tem uma implementação ainda menos complexa e é ainda mais adequada no seu rastreamento de ruído de fundo.
[0027] O desempenho de um VAD depende da capacidade do estimador de ruído de fundo em rastrear as características do plano de fundo - em particular, quando se trata de planos de fundos não estacionários. Com melhor rastreamento, é possível tornar o VAD mais eficiente sem aumentar o risco de recorte de fala.
[0028] Um problema com atuais métodos de estimativa de ruído é que, para alcançar bom rastreamento do ruído de fundo em baixa SNR, um detector de pausa confiável é necessário. Para entrada somente de fala, é possível utilizar a taxa silábica ou o fato de que uma pessoa não pode falar o tempo todo para encontrar pausas na fala. Tais soluções podem envolver que, após um tempo suficiente de não realização de atualizações de fundo, as exigências para detecção de pausa são "relaxadas", de maneira tal que seja mais provável detectar uma pausa na fala. Isto permite responder a mudanças repentinas nas características ou no nível do ruído. Alguns exemplos de tais lógicas de recuperação de ruído são: 1) como declarações de fala contêm segmentos com alta correlação depois de um número suficiente de quadros sem correlação, é usualmente seguro considerar que há uma pausa na fala; 2) quando a razão de sinal por ruído, SNR > 0, a energia da fala é maior do que o ruído de fundo, então, se a energia do quadro estiver próxima da energia mínima durante um tempo mais longo, por exemplo, 1-5 segundos, também é seguro considerar que alguém está em uma pausa da fala. Embora as técnicas anteriores funcionem bem com entrada apenas de fala, elas não são suficientes quando música for considerada uma entrada ativa. Na música, pode haver longos segmentos com baixa correlação que ainda são música. Adicionalmente, a dinâmica da energia na música também pode disparar falsa detecção de pausa, que pode resultar em indesejáveis e errôneas atualizações da estimativa do ruído de fundo.
[0029] De forma ideal, uma função inversa de um detector de atividade, ou o que seria chamado de um "detector de ocorrência de pausa", será necessária para controlar a estimativa de ruído. Isto assegura que a atualização das características do ruído de fundo seja feita somente quando não houver nenhum sinal ativo no quadro atual. No entanto, da forma indicada anteriormente, não é uma tarefa fácil determinar se um segmento de sinal de áudio compreende um sinal ativo ou não.
[0030] Tradicionalmente, quando o sinal ativo era conhecido por ser um sinal de fala, o detector de atividade era chamado de Detector de Atividade de Voz (VAD). O termo VAD para detectores de atividades também é frequentemente usado quando o sinal de entrada puder compreender música. No entanto, em codecs modernos, também é comum se referir ao detector de atividade como um Detector de Atividade de som (SAD), quando música também precisar ser detectada como um sinal ativo.
[0031] O estimador de plano de fundo ilustrado na figura 1 utiliza realimentação proveniente do detector primário e/ou do bloco de atraso de desvanecimento para localizar segmentos de sinal de áudio inativos. Durante o desenvolvimento da tecnologia aqui descrita, tem sido um desejo remover, ou pelo menos reduzir, a dependência de tal realimentação. Para a estimativa de plano de fundo aqui descrita, portanto, foi identificado como importante ser capaz de encontrar confiáveis características para identificar as características de sinais de fundo quando apenas um sinal de entrada com uma mistura desconhecida de sinal ativo e de fundo estiver disponível. Percebeu-se adicionalmente que não pode ser considerado que o sinal de entrada comece com um segmento de ruído, ou até mesmo que o sinal de entrada seja a fala misturada com ruído, já que pode ser que o sinal ativo seja música.
[0032] Uma contribuição das modalidades aqui descritas em relação à técnica anterior é a seleção de características para uso, e ainda mais, como combinar as características selecionadas para alcançar uma lógica de estimativa de ruído que funcione de forma confiável para diferentes tipos de entrada.
[0033] Como exposto, existem vários recursos que funcionam bem para condições em particular. A dificuldade é combiná-los de uma maneira que beneficia a estimativa de ruído e o rastreamento de plano de fundo, em particular, se o objetivo for evitar considerações sobre condições iniciais, mas se basear apenas nas características do sinal até aqui e ser capaz de lidar com condições em que tanto a fala quanto a música devem ser consideradas entradas ativas.
[0034] A figura 2 é um fluxograma que ilustra uma modalidade exemplar de um método para estimativa de ruído de fundo de acordo com a tecnologia aqui proposta. Pretende-se que o método seja realizado por um estimador de ruído de fundo, que pode ser parte de um SAD. O estimador de ruído de fundo, e o SAD, podem ser adicionalmente compreendidos em um codificador de áudio, que pode, por sua vez, ser compreendido em um dispositivo sem fio ou um nó de rede. Para o estimador de ruído de fundo descrito, o ajuste de redução da estimativa de ruído não é restrito. Para cada quadro, uma possível nova estimativa de ruído de sub-banda é calculada, independentemente se o quadro for de plano de fundo ou de conteúdo ativo, se o novo valor for inferior ao atual, ele é usado diretamente, já que é mais provável que ele seja proveniente de um quadro de fundo. A seguinte lógica de estimativa do ruído é uma segunda etapa em que é decidido se a estimativa de ruído de sub-banda pode ser aumentada e, se for o caso, quanto o aumento é baseado na possível nova estimativa do ruído de sub-banda calculada anteriormente. Basicamente, esta lógica forma a decisão de que o quadro atual é um quadro de fundo e, se não houver certeza, ela pode permitir um aumento menor, se comparado com o que foi originalmente estimado.
[0035] O método ilustrado na figura 2 compreende: quando um nível de energia de um segmento de sinal de áudio for maior do que um limite superior 202:1 em relação a um nível de energia mínimo no longo prazo, lt_min, ou, quando o nível de energia do segmento de sinal de áudio for menor do que um limite superior 202:2 em relação a lt_min, mas nenhuma pausa for detectada 204:1 no segmento de sinal de áudio: - reduzir 206 uma estimativa de ruído de fundo atual quando for determinado que o segmento de sinal de áudio 203:2 compreende música e a estimativa de ruído de fundo atual exceder um valor mínimo 205:1, denotado "T" na figura 2, e adicionalmente exemplificado, por exemplo, como 2*E_MIN no código a seguir.
[0036] Pela realização do exposto, e pela provisão da estimativa do ruído de fundo para um SAD, o SAD é habilitado a realizar mais adequada detecção de atividade de som. Adicionalmente, recuperação de errôneas atualizações de estimativa de ruído de fundo é habilitada.
[0037] O nível de energia do segmento de sinal de áudio usado no método supradescrito pode ser alternativamente referido, por exemplo, como a energia de quadro atual, Etot, ou como a energia do segmento de sinal, ou quadro, que pode ser calculada pela soma das energias de sub-banda para o segmento de sinal atual.
[0038] A outra característica de energia usada no método exposto, isto é, o nível mínimo de energia no longo prazo, lt_min, é uma estimativa, que é determinada durante uma pluralidade de segmentos ou quadros de sinal de áudio anteriores. lt_min pode ser alternativamente denotado, por exemplo, como Etot_l_lp. Uma maneira básica de derivar lt_min seria usar o valor mínimo do histórico da energia de quadro atual durante inúmeros quadros anteriores. Se o valor calculado como: "energia de quadro atual - estimativa mínima em longo prazo" estiver abaixo de um valor limiar, denotado, por exemplo, THR1, aqui, diz-se que a energia do quadro atual está junta da energia mínima de longo prazo, ou está próxima da energia mínima de longo prazo. Isto é, quando (Etot - lt_min) < THR1, a energia de quadro atual, Etot, pode ser determinada 202 para ficar próxima à energia mínima em longo prazo, lt_min. O caso quando (Etot - lt_min) = THR1 pode ser referido para ambas as decisões, 202:1 ou 202:2, dependendo da implementação. A numeração 202:1 na figura 2 indica a decisão que a energia de quadro atual não está próxima de lt_min, enquanto que 202:2 indica a decisão que a energia de quadro atual está próxima de lt_min. Outra numeração na figura 2 na forma XXX:Y indica correspondentes decisões. A característica lt_min será descrita adicionalmente a seguir.
[0039] O valor mínimo, que a estimativa de ruído de fundo atual precisa exceder, a fim de ser reduzida, pode ser considerado zero ou um pequeno valor positivo. Por exemplo, como será exemplificado no código a seguir, uma energia total atual da estimativa do plano de fundo, que pode ser denotada por "totalNoise" e ser determinada, por exemplo, como 10*log10∑backr[i], pode precisar exceder um valor mínimo de zero a fim de que a redução venha em questão. Alternativamente, ou além disso, cada entrada em um vetor backr[i] que compreende as estimativas de plano de fundo de sub-banda pode ser comparada a um valor mínimo, E_MIN, para que a redução seja realizada. No exemplo de código a seguir, o E_MIN é um pequeno valor positivo.
[0040] Deve-se notar que, de acordo com uma modalidade preferida da solução aqui sugerida, a decisão sobre se o nível de energia do segmento de sinal de áudio é maior do que um limite superior a lt_min é baseada apenas em informação derivada a partir do sinal de áudio de entrada, isto é, não é baseada na realimentação de uma decisão de detector de atividade de som.
[0041] A determinação 204 sobre se um quadro atual compreende uma pausa ou não pode ser realizada de maneiras diferentes com base em um ou mais critérios. Um critério de pausa também pode ser referido como um detector de pausa. Um detector de pausa único pode ser aplicado, ou uma combinação de diferentes detectores de pausa. Com uma combinação de detectores de pausa, cada qual pode ser usado para detectar pausas em diferentes condições. Um indicador de que um quadro atual pode incluir uma pausa, ou inatividade, é que um recurso de correlação para o quadro é baixo, e que um número de quadros anteriores também tiveram características de baixa correlação. Se a energia atual estiver próxima da energia mínima de longo prazo e uma pausa for detectada, o ruído de fundo pode ser atualizado de acordo com a entrada atual, da forma ilustrada na figura 2. Uma pausa pode ser considerada como detectada quando, além disto, o nível de energia do segmento de sinal de áudio for menor do que um limite superior a lt_min: um número predefinido de segmentos de sinal de áudio anteriores consecutivos foi determinado por não compreender um sinal ativo e/ou uma dinâmica do sinal de áudio excede um limite. Isso também é ilustrado no exemplo de código adicionalmente a seguir.
[0042] A redução 206 da estimativa do ruído de fundo habilita o tratamento de situações em que a estimativa do ruído de fundo se torna "muito alta", isto é, em relação a um verdadeiro ruído de fundo. Isto também poderia ser expressado, por exemplo, como que a estimativa do ruído de fundo se desvia do ruído de fundo real. Uma estimativa do ruído de fundo muito elevada pode levar a decisões inadequadas pelo SAD, em que o segmento de sinal atual é determinado como inativo, mesmo que embora ele compreenda fala ativa ou música. Uma razão para a estimativa de ruído de fundo tornar-se demasiadamente elevada é, por exemplo, atualizações de ruído de fundo errôneas ou indesejadas na música, em que a estimativa de ruído errou música por plano de fundo e permitiu que a estimativa de plano de fundo fosse aumentada. O método descrito permite que tal estimativa do ruído de fundo atualizada de forma incorreta seja ajustada, por exemplo, quando um quadro seguinte do sinal de entrada for determinado por compreender música. Este ajuste é feito por uma redução forçada da estimativa de ruído de fundo, em que a estimativa de ruído é reduzida, mesmo se a atual energia de segmento de sinal de entrada for maior do que a estimativa de ruído de fundo atual, por exemplo, em uma sub-banda. Deve notar-se que a lógica descrita anteriormente para estimativa do ruído de fundo é usada para controlar o aumento de energia de sub-banda de fundo. Sempre é permitido reduzir a energia da sub-banda quando a energia de sub-banda do quadro atual for menor do que a estimativa do ruído de fundo. Esta função não é explicitamente mostrada na figura 2. Uma diminuição como esta geralmente tem uma configuração fixa para o tamanho da etapa. No entanto, somente deve-se permitir que a estimativa do ruído de fundo seja aumentada em associação com a lógica de decisão de acordo com o método descrito anteriormente. Quando uma pausa for detectada, os recursos de energia e correlação também podem ser usados para decidir 207 quão grande deve ser o tamanho da etapa de ajuste para o aumento de estimativa do plano de fundo, antes que a real atualização do ruído seja feita.
[0043] Como mencionado anteriormente, alguns segmentos de música podem ser difíceis de serem separados do ruído de fundo, em função de eles serem bastante ruidosos. Assim, a lógica de atualização de ruído pode acidentalmente permitir um aumento das estimativas de energia da sub-banda, mesmo embora o sinal de entrada seja um sinal ativo. Isso pode causar problemas, uma vez que a estimativa de ruído pode se tornar maior do que deveria.
[0044] Em estimadores de ruído de fundo de técnicas anteriores, as estimativas de energia de sub-banda somente poderiam ser reduzidas quando uma energia de sub-banda de entrada for abaixo de uma estimativa de ruído atual. No entanto, uma vez que alguns segmentos de música podem se difíceis de separar do ruído de fundo, devido a serem muito semelhantes a ruído, percebeu-se que uma estratégia de recuperação para música é necessária. Nas modalidades aqui descritas, uma recuperação como esta pode ser feita por redução da estimativa de ruído forçada quando o sinal de entrada retornar para características tipo música. Isto é, quando a lógica de energia e pausa descrita anteriormente impedir, 202:1, 204:1, aumento da estimativa de ruído de fundo, é testado 203 se a entrada é suspeita de ser música e, se for o caso 203:2, as energias de sub-banda são reduzidas 206 em uma pequena quantidade de cada quadro até as estimativas de ruído atinjam um nível mais baixo 205:2.
[0045] A solução aqui descrita também se refere a um estimador de plano de fundo implementado em hardware e/ou software. Um estimador de plano de fundo 500 de acordo com um modelo exemplificativo é ilustrado esquematicamente na figura 3. Pode ser considerado que o estimador de plano de fundo 500 compreende uma unidade de entrada 502 para receber medidas de energia e, possivelmente, medidas de correlação; e uma unidade de unidade de saída 505 por prover uma estimativa de ruído de fundo atualizada. O estimador de plano de fundo 500 compreende adicionalmente um processador 503 e uma memória 504, a dita memória contendo instruções 507 executáveis pelo processador 504. A execução das instruções 507 torna o dito estimador de plano de fundo 500 operacional para realizar pelo menos uma modalidade do método de estimativa de ruído de fundo descrito anteriormente. Em outras palavras, a execução das instruções 507 pelos meios de processamento 503 torna o estimador de plano de fundo 500 operacional para: quando um nível de energia de um segmento de sinal de áudio for maior do que um limite superior a um nível mínimo de energia a longo prazo, lt_min, que é determinado durante uma pluralidade de segmentos do sinal de áudio precedentes ou, quando o nível de energia do segmento de sinal de áudio for menor do que um limite superior ao lt_min, mas nenhuma pausa for detectada no segmento de sinal de áudio: - reduzir uma estimativa de ruído de fundo atual quando for determinado que o segmento de sinal de áudio compreende música e a estimativa de ruído de fundo atual excede um valor mínimo; as instruções 507 podem ser armazenadas na forma de código computacional, por exemplo, como aquele apresentado adicionalmente nesta descrição. As instruções ou programa de computador podem ser conduzidos por um portador antes de serem armazenados e/ou executadas pelo estimador de plano de fundo. Um portador como este pode ser, por exemplo, um sinal eletrônico, um sinal óptico, um sinal de rádio ou um meio de armazenamento legível por computador.
[0046] A figura 4 mostra uma implementação alternativa de um estimador de plano de fundo. O estimador de plano de fundo 400 compreende uma unidade de entrada / saída 401, meio de determinação de energia 402 configurado para determinar se a atual energia de quadro está próxima ou não de uma estimativa de energia mínima de longo prazo, um detector de pausa 403, configurado para determinar se um quadro atual compreende uma pausa, detector de música, configurado para determinar se um atual quadro também compreende música ou não. O estimador de plano de fundo 400 compreende adicionalmente um ajustador estimador de plano de fundo 405, configurado para: quando um nível de energia de um segmento de sinal de áudio for maior do que um limite superior a um mínimo nível de energia de longo prazo, lt_min, ou, quando o nível de energia do segmento de sinal de áudio for menor do que um limite superior a lt_min, mas nenhuma pausa for detectada no segmento de sinal de áudio: - reduzir uma estimativa de ruído de fundo atual quando for determinado que o segmento de sinal de áudio compreende música e a estimativa de ruído de fundo atual exceder um mínimo valor. O ajustador estimador de plano de fundo 405 também pode ser configurado para realizar, por exemplo, um ajuste regular, assim como aquele ilustrado como 208 na figura 3.
[0047] Um estimador de plano de fundo, como aqueles descritos anteriormente, pode ser compreendido ou implementado em um VAD ou SAD e/ou em um codificador e/ou um decodificador, em que o codificador e/ou o decodificador podem ser implementados em um dispositivo do usuário, tais como um telefone celular, um laptop, um tablet, etc. O estimador de plano de fundo pode ser adicionalmente compreendido em um nó de rede, tal como como uma porta de comunicação de mídia, por exemplo, como parte de um codec.
[0048] A figura 5 é um diagrama de blocos que ilustra esquematicamente uma implementação de um estimador de plano de fundo de acordo com uma modalidade exemplar. Um bloco de enquadramento de entrada 51, primeiro, divide o sinal de entrada em quadros de comprimento adequado, por exemplo, 5-30 ms. Para cada quadro, um extrator de recurso 52 calcula pelo menos as seguintes características a partir da entrada: 1) O extrator de recurso analisa o quadro no domínio da frequência e a energia para um conjunto de sub-bandas é calculada. As sub-bandas são as mesmas sub- bandas que devem ser usadas para a estimativa de plano de fundo. 2) O extrator de recurso analisa adicionalmente o quadro no domínio do tempo e calcula uma correlação denotada, por exemplo, cor_est e/ou lt_cor_est, que é usada na determinação se o quadro compreende conteúdo ativo ou não. 3) O extrator de recurso utiliza adicionalmente a atual energia total do quadro, por exemplo, denotada Etot, para atualização de recursos para o histórico da energia de quadros de entrada atuais e anteriores, tais como a energia mínima de longo prazo, lt_min. As características de correlação e energia são, então, alimentadas para o bloco de lógica de decisão de atualização 53.
[0049] Aqui, uma lógica de decisão de acordo com a solução descrita é implementada no bloco de lógica de decisão de atualização 53, em que os recursos de correlação e energia são usados para formar as decisões sobre se a energia de quadro atual está próxima ou não de uma energia mínima de longo prazo; sobre se o quadro atual é parte de uma pausa (sinal não ativo) ou não; e se o quadro atual é parte da música ou não. A solução, de acordo com as modalidades aqui descritas, envolve a forma como esses recursos e decisões são usados para atualizar a estimativa do ruído de fundo de uma maneira robusta.
[0050] A seguir, alguns detalhes de implementação das modalidades da solução aqui descrita serão apresentados. Os detalhes de implementação a seguir foram tomados de uma modalidade em um codificador com base em G.718. Esta modalidade usa alguns dos recursos descritos em WO2011/049514 e WO2011/049515, dos quais partes são anexadas nesta descrição.
[0051] As seguintes características são definidas em G.718 modificado descrito em WO2011/09514: Etot; A energia total para o quadro de entrada atual. Etot_l Etot_l_lp Rastreia o mínimo envelope de energia. Uma versão uniformizada do mínimo envelope de energia Etot_l. totalNoise A energia total atual da estimativa de plano de fundo; bckr[i] O vetor com as estimativas de plano de fundo de sub- banda; tmpN[i] Uma nova estimativa de plano de fundo em potencial precalculada; aEn Um detector de plano de fundo que usa múltiplos recursos (um contador). harm_cor_cnt Conta os quadros desde o último quadro com correlação act_pred ou evento harmônico; Uma previsão da atividade das características dos quadros cor[i] de entrada apenas; Vetor com estimativas de correlação para, i = 0 fim do quadro atual, i = 1 início do quadro atual, i = 2 fim de
[0052] quadro anterior; As seguintes características são definidas em G.718 modificado descrito em WO2011/09515. Etot_h Rastreia o envelope de energia máxima. sign_dyn_lp; Uma dinâmica do sinal de entrada uniformizada
[0053] Também, o recurso Etot_v_h foi definido em
Figure img0001
[0054] Etot_v mede a variação de energia absoluta entre os quadros, isto é, o valor absoluto da variação da energia instantânea entre quadros. No exemplo exposto, a variação de energia entre dois quadros é determinada como "baixa" quando a diferença entre a última e a atual energia de quadro for menor do que 7 unidades. Isto é utilizado como um indicador de que o quadro atual (e o quadro anterior) pode ser parte de uma pausa, isto é, compreende apenas o ruído de fundo. No entanto, tal baixa variância pode ser alternativamente encontrada, por exemplo, no meio de um surto de fala. A variável Etot_last é o nível de energia do quadro anterior.
[0055] As etapas descritas anteriormente em código podem ser realizadas como parte das etapas "calcular / atualizar correlação e energia" no fluxograma na figura 2, isto é, como parte das ações 201. Na implementação de WO2011/049514, um indicador VAD foi usado para determinar se o segmento de sinal de áudio atual compreendia ou não ruído de fundo. Percebeu-se que a dependência da informação de realimentação pode ser problemática. Na solução aqui descrita, a decisão se se atualiza a estimativa do ruído de fundo ou não depende de uma decisão de VAD (ou SAD).
[0056] Adicionalmente, na solução aqui descrita, os seguintes recursos, que não são parte da implementação WO2011/049514, podem ser calculados / atualizados como parte das mesmas etapas, isto é, as etapas de cálculo / atualização de correlação e energia ilustradas na figura 2. Esses recursos também são usados na lógica de decisão de se atualizar ou não a estimativa de plano de fundo.
[0057] A fim de alcançar uma estimativa de ruído de fundo mais adequada, inúmeras características são definidas a seguir. Por exemplo, os novos recursos relacionados a correlação cor_est e lt_cor_est são definidos. O recurso cor_est é uma estimativa da correlação no quadro atual, e cor_est também é usado para produzir lt_cor_est, que é uma estimativa de longo prazo uniformizada da correlação. cor_est = (cor [0] + cor[1] + cor[2]) / 3.0f; st-> lt_cor_est = 0.01f*cor_est + 0.99f * st-> lt_cor_est;
[0058] Como definido anteriormente, cor[i] é um vetor que compreende estimativas de correlação, e cor [0] representa o fim do quadro atual; cor [1] representa o início do quadro atual e cor [2] representa o fim de um quadro anterior.
[0059] Adicionalmente, um novo recurso, lt_tn_track, é calculado, que oferece uma estimativa de longo prazo de quão frequentemente as estimativas de plano de fundo estão próximas da energia de quadro atual. Quando a energia de quadro atual estiver próxima o suficiente da estimativa de plano de fundo atual, isto é registrado por uma condição que sinaliza (1/0) se o plano de fundo estiver próximo ou não. Este sinal é usado para formar a medida em longo prazo Lt_tn_track. st-> lt_tn_track = 0,03f*(Etot - st->totalNoise<10) + 0.97f*st-> lt_tn_track;
[0060] Neste exemplo, 0,03 é adicionado quando a energia de quadro atual estiver próxima da estimativa do ruído de fundo e, caso contrário, o único termo restante é 0,97 vez o valor anterior. Neste exemplo, "próximo" é definido assim que a diferença entre a energia de quadro atual, Etot, e a estimativa de ruído de fundo, totalNoise, for inferior a 10 unidades. Outras definições de "próximo" também são possíveis.
[0061] Adicionalmente, a distância entre a atual estimativa de plano de fundo, Etot, e a energia do quadro atual, totalNoise, é usada para determinar uma característica, lt_tn_dist, que oferece uma estimativa de longo prazo desta distância. Um recurso semelhante, lt_Ellp_dist, é criado para a distância entre a energia mínima de longo prazo Etot_l_lp e a energia do quadro atual, Etot. st-> lt_tn_dist = 0.03f* (Etot - st-> totalNoise) + 0.97f*st-> lt_tn_dist; st-> lt_Ellp_dist = 0.03f* (Etot - st-> Etot_l_lp) + 0.97f * st-> lt_Ellp_dist;
[0062] O recurso harm_cor_cnt, introduzido anteriormente, é usado para contar o número de quadros desde o último quadro com uma correlação ou um evento harmônico, isto é, desde um quadro que satisfazem certos critérios relacionados à atividade. Isto é, quando a condição harm_cor_cnt==0, isto implica que o quadro atual é, mais provavelmente, um quadro ativo, uma vez que ele mostra correlação ou um evento harmônico. Isto é usado para formar uma estimativa de longo prazo uniformizada, lt_haco_ev, de quão frequentemente tais eventos ocorrem. Neste caso, a atualização não é simétrica, isto é, diferentes constantes de tempo são usadas se a estimativa for aumentada ou diminuída, como pode ser visto a seguir.
Figure img0002
[0063] Um valor baixo do recurso lt_tn_track, introduzido anteriormente, indica que a energia do quadro de entrada não esteve próxima da energia de fundo para alguns quadros. Isto é devido a que o lt_tn_track é diminuído para cada quadro, em que a energia de quadro atual não está próxima da estimativa de energia de fundo. lt_tn_track é aumentado somente quando a energia do quadro atual estiver próxima da estimativa de energia de fundo, da forma mostrada anteriormente. Para se obter uma melhor estimativa de quanto tempo esse “não rastreamento", isto é, a energia do quadro estando longe da estimativa do plano de fundo, durou, um contador, low_tn_track_cnt, para o número de quadros com esta ausência de rastreamento é formado como:
Figure img0003
[0064] No exemplo exposto, “baixo" é definido como abaixo do valor 0,05. Isto deve ser visto como um valor exemplificativo, que pode ser selecionado diferentemente.
[0065] Para a etapa "formar decisões de pausa e música" ilustrada na figura 2, as seguintes três expressões de códigos são usadas para formar a detecção de pausa, também denotada detecção de plano de fundo. Em outras modalidades e implementações, outros critérios também podem ser adicionados para detecção de pausa. A real decisão de música é formada no código usando recursos de correlação e de energia. 1: bg_bgd = Etot < Etot_l_lp + 0.6f * st-> Etot_v_h; bg_bgd se tornará "1" ou "verdadeiro" quando Etot estiver próximo da estimativa do ruído de fundo. bg_bgd serve como uma máscara para outros detectores de plano de fundo. Isto é, se bg_bgd não for "verdadeiro", os detectores de plano de fundo 2 e 3 a seguir não precisam ser avaliadas. Etot_v_h é uma estimativa de variância do ruído, que pode ser alternativamente denotada como Nvar. Etot_v_h é derivado a partir da energia total de entrada (no domínio do registo) usando Etot_v, que mede a variação de energia absoluta entre quadros. Note que o recurso Etot_v_h é limitado a apenas aumentar um máximo de um pequeno valor constante, por exemplo, 0,2 para cada quadro. Etot_l_lp é uma versão uniformizada do mínimo envelope de energia Etot_l. 2: aE_bgd = st-> aEn = = 0;
[0066] Quando aEn for zero, aE_bgd torna-se "1" ou "verdadeiro". aEn é um contador que é incrementado quando um sinal ativo for determinado como presente em um quadro atual e diminui quando o quadro atual for determinado como compreendendo um sinal ativo. aEn não pode ser incrementado mais do que um certo número, por exemplo 6, e não deve ser reduzido para menos do que zero. Depois de um número de quadros consecutivos, por exemplo, 6, sem um sinal ativo, aEn será igual a zero. 3: sd1_bgd = (st->sign_dyn_lp > 15) && (Etot - st->Etot_l_lp ) <st- >Etot_v_h && st->harm_cor_cnt > 20;
[0067] Aqui, sd1_bgd será “1" ou “verdadeiro" quando três diferentes condições forem verdadeiras: A dinâmica do sinal, sign_dyn_lp é alta, neste exemplo, mais de 15; a energia de quadro atual está próxima da estimativa do plano de fundo; e um certo número de quadro passou sem eventos de correlação ou harmônicos, neste exemplo, 20 quadros.
[0068] A função da bg_bgd deve ser um indicador para detectar que a energia do quadro atual está próxima da energia mínima de longo prazo. Os dois últimos, aE_bgd e sd1_bgd representam detecção de pausa ou de plano de fundo em diferentes condições. aE_bgd é o detector mais geral dos dois, ao mesmo tempo em que sd1_bgd detecta principalmente pausas na fala na alta SNR.
[0069] Uma nova lógica de decisão, de acordo com uma modalidade da tecnologia aqui descrita, é construída como segue no código a seguir. A lógica de decisão compreende a condição de mascaramento bg_bgd, e os dois detectores de pausa aE_bgd e sd1_bgd. Também pode haver um terceiro detector de pausa, que avalia as estatísticas de longo prazo para quão bem o totalNoise rastreia a estimativa de energia mínima. As condições avaliadas se a primeira linha for verdadeira compreendem lógica de decisão sobre quão grande o tamanho da etapa deve ser, updt_step, e a atualização da estimativa do ruído atual é a atribuição de valor a "st-> bckr[i] =-". Note que tmpN[i] é um nível de ruído potencialmente novo calculado anteriormente, calculado de acordo com a solução descrita em WO2011/049514. A seguinte lógica de decisão segue a parte 209 da figura 2, que é parcialmente indicada em conexão com o código a seguir
Figure img0004
[0070] O segmento de código no último bloco de código começando com "/ * se, na música... * / contém o escalonamento descendente forçado da estimativa de plano de fundo que é usada se houver suspeita de que a entrada atual é música. Isto é decidido como uma função: longo período de fraco rastreamento de ruído de fundo, comparado com a estimativa de energia mínima, E, frequentes ocorrências de eventos harmônicos ou de correlação, E, a última condição "totalNoise> 0" é uma verificação de que a atual energia total da estimativa de plano de fundo é maior do que zero, o que implica que uma redução da estimativa do plano de fundo pode ser considerada. Adicionalmente, é determinado se "bckr[i] > 2 * E_MIN", em que E_MIN é um pequeno valor positivo. Isto é uma verificação de cada entrada em um vetor que compreende as estimativas de plano de fundo de sub-banda, de maneira tal que uma entrada precise exceder E_MIN a fim de ser reduzida (no exemplo, sendo multiplicada por 0,98). Estas verificações são feitas a fim de evitar a redução das estimativas de plano de fundo em valores muito pequenos.
[0071] As modalidades melhoram a estimativa de ruído de fundo, o que permite o melhor desempenho de SAD / VAD para alcançar solução DTX altamente eficiente e evitar a degradação na qualidade da fala ou música causada pelo recorte.
[0072] Com a remoção da realimentação de decisão descrita em WO2011/09514 do Etot_v_h, há uma melhor separação entre a estimativa do ruído e o SAD. Isso tem benefícios, já que a estimativa de ruído não é alterada se / quando a função / sintonização de SAD for alterada. Isto é, a determinação de uma estimativa do ruído de fundo torna-se independente da função do SAD. Também, a sintonização da lógica de estimativa de ruído se torna mais fácil, já que nada é afetado por efeitos secundários provenientes de SAD quando as estimativas de plano de fundo forem alteradas.
[0073] Abaixo, segue a descrição das figuras que ilustram os problemas resolvidos com as modalidades aqui descritas.
[0074] A figura 6 é um diagrama que mostra a energia, Etot (pontos) de inúmeros quadros de um sinal de áudio. O diagrama mostra o plano de fundo estimado com solução de técnica anterior (curva inferior, mais fina, "x") e estimado de acordo com uma modalidade da solução sugerida (curva superior, mais espessa, "+"). Este diagrama mostra como as modalidades permitem um melhor rastreamento de ruído de fundo pela manutenção da estimativa de energia total em um nível mais alto e pela reação mais rápida, por exemplo, em torno do quadro 2.510, comparado com o 2.610 da solução original.
[0075] A figura 7 também é um diagrama que mostra a energia, Etot (pontos) de um número de quadros de um sinal de áudio. O diagrama mostra o plano de fundo estimado com solução de técnica anterior (curva inferior, mais fina, "x") e estimado de acordo com uma modalidade da solução sugerida (curva superior, mais espessa, "+"). Pode ser visto que a estimativa de acordo com a solução aqui sugerida rastreia o ruído de fundo com mais eficiência, por exemplo, o ruído de fundo entre os enunciados, em particular, na faixa de número de quadros 1.600 - 1.700.
[0076] A figura 8 também é um diagrama que mostra a energia, Etot (pontos) de um número de quadros de um sinal de áudio. O diagrama mostra o plano de fundo estimado com solução de técnica anterior (curva mais superior, mais fina, "x") e estimado de acordo com uma modalidade da solução sugerida (curva mais inferior, mais espessa, "+"). O diagrama mostra o benefício da solução sugerida, em comparação com quando o (técnica anterior) rastreamento de plano de fundo for muito eficiente. Enquanto houver surto de energia no plano de fundo entre quadros 2.300 e 2. 400, há um maior risco de recorte primário do enunciado que começa no quadro 2.400.
[0077] A figura 9 também é um diagrama que mostra a energia, Etot (pontos) de inúmeros quadros de um sinal de áudio, neste caso, um sinal de música. O arquivo de música para esta ilustração tem um início bastante ruidoso, e isso faz com que a estimativa de ruído tome uma decisão errada e permita uma atualização de um bit no interior do arquivo (em torno do quadro 200). No entanto, com a redução de fundo forçada, ele começa a se recuperar no quadro 1.700 e, pelo quadro 2.100, a estimativa do ruído fica reduzida a um nível mais baixo para a redução forçada. Da forma vista a partir da figura, não seria possível ter a mesma redução de nível de plano de fundo com a lógica de atualização normal, já que a entrada é maior do que a estimativa do plano de fundo para a maioria dos quadros. Considerações Finais
[0078] O estimador de plano de fundo descrito anteriormente pode estar compreendido em um SAD, um codec e/ou em um dispositivo, tal como um dispositivo de comunicação. O dispositivo de comunicação pode ser um equipamento de usuário (UE) na forma de um telefone celular, câmera de vídeo, gravador de som, tablet, desktop, laptop, receptor / decodificador integrado de TV, ou servidor doméstico / porta de comunicação doméstica / ponto de acesso doméstico / roteador doméstico. O dispositivo de comunicação pode, em algumas modalidades, ser um dispositivo de rede de comunicações adaptado para codificação e / ou transcodificação. Exemplos de tais dispositivos de rede de comunicações são servidores, tais como servidores de mídia, servidores de aplicação, roteadores, portas de comunicação e estações base de rádio. O dispositivo de comunicação também pode ser adaptado para ser posicionado, isto é, ser embutido em uma embarcação, tais como um navio, drone voador, avião e um veículo de estrada, tais como um carro, ônibus ou caminhão. Um dispositivo embutido como este tipicamente pertenceria a uma unidade de telemática de veículo ou sistema de informação e entretenimento de veículo.
[0079] As etapas, funções, procedimentos, módulos, unidades e/ou blocos aqui descritos podem ser implementados em hardware usando qualquer tecnologia convencional, tais como tecnologia de circuito discreto ou de circuito integrado, incluindo tanto o sistema de circuitos eletrônicos de uso geral quanto o sistema de circuitos específicos de aplicação.
[0080] Exemplos em particular incluem um ou mais processadores de sinais digital adequadamente configurados e outros sistemas de circuitos eletrônicos conhecidos, por exemplos, portas lógicas discretas interconectadas para realizar uma função especializada, ou Circuitos Integrados Específicos de Aplicação.
[0081] Alternativamente, pelo menos alguns das etapas, funções, procedimentos, módulos, unidades e/ou blocos descritos anteriormente podem ser implementados em software, tal como um programa de computador, para execução por um circuito de processamento adequado, incluindo uma ou mais unidades de processamento. O software pode ser conduzido por um portador, tais como um sinal eletrônico, um sinal óptico, um sinal de rádio ou um meio de armazenamento legível por computador antes e/ou durante o uso do programa de computador em nós de rede.
[0082] O fluxograma ou diagramas aqui apresentados podem ser considerados como um fluxograma ou diagramas de computador, quando realizados por um ou mais processadores. Um aparelho correspondente pode ser definido como um grupo de módulos de função, em que cada etapa executada pelo processador corresponde a um módulo de função. Neste caso, os módulos de função são implementados como um programa de computador em execução no processador.
[0083] Exemplos do sistema de circuitos de processamento incluem, mas sem limitações, um ou mais microprocessadores, um ou mais Processadores de Sinal Digital, PSDs, uma ou mais Unidades de Processamento Central, CPUs, e/ou qualquer sistema de circuitos lógico programável adequado, tais como um ou mais Arranjos de Portas Programáveis no Campo, FPGAs, ou um ou mais Controladores Lógicos Programáveis, CLP. Isto é, as unidades ou módulos nos arranjos em diferentes nós descritos anteriormente podem ser implementados por uma combinação de circuitos analógicos e digitais, e/ou um ou mais processadores configurados com software e/ou firmware, por exemplo, em uma memória. Um ou mais destes processadores, bem como o outro hardware digital, podem ser incluídos em um único sistema de circuitos integrados específicos de aplicação, ASIC, ou diversos processadores e vários hardwares digitais podem ser distribuídos entre diversos componentes separados, se acondicionados individualmente ou montados em um sistema em um chip (SoC).
[0084] Também deve ser entendido que pode ser possível reusar as capacidades de processamento gerais de qualquer dispositivo ou unidade convencionais nos quais a tecnologia proposta é implementada. Também pode ser possível reusar software existente, por exemplo, pela reprogramação do software existente ou pela adição de novos componentes de software.
[0085] As modalidades descritas anteriormente são dadas meramente como exemplos, e deve ser entendido que a tecnologia proposta não é limitada às mesmas. Será compreendido por versados na técnica várias modificações, combinações e mudanças podem ser feitas nas modalidades sem fugir do presente escopo. Em particular, diferentes soluções parciais nas diferentes modalidades podem ser combinadas em outras configurações, quando tecnicamente possível.
[0086] Durante o uso das palavras "compreende" ou "compreendendo", as mesmas devem ser interpretadas como não limitantes, isto é, significando "consiste pelo menos em".
[0087] Também deve ser notado que, em algumas implementações alternativas, as funções / atos notados nos blocos podem ocorrer fora da ordem notada nos fluxogramas. Por exemplo, dois blocos mostrados em sucessão podem, de fato, ser executados de forma substancialmente concorrente ou os blocos podem, algumas vezes, ser executados na ordem inversa, dependendo das funcionalidades / atos envolvidos. Além disso, a funcionalidade de um dado bloco dos fluxogramas e/ou diagramas de bloco pode ser separada em múltiplos blocos e/ou a funcionalidade de dois ou mais blocos dos fluxogramas e/ou diagramas de bloco pode ser pelo menos parcialmente integrada. Finalmente, outros blocos podem ser adicionados / inseridos entre os blocos que são ilustrados, e/ou blocos / operações podem ser omitidos sem fugir do escopo dos conceitos inventivos.
[0088] Deve-se entender que a escolha de unidades de interação, bem como a nomeação das unidades nesta descrição, é somente com o propósito exemplificativo, e nós adequados para executar qualquer um dos métodos descritos anteriormente podem ser configurados em uma pluralidade de maneiras alternativas a fim de poder executar as ações de procedimento sugeridas.
[0089] Também deve ser notado que as unidades descritas nesta descrição devem ser consideradas como entidades lógicas e não necessariamente como entidades físicas separadas.
[0090] Não se pretende que referência a um elemento no singular signifique "um e apenas um", a menos que explicitamente assim declarado, mas, em vez disto, "um ou mais". Todos os equivalentes estruturais e funcionais dos elementos das modalidades supradescritas, que são conhecidos pelos versados na técnica, são expressamente aqui incorporados pela referência e pretende-se que sejam por meio desta abrangidos. Além do mais, não é necessário que um dispositivo ou método abordem todo e qualquer problema que buscasse resolver pela tecnologia aqui descrita para que ele seja abrangido por meio desta.
[0091] Em algumas instâncias aqui expostas, descrições detalhadas de dispositivos, circuitos e métodos bem conhecidos são omitidas para não obscurecer a descrição da tecnologia descrita com detalhes desnecessários. Pretende-se que todas as declarações aqui expostas que citam princípios, aspectos e modalidades da tecnologia descrita, bem como exemplos específicos da mesma, abranjam equivalentes tanto estruturais quanto funcionais da mesma. Adicionalmente, pretende-se que tais equivalentes incluam equivalentes tanto equivalentes atualmente conhecidos, bem como equivalentes desenvolvidos no futuro, por exemplo, quaisquer elementos desenvolvidos que realizem a mesma função, independente da estrutura. Abreviaturas AMR Múltiplas Taxas Adaptativas DTX Transmissão Descontínua VAD Detector de Atividade de Voz 3GPP Projeto de Parceria da Terceira Geração SID Descritor de Inserção de Silêncio SAD Detector de Atividade de Voz SNR Razão de Sinal por Ruído WB Banda Larga

Claims (12)

1. Método de estimativa de ruído de fundo que oferece suporte à detecção de atividade de som em um segmento de sinal de áudio, caracterizado pelo fato de que compreende: calcular uma nova estimativa de ruído de fundo possível para o segmento de sinal de áudio e atualizar uma estimativa de ruído de fundo atual com a nova estimativa de ruído de fundo se o novo valor é menor do que o valor atual; e quando o nível de energia do segmento de sinal de áudio for menor do que um limite superior (202:2) em relação a um nível de energia mínima de longo prazo, lt_min, que é determinado durante uma pluralidade de segmentos do sinal de áudio precedentes, mas nenhuma pausa for detectada (204:1) no segmento de sinal de áudio: - reduzir (206) a estimativa de ruído de fundo atual quando for determinado que o segmento de sinal de áudio (203:2) compreende música e a estimativa de ruído de fundo atual excede um valor mínimo (205:1).
2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a decisão sobre se o nível de energia do segmento de sinal de áudio é maior do que um limite superior a lt_min é com base somente em informação derivada a partir de um sinal de áudio de entrada.
3. Método de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que uma pausa é considerada como sendo detectada quando um ou ambos dos seguintes for satisfeito, além do fato de que o nível de energia do segmento de sinal de áudio é inferior a um limite superior a lt_min: - um número predefinido de segmentos de sinal de áudio precedentes consecutivos foi determinado por não compreender um sinal ativo; - uma dinâmica do sinal de áudio excede um limite.
4. Estimador de ruído de fundo (500), que oferece suporte à detecção de som em um segmento de sinal de áudio, caracterizado pelo fato de que o estimador de ruído de fundo é configurado para: calcular uma nova estimativa de ruído de fundo possível para o segmento de sinal de áudio e atualizar uma estimativa de ruído de fundo atual com a nova estimativa de ruído de fundo se o novo valor é menor do que o valor atual; e quando o nível de energia do segmento de sinal de áudio for menor do que um limite superior em relação a um nível de energia mínima de longo prazo, lt_min, que é determinado durante uma pluralidade de segmentos do sinal de áudio precedentes, mas nenhuma pausa for detectada no segmento de sinal de áudio: - reduzir a estimativa de ruído de fundo atual quando o segmento de sinal de áudio for determinado por compreender música e a estimativa de ruído de fundo atual exceder um valor mínimo.
5. Estimador de ruído de fundo de acordo com a reivindicação 4, caracterizado pelo fato de que é configurado para decidir se o nível de energia do segmento de sinal de áudio é maior do que um limite superior a lt_min com base somente em informação derivada a partir de um sinal de áudio de entrada.
6. Estimador de ruído de fundo de acordo com a reivindicação 4 ou 5, caracterizado pelo fato de que é configurado para detectar uma pausa quando um ou ambos dos seguintes for satisfeito, além do fato de que o nível de energia do segmento de sinal de áudio é inferior a um limite superior a lt_min: - um número predefinido de segmentos de sinal de áudio precedentes consecutivos foi determinado por não compreender um sinal ativo; -uma dinâmica do sinal de áudio excede um limite.
7. Detector de Atividade de Som, SAD, caracterizado pelo fato de que compreende um estimador de ruído de fundo como definido em qualquer uma das reivindicações 4 a 6.
8. Codec, caracterizado pelo fato de que compreende um estimador de ruído de fundo como definido em qualquer uma das reivindicações 4 a 6.
9. Dispositivo sem fio, caracterizado pelo fato de que compreende um estimador de ruído de fundo como definido em qualquer uma das reivindicações 4 a 6.
10. Nó de rede, caracterizado pelo fato de que compreende um estimador de ruído de fundo como definido em qualquer uma das reivindicações 4 a 6.
11. Meio de armazenamento legível por computador, caracterizado pelo fato de que contém em si instruções armazenadas, as quais, quando executadas em pelo menos um processador, fazem com que o pelo menos um processador realize o método conforme definido em qualquer uma das reivindicações 1 a 3.
12. Meio de armazenamento legível por computador de acordo com a reivindicação 11, caracterizado pelo fato de que é um dentre um sinal eletrônico, um sinal óptico, um sinal de rádio ou um portador.
BR112016014104-0A 2013-12-19 2014-12-01 método de estimativa de ruído de fundo, estimador de ruído de fundo, detector de atividade de som, codec, dispositivo sem fio, nó de rede, meio de armazenamento legível por computador BR112016014104B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361918258P 2013-12-19 2013-12-19
US61/918,258 2013-12-19
PCT/SE2014/051427 WO2015094083A1 (en) 2013-12-19 2014-12-01 Estimation of background noise in audio signals

Publications (1)

Publication Number Publication Date
BR112016014104B1 true BR112016014104B1 (pt) 2020-12-29

Family

ID=53403240

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016014104-0A BR112016014104B1 (pt) 2013-12-19 2014-12-01 método de estimativa de ruído de fundo, estimador de ruído de fundo, detector de atividade de som, codec, dispositivo sem fio, nó de rede, meio de armazenamento legível por computador

Country Status (11)

Country Link
US (5) US9626986B2 (pt)
EP (3) EP3438979B1 (pt)
CN (3) CN110265058B (pt)
BR (1) BR112016014104B1 (pt)
DK (1) DK3719801T3 (pt)
ES (3) ES2819032T3 (pt)
HU (1) HUE041826T2 (pt)
PL (1) PL3084763T3 (pt)
PT (1) PT3438979T (pt)
RU (3) RU2720357C2 (pt)
WO (1) WO2015094083A1 (pt)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10375131B2 (en) * 2017-05-19 2019-08-06 Cisco Technology, Inc. Selectively transforming audio streams based on audio energy estimate
CN111261143B (zh) * 2018-12-03 2024-03-22 嘉楠明芯(北京)科技有限公司 一种语音唤醒方法、装置及计算机可读存储介质
KR20210031265A (ko) * 2019-09-11 2021-03-19 삼성전자주식회사 전자 장치 및 그 동작방법
CN111554314A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 噪声检测方法、装置、终端及存储介质
CN112908352B (zh) * 2021-03-01 2024-04-16 百果园技术(新加坡)有限公司 一种音频去噪方法、装置、电子设备及存储介质
CN114495907A (zh) * 2022-01-27 2022-05-13 多益网络有限公司 自适应的语音活动检测方法、装置、设备以及存储介质
CN115347978B (zh) * 2022-08-03 2023-09-01 新诺北斗航科信息技术(厦门)股份有限公司 一种识别ais帧头数据的方法、装置及存储介质

Family Cites Families (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4025721A (en) * 1976-05-04 1977-05-24 Biocommunications Research Corporation Method of and means for adaptively filtering near-stationary noise from speech
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
DE3236000A1 (de) * 1982-09-29 1984-03-29 Blaupunkt-Werke Gmbh, 3200 Hildesheim Verfahren zum klassifizieren von audiosignalen
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
FR2687496B1 (fr) * 1992-02-18 1994-04-01 Alcatel Radiotelephone Procede de reduction de bruit acoustique dans un signal de parole.
US5485522A (en) * 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5768473A (en) * 1995-01-30 1998-06-16 Noise Cancellation Technologies, Inc. Adaptive speech filter
US5763473A (en) 1996-12-06 1998-06-09 American Home Procucts Corporation Use of 2-substituted benzimidazole as smooth muscle cell proliferation inhibitors
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US5845522A (en) * 1997-03-10 1998-12-08 Shen; Mu-Lin Fastening arrangement for a cylindrical lock
FI113903B (fi) * 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US6035048A (en) * 1997-06-18 2000-03-07 Lucent Technologies Inc. Method and apparatus for reducing noise in speech and audio signals
US6122384A (en) * 1997-09-02 2000-09-19 Qualcomm Inc. Noise suppression system and method
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6108610A (en) * 1998-10-13 2000-08-22 Noise Cancellation Technologies, Inc. Method and system for updating noise estimates during pauses in an information signal
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6381568B1 (en) * 1999-05-05 2002-04-30 The United States Of America As Represented By The National Security Agency Method of transmitting speech using discontinuous transmission and comfort noise
US6519559B1 (en) * 1999-07-29 2003-02-11 Intel Corporation Apparatus and method for the enhancement of signals
EP1125275B1 (en) * 1999-08-10 2011-02-09 Telogy Networks Inc. Background energy estimation
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US7263074B2 (en) * 1999-12-09 2007-08-28 Broadcom Corporation Voice activity detection based on far-end and near-end statistics
DE10017646A1 (de) * 2000-04-08 2001-10-11 Alcatel Sa Geräuschunterdrückung im Zeitbereich
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
US6963834B2 (en) * 2001-05-29 2005-11-08 International Business Machines Corporation Method of speech recognition using empirically determined word candidates
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
AU2003256724A1 (en) * 2002-07-26 2004-02-16 Motorola, Inc. Method for fast dynamic estimation of background noise
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
JP4460256B2 (ja) 2003-10-02 2010-05-12 日本電信電話株式会社 雑音低減処理方法、この方法を実施する装置、プログラム、記録媒体
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
US20050159942A1 (en) * 2004-01-15 2005-07-21 Manoj Singhal Classification of speech and music using linear predictive coding coefficients
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7558729B1 (en) * 2004-07-16 2009-07-07 Mindspeed Technologies, Inc. Music detection for enhancing echo cancellation and speech coding
US7454010B1 (en) * 2004-11-03 2008-11-18 Acoustic Technologies, Inc. Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
JP4551817B2 (ja) 2005-05-20 2010-09-29 Okiセミコンダクタ株式会社 ノイズレベル推定方法及びその装置
US20070078645A1 (en) * 2005-09-30 2007-04-05 Nokia Corporation Filterbank-based processing of speech signals
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
JP4321518B2 (ja) * 2005-12-27 2009-08-26 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US20080033583A1 (en) * 2006-08-03 2008-02-07 Broadcom Corporation Robust Speech/Music Classification for Audio Signals
US8326620B2 (en) * 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) * 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US7521622B1 (en) * 2007-02-16 2009-04-21 Hewlett-Packard Development Company, L.P. Noise-resistant detection of harmonic segments of audio signals
ES2533358T3 (es) * 2007-06-22 2015-04-09 Voiceage Corporation Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido
US20090012786A1 (en) * 2007-07-06 2009-01-08 Texas Instruments Incorporated Adaptive Noise Cancellation
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
US20090043577A1 (en) * 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
KR101230479B1 (ko) 2008-03-10 2013-02-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법
JP4631939B2 (ja) * 2008-06-27 2011-02-16 ソニー株式会社 ノイズ低減音声再生装置およびノイズ低減音声再生方法
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US8798289B1 (en) * 2008-08-05 2014-08-05 Audience, Inc. Adaptive power saving for an audio device
ES2678415T3 (es) 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
ATE515020T1 (de) * 2009-03-20 2011-07-15 Harman Becker Automotive Sys Verfahren und vorrichtung zur dämpfung von rauschen in einem eingangssignal
EP2234105B1 (en) * 2009-03-23 2011-06-08 Harman Becker Automotive Systems GmbH Background noise estimation
US8244523B1 (en) * 2009-04-08 2012-08-14 Rockwell Collins, Inc. Systems and methods for noise reduction
KR101616054B1 (ko) * 2009-04-17 2016-04-28 삼성전자주식회사 음성 검출 장치 및 방법
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
DE102009034235A1 (de) 2009-07-22 2011-02-17 Daimler Ag Stator eines Hybrid- oder Elektrofahrzeuges, Statorträger
DE102009034238A1 (de) 2009-07-22 2011-02-17 Daimler Ag Statorsegment und Stator eines Hybrid- oder Elektrofahrzeuges
DE112009005215T8 (de) * 2009-08-04 2013-01-03 Nokia Corp. Verfahren und Vorrichtung zur Audiosignalklassifizierung
KR20110036175A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 멀티밴드를 이용한 잡음 제거 장치 및 방법
JP5712220B2 (ja) * 2009-10-19 2015-05-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声活動検出のための方法および背景推定器
CA2778343A1 (en) * 2009-10-19 2011-04-28 Martin Sehlstedt Method and voice activity detector for a speech encoder
ES2645415T3 (es) * 2009-11-19 2017-12-05 Telefonaktiebolaget Lm Ericsson (Publ) Métodos y disposiciones para la compensación de volumen y nitidez en códecs de audio
US8606571B1 (en) * 2010-04-19 2013-12-10 Audience, Inc. Spatial selectivity noise reduction tradeoff for multi-microphone systems
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
EP2629295B1 (en) * 2012-02-16 2017-12-20 2236008 Ontario Inc. System and method for noise estimation with music detection
CN102820035A (zh) * 2012-08-23 2012-12-12 无锡思达物电子技术有限公司 一种对长时变噪声的自适应判决方法
GB2521881B (en) * 2014-04-02 2016-02-10 Imagination Tech Ltd Auto-tuning of non-linear processor threshold
PL3309784T3 (pl) 2014-07-29 2020-02-28 Telefonaktiebolaget Lm Ericsson (Publ) Szacowanie szumu tła w sygnałach audio

Also Published As

Publication number Publication date
ES2941782T3 (es) 2023-05-25
RU2020114434A (ru) 2021-10-25
US20170186447A1 (en) 2017-06-29
EP3084763A4 (en) 2016-12-14
US20160314799A1 (en) 2016-10-27
WO2015094083A1 (en) 2015-06-25
CN110265058A (zh) 2019-09-20
DK3719801T3 (da) 2023-02-27
US9818434B2 (en) 2017-11-14
CN105830154B (zh) 2019-06-28
RU2020114434A3 (pt) 2021-12-02
US20180033455A1 (en) 2018-02-01
EP3084763B1 (en) 2018-10-24
CN105830154A (zh) 2016-08-03
RU2017112844A (ru) 2019-01-25
US9626986B2 (en) 2017-04-18
US10311890B2 (en) 2019-06-04
US11164590B2 (en) 2021-11-02
EP3719801A1 (en) 2020-10-07
PL3084763T3 (pl) 2019-03-29
EP3719801B1 (en) 2023-02-01
ES2697423T3 (es) 2019-01-23
CN110265058B (zh) 2023-01-17
CN110265059B (zh) 2023-03-31
RU2618940C1 (ru) 2017-05-11
EP3438979A1 (en) 2019-02-06
PT3438979T (pt) 2020-07-28
EP3084763A1 (en) 2016-10-26
US10573332B2 (en) 2020-02-25
RU2720357C2 (ru) 2020-04-29
CN110265059A (zh) 2019-09-20
ES2819032T3 (es) 2021-04-14
HUE041826T2 (hu) 2019-05-28
EP3438979B1 (en) 2020-06-24
RU2017112844A3 (pt) 2020-03-25
US20190259407A1 (en) 2019-08-22
US20200152217A1 (en) 2020-05-14

Similar Documents

Publication Publication Date Title
BR112016014104B1 (pt) método de estimativa de ruído de fundo, estimador de ruído de fundo, detector de atividade de som, codec, dispositivo sem fio, nó de rede, meio de armazenamento legível por computador
JP6788086B2 (ja) オーディオ信号における背景雑音の推定
BR112015003356B1 (pt) Método e aparelho para detecção de atividade de voz, codec para codificar voz ou som
NZ743390B2 (en) Estimation of background noise in audio signals

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 01/12/2014, OBSERVADAS AS CONDICOES LEGAIS.