BR112016020066B1 - Método implementado por computador e um sistema para supressão de ruído transiente em um sinal de áudio - Google Patents

Método implementado por computador e um sistema para supressão de ruído transiente em um sinal de áudio Download PDF

Info

Publication number
BR112016020066B1
BR112016020066B1 BR112016020066-7A BR112016020066A BR112016020066B1 BR 112016020066 B1 BR112016020066 B1 BR 112016020066B1 BR 112016020066 A BR112016020066 A BR 112016020066A BR 112016020066 B1 BR112016020066 B1 BR 112016020066B1
Authority
BR
Brazil
Prior art keywords
probability
segment
estimated
suppression
voice
Prior art date
Application number
BR112016020066-7A
Other languages
English (en)
Other versions
BR112016020066A2 (pt
Inventor
Jan Skoglund
Alejandro LUEBS
Original Assignee
Google Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google Llc filed Critical Google Llc
Publication of BR112016020066A2 publication Critical patent/BR112016020066A2/pt
Publication of BR112016020066B1 publication Critical patent/BR112016020066B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • Noise Elimination (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

SUPRESSÃO DE TRANSIENTE DEPENDENTE DE SITUAÇÃO São fornecidos métodos e sistemas para fornecer supressão de ruído transiente dependente de situação para os sinais de áudio. Estratégias diferentes (por exemplo, níveis de agressividade) de supressão de transiente e recuperação de sinal são aplicadas aos sinais de áudio associados com os participantes da conferência de áudio/vídeo, dependendo se ou não cada participante está falando (por exemplo, se um segmento falado ou um segmento de áudio sem voz está presente). Se nenhum participante está falando ou se houver um som sem voz presente, uma estratégia mais agressiva para supressão de transiente e restauração de sinal é utilizada. Por outro lado, onde o áudio falado é detec-tado (por exemplo, um participante está falando), os métodos e sistemas apli-cam um processo de supressão e restauração menos agressivo, mais suave.

Description

FUNDAMENTOS
[001] Em uma típica chamada de áudio ou vídeo, especialmente uma que envolve muitos participantes, ruído gerado pelos participantes não falantes pode contaminar o discurso do participante que está falando, causando uma distração ou mesmo interrompendo a conversa. Um exemplo de cenário é onde cada participante em uma chamada de conferência está usando o seu próprio computador para se conectar a chamada e está trabalhando em uma tarefa em paralelo, também usando o computador (por exemplo, digitando notas sobre a chamada). Enquanto microfones, alto-falantes e câmeras de internet embutidos em computadores (por exemplo, computadores portáteis) fizeram teleconferências muito fáceis de configurar, esses recursos também introduziram poluição sonora específica, tais como retorno, ruído de ventoinha, e ruído de clique de botão. Ruído de clique de botão, que é geralmente devido aos impulsos mecânicos causados por teclas, pode incluir cliques de tecla irritantes que todos os participantes na chamada podem ouvir além da conversa principal. No contexto de computadores portáteis, por exemplo, ruído de clique de botão pode ser um incômodo importante devido à conexão mecânica entre o microfone dentro do invólucro portátil e o teclado.
[002] O impacto que ruídos transientes tais como cliques de tecla tem sobre a experiência geral do usuário depende da situação em que ocorrem. Por exemplo, em segmentos de fala falados ativos, cliques de tecla misturados com a voz do participante que está falando são melhores mascarados e menos detectáveis para outros participantes do que durante períodos de silêncio ou períodos em que apenas o ruído de fundo está presente. Nestas últimas situações os cliques de tecla são susceptíveis de serem mais perceptíveis para os participantes e percebidos como mais um aborrecimento ou distração.
SUMÁRIO
[003] Este Sumário introduz uma variedade de conceitos de uma forma simplificada, a fim de fornecer uma compreensão básica de alguns aspectos da presente divulgação. Este Sumário não é uma grande vista geral da descrição, e não se destina a identificar elementos chave ou críticos de divulgação ou delinear o âmbito da divulgação. Este Sumário apenas apresenta alguns dos conceitos da divulgação como um prelúdio para a descrição detalhada abaixo.
[004] A presente invenção refere-se genericamente a métodos e sistemas de processamento de sinal. Mais especificamente, os aspectos da presente invenção referem- se à realização de diferentes tipos ou quantidades de supressão de ruído em diferentes tipos de segmentos de áudio (por exemplo, segmentos de voz falados, segmentos não falados, etc.), dados segmentos classificados e transientes detectados.
[005] Uma modalidade da presente invenção refere-se a um método implementado por computador para suprimir ruído transiente em um sinal de áudio, o método compreendendo: estimar uma probabilidade de voz para um segmento do sinal de áudio contendo ruído transiente, a probabilidade de voz estimada sendo uma probabilidade que o segmento contém dados de voz; em resposta a determinar que a probabilidade de voz estimada para o segmento é maior do que um limiar de probabilidade realizar um primeiro tipo de supressão no segmento; e em resposta a determinar que a probabilidade de voz estimada para o segmento é menor do que o limiar de probabilidade executar um segundo tipo de supressão no segmento, em que o segundo tipo de supressão suprime o ruído transiente contido no segmento para uma extensão diferente do primeiro tipo de supressão.
[006] Em outra modalidade, o método para suprimir ruído transiente compreende ainda comparar a probabilidade de voz estimada para o segmento para um limiar de probabilidade, e determinar que a probabilidade de voz estimada é maior do que o limiar de probabilidade com base na comparação.
[007] Em ainda outra modalidade, o método para suprimir ruído transiente compreende ainda comparar a probabilidade de voz estimada para o segmento para um limiar de probabilidade, e determinar que a probabilidade de voz estimada é menor do que o limiar de probabilidade com base na comparação.
[008] Em ainda outra modalidade, o método para suprimir ruído transiente compreende ainda receber uma probabilidade de transiente estimada para o segmento do sinal de áudio, a probabilidade de transiente estimada sendo uma probabilidade que um ruído transiente está presente no segmento, e determinar que o segmento do sinal de áudio contém ruído transiente com base na probabilidade de transiente estimada recebida.
[009] Outra modalidade da presente invenção refere-se a um sistema para suprimir ruído transiente em um sinal de áudio, o sistema compreendendo pelo menos um processador e um meio legível por computador acoplado ao pelo menos um processador tendo instruções armazenadas no mesmo que, quando executadas pelo menos um processador, fazem o pelo menos um processador: estimar uma probabilidade de voz para um segmento do sinal de áudio contendo ruído transiente, a probabilidade de voz estimada sendo uma probabilidade que o segmento contém dados de voz; responsivo a determinar que a probabilidade de voz estimada para o segmento é maior do que um limiar de probabilidade realizar um primeiro tipo de supressão no segmento; e responsivo a determinar que a probabilidade de voz estimada para o segmento é menor do que o limiar de probabilidade, realizar um segundo tipo de supressão no segmento, em que o segundo tipo de supressão suprime o ruído transiente contido no segmento para uma extensão diferente do primeiro tipo de supressão.
[0010] Em uma outra modalidade, o pelo menos um processador no sistema para suprimir ruído transiente é ainda feito identificar regiões do segmento onde as cordas vocais estão vibrando, e determinar que as regiões do segmento onde as cordas vocais estão vibrando são regiões contendo voz falada.
[0011] Em ainda outra modalidade, o pelo menos um processador no sistema para suprimir ruído transiente é ainda feito comparar a probabilidade de voz estimada para o segmento para um limiar de probabilidade, e determinar que a probabilidade de voz estimada é maior do que o limiar de probabilidade com base na comparação.
[0012] Em ainda outra modalidade, o pelo menos um processador no sistema para suprimir ruído transiente é ainda feito comparar a probabilidade de voz estimada para o segmento para um limiar de probabilidade, e determinar que a probabilidade de voz estimada é menor do que o limiar de probabilidade com base na comparação.
[0013] Em uma outra modalidade, o pelo menos um processador no sistema para suprimir ruído transiente é ainda feito receber uma probabilidade de transiente estimada para o segmento do sinal de áudio, a probabilidade de transiente estimada sendo uma probabilidade que um ruído transiente está presente no segmento; e determinar que o segmento do sinal de áudio contém ruído transiente com base na probabilidade de transiente estimada recebida.
[0014] Ainda uma outra modalidade da presente invenção refere-se a um método implementado por computador para suprimir ruído transiente em um sinal de áudio, o método compreendendo: estimar uma probabilidade de voz para um segmento do sinal de áudio contendo ruído transiente, a probabilidade de voz estimada sendo uma probabilidade que o segmento contém dados de voz; em resposta a determinar que a probabilidade de voz estimada para o segmento corresponde a um primeiro estado de voz, executar um primeiro tipo de supressão no segmento; e em resposta a determinar que a probabilidade de voz estimada para o segmento corresponde a um segundo estado de voz, executar um segundo tipo de supressão no segmento, em que o segundo tipo de supressão suprime o ruído transiente contido no segmento para uma extensão diferente do primeiro tipo de supressão.
[0015] Em ainda outra modalidade, o método para suprimir ruído transiente compreende ainda, em resposta a determinar que a probabilidade de voz estimada para o segmento corresponde a um terceiro estado de voz, executar um terceiro tipo de supressão no segmento, em que o terceiro tipo de supressão suprime o ruído transiente contido no segmento para uma extensão diferente do que o primeiro e segundo tipos de supressão.
[0016] Em uma ou mais outras modalidades, os métodos e sistemas aqui descritos podem, opcionalmente, incluir uma ou mais das seguintes características adicionais: a probabilidade de voz estimada é com base na informação de voz recebida a partir de um estimador de altura de som; estimar a probabilidade de voz para o segmento do sinal de áudio inclui identificar regiões do segmento contendo voz falada; identificar regiões do segmento contendo voz falada inclui identificar regiões do segmento em que as pregas vocais estão vibrando; a probabilidade de voz estimada para o segmento do sinal de áudio é com base em dados de atividade de voz recebidos para o segmento do sinal de áudio; o segundo tipo de supressão suprime o ruído transiente contido no segmento para uma extensão maior do que o primeiro tipo de supressão; e/ou o segundo tipo de supressão suprime o ruído transiente contido no segmento para uma menor extensão do que o primeiro tipo de supressão.
[0017] Um âmbito adicional de aplicabilidade da presente invenção será evidente a partir da descrição detalhada dada abaixo. No entanto, deve ser entendido que a descrição detalhada e os exemplos específicos, embora indicando modalidades preferidas, são dados a título de ilustração apenas, uma vez que várias alterações e modificações dentro do espírito e âmbito da divulgação serão evidentes para os peritos na arte a partir desta descrição detalhada.
BREVE DESCRIÇÃO DOS DESENHOS
[0018] Estes e outros objetos, aspectos e características da presente invenção irão tornar-se mais evidentes para os peritos na arte a partir de um estudo da seguinte descrição detalhada em conjunto com as reivindicações e os desenhos em anexo, os quais formam uma parte desta especificação. Nos desenhos:
[0019] A Figura 1 é um diagrama esquemático ilustrando um exemplo de aplicação para supressão de ruído transiente dependente de situação de acordo com uma ou mais modalidades aqui descritas.
[0020] A Figura 2 é um diagrama de blocos ilustrando um sistema de exemplo para supressão de ruído transiente dependente de situação de acordo com uma ou mais modalidades aqui descritas.
[0021] A Figura 3 é um fluxograma ilustrando um método de exemplo de supressão de ruído transiente e recuperação de um sinal de áudio de acordo com uma ou mais modalidades aqui descritas.
[0022] A Figura 4 é um fluxograma ilustrando um método de exemplo para recuperação de um sinal de áudio com base na determinação de que o sinal de áudio contém dados de áudio sem voz de acordo com uma ou mais modalidades aqui descritas.
[0023] A Figura 5 é um fluxograma ilustrando um método de exemplo para recuperação de um sinal de áudio com base na determinação de que o sinal de áudio contém dados de voz de acordo com uma ou mais modalidades aqui descritas.
[0024] A Figura 6 é um diagrama de blocos ilustrando um dispositivo de computação de exemplo disposto para supressão de ruído transiente dependente de situação de acordo com uma ou mais modalidades aqui descritas.
[0025] Os títulos aqui fornecidos são apenas para conveniência e não afetam necessariamente o alcance ou o significado do que é reivindicado na presente divulgação.
[0026] Nos desenhos, os mesmos números de referência e todos os acrônimos identificam elementos ou atos com a mesma ou similar funcionalidade ou estrutura para facilidade de compreensão e conveniência. Os desenhos serão descritos em detalhe no decurso da seguinte Descrição Detalhada.
DESCRIÇÃO DETALHADA
[0027] Vários exemplos e modalidades serão agora descritos. A descrição a seguir fornece detalhes específicos para uma compreensão completa e permitindo descrição desses exemplos. Um perito na técnica relevante irá compreender, contudo, que uma ou mais modalidades aqui descritas podem ser praticadas sem muitos destes detalhes. Do mesmo modo, um perito na especialidade relevante, também vai compreender que uma ou mais modalidades da presente invenção podem incluir muitas outras características óbvias, não descritas aqui em detalhe. Além disso, algumas estruturas ou funções bem conhecidas podem não ser apresentadas ou descritas em detalhe a seguir, de modo a evitar obscurecer desnecessariamente a descrição relevante.
[0028] No contexto de metodologias de supressão de ruído existentes, geralmente há uma troca de projeto feita entre supressão e distorção de voz. Por exemplo, em pelo menos algumas abordagens existentes maior supressão muitas vezes vem com o preço de distorcer o sinal de voz a partir do qual o ruído foi suprimido.
[0029] Modalidades da presente invenção referem-se a métodos e sistemas para fornecer supressão de ruído transiente dependente de situação para os sinais de áudio. Em vista das deficiências descritas acima em relação às abordagens existentes para a supressão de ruído de ruídos transientes, os métodos e sistemas da presente invenção são concebidos para executar supressão de ruído transiente aumentada (por exemplo, um nível mais elevado ou uma estratégia mais agressiva de) e restauração de sinal em situações em que existe pouco ou nenhuma voz detectada em um sinal, e realizar supressão de ruído transiente diminuída (por exemplo, um nível inferior de ou uma estratégia menos agressiva de) e restauração de sinal durante segmentos de voz falada do sinal. Como será descrito em maior detalhe abaixo, os métodos e sistemas da presente divulgação utilizam tipos diferentes (por exemplo, quantidades) de supressão de ruído durante diferentes tipos de segmentos de áudio (por exemplo, segmentos de voz falados, segmentos não falados, etc.), dados segmentos classificados e transientes detectados.
[0030] Em conformidade com uma ou mais modalidades aqui descritas, diferentes tipos (por exemplo, tipos, quantidades, etc.) de supressão podem ser aplicados a um sinal de áudio associado a um usuário dependendo ou não do usuário falando (por exemplo, se o sinal associado ao usuário contém um segmento falado ou um segmento áudio sem voz). Por exemplo, de acordo com pelo menos uma modalidade, se um participante não está falando ou o sinal associado com o participante contém um segmento de áudio sem voz, uma estratégia mais agressiva para a supressão transiente e recuperação de sinal pode ser utilizada para esse sinal do participante. Por outro lado, onde áudio falado é detectado no sinal do participante (por exemplo, o participante está falando), os métodos e sistemas aqui descritos podem aplicar supressão e restauração mais suaves, menos agressivas.
[0031] A aplicação de supressão e restauração mais suaves para um sinal contendo áudio falado minimiza qualquer distorção do sinal, mantendo, assim, inteligibilidade da fala resultante gerada a partir do sinal. Através da aplicação de diferentes esquemas de supressão e de restauração de acordo com um "estado de voz" determinado para cada sinal elimina a necessidade de escolher entre suprimir todos os transientes detectados (e, como resultado, o que distorce a fala contida no sinal) e não exercer qualquer supressão no geral (e, por conseguinte, evitar a distorção, mas permitindo que o sinal contenha transientes). Em conformidade com uma ou mais modalidades aqui descritas, um estado de voz pode ser determinado para um segmento de áudio com base em, por exemplo, uma probabilidade de voz estimada gerada para o segmento, em que a probabilidade de voz estimada é uma probabilidade que o segmento contém dados de voz (por exemplo, fala).
[0032] Uma ou mais modalidades aqui descritas referem- se a um componente de supressão de ruído configurado para suprimir ruído transiente detectado, incluindo cliques de tecla, a partir de um fluxo de áudio. Por exemplo, de acordo com pelo menos uma modalidade, a supressão de ruído é efetuada no domínio da frequência e conta com uma probabilidade da existência de um ruído transiente, que é assumido dado. Deve ser entendido que qualquer uma variedade de detectores de ruído transiente conhecidos dos peritos na arte pode ser utilizado para este fim.
[0033] A Figura 1 ilustra um exemplo de aplicação para supressão de ruído transiente dependente de situação de acordo com uma ou mais modalidades da presente divulgação. Por exemplo, vários usuários (por exemplo, participantes, indivíduos, etc.) 120a, 120b, 120c, a 120n (onde "n" é um número arbitrário) podem estar participando de uma sessão de comunicação de áudio/vídeo (por exemplo, uma conferência de áudio/vídeo). Os usuários 120 podem estar em comunicação com cada um através, por exemplo, de uma conexão ou rede com fio ou sem fio 105, e cada um dos usuários 120 pode estar participando na sessão de comunicação utilizando qualquer um de uma variedade de dispositivos de usuário aplicáveis 130 (por exemplo, computador portátil, computador de mesa, computador tablet, telefone inteligente, etc.).
[0034] De acordo com pelo menos uma modalidade, um ou mais dos dispositivos de computação 130 sendo usados para participar na sessão de comunicação podem incluir um componente ou acessório que é uma fonte potencial de ruído transiente. Por exemplo, um ou mais dos dispositivos de computação 130 pode ter um teclado ou tipo almofada que, se for usado por um participante 120 durante a sessão de comunicação, pode gerar ruídos transientes que são detectáveis para os outros participantes (por exemplo, como cliques de tecla ou sons audíveis).
[0035] A Figura 2 ilustra um sistema de exemplo para realização de supressão de transiente dependente de situação de um sinal áudio de entrada com base em um estado de voz determinado do sinal de acordo com uma ou mais modalidades aqui descritas. De acordo com pelo menos uma modalidade, o sistema 200 pode operar em um terminal de lado de envio de um caminho de comunicação para uma conferência de áudio/vídeo (por exemplo, em um terminal associado a um ou mais dos usuários 120 mostrados na Figura 1), e pode incluir um detector de transiente 220, uma Unidade de Detecção de Atividade de Voz (VAD) 230, um Supressor de Ruído 240, e uma Unidade de Transmissão 270. Além disso, o sistema 200 pode executar um ou mais algoritmos semelhantes aos algoritmos ilustrados nas Figuras 3-5, os quais são descritos em maior detalhe abaixo.
[0036] Um sinal de áudio 210 inserido para o sistema de detecção 200 pode ser passado para o Detector de Transiente 220, Unidade de VAD 230, e o supressor de ruído 240. De acordo com pelo menos uma modalidade, o detector de transiente pode ser configurado para detectar a presença de um ruído transiente no sinal de áudio 210 usando principal ou exclusivamente os dados de áudio de entrada associados com o sinal. Por exemplo, o detector de transiente pode utilizar alguma representação de tempo-frequência (por exemplo, transformada discreta de pequena onda (DWT), transformada de pacote de pequena onda (WPT), etc.) do sinal de áudio 210 como a base em um modelo preditivo para identificar eventos de ruído transiente periférico no sinal (por exemplo, através da exploração do contraste nas características espectrais e temporais entre pulsos de ruído transiente e sinais de voz). Como resultado, o detector de transiente pode determinar uma probabilidade estimada de ruído transiente estar presente no sinal 210, e enviar esta estimativa de probabilidade de transiente (225) para o supressor de ruído 240.
[0037] A unidade de VAD 230 pode ser configurada para analisar o sinal de entrada 210 e, usar qualquer de uma variedade de técnicas conhecidas para os peritos na arte, detectar se dados de voz estão presentes no sinal 210. Com base na sua análise de sinal 210, Unidade de VAD 230 pode enviar uma probabilidade de voz estimada (235) para o supressor de ruído 240.
[0038] A estimativa de probabilidade de transiente (225) e a probabilidade de voz estimada (235) podem ser utilizadas pelo supressor de ruído 240 para determinar qual de uma pluralidade de tipos de supressão/restauração aplicar ao sinal 210. Como será descrito em maior detalhe aqui, o supressor de ruído 240 pode realizar restauração "dura" ou "suave" no sinal de áudio 210, dependendo se ou não o sinal contém áudio de voz (por exemplo, dados de fala).
[0039] Deve notar-se que, de acordo com uma ou mais outras modalidades da presente invenção, o sistema 200 pode operar em outros pontos no caminho de comunicação entre participantes em uma conferência de áudio/vídeo além de ou em vez do terminal de lado de remetente descrito acima. Por exemplo, o sistema 200 pode executar supressão de transiente dependente de situação em um sinal recebido para reprodução em um terminal de receptor do caminho de comunicações.
[0040] A Figura 3 ilustra um processo de exemplo para supressão de ruído transiente e recuperação de um sinal de áudio de acordo com uma ou mais modalidades aqui descritas. De acordo com pelo menos uma modalidade, o processo de exemplo 300 pode ser realizado por um ou mais dos componentes do sistema de exemplo para supressão de transiente dependente de situação 200, descrito em detalhe acima e ilustrado na Figura 2.
[0041] Como se mostra, o processo 300 aplica diferentes estratégias de supressão (por exemplo, blocos 315 e 320) dependendo se um segmento de áudio é determinado para ser um segmento falado ou um segmento não falado/de não fala. Por exemplo, após a aplicação de uma Transformada Rápida de Fourier (FFT) para um segmento de um sinal de áudio no bloco 305 para transformar o segmento para o domínio da frequência, determinação pode ser feita no bloco 310 para saber se uma probabilidade de voz associada com o segmento é maior do que um limiar de probabilidade. Por exemplo, o limiar de probabilidade pode ser uma probabilidade fixa predeterminada. De acordo com pelo menos uma modalidade, a probabilidade de voz associada com o segmento de áudio é com base em informação de voz gerada fora de, e/ou antes de, o processo de exemplo 300. Por exemplo, a probabilidade de voz utilizada no bloco 310 pode ser baseada em informação de voz recebida a partir de, por exemplo, uma unidade de detecção de atividade de voz (por exemplo, unidade de VAD 230 no sistema de exemplo 200 mostrado na Figura 2). Em outro exemplo, a probabilidade de voz associada com o segmento pode ser baseada em informação sobre vozes dentro de sons de fala recebidos, por exemplo, a partir de um algoritmo de estimativa de altura de som ou estimador de altura de som. Por exemplo, informação sobre vozes dentro de sons de fala recebidos do estimador de altura de som pode ser usada para identificar regiões do segmento de áudio onde as pregas vocais estão vibrando.
[0042] Se for determinado no bloco 310 que a probabilidade de voz associada com o segmento de áudio é maior do que o limiar de probabilidade, então no bloco 320 o segmento é processado através de restauração "suave" (por exemplo, uma supressão menos agressiva em comparação com a restauração "dura" no bloco 315). Por outro lado, se for determinado no bloco 310 que a probabilidade de voz associada com o segmento de áudio é igual ou menor do que o limiar de probabilidade, então no bloco 315 o segmento é processado através de restauração "dura" (por exemplo, supressão mais agressiva em comparação com a restauração "suave", no bloco 320).
[0043] Realizar restauração dura ou suave (nos blocos 315 e 320, respectivamente) com base em uma comparação da probabilidade de voz associada com o segmento para um limiar de probabilidade (no bloco 310) permite processamento de supressão mais agressiva de blocos de áudio sem voz e processamento de supressão mais conservadora de blocos de áudio contendo sons falados. De acordo com pelo menos uma modalidade da presente descrição, as operações executadas no bloco 315 (para restauração dura) podem corresponder às operações realizadas no bloco 405, no processo de exemplo 400, ilustrado na Figura 4 e descrito em maior detalhe abaixo. Da mesma forma, as operações executadas no bloco 320 (para a restauração macia) podem corresponder às operações realizadas no bloco 510, no processo de exemplo 500, ilustrado na Figura 5 e também descrito em maior detalhe abaixo.
[0044] Após um dos processos de supressão/restauração nos blocos 315 e 320, no bloco 325 a média espectral pode ser atualizada para o segmento de áudio. No bloco 330, o sinal pode ser submetido à FFT inversa (IFFT) para ser transformado de volta para o domínio do tempo.
[0045] A Figura 4 ilustra um processo de exemplo para a restauração dura de um sinal de áudio baseado em uma determinação que o sinal de áudio contém dados de áudio sem voz. Por exemplo, o processo de restauração dura 400 pode ser realizado com base em um sinal de áudio que tem um primeiro estado de voz (por exemplo, de uma pluralidade de possíveis estados de voz correspondendo a diferentes probabilidades do sinal contendo dados de voz), onde o primeiro estado de voz corresponde a uma probabilidade de voz estimada associada com o sinal sendo baixo (indicando que existe uma alta probabilidade do sinal conter dados de áudio sem voz), um segundo estado de voz corresponde a uma probabilidade de voz estimada que é maior do que a estimativa de probabilidade correspondente para o primeiro estado de voz, e assim por diante. Em conformidade com uma ou mais modalidades aqui descritas, o processo de exemplo 400 pode ser realizado por um ou mais dos componentes (por exemplo, supressor de ruído 240) no sistema de exemplo para supressão de transiente dependente de situação 200, descrita em detalhe acima e ilustrada na Figura 2. Deve ser entendido que, de acordo com pelo menos uma modalidade, os estados de voz podem corresponder às estimativas de probabilidades de voz em uma ou mais outras formas, além ou em vez da correspondência de exemplo apresentada acima.
[0046] Além disso, de acordo com pelo menos uma modalidade da presente descrição, as operações executadas no bloco 405 (que incluem blocos 410 e 415) no processo de exemplo 400 podem corresponder às operações realizadas no bloco 315, no processo de exemplo 300 descrito acima e ilustrado na Figura 3.
[0047] Deve notar-se que na realização de processo 400, pode ser necessário manter o controle da média espectral para suprimir os transientes detectados e restaurar o sinal de áudio original. Deve também notar-se que, de acordo com pelo menos uma modalidade, as operações compreendendo bloco 405 podem ser realizadas em um modo iterativo para cada caixa de frequência. Por exemplo, no bloco 410, a magnitude para uma dada caixa de frequência pode ser comparada com a (controlada) média espectral.
[0048] Se for determinado no bloco 410 que a magnitude é maior do que a média espectral, é suprimida e nova magnitude é calculada no bloco 415. Por outro lado, se for determinado no bloco 410 que a magnitude não é maior do que a média espectral (por exemplo, é igual ou menor do que a média espectral), nenhuma supressão é efetuada e as operações de bloco 405 podem ser repetidas para a próxima frequência.
[0049] Se a supressão é efetuada como um resultado da determinação feita no bloco 410, uma nova magnitude pode ser calculada no bloco 415. De acordo com pelo menos uma modalidade, a nova magnitude calculada no bloco 415 pode ser uma combinação linear da magnitude anterior e a média espectral, dependendo da probabilidade de detecção (por exemplo, a estimativa de probabilidade de transiente (225) recebida no supressor de ruído 240 a partir do detector de transiente 220 no sistema de exemplo 200 mostrado na Figura 2). Por exemplo, a nova magnitude pode ser calculada como segue:
[0050] Nova Magnitude = (1 - Detecção) * Magnitude + Detecção * Média Espectral
[0051] Onde "Detecção" corresponde à probabilidade estimada que um transiente está presente e "Amplitude" corresponde à magnitude anterior (por exemplo, a magnitude comparada no bloco 410). Dado o cálculo acima, se for determinado que um transiente está presente (por exemplo, com base na probabilidade estimada), a nova amplitude é a média espectral. No entanto, se a estimativa de probabilidade de transiente indica que nenhum transiente está presente no bloco, não ocorre à supressão.
[0052] A Figura 5 ilustra um processo de exemplo para restauração suave de um sinal de áudio baseado na determinação de que o sinal de áudio contém dados de voz. Por exemplo, o processo de restauração suave 500 pode ser realizado com base em um sinal de áudio que tem um segundo estado de voz, em que o segundo estado de voz corresponde a uma probabilidade de voz estimada que é maior do que a probabilidade de voz estimada correspondente ao primeiro estado de voz, tal como descrito acima, com respeito ao processo de exemplo 400 mostrado na Figura 4. Em conformidade com uma ou mais modalidades aqui descritas, o processo de exemplo 500 pode ser realizado por um ou mais dos componentes (por exemplo, supressor de ruído 240) no sistema de exemplo para a supressão de transiente dependente de situação 200, descrita em detalhe acima e ilustrada na Figura 2.
[0053] Além disso, de acordo com pelo menos uma modalidade da presente descrição, as operações executadas no bloco 510 (que incluem blocos 515, 520, e 525) no processo de exemplo 500 podem corresponder às operações realizadas no bloco 320 no processo de exemplo 300 descrito acima e ilustrado na Figura 3.
[0054] Tal como acontece com o processo de exemplo (por exemplo, processo 400) para restauração dura descrito acima, deve notar-se que na realização de processo 500 a média espectral para o bloco de áudio pode ser calculada no bloco 505. Deve também notar-se que, de acordo com pelo menos uma modalidade, as operações compreendendo bloco 510 podem ser realizadas de um modo iterativo para cada caixa de frequência.
[0055] No bloco 515, para uma dada caixa de frequência, um fator da média de bloco (determinado no bloco 505) pode ser calculado. De acordo com uma modalidade pelo menos o fator da média de bloco pode ser uma ponderação espectral fixa, desenfatizando frequências espectrais de fala típicas. Por exemplo, o fator da média de bloco determinado no bloco 515 pode ser o valor médio sobre o espectro de bloco atual. O fator calculado no bloco 515 pode ter valores contínuos (por exemplo, entre 1 e 5), que são mais baixos para frequências de fala (por exemplo, 300 Hz a 3500 Hz).
[0056] No bloco 520, a amplitude para a frequência pode ser comparada com a média espectral calculada e também comparada com o fator da média de bloco calculado no bloco 515. Por exemplo, no bloco 520, pode ser determinado se a magnitude é tanto maior do que a média espectral e menor do que o fator da média de bloco. Determinar se tal condição é satisfeita no bloco 520 faz com que seja possível manter harmônicos de voz enquanto suprimindo o ruído transiente entre os harmônicos.
[0057] Se for determinado no bloco 520 que a magnitude é tanto maior do que a média espectral e menor do que o fator da média de bloco, então a supressão é efetuada e as operações continuam no bloco 525 onde uma nova magnitude pode ser calculada. Por outro lado, se for determinado no bloco 520 que a magnitude não é maior do que a média espectral (por exemplo, é igual ou menor do que a média espectral), a magnitude não é menor do que o fator da média de bloco (por exemplo, é igual a ou maior do que o fator da média de bloco), ou ambos, em seguida, nenhuma supressão é efetuada e as operações de bloco 510 podem ser repetidas para a próxima frequência.
[0058] Se a supressão é efetuada como um resultado da determinação feita no bloco 520, uma nova magnitude pode ser calculada no bloco 525. De acordo com pelo menos uma modalidade, a nova magnitude calculada no bloco 525 pode ser calculada de um modo similar como o novo cálculo de magnitude realizado no bloco 415 do processo de exemplo 400 (descrito acima e ilustrado na Figura 4). Por exemplo, a nova magnitude calculada no bloco 525 pode ser uma combinação linear da magnitude anterior e a média espectral, dependendo da probabilidade de detecção (por exemplo, a estimativa de probabilidade de transiente (225) recebida no supressor de ruído 240 a partir do detector de transiente 220 no sistema de exemplo 200 mostrado na Figura 2). Por exemplo, a nova magnitude pode ser calculada no bloco 525 como segue:
[0059] Nova Magnitude = (1 - Detecção) * Magnitude + Detecção * Média Espectral
[0060] Onde "Detecção" corresponde à probabilidade estimada que um transiente está presente e "Amplitude" corresponde à magnitude anterior (por exemplo, a magnitude comparada no bloco 520). Dado o cálculo acima, se for determinado que um transiente está presente (por exemplo, com base na probabilidade estimada), a nova amplitude é a média espectral. No entanto, se a estimativa de probabilidade de transiente indica que nenhum transiente está presente no bloco, não ocorre supressão.
[0061] A Figura 6 é um diagrama de blocos de alto nível de um computador exemplar (600) disposto para supressão de ruído transiente dependente de situação de acordo com uma ou mais modalidades aqui descritas. Em uma configuração muito básica (601), o dispositivo de computação (600) inclui tipicamente um ou mais processadores (610) e a memória de sistema (620). Um barramento de memória (630) pode ser usado para comunicação entre o processador (610) e a memória de sistema (620).
[0062] Dependendo da configuração desejada, o processador (610) pode ser de qualquer tipo incluindo, mas não limitado a um microprocessador (μP) , um microcontrolador (μC), um processador de sinal digital (DSP), ou qualquer combinação dos mesmos. O processador (610) pode incluir mais um nível de cache, tais como um cache de um nível (611) e uma cache de dois níveis (612), um núcleo de processador (613), e registradores (614). O núcleo de processador (613) pode incluir uma unidade lógica e aritmética (ALU), uma unidade de ponto flutuante (FPU), um núcleo de processamento de sinal digital (núcleo de DSP), ou qualquer combinação dos mesmos. Um controlador de memória (616) também pode ser usado com o processador (610), ou em algumas implementações, o controlador de memória (615) pode ser uma parte interna do processador (610).
[0063] Dependendo da configuração desejada, a memória de sistema (620) pode ser de qualquer tipo incluindo, mas não limitado à memória volátil (por exemplo, RAM), memória não volátil (por exemplo, ROM, memória flash, etc.) ou qualquer combinação dos mesmos. A memória de sistema (620) inclui tipicamente um sistema operacional (621), um ou mais aplicativos (622), e dados de programa (624). O aplicativo (622) pode incluir um algoritmo supressão de transiente dependente de situação (623) para aplicar diferentes tipos (por exemplo, tipos, montantes, níveis, etc.) de supressão/restauração para um sinal de áudio com base em uma determinação de se ou não o sinal contém dados de voz. De acordo com pelo menos uma modalidade, o algoritmo de supressão de transiente dependente de situação (623) pode operar para executar supressão/restauração mais/menos agressiva de um sinal de áudio associado a um usuário, dependendo de se ou não o usuário está falando (por exemplo, se o sinal associado com o usuário contém um segmento de áudio de voz ou um segmento de áudio sem voz). Por exemplo, de acordo com pelo menos uma modalidade, se um participante não esta falando ou o sinal associado com o participante contém um segmento de áudio sem voz, o algoritmo de supressão de transiente dependente de situação (623) pode aplicar uma estratégia mais agressiva para supressão de transiente e restauração de sinal para este sinal do participante. Por outro lado, onde o áudio falado é detectado no sinal do participante (por exemplo, o participante está falando), o algoritmo de supressão de transiente dependente de situação (623) pode aplicar supressão e restauração mais suaves, menos agressivas.
[0064] Dados de programa (624) podem incluir instruções de armazenamento que, quando executadas por um ou mais dispositivos de processamento, implementam um método para supressão de ruído transiente dependente de situação e recuperação de um sinal de áudio de acordo com uma ou mais modalidades aqui descritas. Além disso, de acordo com pelo menos uma modalidade, dados de programa (624) podem incluir dados de sinal de áudio (625), que podem incluir dados sobre uma probabilidade de um sinal de áudio contendo dados de voz, dados sobre uma probabilidade de ruído transiente estar presente no sinal, ou ambos. Em algumas modalidades, o aplicativo (622) pode ser disposto para operar com dados de programa (624) em um sistema operacional (621).
[0065] O dispositivo de computação (600) pode ter recursos adicionais ou funcionalidade, e interfaces adicionais para facilitar comunicações entre a configuração básica (601) e todos os dispositivos e interfaces necessários.
[0066] A memória de sistema (620) é um exemplo de meios de armazenamento de computador. Meios de armazenamento de computador incluem, mas não são limitados a, RAM, ROM, EEPROM, memória flash ou outra tecnologia de memória, CD- ROM, discos digitais versáteis (DVD) ou outro armazenamento óptico, cassetes magnéticos, fita magnética, armazenamento de disco magnético ou outros dispositivos de armazenamento magnéticos, ou qualquer outro meio que possa ser utilizado para armazenar a informação desejada e que pode ser acessado pelo dispositivo de computação 600. Qualquer destes meios de armazenamento de computador podem fazer parte do dispositivo (600).
[0067] O dispositivo de computação (600) pode ser implementado como uma parte de um dispositivo eletrônico portátil de fator de forma pequeno (ou móvel), como um telefone celular, um telefone inteligente, um assistente de dados pessoal (PDA), um dispositivo de reprodutor de mídia pessoal, um computador tablet (tablet), um dispositivo de relógio de internet sem fio, um dispositivo auricular pessoal, um dispositivo específico de aplicação, ou um dispositivo híbrido que inclui qualquer uma das funções acima. O dispositivo de computação (600) também pode ser implementado como um computador pessoal incluindo tanto computador portátil e configurações de computador não portáteis.
[0068] A descrição detalhada anterior tem várias modalidades apresentadas dos dispositivos e/ou processos através da utilização de diagramas de blocos, fluxogramas e/ou exemplos. Na medida em que tais diagramas de blocos, fluxogramas e/ou exemplos contêm uma ou mais funções e/ou operações, será entendido por aqueles dentro da arte que cada função e/ou operação dentro de tais diagramas de blocos, fluxogramas, ou exemplos podem ser implementados, individualmente e/ou coletivamente, por uma ampla gama de hardware, software, firmware, ou virtualmente qualquer combinação dos mesmos. Em uma modalidade, várias porções do assunto aqui descrito podem ser implementadas por meio de circuitos integrados de aplicação específica (ASICs), conjunto de portas de campos programáveis (FPGAs), processadores de sinais digitais (DSPs), ou outros formatos integrados. No entanto, aqueles peritos na técnica irão reconhecer que alguns aspectos das modalidades aqui divulgadas, no todo ou em parte, podem ser equivalentemente implementados em circuitos integrados, tal como um ou mais programas de computador executados em um ou mais computadores, tal como um ou mais programas rodando em um ou mais processadores, como firmware, ou como virtualmente qualquer combinação dos mesmos, e que a concepção do circuito e/ou escrita do código para o software e ou firmware seria bem dentro da perícia de um perito na arte à luz da presente descrição.
[0069] Além disso, os peritos na arte apreciarão que os mecanismos do assunto aqui descrito é capaz de ser distribuído como um produto de programa em uma variedade de formas, e que uma modalidade ilustrativa da matéria aqui descrita aplica-se independentemente do tipo particular de meio portando sinal não transitório utilizado para realmente realizar a distribuição. Exemplos de um meio portando sinal não transitório incluem, mas não são limitados a, o seguinte: um meio tipo gravável tal como um disquete, um disco rígido, um disco compacto (CD), um disco de vídeo digital (DVD), uma fita digital, uma memória de computador, etc.; e um meio tipo de transmissão tal como um meio de comunicação digital e/ou analógico, (por exemplo, um cabo de fibra óptica, um guia de onda, um enlace de comunicação com fio, um enlace de comunicação sem fio, etc).
[0070] No que diz respeito ao uso de substancialmente quaisquer termos plurais e/ou singulares aqui descritos, aqueles peritos na arte podem traduzir do plural para o singular e/ou a partir do singular ao plural, como seja apropriado para o contexto e/ou aplicação. As várias permutações de singular/plural podem ser expressamente definidas neste documento para bem da clareza.
[0071] Assim, modalidades particulares do assunto foram descritas. Outras modalidades estão dentro do âmbito das reivindicações seguintes. Em alguns casos, as ações enumeradas nas reivindicações podem ser efetuadas em uma ordem diferente e ainda conseguem resultados desejáveis. Além disso, os processos descritos nas figuras anexas não requerem necessariamente a ordem particular mostrada, ou ordem sequencial, para obter resultados desejáveis. Em certas implementações, o processamento multitarefa e paralelo pode ser vantajoso.

Claims (15)

1. Método implementado por computador para supressão de ruído transiente em um sinal de áudio, caracterizado pelo fato de que o método compreende: estimar uma probabilidade de voz para um segmento do sinal de áudio contendo ruído transiente, a probabilidade de voz estimada sendo uma probabilidade que o segmento contém dados de voz; responsivo a determinar que a probabilidade de voz estimada para o segmento é maior do que um limiar de probabilidade, realizar um primeiro tipo de supressão no segmento (320); responsivo a determinar que a probabilidade de voz estimada para o segmento é menor do que o limiar de probabilidade, realizar um segundo tipo de supressão no segmento (315); e controlar uma média espectral (325), em que o segundo tipo de supressão suprime o ruído transiente contido no segmento para uma extensão maior do que o primeiro tipo de supressão, a etapa de realizar o segundo tipo de supressão compreende: para cada caixa de frequência do segmento, comparar uma magnitude para a referida caixa de frequência com a média espectral controlada (410), em que quando a magnitude é maior do que a média espectral controlada, o segundo tipo de supressão é realizado para a referida caixa de frequência (415), e em que quando a magnitude é igual ou menor do que a média espectral controlada, o segundo tipo de supressão não é realizado para a referida caixa de frequência.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a probabilidade de voz estimada é com base em informação de voz recebida a partir de um estimador de altura de som.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que estimar a probabilidade de voz para o segmento do sinal de áudio inclui identificar regiões do segmento contendo voz falada.
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que identificar regiões do segmento contendo voz falada inclui identificar regiões do segmento onde as pregas vocais estão vibrando.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: comparar a probabilidade de voz estimada para o segmento com um limiar de probabilidade; e determinar que a probabilidade de voz estimada é maior do que o limiar de probabilidade com base na comparação.
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: comparar a probabilidade de voz estimada para o segmento com um limiar de probabilidade; e determinar que a probabilidade de voz estimada é menor do que o limiar de probabilidade com base na comparação.
7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: receber uma probabilidade de transiente estimada para o segmento do sinal de áudio, a probabilidade de transiente estimada sendo uma probabilidade que um ruído transiente está presente no segmento ; e determinar que o segmento do sinal de áudio contém ruído transiente com base na probabilidade de transiente estimada recebida.
8. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a probabilidade de voz estimada para o segmento do sinal de áudio é com base em dados de atividade de voz recebidos para o segmento do sinal de áudio.
9. Sistema para supressão de ruído transiente em um sinal de áudio, caracterizado pelo fato de que o sistema compreende: pelo menos um processador; e um meio legível por computador acoplado ao pelo menos um processador compreendendo um método para: estimar uma probabilidade de voz para um segmento do sinal de áudio contendo ruído transiente, a probabilidade de voz estimada sendo uma probabilidade que o segmento contém dados de voz; responsivo a determinar que a probabilidade de voz estimada para o segmento é maior do que um limiar de probabilidade, realizar um primeiro tipo de supressão no segmento (320); responsivo a determinar que a probabilidade de voz estimada para o segmento é menor do que o limiar de probabilidade, realizar um segundo tipo de supressão no segmento (315); e controlar uma média espectral (325), em que o segundo tipo de supressão suprime o ruído transiente contido no segmento para uma extensão maior do que o primeiro tipo de supressão, o sistema é adaptado para realizar o segundo tipo de supressão de tal maneira que para cada caixa de frequência do segmento, uma magnitude da referida caixa de frequência é comparada com a média espectral (410), quando a magnitude é maior do que a média espectral controlada, o segundo tipo de supressão é realizado para a referida caixa de frequência (415), e quando a magnitude é igual ou menor do que a média espectral controlada, o segundo tipo de supressão não é realizado para a referida caixa de frequência.
10. Sistema, de acordo com a reivindicação 9, caracterizado pelo fato de que a probabilidade de voz estimada é com base em informação de voz recebida a partir de um estimador de altura de som.
11. Sistema, de acordo com a reivindicação 9, caracterizado pelo fato de que o pelo menos um processador é ainda feito para: identificar regiões do segmento em que as pregas vocais estão vibrando; e determinar que as regiões do segmento onde as pregas vocais estão vibrando são regiões que contêm voz falada.
12. Sistema, de acordo com a reivindicação 9, caracterizado pelo fato de que o pelo menos um processador é ainda feito para: comparar a probabilidade de voz estimada para o segmento com um limiar de probabilidade; e determinar que a probabilidade de voz estimada é maior do que o limiar de probabilidade com base na comparação.
13. Sistema, de acordo com a reivindicação 9, caracterizado pelo fato de que o pelo menos um processador é ainda feito para: comparar a probabilidade de voz estimada para o segmento com um limiar de probabilidade; e determinar que a probabilidade de voz estimada é menor do que o limiar de probabilidade com base na comparação.
14. Sistema, de acordo com a reivindicação 9, caracterizado pelo fato de que o pelo menos um processador é ainda feito para: receber uma probabilidade de transiente estimada para o segmento do sinal de áudio, a probabilidade de transiente estimada sendo uma probabilidade que um ruído transiente está presente no segmento ; e determinar que o segmento do sinal de áudio contém ruído transiente com base na probabilidade de transiente estimada recebida.
15. Sistema, de acordo com a reivindicação 9, caracterizado pelo fato de que a probabilidade de voz estimada para o segmento do sinal de áudio é com base em dados de atividade de voz recebidos para o segmento do sinal de áudio.
BR112016020066-7A 2014-03-31 2015-03-31 Método implementado por computador e um sistema para supressão de ruído transiente em um sinal de áudio BR112016020066B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/230,404 US9721580B2 (en) 2014-03-31 2014-03-31 Situation dependent transient suppression
US14/230,404 2014-03-31
PCT/US2015/023500 WO2015153553A2 (en) 2014-03-31 2015-03-31 Situation dependent transient suppression

Publications (2)

Publication Number Publication Date
BR112016020066A2 BR112016020066A2 (pt) 2017-08-15
BR112016020066B1 true BR112016020066B1 (pt) 2022-09-06

Family

ID=52829453

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016020066-7A BR112016020066B1 (pt) 2014-03-31 2015-03-31 Método implementado por computador e um sistema para supressão de ruído transiente em um sinal de áudio

Country Status (8)

Country Link
US (1) US9721580B2 (pt)
EP (1) EP3127114B1 (pt)
JP (1) JP6636937B2 (pt)
KR (1) KR101839448B1 (pt)
CN (1) CN105900171B (pt)
AU (1) AU2015240992C1 (pt)
BR (1) BR112016020066B1 (pt)
WO (1) WO2015153553A2 (pt)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3375195B1 (en) 2015-11-13 2023-11-01 Dolby Laboratories Licensing Corporation Annoyance noise suppression
US9589574B1 (en) 2015-11-13 2017-03-07 Doppler Labs, Inc. Annoyance noise suppression
WO2017106281A1 (en) * 2015-12-18 2017-06-22 Dolby Laboratories Licensing Corporation Nuisance notification
EP3506563A1 (en) * 2017-12-29 2019-07-03 Unify Patente GmbH & Co. KG Method, system, and server for reducing noise in a workspace
CN108877766A (zh) * 2018-07-03 2018-11-23 百度在线网络技术(北京)有限公司 歌曲合成方法、装置、设备及存储介质
US10440324B1 (en) 2018-09-06 2019-10-08 Amazon Technologies, Inc. Altering undesirable communication data for communication sessions
CN110689905B (zh) * 2019-09-06 2021-12-21 西安合谱声学科技有限公司 一种用于视频会议系统的语音活动检测系统
CN110739005B (zh) * 2019-10-28 2022-02-01 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN110838299B (zh) * 2019-11-13 2022-03-25 腾讯音乐娱乐科技(深圳)有限公司 一种瞬态噪声的检测方法、装置及设备
TWI783215B (zh) * 2020-03-05 2022-11-11 緯創資通股份有限公司 信號處理系統及其信號降噪的判定方法與信號補償方法
CN113824843B (zh) * 2020-06-19 2023-11-21 大众问问(北京)信息科技有限公司 语音通话质量检测方法、装置、设备及存储介质
CN112969130A (zh) * 2020-12-31 2021-06-15 维沃移动通信有限公司 音频信号处理方法、装置和电子设备
US11837254B2 (en) * 2021-08-03 2023-12-05 Zoom Video Communications, Inc. Frontend capture with input stage, suppression module, and output stage
EP4343760A1 (en) * 2022-09-26 2024-03-27 GN Audio A/S Transient noise event detection for speech denoising
CN115985337B (zh) * 2023-03-20 2023-09-22 全时云商务服务股份有限公司 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置
CN116738124B (zh) * 2023-08-08 2023-12-08 中国海洋大学 浮式结构运动响应信号端点瞬态效应消除方法

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2568984C (en) * 1991-06-11 2007-07-10 Qualcomm Incorporated Variable rate vocoder
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
JPH11133997A (ja) * 1997-11-04 1999-05-21 Matsushita Electric Ind Co Ltd 有音無音判定装置
US6426983B1 (en) * 1998-09-14 2002-07-30 Terayon Communication Systems, Inc. Method and apparatus of using a bank of filters for excision of narrow band interference signal from CDMA signal
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
IL143989A0 (en) * 1999-02-18 2002-04-21 Andrea Electronics Corp System, method and apparatus for cancelling noise
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US6622044B2 (en) * 2001-01-04 2003-09-16 Cardiac Pacemakers Inc. System and method for removing narrowband noise
US6826242B2 (en) * 2001-01-16 2004-11-30 Broadcom Corporation Method for whitening colored noise in a communication system
US6798854B2 (en) * 2001-01-16 2004-09-28 Broadcom Corporation System and method for canceling interference in a communication system
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8271279B2 (en) * 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8326621B2 (en) * 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
US7353169B1 (en) 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US7451082B2 (en) * 2003-08-27 2008-11-11 Texas Instruments Incorporated Noise-resistant utterance detector
JP4520732B2 (ja) * 2003-12-03 2010-08-11 富士通株式会社 雑音低減装置、および低減方法
JP4456504B2 (ja) * 2004-03-09 2010-04-28 日本電信電話株式会社 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
US8027833B2 (en) * 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
US7519514B2 (en) * 2006-07-14 2009-04-14 Agilent Technologies, Inc. Systems and methods for removing noise from spectral data
US7809559B2 (en) * 2006-07-24 2010-10-05 Motorola, Inc. Method and apparatus for removing from an audio signal periodic noise pulses representable as signals combined by convolution
US8019089B2 (en) 2006-11-20 2011-09-13 Microsoft Corporation Removal of noise, corresponding to user input devices from an audio signal
US9966085B2 (en) * 2006-12-30 2018-05-08 Google Technology Holdings LLC Method and noise suppression circuit incorporating a plurality of noise suppression techniques
RU2469419C2 (ru) 2007-03-05 2012-12-10 Телефонактиеболагет Лм Эрикссон (Пабл) Способ и устройство для управления сглаживанием стационарного фонового шума
US8654950B2 (en) 2007-05-08 2014-02-18 Polycom, Inc. Method and apparatus for automatically suppressing computer keyboard noises in audio telecommunication session
CN101309071B (zh) * 2007-05-18 2010-06-23 展讯通信(上海)有限公司 一种抑制音频功率放大器瞬态噪声的装置
GB2449720A (en) * 2007-05-31 2008-12-03 Zarlink Semiconductor Inc Detecting double talk conditions in a hands free communication system
ES2654318T3 (es) * 2007-07-27 2018-02-13 Stichting Vumc Supresión de ruido en señales de voz
WO2009029995A1 (en) * 2007-09-05 2009-03-12 Sensear Pty Ltd A voice communication device, signal processing device and hearing protection device incorporating same
US8015002B2 (en) * 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
KR20090122142A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
JP5153886B2 (ja) * 2008-10-24 2013-02-27 三菱電機株式会社 雑音抑圧装置および音声復号化装置
US8213635B2 (en) 2008-12-05 2012-07-03 Microsoft Corporation Keystroke sound suppression
US8416964B2 (en) * 2008-12-15 2013-04-09 Gentex Corporation Vehicular automatic gain control (AGC) microphone system and method for post processing optimization of a microphone signal
CN101770775B (zh) * 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
JP5293817B2 (ja) * 2009-06-19 2013-09-18 富士通株式会社 音声信号処理装置及び音声信号処理方法
US8908882B2 (en) 2009-06-29 2014-12-09 Audience, Inc. Reparation of corrupted audio signals
WO2011018428A1 (en) * 2009-08-14 2011-02-17 Koninklijke Kpn N.V. Method and system for determining a perceived quality of an audio system
US8600073B2 (en) * 2009-11-04 2013-12-03 Cambridge Silicon Radio Limited Wind noise suppression
GB0919672D0 (en) 2009-11-10 2009-12-23 Skype Ltd Noise suppression
US9628517B2 (en) 2010-03-30 2017-04-18 Lenovo (Singapore) Pte. Ltd. Noise reduction during voice over IP sessions
US8798992B2 (en) * 2010-05-19 2014-08-05 Disney Enterprises, Inc. Audio noise modification for event broadcasting
JP5529635B2 (ja) * 2010-06-10 2014-06-25 キヤノン株式会社 音声信号処理装置および音声信号処理方法
US8411874B2 (en) 2010-06-30 2013-04-02 Google Inc. Removing noise from audio
EP2405634B1 (en) * 2010-07-09 2014-09-03 Google, Inc. Method of indicating presence of transient noise in a call and apparatus thereof
JP5328744B2 (ja) 2010-10-15 2013-10-30 本田技研工業株式会社 音声認識装置及び音声認識方法
WO2013007070A1 (zh) * 2011-07-08 2013-01-17 歌尔声学股份有限公司 一种抑制残留回声的方法和装置
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
DE112011105908B4 (de) * 2011-12-02 2017-01-26 Hytera Communications Corp., Ltd. Verfahren und Gerät zur adaptiven Regelung des Toneffekts
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
CN103325384A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
US20140278389A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
US9520141B2 (en) * 2013-02-28 2016-12-13 Google Inc. Keyboard typing detection and suppression
CN103440871B (zh) * 2013-08-21 2016-04-13 大连理工大学 一种语音中瞬态噪声抑制的方法
CN103456310B (zh) * 2013-08-28 2017-02-22 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
US9454976B2 (en) * 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds
JP6334895B2 (ja) * 2013-11-15 2018-05-30 キヤノン株式会社 信号処理装置及びその制御方法、プログラム

Also Published As

Publication number Publication date
EP3127114A2 (en) 2017-02-08
KR20160102300A (ko) 2016-08-29
WO2015153553A3 (en) 2015-11-26
CN105900171B (zh) 2019-10-18
KR101839448B1 (ko) 2018-03-16
EP3127114B1 (en) 2019-11-13
AU2015240992B2 (en) 2017-12-07
WO2015153553A2 (en) 2015-10-08
AU2015240992C1 (en) 2018-04-05
CN105900171A (zh) 2016-08-24
JP6636937B2 (ja) 2020-01-29
AU2015240992A1 (en) 2016-06-23
US20150279386A1 (en) 2015-10-01
US9721580B2 (en) 2017-08-01
BR112016020066A2 (pt) 2017-08-15
JP2017513046A (ja) 2017-05-25

Similar Documents

Publication Publication Date Title
BR112016020066B1 (pt) Método implementado por computador e um sistema para supressão de ruído transiente em um sinal de áudio
US8213635B2 (en) Keystroke sound suppression
US20200349964A1 (en) Detection and suppression of keyboard transient noise in audio streams with aux keybed microphone
US9736287B2 (en) Detecting and switching between noise reduction modes in multi-microphone mobile devices
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
US20140337021A1 (en) Systems and methods for noise characteristic dependent speech enhancement
US9378755B2 (en) Detecting a user's voice activity using dynamic probabilistic models of speech features
EP3232567A1 (en) Equalizer controller and controlling method
EP3329488B1 (en) Keystroke noise canceling
KR101537080B1 (ko) 통화중 과도 잡음의 존재를 표시하는 방법 및 그 장치
BR112014017708B1 (pt) Método e aparelho para detectar atividade de voz na presença de ruído de fundo, e, memória legível por computador
CN108074582B (zh) 一种噪声抑制信噪比估计方法和用户终端
WO2012158156A1 (en) Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
Cohen Speech enhancement using super-Gaussian speech models and noncausal a priori SNR estimation
WO2020252629A1 (zh) 残余回声检测方法、残余回声检测装置、语音处理芯片及电子设备
Dekens et al. Body conducted speech enhancement by equalization and signal fusion
US20170278508A1 (en) Finding of a target document in a spoken language processing
US9641912B1 (en) Intelligent playback resume
Nuthakki et al. A Literature Survey on Speech Enhancement Based on Deep Neural Network Technique
CN113470621B (zh) 语音检测方法、装置、介质及电子设备
Patil et al. Use of baseband phase structure to improve the performance of current speech enhancement algorithms
US11967332B2 (en) Method and system for automatic detection and correction of sound caused by facial coverings
CN117579770A (zh) 用于会议中确定主发言人的方法、装置、电子设备和介质
CN116453538A (zh) 语音降噪方法和装置
Zhang et al. Air‐Conducted and Bone‐Conducted Speeches Combination for Noise‐Robust Pitch Extraction

Legal Events

Date Code Title Description
B25D Requested change of name of applicant approved

Owner name: GOOGLE LLC (US)

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 31/03/2015, OBSERVADAS AS CONDICOES LEGAIS