BR112019013239A2 - aparelho de captura de áudio, e método de captura de áudio - Google Patents

aparelho de captura de áudio, e método de captura de áudio Download PDF

Info

Publication number
BR112019013239A2
BR112019013239A2 BR112019013239A BR112019013239A BR112019013239A2 BR 112019013239 A2 BR112019013239 A2 BR 112019013239A2 BR 112019013239 A BR112019013239 A BR 112019013239A BR 112019013239 A BR112019013239 A BR 112019013239A BR 112019013239 A2 BR112019013239 A2 BR 112019013239A2
Authority
BR
Brazil
Prior art keywords
speech
signal
adaptation
frequency
audio
Prior art date
Application number
BR112019013239A
Other languages
English (en)
Inventor
Pieter Janse Cornelis
Jozef Martinus Janssen Rik
Original Assignee
Koninklijke Philips Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Nv filed Critical Koninklijke Philips Nv
Publication of BR112019013239A2 publication Critical patent/BR112019013239A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

a presente invenção refere-se a um aparelho de captura de áudio que compreende um primeiro formador de feixes (303) que é disposto para gerar um sinal de saída de áudio com formação de feixes. um adaptador (305) adapta parâmetros de formação de feixes do primeiro formador de feixes e um detector (307) detecta um ataque de fala no sinal de saída de áudio com formação de feixes. um controlador (309) controla a adaptação dos parâmetros de formação de feixes para ocorrer em um intervalo de tempo predeterminado de adaptação determinado em resposta à detecção do ataque de fala. o formador de feixes (303) pode gerar sinais de referência de ruído e o detector (309) pode ser disposto para detectar o ataque de fala em resposta a uma comparação de um nível de sinal do sinal de saída de áudio com formação de feixes em relação a um nível de sinal do ao menos um sinal de referência de ruído.

Description

APARELHO DE CAPTURA DE ÁUDIO, E MÉTODO DE CAPTURA DE ÁUDIO
CAMPO DA INVENÇÃO [001] A invenção se refere a captura de áudio com o uso de formação de feixes e em particular.
ANTECEDENTES DA INVENÇÃO [002] A captura de áudio, e em particular a fala, tem se tornado cada vez mais importante nas últimas décadas. De fato, a captura de fala se tornou cada vez mais importante para uma variedade de aplicações incluindo telecomunicações, teleconferência, jogos, interfaces de usuário de áudio etc. Entretanto, um problema em muitos cenários e aplicações reside em que a fonte de fala desejada geralmente não é a única fonte de áudio no ambiente. Em vez disso, em ambientes de áudio típicos, existem muitas outras fontes de ruído/áudio que estão sendo capturadas pelo microfone. Um dos problemas críticos enfrentados por muitas aplicações de captura de fala reside em como capturar a fala da melhor forma em um ambiente com muito ruído. A fim de resolver esse problema, várias abordagens diferentes para supressão de ruído foram propostas.
[003] De fato, a pesquisa em, por exemplo, sistemas de comunicação viva-voz é um tópico que tem recebido um interesse crescente por décadas. Os primeiros sistemas comerciais disponíveis focavam em sistemas de conferências profissionais (por vídeo) em ambientes com baixo ruído de fundo e baixo tempo de reverberação. Uma abordagem particularmente vantajosa para identificar e extrair fontes de áudio desejadas, como um orador desejado, foi considerada o uso de formação de feixes com base em sinais a partir de uma
Petição 870190059022, de 26/06/2019, pág. 8/227
2/95 matriz de microfones. Inicialmente, matrizes de microfones foram muitas vezes usadas com um feixe focalizado fixo, porém, mais tarde o uso de feixes adaptativos se tornou mais popular.
[004] No final da década de 90, sistemas vivavoz para telefones celulares começaram a ser introduzidos. Esses sistemas eram destinados a ser usados em muitos ambientes diferentes, incluindo ambientes reverberantes e com níveis (mais) altos de ruído de fundo. Tais ambientes de áudio fornecem desafios substancialmente mais difíceis, e em particular, podem complicar ou degradar a adaptação do feixe formado.
[005] Inicialmente, a pesquisa em captura de áudio para tais ambientes focou no cancelamento de eco e, depois, na supressão de ruídos. Um exemplo de um sistema de captura de áudio com base na formação de feixes é ilustrado na Figura 1. No exemplo, uma matriz de uma pluralidade de microfones 101 é acoplada a um formador de feixes 103 que gera um sinal de fonte de áudio z (n) e um (ou mais) sinal de referência de ruído x(n).
[006] A matriz de microfones 101 pode em algumas modalidades compreender somente dois microfones, mas geralmente compreenderá um número mais alto.
[007] O formador de feixes 103 pode ser especificamente um formador de feixes adaptativo no qual um feixe pode ser direcionado para a fonte de fala com o uso de um algoritmo de adaptação adequado.
[008] Por exemplo, os documentos de patente US 7.146.012 e US 7.602.926 revelam exemplos de formadores de feixes adaptativos que focalizam na fala, mas também fornecem um sinal de referência que não contém (quase) nenhuma fala.
Petição 870190059022, de 26/06/2019, pág. 9/227
3/95 [009] O formador de feixes cria um sinal de saída aprimorado, z (n), pela adição da parte desejada dos sinais de microfone coerentemente pela filtragem dos sinais recebidos em filtros correspondentes para a frente e a adição das saídas filtradas. Além disso, o sinal de saída é filtrado em filtros adaptativos para trás e tem respostas de filtro conjugadas para os filtros para frente (no domínio da frequência que corresponde a respostas ao impulso invertidas de tempo no domínio do tempo) . Os sinais de erro são gerados como a diferença entre os sinais de entrada e as saídas dos filtros adaptativos para trás, e os coeficientes dos filtros são adaptados para minimizar os sinais de erro fazendo assim com que o feixe de áudio seja orientado em direção ao sinal dominante. Os sinais de erro gerados x(n) podem ser considerados como sinais de referência de ruído que são particularmente adequados para executar redução de ruído adicional no sinal de saída aprimorado z(n).
[010] Tanto o sinal primário z(n) quanto o sinal de referência x(n) são normalmente contaminados por ruído. No caso de o ruído nos dois sinais ser coerente (por exemplo, quando há uma fonte de ruído de ponto de interferência), um filtro adaptativo 105 pode ser usado para reduzir o ruído coerente.
[011] Para isso, o sinal de referência de ruído x(n) é acoplado à entrada do filtro adaptativo 105 com a saída sendo subtraída do sinal de fonte de áudio z(n) para gerar um sinal compensado r(n) . O filtro adaptativo 105 é adaptado para minimizar a potência do sinal compensado r(n), geralmente quando a fonte de áudio desejada não está ativa
Petição 870190059022, de 26/06/2019, pág. 10/227
4/95 (por exemplo, quando não há fala), e isso resulta na supressão de ruído coerente.
[012] O sinal compensado é alimentado em um pós-processador 107 que executa a redução de ruído no sinal compensado r (n) com base no sinal de referência de ruído x(n) . Especificamente, o pós-processador 107 transforma o sinal compensado r (n) e o sinal de referência de ruído x (n) para o domínio da frequência com o uso de uma transformada de Fourier de tempo curto. Então, para cada intervalo de frequência, modifica a amplitude de Η(ω) mediante a subtração de uma versão em escala do espectro de amplitude de Χ(ω) . O espectro complexo resultante é transformado de volta para o domínio do tempo para produzir o sinal de saída q(n) no qual o ruído foi suprimido. Essa técnica de subtração espectral foi descrita pela primeira vez em S.F. Boll, Suppression of Acoustic Noise in Speech using Spectral Subtraction, IEEE Trans. Acoustics, Speech and Signal Processing, vol. 27, pp. 113-120, Abril de 1979.
[013] Um exemplo específico de supressão de ruído com base em energias relativas do sinal da fonte de áudio e do sinal de referência de ruído em regiões de tempofrequência individuais é descrito em WO2015139938A.
[014] Em muitos sistemas de captura de áudio, uma pluralidade de formadores de feixes que podem se adaptar independentemente às fontes de áudio pode ser aplicada. Por exemplo, a fim de rastrear dois diferentes oradores em um ambiente de áudio, um aparelho de captura de áudio pode incluir dois formadores de feixes independentemente adaptativos.
Petição 870190059022, de 26/06/2019, pág. 11/227
5/95 [015] De fato, embora o sistema da Figura 1 forneça operação muito eficiente e desempenho vantajoso em muitos cenários, ele não é ideal em todos os cenários. De fato, embora muitos sistemas convencionais, incluindo o exemplo da Figura 1, forneçam um desempenho muito bom quando a fonte de áudio/alto-falante desejada está dentro do raio de reverberação da matriz de microfones, isto é, para aplicações onde a energia direta da fonte de áudio desejada é (de preferência, significativamente) mais forte que a energia das reflexões da fonte de áudio desejada, eles tendem a fornecer resultados menos ideais quando este não é o caso. Em ambientes típicos, descobriu-se que um orador deve estar geralmente dentro de 1 a 1,15 metros da matriz de microfones.
[016] No entanto, há um forte desejo por soluções, aplicações e sistemas viva-voz baseados em áudio em que o usuário pode estar mais distante da matriz de microfones. Isso é desejado, por exemplo, para muitos sistemas e aplicações de comunicação e de controle por voz. Os sistemas que fornecem melhoria de fala incluindo desreverberação e supressão de ruído para tais situações estão no campo chamado de super sistemas viva-voz.
[017] Mais detalhadamente, quando se lida com ruído difuso adicional e um orador desejado fora do raio de reverberação, podem ocorrer os seguintes problemas:
• O formador de feixes pode muitas vezes ter problemas para distinguir entre ecos da fala desejada e ruídos de fundo difusos, resultando em distorção da fala.
• O formador de feixes adaptativo pode convergir mais lentamente em direção ao orador desejado. Durante o tempo em que o feixe adaptativo ainda não
Petição 870190059022, de 26/06/2019, pág. 12/227
6/95 convergiu, haverá vazamento de fala no sinal de referência, resultando em distorção da fala no caso de esse sinal de referência ser usado para supressão e cancelamento de ruído não estacionário. 0 problema aumenta quando há mais fontes desejadas que falam uma após a outra.
[018] Uma solução para lidar com filtros adaptativos convergentes mais lentos (devido ao ruído de fundo) é suplementar isso com vários feixes fixos que são direcionados em direções diferentes, conforme ilustrado na Figura 2. Entretanto, essa abordagem é particularmente desenvolvida para cenários em que uma fonte de áudio desejada está presente dentro do raio de reverberação. Isso pode ser menos eficiente para fontes de áudio fora do raio de reverberação e pode frequentemente levar a soluções não robustas em tais casos, especialmente se houver também ruído de fundo difuso acústico.
[019] Um elemento particularmente critico da captura de áudio com o uso de formadores de feixes é a adaptação dos formadores de feixes/feixes. Vários algoritmos de adaptação de formação de feixes têm sido propostos. Por exemplo, para um aplicativo de captura de fala, um algoritmo de adaptação pode procurar adaptar os filtros de formação de feixes com base em um critério de maximizar o nível do sinal de saída durante períodos de fala.
[020] Entretanto, os algoritmos de adaptação atuais tendem a ser baseados em assumir um ambiente benigno no qual a fonte de áudio à qual o formador de feixes está se adaptando é a fonte de áudio dominante que fornece uma razão entre sinal e ruído relativamente alta. De fato, a maior parte dos algoritmos tendem a supor que a trajetória direta (e
Petição 870190059022, de 26/06/2019, pág. 13/227
7/95 possivelmente as reflexões adiantadas) domina as reflexões
tardias, a cauda de reverberação e, de fato, o ruído
proveniente de outras fontes (incluindo ruído de fundo
difuso). 021] Como consequência, tais abordagens de
adaptação tendem a ser inferiores ao ideal em ambientes onde essas suposições não são satisfeitas e, de fato, tendem a fornecer um desempenho abaixo do ideal para muitas aplicações da vida real.
[022] De fato, a captura de áudio em geral por fontes fora do raio de reverberação tende a ser difícil devido à energia do campo direto da fonte para o dispositivo ser pequena em comparação com a energia da fala refletida e do ruído de fundo acústico. Embora os sistemas de múltiplos feixes possam melhorar a captura de áudio em tais cenários, a captura será degradada ou, de fato, muitas vezes simplesmente não funcionará, se a adaptação não for confiável.
[023] Os algoritmos de adaptação atuais tendem a ser inferiores ao ideal e fornecem adaptação relativamente insuficiente para cenários nos quais a fonte de áudio desejada é dominada por reflexões tardias, reverberações e/ou ruído, incluindo em particular ruído difuso. Tais cenários podem tipicamente ocorrer quando a fonte de áudio desejada está longe da matriz de microfones.
[024] Dessa forma, em muitas aplicações práticas, o desempenho dos sistemas de captura de áudio por formação de feixes pode ser degradado ou limitado pelo desempenho da adaptação.
[025] Portanto, uma abordagem aprimorada de captura de áudio por formação de feixes seria vantajosa e, em
Petição 870190059022, de 26/06/2019, pág. 14/227
8/95 particular, uma abordagem que forneça uma adaptação aprimorada seria vantajosa. Em particular, uma abordagem que possibilite complexidade reduzida, maior flexibilidade, implementação facilitada, custo reduzido, captura de áudio aprimorada, melhor adequação à captura de áudio fora do raio de reverberação, sensibilidade a ruido reduzida, captura de fala melhorada, melhor adaptação à formação de feixes, controle aprimorado e/ou desempenho aprimorado seria vantajosa.
BREVE DESCRIÇÃO DA INVENÇÃO [026] Consequentemente, a invenção busca, de preferência, mitigar, aliviar ou eliminar uma ou mais das desvantagens mencionadas acima, individualmente ou em qualquer combinação.
[027] De acordo com um aspecto da invenção, é fornecido um aparelho de captura de áudio que compreende: um primeiro formador de feixes disposto para gerar um sinal de salda de áudio com formação de feixes; um adaptador para adaptar os parâmetros de formação de feixes do primeiro formador de feixes; um detector para detectar um ataque de fala no sinal de salda de áudio com formação de feixes; e um controlador para controlar a adaptação dos parâmetros de formação de feixes para ocorrer em um intervalo de tempo predeterminado de adaptação determinado em resposta à detecção do ataque de fala.
[028] A invenção pode proporcionar uma captura de áudio aprimorada em muitas modalidades. Em particular, um desempenho aprimorado em ambientes reverberantes e/ou para fontes de áudio em distâncias maiores pode frequentemente ser alcançado. Em particular, a abordagem pode proporcionar captura de fala aprimorada em muitos ambientes de áudio
Petição 870190059022, de 26/06/2019, pág. 15/227
9/95 desafiadores. Em muitas modalidades, a abordagem pode fornecer formação de feixes confiável e precisa. A abordagem pode fornecer um aparelho de captura de áudio com sensibilidade reduzida a, por exemplo, ruido, reverberação e reflexões. Em particular, a captura aprimorada de fontes de fala fora do raio de reverberação pode ser frequentemente obtida.
[029] A abordagem pode proporcionar captura de fala aprimorada para fontes de fala que enfrentam respostas de ambiente com reflexões tardias dominantes ou reverberações. A abordagem pode aprimorar a adaptação e a captura de áudio para fontes de fala que enfrentam respostas de ambiente que não podem ser completamente modeladas por respostas ao impulso de durações limitadas. Em particular, um desempenho aprimorado pode ser obtido em muitas modalidades pela adaptação sendo direcionada à trajetória direta e componentes de reflexão adiantada, ao mesmo tempo em que desconsidera as reflexões tardias (que não são modeladas pelos filtros de formação de feixe) .
[030] Em particular, um desempenho aprimorado pode frequentemente ser fornecido em cenários nos quais a trajetória direta de uma fonte de áudio à qual os formadores de feixes se adaptam não é dominante. Um desempenho aprimorado para cenários que compreendem um alto grau de ruido difuso, sinais reverberantes e/ou reflexões tardias muitas vezes pode ser obtido. Um desempenho aprimorado para fontes de áudio pontuais a distâncias maiores, e particularmente fora do raio de reverberação, pode muitas vezes ser obtido.
[031] A abordagem pode controlar automaticamente o adaptador para adaptar os parâmetros de formação de feixes aos intervalos de tempo de adaptação nos quais existem
Petição 870190059022, de 26/06/2019, pág. 16/227
10/95 características vantajosas para adaptar o formador de feixes. Em particular, ela pode controlar automaticamente o sistema para adaptar os parâmetros de formação de feixes durante tempos onde o sinal de fala resultará em tais cenários vantajosos, e a adaptação pode ser executada especificamente durante intervalos de tempo de adaptação nos quais os componentes de sinal desejados da fonte de fala dominam os componentes de sinal indesejados/de interferência.
[032] De fato, a abordagem pode controlar a adaptação para ser durante intervalos de tempo de adaptação nos quais os componentes de sinal dominantes (especificamente reflexões adiantadas) são predominantemente aqueles que os filtros de formação de feixes do formador de feixes podem modelar enquanto não estiverem adaptando durante intervalos de tempo nos quais os componentes de sinal indesejados (reflexões tardias/reverberação/ruido difuso que não podem ser modelados pelos filtros de formação de feixes) a partir da fonte de fala dominam. De fato, muitas vezes quando um ataque de fala é detectado, os componentes de sinal recebidos a partir da fonte de fala serão dominados por fortes reflexões adiantadas, enquanto os componentes de sinal de reflexões tardias/reverberações atualmente recebidos terão sido originados de seções de fala mais adiantadas e mais fracas. Em muitas modalidades e cenários, a detecção de um ataque de fala indicará um cenário em que os componentes de sinal recebidos de uma dada fonte de fala são compostos de reflexões adiantadas a partir do sinal mais forte durante o ataque, e de reflexões tardias e reverberação do sinal mais fraco antes do ataque. Esse cenário pode existir por uma dada duração até que as reflexões tardias também sejam originadas
Petição 870190059022, de 26/06/2019, pág. 17/227
11/95 da fala forte durante ou após o ataque, durante o qual o intervalo de tempo de adaptação é tipicamente encerrado (ou pode já ter sido encerrado) . Dessa forma, a adaptação pode ser executada automaticamente durante os momentos em que as reflexões adiantadas (incluindo a trajetória direta) são dominantes e, dessa forma, a adaptação procurará adaptar às reflexões adiantadas e não às reflexões tardias, mesmo se a resposta de ambiente acústico tiver componentes muito mais fortes para as reflexões tardias.
[033] A abordagem pode fornecer, consequentemente, um desempenho substancialmente aprimorado em cenários nos quais as reflexões tardias e a reverberação são significativas para a dada fonte de fala. Em particular, um desempenho aprimorado é obtido para fontes de fala fora do raio de reverberação. A abordagem pode possibilitar uma adaptação eficiente ao mesmo tempo em que pode ser realizada ao longo de todo um segmento de fala sempre que situações vantajosas ocorrerem. Dessa forma, a adaptação não se limita ao início da fala, mas pode ser realizada ao longo de toda a fala sempre que ocorrer um ataque.
[034] 0 ataque da fala pode ser
especificamente um início de fala após um período de
silêncio. Entretanto , em muitas modalidades e cenários , o
ataque de fala pode ocorrer durante um período de fala.
[035] Um ataque de fala pode ser um aumento do nível de fala da fonte quando comparado a um nível de fala médio de um período anterior. O período anterior pode, tipicamente, estar na faixa de 60 a 100 ms. O aumento do nível de fala da fonte pode ser, tipicamente, um aumento repentino e pode, muitas vezes, ser um aumento substancial.
Petição 870190059022, de 26/06/2019, pág. 18/227
12/95 [036] Uma fala de ataque pode, em algumas modalidades, ser considerada ocorrer quando um nível de sinal de reflexões adiantadas domina um nível de sinal de reverberações tardias e/ou ruído difuso reverberante.
[037] O aparelho de captura de áudio pode, em muitas modalidades, compreender uma unidade de saída para gerar um sinal de saída de áudio em resposta ao sinal de saída de áudio com formação de feixes.
[038] O formador de feixes pode ser um formador de feixes do tipo filtrar e combinar. O formador de feixes do tipo filtrar e combinar pode compreender um filtro de formação de feixes para cada microfone e um combinador para combinar as saídas dos filtros de formação de feixes para gerar o sinal de saída de áudio com formação de feixes. O formador de feixes filtrar e combinar pode compreender especificamente filtros de formação de feixes na forma de Filtros de Resposta Finita (FIR, ou Finite Response Filters) que têm uma pluralidade de coeficientes.
[039] Na maioria das modalidades, cada um dos filtros de formação de feixes tem uma resposta de impulso no domínio do tempo que não é um simples pulso de Dirac (correspondente a um simples atraso e, dessa forma, um ganho e um deslocamento de fase no domínio da frequência), mas, em vez disso, tem uma resposta ao impulso que se estende tipicamente ao longo de um intervalo de tempo de não menos que 2, 5, 10 ou mesmo 30 ms.
[040] O intervalo de tempo de adaptação predeterminado pode ter uma duração predeterminada e, em muitas modalidades, pode ter uma duração máxima predeterminada. A duração predeterminada (máxima) pode, em
Petição 870190059022, de 26/06/2019, pág. 19/227
13/95 muitas modalidades, não ser menor que 5 ms, 10 ms, 20 ms, 50 ms ou 100 ms. A duração predeterminada (máxima) pode, em muitas modalidades, não exceder 50 ms, 100 ms, 200 ms, 500 ms ou 1 s.
[041] De acordo com um recurso opcional da invenção, o detector está disposto para detectar o ataque de fala em resposta a um nivel de sinal de reflexões adiantadas recebidas em relação a um nivel de sinal de reflexões tardias recebidas.
[042] Isso pode fornecer uma abordagem particularmente vantajosa para detectar ataques de fala adequados para controlar a adaptação. Em particular, isso pode fornecer uma adaptação particularmente vantajosa ao direcionar isso para a trajetória direta e reflexões adiantadas que podem ser efetivamente modeladas pelos filtros de formação de feixes do formador de feixes. As reflexões adiantadas podem incluir a primeira reflexão (que geralmente é considerada a zero-ésima reflexão).
[043] Um ataque de fala pode ser especificamente detectado e considerado ocorrer quando os componentes de sinal recebidos a partir de uma fonte de fala por reflexões adiantadas (incluindo a trajetória direta) dominam os componentes de sinal recebidos em reflexões tardias e/ou ruido difuso/reverberante. Os componentes de sinal de reflexões adiantadas (incluindo a trajetória direta) podem ser considerados dominar quando sua energia de sinal é mais elevada (ou, em alguns casos, 3 dB, 6 dB ou mesmo 10 dB mais alta) do que a energia de sinal dos componentes de sinal recebidos em reflexões tardias e/ou ruido difuso/reverberante. Em algumas modalidades, as reflexões adiantadas podem ser
Petição 870190059022, de 26/06/2019, pág. 20/227
14/95 consideradas reflexões recebidas com um atraso da trajetória direta que não excede uma duração de respostas ao impulso dos filtros de formação de feixes do formador de feixes. As reflexões tardias (incluindo reverberação e ruído difuso) a partir da fonte de fala podem ser aquelas que são recebidas com um atraso maior do que a duração das respostas ao impulso. Em algumas modalidades, as reflexões adiantadas podem, por exemplo, ser consideradas reflexões que são recebidas com um atraso em relação à trajetória direta abaixo de um dado limiar (possivelmente predeterminado). Os componentes de sinal restantes podem ser considerados reflexões tardias ou reverberações. Em diferentes modalidades, diferentes abordagens ou considerações podem ser usadas para diferenciar entre reflexões adiantadas (incluindo trajetória direta) e tardias (incluindo reverberação/ruído difuso).
[044] De acordo com um recurso opcional da invenção, o primeiro formador de feixes é disposto para gerar ao menos um sinal de referência de ruído; e o detector é disposto para detectar o ataque de fala em resposta a uma comparação de um nível de sinal do sinal de saída de áudio com formação de feixes em relação a um nível de sinal do ao menos um sinal de referência de ruído.
[045] Isso pode fornecer uma abordagem particularmente vantajosa para detectar ataques de fala adequados para controlar a adaptação. Em particular, isso pode fornecer uma adaptação particularmente vantajosa ao direcionar isso para a trajetória direta e reflexões adiantadas que podem ser efetivamente modeladas pelos filtros de formação de feixes do formador de feixes. As
Petição 870190059022, de 26/06/2019, pág. 21/227
15/95 reflexões adiantadas podem incluir a primeira reflexão (que tipicamente é considerada a zero-ésima reflexão).
[046] A abordagem pode especificamente possibilitar que uma estimativa de ataque de fala seja gerada em resposta ao nível de sinal do sinal de saída de áudio com formação de feixes em relação ao nível de sinal do sinal de referência de ruído. Por exemplo, isso pode ser determinado como uma razão entre esses.
[047] Esse tipo de medida pode fornecer automaticamente uma indicação de quando a fala recebida na matriz de microfones é predominantemente caracterizada por componentes de sinal que podem ser modelados pelos filtros de formação de feixes (reflexões adiantadas) e quando é predominantemente caracterizada por componentes de sinal que não podem ser modelados pelos filtros de formação de feixes. A adaptação pode, consequentemente, ser focada em cenários nos quais a adaptação se concentrará em componentes de sinal que podem ser modelados. Isso pode fornecer uma captura de fala substancialmente aprimorada para fontes de fala, por exemplo, fora do raio de reverberação.
[048] Uma estimativa de ataque de fala com base em uma comparação entre o sinal de saída de áudio com formação de feixes e a referência de ruído pode fornecer uma boa indicação tanto do início do ataque de fala quanto do término do ataque de fala. Isso pode particularmente ser altamente adequado para identificar cenários durante um ataque de fala onde o sinal recebido é dominado por reflexões adiantadas e pode indicar quando esse cenário está sendo substituído por um cenário dominado por reflexões tardias.
Petição 870190059022, de 26/06/2019, pág. 22/227
16/95 [049] Em algumas modalidades, o controlador pode ser disposto para determinar um tempo de inicio do intervalo de tempo de adaptação predeterminado em resposta a uma comparação de um nível de sinal do sinal de saída de áudio com formação de feixes em relação a um nível de sinal do ao menos um sinal de referência de ruído.
[050] Isso pode melhorar ainda mais o desempenho e pode, especificamente, em muitas modalidades, fornecer um desempenho de adaptação aprimorado. Isso pode proporcionar uma detecção desejável do inicio de uma situação na qual os sinais recebidos são dominados por reflexões adiantadas (dentro da duração da resposta ao impulso dos filtros de formação de feixes).
[051] A hora de inicio pode especificamente ser determinada em resposta a uma medição de diferença entre o nível de sinal do sinal de saída de áudio com formação de feixes e o nível de sinal do aumento de sinal de referência de ruído acima de um limiar.
[052] De acordo com um recurso opcional da invenção, o controlador é disposto para encerrar o intervalo de tempo de adaptação predeterminado em resposta a uma comparação de um nível de sinal do sinal de saída de áudio com formação de feixes em relação a um nível de sinal do ao menos um sinal de referência de ruído.
[053] Isso pode melhorar ainda mais o desempenho e pode, especificamente, em muitas modalidades, fornecer um desempenho de adaptação aprimorado. Isso pode proporcionar uma detecção desejável do término de uma situação na qual os sinais recebidos são dominados por
Petição 870190059022, de 26/06/2019, pág. 23/227
17/95 reflexões adiantadas (dentro da duração da resposta ao impulso dos filtros de formação de feixes) .
[054] O controlador pode ser disposto para encerrar o intervalo de tempo de adaptação antes de um tempo de término predeterminado em resposta à comparação do nível de sinal do sinal de saída de áudio com formação de feixes em relação ao nivel de sinal do ao menos um sinal de referência de ruido. Em algumas modalidades, o intervalo de tempo de adaptação pode ter como intervalo de tempo de adaptação uma duração máxima predeterminada. No entanto, se a comparação indica que reflexões adiantadas podem não ser dominantes, o controlador pode prosseguir para encerrar o intervalo de tempo de adaptação (e, dessa forma, a adaptação) antes da duração máxima predeterminada.
[055] O tempo para encerrar o intervalo de tempo de adaptação predeterminado pode ser especificamente determinado em resposta a uma medição de diferença entre o nivel de sinal do sinal de salda de áudio com formação de
feixes e o nível de sinal da redução do sinal de referência
de ruído abaixo de um limiar.
[056] 0 controlador pode ser disposto para
encerrar o intervalo de tempo de adaptação antes de uma
duração predeterminada em resposta à comparação.
[057] De acordo com um recurso opcional da
invenção, o primeiro formador de feixes é disposto para gerar ao menos um sinal de referência de ruido, e o detector compreende: um primeiro transformador para gerar um primeiro sinal de domínio da frequência a partir de uma transformada de frequência do sinal de saída de áudio com formação de feixes, sendo que o primeiro sinal de domínio da frequência é
Petição 870190059022, de 26/06/2019, pág. 24/227
18/95 representado por valores de região tempo-frequência; um segundo transformador para gerar um segundo sinal de domínio da frequência a partir de uma transformada de frequência do ao menos um sinal de referência de ruído, sendo que o segundo sinal de domínio da frequência é representado por valores de região tempo-frequência; um processador de diferença disposto para gerar uma medição de diferença da região tempo-frequência que é indicativa de uma diferença entre uma primeira função monotônica de uma norma de um valor de região tempo-frequência do primeiro sinal de domínio da frequência e uma segunda função monotônica de uma norma de um valor de região tempofrequência do segundo sinal de domínio da frequência; e um estimador de ataque de fala para gerar uma estimativa de ataque de fala em resposta a um valor de diferença combinado de medições de diferença de regiões tempo-frequência para frequências acima de um limiar de frequência.
[058] Isso pode, em muitos cenários e aplicações, proporcionar uma captura de fala particularmente vantajosa. A estimativa de ataque de fala determinada dessa forma comprovou fornecer uma indicação muito vantajosa e de alto desempenho de tempos adequados para adaptar o formador de feixes. Um desempenho aprimorado para cenários que compreendem um alto grau de ruído difuso, sinais reverberantes e/ou reflexões tardias pode ser especificamente obtido. Uma captura de fala aprimorada para fontes de áudio pontuais a distâncias maiores, e particularmente fora do raio de reverberação, pode frequentemente ser obtida.
[059] A estimativa de ataque de fala pode fornecer automaticamente uma indicação de quando a fala recebida na matriz de microfones é predominantemente
Petição 870190059022, de 26/06/2019, pág. 25/227
19/95 caracterizada por componentes de sinal que podem ser modelados pelos filtros de formação de feixes (reflexões adiantadas) e quando é predominantemente caracterizada por componentes de sinal que não podem ser modelados pelos filtros de formação de feixes. A adaptação pode, consequentemente, ser focada em cenários nos quais a adaptação se concentrará em componentes de sinal que podem ser modelados. Isso pode fornecer uma captura de fala substancialmente aprimorada para fontes de fala, por exemplo, fora do raio de reverberação.
[060] Tanto a primeira como a segunda funções monotônicas podem, tipicamente, ser funções monotonicamente crescentes, mas podem, em algumas modalidades, ser funções monotonicamente decrescentes.
[061] As normas podem, tipicamente, ser normas LI ou L2, ou seja, especificamente, as normas podem corresponder a uma medição de energia ou magnitude para os valores de região tempo-frequência.
[062] Uma região tempo-frequência pode corresponder especificamente a um intervalo da transformada de frequência em um segmento/período de tempo. Especificamente, o primeiro e o segundo transformadores podem usar processamento em bloco para transformar segmentos consecutivos do primeiro e do segundo sinais. Uma região tempo-frequência pode corresponder a um conjunto de intervalos de transformada (tipicamente um) em um segmento/período.
[063] Em muitas modalidades, o limiar de frequência não é menor que 500 Hz. Isso pode melhorar o desempenho ainda mais, e pode, por exemplo, em muitas
Petição 870190059022, de 26/06/2019, pág. 26/227
20/95 modalidades e cenários, assegurar que uma descorrelação suficiente ou aprimorada seja alcançada entre os valores de sinal da saída de áudio com formação de feixes e os valores do sinal da referência de ruído usados na determinação da estimativa da fonte de áudio pontual. Em algumas modalidades, o limiar de frequência é vantajosamente não menor que 1 kHz, 1,5 kHz, 2 kHz, 3 kHz ou mesmo 4 kHz.
[064] De acordo com um recurso opcional da invenção, o detector é disposto para determinar um tempo de início do intervalo de tempo de adaptação predeterminado em resposta ao aumento do valor de diferença combinado acima de um limiar.
[065] Isso pode melhorar o desempenho ainda mais e pode, especificamente, em muitas modalidades, fornecer um desempenho de adaptação aprimorado. Isso pode proporcionar uma detecção desejável tanto do término quanto do início de uma situação na qual os sinais recebidos são dominados por reflexões adiantadas (dentro da duração da resposta ao impulso dos filtros de formação de feixes).
[066] De acordo com um recurso opcional da invenção, o detector é disposto para determinar o término do intervalo de tempo de adaptação em resposta à redução do valor de diferença combinado abaixo de um limiar.
[067] Isso pode melhorar o desempenho ainda mais e pode, especificamente, em muitas modalidades, fornecer um desempenho de adaptação aprimorado. Isso pode proporcionar uma detecção desejável do término de uma situação na qual os sinais recebidos são dominados por reflexões adiantadas (dentro da duração da resposta ao impulso dos filtros de formação de feixes).
Petição 870190059022, de 26/06/2019, pág. 27/227
21/95 [068] De acordo com um recurso opcional da invenção, o detector é disposto para gerar uma estimativa de coerência de ruído indicativa de uma correlação entre uma amplitude do sinal de saída de áudio com formação de feixes e uma amplitude do ao menos um sinal de referência de ruído; e pelo menos uma dentre a primeira função monotônica e a segunda função monotônica é dependente da estimativa de coerência de ruído.
[069] Isso pode melhorar ainda mais o desempenho, e pode especificamente, em muitas modalidades em particular, fornecer desempenho aprimorado para matrizes de microfones com distâncias menores entre os microfones.
[070] A estimativa de coerência de ruído pode ser especificamente uma estimativa da correlação entre as amplitudes do sinal de saída de áudio com formação de feixes e as amplitudes do sinal de referência de ruído quando não há fonte de áudio pontual ativa (por exemplo, durante períodos de tempo sem fala, isto é, quando a fonte de fala está inativa). A estimativa de coerência de ruído pode, em algumas modalidades, ser determinada com base no sinal de saída de áudio com formação de feixes e no sinal de referência de ruído e/ou no primeiro e no segundo sinais de domínio da frequência. Em algumas modalidades, a estimativa de coerência de ruído pode ser gerada com base em um processo de calibração ou medição separado.
[071] De acordo com um recurso opcional da invenção, o adaptador é disposto para modificar uma taxa de adaptação de parâmetros de formação de feixes para uma primeira região tempo-frequência em resposta a uma medição de
Petição 870190059022, de 26/06/2019, pág. 28/227
22/95 diferença de região tempo-frequência para a primeira região tempo-frequência.
[072] Isso pode melhorar o desempenho ainda mais e pode, especificamente, em muitas modalidades, fornecer um desempenho de adaptação aprimorado.
[073] De acordo com um recurso opcional da invenção, o detector é disposto para filtrar pelo menos uma das normas dos valores da região tempo-frequência do primeiro sinal de domínio da frequência e a norma dos valores da região tempo-frequência do segundo sinal de domínio da frequência; sendo que a filtragem inclui regiões tempo-frequência que diferem em termos de tempo e frequência.
[074] Isso pode proporcionar uma estimativa aprimorada de ataque de fala em muitas modalidades. A filtragem pode ser uma filtragem passa-baixa, como, por exemplo, uma média.
[075] De acordo com um recurso opcional da invenção, uma duração entre o ataque de fala e uma extremidade do intervalo de tempo de adaptação predeterminado não excede 100 ms.
[076] Isso pode proporcionar um desempenho vantajoso em muitas modalidades. Em algumas modalidades, o intervalo de tempo de adaptação predeterminado não excede 10, 15, 20, 30, 50, 150, 250 ou 500 ms.
[077] De acordo com um recurso opcional da invenção, o aparelho de captura de áudio compreende adicionalmente uma pluralidade de formadores de feixes incluindo o primeiro formador de feixes; e o detector está disposto para gerar uma estimativa de ataque de fala para
Petição 870190059022, de 26/06/2019, pág. 29/227
23/95 cada formador de feixes da pluralidade de formadores de
feixes; e o aparelho de captura de áudio compreende
adicionalmente um adaptador para adaptar ao menos um dentre a pluralidade de formadores de feixes em resposta às estimativas de ataque de fala.
e pode, [078] Isso pode melhorar ainda mais o desempenho especificamente, em muitas modalidades, fornecer um
desempenho de adaptação aprimorado para sistemas que usam uma pluralidade de formadores de feixes. Em particular, isso pode possibilitar que o desempenho geral do sistema forneça uma adaptação precisa e confiável para o cenário de áudio atual
enquanto fornece ao mesmo tempo uma adaptação rápida às
mudanças no mesmo (por exemplo, quando uma nova fonte de áudio
emerge). [079] De acordo com um recurso opcional da
invenção, a pluralidade de formadores de feixes compreende um
primeiro formador de feixes disposto para gerar um sinal de
saída de áudio com formação de feixes e ao menos um sinal de
referência de ruído; e uma pluralidade de formadores de feixes constritos acoplados à matriz de microfones e cada um disposto para gerar uma saída de áudio com formação de feixes constrita e ao menos um sinal de referência de ruído constrito; e sendo que o adaptador é disposto para adaptar parâmetros de formação de feixes constritos para um primeiro formador de feixes constrito sujeito a critérios que compreendem ao menos uma restrição do grupo de: uma estimativa de ataque de fala para o primeiro formador de feixes constrito é indicativa de ataque de fala sendo detectado para o primeiro formador de feixes constrito; e uma estimativa de ataque de fala para o primeiro
formador de feixes constrito é indicativa de probabilidade
Petição 870190059022, de 26/06/2019, pág. 30/227
24/95 mais elevada de ataque de fala do que a estimativa de ataque de fala para qualquer outro formador de feixes constrito da pluralidade de formadores de feixes constritos.
[080] A invenção pode proporcionar uma captura de áudio aprimorada em muitas modalidades. Em particular, um desempenho aprimorado em ambientes reverberantes e/ou para fontes de áudio pode normalmente ser alcançado. Em particular, a abordagem pode proporcionar captura de fala aprimorada em muitos ambientes de áudio desafiadores. Em muitas modalidades, a abordagem pode fornecer formação de feixes confiável e precisa, ao mesmo tempo em que fornece adaptação rápida a novas fontes de áudio desejadas. A abordagem pode fornecer um aparelho de captura de áudio com sensibilidade reduzida a, por exemplo, ruido, reverberação e reflexões. Em particular, a captura aprimorada de fontes de áudio fora do raio de reverberação pode ser frequentemente obtida.
[081] Em algumas modalidades, um sinal de áudio de salda do aparelho de captura de áudio pode ser gerado em resposta à primeira salda de áudio com formação de feixes e/ou à salda de áudio com formação de feixes constrita. Em algumas modalidades, o sinal de áudio de salda pode ser gerado como uma combinação da salda de áudio com formação de feixes constrita e, especificamente, uma seleção que combina selecionar, por exemplo, uma única salda de áudio com formação de feixes constrita pode ser usada.
[082] A adaptação dos formadores de feixes pode ser mediante a adaptação dos parâmetros de filtro dos filtros de formação de feixes dos formadores de feixes, como especificamente mediante a adaptação de coeficientes de filtro. A adaptação pode procurar otimizar (maximizar ou
Petição 870190059022, de 26/06/2019, pág. 31/227
25/95 minimizar) um dado parâmetro de adaptação, como, por exemplo, maximizar um nivel de sinal de salda quando uma fonte de áudio é detectada ou minimizá-lo quando somente ruido é detectado. A adaptação pode procurar modificar os filtros de formação de feixes para otimizar um parâmetro medido.
[083] De acordo com um recurso opcional da invenção, o aparelho de captura de áudio compreende adicionalmente: um processador de diferença de feixes para determinar uma medição de diferença para ao menos um dentre a pluralidade de formadores de feixes constritos, sendo a medição da diferença indicativa de uma diferença entre feixes formados pelo primeiro formador de feixes e o ao menos um dentre a pluralidade de formadores de feixes constritos; e sendo que o adaptador é disposto para adaptar os parâmetros de formação de feixes constritos com uma restrição de que os parâmetros de formação de feixes constritos são adaptados apenas para formadores de feixes constritos da pluralidade de formadores de feixes constritos para os quais uma medição de diferença foi determinada que satisfaz um critério de similaridade.
[084] Isso pode proporcionar um desempenho aprimorado em muitas modalidades.
[085] A medição de diferença pode refletir a diferença entre os feixes formados do primeiro formador de feixes e do formador de feixes constrito para o qual a medição de diferença é gerada, por exemplo, medida como uma diferença entre as direções dos feixes. Em muitas modalidades, a medição de diferença pode ser indicativa de uma diferença entre as saldas de áudio com formação de feixes do primeiro formador de feixes e do formador de feixes constrito. Em algumas
Petição 870190059022, de 26/06/2019, pág. 32/227
26/95 modalidades, a medição de diferença pode ser indicativa de uma diferença entre os filtros de formação de feixes do primeiro formador de feixes e do formador de feixes constrito. A medição de diferença pode ser uma medição de distância, como, por exemplo, uma medição determinada como a distância entre vetores dos coeficientes dos filtros de formação de feixes do primeiro formador de feixes e do formador de feixes constrito.
[086] Deve-se considerar que uma medição de similaridade pode ser equivalente a uma medição de diferença na medida em que uma medição de similaridade, ao fornecer informações relacionadas à similaridade entre duas características, fornece também inerentemente informações relacionadas à diferença entre as mesmas, e vice-versa.
[087] O critério de similaridade pode, por exemplo, compreender um requisito de que a medição de diferença seja indicativa de uma diferença abaixo de uma dada medição, por exemplo, pode ser exigido que uma medição de diferença que tenha valores crescentes esteja abaixo de um limiar.
[088] De acordo com um aspecto da invenção, é fornecido um método de captura de áudio que compreende: um formador de feixes gerar um sinal de saída de áudio com formação de feixes; adaptar os parâmetros de formação de feixes do formador de feixes; detectar um ataque de fala no sinal de saída de áudio com formação de feixes; controlar a adaptação dos parâmetros de formação de feixes para ocorrer em um intervalo de tempo de adaptação determinado em resposta à detecção do ataque de fala.
[089] Esses e outros aspectos, recursos e vantagens da invenção ficarão evidentes e serão elucidados
Petição 870190059022, de 26/06/2019, pág. 33/227
27/95 com referência à modalidade descrita (ou modalidades descritas) a seguir.
BREVE DESCRIÇÃO DAS FIGURAS [090] As modalidades da invenção serão descritas, apenas a título de exemplo, com referência aos desenhos, nos quais:
a Figura 1 ilustra um exemplo de elementos de um sistema de captura de áudio de formação de feixes;
a Figura 2 ilustra um exemplo de uma pluralidade de feixes formados por um sistema de captura de áudio;
a Figura 3 ilustra um exemplo de elementos de um aparelho de captura de áudio de acordo com algumas modalidades da invenção;
a Figura 4 ilustra um exemplo de elementos de um formador de feixes do tipo filtrar e somar;
as Figuras 5 a 7 ilustram exemplos de reflexões acústicas recebidas de uma fonte de fala;
a Figura 8 ilustra um exemplo de elementos deum estimador de ataque de fala de um aparelho de capturade áudio de acordo com algumas modalidades da invenção;
a Figura 9 ilustra um exemplo de elementos deum transformador de domínio da frequência para um estimador de ataque de fala de um aparelho de captura de áudio de acordo com algumas modalidades da invenção;
a Figura 10 ilustra um exemplo de elementos de um estimador de ataque de fala de um aparelho de captura de áudio de acordo com algumas modalidades da invenção; e a Figura 11 ilustra um exemplo de elementos de um aparelho de captura de áudio de acordo com algumas modalidades da invenção.
Petição 870190059022, de 26/06/2019, pág. 34/227
28/95
DESCRIÇÃO DETALHADA DE ALGUMAS MODALIDADES DA INVENÇÃO [091] A descrição a seguir foca em modalidades da invenção aplicáveis a um sistema de áudio de captura de fala com base na formação de feixes, mas deve-se considerar que a abordagem é aplicável a muitos outros sistemas e cenários de captura de áudio.
[092] A Figura 3 ilustra um exemplo de alguns
elementos de um aparelho de captura de áudio de acordo com
algumas modalidades da invenção.
[093] 0 aparelho de captura de áudio
compreende uma matriz de microfones 30 1 que compreende uma
pluralidade de microfones disposta para capturar áudio no ambiente.
[094] A matriz de microfones 301 é acoplada a um formador de feixes 303 (geralmente, diretamente ou através de um cancelador de eco, amplificadores, conversores de sinal digital para analógico etc., como será bem conhecido pelo versado na técnica).
[095] O formador de feixes 303 é disposto para combinar os sinais a partir da matriz de microfones 301 de modo que uma sensibilidade de áudio direcional eficaz da matriz de microfones 301 seja gerada. O formador de feixes 303 gera assim um sinal de saida, chamado de saida de áudio com formação de feixes ou sinal de saida de áudio com formação de feixes, o que corresponde a uma captura seletiva de áudio no ambiente. O formador de feixes 303 é um formador de feixes adaptativo e a direcionalidade pode ser controlada pela definição de parâmetros, chamados de parâmetros de formação de feixes, da operação de formação de feixes do
Petição 870190059022, de 26/06/2019, pág. 35/227
29/95 formador de feixes 303 e, especificamente, pela definição de parâmetros de filtro (tipicamente coeficientes) de filtros de formação de feixes.
[096] O formador de feixes 303 é, consequentemente, um formador de feixes adaptativo no qual a direcionalidade pode ser controlada mediante a adaptação dos
parâmetros da operação de formação de feixes.
(097] 0 formador de feixes 303 é
especificamente um formador de feixes do tipo filtrar e
combinar (ou ‘filtrar e somar especificamente na maioria
das modalidades) . Um filtro de formação de feixes pode ser aplicado a cada um dos sinais de microfone e as saldas filtradas podem ser combinadas, geralmente ao serem simplesmente agregadas.
[098] A Figura 4 ilustra um exemplo simplificado de um formador de feixes do tipo filtrar e somar com base em uma matriz de microfones que compreende apenas dois microfones 401. No exemplo, cada microfone é acoplado a um filtro de formação de feixes 403, 405 cujas saídas são somadas no somador 407 para gerar um sinal de saída de áudio com formação de feixes. Os filtros de formação de feixes 403, 405 têm respostas ao impulso fl e f2 que são adaptadas para formar um feixe em uma dada direção. Deve-se considerar que, normalmente, a matriz de microfones compreenderá mais de dois microfones, e que o princípio da Figura 4 é facilmente estendido a mais microfones, incluindo, ainda, um filtro de formação de feixes para cada microfone.
[099] O formador de feixes 303 pode incluir tal arquitetura do tipo filtrar e somar para a formação de feixes (como, por exemplo, nos formadores de feixes dos
Petição 870190059022, de 26/06/2019, pág. 36/227
30/95 documentos de patente US 7.146.012 e US 7.602.926). Deve-se considerar que, em muitas modalidades, a matriz de microfones 301 pode, no entanto, compreender mais de dois microfones. Deve-se considerar, ainda, que o formador de feixes 303 inclui funcionalidade para adaptar os filtros de formação de feixes conforme anteriormente descrito. Além disso, no exemplo específico, o formador de feixes 303 gera
não apenas um sinal de saída de áudio com formação de
feixes, mas também um sinal de referência de ruído.
[ 0100] Na maioria das modalidades, cada um dos
filtros de formação de feixes tem uma resposta de impulso no
domínio do tempo que não é um simples pulso de Dirac
(correspondente a um simples atraso e, dessa forma, um ganho e um deslocamento de fase no domínio da frequência), mas, em vez disso, tem uma resposta ao impulso que se estende tipicamente ao longo de um intervalo de tempo de não menos que 2, 5, 10 ou mesmo 30 ms.
[0101] A resposta ao impulso pode muitas vezes ser implementada pelos filtros de formação de feixes sendo filtros FIR (Filtro de Resposta Finita) com uma pluralidade de coeficientes. O formador de feixes 303 em tais modalidades pode adaptar a formação de feixes adaptando os coeficientes de filtro. Em muitas modalidades, os filtros FIR podem ter coeficientes que correspondem a compensações de tempo fixas (geralmente compensações de tempo de amostragem) com a adaptação sendo alcançada mediante a adaptação dos valores de coeficiente. Em outras modalidades, os filtros de formação de feixes podem geralmente ter substancialmente menos coeficientes (por exemplo, apenas dois ou três), mas com a sincronização dos mesmos (também) sendo adaptável.
Petição 870190059022, de 26/06/2019, pág. 37/227
31/95 [0102] Uma vantagem especifica de os filtros de formação de feixes terem respostas ao impulso estendidas em vez de serem um simples atraso de variável (ou um simples ajuste de fase/ganho de domínio da frequência) é que isso possibilita que o formador de feixes 303 não se adapte apenas ao componente de sinal mais forte, tipicamente direto. Em vez disso, isso possibilita que o formador de feixes 303 se adapte para incluir trajetórias de sinal adicionais que correspondem tipicamente a reflexões. Consequentemente, a abordagem possibilita um desempenho aprimorado na maioria dos ambientes reais e, especificamente, possibilita um desempenho aprimorado em ambientes de reflexão e/ou reverberantes e/ou para fontes de áudio mais distantes da matriz de microfones 301.
[0103] Um elemento extremamente crítico do desempenho de um formador de feixes adaptativo é a adaptação da direcionalidade (geralmente chamada de o feixe, embora deva-se considerar que as respostas ao impulso estendidas fazem com que essa direcionalidade tenha não apenas um componente espacial, mas também um componente temporal, isto é, o feixe formado como uma variação temporal para reflexões etc.).
[0104] No sistema da Figura 3, o formador de feixes 303 compreende um adaptador 305 que é disposto para adaptar os parâmetros de formação de feixes do primeiro formador de feixes. Especificamente, ele é disposto para adaptar os coeficientes dos filtros de formação de feixes para fornecer um dado feixe (espacial e temporal).
[0105] Deve-se considerar que diferentes algoritmos de adaptação podem ser usados em diferentes modalidades e que vários parâmetros de otimização serão
Petição 870190059022, de 26/06/2019, pág. 38/227
32/95 conhecidos pelo versado na técnica. Por exemplo, o adaptador 305 pode adaptar os parâmetros de formação de feixes para maximizar o valor do sinal de salda do formador de feixes 303.
Como um exemplo especifico, considere um formador de feixes no qual os sinais de microfone recebidos são filtrados com filtros correspondentes para a frente e onde as saldas filtradas são adicionadas. O sinal de salda é filtrado por filtros adaptativos para trás, sendo que as respostas de filtro são conjugadas para os filtros para frente (no domínio da frequência correspondente a respostas ao impulso invertidas no tempo no domínio do tempo) . Os sinais de erro são gerados como a diferença entre os sinais de entrada e as saídas dos filtros adaptativos para trás, e os coeficientes dos filtros são adaptados para minimizar os sinais de erro resultando assim na potência máxima de saída. Isso pode, ainda, gerar inerentemente um sinal de referência de ruído a partir do sinal de erro. Detalhes adicionais de tal abordagem podem ser encontrados nos documentos de patente US 7.146.012 e US 7.602.926.
[0106] Deve-se notar que as abordagens como as descritas nos documentos de patente US 7.146.012 e US 7.602.926 são baseadas no fato de a adaptação ter como base tanto o sinal da fonte de áudio z (n) quanto o um (ou mais) sinal de referência de ruído x (n) dos formadores de feixes, e deve-se considerar que a mesma abordagem pode ser usada para o formador de feixes da Figura 3.
[0107] De fato, o formador de feixes 303 pode ser especificamente um formador de feixes que corresponde ao ilustrado na Figura 1 e revelado nos documentos US 7.146.012 e US 7.602.926.
Petição 870190059022, de 26/06/2019, pág. 39/227
33/95 [0108] O formador de feixes 303 é disposto para gerar tanto um sinal de saída de áudio com formação de feixes quanto um sinal de referência de ruído.
[0109] O formador de feixes 303 pode ser disposto para adaptar a formação de feixes para capturar uma fonte de áudio desejada e representar isso no sinal de saída de áudio com formação de feixes. Isso pode, ainda, gerar o sinal de referência de ruído para fornecer uma estimativa de um áudio capturado remanescente, ou seja, é indicativo do ruído que seria capturado na ausência da fonte de áudio desejada.
[0110] No exemplo em modalidades onde o formador de feixes 303 é um formador de feixes conforme revelado nos documentos de patente US 7.146.012 e US 7.602.926, a referência de ruído pode ser gerada conforme anteriormente descrita, por exemplo, diretamente mediante o uso do sinal de erro. Entretanto, deve-se considerar que outras abordagens podem ser usadas em outras modalidades. Por exemplo, em algumas modalidades, a referência de ruído pode ser gerada como o sinal de microfone de um microfone (por exemplo, omnidirecional) menos o sinal de saída de áudio com formação de feixes gerado, ou mesmo o próprio sinal de microfone no caso de este microfone de referência de ruído estar longe dos outros microfones e não conter a fala desejada. Como outro exemplo, o formador de feixes 303 pode ser disposto para gerar um segundo feixe que tem um nulo na direção do máximo do feixe que gera o sinal de saída de áudio com formação de feixes, e a referência de ruído pode ser gerada como o áudio capturado por esse feixe complementar.
[0111] Em algumas modalidades, um pósprocessamento como a supressão de ruído da Figura 1 pode, pelo
Petição 870190059022, de 26/06/2019, pág. 40/227
34/95 processador de saída 305, ser aplicado à saída do aparelho de captura de áudio. Isso pode melhorar o desempenho para, por exemplo, comunicação por voz. Em tal pós-processamento, operações não lineares podem ser incluídas embora possa, por exemplo, para alguns reconhecedores de fala, ser mais vantajoso limitar o processamento para incluir apenas processamento linear.
[0112] O desempenho da adaptação é de importância crítica para o desempenho de um sistema de captura de áudio com formação de feixes. Entretanto, embora as abordagens convencionais típicas tenham bom desempenho em ambientes de áudio teóricos e ideais, elas tendem a ser muito menos eficientes e precisas em muitos cenários práticos.
[0113] De fato, a adaptação tende a degradar com o aumento do ruído e, especificamente se a adaptação é feita quando a fonte ativa não está presente, a adaptação durante esse intervalo de tempo se adaptará ao ruído em vez da fonte de áudio desejada. Para resolver isso, foram desenvolvidos sistemas nos quais a adaptação é executada apenas quando a fonte de áudio está presente. Especificamente, para um sistema de captura de fala, foram desenvolvidos sistemas que detectam a presença de fala e apenas adaptam durante períodos de fala.
[0114] No entanto, embora essa abordagem possa resolver o problema de adaptação quando a fonte de áudio desejada não está ativa, ela não resolve nenhum dos problemas em potencial durante os períodos em que a fonte de áudio desejada está ativa.
[0115] De fato, conforme percebido pelos inventores, as características do ambiente acústico podem impactar significativamente a adaptação e o desempenho
Petição 870190059022, de 26/06/2019, pág. 41/227
35/95 geral, especialmente quando são usados filtros de resposta ao impulso estendidos que buscam estimar intervalos maiores da resposta ao impulso do ambiente. Em particular, os inventores perceberam que, em cenários em que a trajetória direta não é dominante, a adaptação pode muitas vezes ser inferior ao ideal. De fato, em cenários em que a fonte de áudio está fora do raio de reverberação, o sinal recebido tende a ser dominado por reflexões tardias e reverberação. Isso complica e degrada a adaptação e pode, de fato, em muitos cenários, ainda impedir a adaptação à fonte de áudio correta mesmo quando ela está ativa.
[0116] O sistema da Figura 3 inclui um controle de adaptação que pode, em muitos cenários, fornecer desempenho de adaptação aprimorado resultando em captura de fala aprimorada.
[0117] O aparelho de captura de áudio inclui especificamente um detector 307 que é disposto para detectar o ataque de fala no sinal de saída de áudio com formação de feixes.
[0118] Um ataque de fala pode ser um aumento repentino do nível de fala quando comparado ao nível de fala médio do período anterior. Uma sentença de fala consiste em uma sequência de fonemas, onde cada fonema tem uma certa intensidade ou pressão acústica e tem um comprimento médio entre 60 e 100 ms. As diferenças nas intensidades dos fonemas podem ser bastante grandes. As vogais e, em particular, vogais estendidas podem ter níveis relativamente fortes. Uma consoante oclusiva pode ser 20 dB a 30 dB mais baixa do que a vogal precedente.
Petição 870190059022, de 26/06/2019, pág. 42/227
36/95 [0119] O inicio de tal vogal pode ser considerado um ataque de fala quando o nível é, por exemplo, 4 dB, 10 dB ou mesmo 20 dB mais forte do que o nível do fonema anterior.
[0120] Dessa forma, um aumento do nível de fala (a partir da fonte de fala, isto é, um aumento do nível da fonte de fala) em relação a um nível médio de fala de um período anterior é conhecido como um ataque de fala. O período anterior pode tipicamente estar na faixa de 60 a 100 ms. O aumento do nível de fala da fonte pode ser, tipicamente, um aumento repentino e pode, muitas vezes, ser um aumento substancial. Por exemplo, um aumento de, por exemplo, ao menos 3 dB, 4 dB, 10 dB ou mais do nível de fala dentro de um período não superior a, por exemplo, 5 ms, 10 ms ou 20 ms, pode ser considerado um ataque de fala.
[0121] Uma fala de ataque pode, em algumas modalidades, ser considerada ocorrer quando um nível de sinal de reflexões adiantadas domina um nível de sinal de reverberações tardias e/ou ruído difuso reverberante.
[0122] O detector 307 pode, especificamente em alguns cenários, detectar início de fala, isto é, um exemplo específico de um ataque de fala pode ser o início da fala. O detector 307 pode, consequentemente, ser disposto para detectar quando um período de fala é iniciado após um período de silêncio (no qual, nenhum conteúdo de fala é detectado no sinal de saída de áudio com formação de feixes).
[0123] O detector 307 é acoplado a um controlador 309 que é acoplado ao adaptador 305 e ao detector 307 e que é disposto para controlar a adaptação dos parâmetros de formação de feixes, de modo que a adaptação ocorra em um intervalo de
Petição 870190059022, de 26/06/2019, pág. 43/227
37/95 tempo de adaptação que é determinado a partir da detecção do ataque de fala. Dessa forma, um intervalo de tempo de adaptação é determinado em resposta à detecção do início de um segmento de fala. 0 intervalo de tempo de adaptação pode, especificamente, iniciar quando o ataque de fala é detectado (doravante também chamado de detecção de ataque de fala) e, por exemplo, ter uma duração predeterminada.
[0124] Dessa forma, o controlador 309 é disposto para iniciar uma adaptação do formador de feixes 303 e é significativamente também disposto para interromper a adaptação. Dessa forma, o controlador 309 é disposto para interromper a adaptação do formador de feixes 303 mesmo se o segmento de fala se estender além da duração do intervalo de tempo de adaptação. Dessa forma, o controlador 309 é disposto para encerrar o intervalo de tempo de adaptação durante um segmento de fala. O controlador 309 é, dessa forma, disposto para controlar a adaptação para ocorrer especificamente em um intervalo de tempo típica e relativamente curto no início de um novo segmento de fala. Em muitas modalidades, a adaptação pode ocorrer apenas durante tais intervalos de tempo de adaptação.
[0125] Nos exemplos descritos, o intervalo de tempo de adaptação predeterminado é um intervalo de tempo de adaptação gue tem uma duração predeterminada ou uma duração máxima predeterminada. Consequentemente, o intervalo de tempo de adaptação terá uma duração máxima predeterminada, e a adaptação será consequentemente interrompida após essa duração máxima predeterminada. Em algumas modalidades, o controlador pode ser adicionalmente configurado para encerrar o intervalo de tempo de adaptação anterior à duração máxima
Petição 870190059022, de 26/06/2019, pág. 44/227
38/95 predeterminada, por exemplo, se as condições que não são adequadas para adaptação forem detectadas (especificamente se for detectado que reflexões adiantadas não são dominantes).
[0126] Em contraste com abordagens convencionais onde a adaptação é realizada continuamente (ou continuamente quando uma fonte de fala desejada está ativa), o controlador 309 restringe a adaptação para ser realizada em um intervalo inicial de um segmento de fala. A abordagem pode controlar especificamente a adaptação de modo a ser realizada durante um período de tempo em que as características específicas do ataque de fala podem ser usadas na adaptação do formador de feixes 303. Ela pode especificamente focalizar a adaptação em um intervalo inicial em que a trajetória direta ou as reflexões adiantadas são mais significativas em relação às reflexões tardias e as reverberações do que será durante intervalos de tempo posteriores do segmento de fala. Os inventores descobriram não somente esse efeito, mas também descobriram que ele fornece uma adaptação substancialmente aprimorada para um sistema de captura de fala por formação de feixes e, em particular, para um sistema em que as respostas do ambiente acústico são modeladas por respostas ao impulso que têm uma duração substancial que, entretanto, não é suficiente para incluir todas as reflexões possíveis.
[0127] A abordagem será posteriormente elucidada adicionalmente ao descrever primeiro o efeito descoberto pelos inventores para um cenário em que o formador de feixes é continuamente adaptado sempre que a fala está ativa.
Petição 870190059022, de 26/06/2019, pág. 45/227
39/95 [0128] Os filtros de formação de feixes de um formador de feixes serão adaptados para tentar emular a resposta do ambiente acústico da fonte de áudio para o microfone correspondente. Se a fonte desejada estiver fora do raio de reverberação, a energia no campo sonoro causada pelo campo direto e primeiras reflexões é relativamente baixa em comparação com a energia causada pelo restante das reflexões (incluindo a reverberação). Consequentemente, quando o formador de feixes é continuamente adaptado durante um segmento de fala, a adaptação pode, tipicamente, ser para as reflexões tardias, pois isso resulta em uma energia de fala capturada total maior. Dessa forma, em vez de adaptar à trajetória direta e às primeiras reflexões, a adaptação pode ser, tipicamente, para reflexões tardias.
[0129] Isso pode ser ilustrado ao se considerar duas respostas de ambiente simplificadas de um alto-falante para dois microfones diferentes, conforme ilustrado na Figura 5.
[0130] No exemplo, as respostas do ambiente compreendem contribuições de trajetória/campo direto que chegam aos microfones ao mesmo tempo td. Além disso, as primeiras reflexões chegam aos microfones (tri) ao mesmo tempo. Além disso, as reflexões muito fortes chegam aos microfones em tempos diferentes tr2 e tr3. Se for considerado, em tal cenário, que os filtros de formação de feixes têm um comprimento de filtro do filtro adaptativo igual a Tn, então é desejado que o filtro adaptativo modele o tempo em torno da primeira reflexão, isto é, é desejado que a resposta ao impulso reflita o tempo entre τ3 e τ3 + TN, onde τ3 = td - Δ e Δ é selecionado suficientemente grande
Petição 870190059022, de 26/06/2019, pág. 46/227
40/95 para ser capaz de lidar com contribuições de campo direto que não chegam ao mesmo tempo nos microfones.
[0131] Entretanto, em tal cenário, a adaptação irá tipicamente adaptar as respostas ao impulso dos filtros de formação de feixes para serem determinadas principalmente pelas reflexões fortes e, portanto, elas se adaptarão para modelar o atraso (trs - tr2) .
[0132] Isso pode ser compreendido ao se considerar os dois microfones exemplificadores da Figura 4 onde o sinal de saída com formação de feixes z é obtido mediante a filtragem dos sinais de microfone em filtros correspondentes para frente e a adição das saídas filtradas. Os filtros correspondentes para frente são obtidos no processo de adaptação no qual, sob uma restrição de potência nos coeficientes de filtro, a potência de saída de z é maximizada. Isso fará com que as respostas ao impulso dos filtros de formação de feixes sejam adaptadas para parecer como aquelas ilustradas na Figura 6 considerando gue o resultado desejado seria aquele da Figura 7. Dessa forma, em vez do resultado desejado no qual as respostas simultâneas resultarão na adição coerente das trajetórias diretas e das primeiras reflexões após a filtragem, os filtros adaptados da Figura 6 resultarão na atenuação das mesmas.
[0133] Na abordagem do sistema da Figura 3, entretanto, o ataque de fala é detectado e, especificamente, a chegada dos primeiros sinais a partir da trajetória direta pode ser detectada. Nesse momento, o intervalo de tempo de adaptação pode ser inicializado, isto é, o formador de feixes 303 pode começar a adaptar. Dessa forma, o adaptador 305 pode, pelo controlador 309, ser controlado para iniciar
Petição 870190059022, de 26/06/2019, pág. 47/227
41/95 a adaptação no tempo t = ta na Figura 5. Ele pode então prosseguir para atualizar o formador de feixes (especificamente, maximizando a potência de saída) durante o intervalo de tempo de adaptação que pode ter uma duração de Tn, onde Tn pode ser predeterminado ou ter um valor máximo predeterminado e, dessa forma, a adaptação apenas será adaptada com base nos sinais recebidos dentro dessa duração. Se essa duração for mantida suficientemente curta, a adaptação não incluirá o tempo no qual as grandes reflexões tardias chegam e, assim, a adaptação pode ser baseada nas reflexões mais adiantadas e mais fracas (e na trajetória direta). Isso, no exemplo específico, possibilitará que os filtros de formação de feixes sejam adaptados para ter as respostas ao impulso desejadas da Figura 7.
[0134] A abordagem é consequentemente baseada em uma percepção de que uma adaptação aprimorada é alcançada quando a adaptação do formador de feixes ocorre durante ataques de fala e não durante deteriorações, pois isso possibilita ao sistema modelar uma trajetória direta fraca e primeiras reflexões.
[0135] De modo equivalente, para um ataque de fala, o nível de sinal geralmente aumenta muito rápido e por uma grande quantidade. Isso resulta em um tempo no qual a trajetória direta e (outras) reflexões adiantadas recebidas na matriz de microfones se originaram a partir de um sinal de fala de nível alto, enquanto os componentes de sinal atualmente recebidos através de reflexões tardias, ou como reverberação/ruído difuso, originaram-se antes do ataque e, dessa forma, correspondem a níveis de sinal baixos. Isso pode fazer com que as reflexões tardias dominem o sinal recebido
Petição 870190059022, de 26/06/2019, pág. 48/227
42/95 mesmo se a resposta do ambiente exibir reverberação/reflexões tardias mais fortes do que reflexões adiantadas. Dessa forma, o sistema pode detectar essa situação e adaptar especificamente o formador de feixes quando isso ocorre.
[0136] A abordagem, consequentemente, estende a consideração ou desejo de separar a fonte de áudio desejada do ruido a partir de outras fontes de áudio ao adaptar e pode, ainda, introduzir uma diferenciação entre os componentes de sinal diferentes recebidos da fonte de áudio desejada, e especificamente entre os componentes de sinal adiantados e os componentes de sinal tardios. Dessa forma, na abordagem, a parte de som difuso pode, de fato, também se originar da fonte desejada e, assim, mesmo em uma situação sem ruido de fundo ou outras fontes de áudio, a abordagem fornece uma adaptação aprimorada sobre um sistema convencional típico que simplesmente adapta sempre que a fala está presente. A abordagem possibilita uma adaptação aprimorada mesmo quando a trajetória direta e componentes de reflexão adiantada são muito mais fracos do que reflexões tardias e, de fato, o sistema é disposto para limitar a adaptação a ataques de fala onde a trajetória direta/reflexões adiantadas podem ainda dominar devido ao fato de as reflexões tardias não terem tido tempo suficiente para atingir a matriz de microfones.
[0137] Deve-se considerar que abordagens diferentes para detectar o ataque de fala podem ser usadas em modalidades diferentes. De fato, em algumas modalidades onde o sinal de fala é dominante em relação a outras fontes de áudio, incluindo ruído de fundo difuso, o detector 307 pode simplesmente ser um detector de nível que detecta quando o nível de sinal aumenta acima de um limiar (por exemplo,
Petição 870190059022, de 26/06/2019, pág. 49/227
43/95 definido como baixo o suficiente para detectar a chegada da primeira trajetória direta).
[0138] Entretanto, na maioria das modalidades, pode haver uma quantidade significativa de reflexões tardias e/ou ruido e detecções mais complexas podem ser vantajosamente aplicadas.
[0139] Por exemplo, em algumas modalidades, o detector 307 pode ser disposto para detectar diretamente o ataque de fala em resposta a um nivel de sinal de reflexões adiantadas recebidas em relação a um nivel de sinal de reflexões tardias recebidas. De fato, durante a parte inicial de um ataque de fala, as reflexões adiantadas podem dominar as reflexões tardias enquanto que, durante o segmento de fala em si, as reflexões tardias podem ser dominantes.
[0140] Esse efeito pode não somente ser explorado na adaptação com foco em momentos nos quais as reflexões adiantadas dominam, mas também pode, em algumas modalidades, ser usado diretamente para detectar o ataque de fala.
[0141] Por exemplo, o detector 307 pode determinar o envelope do sinal de áudio com formação de feixes, seguido de filtragem de passa-alta desse sinal de envelope. Os ataques na fala fazem com que o envelope aumente significativamente, enquanto que a reverberação tardia faz com que o envelope deteriore lentamente de acordo com uma exponencial que é determinada pelo tempo de reverberação. A filtragem passa-alta remove partes da deterioração do envelope e os ataques permanecem. Se o sinal de envelope filtrado em passa-alta exceder um limiar e
Petição 870190059022, de 26/06/2019, pág. 50/227
44/95 exceder as reverberações tardias, então pode-se considerar que isso corresponde a uma detecção de um ataque de fala.
[0142] Como outro exemplo, dois filtros passabaixa podem filtrar o sinal (de fala) recebido de maneira que um tenha uma frequência de corte mais baixa do que o outro (e, dessa forma, obtendo uma média ao longo de uma duração mais longa). Se um ataque de fala ocorre, o nível do sinal de fala pode aumentar repentina e substancialmente. Esse aumento resultará em um aumento mais rápido no nível de saída para o filtro de corte de frequência mais alta do que para o filtro de corte de frequência mais baixa. Eficazmente, o filtro de corte de frequência mais alta pode, nesse caso, representar um sinal pós-ataque e, sendo assim, as reflexões adiantadas para o ataque, enquanto que o filtro de corte de frequência mais baixa pode ainda refletir o sinal total pré-ataque, que pode ser dominado por reflexões tardias.
[0143] Consequentemente, um ataque de fala pode ser detectado mediante a comparação das saídas de filtro e indicação de um ataque de fala quando a saída do filtro de corte de frequência mais alta exceder a saída do filtro de corte de frequência mais baixa por uma dada quantidade.
[0144] Dessa forma, ao se avaliar os sinais que representam as reflexões adiantadas e tardias (ou a combinação das reflexões adiantadas e tardias, isto é, o sinal total), situações particularmente vantajosas de adaptação podem ser detectadas. Essas podem não apenas ser detectadas no inicio da fala após um período de silêncio, mas também podem ser determinadas durante a fala contínua normal. De fato, elas podem ser detectadas de modo que seja possível adaptar sempre que as reflexões diretas e iniciais
Petição 870190059022, de 26/06/2019, pág. 51/227
45/95 dominem o sinal de fala recebido. Quando novas partes de fala forem muito mais altas do que as partes anteriores, as reflexões diretas e iniciais podem dominar as partes mais fracas das reflexões mais tardias das partes anteriores. Isso é detectado e a adaptação é então realizada, resultando em uma adaptação aprimorada para as seções desejadas da resposta do ambiente, isto é, a resposta adiantada.
[0145] No exemplo da Figura 3, o formador de feixes 303 é disposto para gerar tanto um sinal de saída de áudio com formação de feixes quanto um ou mais sinais de referência de ruído. Em tais modalidades, o detector 307 pode ser disposto para detectar o ataque de fala em resposta a uma comparação de uma indicação de nível de sinal (e, especificamente, uma potência) para o sinal de saída de áudio com formação de feixes em relação a uma indicação de nível de sinal (e, especificamente, uma potência) para o ao menos um sinal de referência de ruído. Dessa forma, o nível de sinal do sinal de saída de áudio com formação de feixes pode ser comparado com o nível de sinal do sinal de referência de ruído e a detecção do ataque de fala pode ser baseada nessa comparação. Por exemplo, se o nível de sinal do sinal de saída de áudio com formação de feixes exceder o nível de sinal do sinal de referência de ruído por uma determinada margem, podese considerar que isso corresponde a uma detecção de um ataque de fala.
[0146] De fato, após um período de silêncio (ou nível de fala constante se as reflexões tardias/reverberação dominarem), o áudio capturado na direção do feixe e o áudio capturado em outras direções serão típica e razoavelmente similares (possivelmente após uma compensação pela largura
Petição 870190059022, de 26/06/2019, pág. 52/227
46/95 do feixe). Por exemplo, se o ruído difuso for distribuído de forma espacialmente uniforme, a única diferença entre os níveis de sinal será devido ao feixe ser estreito, e isso pode consequentemente ser compensado.
[0147] Entretanto, se o feixe já estiver focalizado na fonte de fala desejada (isto é, alguma adaptação já tiver sido realizada), o ataque de voz fará com que o nível de sinal aumentado correspondente seja capturado pelo formador de feixes 303 e o nível de sinal do sinal de saída de áudio com formação de feixes aumentará. Além disso, como os filtros de formação de feixes são adaptados à trajetória direta e às reflexões adiantadas, e essas durante um ataque inicial são tudo o que é recebido do ataque, grande parte da energia recebida da fonte de fala será capturada e, assim, o nível de sinal do sinal de saída de áudio com formação de feixes aumentará enquanto o nível de sinal do sinal de referência de ruído permanecerá constante. Dessa forma, o nível de sinal do sinal de saída de áudio com formação de feixes em relação ao nível de sinal do sinal de referência de ruído aumentará substancialmente e isso pode ser detectado como um ataque de fala.
[0148] Posteriormente, após um certo atraso, as reflexões tardias do ataque chegarão à matriz de microfones. Entretanto, se elas chegarem com um atraso que é mais longo do que a duração das respostas ao impulso dos filtros de formação de feixes (isto é, elas forem reflexões da resposta do ambiente com um atraso que excede a duração das respostas ao impulso dos filtros de formação de feixes), elas não serão combinadas coerentemente no sinal de saída de áudio com formação de feixes, mas, como consequência, também
Petição 870190059022, de 26/06/2019, pág. 53/227
47/95 contribuirão para o sinal de referência de ruído. Dessa forma, o nível de sinal do sinal de saída de áudio com formação de feixes deixará de ser maior que o nível de sinal do sinal de referência de ruído (presumindo que as reflexões tardias são mais fortes) e, como resultado, o detector 307 deixará de detectar um ataque de fala.
[0149] Dessa forma, tal um detector 307 pode detectar especificamente o ataque de fala em vez de meramente a presença de fala. Adicionalmente, isso pode ser feito de maneira contínua durante um segmento de fala e, de fato, a abordagem pode possibilitar a detecção automatizada de qualquer ataque de fala fazendo com que as reflexões adiantadas dominem as reflexões tardias. Isso pode fornecer uma abordagem muito vantajosa.
[0150] De fato, em algumas modalidades, tanto o início quanto o final do intervalo de tempo de adaptação podem ser determinados em resposta à saída do detector 307. Especificamente, o intervalo de tempo de adaptação pode ser iniciado quando o detector 307 indicar que um ataque de fala foi detectado (por exemplo, a diferença entre os níveis de sinal excede um limiar) e durar até o detector 307 não detectar o ataque de fala (por exemplo, a diferença entre os níveis de sinal já não excede o limiar). Em algumas modalidades, o término do intervalo de tempo de adaptação pode ser determinado ocorrer após uma duração predeterminada. Em outras modalidades, o tempo de término pode ser determinado após uma duração máxima predeterminada ou o intervalo de tempo de adaptação pode ser determinado ser anterior a isso se condições específicas forem detectadas.
Petição 870190059022, de 26/06/2019, pág. 54/227
48/95 [0151] A seguir, será descrita uma abordagem específica e particularmente vantajosa para a detecção do ataque de fala. A abordagem se baseia na abordagem de comparação do sinal de saída de áudio com formação de feixes com o sinal de referência de ruído, mas será baseada em comparações em regiões tempo-frequência individuais. Descobriu-se que a abordagem fornece uma detecção gue é muito robusta e fornece desempenho muito vantajoso em muitos cenários práticos, incluindo, em particular, cenários nos quais a fonte de áudio está fora do raio de reverberação e onde ruído substancial está presente.
[0152] Na abordagem, o detector 307 da Figura 3 compreende elementos, conforme mostrado na Figura 8. Especificamente, o detector 307 compreende um detector 307 que é disposto para gerar uma estimativa de ataque de fala indicativa de se um ataque de fala está ocorrendo ou não. O detector 307 determina essa estimativa com base no sinal de saída de áudio com formação de feixes e o sinal de referência de ruído gerado pelo formador de feixes 303.
[0153] O detector 307 compreende um primeiro transformador 801 disposto para gerar um primeiro sinal de domínio da frequência mediante a aplicação de uma transformada de frequência ao sinal de saída de áudio com formação de feixes. Especificamente, o sinal de saída de áudio com formação de feixes é dividido em segmentos/intervalos de tempo. Cada segmento/intervalo de tempo compreende um grupo de amostras que são transformadas, por exemplo, por um FFT, em um grupo de amostras de domínio da frequência. Dessa forma, o primeiro sinal de domínio da frequência é representado por amostras de domínio da frequência onde cada amostra de domínio
Petição 870190059022, de 26/06/2019, pág. 55/227
49/95 da frequência corresponde a um intervalo de tempo especifico (o quadro de processamento correspondente) e um intervalo de frequência especifico. Cada intervalo de frequência e intervalo de tempo está tipicamente no campo conhecido como uma região tempo-frequência. Dessa forma, o primeiro sinal de domínio da frequência é representado por um valor para cada uma dentre uma pluralidade de regiões tempo-frequência, isto é, por valores de região tempo-frequência.
[0154] O detector 307 compreende adicionalmente um segundo transformador 803 que recebe o sinal de referência de ruído. O segundo transformador 803 é disposto para gerar um segundo sinal de domínio da frequência mediante a aplicação de uma transformada de frequência ao sinal de referência de ruído. Especificamente, o sinal de referência de ruído é dividido em segmentos/intervalos de tempo. Cada segmento/intervalo de tempo compreende um grupo de amostras que são transformadas, por exemplo, por um FFT, em um grupo de amostras de domínio da frequência. Dessa forma, o segundo sinal de domínio da frequência é representado por um valor para cada uma dentre uma pluralidade de regiões tempo-frequência, isto é, por valores de região tempo-frequência.
[0155] A Figura 9 ilustra um exemplo específico de elementos funcionais de possíveis implementações da primeira e da segunda unidades da transformada 801, 803. No exemplo, um conversor serial-paralelo gera blocos (períodos) sobrepostos de amostras de 2B que, após a aplicação de janelas de Hanning, são convertidos para o domínio da frequência por uma Transformada rápida de Fourier (FFT).
Petição 870190059022, de 26/06/2019, pág. 56/227
50/95 [0156] O sinal de saída de áudio com formação de feixes e o sinal de referência de ruído são, a seguir, chamados de z (n) e x (n) respectivamente e o primeiro e o segundo sinais de domínio da frequência são chamados pelos vetores Z(w) (tk) e X(M) (tk) (sendo que cada vetor compreende todos os valores da região de frequência M para um dado segmento/período de tempo de processamento/transformação).
[0157] Em muitas modalidades, o formador de feixes 303 pode, como no exemplo da Figura 1, compreender um filtro adaptativo que atenua ou remove o ruído no sinal de saída de áudio com formação de feixes que está correlacionado com o sinal de referência de ruído.
[0158] Após a transformação para o domínio da frequência, os componentes reais e imaginários dos valores de tempo-frequência são considerados ter distribuição gaussiana. Essa suposição é tipicamente precisa, por exemplo, para cenários com ruído proveniente de campos sonoros difusos, para ruído de sensor e para uma série de outras fontes de ruído encontradas em muitos cenários práticos .
[0159] O primeiro transformador 801 e o segundo transformador 803 são acoplados a um processador de diferença 805 que é disposto para gerar uma medição de diferença da região tempo-frequência para as frequências de região individuais. Especificamente, ele pode gerar uma medição de diferença para o período atual para cada intervalo de frequência resultante das FFTs. A medição de diferença é gerada a partir dos valores de região tempofrequência correspondentes do sinal de saída de áudio com
Petição 870190059022, de 26/06/2019, pág. 57/227
51/95 formação de feixes e dos sinais de referência de ruído, isto é, do primeiro e do segundo sinais de domínio da frequência.
[0160] Em particular, a medição de diferença para uma dada região tempo-frequência é gerada para refletir uma diferença entre uma primeira função monotônica de uma norma do valor de região tempo-frequência do primeiro sinal de domínio da frequência (isto é, do sinal de saída de áudio com formação de feixes) e uma segunda função monotônica de uma norma do valor de região tempo-frequência do segundo sinal de domínio da frequência (o sinal de referência de ruído). A primeira e a segunda funções monotônicas podem ser iguais ou podem ser diferentes.
[0161] As normas podem ser tipicamente uma norma LI ou uma norma L2 . Dessa forma, na maioria das modalidades, a medição de diferença da região tempofrequência pode ser determinada como uma indicação de diferença que reflete uma diferença entre uma função monotônica de uma magnitude ou potência do valor do primeiro sinal de domínio da frequência e uma função monotônica de uma magnitude ou potência do valor do segundo sinal de domínio da frequência.
[0162] As funções monotônicas podem tipicamente ser ambas monotonicamente crescentes, mas podem, em algumas modalidades, ser ambas monotonicamente decrescentes.
[0163] Deve-se considerar que diferentes medições de diferença podem ser usadas em diferentes modalidades. Por exemplo, em algumas modalidades, a medição de diferença pode ser simplesmente determinada subtraindo-se os resultados da primeira e da segunda funções entre si. Em
Petição 870190059022, de 26/06/2019, pág. 58/227
52/95 outras modalidades, eles podem ser divididos um pelo outro para gerar uma razão indicativa da diferença, entre outros.
[0164] O processador de diferença 805 gera, consequentemente, uma medição de diferença da região tempofrequência para cada região tempo-frequência com a medição de diferença sendo indicativa do nível relativo, respectivamente, do sinal de saída de áudio com formação de feixes e do sinal de referência de ruído naquela frequência.
[0165 ] 0 processador de diferença 805 é acoplado
a um estimador de ataque de fala 807 para gerar uma estimativa
de ataque de fala em resposta a um valor de diferença
combinado de medições de diferença de regiões tempo-frequência para frequências acima de um limiar de frequência. Dessa forma, o estimador de ataque de fala 807 gera a estimativa de ataque de fala ao combinar as medições de diferença da região tempo-frequência para frequências acima de uma dada frequência. A combinação pode ser especificamente uma soma, ou, por exemplo, uma combinação ponderada, que inclui uma ponderação dependente da frequência, de todas as medições de diferença de região tempo-frequência ao longo de uma dada frequência limite.
[0166] A estimativa de ataque de fala é, dessa forma, gerada para refletir a diferença específica de frequência relativa entre os níveis do sinal de saída de áudio com formação de feixes e o sinal de referência de ruído ao longo de uma dada frequência. A frequência limite pode geralmente estar acima de 500 Hz.
[0167] Os inventores perceberam que tal medição fornece uma forte indicação de se o ataque de fala ocorre ou não. De fato, eles perceberam que a comparação específica de
Petição 870190059022, de 26/06/2019, pág. 59/227
53/95 frequência, juntamente com a restrição a frequências mais altas, na prática fornece uma indicação aprimorada da presença do ataque de fala. Adicionalmente, eles perceberam que a estimativa é adequada para aplicação em ambientes e cenários acústicos onde abordagens convencionais não fornecem resultados precisos. Especificamente, a abordagem descrita pode proporcionar detecção vantajosa e precisa do ataque de fala mesmo para fontes de fala não-dominantes que estão distantes da matriz de microfones 301 (e fora do raio de reverberação) e na presença de ruído difuso forte.
[0168] Em muitas modalidades, o estimador de ataque de fala 807 pode ser disposto para gerar a estimativa de ataque de fala para simplesmente indicar se um ataque de fala foi detectado ou não. Especificamente, o estimador de ataque de fala 807 pode ser disposto para indicar que o ataque de fala foi detectado, pois o valor de diferença combinado excede um limiar. Dessa forma, se o valor de diferença combinado gerado indicar que a diferença é maior que um dado limiar, então, considera-se que o ataque de fala foi detectado no sinal de saída de áudio com formação de feixes. Se o valor de diferença combinado gerado for menor que o limiar, então, considera-se que o ataque de fala não foi detectado no sinal de saída de áudio com formação de feixes .
[0169] A abordagem descrita pode fornecer, assim, uma detecção de baixa complexidade de ataque de fala. Em particular, nota-se que a estimativa de ataque de fala pode exibir as características anteriormente descritas, a saber, que durante períodos de nível de sinal silencioso ou constante, a estimativa será baixa; durante períodos de um
Petição 870190059022, de 26/06/2019, pág. 60/227
54/95 ataque, quando reflexões adiantadas porém não reflexões tardias do ataque são recebidas, a estimativa será alta; e após o ataque, quando fortes reflexões tardias do ataque (que estão fora do intervalo de resposta ao impulso) são recebidas, a estimativa será baixa. Dessa forma, a abordagem possibilita a estimativa de ataque de fala para indicar diretamente que esse ataque de fala está ocorrendo, em vez de simplesmente detectar a presença de fala. Descobriu-se ainda que a abordagem específica proporciona um desempenho muito eficiente na prática e, de fato, proporciona uma detecção vantajosa de fontes de fala fora do intervalo de reverberação e na presença de ruído intenso resultante de reflexões tardias e reverberações.
[0170] A seguir, será descrito um exemplo específico de uma determinação altamente vantajosa de uma estimativa de ataque de fala.
[0171] No exemplo, o formador de feixes 303 pode adaptar conforme anteriormente descrito para focar em uma fonte de fala desejada. Ele pode fornecer um sinal de saída de áudio com formação de feixes que é focalizado na fonte, bem como um sinal de referência de ruído que é indicativo das reverberações tardias e possivelmente de áudio de outras fontes. O sinal de saída de áudio com formação de feixes é denotado como z (n) e o sinal de referência de ruído como x(n) . Tanto z (n) quanto x(n) podem tipicamente ser contaminados com reverberações tardias e possivelmente ruído, ambos os quais podem ser modelados como ruído difuso.
[0172] Seja Ζ(ίλ,ω2) o primeiro sinal de domínio da frequência (complexo) correspondente ao sinal de saída de
Petição 870190059022, de 26/06/2019, pág. 61/227
55/95 áudio com formação de feixes. Esse sinal consiste no sinal de fala desejado Zs(tk,(jòi) (trajetória direta + primeiras reflexões) e no sinal de fala reverberado ΖΓ(ίλ,ω2) (que inclui reverberação e reflexões tardias que não podem ser modeladas pelos filtros de formação de feixes do formador de feixes):
7(ί/:,ωζ) = Zs(tk,a)i) + Zr(tk,oji) .
[0173] Se a amplitude de Z^(tk,ún) fosse conhecida, seria possível derivar uma variável d conforme exposto a seguir:
[0174] d(tk,a)i) = \Z(tk,a)i)\- \Zr(tk,a)i)\, que é representativa da amplitude de fala
I Zs (tk,cúi) | .
[0175] O segundo sinal de domínio da frequência, isto é, a representação do domínio da frequência do sinal de referência de ruído x(n), pode ser denotado por Xn(tk,Cúl) .
[0176] Pode-se considerar que zr(n) e x (n) têm variâncias iguais, pois ambos representam ruído difuso e são obtidos pela adição (zr) ou subtração (x) de sinais com variâncias iguais, logo, as partes reais e imaginárias de ZrítksúJi') e Xn(tkrmi} também têm variâncias iguais. Portanto, \Zr(tkrmi} | pode ser substituído por \Xn(tk,mi} | na equação acima.
[0177] No caso em que nenhuma fala está presente (e, dessa forma, Z (tk, ωι) = Zr (tk, ωι) ) , isso leva a:
dÇtk,á)[) {Zr(tkl <OZ)| |Xn(t/j, <ΌΖ)I, sendo que |Z^(tk,tLu) | e \Xn(tk,Ci)i) | terão distribuição de Rayleigh, pois as partes reais e imaginárias têm distribuição gaussiana e independente.
Petição 870190059022, de 26/06/2019, pág. 62/227
56/95 [0178] A média da diferença de duas variáveis estocásticas é igual à diferença das médias e, portanto, o valor médio da medição de diferença da região tempofrequência acima será igual a zero:
E{d}=0.
[0179] A variância da diferença de dois sinais estocásticos é igual à soma das variâncias individuais e, portanto:
var (d) = (4 - π) σ2.
[0180] Agora a variância pode ser reduzida pela obtenção da média de \ Zr (tk,a>i) | e \Xn(tk,mi) | sobre valores independentes de L no plano (tk,Ci)i) fornecendo d= |Z(tfe,ío;)|— |X(tfe, ω;)|.
[0181] A suavização (filtragem passa-baixa) não muda a média, então temos:
E[d} = 0.
[0182] A variância da diferença de dois sinais estocásticos é igual à soma das variâncias individuais:
/ TA (4 - ^)ff2 var(a) =----------.
Lí [0183] A obtenção da média, portanto, reduz a variância do ruído.
[0184] Dessa forma, o valor médio da diferença da região tempo-frequência medida quando nenhuma fala está presente é igual a zero. No entanto, na presença de fala (trajetória direta + primeiras reflexões), o valor médio aumenta. Especificamente, a obtenção da média sobre valores L do componente de fala terá muito menos efeito, pois todos os elementos de \ Zs(tk,o)i) | serão positivos e
E{ | Zs (tk,cúi) | }>0 .
Petição 870190059022, de 26/06/2019, pág. 63/227
57/95 [0185] Dessa forma, quando fala estiver presente, o valor médio da medição de diferença da região tempo-frequência acima será maior que zero:
E{d] > 0.
[0186] A medição de diferença da região tempofrequência pode ser modificada pela aplicação de um parâmetro de design sob a forma do fator de subtração γ que é maior que 1:
d= \Z(tk,(üi)\ - γ\ X(tk;)|.
[0187] Nesse caso, o valor médio E{d] será menor que zero quando nenhuma fala (trajetória direta + primeiras reflexões) estiver presente e, de fato, quando a fala estiver presente, mas reflexões dominantes tardias chegarem com um atraso fora do comprimento/duração das respostas ao impulso dos filtros de formação de feixes. Entretanto, o fator de subtração γ pode ser selecionado de modo que o valor médio E{dj na presença de ataque de fala tenderá a ser maior que zero.
[0188] Para gerar uma estimativa de ataque de fala, as medições de diferença da região tempo-frequência para uma pluralidade de regiões tempo-frequência podem ser combinadas, por exemplo, por uma soma simples. Além disso, a combinação pode ser disposta de modo a incluir apenas regiões tempo-frequência para frequências acima de um primeiro limiar e possivelmente apenas para regiões tempofrequência abaixo de um segundo limiar.
[0189] Especificamente, a estimativa do ataque de fala pode ser gerada como:
ωΙ~ωΚίρΚ e(.h)= d(tfe,íoz).
ω11ο\ν
Petição 870190059022, de 26/06/2019, pág. 64/227
58/95
[0190] Essa estimativa de ataque de fala pode ser
indicativa da quantidade de energia no sinal de saída de áudio
com formação de feixes a partir de uma fonte de fala desej ada
recebida dentro da janela das respostas ao impulso do filtro de formação de feixes em relação à quantidade de energia no sinal de referência de ruído. Dessa forma, ela pode fornecer uma medição particularmente vantajosa para distinguir ataques de fala. Especificamente, o ataque de fala pode ser considerado estar presente se e(tk) for positivo. Se e(tk) for negativo, considera-se que nenhuma fonte de fala desejada foi encontrada ou que reflexões tardias fora da janela de resposta ao impulso dominam. Deve-se considerar que outros limiares diferentes de zero podem ser usados em outras modalidades.
[0191] Deve-se considerar que, embora a descrição acima exemplifique o contexto e os benefícios da abordagem do sistema da Figura 3, muitas variações e modificações podem ser aplicadas sem que se desvie da abordagem.
[0192] Deve-se considerar que diferentes funções e abordagens para determinar a medição de diferença que reflete uma diferença entre, por exemplo, magnitudes do sinal de saída de áudio com formação de feixes e o sinal de referência de ruído podem ser usadas em diferentes modalidades. De fato, o uso de diferentes normas ou a aplicação de diferentes funções às normas podem fornecer diferentes estimativas com propriedades diferentes, mas podem ainda resultar em medições de diferença que são indicativas das diferenças subjacentes entre o sinal de saída de áudio com formação de feixes e o sinal de referência de ruído na dada região tempo-frequência.
Petição 870190059022, de 26/06/2019, pág. 65/227
59/95 [0193] Dessa forma, considerando que as abordagens especificas anteriormente descritas podem proporcionar um desempenho particularmente vantajoso em muitas modalidades, muitas outras funções e abordagens podem ser usadas em outras modalidades dependendo das características específicas da aplicação.
[0194] De modo mais genérico, a medição de diferença pode ser calculada como:
d(tfe,w;) = Α(|Ζ(Α,ω;)|)- /2(| ω;)|) onde fi(x) e Í2 (x) podem ser selecionadas para ser quaisquer funções monotônicas que atendam às preferências e requisitos específicos da modalidade individual. Geralmente, as funções fi(x) e f2(x) serão funções monotonicamente crescentes ou decrescentes. Deve-se considerar ainda que, em vez de usar meramente a magnitude, outras normas (por exemplo, uma norma L2) podem ser usadas.
[0195] A medição de diferença da região tempofrequência é, no exemplo acima, indicativa de uma diferença entre uma primeira função monotônica fi(x) de um valor de região tempo-frequência de magnitude (ou outra norma) do primeiro sinal do domínio da frequência e uma segunda função monotônica Í2(x) de um valor de região tempo-frequência de magnitude (ou outra norma) do segundo sinal do domínio da frequência. Em algumas modalidades, a primeira e a segunda funções monotônicas podem ser funções diferentes. Entretanto, na maioria das modalidades, as duas funções serão iguais.
[0196] Além disso, uma ou ambas dentre as funções fi(x) e f2 (x) podem ser dependentes de vários outros parâmetros e medições, como, por exemplo, um nível de
Petição 870190059022, de 26/06/2019, pág. 66/227
60/95 potência média geral dos sinais de microfone, a frequência etc.
[0197] Em muitas modalidades, uma ou ambas dentre as funções fi(x) e f2 (x) podem ser dependentes de valores de sinal para outras regiões de frequência, por exemplo, por meio da obtenção da média de um ou mais dentre Z (tkr ωι) , | Z (tkr ωι) | , fi ( | Z (tk,mi) | ) , X(tk,mi) , | X (tkr ωι) | ou f2(ÍX(tk,mi) I) em relação a outras regiões na dimensão de frequência e/ou tempo (isto é, a obtenção da média de valores para diferentes indices de k e/ou 1). Em muitas modalidades, pode-se realizar uma média sobre uma zona que se estende tanto na dimensão de tempo quanto na dimensão de frequência. Exemplos específicos com base nas equações de medição de diferença específicas fornecidas anteriormente serão descritos mais adiante, mas deve-se considerar que abordagens correspondentes podem também ser aplicadas a outros algoritmos ou funções que determinam a medição de diferença.
[0198] Exemplos de funções possíveis para determinar a medição de diferença incluem, por exemplo:
d(tk,Mi) = lZ(tk,Mi)la - γ· \X(tk,a)i)\?
onde α e β são parâmetros de design com tipicamente α = β, como, por exemplo, em:
d(tk, ωζ) = Vl - γ Vl X(tfe,ú>z)|;
fc+3 fc+3
4(tfe,íoz)= | Z(tn, ωζ)| — γ |Χ(^ωζ)| n-k—4 n=k—4
Z(tk, &)t)[ — y. | ω_/)|} σ(ωζ)
Petição 870190059022, de 26/06/2019, pág. 67/227
61/95 onde σ(ωι) é uma função de ponderação adequada usada para proporcionar características espectrais desejadas da medição da diferença e da estimativa de ataque de fala.
[0199] Deve-se considerar que essas funções são meramente exemplificadoras e que muitas outras equações e algoritmos para calcular uma medição de distância podem ser previstos.
[0200] Nas equações acima, o fator γ representa um fator que é introduzido para inclinar a medição de diferença para valores negativos. Deve-se considerar que, enquanto os exemplos específicos introduzem essa inclinação por um fator de escala simples aplicado à região tempofrequência do sinal de referência de ruído, muitas outras abordagens são possíveis.
[0201] De fato, pode-se usar qualquer maneira adequada de dispor a primeira e a segunda funções fi(x) e Í2 (x) a fim de fornecer uma inclinação para valores negativos. A inclinação é especificamente, como nos exemplos anteriores, uma inclinação que gerará valores esperados da medição de diferença que são negativos se não houver fala ou se a fala for recebida principalmente por reflexões (muito) tardias. De fato, se tanto o sinal de saída de áudio com formação de feixes quanto o sinal de referência de ruído contiverem somente ruído aleatório (por exemplo, os valores de amostra podem ser simetricamente e aleatoriamente distribuídos em torno de um valor médio) , o valor esperado da medição de diferença será negativo, em vez de zero. No exemplo específico anterior, isso foi obtido pelo fator de subtração γ que resultou em valores negativos quando não há ataque de fala.
Petição 870190059022, de 26/06/2019, pág. 68/227
62/95 [0202] Um exemplo de um detector 307 com base nas considerações descritas é fornecido na Figura 10. No exemplo, o sinal de saída de áudio com formação de feixes e o sinal de referência de ruído são fornecidos ao primeiro transformador 801 e ao segundo transformador 803 que geram o primeiro e o segundo sinais de domínio da frequência correspondentes.
[0203] Os sinais de domínio da frequência são gerados, por exemplo, mediante o cálculo de uma transformada de Fourier de tempo curto (STFT) de, por exemplo, blocos com janelas de Hanning sobrepostos do sinal de domínio do tempo. A STFT é, em geral, uma função de tempo e frequência, e é expressa pelos dois argumentos tk e ωι sendo que tk = kB é o tempo discreto, e onde k é o índice do período, B o deslocamento do período e ωι = 1 ωο é a frequência (discreta) , sendo que 1 é o índice de frequência e ωο denota o espaçamento de frequência elementar.
[0204] Após essa transformação de domínio da frequência, os sinais representados pelos vetores Z(M) (tk) e X(M) (tk) respectivamente de comprimento são, dessa forma, fornecidos.
[0205] A transformação de domínio da frequência é, no exemplo específico, alimentada a unidades de magnitude 1001, 1003 que determinam e fornecem as magnitudes dos dois sinais, isto é, elas geram os valores
Figure BR112019013239A2_D0001
[0206] Em outras modalidades, outras normas podem ser usadas e o processamento pode incluir a aplicação de funções monotônicas.
[0207] As unidades de magnitude 1001, 1003 são acopladas a um filtro passa-baixa 1005 que pode suavizar os
Petição 870190059022, de 26/06/2019, pág. 69/227
63/95 valores de magnitude. A filtragem/suavização pode ser no domínio do tempo, no domínio da frequência ou muitas vezes vantajosamente em ambos, isto é, a filtragem pode se estender em ambas as dimensões do tempo e da frequência.
[0208] Os vetores/sinais de magnitude filtrados e (tfc) | também serão chamados de θ |£<Μ,(Οΐ [0209] O filtro 1005 é acoplado ao processador de diferença 805 que é disposto para determinar as medições de diferença da região tempo-frequência. Como um exemplo específico, o processador de diferença 805 pode gerar as medições de diferença da região tempo-frequência como:
|Ζ(ίγ,ωζ)| — yn \X(tk,a)i)\ [0210] parâmetro de design pode tipicamente, estar na faixa de 1..2.
[0211] processador de diferença
805 acoplado ao estimador de ataque de fala
807 onde alimentado com as medições de diferença da tempofrequência e, em resposta prossegue para determinar estimativa de ataque de fala pela combinação dessas.
[0212]
Especificamente, a soma das medições de diferença da região tempo-f requência d(tk,a)[) para valores de frequência entre ωι=ωιο« e a>j=a>high pode ser determinada como:
e(tfc) = [0213]
Em algumas modalidades, esse valor pode ser fornecido a partir do detector 307. Em outras modalidades, o limiar e usado valor determinado pode ser comparado a um para gerar, por exemplo, um valor binário
Petição 870190059022, de 26/06/2019, pág. 70/227
64/95 indicando se o ataque de fala é considerado como sendo detectado ou não. Especificamente, o valor e(tk) pode ser comparado com o limiar de zero, isto é, se o valor for negativo, é considerado que o ataque de fala não foi detectado e, se for positivo, é considerado que o ataque de fala foi detectado no sinal de saída de áudio com formação de feixes.
[0214] No exemplo, o detector 307 incluía filtragem passa-baixa/obtenção de média para os valores da região tempo-frequência de magnitude do sinal de saída de áudio com formação de feixes e para os valores da região tempo-frequência de magnitude do sinal de referência de ruído.
[0215] A suavização pode ser especificamente realizada mediante a obtenção de uma média sobre valores vizinhos. Por exemplo, a filtragem passa-baixa a seguir pode ser aplicada ao primeiro sinal de domínio da frequência:
|Ζ(Α,ωζ)| = Zm=oZn=-ilZ(tfe_m,á>z_n)|*W(m,n), onde (com N=l) W é uma matriz 3*3 com pesos de 1/9. Deve-se considerar que outros valores de N podem certamente ser usados e, de modo similar, diferentes intervalos de tempo podem ser usados em outras modalidades. De fato, o tamanho sobre o qual a filtragem/suavização é realizada pode ser variado, por exemplo, dependendo da frequência (por exemplo, um núcleo maior é aplicado para frequências mais altas do que para frequências mais baixas) .
[0216] De fato, deve-se considerar que a filtragem pode ser alcançada pela aplicação de um núcleo que tem uma extensão adequada tanto na direção do tempo (número de períodos de tempo considerados vizinhos) quanto na direção da frequência (número de intervalos de frequência
Petição 870190059022, de 26/06/2019, pág. 71/227
65/95 considerados vizinhos), e que, de fato, o tamanho do núcleo pode ser variado, por exemplo, para frequências diferentes ou para propriedades de sinal diferentes.
[0217] Além disso, diferentes núcleos, conforme representado por W(m,n) na equação acima, podem ser variados, e isso pode, de modo similar, ser uma variação
dinâmica, por exemplo, para frequências diferentes ou em
resposta a propriedades de sinal.
[0218] A filtragem não somente reduz a
reverberação tardia e ruído e, dessa forma, fornece uma
estimativa mais precisa, mas em particular aumenta a
diferenciação entre fala (trajetória direta + primeiras reflexões) e reverberações tardias e ruído. De fato, a filtragem terá um impacto substancialmente maior na reverberação tardia e no ruído do que na trajetória direta e primeiras reflexões de uma fonte de áudio pontual resultando em uma diferença maior sendo gerada para as medições de diferença da região tempo-frequência.
[0219] Constatou-se que a correlação entre o sinal de saída de áudio com formação de feixes e o um (ou mais) sinal de referência de ruído para formadores de feixes, como aquele da Figura 1, reduz para frequências crescentes. Consequentemente, a estimativa de ataque de fala é gerada em resposta a apenas medições de diferença da região tempofrequência para frequências acima de um limiar. Isso resulta em uma maior descorrelação e, consequentemente, em uma diferença maior entre o sinal de saída de áudio com formação de feixes e o sinal de referência de ruído quando fala está presente. Isso resulta em uma detecção mais precisa de fontes
Petição 870190059022, de 26/06/2019, pág. 72/227
66/95 de áudio pontuais no sinal de saída de áudio com formação de feixes .
[0220] Em muitas modalidades, um desempenho vantajoso foi encontrado ao limitar a estimativa de ataque de fala para ser baseada apenas nas medições de diferença da região tempo-frequência para frequências não abaixo de 500 Hz ou, em algumas modalidades, vantajosamente não abaixo de 1 kHz ou mesmo 2 kHz.
[0221] Entretanto, em algumas aplicações ou cenários, uma correlação significativa entre o sinal de saída de áudio com formação de feixes e o sinal de referência de ruído pode permanecer mesmo para frequências de áudio relativamente altas e, de fato, em alguns cenários, para toda a faixa de áudio.
[0222] De fato, em um campo sonoro difuso esfericamente isotrópico ideal, o sinal de saída de áudio com formação de feixes e o sinal de referência de ruído serão parcialmente correlacionados, com a consequência de que os valores esperados de \ Zr (tk,a>i) | e \Xn(tk,Ci)i) | não serão iguais e, portanto, \ Zr(tk,a>i) | não pode ser prontamente substituído por Xn(tk^i) |.
[0223] Isso pode ser entendido ao se olhar para as características de um campo sonoro difuso esfericamente isotrópico ideal. Quando dois microfones são colocados em tal campo a uma distância d e têm sinais de microfone U(tk,Ci)i) e Ukí.tkrCiJi') respectivamente, nós temos:
Ε^υ^,ω)]2} = £·{|(/2(^,ω)|2} = 2σ2 e
ωω)1 =2 í = 2σ2 sinc(kd),
Petição 870190059022, de 26/06/2019, pág. 73/227
67/95 ω
com ο número de onda k= — (c é a velocidade do som) c e σ2 a variância das partes reais e imaginárias de Ui(tk,Ci)i) e que têm distribuição gaussiana.
[0224] Suponha que o formador de feixes seja um formador de feixes simples do tipo atrasar e somar com 2 microfones e forma um feixe transversal (isto é, os atrasos são zero).
[0225] Podemos escrever:
Z(tk,mi) = Ui (tk,cúi) +U2 (tk,Ci)i) , e para o sinal de referência de ruído:
X{tk,mi} = Ui(tk,cúi) - U2(tk,mi).
[0226] Para os valores esperados, obtemos, assumindo que apenas reverberações tardias e, possivelmente, ruídos estão presentes:
E{\Z(tk,a>)\2} = £{1^(^,60)12} + E{\U2(tk,aj)\2} + 2 = 4σ2 + 4σ2 sinc(/cd) = 4σ2( 1 + sinc(/cd)).
[0227] De modo similar, obtemos para
E{ \X(tk,Ci)) \2} :
E{ \X(tk,(J) \2}=4σ2 (l-sinc(kd) ) .
[0228] Assim, para as frequências baixas,
I Zr (tk,Ci)i) | e | Xn(tk,Ci)i) | não serão iguais.
[0229] Em algumas modalidades, o detector 307 pode ser disposto para compensar tal correlação. Em particular, o detector 307 pode ser disposto para determinar uma estimativa de coerência de ruído C(tk,mi) que é indicativa de uma correlação entre a amplitude do sinal de referência de ruído e a amplitude de um componente de ruído do sinal de saída de áudio com formação de feixes. A
Petição 870190059022, de 26/06/2019, pág. 74/227
68/95 determinação das medições de diferença da região tempo frequência pode, então, ser como uma função desta estimativa de coerência.
[0230]
De fato em muitas modalidades detector 307 pode ser disposto para determinar uma coerência para o sinal de saída de áudio com formação de feixes e o sinal de referência de ruído do formador de feixes com base na razão entre as amplitudes esperadas:
onde E{ . } é o operador de expectativa. O termo de amplitudes do com formação referência de uma indicação da correlação média componente de ruído de feixes e as ruído.
entre as no sinal de saída de áudio amplitudes do sinal de [0231] não é dependente do áudio instantâneo nos microfones, mas em vez disso, depende das características espaciais do campo sonoro do ruído, a variação de C(tk,mi) como uma função do tempo é muito menor que as variações de tempo de Z.
[0232]
Consequentemente pode estimada de forma relativamente precisa pela média de \ Zr (tk,Ci)i) | e | Xn(tk,Ci)i) | ao longo do tempo durante os períodos em que nenhuma fala direta e primeiras reflexões estão presentes. Uma abordagem para fazer isso é revelada no documento US 7.602.926, que descreve especificamente um método onde nenhuma detecção de fala explicita é necessária para determinar C(tk,mi).
[0233]
Deve-se considerar que qualquer abordagem adequada para determinar a estimativa de coerência
Petição 870190059022, de 26/06/2019, pág. 75/227
69/95 de ruído C (t.t, ωζ) pode ser usada. Por exemplo, para cada região tempo-frequência em que e(tk) não excede um dado limiar, indicando que nenhuma fala direta e reflexões adiantadas estão disponíveis ou são dominantes, o primeiro e o segundo sinal de domínio da frequência podem ser comparados e a estimativa de correlação de ruído C(tk,ci)i) pode simplesmente ser determinada como a razão média dos valores da região tempo-frequência do primeiro sinal de domínio da frequência e do segundo sinal de domínio da frequência.
[0234] Para um campo de ruído difuso esfericamente isotrópico ideal, a função de coerência também pode ser analiticamente determinada seguindo a abordagem descrita acima.
[0235] Com base nessa estimativa \ Zr (tk,Ci)i) | pode ser substituído por C(tk,ci)i) \Xn(tk,Ci)i) | em vez de apenas I Xn(tk,Ci)i) | . Isso pode fazer com que as medições de diferença da região tempo-frequência sejam dadas por:
d= \Z(tk,a)i)\- γ C(tk,o)i)\X(tk,a)i)\.
[0236] Dessa forma, a medição de diferença da região tempo-frequência anterior pode ser considerada um exemplo específico da medição de diferença acima com a função de coerência ajustada para um valor constante igual a 1.
[0237] O uso da função de coerência pode possibilitar que a abordagem seja usada em frequências mais baixas, incluindo em frequências onde há uma correlação relativamente forte entre o sinal de saída de áudio com formação de feixes e o sinal de referência de ruído.
Petição 870190059022, de 26/06/2019, pág. 76/227
70/95 [0238] Deve-se considerar que a abordagem pode ainda mais vantajosamente, em muitas modalidades, incluir adicionalmente um cancelador adaptativo que é disposto para cancelar um componente de sinal do sinal de saída de áudio com formação de feixes correlacionado com o ao menos um sinal de referência de ruído. Por exemplo, de modo similar ao exemplo da Figura 1, um filtro adaptativo pode ter o sinal de referência de ruído como uma entrada e com a saída sendo subtraída do sinal de saída de áudio com formação de feixes. O filtro adaptativo pode, por exemplo, ser disposto para minimizar o nível do sinal resultante durante os intervalos de tempo onde nenhuma fala está presente.
[0239] Dessa forma, a percepção de que, durante um ataque de fala, o sinal de saída de áudio com formação de feixes do formador de feixes será grande quando comparado às referências de ruído e que as referências de ruído aumentarão (em relação ao sinal de saída) quando reflexões tardias e potencialmente dominantes forem recebidas (e que, mesmo mais tarde, as reflexões podem ser modeladas como vindas de um campo sonoro difuso) tem levado ao desenvolvimento de uma estimativa de ataque de fala específica. De fato, a medição gerada e(tk) fornece uma indicação excelente de se o campo direto e as primeiras reflexões dominam ou não os sinais de microfone (e(tk) positivo) ou se as reflexões tardias restantes e/ou ecos difusos dominam ou não os sinais de microfone (e(tk) negativo). Isso também possibilita que o formador de feixes seja adaptado durante intervalos frequentes durante um segmento de fala típico. De fato, ele não se limita apenas a adaptar no início de um segmento de
Petição 870190059022, de 26/06/2019, pág. 77/227
71/95 fala após uma pausa, mas possibilita que a adaptação aconteça sempre que um ataque ocorre durante o segmento de fala.
[0240] Deve-se considerar que muitas abordagens diferentes para adaptar um formador de feixes e para determinar valores de atualização adequados para filtros de formação de feixes são conhecidas, e que qualquer abordagem adequada pode ser usada pelo adaptador da Figura 3 (ou 11).
[0241] Também deve-se considerar que diferentes tamanhos de etapa de adaptação e, portanto, diferentes taxas de adaptação ou larguras de banda podem ser usados. De fato, em muitas modalidades, o tamanho da etapa de adaptação pode ser vantajosamente tornado adaptativo e pode ser dinamicamente variado.
[0242] De fato, descobriu-se que, em muitas modalidades, pode ser vantajoso que a taxa de adaptação (que para uma frequência constante de atualizações pode corresponder ao tamanho, magnitude ou dimensionamento das alterações nos parâmetros de formação de feixes) seja adaptada individualmente a regiões tempo-frequência individuais. De fato, os inventores perceberam que é particularmente vantajoso adaptar a taxa de adaptação a uma dada região tempo-frequência em resposta à diferença da região tempo-frequência para essa região. Especificamente, a taxa ou tamanho de adaptação pode ser dimensionado por um fator que depende da medição da diferença para aquela região tempo-frequência. Um efeito dessa abordagem é que, geralmente, ela tornará a frequência de adaptação dependente.
[0243] Como um exemplo específico, um tamanho da etapa de adaptação pode ser multiplicado por uma função de
Petição 870190059022, de 26/06/2019, pág. 78/227
72/95
G(tk, 0)0 = MAX-jO, ganho dependente da frequência, que varia entre 0 e 1 e que depende da medição de diferença para a região tempo-frequência individual. Um possível ganho função é especificamente:
I Z(tk, ωΟΙ — yC(tk, |Z(tk, ωθ| J [0244] Esse fator de ganho tem a característica de que, para a situação em que γ C(tk, ω0| X(tk, ω0| é pequeno em comparação a | Z(tk,ω0|, G(tk,o)0 será aproximadamente um. Para a situação em que y C(tk,ω|)| X(tk,ω|)| é maior que | Z(tk, ω0|, G(tk, 0)0 será igual a zero. Dessa forma, a adaptação é adaptada de forma dependente de frequência para refletir a indicação de ataque de fala resultante da comparação entre o nível de energia do sinal de saída de áudio com formação de feixes e o sinal de referência de ruído.
[0245] Deve-se considerar que a duração do intervalo de tempo de adaptação pode ser diferente em modalidades diferentes. Por exemplo, em algumas modalidades, o intervalo de tempo de adaptação pode começar quando o ataque de fala é detectado, e pode continuar por um período fixo de tempo. Em tais casos, pode ser desejável que a duração da adaptação seja suficientemente longa para incluir todo o acúmulo de fala, mas, ainda com mais preferência, não incluir a adaptação quando reflexões tardias fortes se tornam dominantes.
[0246] Em muitas modalidades, é desejável que o intervalo de tempo de adaptação não seja muito longo e, de fato, descobriu-se que um desempenho aprimorado é frequentemente encontrado para durações abaixo de 100 ms.
[0247] A abordagem pode ser adicionalmente ilustrada por um exemplo (artificial). Em primeiro lugar, se
Petição 870190059022, de 26/06/2019, pág. 79/227
73/95 for considerado que o sinal de fala consiste em um único pulso de Dirac, então os sinais recebidos nos microfones são a resposta ao impulso do ambiente. Caso se pressuponha que o filtro de formação de feixes pode modelar os primeiros, digamos, 16 ms (isto, a duração da resposta ao impulso do filtro de formação de feixes é de 16 ms) , então, após o primeiro som atingir os microfones, somente os primeiros 16 ms do som são úteis, pois apenas isso pode ser modelado pelo filtro. Portanto, seria desejável interromper a adaptação após 16 ms.
[0248] Entretanto, se for pressuposto que o sinal de fala consiste em 3 pulsos de Dirac subsequentes, cada um separado por 16 ms, mas com amplitudes de, digamos, 1, 1000, 1000000 (isto é, aumentando em grandes quantidades), então, durante os primeiros 16 ms após a chegada do primeiro som (correspondente tipicamente à trajetória direta do primeiro pulso de Dirac), todo o som recebido é útil e vale a pena se adaptar a ele. Após 16 ms, o som indesejado do primeiro pulso é recebido, isto é, as reflexões tardias que não podem ser modeladas são recebidas do primeiro pulso de Dirac. Entretanto, além disso, um som útil e relevante é recebido do segundo pulso de Dirac (isto é, isso ainda pode ser modelado pelos filtros de formação de feixes, pois está dentro dos primeiros 16 ms da resposta do ambiente que pode ser modelada). Além disso, esse som do segundo pulso de Dirac é muito mais forte e, portanto, mais útil do que o som restante do primeiro pulso de Dirac. Sendo assim, é ainda desejável adaptar o formador de feixes 303. Isso se repete para o terceiro pulso de Dirac, isto é, após 32 ms, as reflexões tardias que não podem ser modeladas são recebidas
Petição 870190059022, de 26/06/2019, pág. 80/227
74/95 do primeiro e do segundo pulso de Dirac, mas, ao mesmo tempo, enquanto sinais fortes que podem ser modelados estão sendo recebidos do terceiro pulso de Dirac. Dessa forma, nesse cenário, seria desejável interromper a adaptação após 48 ms.
[0249] Dessa forma, nessa situação onde efetivamente três diferentes ataques de fala ocorrem (ilustrado pelos pulsos de Dirac artificiais), um intervalo de tempo de adaptação pode ser iniciado em cada detecção de um ataque de fala. De fato, antes de cada intervalo de tempo de adaptação ser interrompido, um novo ataque de fala é detectado e o intervalo de tempo de adaptação é estendido para refletir que as reflexões tardias da fala anterior são dominadas pelas reflexões adiantadas do novo ataque (devido ao nível de sinal maior resultante do ataque).
[0250] Em algumas modalidades, um intervalo de tempo de adaptação pode ser disposto para ter uma duração entre 50% e 200% da duração das respostas ao impulso. Em muitas modalidades, o intervalo de tempo de adaptação pode ser disposto para ter uma duração que não exceda a duração das respostas ao impulso. Em particular, em algumas modalidades, tais durações podem ser ajustadas para serem predeterminadas. Por exemplo, nos cenários específicos acima, as respostas ao impulso podem ter uma duração de 16 ms e a duração do intervalo de tempo de adaptação pode ser ajustado para 16 ms. Isso resultará, no exemplo, em três intervalos de tempo de adaptação consecutivos de 16 ms, resultando na duração de adaptação total desejada de 48 ms.
[0251] Em muitas modalidades, o controlador 309 pode ser disposto para determinar um tempo de término do intervalo de tempo de adaptação em resposta a uma comparação
Petição 870190059022, de 26/06/2019, pág. 81/227
75/95 de um nível de sinal do sinal de saída de áudio com formação de feixes em relação a um nível de sinal do ao menos um sinal de referência de ruído. Por exemplo, se a razão ou diferença da potência de sinal do sinal de saída de áudio com formação de feixes em relação à potência de sinal do sinal de referência de ruído ficar abaixo de um dado nível, isso pode, conforme anteriormente descrito, indicar que as reflexões tardias que não podem ser modeladas estão se tornando dominantes. Consequentemente, o controlador pode
interromper a adaptação. Dessa forma, em algumas
modalidades, o controlador 309 pode ser disposto para
interromper o intervalo de tempo de adaptação antes da
duração máxima predeterminada se for detectado que uma
condição específica ocorre. Essa condição pode
especificamente ser determinada pela comparação do nível de sinal do sinal de saída de áudio com formação de feixes em relação ao nível de sinal do ao menos um sinal de referência de ruído.
[0252] Como um exemplo específico, o controlador 309 pode monitorar continuamente o valor e(tk) derivado acima e, se ele ficar abaixo de um dado limiar (tipicamente zero), a adaptação pode ser interrompida.
[0253] Dessa forma, de fato, pode ser fornecido um sistema em que o controlador monitora continuamente a estimativa de ataque de fala, como especificamente e (tk) uma vez que ele varia devido à não estacionariedade da fala. Se a estimativa de ataque de fala aumentar acima de um limiar, o controlador 309 pode iniciar uma adaptação e, quando ela ficar abaixo de um limiar, isso pode parar a adaptação. Desta forma, o sistema pode controlar automaticamente a
Petição 870190059022, de 26/06/2019, pág. 82/227
76/95 adaptação do formador de feixes 303 para ocorrer apenas durante os momentos em que a trajetória direta e reflexões adiantadas que podem ser modeladas dominam as reflexões tardias e reverberação que não podem ser modeladas.
[0254] A seguir, um aparelho de captura de áudio será descrito no qual o detector de ataque de fala 307 trabalha em conjunto com os outros elementos descritos para fornecer um sistema de captura de áudio particularmente vantajoso. Em particular, a abordagem é altamente adequada para capturar fontes de áudio em ambientes ruidosos e reverberantes. Isso fornece um desempenho particularmente vantajoso para aplicações em que uma fonte de áudio desejada pode estar fora do raio de reverberação e o áudio capturado pelos microfones pode ser dominado por ruído difuso e reflexões tardias ou reverberações.
[0255] A Figura 11 ilustra um exemplo de elementos de tal aparelho de captura de áudio de acordo com algumas modalidades da invenção. Os elementos e a abordagem do sistema da Figura 3 podem corresponder ao sistema da Figura 11 conforme exposto a seguir.
[0256] O aparelho de captura de áudio compreende uma matriz de microfones 1101 que pode corresponder diretamente à matriz de microfones 301 da Figura 3. No exemplo, a matriz de microfones 1101 é acoplada a um cancelador de eco opcional 1103 que pode cancelar os ecos que se originam de fontes acústicas (para as quais um sinal de referência está disponível) que estão linearmente relacionados aos ecos no um sinal (ou mais) de microfone. Essa fonte pode, por exemplo, ser um alto-falante. Um filtro adaptativo pode ser aplicado com o sinal de referência como entrada, e com a
Petição 870190059022, de 26/06/2019, pág. 83/227
77/95 saída sendo subtraída do sinal de microfone para criar um sinal compensado do eco. Isso pode ser repetido para cada microfone individual.
[0257] Deve-se considerar que o cancelador de eco 1103 é opcional e pode ser simplesmente omitido em muitas modalidades.
[0258] A matriz de microfones 1101 é acoplada a um primeiro formador de feixes 1105, típica, diretamente ou através do cancelador de eco 1103 (bem como possivelmente por amplificadores, conversores de sinal digital para analógico etc., como será bem conhecido pelo versado na técnica) . O primeiro formador de feixes 1105 pode corresponder diretamente ao formador de feixes 303 da Figura 3.
[0259] O primeiro formador de feixes 1105 é disposto para combinar os sinais a partir da matriz de microfones 1101 de modo que uma sensibilidade de áudio direcional eficaz da matriz de microfones 1101 seja gerada. O primeiro formador de feixes 1105 gera assim um sinal de saída, chamado de primeira saída de áudio com formação de feixes, o gue corresponde a uma captura seletiva de áudio no ambiente. O primeiro formador de feixes 1105 é um formador de feixes adaptativo e a direcionalidade pode ser controlada pela definição de parâmetros, chamados de primeiros parâmetros de formação de feixes, da operação de formação de feixes do primeiro formador de feixes 1105.
[0260] O primeiro formador de feixes 1105 é acoplado a um primeiro adaptador 1107 que é disposto de modo a adaptar os primeiros parâmetros de formação de feixes. Dessa forma, o primeiro adaptador 1107 é disposto para
Petição 870190059022, de 26/06/2019, pág. 84/227
78/95 adaptar os parâmetros do primeiro formador de feixes 1105 de modo que o feixe possa ser direcionado.
[0261] Além disso, o aparelho de captura de áudio compreende uma pluralidade de formadores de feixes constritos 1109, 1111, cada um dos quais é disposto para combinar os sinais a partir da matriz de microfones 1101 de modo que uma sensibilidade de áudio direcional eficaz da matriz de microfones 1101 seja gerada. Cada um dos formadores de feixes constritos 1109, 1111 é, dessa forma, disposto para gerar uma saida de áudio, chamada de saida de áudio com formação de feixes constrita, o que corresponde a uma captura seletiva de áudio no ambiente. De modo similar, para o primeiro formador de feixes 1105, os formadores de feixes constritos 1109, 1111 são formadores de feixes adaptativos onde a diretividade de cada formador de feixes constrito 1109, 1111 pode ser controlada pelo ajuste de parâmetros, chamados de parâmetros de formação de feixes constritos, dos formadores de feixes constritos 1109, 1111.
[0262] O aparelho de captura de áudio compreende consequentemente um segundo adaptador 1113 que é disposto para adaptar os parâmetros de formação de feixes constritos da pluralidade de formadores de feixes constritos adaptando, assim, os feixes formados pelos mesmos.
[02 63] O formador de feixes 303 da Figura 3 pode corresponder diretamente ao primeiro formador de feixes constrito 1109 da Figura 11. Deve-se considerar ainda que os formadores de feixes constritos 1111 restantes podem corresponder ao primeiro formador de feixes 1109 e poderíam ser considerados instanciações do mesmo.
Petição 870190059022, de 26/06/2019, pág. 85/227
79/95 [0264] Tanto o primeiro formador de feixes 1105 quanto os formadores de feixes constritos 1109, 1111 são, consequentemente, formadores de feixes adaptativos para os quais o feixe real formado pode ser adaptado dinamicamente. Especificamente, os formadores de feixes 1105, 1109, 1111 são do tipo filtrar e combinar (ou filtrar e somar especificamente na maioria das modalidades). Um filtro de formação de feixes pode ser aplicado a cada um dos sinais de microfone e as saldas filtradas podem ser combinadas, tipicamente sendo simplesmente agregadas.
[0265] Deve-se considerar que o formador de feixes 303 da Figura 3 pode corresponder a qualquer um dos formadores de feixes 1105, 1109, 1111 e que, de fato, os comentários fornecidos com relação ao formador de feixes 303
da Figura 3 se aplicam igualmente a qualquer um dentre o
primeiro formado r de f ei xes 1105 e os formadores de feixes
constritos 1109, 1111 da Figura 11.
:0266] De modo similar, o segundo adaptador 513
pode corresponder diretamente ao adaptador 305 da Figura 3.
[0267] Em muitas modalidades, a estrutura e implementação do primeiro formador de feixes 1105 e dos formadores de feixes constritos 1109, 1111 podem ser iguais, por exemplo, os filtros de formação de feixes podem ter estruturas de filtro FIR idênticas com o mesmo número de coeficientes etc.
[0268] Entretanto, a operação e os parâmetros do primeiro formador de feixes 1105 e dos formadores de feixes constritos 1109, 1111 serão diferentes e, em particular, os formadores de feixes constritos 1109, 1111 são constritos de maneiras que o primeiro formador de feixes 1105 não é.
Petição 870190059022, de 26/06/2019, pág. 86/227
80/95
Especificamente, a adaptação dos formadores de feixes constritos 1109, 1111 será diferente da adaptação do primeiro formador de feixes 1105 e estará especificamente sujeita a algumas restrições.
[0269] Especificamente, os formadores de feixes constritos 1109, 1111 estão sujeitos à restrição de gue a adaptação (atualização de parâmetros de filtro de formação de feixes) é restrita a situações em que um critério é satisfeito, enquanto o primeiro formador de feixes 1105 poderá adaptar mesmo quando esse critério não for satisfeito. De fato, em muitas modalidades, pode-se possibilitar que o primeiro adaptador 1107 sempre adapte o filtro de formação de feixes sem que esse seja restringido por quaisquer propriedades do áudio capturado pelo primeiro formador de feixes 1105 (ou qualquer dos formadores de feixes constritos 1109, 1111). Adicionalmente, o segundo adaptador 1113 é disposto para apenas adaptar durante intervalos de tempo de adaptação determinados em resposta a detecções de ataque de f ala.
[0270] O critério para adaptar os formadores de feixes constritos 1109, 1111 será descrito em mais detalhes posteriormente.
[0271] Em muitas modalidades, a taxa de adaptação do primeiro formador de feixes 1105 é maior do que para os formadores de feixes constritos 1109, 1111. Dessa forma, em muitas modalidades, o primeiro adaptador 1107 pode ser disposto para adaptar-se mais rapidamente às variações do que o segundo adaptador 1113 e, dessa forma, o primeiro formador de feixes 1105 pode ser atualizado mais rapidamente do que os formadores de feixes constritos 1109, 1111. Isso pode, por
Petição 870190059022, de 26/06/2019, pág. 87/227
81/95 exemplo, ser alcançado mediante a filtragem por passa-baixa de um valor que é maximizado ou minimizado (por exemplo, o nível de sinal do sinal de saída ou a magnitude de um sinal de erro) e tem uma frequência de corte para o primeiro formador de feixes 1105 mais alta do que para os formadores de feixes constritos 1109, 1111. Como outro exemplo, uma alteração máxima por atualização dos parâmetros de formação de feixes (especificamente, os coeficientes de filtro de formação de feixes) pode ser maior para o primeiro formador de feixes 1105 do que para os formadores de feixes constritos 1109, 1111.
[0272] Consequentemente, no sistema, uma pluralidade de formadores de feixes focalizados (constritos em relação à adaptação) que adaptam lentamente e apenas quando um critério específico é atendido é suplementada por um formador de feixes de adaptação livre e mais rápida que não está sujeito a essa restrição. Os formadores de feixes mais lentos e focalizados tipicamente fornecerão uma adaptação mais lenta, porém mais precisa e confiável, ao ambiente de áudio específico do que o formador de feixes de execução livre que, no entanto, será tipicamente capaz de adaptar rapidamente sobre um intervalo de parâmetros maior.
[0273] No sistema da Figura 11, esses formadores de feixes são usados de modo sinérgico para fornecer desempenho aprimorado conforme será descrito em mais detalhes posteriormente.
[0274] O primeiro formador de feixes 1105 e os formadores de feixes constritos 1109, 1111 são acoplados a um processador de saída 1115 que recebe os sinais de saída de áudio com formação de feixes dos formadores de feixes
1105, 1109, 1111. A saída exata gerada a partir do aparelho
Petição 870190059022, de 26/06/2019, pág. 88/227
82/95 de captura de áudio dependerá das preferências e requisitos específicos da modalidade individual. De fato, em algumas modalidades, a saída do aparelho de captura de áudio pode simplesmente consistir nos sinais de saída de áudio dos formadores de feixes 1105, 1109, 1111.
[0275] Em muitas modalidades, o sinal de saída do processador de saída 1115 é gerado como uma combinação dos sinais de saída de áudio dos formadores de feixes 1105, 1109, 1111. De fato, em algumas modalidades, uma combinação de seleção simples pode ser realizada, por exemplo, selecionando-se os sinais de saída de áudio para os quais a razão entre sinal e ruído, ou simplesmente o nível de sinal, é a mais alta.
[0276] Dessa forma, a seleção de saída e o pósprocessamento do processador de saída 1115 pode ser específico para a aplicação e/ou diferente em diferentes implementações/modalidades. Por exemplo, todas as saídas possíveis de feixe focalizado podem ser fornecidas, uma seleção pode ser feita com base em um critério definido pelo usuário (por exemplo, o orador mais forte é selecionado), entre outros.
[0277] Para uma aplicação de controle por voz, por exemplo, todas as saídas podem ser transmitidas a um reconhecedor de ativação por voz que é disposto para detectar uma palavra ou frase específica para inicializar o controle por voz. Em tal exemplo, o sinal da saída de áudio no qual a palavra ou frase gatilho é detectada pode, após a frase de ativação, ser usado por um reconhecedor de voz para detectar comandos específicos.
Petição 870190059022, de 26/06/2019, pág. 89/227
83/95 [0278] Para aplicações de comunicação, pode ser vantajoso, por exemplo, selecionar o sinal de salda de áudio que é mais forte e, por exemplo, para o qual a presença de uma fonte de áudio pontual especifica tenha sido encontrada.
[0279] Em algumas modalidades, pós-processamento, como a supressão de ruido da Figura 1, pode ser aplicado à salda do aparelho de captura de áudio (por exemplo, pelo processador de salda 1115). Isso pode melhorar o desempenho para, por exemplo, comunicação por voz. Em tal pósprocessamento, operações não lineares podem ser incluídas embora, por exemplo, para alguns reconhecedores de fala, possa ser mais vantajoso limitar o processamento para incluir apenas processamento linear.
[0280] No sistema da Figura 11, uma abordagem particularmente vantajosa é tomada para capturar áudio com base na interação e inter-relação sinérgica entre o primeiro formador de feixes 1105 e os formadores de feixes constritos 1109, 1111.
[0281] Para esse propósito, o aparelho de captura de áudio compreende um processador de diferença de feixe 1117 que é disposto para determinar uma medição de diferença entre um ou mais dos formadores de feixes constritos 1109, 1111 e o primeiro formador de feixes 1105. A medição da diferença é indicativa de uma diferença entre os feixes formados respectivamente pelo primeiro formador de feixes 1105 e o formador de feixes constrito 1109, 1111. Dessa forma, a medição de diferença para um primeiro formador de feixes constrito 1109 pode indicar a diferença entre os feixes que são formados pelo primeiro formador de feixes 1105 e pelo primeiro formador de feixes constrito
Petição 870190059022, de 26/06/2019, pág. 90/227
84/95
1109. Dessa forma, a medição de diferença pode ser indicativa de quão próximos os dois formadores de feixes 1105, 1109 são adaptados à mesma fonte de áudio.
[0282] Diferentes medições de diferença podem ser usadas em diferentes modalidades e aplicações.
[0283] Em algumas modalidades, a medição de diferença pode ser determinada com base na salda de áudio com formação de feixes gerada a partir dos diferentes formadores de feixes 1105, 1109, 1111. Como um exemplo, uma simples medição de diferença pode simplesmente ser gerada pela medição dos níveis de sinal da saída do primeiro formador de feixes 1105 e do primeiro formador de feixes constrito 1109 e pela comparação dos mesmos, um em relação ao outro. Quanto mais perto os níveis de sinal estiverem um do outro, menor será a medição de diferença (geralmente, a medição de diferença também aumentará como uma função do nível de sinal real, por exemplo, do primeiro formador de feixes 1105).
[0284] Uma medição de diferença mais adequada em muitas modalidades pode ser gerada pela determinação de uma correlação entre a saída de áudio com formação de feixes do primeiro formador de feixes 1105 e do primeiro formador de feixes constrito 1109. Quanto maior o valor de correlação, menor será a medição de diferença.
[0285] Alternativa ou adicionalmente, a medição de diferença pode ser determinada com base em uma comparação entre os parâmetros de formação de feixes do primeiro formador de feixes 1105 e do primeiro formador de feixes constrito 1109. Por exemplo, os coeficientes do filtro de formação de feixes do primeiro formador de feixes 1105 e do
Petição 870190059022, de 26/06/2019, pág. 91/227
85/95 filtro de formação de feixes do primeiro formador de feixes constrito 1109 para um dado microfone podem ser representados por dois vetores. A magnitude do vetor de diferença desses dois vetores pode então ser calculada. O processo pode ser repetido para todos os microfones e a magnitude combinada ou média pode ser determinada e usada como uma medição de distância. Dessa forma, a medição de diferença gerada reflete quão diferentes os coeficientes dos filtros de formação de feixes são para o primeiro formador de feixes 1105 e o primeiro formador de feixes constrito 1109, e isso é usado como uma medição de diferença dos feixes.
[0286] Dessa forma, no sistema da Figura 11, uma medição de diferença é gerada para refletir uma diferença entre os parâmetros de formação de feixes do primeiro formador de feixes 1105 e do primeiro formador de feixes constrito 1109 e/ou uma diferença entre as saldas de áudio com formação de feixes dos mesmos.
[0287] Deve-se considerar que gerar, determinar e/ou usar uma medição de diferença é diretamente equivalente a gerar, determinar e e/ou usar uma medição de similaridade. De fato, uma função pode tipicamente ser considerada monotonicamente decrescente da outra e, dessa forma, uma medição de diferença é também uma medição de similaridade (e vice-versa) com tipicamente uma simplesmente indicando diferenças crescentes por valores crescentes e a outra fazendo isso por valores decrescentes.
[0288] O processador de diferença de feixes 1117 é acoplado ao segundo adaptador 1113 e fornece a medição de diferença para ele. O segundo adaptador 1113 é
Petição 870190059022, de 26/06/2019, pág. 92/227
86/95 disposto para adaptar os formadores de feixes constritos 1109, 1111 em resposta à medição de diferença.
Especificamente, o segundo adaptador 1113 é disposto para adaptar os parâmetros de formação de feixes constritos apenas para formadores de feixes constritos para os quais foi determinada uma medição de diferença que satisfaz um critério de similaridade. Dessa forma, se nenhuma medição de diferença tiver sido determinada para um dado formador de feixes constrito 1109, 1111, ou se a medição de diferença determinada para o dado formador de feixes constrito 1109, 1111 indicar que os feixes do primeiro formador de feixes 1105 e o dado formador de feixes constrito 1109, 1111 não são suficientemente similares, então nenhuma adaptação é feita.
[0289] Dessa forma, no aparelho de captura de áudio da Figura 11, os formadores de feixes constritos 1109, 1111 são constritos na adaptação dos feixes. Especificamente, eles são restringidos a apenas se adaptar se o feixe atual formado pelo formador de feixes constrito 1109, 1111 estiver próximo do feixe que o primeiro formador de feixes de execução livre 1105 está formando, isto é, o formador de feixes constrito individual 1109, 1111 é somente adaptado se o primeiro formador de feixes 1105, 1109 for atualmente adaptado para ser suficientemente próximo ao formador de feixes constrito individual 1109, 1111.
[0290] O resultado disso é que a adaptação dos formadores de feixes constritos 1109, 1111 é controlada pela operação do primeiro formador de feixes 1105 de modo que efetivamente o feixe formado pelo primeiro formador de feixes 1105 controla qual(is) dos formadores de feixes
Petição 870190059022, de 26/06/2019, pág. 93/227
87/95 constritos 1109, 1111 é (são) otimizado/adaptado(s). Essa abordagem pode fazer especificamente com que os formadores de feixes constritos 1109, 1111 sejam propensos a ser adaptados apenas quando uma fonte de áudio desejada estiver perto da adaptação atual do formador de feixes constrito 1109, 1111.
[0291] Na prática, observou-se que a abordagem de exigir similaridade entre os feixes para possibilitar uma adaptação resulta em um desempenho substancialmente otimizado quando a fonte de áudio desejada, o orador desejado no caso em questão, está fora do raio de reverberação. De fato, descobriu-se que isso fornece um desempenho altamente
desej ável para, em particular , fontes de áudio fracas em
ambientes reverberantes com um componente de áudio de
traj etória direta não dominante.
[0292] Em muitas modalidades, a restrição da
adaptação pode estar sujeita a requisitos adicionais.
[0293] Por exemplo, em muitas modalidades, a
adaptação pode ser uma exigência de que uma razão entre sinal e ruído para a saída de áudio com formação de feixes exceda um limiar. Dessa forma, a adaptação para o formador de feixes constrito individual 1109, 1111 pode ser restrita a cenários em que isso é suficientemente adaptado e o sinal com base no qual a adaptação é baseada reflete o sinal de áudio desejado.
[0294] Deve-se considerar que, em modalidades diferentes, poderão ser usadas abordagens diferentes para determinar a razão entre sinal e ruído. Por exemplo, o piso de ruído dos sinais de microfone pode ser determinado mediante o rastreamento do mínimo de uma estimativa de potência suavizada e, para cada período ou intervalo de
Petição 870190059022, de 26/06/2019, pág. 94/227
88/95 tempo, a potência instantânea é comparada com esse mínimo. Como outro exemplo, o piso de ruído da saída do formador de feixes pode ser determinado e comparado com a potência de saída instantânea da saída com formação de feixes.
[0295] Em algumas modalidades, a adaptação de um formador de feixes constrito 1109, 1111 é restrita a quando um componente de fala é detectado na saída do formador de feixes constrito 1109, 1111. Isso fornecerá desempenho aprimorado para aplicações de captura de voz. Deve-se considerar que qualquer abordagem ou algoritmo adequado para detectar fala em um sinal de áudio pode ser usado. Em particular, a abordagem descrita anteriormente do detector 307 pode ser aplicada.
[0296] Deve-se considerar que os sistemas das Figuras 3 e 11 tipicamente operam com o uso de processamento de períodos ou blocos. Dessa forma, os intervalos de tempo ou os períodos consecutivos são definidos, e o processamento descrito pode ser realizado dentro de cada intervalo de tempo. Por exemplo, os sinais de microfone podem ser divididos em intervalos de tempo de processamento e, para cada intervalo de tempo de processamento, os formadores de feixes 1105, 1109, 1111 podem gerar um sinal de saída de áudio com formação de feixes para o intervalo de tempo, determinar uma medição de diferença, selecionar um formador de feixes constrito 1109, 1111 e atualizar/adaptar esse formador de feixes constrito 1109, 1111. Os intervalos de tempo de processamento, em muitas modalidades, vantajosamente têm uma duração entre 11 ms e 110 ms.
[0297] Deve-se considerar que, em algumas modalidades, diferentes intervalos de tempo de processamento podem ser usados para diferentes aspectos e funções do
Petição 870190059022, de 26/06/2019, pág. 95/227
89/95 aparelho de captura de áudio. Por exemplo, a medição de diferença e a seleção de um formador de feixes constrito 1109, 1111 para adaptação podem ser realizadas em uma frequência mais baixa do que, por exemplo, o intervalo de tempo de processamento para formação de feixes.
[0298] No sistema, a adaptação é adicionalmente em dependência da detecção do ataque de fala nas saídas de áudio com formação de feixes. Consequentemente, o aparelho de captura de áudio pode compreender adicionalmente o detector 307, já descrito no que diz respeito à Figura 3.
[0299] O detector 307 pode especificamente, em muitas modalidades, ser disposto de modo a detectar ataques de fala em cada um dos formadores de feixes constritos 1109, 1111 e, consequentemente, o detector 307 é acoplado aos mesmos e recebe os sinais de saída de áudio com formação de feixes. Além disso, ele recebe os sinais de referência de ruído dos formadores de feixes constritos 1109, 1111 (para maior clareza, a Figura 11 ilustra o sinal de saída de áudio com formação de feixes e o sinal de referência de ruído por linhas únicas, isto é, as linhas da Figura 11 podem ser consideradas para representar um barramento que compreende tanto o sinal de saída de áudio de formação de feixes quanto o um sinal (ou mais) de referência de ruído, bem como, por exemplo, parâmetros de formação de feixes).
[0300] Dessa forma, a operação do sistema da Figura 11 é dependente da estimativa de ataque de fala realizada pelo detector 307 de acordo com os princípios descritos anteriormente. O detector 307 pode ser disposto especificamente para gerar uma estimativa de ataque de fala para todos os formadores de feixes 1105, 1109, 1111.
Petição 870190059022, de 26/06/2019, pág. 96/227
90/95 [0301] O resultado de detecção do detector 307 é passado para o segundo adaptador 1113 que é disposto para adaptar a adaptação em resposta a isso. Especificamente, o segundo adaptador 1113 pode ser disposto para adaptar apenas formadores de feixes constritos 1109, 1111 para os quais o detector 307 indica que um ataque de fala foi detectado. Especificamente, o controlador 309 da Figura 3 pode ser incluído no segundo adaptador 1113 que, consequentemente, pode ser disposto para restringir a adaptação dos formadores de feixes constritos 1109, 1111 para ocorrer apenas em intervalos de tempo de adaptação (curtos) após detecções de ataque de fala.
[0302] Dessa forma, o aparelho de captura de áudio é disposto para restringir a adaptação dos formadores de feixes constritos 1109, 1111 de modo que apenas formadores de feixes constritos 1109, 1111 sejam adaptados nos quais um ataque de voz está ocorrendo, e o feixe formado é próximo daquele formado pelo primeiro formador de feixes 1105. Dessa forma, a adaptação é tipicamente restrita aos formadores de feixes constritos 1109, 1111 que já estão próximos de uma fonte de áudio pontual (desejada). A abordagem possibilita uma formação de feixes muito robusta e precisa que tem um desempenho extraordinariamente bom em ambientes onde a fonte de áudio desejada pode estar fora de um raio de reverberação. Além disso, ao se operar e atualizar seletivamente uma pluralidade de formadores de feixes constritos 1109, 1111, essa robustez e exatidão podem ser suplementadas por um tempo de reação relativamente rápido que possibilita a rápida adaptação do sistema como um todo a fontes sonoras de movimento rápido ou de ocorrência recente.
Petição 870190059022, de 26/06/2019, pág. 97/227
91/95 [0303] Em muitas modalidades, o aparelho de captura de áudio pode ser disposto para apenas adaptar um formador de feixes constrito 1109, 1111 de cada vez. Dessa forma, o segundo adaptador 1113 pode, em cada intervalo de tempo de adaptação, selecionar um dos formadores de feixes constritos 1109, 1111 e adaptar apenas isso mediante a atualização dos parâmetros de formação de feixes. Em cenários em que o ataque de fala foi detectado para uma pluralidade dos formadores de feixes constritos 1109, 1111, o formador de feixes constrito 1109, 1111 que tem a medição de diferença mais baixa pode ser selecionado.
[0304] Em algumas modalidades, a adaptação pode não ser dependente da medição de diferença do feixe e, de fato, pode ser que nenhuma medição seja determinada. De fato, em algumas modalidades, a adaptação pode ser apenas com base na estimativa de ataque de fala.
[0305] Por exemplo, em algumas modalidades, o segundo adaptador 1113 pode ser disposto de modo a possibilitar uma adaptação para todos os formadores de feixes constritos 1109, 1111 para os quais um ataque de fala foi detectado. Em algumas modalidades, o segundo adaptador 1113 pode ser disposto para possibilitar a adaptação apenas para os formadores de feixes constritos 1109, 1111 para os quais a indicação mais forte de ataque de fala foi detectada.
[0306] Em outras modalidades, o segundo adaptador 1113 pode ser disposto de modo a simplesmente selecionar o formador de feixes constrito 1109, 1111 fornecendo a indicação mais forte de ataque de fala, ainda que isso seja indicativo de nenhum ataque de fala atual.
Petição 870190059022, de 26/06/2019, pág. 98/227
92/95 [0307] Como um exemplo especifico, o segundo adaptador 1113 pode executar a seguinte operação expressa em pseudocódigo:
determine o formador de feixes 1 para o qual ei(tk) é o maior if ei(tk) > 0 then, allowtoadapt = true else if ei(tk) > média (ei (tk) ) /athr Vi, ifl then, allowtoadapt = true else, allowtoadapt = false end if allowtoadapt == true then adapt constrained beamformer k end [0308] Dessa forma, em algumas modalidades, ο aparelho de captura de áudio pode ser disposto para adaptar um dado formador de feixes constrito se a estimativa de ataque de fala for indicativa de um ataque de fala atual ou se a estimativa de ataque de fala for mais forte para esse formador de feixes do que para qualquer outro formador de feixes constrito 1109, 1111, com uma margem adequada. Se essa última condição for atendida, isso indica que fala direta está presente no formador de feixes 1, mas que o formador de feixes ainda não está focalizado com precisão.
[0309] Deve-se considerar que, para fins de clareza, a descrição acima descreveu as modalidades da invenção com referência a diferentes circuitos, unidades e processadores funcionais. Entretanto, ficará evidente que
Petição 870190059022, de 26/06/2019, pág. 99/227
93/95
qualquer distribuição adequada de funcionalidade entre os
diferentes circuitos, unidades ou processadores funcionais
pode ser usada sem se desviar da invenção. Por exemplo, a
funcionalidade ilustrada a ser executada por processadores ou controladores separados pode ser executada pelo mesmo processador ou pelos mesmos controladores. Por isso, as referências a unidades ou circuitos funcionais específicos devem ser consideradas apenas como referências a meios adequados para fornecer a funcionalidade descrita e não como indicativas de uma estrutura física ou uma organização lógica ou física estrita.
[0310] A invenção pode ser implementada em qualquer forma adequada, incluindo hardware, software, firmware ou qualquer combinação dos mesmos. A invenção pode ser, opcionalmente, implementada, ao menos parcialmente, como software de computador que é executado em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma modalidade da invenção podem ser implementados física, funcional e logicamente de qualquer forma adequada. De fato, a funcionalidade pode ser implementada em uma unidade única, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Assim, a invenção pode ser implementada em uma unidade única ou pode ser distribuída física e funcionalmente entre diferentes unidades, circuitos e processadores.
[0311] Embora a presente invenção tenha sido descrita em conexão com algumas modalidades, a mesma não está destinada a ser limitada à forma específica aqui apresentada. Em vez disso, o escopo da presente invenção é limitado apenas pelas reivindicações em anexo.
Petição 870190059022, de 26/06/2019, pág. 100/227
94/95
Adicionalmente, embora possa parecer que um recurso é descrito em conexão com modalidades específicas, o elemento versado na técnica reconhecerá que vários recursos das modalidades descritas podem ser combinados de acordo com a invenção. Nas reivindicações, o termo que compreende não exclui a presença de outros elementos ou outras etapas.
[0312] Além disso, embora individualmente mencionados, uma pluralidade de meios, elementos, circuitos ou etapas de métodos podem ser implementados, por exemplo por meio de um único circuito, uma única unidade ou um único processador. Adicionalmente, embora recursos individuais possam estar incluídos em reivindicações diferentes, eles podem ser vantajosamente combinados, e sua inclusão em reivindicações diferentes não implica que uma combinação de recursos não seja viável e/ou vantajosa. Além disso, a inclusão de um recurso em uma categoria de reivindicações não implica uma limitação a essa categoria, porém, em vez disso, indica que o recurso é igualmente aplicável a outras categorias das reivindicações, conforme for adequado. Além disso, a ordem dos recursos nas reivindicações não implica em nenhuma ordem específica na qual os recursos precisam ser trabalhados e, em particular, a ordem das etapas individuais em uma reivindicação de método não implica que as etapas precisam ser executadas nessa ordem. As etapas podem, na verdade, ser executadas em qualquer ordem adequada. Além disso, referências no singular não excluem uma pluralidade. Dessa forma, as referências a um(a), uns/umas, primeiro(a), segundo(a) etc., não excluem uma pluralidade. Os sinais de referência nas reivindicações são fornecidos meramente como exemplos esclarecedores e não
Petição 870190059022, de 26/06/2019, pág. 101/227
95/95 devem ser interpretados como limitadores do escopo das reivindicações de forma alguma.

Claims (6)

1. APARELHO DE CAPTURA DE ÁUDIO, caracterizado por compreender:
um primeiro formador de feixes (303) disposto para gerar um sinal de salda de áudio com formação de feixes;
um adaptador (305) para adaptar os parâmetros de formação de feixes do primeiro formador de feixes (303);
um detector (307) para detectar um ataque de fala no sinal de salda de áudio com formação de feixes; e um controlador (309) para controlar a adaptação dos parâmetros de formação de feixes para ocorrer em um intervalo de tempo predeterminado de adaptação determinado em resposta à detecção do ataque de fala.
2/6 de saída de áudio com formação de feixes em relação a um nível de sinal do ao menos um sinal de referência de ruído.
2. APARELHO, de acordo com a reivindicação 1, caracterizado pelo detector (307) ser disposto de modo a detectar o ataque de fala em resposta a um nivel de sinal de reflexões adiantadas recebidas em relação a um nivel de sinal de reflexões tardias recebidas.
3/6 um tempo de inicio do intervalo de tempo de adaptação predeterminado em resposta ao aumento do valor de diferença combinado acima de um limiar.
7. APARELHO, de acordo com qualquer uma das reivindicações 5 ou 6, caracterizado pelo detector (309) ser disposto para interromper o intervalo de tempo de adaptação predeterminado em resposta à diferença combinada estar abaixo de um limiar.
8. APARELHO, de acordo com qualquer uma das reivindicações 5 a 7, caracterizado pelo detector (307 ) ser disposto para gerar uma estimativa de coerência de ruído
indicativa de uma correlação entre uma amplitude do sinal de salda de áudio com formação de feixes e uma amplitude do ao menos um sinal de referência de ruído; e pelo menos uma dentre a primeira função monotônica e a segunda função monotônica é dependente da estimativa de coerência de ruído.
9. APARELHO, de acordo com qualquer uma das reivindicações 5 a 8, caracterizado pelo adaptador (305) ser disposto para modificar uma taxa de adaptação de parâmetros de formação de feixes para uma primeira região tempofrequência em resposta a uma medição de diferença de região tempo-frequência para a primeira região tempo-frequência.
10. APARELHO, de acordo com qualquer uma das reivindicações 5 a 9, caracterizado pelo detector (307) ser disposto para filtrar pelo menos uma das normas dos valores da região tempo-frequência do primeiro sinal de domínio da frequência e a norma dos valores da região tempo-frequência do segundo sinal de domínio da frequência; sendo que a filtragem inclui regiões tempo-frequência que diferem em termos de tempo e frequência.
Petição 870190059022, de 26/06/2019, pág. 105/227
3. APARELHO, de acordo com qualquer uma das reivindicações 1 ou 2, caracterizado pelo primeiro formador de feixes (303) ser disposto para gerar ao menos um sinal de referência de ruído; e pelo detector (307) ser disposto para detectar o ataque de fala em resposta a uma comparação de um nível de sinal do sinal de saída de áudio com formação de feixes em relação a um nível de sinal do ao menos um sinal de referência de ruído.
4/6
11. APARELHO, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado pela duração entre o ataque de fala e uma extremidade do intervalo de tempo de adaptação predeterminado não exceder 100 ms.
12. APARELHO, de acordo com a reivindicação 1, caracterizado por compreender uma pluralidade de formadores de feixes (1105, 1109, 1111) incluindo o primeiro formador de feixes (1105); e pelo detector (309) estar disposto para gerar uma estimativa de ataque de fala para cada formador de feixes da pluralidade de formadores de feixes (1105, 1109, 1111); e por compreender adicionalmente um adaptador (1113) para adaptar ao menos um dentre a pluralidade de formadores de feixes (1105, 1109, 1111) em resposta às estimativas de ataque de fala.
13. APARELHO, de acordo com a reivindicação 12, caracterizado pela pluralidade de formadores de feixes (1105, 1109, 1111) compreender um primeiro formador de feixes (1105) disposto para gerar um sinal de salda de áudio com formação de feixes e ao menos um sinal de referência de ruido; e pela uma pluralidade de formadores de feixes constritos (1109, 1111) ser acoplada à matriz de microfones (1101) e cada um ser disposto para gerar uma salda de áudio com formação de feixes constrita e ao menos um sinal de referência de ruido constrito; e pelo adaptador (1113) ser disposto para adaptar parâmetros de formação de feixes constritos para um primeiro formador de feixes constrito, sujeito a critérios que compreendem ao menos uma restrição dentre o grupo de:
uma estimativa de ataque de fala para o primeiro formador de feixes constrito ser indicativa de um ataque de
Petição 870190059022, de 26/06/2019, pág. 106/227
4. APARELHO, de acordo com a reivindicação 3, caracterizado pelo controlador (309) ser disposto para interromper o intervalo de tempo de adaptação predeterminado em resposta a uma comparação de um nível de sinal do sinal
Petição 870190059022, de 26/06/2019, pág. 103/227
5/6 fala sendo detectado para o primeiro formador de feixes constrito; e uma estimativa de ataque de fala para o primeiro formador de feixes constrito ser indicativa de probabilidade de ataque de fala maior do que a estimativa de ataque de fala para qualquer outro formador de feixes constrito da pluralidade de formadores de feixes constritos (1109, 1111) .
14. APARELHO, de acordo com a reivindicação 13, caracterizado por compreender adicionalmente:
um processador de diferença de feixes (1117) para determinar uma medição de diferença para ao menos um dentre a pluralidade de formadores de feixes constritos (1109, 1111), sendo que a medição de diferença é indicativa de uma diferença entre feixes formados pelo primeiro formador de feixes (1105) e o ao menos um da pluralidade de formadores de feixes constritos (1109, 1111); e sendo que o adaptador (1113) é disposto para adaptar parâmetros de formação de feixes constritos com uma restrição de que os parâmetros de formação de feixes constritos são adaptados apenas para formadores de feixes constritos da pluralidade de formadores de feixes constritos (1109, 1111) para os quais uma medição de diferença foi determinada que satisfaz um critério de similaridade.
15. MÉTODO DE CAPTURA DE ÁUDIO, caracterizado por compreender:
um formador de feixes (303) gerar um sinal de saída de áudio com formação de feixes;
adaptar os parâmetros de formação de feixes do formador de feixes (303);
Petição 870190059022, de 26/06/2019, pág. 107/227
5. APARELHO, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo primeiro formador de feixes ser disposto para gerar ao menos um sinal de referência de ruído; e pelo detector (307) compreender:
um primeiro transformador (801) para gerar um primeiro sinal de domínio da frequência a partir de uma transformada de frequência do sinal de saída de áudio com formação de feixes, sendo que o primeiro sinal de domínio da frequência é representado por valores de região tempofrequência;
um segundo transformador (803) para gerar um segundo sinal de domínio da frequência a partir de uma transformada de frequência do ao menos um sinal de referência de ruído, sendo que o segundo sinal de domínio da frequência é representado por valores de região tempo-frequência;
um processador de diferença (805) disposto para gerar uma medição de diferença da região tempo-frequência que é indicativa de uma diferença entre uma primeira função monotônica de uma norma de um valor de região tempofrequência do primeiro sinal de domínio da frequência e uma segunda função monotônica de uma norma de um valor de região tempo-frequência do segundo sinal de domínio da frequência;
um estimador de ataque de fala (807) para gerar uma estimativa de ataque de fala em resposta a um valor de diferença combinado de medições de diferença de regiões tempofrequência para frequências acima de um limiar de frequência.
6. APARELHO, de acordo com a reivindicação 5, caracterizado pelo detector (307) ser disposto para determinar
Petição 870190059022, de 26/06/2019, pág. 104/227
6/6 detectar um ataque de fala no sinal de saída de áudio com formação de feixes; e controlar a adaptação dos parâmetros de formação de feixes para ocorrer em um intervalo de tempo predeterminado de adaptação determinado em resposta à detecção do ataque de fala.
BR112019013239A 2017-01-03 2018-01-02 aparelho de captura de áudio, e método de captura de áudio BR112019013239A2 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17150096 2017-01-03
PCT/EP2018/050045 WO2018127483A1 (en) 2017-01-03 2018-01-02 Audio capture using beamforming

Publications (1)

Publication Number Publication Date
BR112019013239A2 true BR112019013239A2 (pt) 2019-12-24

Family

ID=57714510

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112019013239A BR112019013239A2 (pt) 2017-01-03 2018-01-02 aparelho de captura de áudio, e método de captura de áudio

Country Status (7)

Country Link
US (1) US11039242B2 (pt)
EP (1) EP3566228B1 (pt)
JP (1) JP6665353B2 (pt)
CN (1) CN110140171B (pt)
BR (1) BR112019013239A2 (pt)
RU (1) RU2751760C2 (pt)
WO (1) WO2018127483A1 (pt)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402913B (zh) * 2020-02-24 2023-09-12 北京声智科技有限公司 降噪方法、装置、设备和存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146012B1 (en) 1997-11-22 2006-12-05 Koninklijke Philips Electronics N.V. Audio processing arrangement with multiple sources
US7206418B2 (en) 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
GB2388001A (en) * 2002-04-26 2003-10-29 Mitel Knowledge Corp Compensating for beamformer steering delay during handsfree speech recognition
JP4689269B2 (ja) 2002-07-01 2011-05-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 静的スペクトルパワー依存型音響強調システム
KR20060085392A (ko) * 2005-01-24 2006-07-27 현대자동차주식회사 어레이 마이크 시스템
ES2359511T3 (es) 2005-07-06 2011-05-24 Koninklijke Philips Electronics N.V. Aparato y procedimiento para conformación de haz acústico.
US8077892B2 (en) * 2006-10-30 2011-12-13 Phonak Ag Hearing assistance system including data logging capability and method of operating the same
US8005238B2 (en) 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
EP1983799B1 (en) * 2007-04-17 2010-07-07 Harman Becker Automotive Systems GmbH Acoustic localization of a speaker
CN102257561A (zh) * 2008-12-16 2011-11-23 皇家飞利浦电子股份有限公司 语音信号处理
US9305567B2 (en) * 2012-04-23 2016-04-05 Qualcomm Incorporated Systems and methods for audio signal processing
CN104053088A (zh) * 2013-03-11 2014-09-17 联想(北京)有限公司 一种麦克风阵列调整方法、麦克风阵列及电子设备
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US9754604B2 (en) * 2013-04-15 2017-09-05 Nuance Communications, Inc. System and method for addressing acoustic signal reverberation
US9984675B2 (en) * 2013-05-24 2018-05-29 Google Technology Holdings LLC Voice controlled audio recording system with adjustable beamforming
EP2819429B1 (en) * 2013-06-28 2016-06-22 GN Netcom A/S A headset having a microphone
WO2015139938A2 (en) 2014-03-17 2015-09-24 Koninklijke Philips N.V. Noise suppression
US10269343B2 (en) 2014-08-28 2019-04-23 Analog Devices, Inc. Audio processing using an intelligent microphone
EP3057337B1 (en) * 2015-02-13 2020-03-25 Oticon A/s A hearing system comprising a separate microphone unit for picking up a users own voice
US10395644B2 (en) * 2016-02-25 2019-08-27 Panasonic Corporation Speech recognition method, speech recognition apparatus, and non-transitory computer-readable recording medium storing a program
WO2018127450A1 (en) 2017-01-03 2018-07-12 Koninklijke Philips N.V. Audio capture using beamforming
WO2018127412A1 (en) 2017-01-03 2018-07-12 Koninklijke Philips N.V. Audio capture using beamforming
CN111194445A (zh) * 2017-10-13 2020-05-22 思睿逻辑国际半导体有限公司 重放攻击的检测

Also Published As

Publication number Publication date
US20210136489A1 (en) 2021-05-06
RU2019124535A3 (pt) 2021-05-21
WO2018127483A1 (en) 2018-07-12
RU2019124535A (ru) 2021-02-05
US11039242B2 (en) 2021-06-15
JP6665353B2 (ja) 2020-03-13
RU2751760C2 (ru) 2021-07-16
EP3566228A1 (en) 2019-11-13
EP3566228B1 (en) 2020-06-10
CN110140171B (zh) 2023-08-22
CN110140171A (zh) 2019-08-16
JP2020503562A (ja) 2020-01-30

Similar Documents

Publication Publication Date Title
KR102064902B1 (ko) 음성 강화를 위해 전역적으로 최적화된 최소 제곱 포스트 필터링
JP6636633B2 (ja) 音響信号を向上させるための音響信号処理装置および方法
JP6196320B2 (ja) 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法
JP7041156B6 (ja) ビームフォーミングを使用するオーディオキャプチャのための方法及び装置
BR112019013548A2 (pt) Aparelho de captura de áudio, método de operação para capturar áudio, e produto de programa de computador
EP3566463B1 (en) Audio capture using beamforming
US10115411B1 (en) Methods for suppressing residual echo
GB2589972A (en) Signal processing for speech dereverberation
US10937418B1 (en) Echo cancellation by acoustic playback estimation
US11380312B1 (en) Residual echo suppression for keyword detection
Kim Hearing aid speech enhancement using phase difference-controlled dual-microphone generalized sidelobe canceller
CN111883153B (zh) 一种基于麦克风阵列的双端讲话状态检测方法及装置
BR112019013239A2 (pt) aparelho de captura de áudio, e método de captura de áudio
US11425495B1 (en) Sound source localization using wave decomposition
Ayrapetian et al. Asynchronous acoustic echo cancellation over wireless channels

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]