BR112019013666A2 - aparelho de captura de áudio formador de feixes, método de operação para um aparelho de captura de áudio formador de feixes, e produto de programa de computador - Google Patents

aparelho de captura de áudio formador de feixes, método de operação para um aparelho de captura de áudio formador de feixes, e produto de programa de computador Download PDF

Info

Publication number
BR112019013666A2
BR112019013666A2 BR112019013666A BR112019013666A BR112019013666A2 BR 112019013666 A2 BR112019013666 A2 BR 112019013666A2 BR 112019013666 A BR112019013666 A BR 112019013666A BR 112019013666 A BR112019013666 A BR 112019013666A BR 112019013666 A2 BR112019013666 A2 BR 112019013666A2
Authority
BR
Brazil
Prior art keywords
difference
frequency
restricted
beam former
audio
Prior art date
Application number
BR112019013666A
Other languages
English (en)
Inventor
Brand Antonius Johannes Bloememdal Brian
Pieter Janse Cornelis
Original Assignee
Koninklijke Philips Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Nv filed Critical Koninklijke Philips Nv
Publication of BR112019013666A2 publication Critical patent/BR112019013666A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Abstract

é apresentado um aparelho de captura de áudio formador de feixes compreendendo uma matriz de microfones (301), a qual é acoplada a um primeiro formador de feixes (303) e um segundo formador de feixes (305). os formadores de feixe (303, 305) são formadores de feixe por filtragem e combinação compreendendo uma pluralidade de filtros formadores de feixe, cada um dos quais tendo uma resposta adaptativa a impulso. um processador de diferença (309) determina uma medida de diferença entre os feixes do primeiro formador de feixes (303) e do segundo formador de feixes (305), em resposta a uma comparação entre as respostas adaptativas a impulso dos dois formadores de feixe (303, 305). a medida de diferença pode, por exemplo, ser usada para combinar os sinais de saída dos formadores de feixe (303, 305). pode ser fornecida uma medida de diferença aprimorada, por exemplo menos sensível ao ruído difuso.

Description

APARELHO DE CAPTURA DE ÁUDIO FORMADOR DE FEIXES, MÉTODO DE OPERAÇÃO PARA UM APARELHO DE CAPTURA DE ÁUDIO FORMADOR DE FEIXES, E PRODUTO DE PROGRAMA DE COMPUTADOR
CAMPO DA INVENÇÃO [001] A invenção refere-se à captura de áudio com o uso de formação de feixes e, em particular, mas não exclusivamente, à captura de fala com o uso de formação de feixes.
ANTECEDENTES DA INVENÇÃO [002] A captura de áudio e, em particular, de fala, tem se tornado cada vez mais importante nas últimas décadas. De fato, a captura de fala tem se tornado cada vez mais importante para várias aplicações, inclusive telecomunicações, teleconferência, jogos, interfaces de usuário baseadas em áudio etc. Entretanto, um problema em muitos cenários e aplicações é que a fonte de fala desejada não é tipicamente a única fonte de áudio no ambiente. Em vez disso, em ambientes de áudio típicos, há muitas outras fontes de áudio/ruído que estão sendo capturadas pelo microfone. Um dos problemas críticos enfrentados por muitas aplicações de captura de fala é qual a melhor forma de extrair a fala em um ambiente ruidoso. A fim de resolver esse problema, várias abordagens diferentes para supressão de ruído foram propostas.
[003] De fato, a pesquisa em, por exemplo, sistemas de comunicação de fala em viva-voz é um tópico que tem recebido muito durante décadas. Os primeiros sistemas comerciais disponíveis concentravam-se em sistemas profissionais de (vídeo) conferência em ambientes com baixo ruído de fundo e baixo tempo de reverberação. Descobriu-se
Petição 870190061332, de 01/07/2019, pág. 8/196
2/77 que uma abordagem particularmente vantajosa para identificar e extrair fontes de áudio desejadas, como um orador desejado, seria uso da formação de feixes com base em sinais provenientes de uma matriz de microfones. Inicialmente, matrizes de microfones foram frequentemente usadas com um feixe fixo focalizado porém, mais tarde, o uso de feixes adaptativos se tornou mais popular.
[004] No final da década de 90, começaram a ser introduzidos sistemas de viva-voz para telefones celulares. Esses sistemas se destinavam ao uso em muitos ambientes diferentes, inclusive recintos reverberantes e com níveis (mais) altos de ruído de fundo. Tais ambientes de áudio apresentam desafios substancialmente mais difíceis e, em particular, podem complicar ou degradar a adaptação do feixe formado.
[005] Inicialmente, a pesquisa em captura de áudio para tais ambientes concentrou-se no cancelamento de ecos e, depois, na supressão de ruídos. Um exemplo de um sistema de captura de áudio baseado na formação de feixes é
ilustrado na Figura 1. No exemplo, uma matriz de uma
pluralidade de microfones 101 é acoplada a um formador de
feixes 103 que gera um sinal de fonte de áudio z (n) e um ou
mais sinais de referência de ruído x(n).
[ 006] A matriz de microfones 101 pode, em
algumas modalidades, compreender somente dois microfones, mas tipicamente compreenderá um número mais alto.
[007] O formador de feixes 103 pode ser especificamente um formador de feixes adaptativo, no qual um feixe pode ser direcionado para a fonte de fala com o uso de um algoritmo de adaptação adequado.
Petição 870190061332, de 01/07/2019, pág. 9/196
3/ΊΊ [008] Por exemplo, os documentos de patente US 7.146.012 e US 7.602.926 revelam exemplos de formadores de feixe adaptativos, que se concentram na fala, mas também fornecem um sinal de referência que não contém (quase) nenhuma fala.
[009] O formador de feixes cria um sinal de saída aprimorado, z(n), mediante a adição da parte desejada dos sinais de microfone coerentemente, por meio da filtragem dos sinais recebidos em filtros correspondentes para a frente, e da adição das saídas filtradas. Além disso, o sinal de saída é filtrado em filtros adaptativos para trás tendo respostas de filtro conjugadas para os filtros para a frente (no domínio da frequência correspondente a respostas a impulso invertidas em tempo no domínio do tempo). Os sinais de erro são gerados como a diferença entre os sinais de entrada e as saídas dos filtros adaptativos para trás, e os coeficientes dos filtros são adaptados para minimizar os sinais de erro, fazendo assim com que o feixe de áudio seja orientado em direção ao sinal dominante. Os sinais de erro gerados x(n) podem ser considerados como sinais de referência de ruído que são particularmente adequados para executar redução de ruído adicional no sinal de saída aprimorado z(n).
[010] Tanto o sinal primário z(n) quanto o sinal de referência x(n) são tipicamente contaminados por ruído. No caso de o ruído nos dois sinais ser coerente (por exemplo, quando há uma fonte de ruído de ponto de interferência), um filtro adaptativo 105 pode ser usado para reduzir o ruído coerente.
[011] Para isso, o sinal de referência de ruído x(n) é acoplado à entrada do filtro adaptativo 105 com a saída
Petição 870190061332, de 01/07/2019, pág. 10/196
4/ΊΊ sendo subtraída do sinal de fonte de áudio z (n) para gerar um sinal compensado r(n). 0 filtro adaptativo 105 é adaptado para minimizar a potência do sinal compensado r(n), geralmente quando a fonte de áudio desejada não está ativa (por exemplo, quando não há fala) , e isso resulta na supressão de ruído coerente.
[012] O sinal compensado é alimentado em um pósprocessador 107 que executa a redução de ruído no sinal compensado r(n) com base no sinal de referência de ruído x(n). Especificamente, o pós-processador 107 transforma o sinal compensado r (n) e o sinal de referência de ruído x (n) para o domínio da frequência com o uso de uma transformada de Fourier de tempo curto. Então, para cada intervalo de frequência, modifica a amplitude de Η(ω) mediante a subtração de uma versão em escala do espectro de amplitude de Χ(ω) . O espectro complexo resultante é transformado de volta para o domínio do tempo para produzir o sinal de saída q(n) no qual o ruído foi suprimido. Essa técnica de subtração espectral foi descrita pela primeira vez em S.F. Boll, Suppression of Acoustic Noise in Speech using Spectral Subtraction, IEEE Trans. Acoustics, Speech and Signal Processing, volume 27, pp. 113-120, abril de 1979.
[013] Em muitos sistemas de captura de áudio, pode-se usar uma pluralidade de formadores de feixe, sendo estes capazes de se adaptar independentemente a uma fonte de áudio. Por exemplo, a fim de rastrear dois diferentes oradores em um ambiente de áudio, um aparelho de captura de áudio pode incluir dois formadores de feixes independentemente adaptativos.
Petição 870190061332, de 01/07/2019, pág. 11/196
5/77 [014] Em sistemas que usam uma pluralidade de formadores de feixe independentemente adaptáveis, isso pode frequentemente ser vantajoso para determinar quão perto uns dos outros estão os feixes dos diferentes formadores de feixe. Por exemplo, ao usar dois formadores de feixe para rastrear dois oradores separados, pode ser importante assegurar que não se adaptem ambos a rastrear o mesmo orador. Isso pode ser obtido, por exemplo, mediante a determinação de uma medida de diferença que seja indicativa da diferença entre os feixes. Se a medida de diferença indicar que a diferença está abaixo de um limiar, ela pode reinicializar um dos formadores de feixe em direção a uma fonte de áudio diferente.
[015] Em outros sistemas, um aparelho de captura de áudio pode usar formadores de feixe interfuncionais para fornecer captura de áudio aprimorada e, em tais sistemas, pode ser vantajoso determinar quão próximos uns dos outros estão os diferentes feixes.
[016] Por exemplo, embora o sistema da Figura 1 forneça operação muito eficiente e desempenho vantajoso em muitos cenários, ele não é ideal em todos os cenários. De fato, embora muitos sistemas convencionais, incluindo o exemplo da Figura 1, forneçam um desempenho muito bom quando a fonte de áudio/alto-falante desejada está dentro do raio de reverberação da matriz de microfones, isto é, para aplicações onde a energia direta da fonte de áudio desejada é (de preferência, significativamente) mais forte que a energia das reflexões da fonte de áudio desejada, eles tendem a fornecer resultados menos ideais quando este não é o caso. Descobriu
Petição 870190061332, de 01/07/2019, pág. 12/196
6/ΊΊ se que, em ambientes típicos, um orador precisa estar geralmente dentro de 1 a 1,5 metros da matriz de microfones.
[017] No entanto, há um forte desejo por soluções, aplicações e sistemas viva-voz baseados em áudio em que o usuário pode estar mais distante da matriz de microfones. Isso é desejado, por exemplo, para muitos sistemas e aplicações de comunicação e de controle por voz. Os sistemas que fornecem aprimoramento de fala incluindo desreverberação e supressão de ruído para tais situações estão no campo chamado de super sistemas viva-voz.
[018] Mais detalhadamente, quando se lida com ruído difuso adicional e um orador desejado fora do raio de reverberação, podem ocorrer os seguintes problemas:
• O formador de feixes pode muitas vezes ter problemas para distinguir entre ecos da fala desejada e ruídos de fundo difusos, resultando em distorção da fala.
• O formador de feixes adaptativo pode convergir mais lentamente em direção ao orador desejado. Durante o tempo em que o feixe adaptativo ainda não convergiu, haverá vazamento de fala no sinal de referência, resultando em distorção da fala no caso de esse sinal de referência ser usado para supressão e cancelamento de ruído não estacionário. O problema aumenta quando há mais fontes desejadas que falam uma após a outra.
[019] Uma solução para lidar com filtros adaptativos convergentes mais lentos (devido ao ruído de fundo) é suplementar isso com vários feixes fixos que são direcionados em direções diferentes, conforme ilustrado na Figura 2. Entretanto, essa abordagem é particularmente desenvolvida para cenários em que uma fonte de áudio
Petição 870190061332, de 01/07/2019, pág. 13/196
7/77 desejada está presente dentro do raio de reverberação. Isso pode ser menos eficiente para fontes de áudio fora do raio de reverberação e pode frequentemente levar a soluções não robustas em tais casos, especialmente se houver também ruído de fundo difuso acústico.
[020] Em particular, a fim de controlar e operar esse tipo de sistema, é tipicamente importante ser capaz de medir quão próximos uns dos outros estão os diferentes feixes/formadores de feixe. Por exemplo, pode ser importante comparar entre si os formadores de feixe focalizados e não focalizados, a fim de selecionar qual feixe usar para gerar o áudio de saída.
[021] No entanto, a geração de medidas de diferença confiáveis pode ser muito difícil em muitos cenários, como especificamente quando uma fonte de áudio desejada está fora do raio de reverberação. As medidas de diferença típicas tendem a ter por base a comparação entre saídas de sinal geradas pelos formadores de feixe, por exemplo comparando-se os níveis de sinal ou correlacionandose as saídas. Uma outra abordagem é determinar a direção de chegada (DoA - Direction of Arrival) do sinal e comparálas entre si.
[022] Entretanto, embora tais medidas de diferença possam fornecer um desempenho aceitável em muitas modalidades, tendem a ser insatisfatórias em muitos cenários práticos. Em particular, elas tendem a não serem ótimas em cenários com altos níveis de ruídos e reflexões e, especificamente, em ambientes reverberantes nos quais a fonte de áudio desejada está fora do raio de reverberação.
Petição 870190061332, de 01/07/2019, pág. 14/196
8/77 [023] Isso pode ser entendido da seguinte forma: no caso da fonte de áudio desejada estar fora do raio de reverberação, a energia do campo sonoro direto é pequena quando comparada à energia do campo sonoro difuso criado a partir de reflexões. A razão entre o campo sonoro direto e o campo sonoro difuso irá degradar ainda mais se houver também ruído de fundo difuso. As energias dos diferentes feixes serão aproximadamente iguais e, consequentemente, isso não fornece uma indicação adequada da similaridade dos feixes. Pela mesma razão, um sistema baseado na medição da DoA não será robusto: devido à baixa energia do campo direto, a correlação cruzada dos sinais não dará um pico distinto preciso e resultará em grandes erros. Pela mesma razão, é improvável que correlações diretas dos sinais forneçam uma indicação clara. Tornar os detectores mais robustos frequentemente resultará na perda de detecções da fonte de áudio desejada, levando a feixes não focalizados. O resultado típico é vazamento de voz na referência de ruído, e uma distorção grave ocorrerá se for tentado reduzir o ruído no sinal primário com base no sinal de referência de ruído.
[024] Portanto, seria vantajosa uma abordagem aprimorada de captura de áudio e, em particular, uma abordagem que forneça uma medida de diferença aprimorada entre diferentes feixes. Especificamente, seria vantajosa uma abordagem que possibilite complexidade reduzida, maior flexibilidade, implementação facilitada, custos reduzidos, captura de áudio aprimorada, melhor adequação à captura de áudio fora do raio de reverberação, sensibilidade reduzida a ruídos, captura de fala aprimorada, exatidão aprimorada de
Petição 870190061332, de 01/07/2019, pág. 15/196 °>/ΊΊ uma medida de diferença, controle aprimorado e/ou desempenho aprimorado.
BREVE DESCRIÇÃO DA INVENÇÃO [025] Consequentemente, a invenção busca, de preferência, mitigar, aliviar ou eliminar uma ou mais das desvantagens mencionadas acima, individualmente ou em qualquer combinação.
[026] De acordo com um aspecto da invenção, é fornecido um aparelho de captura de áudio formador de feixes compreendendo: uma matriz de microfones; um primeiro formador de feixes acoplado à matriz de microfones e disposto de modo a gerar uma primeira saida de áudio formada em feixes, sendo que o primeiro formador de feixes é um formador de feixes por filtragem e combinação compreendendo uma primeira pluralidade de filtros formadores de feixe, cada um dos quais tendo uma primeira resposta adaptativa a impulso; um segundo formador de feixes acoplado à matriz de microfones e disposto de modo a gerar uma segunda saida de áudio formada em feixes, sendo que o segundo formador de feixes é um formador de feixes por filtragem e combinação compreendendo uma segunda pluralidade de filtros formadores de feixe, cada um dos quais tendo uma segunda resposta adaptativa a impulso; e um processador de diferença para determinar uma medida de diferença entre os feixes do primeiro formador de feixes e do segundo formador de feixes, em resposta a uma comparação entre as primeiras respostas adaptativas a impulso e as segundas respostas adaptativas a impulso.
[027] A abordagem pode, em muitos cenários e aplicações, fornecer uma indicação aprimorada quanto à diferença/similaridade entre feixes formados por dois
Petição 870190061332, de 01/07/2019, pág. 16/196
10/77 formadores de feixe. Em particular, uma medida de diferença aprimorada pode frequentemente ser fornecida em cenários nos quais a trajetória direta a partir de fontes de áudio às quais os formadores de feixe se adaptam não é dominante. Um desempenho aprimorado para cenários que compreendem um alto grau de ruido difuso, sinais reverberantes e/ou reflexões tardias muitas vezes pode ser obtido.
[028] O aparelho de captura de áudio pode, em muitas modalidades, compreender uma unidade de saida para gerar um sinal de saida de áudio em resposta à primeira saida de áudio formada em feixes, à segunda saida de áudio formada em feixes, e a medida de diferença. Por exemplo, a unidade de saida pode compreender um combinador para combinar a primeira e a segunda saldas de áudio formadas por feixes, em resposta à medida de diferença. Será reconhecido, porém, que a medida de diferença pode ser usado para muitos outros propósitos em outras aplicações, por exemplo para selecionar entre diferentes feixes, para controlar a adaptação dos formadores de feixe etc.
[029] A abordagem pode reduzir a sensibilidade de propriedades dos sinais de áudio (seja o sinal de saida de áudio formado por feixe ou os sinais de microfone) e pode, consequentemente, ser menos sensível, por exemplo, a ruído. Em muitos cenários, a medida de diferença pode ser gerada mais rapidamente e, por exemplo em alguns cenários, instantaneamente. Em particular, a medida de diferença pode ser gerada com base nos atuais parâmetros de filtragem, sem qualquer cálculo de média.
[030] O formador de feixes por filtragem e combinação pode compreender um filtro formador de feixes
Petição 870190061332, de 01/07/2019, pág. 17/196
11/77 para cada microfone e um combinador para combinar as saídas dos filtros formadores de feixe, a fim de gerar o sinal de saída de áudio formada em feixes. 0 combinador pode ser especificamente uma unidade de soma, e os formadores de feixe por filtragem e combinação podem ser formadores de feixe por filtragem e soma.
[031] Os formadores de feixe são formadores de feixe adaptáveis e podem compreender funcionalidade de adaptação para adaptar as respostas adaptativas a impulso (adaptando, desse modo, a diretividade eficaz da matriz de microfones).
[032] Uma medida de diferença é equivalente a uma medida de similaridade.
[033] Os formadores de feixe por filtragem e combinação podem especificamente compreender filtros formadores de feixe sob a forma de filtros de resposta finita (FIRs - Finite Response Filters), tendo uma pluralidade de coeficientes.
[034] De acordo com um recurso opcional da invenção, o processador de diferença está disposto de modo que cada microfone da matriz de microfones determine uma correlação entre a primeira e a segunda respostas adaptativas a impulso para o microfone, e determine a medida de diferença em resposta a uma combinação de correlações para cada microfone da matriz de microfones.
[035] Isso pode proporcionar uma medida de diferença particularmente vantajosa, sem exigir complexidade excessiva.
[036] De acordo com um recurso opcional da invenção, o processador de diferenças está disposto de modo a
Petição 870190061332, de 01/07/2019, pág. 18/196
12/77 determinar representações de domínio da frequência das primeiras respostas adaptativas a impulso e das segundas respostas adaptativas a impulso; e para determinar a medida de diferença em resposta às representações de domínio da frequência das primeiras respostas adaptativas a impulso e das segundas respostas adaptativas a impulso.
[037] Isso pode melhorar o desempenho e/ou facilitar a operação. Em muitas modalidades, isso pode facilitar a determinação da medida de diferença. Em algumas modalidades, as respostas adaptativas a impulso podem ser fornecidas no domínio da frequência e as representações de domínio da frequência podem estar prontamente disponíveis. Entretanto, na maioria das modalidades, as respostas adaptativas a impulso podem ser fornecidas no domínio do tempo, por exemplo, por coeficientes de um filtro FIR (Finite Impulse Response), e o processador de diferença pode estar disposto de modo a aplicar, por exemplo, uma transformada discreta de Fourier (DFT - Discrete Fourier Transform) às respostas a impulso no domínio do tempo para gerar as representações de frequência.
[038] De acordo com um recurso opcional da invenção, o processador de diferença está disposto de modo a determinar medidas de diferença de frequência para frequências das representações de domínio da frequência; e para determinar a medida de diferença em resposta às medidas de diferença de frequência para as frequências das representações de domínio da frequência; sendo que o processador de diferença está disposto de modo a determinar uma medida de diferença de frequência para uma primeira frequência e um primeiro microfone da matriz de microfones,
Petição 870190061332, de 01/07/2019, pág. 19/196
13/77 em resposta a um primeiro coeficiente de domínio da frequência e um segundo coeficiente de domínio da frequência, sendo que o primeiro coeficiente de domínio da frequência é um coeficiente de domínio da frequência para a primeira frequência para a primeira resposta adaptativa a impulso para o primeiro microfone, e sendo que o segundo coeficiente de dominio da frequência é um coeficiente de dominio da frequência para a primeira frequência para a segunda resposta adaptativa a impulso para o primeiro microfone; e o processador de diferença está adicionalmente disposto de modo a determinar a medida de diferença de frequência para a primeira frequência, em resposta a uma combinação de medidas de diferença de frequência para uma pluralidade de microfones da matriz de microfones.
[039] Isso pode fornecer uma medida de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes.
[040] Indicando, o primeiro e o segundo componentes de frequência para uma frequência ω e microfone m como Fim(eJ) e fbDeJ) respectivamente, a medida de diferença de frequência para a frequência meo microfone m pode ser determinada como:
sM,m = Á(Me7'O'Me7O) [041] A medida de diferença de frequência (combinada) para a frequência ω para a pluralidade de microfones da matriz de microfones pode ser determinada mediante a combinação dos valores para os microfones de diferença. Por exemplo, para uma soma simples sobre microfones M:
Petição 870190061332, de 01/07/2019, pág. 20/196
14/77
Figure BR112019013666A2_D0001
m=l [042] A medida de diferença geral pode, então, ser determinada mediante a combinação das medidas de diferença de frequência individuais. Por exemplo, uma combinação dependente de frequência pode ser aplicada:
Figure BR112019013666A2_D0002
em que w(el“) é uma função de ponderação de frequência adequada.
[043] De acordo com um recurso opcional da invenção, o processador de diferença está disposto de modo a determinar a medida de diferença de frequência para a primeira frequência e para o primeiro microfone em resposta a uma multiplicação do primeiro coeficiente de dominio da frequência e um conjugado do segundo coeficiente de dominio da frequência.
[044] Isso pode fornecer uma medida de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes. Em algumas modalidades, a medida de diferença de frequência para a frequência ω e o microfone m pode ser determinada como:
=/2((Flm(e^)-F2*m(^))) [045] De acordo com um recurso opcional da invenção, o processador de diferença está disposto de modo a determinar a medida de diferença de frequência para a primeira frequência em resposta a uma parte real da combinação de medidas de diferença de frequência para a
Petição 870190061332, de 01/07/2019, pág. 21/196
15/77 primeira frequência para a pluralidade de microfones da matriz de microfones.
[046] Isso pode fornecer uma medida de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes.
[047] De acordo com um recurso opcional da invenção, o processador de diferença está disposto de modo a determinar a medida de diferença de frequência para a primeira frequência em resposta a uma norma da combinação de medidas de diferença de frequência para a primeira frequência para a pluralidade de microfones da matriz de microfones.
[048] Isso pode fornecer uma medida de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes. A norma pode ser especificamente uma norma Ll.
[049] De acordo com um recurso opcional da invenção, o processador de diferença está disposto de modo a determinar a medida de diferença de frequência para a primeira frequência em resposta a ao menos uma dentre uma parte real e uma norma da combinação de medidas de diferença de frequência para a primeira frequência da pluralidade de microfones da matriz de microfones em relação a uma soma de uma função de uma norma L2 para uma soma do primeiro coeficiente de domínio da frequência e uma função de uma norma L2 para uma soma do segundo coeficiente de domínio da frequência para a pluralidade de microfones da matriz de microfones.
[050] Isso pode fornecer uma medida de diferença particularmente vantajosa que, em particular, pode fornecer
Petição 870190061332, de 01/07/2019, pág. 22/196
16/77 uma indicação exata da diferença entre os feixes. As funções monotônicas podem ser especificamente funções quadráticas.
[051] De acordo com um recurso opcional da invenção, o processador de diferença está disposto de modo a determinar a medida de diferença de frequência para a primeira frequência em resposta a uma norma da combinação de medidas de diferença de frequência para a primeira frequência da pluralidade de microfones da matriz de microfones em relação a um produto de uma função de uma norma L2 para uma soma dos coeficientes do primeiro dominio da frequência e uma função de uma norma L2 para uma soma dos coeficientes do dominio da primeira frequência.
[052] Isso pode fornecer uma medida de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes. As funções monotônicas podem ser especificamente uma função de valor absoluto.
[053] De acordo com um recurso opcional da invenção, o processador de diferença está disposto de modo a determinar a medida de diferença como uma soma ponderada seletiva em frequência das medidas de diferença de frequência.
[054] Isso pode fornecer uma medida de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes. Em particular, isso pode proporcionar uma ênfase de frequências significativas de modo particularmente perceptível, como uma ênfase nas frequências de fala.
[055] De acordo com um recurso opcional da invenção, a primeira pluralidade de filtros formadores de feixe e a segunda pluralidade de filtros formadores de feixe
Petição 870190061332, de 01/07/2019, pág. 23/196
17/77 são filtros de resposta finita a impulso tendo uma pluralidade de coeficientes.
[056] Isso pode fornecer operação e implementação eficientes em muitas modalidades.
[057] De acordo com um recurso opcional da invenção, o aparelho de captura de áudio formador de feixes compreende adicionalmente: uma pluralidade de formadores de feixe restritos acoplados à matriz de microfones, e cada um disposto de modo a gerar uma saída de áudio restrita formada em feixes, sendo que cada formador de feixes restrito dentre a pluralidade de formadores de feixe restritos está restrito a formar feixes em uma região diferente das regiões de outros formadores de feixe restritos dentre a pluralidade de formadores de feixe restritos, sendo que o segundo formador de feixes é um formador de feixes restrito dentre a pluralidade de formadores de feixe restritos; um primeiro adaptador para adaptar os parâmetros de formação de feixes do primeiro formador de feixes; um segundo adaptador para adaptar parâmetros de formação restrita de feixes para a pluralidade de formadores de feixe restritos; sendo que o segundo adaptador está disposto de modo a adaptar parâmetros de formação restrita de feixes apenas para formadores de feixe restritos dentre a pluralidade de formadores de feixe restritos para os quais tenha sido determinada uma medida de diferença que satisfaz um critério de similaridade.
[058] A invenção pode proporcionar uma captura de áudio aprimorada em muitas modalidades. Em particular, pode-se frequentemente obter um desempenho aprimorado em ambientes reverberantes e/ou para fontes de áudio a distâncias maiores. Em particular, a abordagem pode
Petição 870190061332, de 01/07/2019, pág. 24/196
18/77 proporcionar captura de fala aprimorada em muitos ambientes de áudio desafiadores. Em muitas modalidades, a abordagem pode fornecer formação de feixes confiável e precisa, ao mesmo tempo em que fornece adaptação rápida a novas fontes de áudio desejadas. A abordagem pode fornecer um aparelho de captura de áudio com sensibilidade reduzida a, por exemplo, ruído, reverberação e reflexões. Em particular, a captura aprimorada de fontes de áudio fora do raio de reverberação pode ser frequentemente obtida.
[059] Em algumas modalidades, um sinal de áudio de saída do aparelho de captura de áudio pode ser gerado em resposta à primeira saída de áudio formada em feixes e/ou à saída de áudio restrita formada em feixes. Em algumas modalidades, o sinal de áudio de saída pode ser gerado como uma combinação da saída de áudio restrita formada em feixes e, especificamente, uma seleção que combina selecionar, por exemplo, uma única saída de áudio restrita formada em feixes pode ser usada.
[060] A medida de diferença pode refletir a diferença entre os feixes formados do primeiro formador de feixes e do formador de feixes restrito para o qual é gerada a medida de diferença, por exemplo, medida como uma diferença entre as direções dos feixes. Em algumas modalidades, a medida de diferença pode ser indicativa de uma diferença entre os filtros formadores de feixe do primeiro formador de feixes e do formador de feixes restrito. A medida de diferença pode ser uma medida de distância, por exemplo uma medida determinada como a distância entre vetores dos coeficientes dos filtros formadores de feixe do primeiro formador de feixes e do formador de feixes restrito.
Petição 870190061332, de 01/07/2019, pág. 25/196
19/77 [061] Será reconhecido que uma medida de similaridade pode ser equivalente a uma medida de diferença, pelo fato de que uma medida de similaridade, ao fornecer informações relacionadas à similaridade entre duas características, inerentemente fornece, também, informações relacionadas à diferença entre as mesmas, e vice-versa.
[062] O critério de similaridade pode, por exemplo, compreender um requisito de que a medida de diferença seja indicativa de que uma diferença esteja abaixo de uma dada medida, por exemplo, pode ser exigido que uma medida de diferença tendo valores crescentes para uma diferença crescente esteja abaixo de um limiar.
[063] As regiões podem ser dependentes da formação de feixes para uma pluralidade de trajetórias e não são tipicamente limitadas à direção angular das regiões de chegada. Por exemplo, as regiões podem ser diferenciadas com base na distância até a matriz de microfones. A restrição dos formadores de feixe restritos a formar feixes em diferentes regiões pode ser por meio da restrição dos parâmetros de filtragem dos filtros formadores de feixe dos formadores de feixe restritos, de modo que a faixa restrita de parâmetros de filtragem (por exemplo, as faixas para coeficientes de filtragem) seja diferente para diferentes formadores de feixe restritos.
[064] A adaptação dos formadores de feixe pode ser mediante a adaptação dos parâmetros de filtragem dos filtros formadores de feixe dos formadores de feixes, como especificamente mediante a adaptação de coeficientes de filtro. A adaptação pode procurar otimizar (maximizar ou minimizar) um dado parâmetro de adaptação, como, por exemplo,
Petição 870190061332, de 01/07/2019, pág. 26/196
20/77 maximizar um nível de sinal de saída quando uma fonte de áudio é detectada ou minimizá-lo quando somente ruído é detectado. A adaptação pode procurar modificar os filtros formadores de feixe para otimizar um parâmetro medido.
[065] O segundo adaptador pode estar disposto de modo a adaptar os parâmetros de formação restrita de feixes dos segundos formadores de feixe apenas se a medida de diferença satisfaz um critério de similaridade.
[066] De acordo com um recurso opcional da invenção, o aparelho de captura de áudio formador de feixes compreende adicionalmente um detector de fonte de áudio para detectar fontes de áudio pontuais nas segundas saídas de áudio formadas em feixes; e sendo que o segundo adaptador está disposto de modo a adaptar os parâmetros de formação restrita de feixes apenas para formadores de feixe restritos para os quais é detectada uma presença de uma fonte de áudio pontual na saída de áudio restrita formada em feixes.
[067] Isso pode melhorar ainda mais o desempenho e pode, por exemplo, fornecer um desempenho mais robusto, resultando em captura de áudio aprimorada. Diferentes critérios podem ser usados para detectar uma fonte de áudio pontual em diferentes modalidades. Uma fonte de áudio pontual pode ser especificamente uma fonte de áudio correlacionada para os microfones da matriz de microfones. Uma fonte de áudio pontual pode, por exemplo, ser considerada como sendo detectada se uma correlação entre os sinais de microfone da matriz de microfones (por exemplo, após a filtragem pelos filtros formadores de feixe do formador de feixes restrito) exceder um dado limiar.
Petição 870190061332, de 01/07/2019, pág. 27/196
21/77 [068] De acordo com um aspecto da invenção, é fornecido um método de operação para um aparelho de captura de áudio formador de feixes compreendendo: uma matriz de microfones;
[069] um primeiro formador de feixes acoplado à matriz de microfones, sendo que o primeiro formador de feixes é um formador de feixes por filtragem e combinação compreendendo uma primeira pluralidade de filtros formadores de feixe, cada um dos quais tendo uma primeira resposta adaptativa a impulso; um segundo formador de feixes acoplado à matriz de microfones, sendo que o segundo formador de feixes é um formador de feixes por filtragem e combinação compreendendo uma segunda pluralidade de filtros formadores de feixe, cada um dos quais tendo uma resposta adaptativa a impulso; sendo que o método compreende: gerar, pelo primeiro formador de feixes, uma primeira saída de áudio formada em feixes; gerar, pelo segundo formador de feixes, uma segunda saída de áudio formada em feixes; e determinar a medida de diferença entre os feixes do primeiro formador de feixes e do segundo formador de feixes em resposta a uma comparação das primeiras respostas de impulso adaptativo às segundas respostas de impulso adaptativo.
[070] Esses e outros aspectos, recursos e vantagens da invenção ficarão evidentes e serão elucidados com referência às uma ou mais modalidades descritas a seguir.
BREVE DESCRIÇÃO DAS FIGURAS [071] As modalidades da invenção serão descritas, apenas a título de exemplo, com referência aos desenhos, nos quais:
Petição 870190061332, de 01/07/2019, pág. 28/196
22/77
a Figura 1 ilustra um exemplo de elementos de um
sistema de captura de áudio formador de feixes;
a Figura 2 ilustra um exemplo de uma pluralidade de
feixes formados por um sistema de captura de áudio;
a Figura 3 ilustra um exemplo de elementos de um
aparelho de captura de áudio de acordo com algumas modalidades
da invenção;
a Figura 4 ilustra um exemplo de elementos de um
formador de feixes do tipo filtragem e soma;
a Figura 5 ilustra um exemplo de elementos de um
aparelho de captura de áudio de acordo com algumas modalidades
da invenção;
a Figura 6 ilustra um exemplo de elementos de um
aparelho de captura de áudio de acordo com algumas modalidades
da invenção;
a Figura 7 ilustra um exemplo de elementos de um
aparelho de captura de áudio de acordo com algumas modalidades
da invenção;
a Figura 8 ilustra um exemplo de um fluxograma
para uma abordagem de adaptação de formadores de feixe restritos de um aparelho de captura de áudio de acordo com algumas modalidades da invenção.
DESCRIÇÃO DETALHADA DE ALGUMAS MODALIDADES DA
INVENÇÃO
[072] A descrição a seguir se concentra em
modalidades da invenção aplicáveis a um sistema de áudio de captura de fala com base na formação de feixes, mas deve-se considerar que a abordagem é aplicável a muitos outros sistemas e cenários de captura de áudio.
Petição 870190061332, de 01/07/2019, pág. 29/196
23/77 [073] A Figura 3 ilustra um exemplo de alguns elementos de um aparelho de captura de áudio de acordo com algumas modalidades da invenção.
[074] O aparelho de captura de áudio compreende uma matriz de microfones 301 que compreende uma pluralidade de microfones disposta de modo a capturar áudio no ambiente.
[075] A matriz de microfones 301 é acoplada a um primeiro formador de feixes 303 (tipicamente, ou de modo direto ou através de um cancelador de eco, amplificadores, conversor de digital para analógico etc., como será bem conhecido pelo versado na técnica).
[076] O primeiro formador de feixes 303 está disposto de modo a combinar os sinais provenientes da matriz de microfones 301 de modo que seja gerada uma sensibilidade de áudio direcional eficaz da matriz de microfones 301. O primeiro formador de feixes 303 gera assim um sinal de saída, chamado de primeira saída de áudio formada em feixes, o que corresponde a uma captura seletiva de áudio no ambiente. O primeiro formador de feixes 303 é um formador de feixes adaptativo e a diretividade pode ser controlada por meio da definição de parâmetros, chamados de primeiros parâmetros de formação de feixes, da operação de formação de feixes do primeiro formador de feixes 303 e, especificamente, por meio da definição de parâmetros de filtragem (tipicamente coeficientes) de filtros formadores de feixe.
[077] A matriz de microfones 301 é adicionalmente acoplada a um segundo formador de feixes 305 (tipicamente, ou de modo direto ou através de um cancelador
Petição 870190061332, de 01/07/2019, pág. 30/196
24/77 de eco, amplificadores, conversor de digital para analógico etc., como será bem conhecido pelo versado na técnica).
[078] O segundo formador de feixes 305 está similarmente disposto de modo a combinar os sinais provenientes da matriz de microfones 301 de modo que seja gerada uma sensibilidade de áudio direcional eficaz da matriz de microfones 301. O segundo formador de feixes 305 gera assim um sinal de saída, chamado de segunda saída de áudio formada em feixes, o que corresponde a uma captura seletiva de áudio no ambiente. O segundo formador de feixes 305 é também um formador de feixes adaptativo e a diretividade pode ser controlada por meio da definição de parâmetros, chamados de segundos parâmetros de formação de feixes, da operação de formação de feixes do segundo formador de feixes 305 e, especificamente, por meio da definição de parâmetros de filtragem (tipicamente coeficientes) de filtros formadores de feixe.
[079] O primeiro e o segundo formadores de feixe 303, 305 são, consequentemente, formadores de feixe adaptativos em que a diretividade pode ser controlada mediante a adaptação dos parâmetros da operação de formação de feixes.
[080] Especificamente, os formadores de feixe 303, 305 são formadores de feixe por filtragem e combinação (ou especificamente na maioria das modalidades, por filtragem e soma). Um filtro formador de feixes pode ser aplicado a cada um dos sinais de microfone, e as saídas filtradas podem ser combinadas tipicamente por meio da simples adição umas às outras.
[081] Na maioria das modalidades, cada um dos filtros formadores de feixe tem uma resposta ao impulso no
Petição 870190061332, de 01/07/2019, pág. 31/196
25/77 dominio do tempo que não é um simples pulso de Dirac (correspondente a um simples atraso e, portanto, um ganho e um deslocamento de fase no dominio da frequência) mas, ao invés disso, tem uma resposta ao impulso que tipicamente se estende ao longo de um intervalo de tempo de não menos que 2, 5, 10 ou mesmo 30 ms.
[082] As respostas ao impulso podem frequentemente ser implementadas por meio dos filtros formadores de feixe serem filtros FIR (resposta finita a impulso) com uma pluralidade de coeficientes. Os formadores de feixe 303, 305 podem, nessas modalidades, adaptar a formação de feixes por meio da adaptação dos coeficientes de filtro. Em muitas modalidades, os filtros FIR podem ter coeficientes que correspondem a compensações de tempo fixas (geralmente compensações de tempo de amostragem) com a adaptação sendo alcançada mediante a adaptação dos valores de coeficiente. Em outras modalidades, os filtros formadores de feixe podem tipicamente ter um número substancialmente menor de coeficientes (por exemplo, apenas dois ou três), mas com a temporização destes sendo (também) adaptável.
[083] Uma vantagem específica dos filtros formadores de feixe terem respostas a impulso estendidas, ao invés de serem um simples atraso variável (ou um simples ajuste de fase/ganho no domínio da frequência) é que isso possibilita que os formadores de feixes 303, 305 não se adaptem apenas ao componente de sinal mais forte, tipicamente direto. Em vez disso, possibilita que os formadores de feixe 303, 305 se adaptem para incluir trajetórias de sinal adicionais correspondendo tipicamente a reflexões. Consequentemente, a abordagem possibilita um desempenho
Petição 870190061332, de 01/07/2019, pág. 32/196
26/77 aprimorado na maioria dos ambientes reais e, especificamente, possibilita um desempenho aprimorado em ambientes de reflexão e/ou reverberantes e/ou para fontes de áudio mais distantes da matriz de microfones 301.
[084] Deve-se considerar que diferentes algoritmos de adaptação podem ser usados em diferentes modalidades e que vários parâmetros de otimização serão conhecidos pelo versado na técnica. Por exemplo, os formadores de feixe 303, 305 podem adaptar os parâmetros de formação de feixes para maximizar o valor de sinal de saida dos formadores de feixe 303, 305. Como um exemplo especifico, considere um formador de feixes no qual os sinais de microfone recebidos são filtrados com filtros correspondentes para a frente e onde as saldas filtradas são adicionadas. O sinal de saida é filtrado por filtros adaptativos para trás, sendo que as respostas de filtro são conjugadas para os filtros para frente (no dominio da frequência correspondente a respostas ao impulso invertidas no tempo no dominio do tempo). Os sinais de erro são gerados como a diferença entre os sinais de entrada e as saldas dos filtros adaptativos para trás, e os coeficientes dos filtros são adaptados para minimizar os sinais de erro resultando assim na potência máxima de saida. Detalhes adicionais de tal abordagem podem ser encontrados nos documentos de patente US 7.146.012 e US 7.602.926.
[085] Nota-se que abordagens como aquelas nos documentos US 7.146.012 e US 7.602.926 são baseadas no fato de que a adaptação tem como base tanto o sinal da fonte de áudio z (n) como os um ou mais sinais de referência de ruido x(n) provenientes dos formadores de feixes, e será
Petição 870190061332, de 01/07/2019, pág. 33/196
27/77 reconhecido que a mesma abordagem pode ser usada para o sistema da Figura 3.
[086] Os formadores de feixe 303, 305 de fato podem ser especificamente formadores de feixe correspondendo àquele ilustrado na Figura 1 e revelado nos documentos US 7.146.012 e US 7.602.926.
[087] Os formadores de feixe 303, 305 estão, no exemplo, acoplados a um processador de saída 307 (opcional) que recebe os sinais de saída de áudio formados em feixes 303, 305. A saída exata gerada a partir do aparelho de captura de áudio dependerá das preferências e requisitos específicos da modalidade individual. De fato, em algumas modalidades, a saída proveniente do aparelho de captura de áudio pode simplesmente consistir nos sinais de saída de áudio provenientes dos formadores de feixe 303, 305.
[088] Em muitas modalidades, o sinal de saída do processador de saída 307 é gerado como uma combinação dos sinais de saída de áudio provenientes dos formadores de feixe 303, 305. De fato, em algumas modalidades, uma combinação de seleção simples pode ser realizada, por exemplo, selecionando-se os sinais de saída de áudio para os quais a razão entre sinal e ruído, ou simplesmente o nível de sinal, é a mais alta.
[089] Dessa forma, a seleção e o pósprocessamento de saída do processador de saída 307 podem ser específicos para a aplicação e/ou diferentes em diferentes implementações/modalidades. Por exemplo, todas as saídas possíveis de feixe focalizado podem ser fornecidas, uma seleção pode ser feita com base em um critério definido pelo
Petição 870190061332, de 01/07/2019, pág. 34/196
28/77 usuário (por exemplo, o orador mais forte é selecionado), entre outros.
[090] Para uma aplicação de controle por voz, por exemplo, todas as saídas podem ser transmitidas a um reconhecedor de ativação por voz que é disposto para detectar uma palavra ou frase específica para inicializar o controle por voz. Em tal exemplo, o sinal da saída de áudio no qual a palavra ou frase gatilho é detectada pode, após a frase de ativação, ser usado por um reconhecedor de voz para detectar comandos específicos.
[091] Para aplicações de comunicação, pode ser vantajoso, por exemplo, selecionar o sinal de saída de áudio que é mais forte e, por exemplo, para o qual a presença de uma fonte de áudio pontual específica tenha sido encontrada.
[092] Em algumas modalidades, o pósprocessamento, como a supressão de ruído da Figura 1, pode ser aplicado à saída do aparelho de captura de áudio (por exemplo, pelo processador de saída 307) . Isso pode melhorar o desempenho para, por exemplo, comunicação por voz. Em tal pósprocessamento, operações não lineares podem ser incluídas embora, por exemplo, para alguns reconhecedores de fala, possa ser mais vantajoso limitar o processamento para incluir apenas processamento linear.
[093] Em muitos sistemas que usam uma pluralidade de formadores de feixe, pode ser vantajoso ser capaz de determinar se os formadores de feixe formaram feixes que estão próximos um do outro. No sistema da Figura 3, o aparelho de captura de áudio compreende um processador de diferença 309 que está disposto de modo a determinar uma medida de diferença que é indicativa de uma diferença entre os
Petição 870190061332, de 01/07/2019, pág. 35/196
29/77 feixes formados pelo primeiro formador de feixes 303 e o segundo formador de feixes 305.
[094] Será reconhecido que o uso desse tipo de medida de diferença pode ser diferente para diferentes aplicações e implementações, e que os princípios não estão limitados a uma aplicação específica. No exemplo específico da Figura 3, o processador de diferença 309 é acoplado ao processador de saída 307, e é usado na geração de uma saída de áudio proveniente do processador de saída 307. Por exemplo, se a medida de diferença indicar que os dois feixes estão muito próximos um dos outro, um sinal de áudio de saída pode ser gerado calculando-se a média ou a soma dos sinais de saída (por exemplo, no domínio da frequência). Se a medida de diferença for indicativa de uma grande diferença (e indicando assim que os dois feixes estão adaptados a diferentes fontes de áudio), a saída do processador 307 pode gerar o sinal de áudio de saída mediante a seleção do sinal de saída de áudio formado em feixes que tenha o nível de energia mais alto.
[095] Em abordagens convencionais para comparar feixes e formadores de feixe, a similaridade entre feixes é avaliada comparando-se as saídas de áudio geradas. Por exemplo, uma correlação cruzada entre as saídas de áudio pode ser gerada com a similaridade sendo indicada pela magnitude da correlação. Em alguns sistemas, uma DoA pode ser determinada por meio da correlação cruzada dos sinais de áudio para um par de microfones, e pela determinação da DoA em resposta a uma temporização do pico.
[096] No sistema da Figura 3, a medida de diferença não é meramente determinada com base em uma
Petição 870190061332, de 01/07/2019, pág. 36/196
30/77 propriedade ou comparação de sinais de áudio, sejam os sinais de saida de áudio formada em feixes provenientes dos formadores de feixe ou os sinais de microfone de entrada mas, em vez disso, o processador de diferença 309 do aparelho de captura de áudio da Figura 3 está disposto de modo a determinar a medida de diferença em resposta a uma comparação das respostas a impulso dos filtros formadores de feixe do primeiro e do segundo formadores de feixe 303, 305.
[097] A Figura 4 ilustra um exemplo simplificado de um formador de feixes por filtragem e soma com base em uma matriz de microfones que compreende apenas dois microfones 401. No exemplo, cada microfone 401 é acoplado a um filtro formador de feixes 403, 405 cujas saidas são somadas no somador 407 para gerar um sinal de saída de áudio formado em feixes. Os filtros formadores de feixe 403, 405 têm respostas a impulso fl e f2 que são adaptadas para formar um feixe em uma dada direção. Será reconhecido que, tipicamente, a matriz de microfones compreenderá mais de dois microfones, e que o princípio da Figura 4 é facilmente estendido a mais microfones por meio da inclusão adicional de um filtro formador de feixes para cada microfone.
[098] O primeiro e o segundo formadores de feixe 303, 305 podem incluir tal arquitetura do tipo filtragem e soma para a formação de feixes (como, por exemplo, nos formadores de feixe dos documentos de patente US 7.146.012 e US 7.602.926) . Será reconhecido que, em muitas modalidades, a matriz de microfones 301 pode, no entanto, compreender mais de dois microfones. Será adicionalmente reconhecido que os formadores de feixe 303, 305 incluem funcionalidade para adaptar os filtros
Petição 870190061332, de 01/07/2019, pág. 37/196
31/77 formadores de feixe conforme anteriormente descrito. Além disso, no exemplo específico, os formadores de feixe 303, 305 geram não apenas um sinal de saída de áudio formado em feixes, como também um sinal de referência de ruído.
[099] No sistema da Figura 3, os parâmetros dos filtros formadores de feixe para o primeiro formador de feixes 303 são comparados aos parâmetros dos filtros formadores de feixe do segundo formador de feixes 305. A medida de diferença pode, então, ser determinada para refletir quão próximos uns dos outros estão esses parâmetros. Especificamente, para cada microfone, os filtros formadores de feixe correspondentes do primeiro formador de feixes 303 e do segundo formador de feixes 305 são comparados entre si para gerar uma medida de diferença intermediária. As medidas de diferença intermediárias são então combinadas em uma única medida de diferença, que é produzida a partir do processador de diferença 309.
[0100] Os parâmetros de formação de feixes sendo comparados são tipicamente os coeficientes de filtro. Especificamente, os filtros formadores de feixe podem ser filtros FIR tendo uma resposta a impulso do domínio do tempo definida pelo conjunto de coeficientes de filtro FIR. O processador de diferença 309 pode estar disposto de modo a comparar os filtros correspondentes do primeiro formador de feixes 303 e do segundo formador de feixes 305 mediante a determinação de uma correlação entre os filtros. Um valor de correlação pode ser determinado como a correlação máxima (isto é, o valor de correlação para o deslocamento de tempo que maximiza a correlação).
Petição 870190061332, de 01/07/2019, pág. 38/196
32/77 [0101] O processador de diferença 309 pode, então, combinar todos esses valores individuais de correlação em uma única medida de diferença, por exemplo, simplesmente somando-os uns aos outros. Em outras modalidades, uma combinação ponderada pode ser realizada, por exemplo, mediante a ponderação de coeficientes maiores que os coeficientes mais baixos.
[0102] Será reconhecido que esse tipo de medida de diferença terá um valor crescente para uma correlação crescente dos filtros e, dessa forma, que um valor mais alto será indicativo de uma maior similaridade entre os feixes, ao invés de uma maior diferença. Entretanto, em modalidades nas quais se deseje que a medida de diferença aumente para aumentar a diferença, uma função monotonicamente decrescente pode simplesmente ser aplicada à correlação combinada.
[0103] A determinação da medida de diferença tendo por base uma comparação das respostas a impulso dos filtros formadores de feixe, ao invés de ter por base sinais de áudio (os sinais de saída de áudio formada em feixes, ou os sinais de microfone) fornece vantagens significativas em muitos sistemas e aplicações. Em particular, a abordagem tipicamente fornece desempenho muito aprimorado e, de fato, é adequada para aplicação em ambientes de áudio reverberantes e para fontes de áudio em distâncias adicionais incluindo, em particular, fontes de áudio fora do raio de reverberação. De fato, ela fornece desempenho muito aprimorado em cenários em que a trajetória direta de uma fonte de áudio não é dominante, mas em vez disso, onde a trajetória direta e reflexões possivelmente precoces são dominadas, por exemplo, por um campo sonoro difuso. Em particular, em tais cenários a
Petição 870190061332, de 01/07/2019, pág. 39/196
33/77 estimativa de diferença com base no sinal de áudio estará fortemente sujeita às características espaciais e temporais do campo sonoro, enquanto a abordagem baseada em filtro permite uma avaliação mais direta dos feixes com base nos parâmetros de filtragem que não só refletem o campo/tra j etória de som direto, como estão adaptados para refletir o campo/trajetória de som direto e as reflexões precoces (devido ao fato de que as respostas a impulso que têm uma duração prolongada para levar em consideração essas reflexões).
]0104 ] De fato, enquanto as métricas de
correlação de sinal de áudio e DoA convencionais para
estimar a similaridade de dois formadores de feixe são
baseadas em ambientes anecoicos e, consequentemente,
funcionam bem em ambientes onde os usuários desejados estão perto dos microfones (dentro do raio de reverberação) , de modo que a energia do campo sonoro difuso domine, a abordagem da Figura 3 não se baseia nessas suposições e fornece estimativas excelentes mesmo na presença de muitas reflexões e/ou de ruído acústico difuso substancial.
[0105] Outras vantagens incluem que a medida de diferença pode ser determinada instantaneamente, com base nos atuais parâmetros de formação de feixes e, especificamente, com base nos atuais coeficientes de filtro. Na maioria das modalidades, não há necessidade de qualquer cálculo de média dos parâmetros, ao invés disso, a velocidade de adaptação dos formadores de feixe adaptáveis determina o comportamento de rastreamento.
[0106] Um aspecto particularmente vantajoso é que a comparação e a medida de diferença podem ser baseadas em respostas a impulso que têm uma duração prolongada. Isso
Petição 870190061332, de 01/07/2019, pág. 40/196
3^/ΊΊ permite que a medida de diferença reflita não apenas um atraso de uma trajetória direta ou de uma direção angular do feixe, mas ao invés disso permite que seja levada em consideração uma parte significativa, ou de fato a totalidade, do impulso acústico estimado do cômodo. Dessa forma, a medida de diferença não é meramente baseada no subespaço excitado pelos sinais de microfone, como em abordagens convencionais.
[0107] Em algumas modalidades, a medida de diferença pode estar especificamente disposta de modo a comparar as respostas a impulso no domínio da frequência, ao invés de fazê-lo no domínio do tempo. Especificamente, o processador de diferença 309 pode estar disposto de modo a transformar as respostas adaptativas a impulso dos filtros do primeiro formador de feixes 303 no domínio da frequência. Da mesma forma, o processador de diferença 309 pode estar disposto de modo a transformar as respostas adaptativas a impulso dos filtros do segundo formador de feixes 305 no domínio da frequência. A transformação pode ser especificamente realizada aplicando-se, por exemplo, uma transformada rápida de Fourier (FFT - Fast Fourier Transform) às respostas a impulso dos filtros formadores de feixe tanto do primeiro formador de feixes 303 quanto do segundo formador de feixes 305.
[0108] O processador de diferença 309 pode, consequentemente, para cada filtro do primeiro formador de feixes 303 e do segundo formador de feixes 305, gerar um conjunto de coeficientes de domínio da frequência. Ele pode, então, prosseguir para determinar a medida de diferença com base na representação de frequência. Por exemplo, para cada
Petição 870190061332, de 01/07/2019, pág. 41/196
35/77 microfone da matriz de microfones 301, o processador de diferença 309 pode comparar os coeficientes de domínio da frequência dos dois filtros formadores de feixe. Como um exemplo simples, ele pode simplesmente determinar uma magnitude de um vetor de diferença calculado como a diferença entre os vetores de coeficiente de domínio da frequência para os dois filtros. A medida de diferença pode, então, ser determinada mediante a combinação das medidas de diferença intermediárias geradas para as frequências individuais.
[0109] A seguir, serão descritas algumas abordagens específicas e altamente vantajosas para determinar uma medida de diferença. As abordagens são baseadas em uma comparação das respostas adaptativas a impulso no domínio da frequência. Na abordagem, o processador de diferença 309 está disposto de modo a determinar medidas de diferença de frequência para frequências das representações de domínio da frequência. Especificamente, uma medida de diferença de frequência pode ser determinada para cada frequência na representação de frequência. A medida de diferença de saída é, então, gerada a partir dessas medidas de diferença de frequência individuais.
[0110] Uma medida de diferença de frequência pode ser especificamente gerada para cada coeficiente de filtro de frequência de cada par de filtros dos filtros formadores de feixe, onde um par de filtros representa os filtros respectivamente do primeiro formador de feixes 303 e do segundo formador de feixes 305 para o mesmo microfone. A medida de diferença de frequência para esse par de coeficientes de frequência é gerada como uma função dos dois coeficientes. De fato, em algumas modalidades, a medida de
Petição 870190061332, de 01/07/2019, pág. 42/196
36/ΊΊ diferença de frequência para o par de coeficientes pode ser determinada como a diferença absoluta entre os coeficientes.
[0111] Entretanto, para coeficientes de dominio do tempo de valor real (isto é, uma resposta a impulso de valor real), os coeficientes de frequência serão geralmente valores complexos, e em muitas aplicações uma medida de diferença de frequência particularmente vantajosa para um par de coeficientes é determinada em resposta à multiplicação de um primeiro coeficiente de dominio da frequência e um conjugado do segundo coeficiente de dominio da frequência (isto é, em resposta à multiplicação do coeficiente complexo de um filtro e o conjugado do coeficiente complexo do outro filtro do par).
[0112] Dessa forma, para cada compartimento de frequência das representações de dominio da frequência das respostas a impulso dos filtros formadores de feixe, uma medida de diferença de frequência pode ser gerada para cada par de microfone/filtro. A medida de diferença de frequência combinada para a frequência pode, então, ser gerada mediante a combinação dessas medidas de diferença de frequência especificas do microfone para todos os microfones, por exemplo, simplesmente através da soma das mesmas.
[0113] Com mais detalhes, os formadores de feixe 303, 305 podem compreender coeficientes de filtro de domínio da frequência para cada microfone e para cada frequência da representação de domínio da frequência.
[0114] Para o primeiro formador de feixes 303, esses coeficientes podem ser denotados Git®·') ·· ) θ para o segundo formador de feixes 305 podem ser denotados , onde M é o número de microfones.
Petição 870190061332, de 01/07/2019, pág. 43/196
37/77 [0115] O conjunto total de coeficientes de filtro do domínio da frequência do formador de feixes para uma certa frequência e para todos os microfones pode, para o primeiro formador de feixes 303 e o segundo formador de feixes 305, ser respectivamente denotado como /1, e .
[0116] Nesse caso, a medida de diferença de frequência para uma dada frequência e pode ser determinada como:
SM = [0117] Multiplicando-se os coeficientes de filtro de valor complexo que pertencem aos mesmos microfones, obtém-se para cada frequência uma primeira forma de medida de distância, dessa forma onde (·)* representa o conjugado complexo. Isso pode ser usado como uma medida de diferença para a frequência ω para o microfone m. A medida de diferença de frequência combinada para todos os microfones pode ser gerada como a soma desses, isto é
M sm = <fir2> = £ Fi>»(e'“) fLh) m=l [0118] Se os dois filtros não estiverem relacionados, isto é, se o estado adaptado dos filtros e, dessa forma, os feixes formados forem muito diferentes, espera-se que essa soma seja próxima de zero e, dessa forma, a medida de diferença de frequência é próxima de zero. Entretanto, se os coeficientes de filtro forem similares, um grande valor positivo é obtido. Se os coeficientes de filtração têm o sinal oposto, então um grande valor negativo
Petição 870190061332, de 01/07/2019, pág. 44/196
38/77 é obtido. Dessa forma, a medida de diferença de frequência gerada é indicativa da similaridade dos filtros formadores de feixe para essa frequência.
[0119] A multiplicação dos dois coeficientes complexos (incluindo a conjugação) resulta em um valor complexo e, em muitas modalidades, pode ser desejável converter isso em um valor escalar.
[0120] Em particular, em muitas modalidades, a medida de diferença de frequência para uma dada frequência é determinada em resposta a uma parte real da combinação de medidas de diferença de frequência para os diferentes microfones para essa frequência.
[0121] Especificamente, a medida de diferença de frequência combinada pode ser determinada como:
(M \ m=l / [0122] Nessa medida, a medida de similaridade com base em Re(S) resulta no valor máximo obtido quando os coeficientes de filtro são iguais, enquanto o valor mínimo é atingido quando os coeficientes de filtro são iguais, mas têm sinais opostos.
[0123] Uma outra abordagem é determinar a medida de diferença de frequência combinada para uma dada frequência em resposta a uma norma da combinação das medidas de diferença de frequência para os microfones. A norma pode, tipicamente, ser vantajosamente uma norma LI ou L2.
[0124] Por exemplo:
5(ω) = l</‘l/2)l = m=l
Petição 870190061332, de 01/07/2019, pág. 45/196
39/77 [0125] Em algumas modalidades, a medida de diferença de frequência combinada para todos os microfones da matriz de microfones 301 é, dessa forma, determinada como a amplitude ou valor absoluto da soma das medidas de diferença de frequência de valor complexo para os microfones individuais.
[0126] Em muitas modalidades, pode ser vantajoso normalizar as medidas de diferença. Por exemplo, pode ser vantajoso normalizar a medida de diferença de modo que ela se situe no intervalo de [0; 1 ] .
[0127] Em algumas modalidades, as medidas de diferença descritas acima podem ser normalizadas ao serem determinadas em resposta à soma de uma função monotônica de uma norma da soma dos coeficientes de domínio da frequência para o primeiro formador de feixes 303 e uma função monotônica de uma norma para a soma dos coeficientes de domínio da frequência para o segundo formador de feixes 305, onde as somas estão sobre os microfones. A norma pode ser vantajosamente uma norma L2 e a função monotônica pode ser vantajosamente uma função quadrada.
[0128] Dessa forma, as medidas de diferença podem ser normalizados em relação ao seguinte valor:
[0129] Combinado com a primeira abordagem descrita acima, isso resulta nas medidas de diferença de frequência combinadas dadas como:
s5(A/2)
ΜσΊ/·2» + iiriii + imi
Petição 870190061332, de 01/07/2019, pág. 46/196
40/77 [0130] onde o deslocamento de U e introduzido de modo que para /^ = /^ a medida de diferença de frequência tenha um valor de um, e para f1 = a medida de diferença de frequência tenha um valor de zero. Dessa forma, uma medida de diferença entre crescente é indicativo de entendido que se um valor diferença crescente, isso mediante a determinação de:
e 1 é gerada onde um valor uma diferença de redução. Será crescente for desejado para uma pode simplesmente ser obtido
Se((/'|/2»
11/011 + 11/2^ [0131] De modo similar, para a segunda abordagem, a seguinte medida de diferença de frequência pode ser determinada:
2 2IWI
W >f ) ||Γ||2 + |1/2||| [0132] mais uma vez, resultando em uma medida de diferença de frequência que se situa no intervalo de [ 0 ; 1 ] .
[0133] Como outro exemplo, a normalização pode, em algumas modalidades, ser baseada em uma multiplicação das normas e, especificamente, das normas L2, das somações individuais dos coeficientes de dominio da frequência:
^(/4/2) = 11/44-11/2^ [0134] Isso pode, em particular, em muitas aplicações, fornecer um desempenho muito vantajoso para o último exemplo de uma medida de diferença (isto é, com base na norma LI para os coeficientes) . Em particular, pode ser usada a seguinte medida de diferença de frequência:
Petição 870190061332, de 01/07/2019, pág. 47/196
41/77 s f2. = AT '' } ll/0l2 ll/2ll2 [0135] As medidas de diferença de frequência específicas podem ser consequentemente determinadas como:
. 7 1 M(/0/2» S^ = 2+WW^i s(ft f. . W0/2)l 6lz ,T J 11/011 + 11/011 |(/0f2)| ç (fl f2\ _ lv 17 Zl 7{J T} 11/012 · II/0I2 onde VAhG&l θ um produto interno e — VCSIS^ é a norma [0136] O processador de diferença 309 pode, então, gerar a medida de diferença a partir das medidas de diferença de frequência, combinando estas em uma única medida de diferença indicativa de quão similares são os feixes do primeiro formador de feixes 303 e do segundo formador de feixes 305.
[0137] Especificamente, a medida de diferença pode ser determinada como uma soma ponderada seletiva em frequência das medidas de diferença de frequência. A abordagem seletiva em frequência pode ser especificamente útil para aplicar uma janela de frequência adequada que permite, por exemplo, que a ênfase seja colocada em faixas de frequência específicas, como, por exemplo, na faixa de áudio ou nos intervalos de frequência de fala principais. Por exemplo, uma média (ponderada) pode ser aplicada para gerar uma medida de diferença de banda larga robusta.
[0138] Especificamente, a medida de diferença pode ser determinada como:
Petição 870190061332, de 01/07/2019, pág. 48/196
42/77 ρ2π
S(f\f2) = w(e> ΧΛ /2,β'ω)άω •Ιω=ο onde Mis11) θ uma função de ponderação adequada.
[0139] Por exemplo, a função de peso pode ser projetada para levar em consideração que a fala é principalmente ativa em certas bandas de frequência e/ou que matrizes de microfone tendem a ter baixa diretividade para frequências relativamente baixas.
[0140] Deve-se compreender que, embora as equações acima sejam apresentadas no dominio continuo de frequência, elas podem ser prontamente convertidas para o dominio discreto de frequência.
[0141] Por exemplo, filtros de dominio discreto de tempo podem ser primeiramente transformados em filtros de dominio discreto de frequência pela aplicação de uma transformada discreta de Fourier, isto é, para 0 < < AC f podemos calcular:
Nf-l
Fm[k] = n=0 onde AnUl representa a resposta de filtro de tempo discreto do Jésimo formador de feixes para o mésimo microfone, Nf é o comprimento dos filtros de dominio do tempo, representa o filtro de dominio da frequência discreto do Jésimo formador de feixes para mésimo microfone, e K é o comprimento dos filtros formadores de feixe do dominio da frequência, tipicamente escolhido como A. = 2Ay (frequentemente o mesmo número que os coeficientes de dominio do tempo, embora este não seja necessariamente o caso. Por exemplo, para vários
Petição 870190061332, de 01/07/2019, pág. 49/196
43/ΊΊ coeficientes de dominio do tempo diferentes de 2N, a inserção de zeros pode ser usada para facilitar a conversão de domínio da frequência (por exemplo, com o uso de uma FFT) ) .
[0142] Os homólogos de domínio da frequência distintos dos vetores f1 e r são os vetores FHM θ os quais são obtidos mediante a coleta de coeficientes de filtro do domínio da frequência para o índice de frequência k para todos os microfones em um vetor.
[0143] Subsequentemente, o cálculo, por exemplo, da medida de similaridade ^(F3, F3)|.%1 pode então ser realizado da seguinte forma:
s7 (F1, F2) [k] |(F1[k],F2[k])| iimib-iimib com
M <fWfW = Σ tórm m=l
M m=l l|F2[/c]||2
M m=l onde (·)* representa conjugação complexa.
[0144]
Finalmente, a medida de similaridade de banda larga pode, com base na função de ponderação wft], ser calculada da seguinte forma:
K-l
SflF1^2) = w^SyCFbF2)^] k=0
Petição 870190061332, de 01/07/2019, pág. 50/196
44/77 [0145] A escolha da função de ponderação como = leva a uma medida de similaridade de banda larga que é delimitada entre zero e um e que pondera igualmente todas as frequências.
[0146] Funções de ponderação alternativas podem se concentrar em uma faixa de frequências específica (por exemplo, devido ao fato de ser provável que contenha fala) .
Nesse uma função de ponderação que a uma medida de similaridade delimitada entre um pode então, por exemplo, ser escolhida como:
m outros tacares onde e são índices de frequência que correspondem aos limites da faixa de frequência desejada.
[0147] A medida de diferença derivada fornece um desempenho particularmente eficiente com diferentes características que podem ser desejáveis em diferentes modalidades. Em particular, os valores determinados podem ser sensíveis a diferentes propriedades da diferença de feixe e, dependendo das preferências da modalidade individual, diferentes medidas podem ser preferenciais.
[0148] De fato, a medida de diferença/similaridade Mí1*/) pode ser considerada para medir a fase, a atenuação, e as diferenças de direção entre os formadores de feixe, enquanto leva em consideração apenas diferenças de ganho e direção. Finalmente, a medida de diferença leva em consideração apenas as diferenças de direção, e ignora as diferenças de fase e de atenuação.
Petição 870190061332, de 01/07/2019, pág. 51/196
45/77 [0149] Essas diferenças se referem à estrutura dos formadores de feixe. Especificamente, suponha que os coeficientes de filtragem de um formador de feixes compartilhem um fator comum (dependente de frequência) por todos os microfones, os quais são indicados como .
Neste caso, os coeficientes de filtro formador de feixes podem ser decompostos conforme exposto a seguir:
Fu(eJp = ) ... ) [0150] Em notação abreviada tem-se /1 = ---W/1 . Em seguida, considera-se duas versões do fator comum âfe71··-').
[0151] No primeiro caso, presume-se que o fator comum consista em apenas um deslocamento de fase (dependente de frequência), isto é = e****?»*», também conhecido como um filtro passa-tudo. No segundo caso, supõe-se que o fator comum tenha um ganho arbitrário e um deslocamento de fase por frequência. As três medidas de similaridade apresentadas lidam com esses fatores comuns de forma diferente.
• é sensível a diferenças de amplitude e fase comuns entre formadores de feixe.
• é sensível às diferenças de amplitude comuns entre os formadores de feixe é insensível ao fator comum [0152] Isso pode ser visto a partir dos seguintes Exemplos:
Exemplo 1:
[0153] Neste exemplo, consideramos um cenário com /^=.4(:=^)/^, com sendo uma fase por frequência arbitrária, isto é, um filtro passa-tudo.
Petição 870190061332, de 01/07/2019, pág. 52/196
AG/ΊΊ [0154]
Isso resulta nos seguintes resultados para as medidas de similaridade:
Re^A^ )f2 \f2)) = 1 Re(A(ei“ ) · ||/2||2) \A^\2-\\f2\\2 + \\f2\\2 2+ 2\\f2\\2 + Re (Χ^ω)) “ 2 , = 2\{A(eJ“)f2\f2)\ = 2\{f2\f2)\ = J ΙΑ^ω2·ΙΙ/2ΙΙ^ + ΙΙ/2ΙΙ^ 11/^ + 11/2^ |(Λ(β^)/2|/2)| \{f2\f2)\ l^(e7)l ·||/2ΙΙ2·||/2ΙΙ2 ΙΙ/2ΙΙ2·ΙΙ/2ΙΙ2
Exemplo 2:
[0155] Neste exemplo, considera-se um cenário com f1 = , com sendo um ganho e fase por frequência arbitrários. Isso resulta nos seguintes resultados para as medidas de similaridade:
, Rc()) + 1 + W(g>)F [s(W<<5)F * ΉΙ/2ΙΙΪ
2|B(e/w)| K/2Í/2H „ 2|B(e>)| iwní Oi+Of ií+p ii+íi2 il+ii.
[0156] Em muitas modalidades práticas, pode haver uma diferença de ganho e fase comum entre os formadores de feixe, e consequentemente a medida de diferença pode em muitas modalidades proporcionar uma medida particularmente atraente.
Petição 870190061332, de 01/07/2019, pág. 53/196
47/77 [0157] A seguir, será descrito um aparelho de captura de áudio no qual a medida de diferença gerada funciona em conjunto com os outros elementos descritos para fornecer um sistema de captura de áudio particularmente vantajoso. Em particular, a abordagem é altamente adequada para capturar fontes de áudio em ambientes ruidosos e reverberantes. Isso fornece um desempenho particularmente vantajoso para aplicações em que uma fonte de áudio desejada pode estar fora do raio de reverberação e o áudio capturado pelos microfones pode ser dominado por ruido difuso e reflexões tardias ou reverberações.
[0158] A Figura 5 ilustra um exemplo de
elementos desse tipo de aparelho de captura de áudio de
acordo com algumas modalidades da invenção. Os elementos e a
abordagem do sistema da Figura 3 podem corresponder ao
sistema da Figura 5, conforme exposto a seguir.
[0159] O aparelho de captura de áudio compreende uma matriz de microfones 501 que pode diretamente corresponder à matriz de microfones da Figura 3. No exemplo, a matriz de microfones 501 é acoplada a um cancelador de eco 503 opcional, que pode cancelar os ecos que se originam de fontes acústicas (para as quais está disponível um sinal de referência) que estão linearmente relacionadas aos ecos nos um ou mais sinais de microfone. Essa fonte pode, por exemplo, ser um alto-falante. Um filtro adaptativo pode ser aplicado com o sinal de referência como entrada, e com a saída sendo subtraída do sinal de microfone para criar um sinal compensado do eco. Isso pode ser repetido para cada microfone individual.
Petição 870190061332, de 01/07/2019, pág. 54/196
48/77 [0160] Será reconhecido que o cancelador de eco 503 é opcional e pode simplesmente ser omitido em muitas modalidades.
[0161] A matriz de microfones 501 é acoplada a um primeiro formador de feixes 505, tipicamente, ou de modo direto ou através do cancelador de eco 503 (bem como, possivelmente, por meio de amplificadores, conversores de digital para analógico etc., como será bem conhecido pelo versado na técnica). O primeiro formador de feixes 505 pode corresponder diretamente ao formador de feixes 303 da Figura 3 .
[0162] O primeiro formador de feixes 505 está disposto de modo a combinar os sinais provenientes da matriz de microfones 501 de modo que seja gerada uma sensibilidade de áudio direcional eficaz da matriz de microfones 501. O primeiro formador de feixes 505 gera assim um sinal de saída, chamado de primeira saída de áudio formada em feixes, o que corresponde a uma captura seletiva de áudio no ambiente. O primeiro formador de feixes 505 é um formador de feixes adaptativo, e a diretividade pode ser controlada por meio da definição de parâmetros, chamados de primeiros parâmetros de formação de feixes, da operação de formação de feixes do primeiro formador de feixes 505.
[0163] O primeiro formador de feixes 505 é acoplado a um primeiro adaptador 507 que está disposto de modo a adaptar os primeiros parâmetros de formação de feixes. Dessa forma, o primeiro adaptador 507 está disposto de modo a adaptar os parâmetros do primeiro formador de feixes 505, de modo que o feixe possa ser direcionado.
Petição 870190061332, de 01/07/2019, pág. 55/196
49/77 [0164] Além disso, o aparelho de captura de áudio compreende uma pluralidade de formadores de feixe restritos 509, 511, cada um dos quais está disposto de modo a combinar os sinais provenientes da matriz de microfones 501, de modo que seja gerada uma sensibilidade de áudio direcional eficaz da matriz de microfones 501. Cada um dos formadores de feixe restritos 509, 511 está, portanto, disposto de modo a gerar uma saida de áudio, chamada de saida de áudio restrita formada em feixes, o que corresponde a uma captura seletiva de áudio no ambiente. De modo similar, para o primeiro formador de feixes 505, os formadores de feixe restritos 509, 511 são formadores de feixe adaptativos, onde a diretividade de cada formador de feixes restrito 509, 511 pode ser controlada por meio do ajuste de parâmetros, chamados de parâmetros de formação restrita de feixes, dos formadores de feixe restritos 509, 511.
[0165] O aparelho de captura de áudio compreende consequentemente um segundo adaptador 513 que está disposto de modo a adaptar os parâmetros de formação restrita de feixes da pluralidade de formadores de feixe restritos adaptando, assim, os feixes formados pelos mesmos.
[0166] O formador de feixes 305 da Figura 3 pode corresponder diretamente ao primeiro formador de feixes restrito 509 da Figura 5. Será reconhecido, também, que os formadores de feixes restritos 511 restantes podem corresponder ao primeiro formador de feixes 303 e poderíam ser considerados instanciações do mesmo.
[0167] Tanto o primeiro formador de feixes 505 quanto os formadores de feixes restritos 509, 511 são, consequentemente, formadores de feixes adaptativos para os
Petição 870190061332, de 01/07/2019, pág. 56/196
50/77 quais o feixe real formado pode ser dinamicamente adaptado. Especificamente, os formadores de feixe 505, 509, 511 são formadores de feixe por filtragem e combinação (ou especificamente, na maioria das modalidades, por filtragem e soma) . Um filtro formador de feixes pode ser aplicado a cada um dos sinais de microfone, e as saldas filtradas podem ser combinadas tipicamente por meio da simples adição umas às outras.
[0168] Será reconhecido que os comentários fornecidos em relação ao primeiro formador de feixes 303 e o segundo formador de feixes 305 (por exemplo, em relação aos filtros formadores de feixe) se aplicam de modo equivalente aos formadores de feixe 505, 509, 511 da Figura 5.
[016 9 ] Em muitas modalidades, a estrutura e a
implementação do primeiro formador de feixes 505 e dos
formadores de feixe restritos 509, 511 podem ser iguais, por
exemplo, os filtros de formação de feixes podem ter
estruturas de filtro FIR idênticas com o mesmo número de
coeficientes etc.
[0170] Entretanto, a operação e os parâmetros do primeiro formador de feixes 505 e dos formadores de feixe restritos 509, 511 serão diferentes e, em particular, os formadores de feixe restritos 509, 511 são restritos de maneiras que o primeiro formador de feixes 505 não é. Especificamente, a adaptação dos formadores de feixe restritos 509, 511 será diferente da adaptação do primeiro formador de feixes 505 e estará especificamente sujeita a algumas restrições.
[0171] Especificamente, os formadores de feixe restritos 509, 511 estão sujeitos à restrição de que a
Petição 870190061332, de 01/07/2019, pág. 57/196
51/77 adaptação (atualização de parâmetros de filtro formador de feixes) está restrita a situações nas quais um critério é atendido, enquanto ao primeiro formador de feixes 505 será permitido que se adapte mesmo quando esse critério não for atendido. De fato, em muitas modalidades, pode-se permitir que o primeiro adaptador 507 sempre adapte o filtro formador de feixes, sem que esse seja restringido por quaisquer propriedades do áudio capturado pelo primeiro formador de feixes 505 (ou qualquer dos formadores de feixe restritos 509, 511) .
[0172] O critério para adaptar os formadores de feixe restritos 509, 511 será descrito posteriormente com mais detalhes.
[0173] Em muitas modalidades, a taxa de adaptação para o primeiro formador de feixes 505 é maior do que para os formadores de feixe restritos 509, 511. Dessa forma, em muitas modalidades, o primeiro adaptador 507 pode estar disposto de modo a adaptar-se mais rapidamente às variações do que o segundo adaptador 513 e, dessa forma, o primeiro formador de feixes 505 pode ser atualizado mais rapidamente do que os formadores de feixe restritos 509, 511. Isso pode, por exemplo, ser obtido mediante a filtragem passa-baixa de um valor sendo maximizado ou minimizado (por exemplo, o nível de sinal do sinal de saída, ou a magnitude de um sinal de erro) tendo uma frequência de corte mais alta para o primeiro formador de feixes 505 do que para os formadores de feixe restritos 509, 511. Como outro exemplo, uma alteração máxima por atualização dos parâmetros de formação de feixes (especificamente, os coeficientes de filtro de formação de
Petição 870190061332, de 01/07/2019, pág. 58/196
52/77 feixes) pode ser mais alta para o primeiro formador de feixes 505 do que para os formadores de feixe restritos 509, 511.
[0174] Consequentemente, no sistema, uma pluralidade de formadores de feixe focalizados (restritos em relação à adaptação) que se adaptam lentamente e apenas quando um critério específico é atendido, é suplementada por um formador de feixes de execução livre e adaptação mais rápida, que não está sujeito a essa restrição. Os formadores de feixes mais lentos e focalizados tipicamente fornecerão uma adaptação mais lenta, porém mais precisa e confiável, ao ambiente de áudio específico do que o formador de feixes de execução livre que, no entanto, será tipicamente capaz de se adaptar rapidamente ao longo de um maior intervalo de parâmetros.
[0175] No sistema da Figura 5, esses formadores de feixes são usados de modo sinérgico para fornecer um desempenho aprimorado, conforme será descrito posteriormente com mais detalhes.
[ 0176 ] 0 primeiro formador de feixes 505 e os
formadores de feixe restritos 509, 511 são acoplados a um
processador de saída 515, que recebe os sinais de saída de
áudio formada em feixes dos formadores de feixe 505, 509,
511. A saída exata gerada a partir do aparelho de captura de áudio dependerá das preferências e requisitos específicos da modalidade individual. De fato, em algumas modalidades, a saída do aparelho de captura de áudio pode simplesmente consistir nos sinais de saída de áudio dos formadores de feixe 505, 509, 511.
[0177] Em muitas modalidades, o sinal de saída do processador de saída 515 é gerado como uma combinação dos
Petição 870190061332, de 01/07/2019, pág. 59/196
53/77 sinais de saida de áudio dos formadores de feixe 505, 509, 511. De fato, em algumas modalidades, uma combinação de seleção simples pode ser realizada, por exemplo, selecionando-se os sinais de saida de áudio para os quais a razão entre sinal e ruído, ou simplesmente o nível de sinal, é a mais alta.
[0178] Dessa forma, a seleção e o pósprocessamento de saída do processador de saída 515 podem ser específicos para a aplicação e/ou diferentes em diferentes implementações/modalidades. Por exemplo, todas as saídas possíveis de feixe focalizado podem ser fornecidas, uma seleção pode ser feita com base em um critério definido pelo usuário (por exemplo, o orador mais forte é selecionado), entre outros.
[0179] Para uma aplicação de controle por voz, por exemplo, todas as saídas podem ser transmitidas a um reconhecedor de ativação por voz que é disposto para detectar uma palavra ou frase específica para inicializar o controle por voz. Em tal exemplo, o sinal da saída de áudio no qual a palavra ou frase gatilho é detectada pode, após a frase de ativação, ser usado por um reconhecedor de voz para detectar comandos específicos.
[0180] Para aplicações de comunicação, pode ser vantajoso, por exemplo, selecionar o sinal de saída de áudio que é mais forte e, por exemplo, para o qual a presença de uma fonte de áudio pontual específica tenha sido encontrada.
[0181] Em algumas modalidades, o pósprocessamento, como a supressão de ruído da Figura 1, pode ser aplicado à saída do aparelho de captura de áudio (por exemplo, pelo processador de saída 515) . Isso pode melhorar o
Petição 870190061332, de 01/07/2019, pág. 60/196
54/77 desempenho para, por exemplo, comunicação por voz. Em tal pósprocessamento, operações não lineares podem ser incluídas embora, por exemplo, para alguns reconhecedores de fala, possa ser mais vantajoso limitar o processamento para incluir apenas processamento linear.
[0182] No sistema da Figura 5, uma abordagem particularmente vantajosa é tomada para capturar áudio com base na interação e na inter-relação sinérgicas entre o primeiro formador de feixes 505 e os formadores de feixe restritos 509, 511.
[0183] Para esse propósito, o aparelho de captura de áudio compreende um processador de diferença 517 que está disposto de modo a determinar uma medida de diferença entre um ou mais dos formadores de feixe restritos 509, 511 e o primeiro formador de feixes 505. A medida de diferença é indicativa de uma diferença entre os feixes formados respectivamente pelo primeiro formador de feixes 505 e o formador de feixes restrito 509, 511. Dessa forma, a medida de diferença para um primeiro formador de feixes restrito 509 pode indicar a diferença entre os feixes que são formados pelo primeiro formador de feixes 505 e pelo primeiro formador de feixes restrito 509. Dessa forma, a medida de diferença pode ser indicativa de quão próximos os dois formadores de feixe 505, 509 são adaptados à mesma fonte de áudio.
[0184] O processador de diferença 517 corresponde diretamente ao processador de diferença 309 da Figura 3, e a abordagem descrita em relação a este é diretamente aplicável ao processador de diferença 517 da Figura 5. Desse modo, o sistema da Figura 5 usa a abordagem descrita para determinar uma medida de diferença entre feixes do primeiro formador de
Petição 870190061332, de 01/07/2019, pág. 61/196
55/77 feixes 505 e um dos formadores de feixe restritos 509, 511, em resposta a uma comparação das respostas adaptativas a impulso dos filtros formadores de feixe do primeiro formador de feixes 505 com as respostas adaptativas a impulso dos filtros formadores de feixe do formador de feixes restrito 509, 511. Será reconhecido que, em muitas modalidades, uma medida de diferença pode ser determinada para cada formador de feixes restrito 509, 511.
[0185] Dessa forma, no sistema da Figura 5, uma medida de diferença é gerada para refletir uma diferença entre os parâmetros de formação de feixes do primeiro formador de feixes 505 e do primeiro formador de feixes constrito 509 e/ou uma diferença entre as saidas de áudio formadas em feixes dos mesmos.
[0186] Deve-se considerar que gerar, determinar e/ou usar uma medida de diferença é diretamente equivalente a gerar, determinar e/ou usar uma medida de similaridade. De fato, uma função pode tipicamente ser considerada monotonicamente decrescente da outra e, dessa forma, uma medida de diferença é também uma medida de similaridade (e vice-versa) com tipicamente uma simplesmente indicando diferenças crescentes por valores crescentes e a outra fazendo isso por valores decrescentes.
[0187] O processador de diferença 517 é acoplado ao segundo adaptador 513 e fornece a medida de diferença para o mesmo. 0 segundo adaptador 513 está disposto de modo a adaptar os formadores de feixe restritos 509, 511 em resposta à medida de diferença. Especificamente, o segundo adaptador 513 está disposto de modo a adaptar os parâmetros de formação restrita de feixes apenas para formadores de feixe restritos
Petição 870190061332, de 01/07/2019, pág. 62/196
56/77 para os quais foi determinada uma medida de diferença que satisfaz um critério de similaridade. Dessa forma, se nenhuma medida de diferença tiver sido determinada para um dado formador de feixes restrito 509, 511, ou se a medida de diferença determinada para o dado formador de feixes restrito 509, 511 indicar que os feixes do primeiro formador de feixes 505 e o dado formador de feixes restrito 509, 511 não são suficientemente similares, então nenhuma adaptação será feita.
[0188] Dessa forma, no aparelho de captura de áudio da Figura 5, os formadores de feixe restritos 509, 511 são restritos na adaptação dos feixes. Especificamente, eles são restringidos a apenas se adaptar se o feixe atual formado pelo formador de feixes restrito 509, 511 estiver próximo do feixe que o primeiro formador de feixes de execução livre 505 está formando, isto é, o formador de feixes restrito individual 509, 511 é adaptado apenas se o primeiro formador de feixes 505 estiver atualmente adaptado para ficar suficientemente próximo ao formador de feixes restrito individual 509, 511.
[0189] O resultado disso é que a adaptação dos formadores de feixe restritos 509, 511 é controlada pela operação do primeiro formador de feixes 505 de modo que efetivamente o feixe formado pelo primeiro formador de feixes 505 controla quais dentre os formadores de feixe restritos 509, 511 são otimizados/adaptados. Essa abordagem pode fazer especificamente com que os formadores de feixe restritos 509, 511 tendam a ser adaptados apenas quando uma fonte de áudio desejada estiver perto da atual adaptação do formador de feixes restrito 509, 511.
Petição 870190061332, de 01/07/2019, pág. 63/196
57/77 [0190] Na prática, observou-se que a abordagem de exigir similaridade entre os feixes para possibilitar uma adaptação resulta em um desempenho substancialmente otimizado quando a fonte de áudio desejada, o orador desejado no caso em questão, está fora do raio de reverberação. De fato, descobriu-se que isso fornece um desempenho altamente desejável para, em particular, fontes de áudio fracas em ambientes reverberantes com um componente de áudio de trajetória direta não dominante.
[0191] Em muitas modalidades, a restrição da adaptação pode estar sujeita a requisitos adicionais.
[0192] Por exemplo, em muitas modalidades, a adaptação pode ser uma exigência de que uma razão entre sinal e ruído para a saída de áudio formada em feixes exceda um limiar. Dessa forma, a adaptação para o formador de feixes restrito individual 509, 511 pode ser restrita a cenários nos quais isso é suficientemente adaptado, e o sinal com base no qual a adaptação é baseada reflete o sinal de áudio desejado.
[0193] Deve-se considerar que, em modalidades diferentes, poderão ser usadas abordagens diferentes para determinar a razão entre sinal e ruído. Por exemplo, o piso de ruído dos sinais de microfone pode ser determinado mediante o rastreamento do mínimo de uma estimativa de potência suavizada e, para cada período ou intervalo de tempo, a potência instantânea é comparada com esse mínimo. Como outro exemplo, o piso de ruído da saída do formador de feixes pode ser determinado e comparado com a potência de saída instantânea da saída formada em feixes.
Petição 870190061332, de 01/07/2019, pág. 64/196
58/77 [0194] Em algumas modalidades, a adaptação de um formador de feixes restrito 509, 511 é restrita a quando um componente de fala é detectado na saída do formador de feixes restrito 509, 511. Isso fornecerá desempenho aprimorado para aplicações de captura de voz. Deve-se considerar que qualquer abordagem ou algoritmo adequado para detectar fala em um sinal de áudio pode ser usado.
[0195] Deve-se considerar que os sistemas das Figuras 3 a 7 tipicamente operam com o uso de processamento de quadros ou blocos. Dessa forma, os intervalos de tempo ou os períodos consecutivos são definidos, e o processamento descrito pode ser realizado dentro de cada intervalo de tempo. Por exemplo, os sinais de microfone podem ser divididos em intervalos de tempo de processamento e, para cada intervalo de tempo de processamento, os formadores de feixe 505, 509, 511 podem gerar um sinal de saída de áudio formada em feixes para o intervalo de tempo, determinar uma medida de diferença, selecionar um formador de feixes restrito 509, 511 e atualizar/adaptar esse formador de feixes restrito 509, 511. Em muitas modalidades, os intervalos de tempo de processamento vantajosamente têm uma duração entre 5 ms e 50 ms.
[0196] Deve-se considerar que, em algumas modalidades, diferentes intervalos de tempo de processamento podem ser usados para diferentes aspectos e funções do aparelho de captura de áudio. Por exemplo, a medida de diferença e a seleção de um formador de feixes restrito 509, 511 para adaptação podem ser realizadas em uma frequência mais baixa do que, por exemplo, o intervalo de tempo de processamento para formação de feixes.
Petição 870190061332, de 01/07/2019, pág. 65/196
59/77 [0197] Em muitas modalidades, a adaptação pode ocorrer em dependência da detecção das fontes de áudio pontuais nas saídas de áudio formadas em feixes. Consequentemente, em muitas modalidades, o aparelho de captura de áudio pode compreender adicionalmente um detector de fonte de áudio 601, conforme ilustrado na Figura 6.
[0198] O detector de fonte de áudio 601 pode especificamente, em muitas modalidades, estar disposto de modo a detectar fontes de áudio pontuais nas segundas saídas de áudio formadas em feixes e, consequentemente, o detector de fonte de áudio 601 é acoplado aos formadores de feixe restritos 509, 511 e recebe as saídas de áudio formadas por feixe provenientes dos mesmos.
[0199] Uma fonte pontual de áudio na acústica é um som que se origina de um ponto no espaço. Será entendido que o detector de fonte de áudio 601 pode usar algoritmos ou critérios diferentes para estimar (detectar) se uma fonte de áudio pontual está presente na saída de áudio formada em feixes de um dado formador de feixes restrito 509, 511, e que o versado na técnica estará ciente de várias dessas abordagens.
[0200] Uma abordagem pode ser especificamente baseada na identificação de características de uma fonte pontual única ou dominante capturada pelos microfones da matriz de microfones 501. Uma fonte pontual única ou dominante pode, por exemplo, ser detectada olhando-se a correlação entre os sinais nos microfones. Se houver uma correlação alta, então considera-se que uma fonte pontual dominante esteja presente. Se a correlação for baixa, então considera-se que não há uma fonte pontual dominante, mas que os sinais capturados se
Petição 870190061332, de 01/07/2019, pág. 66/196
60/77 originam de muitas fontes não correlacionadas. Dessa forma, em muitas modalidades, uma fonte de áudio pontual pode ser considerada como sendo uma fonte de áudio espacialmente correlacionada, onde a correlação espacial é refletida pela correlação dos sinais de microfone.
[0201] No presente caso, a correlação é determinada após a filtragem pelos filtros formadores de feixe. Especificamente, pode ser determinada uma correlação da saída dos filtros formadores de feixe dos formadores de feixe restritos 509, 511 e, se isso exceder um dado limiar, uma fonte de áudio pontual pode ser considerada como tendo sido detectada.
[0202] Em outras modalidades, uma fonte pontual pode ser detectada mediante a avaliação do conteúdo das saídas de áudio formadas em feixes. Por exemplo, o detector de fonte de áudio 601 pode analisar as saídas de áudio formadas em feixes e, se um componente de fala com intensidade suficiente for detectado em uma saída de áudio formada em feixes, isso pode ser considerado como correspondendo a uma fonte de áudio pontual e, dessa forma, a detecção de um componente de voz forte pode ser considerada como sendo uma detecção de uma fonte de áudio pontual.
[0203] O resultado da detecção é passado do detector de fonte de áudio 601 para o segundo adaptador 513, que está disposto de modo a adaptar a adaptação em resposta a
isso. Especificamente, o segundo adaptador 513 pode estar
disposto de modo a adaptar apenas formadores de feixe
restritos 509, 511 para os quais o detector 601 indica que uma
fonte de áudio foi detectada.
Petição 870190061332, de 01/07/2019, pág. 67/196
61/77 [0204] Dessa forma, o aparelho de captura de áudio está disposto de modo a restringir a adaptação dos formadores de feixe restritos 509, 511, de modo que sejam adaptados apenas formadores de feixe restritos 509, 511, nos quais uma fonte de áudio pontual está presente no feixe formado, e o feixe formado está próximo daquele formado pelo primeiro formador de feixes 505. Dessa forma, a adaptação é tipicamente restrita aos formadores de feixe restritos 509, 511 que já estão próximos de uma fonte de áudio pontual (desejada). A abordagem possibilita uma formação de feixes muito robusta e precisa que tem um desempenho extraordinariamente bom em ambientes onde a fonte de áudio desejada pode estar fora de um raio de reverberação. Além disso, ao se operar e atualizar seletivamente uma pluralidade de formadores de feixe restritos 509, 511, essa robustez e exatidão podem ser suplementadas por um tempo de reação relativamente rápido que possibilita a rápida adaptação do sistema como um todo a fontes sonoras de movimento rápido ou de ocorrência recente.
[0205] Em muitas modalidades, o aparelho de captura de áudio pode estar disposto de modo a adaptar apenas um formador de feixes restrito 509, 511 de cada vez. Dessa forma, o segundo adaptador 513 pode, em cada intervalo de tempo de adaptação, selecionar um dos formadores de feixe restritos 509, 511 e adaptar apenas este mediante a atualização dos parâmetros de formação de feixes.
[0206] A seleção de um único formador de feixes restrito 509, 511 ocorrerá de modo tipicamente automático ao selecionar um formador de feixes restrito 509, 511 para adaptação apenas se o feixe atual formado estiver próximo
Petição 870190061332, de 01/07/2019, pág. 68/196
62/77 àquele formado pelo primeiro formador de feixes 505 e se uma fonte de áudio pontual é detectada no feixe.
[0207] Entretanto, em algumas modalidades, pode ser possível que uma pluralidade de formadores de feixe restritos 509, 511 satisfaça simultaneamente os critérios. Por exemplo, se uma fonte de áudio pontual é posicionada próxima às regiões cobertas por dois formadores de feixe restritos diferentes 509, 511 (ou, por exemplo, está em uma área de sobreposição das regiões) , a fonte de áudio pontual pode ser detectada em ambos os feixes e esses podem ser adaptados para estarem próximos uns dos outros por ambos serem adaptados em direção à fonte de áudio pontual.
[0208] Dessa forma, em tais modalidades, o segundo adaptador 513 pode selecionar um dos formadores de feixe restritos 509, 511 que satisfazem os dois critérios e adaptar apenas esse. Isso reduzirá o risco de que dois feixes sejam adaptados para a mesma fonte de áudio pontual e, dessa forma, reduzir o risco de as operações destes interferirem entre si.
[0209] De fato, adaptar os formadores de feixe restritos 509, 511 sob a restrição de que a medida de diferença correspondente precisa ser suficientemente baixa e selecionar apenas um único formador de feixes restrito 509, 511 para adaptação (por exemplo, em cada intervalo/quadro de tempo de processamento) resultará na adaptação sendo diferenciada entre os diferentes formadores de feixe restritos 509, 511. Isso tenderá a resultar na adaptação dos formadores de feixe restritos 509, 511 para cobrir diferentes regiões, com o formador de feixes restrito mais próximo 509, 511 sendo automaticamente selecionado para adaptar/seguir a
Petição 870190061332, de 01/07/2019, pág. 69/196
63/ΊΊ fonte de áudio detectada pelo primeiro formador de feixes 505. Entretanto, em contraste com, por exemplo, a abordagem da Figura 2, as regiões não são fixas e predeterminadas, mas são formadas dinâmica e automaticamente.
[0210] Deve-se observar também que as regiões podem ser dependentes da formação de feixes para uma pluralidade de trajetórias e não são tipicamente limitadas à direção angular das regiões de chegada. Por exemplo, as regiões podem ser diferenciadas com base na distância até a matriz de microfones. Dessa forma, o termo região pode ser considerado como referindo-se a posições no espaço em que uma fonte de áudio resultará na adaptação que satisfaz o requisito de similaridade para a medida de diferença. Isso inclui, portanto, a consideração não apenas da trajetória direta, mas também, por exemplo, das reflexões, se estas são consideradas nos parâmetros de formação de feixes e, em particular, são determinadas com base tanto no aspecto espacial como temporal (e especificamente dependem das respostas a impulso completas dos filtros formadores de feixe) .
[0211] A seleção de um único formador de feixes restrito 509, 511 pode ser especificamente em resposta a um nível de áudio capturado. Por exemplo, o detector de fonte de áudio 601 pode determinar o nível de áudio de cada uma das saídas de áudio formadas em feixes dos formadores de feixe restritos 509, 511 que satisfazem os critérios, e pode selecionar o formador de feixes restrito 509, 511 que resulta no nível mais alto. Em algumas modalidades, o detector de fonte de áudio 601 pode selecionar o formador de feixes restrito 509, 511 para o qual uma fonte de áudio pontual
Petição 870190061332, de 01/07/2019, pág. 70/196
GA/ΊΊ detectada na saida de áudio formada em feixes tem o valor mais alto. Por exemplo, o detector de fonte de áudio 601 pode detectar um componente de fala nas saldas de áudio formadas em feixes de dois formadores de feixe restritos 509, 511 e prosseguir para selecionar aquele que tem o nivel mais alto do componente de fala.
[0212] Na abordagem, uma adaptação muito seletiva dos formadores de feixe restritos 509, 511 é, dessa forma, realizada levando estes a se adaptarem apenas em circunstâncias especificas. Isso fornece uma formação de feixes muito robusta pelos formadores de feixe restritos 509, 511, resultando na captura aprimorada de uma fonte de áudio desejada. Entretanto, em muitos cenários, as restrições na formação de feixes podem também resultar em uma adaptabilidade mais lenta e, de fato, podem, em muitas situações, resultar em novas fontes de áudio (por exemplo, novos alto-falantes) que não são detectadas ou são apenas muito lentamente adaptadas.
[0213] A Figura 7 ilustra o aparelho de captura de áudio da Figura 6, mas com a adição de um controlador de formador de feixes 701 que é acoplado ao segundo adaptador 513 e ao detector de fonte de áudio 601. O controlador de formador de feixes 7 01 está disposto de modo a inicializar um formador de feixes restrito 509, 511 em certas situações. Especificamente, o controlador de formador de feixes 701 pode inicializar um formador de feixes restrito 509, 511 em resposta ao primeiro formador de feixes 505 e, especificamente, pode inicializar um dos formadores de feixe restritos 509, 511 para formar um feixe que corresponde àquele do primeiro formador de feixes 505.
Petição 870190061332, de 01/07/2019, pág. 71/196
65/77 [0214] O controlador de formador de feixes 701 define especificamente os parâmetros de formação de feixes de um dos formadores de feixe restritos 509, 511 em resposta aos parâmetros de formação de feixes do primeiro formador de feixes 505, doravante chamados de primeiros parâmetros de formação de feixe. Em algumas modalidades, os filtros dos formadores de feixe restritos 509, 511 e o primeiro formador de feixes 505 podem ser idênticos, por exemplo, podem ter a mesma arquitetura. Como um exemplo especifico, ambos os filtros dos formadores de feixe restritos 509, 511 e o primeiro formador de feixes 505 podem ser filtros FIR com o mesmo comprimento (isto é, um dado número de coeficientes), e os valores de coeficiente adaptados atuais dos filtros do primeiro formador de feixes 505 podem ser simplesmente copiados para o formador de feixes restrito 509, 511, isto é os coeficientes do formador de feixes restrito 509, 511 podem ser definidos como os valores do primeiro formador de feixes 505. Dessa maneira, o formador de feixes restrito 509, 511 será inicializado com as mesmas propriedades de feixe conforme atualmente adaptadas para o primeiro formador de feixes 505.
[0215] Em algumas modalidades, o ajuste dos filtros do formador de feixes restrito 509, 511 pode ser determinado a partir dos parâmetros de filtragem do primeiro formador de feixes 505, mas em vez de usar esses filtros diretamente, eles podem ser adaptados antes de serem aplicados. Por exemplo, em algumas modalidades, os coeficientes de filtros FIR podem ser modificados para inicializar o feixe do formador de feixes restrito 509, 511 para ser mais amplo do que o feixe do primeiro formador de
Petição 870190061332, de 01/07/2019, pág. 72/196
66/ΊΊ feixes 505 (mas, por exemplo, sendo formado na mesma direção).
[0216] O controlador de formador de feixes 701 pode, em muitas modalidades, consequentemente, em algumas circunstâncias, inicializar um dos formadores de feixe restritos 509, 511 com um feixe inicial que corresponde àquele do primeiro formador de feixes 505. O sistema pode, então, prosseguir para tratar o formador de feixes restrito 509, 511 conforme anteriormente descrito e, especificamente, pode prosseguir para adaptar o formador de feixes restrito 509, 511 quando o mesmo satisfaz os critérios anteriormente descritos.
[0217] Os critérios para inicializar um formador de feixes restrito 509, 511 podem ser diferentes em modalidades diferentes.
[0218] Em muitas modalidades, o controlador de formador de feixes 701 pode estar disposto de modo a inicializar um formador de feixes restrito 509, 511 se a presença de uma fonte de áudio pontual for detectada na primeira saida de áudio formada em feixes, mas não em quaisquer saldas de áudio restritas formadas em feixe.
[0219] Dessa forma, o detector de fonte de áudio 601 pode determinar se uma fonte de áudio pontual está presente em qualquer uma das saldas de áudio formadas em feixes dos formadores de feixe restritos 509, 511 ou do primeiro formador de feixes 505. Os resultados de detecção/estimativa para cada saida de áudio formada em feixes podem ser encaminhados para o controlador de formador de feixes 701 que pode avaliar isso. Se uma fonte de áudio pontual for detectada apenas para o primeiro formador de
Petição 870190061332, de 01/07/2019, pág. 73/196
67/77 feixes 505, mas não para qualquer um dos formadores de feixe restritos 509, 511, isso pode refletir uma situação em que uma fonte de áudio pontual, como um alto-falante, está presente e detectada pelo primeiro formador de feixes 505, mas nenhum dos formadores de feixe restritos 509, 511 detectou ou foi adaptado à fonte de áudio pontual. Nesse caso, os formadores de feixe restritos 509, 511 podem nunca (ou apenas muito lentamente) adaptar-se à fonte de áudio pontual. Portanto, um dos formadores de feixe restritos 509, 511 é inicializado para formar um feixe que corresponde à fonte de áudio pontual. Subsequentemente, é provável que esse feixe esteja suficientemente próximo à fonte de áudio pontual e ele irá (de maneira tipicamente lenta, mas confiável) se adaptar a essa nova fonte de áudio pontual.
[0220] Dessa forma, a abordagem pode combinar e fornecer efeitos vantajosos tanto do primeiro formador de feixes rápido 505 quanto dos formadores de feixe restritos confiáveis 509, 511.
[0221] Em algumas modalidades, o controlador de formador de feixes 701 pode estar disposto de modo a inicializar o formador de feixes restrito 509, 511 apenas se a medida de diferença para o formador de feixes restrito 509, 511 exceder o limiar. Especificamente, se a medida de diferença determinada mais baixa para os formadores de feixe restritos 509, 511 estiver abaixo do limiar, nenhuma inicialização é executada. Em tal situação, pode ser possível que a adaptação do formador de feixes restrito 509, 511 esteja mais próxima da situação desejada, enquanto a adaptação menos confiável do primeiro formador de feixes 505 é menos precisa e pode se adaptar para estar mais próxima do
Petição 870190061332, de 01/07/2019, pág. 74/196
68/77 primeiro formador de feixes 505. Dessa forma, em tais cenários em que a medida de diferença é suficientemente baixa, pode ser vantajoso permitir que o sistema tente se adaptar automaticamente.
[0222] Em algumas modalidades, o controlador de formador de feixes 701 pode especificamente estar disposto de modo a inicializar um formador de feixes restrito 509, 511 quando uma fonte de áudio pontual é detectada tanto para o primeiro formador de feixes 505 como para um dos formadores de feixe restritos 509, 511, mas a medida de diferença para estes não satisfaz um critério de similaridade. Especificamente, o controlador de formador de feixes 701 pode estar disposto de modo a definir parâmetros de formação de feixes para um primeiro formador de feixes restrito 509, 511 em resposta aos parâmetros de formação de feixes do primeiro formador de feixes 505 se uma fonte de áudio pontual for detectada tanto na saida de áudio formada em feixes do primeiro formador de feixes 505 quanto na saída de áudio formada em feixes do formador de feixes restrito 509, 511, e a medida de diferença desses excede um limiar.
[0223] Tal cenário pode refletir uma situação em que o formador de feixes restrito 509, 511 pode possivelmente ter se adaptado e capturado uma fonte de áudio pontual que, entretanto, é diferente da fonte de áudio pontual capturada pelo primeiro formador de feixes 505. Dessa forma, pode especificamente refletir que um formador de feixes restrito 509, 511 pode ter capturado a fonte de áudio pontual errada. Consequentemente, o formador de feixes restrito 509, 511 pode ser reinicializado para formar um feixe em direção à fonte de áudio pontual desejada.
Petição 870190061332, de 01/07/2019, pág. 75/196
6°>/ΊΊ [0224] Em algumas modalidades, o número de formadores de feixe restritos 509, 511 que são ativos pode ser variado. Por exemplo, o aparelho de captura de áudio pode compreender funcionalidade para formar um número potencialmente relativamente alto de formadores de feixe restritos 509, 511. Por exemplo, pode implementar até, por exemplo, oito formadores de feixe restritos simultâneos 509, 511. Entretanto, a fim de reduzir, por exemplo, o consumo de energia e a carga computacional, nem todos estes podem estar ativos ao mesmo tempo.
[0225] Dessa forma, em algumas modalidades, um conjunto ativo de formadores de feixe restritos 509, 511 é selecionado dentre um grupo maior de formadores de feixe. Isso pode ser feito especificamente quando um formador de feixes restrito 509, 511 é inicializado. Dessa forma, nos exemplos fornecidos acima, a inicialização de um formador de feixes restrito 509, 511 (por exemplo, se nenhuma fonte de áudio pontual for detectada em qualquer formador de feixes restrito ativo 509, 511) pode ser obtida inicializando-se um formador de feixes não restrito ativo 509, 511 do grupo, aumentando assim o número de formadores de feixe restritos ativos 509, 511.
[0226] Se todos os formadores de feixe restritos 509, 511 no grupo estiverem atualmente ativos, a inicialização de um formador de feixes restrito 509, 511 pode ser feita inicializando-se um formador de feixes restrito atualmente ativo 509, 511. O formador de feixes restrito 509, 511 a ser inicializado pode ser selecionado de acordo com qualquer critério adequado. Por exemplo, os formadores de feixe restritos 509, 511 que têm a maior
Petição 870190061332, de 01/07/2019, pág. 76/196
70/77 medida de diferença ou o nível de sinal mais baixo podem ser selecionados.
[0227] Em algumas modalidades, um formador de feixes restrito 509, 511 pode ser desativado em resposta ao atendimento de um critério adequado. Por exemplo, os formadores de feixe restritos 509, 511 podem ser desativados se a medida de diferença aumentar acima de um dado limiar.
[0228] Uma abordagem específica para controlar a adaptação e o ajuste dos formadores de feixe restritos 509, 511 de acordo com muitos dos exemplos descritos acima é ilustrada pelo fluxograma da Figura 8.
[0229] O método começa na etapa 801 mediante a inicialização do próximo intervalo de tempo de processamento (por exemplo, espera do início do próximo intervalo de tempo de processamento, coleta de um conjunto de amostras para o intervalo de tempo de processamento, etc).
[0230] A etapa 801 é seguida pela etapa 803 em que é determinado se há uma fonte de áudio pontual detectada em qualquer um dos feixes dos formadores de feixe restritos 509, 511.
[0231] Em caso positivo, o método continua na etapa 805 em que é determinado se a medida de diferença satisfaz um critério de similaridade e, especificamente, se a medida de diferença está abaixo de um limiar.
[0232] Em caso positivo, o método continua na etapa 807 em que o formador de feixes restrito 509, 511 no qual a fonte de áudio pontual foi detectada (ou que tem o maior nível de sinal no caso de uma fonte de áudio pontual ser detectada em mais de um formador de feixes restrito 509,
Petição 870190061332, de 01/07/2019, pág. 77/196
71/77
511) é adaptado, isto é, os parâmetros de (filtro) formador de feixes são atualizados.
[0233] Caso contrário, o método continua na etapa 809, em que um formador de feixes restrito 509, 511 é inicializado, os parâmetros de formação de feixes de um formador de feixes restrito 509, 511 são ajustados dependendo dos parâmetros de formação de feixe do primeiro formador de feixes 505. O formador de feixes restrito 509, 511 sendo inicializado pode ser um novo formador de feixes restrito 509, 511 (isto é, um formador de feixes proveniente do grupo de formadores de feixe inativos) ou pode ser um formador de feixes restrito já ativo 509, 511, para o qual são fornecidos novos parâmetros de formação de feixes.
[0234] Seguindo qualquer das etapas 807 e 809, o método retorna à etapa 801 e aguarda o próximo intervalo de tempo de processamento.
[0235] Se na etapa 803 for detectado que nenhuma fonte de áudio pontual é detectada na saida de áudio formada em feixes de qualquer um dos formadores de feixe restritos 509, 511, o método prossegue para a etapa 811 na qual é determinado se uma fonte de áudio pontual é detectada no primeiro formador de feixes 505, isto é, se o cenário atual corresponde a uma fonte de áudio pontual sendo capturada pelo primeiro formador de feixes 505, mas por nenhum formador de feixes restrito 509, 511.
[0236] Caso contrário, nenhuma fonte de áudio pontual foi detectada, e o método retorna à etapa 801 para aguardar o próximo intervalo de tempo de processamento.
[0237] De outro modo, o método prossegue para a etapa 813 em que é determinado se a medida de diferença
Petição 870190061332, de 01/07/2019, pág. 78/196
72/77 satisfaz um critério de similaridade e, especificamente, se a medida de diferença está abaixo de um limiar (que pode ser igual ou pode ser um limiar/critério diferente daquele usado na etapa 805).
[0238] Em caso positivo, o método prossegue para a etapa 815 em que o formador de feixes restrito 509, 511 para o qual a medida de diferença está abaixo do limiar é adaptado (ou se mais de um formador de feixes restrito 509, 511 satisfaz o critério, aquele com, por exemplo, a medida de diferença mais baixa pode ser selecionado).
[0239] Caso contrário, o método prossegue para a etapa 817 em que um formador de feixes restrito 509, 511 é inicializado, os parâmetros de formação de feixes de um formador de feixes restrito 509, 511 são ajustados dependendo dos parâmetros de formação de feixes do primeiro formador de feixes 505. O formador de feixes restrito 509, 511 sendo inicializado pode ser um novo formador de feixes restrito 509, 511 (isto é, um formador de feixes proveniente do grupo de formadores de feixe inativos) ou pode ser um formador de feixes restrito já ativo 509, 511, para o qual são fornecidos novos parâmetros de formação de feixes.
[0240] Seguindo qualquer das etapas 815 e 817, o método retorna à etapa 801 e aguarda o próximo intervalo de tempo de processamento.
[0241] A abordagem descrita do aparelho de captura de áudio das Figuras 5 a 7 pode proporcionar um desempenho vantajoso em muitos cenários e, em particular, pode tender a permitir que o aparelho de captura de áudio forme dinamicamente feixes focalizados, robustos e precisos para capturar fontes de áudio. Os feixes tenderão a ser
Petição 870190061332, de 01/07/2019, pág. 79/196
73/77 adaptados para cobrir regiões diferentes e a abordagem pode, por exemplo, selecionar e adaptar automaticamente o formador de feixes restrito mais próximo 509, 511.
[0242] Dessa forma, em contraste com a abordagem, por exemplo, da Figura 2, nenhuma restrição especifica nas direções do feixe ou nos coeficientes do filtro precisa ser diretamente imposta. Ao invés disso, regiões separadas podem ser automaticamente geradas/formadas deixando que os formadores de feixe restritos 509, 511 somente se adaptem (condicionalmente) quando houver uma única fonte de áudio dominante, e quando ela estiver suficientemente próxima do feixe do formador de feixes restrito 509, 511. Isso pode ser especificamente determinado considerando-se os coeficientes de filtro que levam em conta tanto o campo direto como as (primeiras) reflexões.
[0243] Deve-se notar que o uso de filtros com uma resposta estendida a impulso (em oposição ao uso de filtros de atraso simples, isto é, filtros de coeficiente único) também leva em consideração que as reflexões chegam algum tempo (especifico) após o campo direto. Consequentemente, um feixe não é determinado apenas por características espaciais (a partir de quais direções o campo direto e as reflexões chegam), mas também é determinado por características temporais (em que momentos após o campo direto fazer as reflexões chegarem) . Dessa forma, as referências aos feixes não são meramente restritas a considerações espaciais, mas também refletem o componente temporal dos filtros formadores de feixe. De modo similar, as referências a regiões incluem tanto os efeitos puramente espaciais como os efeitos temporais dos filtros formadores de feixe.
Petição 870190061332, de 01/07/2019, pág. 80/196
Ί Α/ΊΊ [0244] Dessa forma, a abordagem pode ser considerada como formando regiões que são determinadas pela diferença na medida de distância entre o feixe de execução livre do primeiro formador de feixes 505 e o feixe do formador de feixes restrito 509, 511. Por exemplo, suponhamos que um formador de feixes restrito 509, 511 tenha um feixe focalizado em uma fonte (com características espaciais e temporais) . Suponhamos que a fonte esteja silenciosa e uma nova fonte se torne ativa com o primeiro formador de feixes 505 se adaptando para focalizar na mesma. Então, cada fonte com características espaço-temporais de modo que a distância entre o feixe do primeiro formador de feixes 505 e o feixe do formador de feixes restrito 509, 511 não exceda um limiar pode ser considerada como estando na região do formador de feixes restrito 509, 511. Dessa forma, a restrição no primeiro formador de feixes restrito 509 pode ser considerada como uma restrição no espaço.
[0245] O critério de distância para adaptação de um formador de feixes restrito, juntamente com a abordagem de inicializar os feixes (por exemplo, copiando os coeficientes do filtro formador de feixe) tipicamente permite que os formadores de feixe restritos 509, 511 formem feixes em diferentes regiões.
[0246] A abordagem tipicamente resulta na formação automática de regiões que refletem a presença de fontes de áudio no ambiente, ao invés de um sistema fixo predeterminado, como aquele da Figura 2. Essa abordagem flexível permite que o sistema seja baseado em características espaço-temporais, como aquelas causadas por reflexões, que seriam muito difíceis e complexas de incluir
Petição 870190061332, de 01/07/2019, pág. 81/196
75/77 para um sistema predeterminado e fixo (uma vez que essas caracteristicas dependem de muitos parâmetros como o tamanho, formato e caracteristicas de reverberação do cômodo, etc.).
[0247] Deve-se considerar que, para fins de clareza, a descrição acima descreveu as modalidades da invenção com referência a diferentes circuitos, unidades e processadores funcionais. Entretanto, ficará evidente que
qualquer distribuição adequada de funcionalidade entre os
diferentes circuitos, unidades ou processadores funcionais
pode ser usada sem se desviar da invenção. Por exemplo, a
funcionalidade ilustrada a ser executada por processadores ou controladores separados pode ser executada pelo mesmo processador ou pelos mesmos controladores. Por isso, as referências a unidades ou circuitos funcionais específicos devem ser consideradas apenas como referências a meios adequados para fornecer a funcionalidade descrita e não como indicativas de uma estrutura física ou uma organização lógica ou física estrita.
[0248] A invenção pode ser implementada em qualquer forma adequada, incluindo hardware, software, firmware ou qualquer combinação dos mesmos. A invenção pode ser, opcionalmente, implementada, ao menos parcialmente, como software de computador que é executado em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma modalidade da invenção podem ser implementados física, funcional e logicamente de qualquer forma adequada. De fato, a funcionalidade pode ser implementada em uma unidade única, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Assim, a invenção pode ser implementada em uma unidade única ou pode
Petição 870190061332, de 01/07/2019, pág. 82/196
76/77 ser distribuída física e funcionalmente entre diferentes unidades, circuitos e processadores.
[0249] Embora a presente invenção tenha sido descrita em conexão com algumas modalidades, a mesma não está destinada a ser limitada à forma específica aqui apresentada. Em vez disso, o escopo da presente invenção é limitado apenas pelas reivindicações em anexo. Adicionalmente, embora possa parecer que um recurso é descrito em conexão com modalidades específicas, o elemento versado na técnica reconhecerá que vários recursos das modalidades descritas podem ser combinados de acordo com a invenção. Nas reivindicações, o termo que compreende não exclui a presença de outros elementos ou outras etapas.
[0250] Além disso, embora individualmente mencionados, uma pluralidade de meios, elementos, circuitos ou etapas de métodos podem ser implementados, por exemplo por meio de um único circuito, uma única unidade ou um único processador. Adicionalmente, embora recursos individuais possam estar incluídos em reivindicações diferentes, eles podem ser vantajosamente combinados, e sua inclusão em reivindicações diferentes não implica que uma combinação de recursos não seja viável e/ou vantajosa. Além disso, a inclusão de um recurso em uma categoria de reivindicações não implica uma limitação a essa categoria, porém, em vez disso, indica que o recurso é igualmente aplicável a outras categorias das reivindicações, conforme for adequado. Além disso, a ordem dos recursos nas reivindicações não implica em nenhuma ordem específica na qual os recursos precisam ser trabalhados e, em particular, a ordem das etapas individuais em uma reivindicação de método não implica que as etapas
Petição 870190061332, de 01/07/2019, pág. 83/196
77/77 precisam ser executadas nessa ordem. As etapas podem, na verdade, ser executadas em qualquer ordem adequada. Além disso, referências no singular não excluem uma pluralidade. Dessa forma, as referências a um(a), uns/umas, primeiro(a), segundo(a) etc., não excluem uma pluralidade. Os sinais de referência nas reivindicações são fornecidos meramente como exemplos esclarecedores e não devem ser interpretados como limitadores do escopo das reivindicações de forma alguma.

Claims (15)

  1. REIVINDICAÇÕES
    1. APARELHO DE CAPTURA DE ÁUDIO FORMADOR DE FEIXES, caracterizado por compreender:
    uma matriz de microfones (301) ;
    um primeiro formador de feixes (303) acoplado à matriz de microfones (301) e disposto de modo a gerar uma primeira saida de áudio formada em feixes, sendo que o primeiro formador de feixes é um formador de feixes por filtragem e combinação compreendendo uma primeira pluralidade de filtros formadores de feixe, cada um dos quais tendo uma primeira resposta adaptativa a impulso;
    um segundo formador de feixes (305) acoplado à matriz de microfones (301) e disposto de modo a gerar uma segunda saida de áudio formada em feixes, sendo que o segundo formador de feixes é um formador de feixes por filtragem e combinação compreendendo uma segunda pluralidade de filtros formadores de feixe, cada um dos quais tendo uma segunda resposta adaptativa a impulso; e um processador de diferença (309) para determinar a medida de diferença entre os feixes do primeiro formador de feixes (303) e do segundo formador de feixes (305), em resposta a uma comparação entre as primeiras respostas adaptativas a impulso e as segundas respostas adaptativas a impulso.
  2. 2. APARELHO, de acordo com a reivindicação 1, caracterizado pelo processador de diferença (309) estar disposto de modo que cada microfone da matriz de microfones (301) determine uma correlação entre a primeira e a segunda respostas adaptativas a impulso para o microfone, e para determinar a medida de diferença em resposta a uma
    Petição 870190061332, de 01/07/2019, pág. 85/196
    2/7 combinação de correlações para cada microfone da matriz de microfones (301) .
  3. 3. APARELHO, de acordo com a reivindicação 1, caracterizado pelo processador de diferença (309) estar disposto de modo a determinar representações de domínio da frequência das primeiras respostas adaptativas a impulso e das segundas respostas adaptativas a impulso; e para determinar a medida de diferença em resposta às representações de domínio da frequência das primeiras respostas adaptativas a impulso e das segundas respostas adaptativas a impulso.
  4. 4. APARELHO, de acordo com a reivindicação 3, caracterizado pelo processador de diferença (309) estar disposto de modo a determinar medidas de diferença de frequência para frequências das representações de domínio da frequência; e para determinar a medida de diferença em resposta às medidas de diferença de frequência para as frequências das representações de domínio da frequência; sendo que o processador de diferença (309) está disposto de modo a determinar uma medida de diferença de frequência para uma primeira frequência e um primeiro microfone da matriz de microfones (301), em resposta a um primeiro coeficiente de domínio da frequência e a um segundo coeficiente de domínio da frequência, sendo que o primeiro coeficiente de domínio da frequência é um coeficiente de domínio da frequência para a primeira frequência para a primeira resposta adaptativa a impulso para o primeiro microfone, e sendo que o segundo coeficiente de domínio da frequência é um coeficiente de domínio da frequência para a primeira frequência para a segunda resposta adaptativa a impulso para o primeiro
    Petição 870190061332, de 01/07/2019, pág. 86/196
    3/Ί microfone; e o processador de diferença (309) está adicionalmente disposto de modo a determinar a medida de diferença de frequência para a primeira frequência, em resposta a uma combinação de medidas de diferença de frequência para uma pluralidade de microfones da matriz de microfones (301).
  5. 5. APARELHO, de acordo com a reivindicação 4, caracterizado pelo processador de diferença (309) estar disposto de modo a determinar a medida de diferença de frequência para a primeira frequência e para o primeiro microfone, em resposta a uma multiplicação do primeiro coeficiente de domínio da frequência e de um conjugado do segundo coeficiente de domínio da frequência.
  6. 6. APARELHO, de acordo com a reivindicação 5, caracterizado pelo processador de diferença (309) estar disposto de modo a determinar a medida de diferença de frequência para a primeira frequência, em resposta a uma parte real da combinação de medidas de diferença de frequência para a primeira frequência para a pluralidade de microfones da matriz de microfones (301) .
  7. 7. APARELHO, de acordo com a reivindicação 5, caracterizado pelo processador de diferença (309) estar disposto de modo a determinar a medida de diferença de frequência para a primeira frequência, em resposta a uma norma da combinação de medidas de diferença de frequência para a primeira frequência para a pluralidade de microfones da matriz de microfones (301).
  8. 8. APARELHO, de acordo com qualquer uma das reivindicações 6 ou 7, caracterizado pelo processador de diferença (309) estar disposto de modo a determinar a medida
    Petição 870190061332, de 01/07/2019, pág. 87/196
    0./Ί de diferença de frequência para a primeira frequência em resposta a pelo menos uma dentre uma parte real e uma norma da combinação de medidas de diferença de frequência para a primeira frequência para a pluralidade de microfones da matriz de microfones (301), em relação a uma soma de uma função de uma norma L2 para uma soma dos primeiros coeficientes de domínio da frequência e de uma função de uma norma L2 para uma soma dos segundos coeficientes de domínio da frequência para a pluralidade de microfones da matriz de microfones (301).
  9. 9. APARELHO, de acordo com qualquer uma das reivindicações 6 ou 7, caracterizado pelo processador de diferença (309) estar disposto de modo a determinar a medida de diferença de frequência para a primeira frequência, em resposta a uma norma da combinação de medidas de diferença de frequência para a primeira frequência para a pluralidade de microfones da matriz de microfones (301), em relação a um produto de uma função de uma norma L2 para uma soma dos primeiros coeficientes de domínio da frequência e de uma função de uma norma L2 para uma soma dos segundos coeficientes do domínio da frequência para a pluralidade de microfones da matriz de microfones (301) .
  10. 10. APARELHO, de acordo com qualquer uma das reivindicações 4 a 9, caracterizado pelo processador de diferença (309) estar disposto de modo a determinar a medida de diferença como uma soma ponderada seletiva em frequência das medidas de diferença de frequência.
  11. 11. APARELHO, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado pela primeira pluralidade de filtros formadores de feixe e a segunda
    Petição 870190061332, de 01/07/2019, pág. 88/196
    5/7 pluralidade de filtros formadores de feixe serem filtros de resposta finita a impulso tendo uma pluralidade de coeficientes.
  12. 12. APARELHO, de acordo com qualquer uma das reivindicações 1 a 11, caracterizado por compreender adicionalmente:
    uma pluralidade de formadores de feixe restritos (309, 311) acoplados à matriz de microfones (301), e cada um disposto de modo a gerar uma saída de áudio restrita formada em feixes, sendo que cada formador de feixes restrito dentre a pluralidade de formadores de feixe restritos (309, 311) está restrito a formar feixes em uma região diferente das regiões de outros formadores de feixe restritos dentre a pluralidade de formadores de feixe restritos (309, 311), sendo que o segundo formador de feixes é um formador de feixes restrito dentre a pluralidade de formadores de feixe
    restritos (309 , 311); um primeiro adaptador (307) para adaptar os parâmetros de formação de feixes do primeiro formador de feixes (305); um segundo adaptador (313) para adaptar os parâmetros de formação restrita de feixes para a pluralidade de formadores de feixe restritos (3 09, 311 ) ; sendo que o segundo adaptador ( 313) está disposto
    de modo a adaptar parâmetros de formação restrita de feixes apenas para formadores de feixe restritos dentre a pluralidade de formadores de feixe restritos (309, 311) para os quais tenha sido determinada uma medida de diferença que satisfaz um critério de similaridade.
    Petição 870190061332, de 01/07/2019, pág. 89/196
    6/1
  13. 13. APARELHO, de acordo com a reivindicação 12, caracterizado por compreender adicionalmente um detector de fonte de áudio () para detectar fontes de áudio pontuais nas segundas saídas de áudio formadas em feixes; e sendo que o segundo adaptador (313) está disposto de modo a adaptar os parâmetros de formação restrita de feixes apenas para formadores de feixe restritos para os quais é detectada uma presença de uma fonte de áudio pontual na saída de áudio restrita formada em feixes.
  14. 14. MÉTODO DE OPERAÇÃO PARA UM APARELHO DE CAPTURA DE ÁUDIO FORMADOR DE FEIXES, que compreende:
    uma matriz de microfones (301);
    um primeiro formador de feixes (303) acoplado à matriz de microfones (301), sendo que o primeiro formador de feixes (303) é um formador de feixes por filtragem e combinação compreendendo uma primeira pluralidade de filtros formadores de feixe, cada um dos quais tendo uma primeira resposta adaptativa a impulso;
    um segundo formador de feixes (305) acoplado à matriz de microfones (301), sendo que o segundo formador de feixes (305) é um formador de feixes por filtragem e combinação compreendendo uma segunda pluralidade de filtros formadores de feixe, cada um dos quais tendo uma resposta
    adaptativa a impulso ; sendo o método caracterizado por compreender: gerar, pelo primeiro formador de feixes (303), uma primeira saída de áudio ) formada em feixes; gerar, pelo segundo formador de feixes (305), uma segunda saída de áudio formada em feixes; e
    Petição 870190061332, de 01/07/2019, pág. 90/196
    7/7 determinar a medida de diferença entre os feixes do primeiro formador de feixes (303) e do segundo formador de feixes (305), em resposta a uma comparação entre as primeiras respostas adaptativas a impulso e as segundas respostas adaptativas a impulso.
  15. 15. PRODUTO DE PROGRAMA DE COMPUTADOR, caracterizado por compreender meios de código de programa de computador adaptados para executar todas as etapas conforme definidas na reivindicação 14, quando o dito programa é executado em um computador.
BR112019013666A 2017-01-03 2017-12-20 aparelho de captura de áudio formador de feixes, método de operação para um aparelho de captura de áudio formador de feixes, e produto de programa de computador BR112019013666A2 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17150091 2017-01-03
PCT/EP2017/083680 WO2018127412A1 (en) 2017-01-03 2017-12-20 Audio capture using beamforming

Publications (1)

Publication Number Publication Date
BR112019013666A2 true BR112019013666A2 (pt) 2020-01-14

Family

ID=57755188

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112019013666A BR112019013666A2 (pt) 2017-01-03 2017-12-20 aparelho de captura de áudio formador de feixes, método de operação para um aparelho de captura de áudio formador de feixes, e produto de programa de computador

Country Status (7)

Country Link
US (1) US10638224B2 (pt)
EP (1) EP3566463B1 (pt)
JP (1) JP6644959B1 (pt)
CN (1) CN110249637B (pt)
BR (1) BR112019013666A2 (pt)
RU (1) RU2759715C2 (pt)
WO (1) WO2018127412A1 (pt)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6665353B2 (ja) 2017-01-03 2020-03-13 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ビームフォーミングを使用するオーディオキャプチャ
CN106782585B (zh) * 2017-01-26 2020-03-20 芋头科技(杭州)有限公司 一种基于麦克风阵列的拾音方法及系统
CN108932949A (zh) * 2018-09-05 2018-12-04 科大讯飞股份有限公司 一种参考信号获取方法及装置
AU2020316738B2 (en) * 2019-07-21 2023-06-22 Nuance Hearing Ltd. Speech-tracking listening device
US11232796B2 (en) * 2019-10-14 2022-01-25 Meta Platforms, Inc. Voice activity detection using audio and visual analysis
US11533559B2 (en) * 2019-11-14 2022-12-20 Cirrus Logic, Inc. Beamformer enhanced direction of arrival estimation in a reverberant environment with directional noise
CN111640428B (zh) * 2020-05-29 2023-10-20 阿波罗智联(北京)科技有限公司 一种语音识别方法、装置、设备和介质
CN115086836B (zh) * 2022-06-14 2023-04-18 西北工业大学 一种波束形成方法、系统及波束形成器
CN114822579B (zh) * 2022-06-28 2022-09-16 天津大学 一种基于一阶差分麦克风阵列的信号估计方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146012B1 (en) 1997-11-22 2006-12-05 Koninklijke Philips Electronics N.V. Audio processing arrangement with multiple sources
JP4163294B2 (ja) * 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
JP4467802B2 (ja) 1998-11-11 2010-05-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改善された信号定位装置
JP4689269B2 (ja) 2002-07-01 2011-05-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 静的スペクトルパワー依存型音響強調システム
EP1858291B1 (en) * 2006-05-16 2011-10-05 Phonak AG Hearing system and method for deriving information on an acoustic scene
EP1983799B1 (en) * 2007-04-17 2010-07-07 Harman Becker Automotive Systems GmbH Acoustic localization of a speaker
US8812309B2 (en) * 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
JP5305743B2 (ja) * 2008-06-02 2013-10-02 株式会社東芝 音響処理装置及びその方法
WO2009156906A1 (en) * 2008-06-25 2009-12-30 Koninklijke Philips Electronics N.V. Audio processing
CN102474680B (zh) * 2009-07-24 2015-08-19 皇家飞利浦电子股份有限公司 音频波束形成
US8988970B2 (en) * 2010-03-12 2015-03-24 University Of Maryland Method and system for dereverberation of signals propagating in reverberative environments
DK2439958T3 (da) * 2010-10-06 2013-08-12 Oticon As Fremgangsmåde til bestemmelse af parametre i en adaptiv lydbehandlings-algoritme og et lydbehandlingssystem
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
US9736604B2 (en) * 2012-05-11 2017-08-15 Qualcomm Incorporated Audio user interaction recognition and context refinement
JP6266648B2 (ja) * 2012-12-17 2018-01-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 邪魔にならない音声分析を使用して情報を生成する睡眠時無呼吸診断システム及び当該システムの作動方法
WO2014101156A1 (en) * 2012-12-31 2014-07-03 Spreadtrum Communications (Shanghai) Co., Ltd. Adaptive audio capturing
CN104464739B (zh) * 2013-09-18 2017-08-11 华为技术有限公司 音频信号处理方法及装置、差分波束形成方法及装置
JP5648760B1 (ja) * 2014-03-07 2015-01-07 沖電気工業株式会社 収音装置及びプログラム
TR201815883T4 (tr) * 2014-03-17 2018-11-21 Anheuser Busch Inbev Sa Gürültü bastırılması.
US20150379990A1 (en) 2014-06-30 2015-12-31 Rajeev Conrad Nongpiur Detection and enhancement of multiple speech sources
US10061009B1 (en) * 2014-09-30 2018-08-28 Apple Inc. Robust confidence measure for beamformed acoustic beacon for device tracking and localization
CN104407328B (zh) * 2014-11-20 2017-03-01 西北工业大学 基于空间脉冲响应匹配的封闭空间声源定位方法及系统

Also Published As

Publication number Publication date
US10638224B2 (en) 2020-04-28
US20190349678A1 (en) 2019-11-14
JP2020515106A (ja) 2020-05-21
RU2019124543A3 (pt) 2021-04-22
WO2018127412A1 (en) 2018-07-12
CN110249637B (zh) 2021-08-17
JP6644959B1 (ja) 2020-02-12
EP3566463B1 (en) 2020-12-02
RU2759715C2 (ru) 2021-11-17
CN110249637A (zh) 2019-09-17
EP3566463A1 (en) 2019-11-13
RU2019124543A (ru) 2021-02-05

Similar Documents

Publication Publication Date Title
BR112019013666A2 (pt) aparelho de captura de áudio formador de feixes, método de operação para um aparelho de captura de áudio formador de feixes, e produto de programa de computador
BR112019013555A2 (pt) Aparelho para captura de áudio, método de captura de áudio e produto de programa de computador
BR112019013548A2 (pt) Aparelho de captura de áudio, método de operação para capturar áudio, e produto de programa de computador
EP2647221B1 (en) Apparatus and method for spatially selective sound acquisition by acoustic triangulation
US10979100B2 (en) Audio signal processing with acoustic echo cancellation
WO2016114988A2 (en) Reverberation suppression using multiple beamformers
Peterson et al. Hybrid algorithm for robust, real-time source localization in reverberant environments
US11039242B2 (en) Audio capture using beamforming
Pfeifenberger et al. A multi-channel postfilter based on the diffuse noise sound field
Himawan et al. Dealing with uncertainty in microphone placement in a microphone array speech recognition system
Wang et al. A robust generalized sidelobe canceller controlled by a priori sir estimate
Braun et al. Directional interference suppression using a spatial relative transfer function feature
Milano et al. Sector-Based Interference Cancellation for Robust Keyword Spotting Applications Using an Informed MPDR Beamformer
BASAVA Microphone Array Wiener Beamforming with modeling of SRP-PHAT for Speaker Localization
Marquardt et al. Deliverable 3.1 Multi-channel Acoustic Echo Cancellation, Acoustic Source Localization, and Beamforming Algorithms for Distant-Talking ASR and Surveillance

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]
B06W Patent application suspended after preliminary examination (for patents with searches from other patent authorities) chapter 6.23 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: H04R 3/00 , G10L 21/0216

Ipc: H04R 3/00 (2006.01)

B11B Dismissal acc. art. 36, par 1 of ipl - no reply within 90 days to fullfil the necessary requirements