BR112019013555A2

BR112019013555A2 - Aparelho para captura de áudio, método de captura de áudio e produto de programa de computador

Info

Publication number: BR112019013555A2
Application number: BR112019013555-3A
Authority: BR
Inventors: Pieter Janse Cornelis; Brand Antonius Johannes Bloememdal Brian; Kechichian Patrick; Jozef Martinus Janssen Rik
Original assignee: Koninklijke Philips N.V.
Priority date: 2017-01-03
Filing date: 2017-12-28
Publication date: 2020-01-07
Also published as: EP3566461B1; RU2019124546A; WO2018127447A1; JP7041156B2; JP2020503780A; JP7041156B6; US10771894B2; CN110140360A; EP3566461A1; US20200145752A1; CN110140360B; RU2019124546A3; RU2760097C2

Abstract

trata-se de um aparelho para capturar áudio, compreendendo um primeiro formador de feixes (305) acoplado a uma matriz de microfones (301) e disposto de modo a gerar uma primeira saída de áudio formada em feixes. cada um dentre uma pluralidade de formadores de feixe restritos (309, 311) gera uma saída de áudio restrita formada em feixes. um primeiro adaptador (307) adapta os parâmetros de formação de feixes do primeiro formador de feixes (305) e um segundo adaptador (313) adapta os parâmetros de formação restrita de feixes para a pluralidade de formadores de feixe restritos (309, 311). um processador de diferença (317) determina uma medição de diferença para os formadores de feixe restritos (309, 311) onde a medição de diferença é indicativa da diferença entre feixes formados pelo primeiro formador de feixes (305) e pelos formadores de feixe restritos (309, 311). o segundo adaptador (313) está disposto de modo a adaptar parâmetros de formação restrita de feixes com uma restrição de que os parâmetros de formação restrita de feixes sejam adaptados apenas para formadores de feixe restritos dentre a pluralidade de formadores de feixe restritos (309, 311) para os quais tenha sido determinada uma medida de diferença que satisfaz um critério de similaridade.

Description

APARELHO PARA CAPTURA DE ÁUDIO, MÉTODO DE CAPTURA DE ÁUDIO E PRODUTO DE PROGRAMA DE COMPUTADOR

Campo da invenção [001] A invenção refere-se à captura de áudio com o uso de formação de feixes e, em particular, mas não exclusivamente, à captura de fala com o uso de formação de feixes.

Antecedentes da invenção [002] A captura de áudio e, em particular, de fala, tem se tornado cada vez mais importante nas últimas décadas. De fato, a captura de fala tem se tornado cada vez mais importante para várias aplicações, inclusive telecomunicações, teleconferência, jogos, interfaces de usuário baseadas em áudio etc. Entretanto, um problema em muitos cenários e aplicações é que a fonte de fala desejada não é tipicamente a única fonte de áudio no ambiente. Em vez disso, em ambientes de áudio tipicos, há muitas outras fontes de áudio/ruido que estão sendo capturadas pelo microfone. Um dos problemas criticos enfrentados por muitos aplicativos de captura de fala é qual a melhor forma de extrair a fala em um ambiente ruidoso. A fim de resolver esse problema, foram propostas várias abordagens diferentes para supressão de ruido.

[003] De fato, a pesquisa em, por exemplo, sistemas de comunicação de fala em viva-voz é um tópico que tem recebido muito interesse durante décadas. Os primeiros sistemas comerciais disponíveis concentravam-se em sistemas profissionais de (video) conferência em ambientes com baixo ruido de fundo e baixo tempo de reverberação. Descobriu-se que uma abordagem particularmente vantajosa para identificar e extrair fontes de

Petição 870190060716, de 28/06/2019, pág. 9/259

2/106 áudio desejadas, como um orador desejado, seria uso da formação de feixes com base em sinais provenientes de uma matriz de microfones. Inicialmente, matrizes de microfones foram frequentemente usadas com um feixe fixo focalizado porém, mais tarde, o uso de feixes adaptativos se tornou mais popular.

[004] No final da década de 90, começaram a ser introduzidos sistemas de viva-voz para telefones celulares. Esses sistemas se destinavam ao uso em muitos ambientes diferentes, inclusive recintos reverberantes e com níveis (mais) altos de ruído de fundo. Tais ambientes de áudio apresentam desafios substancialmente mais difíceis e, em particular, podem complicar ou degradar a adaptação do feixe formado.

[005] Inicialmente, a pesquisa em captura de áudio para tais ambientes concentrou-se no cancelamento de ecos e, depois, na supressão de ruídos. Um exemplo de um sistema de captura de áudio baseado na formação de feixes é ilustrado na Figura 1. No exemplo, uma matriz de uma pluralidade de microfones 101 é acoplada a um formador de feixes 103 que gera um sinal de fonte de áudio z(n) e um ou mais sinais de referência de ruído x(n) .

[006] A matriz de microfones 101 pode, em algumas modalidades, compreender somente dois microfones, mas tipicamente compreenderá um número mais alto.

[007] O formador de feixes 103 pode ser especificamente um formador de feixes adaptativo, no qual um feixe pode ser direcionado para a fonte de fala com o uso de um algoritmo de adaptação adequado.

[008] Por exemplo, os documentos de patente US 7.146.012 e US 7.602.926 revelam exemplos de formadores de

Petição 870190060716, de 28/06/2019, pág. 10/259

3/106 feixe adaptativos, que se concentram na fala, mas também fornecem um sinal de referência que não contém (quase) nenhuma fala.

[009] Alternativamente, o documento US2014/278394 revela feixes que podem ser controlados e modificados dependendo de vários parâmetros, incluindo resultados de reconhecimento de fala. Os parâmetros usados para controlar e modificar os feixes são todos baseados ou derivados de sinais de saida dos feixes.

[0010] O formador de feixes cria um sinal de saida aprimorado, z (n), pela adição da parte desejada dos sinais de microfone coerentemente pela filtragem dos sinais recebidos em filtros correspondentes para a frente e a adição das saidas filtradas. Além disso, o sinal de saida é filtrado em filtros adaptativos para trás e tem respostas de filtro conjugadas para os filtros para frente (no dominio da frequência que corresponde a respostas ao impulso invertidas de tempo no dominio do tempo). Os sinais de erro são gerados como a diferença entre os sinais de entrada e as saidas dos filtros adaptativos para trás, e os coeficientes dos filtros são adaptados para minimizar os sinais de erro fazendo assim com que o feixe de áudio seja orientado em direção ao sinal dominante. Os sinais de erro gerados x(n) podem ser considerados como sinais de referência de ruido que são particularmente adequados para executar redução de ruido adicional no sinal de saida aprimorado z(n).

[0011] Tanto o sinal primário z(n) quanto o sinal de referência x(n) são normalmente contaminados por ruido. No caso de o ruido nos dois sinais ser coerente (por exemplo, quando há uma fonte de ruido de ponto de interferência) , um filtro adaptativo 105 pode ser usado para reduzir o ruido coerente.

Petição 870190060716, de 28/06/2019, pág. 11/259

4/106 [0012] Para isso, o sinal de referência de ruido x(n) é acoplado à entrada do filtro adaptativo 105 com a saida sendo subtraída do sinal de fonte de áudio z (n) para gerar um sinal compensado r(n) . O filtro adaptativo 105 é adaptado para minimizar a potência do sinal compensado r(n), geralmente quando a fonte de áudio desejada não está ativa (por exemplo, quando não há fala), e isso resulta na supressão de ruido coerente.

[0013] O sinal compensado é alimentado em um pósprocessador 107 que executa a redução de ruido no sinal compensado r(n) com base no sinal de referência de ruido x(n). Especificamente, o pós-processador 107 transforma o sinal compensado r(n) e o sinal de referência de ruido x(n) para o dominio da frequência com o uso de uma transformada de Fourier de curta duração. Então, para cada intervalo de frequência, modifica a amplitude de R(co) mediante a subtração de uma versão em escala do espectro de amplitude de Χ(ω). O espectro complexo resultante é transformado de volta para o dominio do tempo para produzir o sinal de saida q(n) no qual o ruido foi suprimido. Essa técnica de subtração espectral foi descrita pela primeira vez em S.F. Boll, Suppression of Acoustic Noise in Speech using Spectral Subtraction, IEEE Trans. Acoustics, Speech and Signal Processing, volume 27, pp. 113-120, abril de 1979.

[0014] Embora o sistema da Figura 1 forneça operação muito eficiente e desempenho vantajoso em muitos cenários, ele não é ideal em todos os cenários. De fato, embora muitos sistemas convencionais, incluindo o exemplo da Figura 1, forneçam um desempenho muito bom quando a fonte de áudio/alto-falante desejada está dentro do raio de reverberação da matriz de microfones, isto é, para aplicações onde a energia direta da fonte de áudio desejada é (de

Petição 870190060716, de 28/06/2019, pág. 12/259

5/106 preferência, significativamente) mais forte que a energia das reflexões da fonte de áudio desejada, eles tendem a fornecer resultados menos ideais quando este não é o caso. Descobriuse que, em ambientes tipicos, um orador precisa estar geralmente dentro de 1 a 1,5 metros da matriz de microfones.

[0015] No entanto, há um forte desejo por soluções, aplicações e sistemas viva-voz baseados em áudio em que o usuário pode estar mais distante da matriz de microfones. Isso é desejado, por exemplo, para muitos sistemas e aplicações de comunicação e de controle por voz. Os sistemas que fornecem aprimoramento de fala incluindo desreverberação e supressão de ruido para tais situações estão no campo chamado de super sistemas viva-voz.

[0016] Mais detalhadamente, quando se lida com ruido difuso adicional e um orador desejado fora do raio de reverberação, podem ocorrer os seguintes problemas:

[0017] O formador de feixes pode muitas vezes ter problemas para distinguir entre ecos da fala desejada e ruidos de fundo difusos, resultando em distorção da fala.

a. O formador de feixes adaptativo pode convergir mais lentamente em direção ao orador desejado. Durante o tempo em que o feixe adaptativo ainda não convergiu, haverá vazamento de fala no sinal de referência, resultando em distorção da fala no caso de esse sinal de referência ser usado para supressão e cancelamento de ruido não estacionário. O problema aumenta quando há mais fontes desejadas que falam uma após a outra. [0018] Uma solução para lidar com filtros adaptativos convergentes mais lentos (devido ao ruido de fundo) é suplementar isso com vários feixes fixos que são

Petição 870190060716, de 28/06/2019, pág. 13/259

6/106 direcionados em direções diferentes, conforme ilustrado na Figura 2. Entretanto, essa abordagem é particularmente desenvolvida para cenários em que uma fonte de áudio desejada está presente dentro do raio de reverberação. Isso pode ser menos eficiente para fontes de áudio fora do raio de reverberação e pode frequentemente levar a soluções não robustas em tais casos, especialmente se houver também ruído de fundo difuso acústico.

[0019] Isso pode ser entendido da seguinte forma: no caso da fonte de áudio desejada estar fora do raio de reverberação, a energia do campo sonoro direto é pequena quando comparada à energia do campo sonoro difuso criado a partir de reflexões. A razão entre o campo sonoro direto e o campo sonoro difuso irá degradar ainda mais se houver também ruído de fundo difuso. As energias dos diferentes feixes serão aproximadamente iguais e, consequentemente, isso não fornece um parâmetro adequado para controlar os formadores de feixe. Pela mesma razão, um sistema baseado na medição da Direção de Chegada (DOA) não será robusto: devido à baixa energia do campo direto, a correlação cruzada dos sinais não irá gerar em um pico distinto preciso e resultará em grandes erros. Tornar os detectores mais robustos resultará geralmente em nenhuma detecção de fonte de áudio desejada que leva a feixes não focalizados. O resultado típico é vazamento de voz na referência de ruído, e uma distorção grave ocorrerá se for tentado reduzir o ruído no sinal primário com base no sinal de referência de ruído.

[0020] Portanto, uma abordagem de captura de áudio aprimorada seria vantajosa e, em particular, seria vantajosa uma abordagem que permitisse complexidade reduzida, flexibilidade

Petição 870190060716, de 28/06/2019, pág. 14/259

7/106 aumentada, implementação facilitada, custo reduzido, captura de áudio aprimorada, adequação aprimorada para capturar áudio fora do raio de reverberação, sensibilidade ao ruído reduzida, captura de voz aprimorada e/ou desempenho aprimorado.

Sumário da invenção [0021] Consequentemente, a invenção busca, de preferência, mitigar, aliviar ou eliminar uma ou mais das desvantagens mencionadas acima, individualmente ou em qualquer combinação.

[0022] De acordo com um aspecto da invenção, é fornecido aparelho para capturar áudio, sendo que o aparelho compreende: uma matriz de microfones; um primeiro formador de feixes acoplado à matriz de microfones e disposto de modo a gerar uma primeira saída de áudio formada em feixes; uma pluralidade de formadores de feixe restritos acoplados à matriz de microfones, e cada um disposto de modo a gerar uma saída de áudio restrita formada em feixes; um primeiro adaptador para adaptar os parâmetros de formação de feixes do primeiro formador de feixes; um segundo adaptador para adaptar parâmetros de formação restrita de feixes para a pluralidade de formadores de feixe restritos; um processador de diferença para determinar uma medição de diferença para ao menos um dentre a pluralidade de formadores de feixe restritos, sendo que a medição de diferença é indicativa de uma diferença entre feixes formados pelo primeiro formador de feixes e o pelo menos um dentre a pluralidade de formadores de feixe restritos; sendo que o segundo adaptador está disposto de modo a adaptar os parâmetros de formação de feixes restrita a uma restrição de que os parâmetros de formação de feixes restrita são adaptados apenas para formadores de feixe restritos da pluralidade de

Petição 870190060716, de 28/06/2019, pág. 15/259

8/106 formadores de feixe restritos para os quais uma medição de diferença foi determinada que satisfaz um critério de similaridade.

[0023] A invenção pode proporcionar uma captura de áudio aprimorada em muitas modalidades. Em particular, um desempenho aprimorado em ambientes reverberantes e/ou para fontes de áudio pode normalmente ser alcançado. Em particular, a abordagem pode proporcionar captura de fala aprimorada em muitos ambientes de áudio desafiadores. Em muitas modalidades, a abordagem pode fornecer formação de feixes confiável e precisa, ao mesmo tempo em que fornece adaptação rápida a novas fontes de áudio desejadas. A abordagem pode fornecer um aparelho de captura de áudio com sensibilidade reduzida a, por exemplo, ruido, reverberação e reflexões. Em particular, a captura aprimorada de fontes de áudio fora do raio de reverberação pode ser frequentemente obtida.

[0024] Em algumas modalidades, um sinal de áudio de saida do aparelho de captura de áudio pode ser gerado em resposta à primeira saida de áudio formada em feixes e/ou à saida de áudio restrita formada em feixes. Em algumas modalidades, o sinal de áudio de saida pode ser gerado como uma combinação da saida de áudio restrita formada em feixes e, especificamente, uma seleção que combina selecionar, por exemplo, uma única saida de áudio restrita formada em feixes pode ser usada.

[0025] A medição de diferença pode refletir a diferença entre os feixes formados do primeiro formador de feixes e do formador de feixes restrito para o qual é gerada a medição de diferença, por exemplo medida como uma diferença entre as direções dos feixes. Em muitas modalidades, a medição

Petição 870190060716, de 28/06/2019, pág. 16/259

9/106 de diferença pode ser indicativa de uma diferença entre as saidas de áudio formadas em feixes do primeiro formador de feixes e do formador de feixes restrito. Em algumas modalidades, a medição de diferença pode ser indicativa de uma diferença entre os filtros de formação de feixes do primeiro formador de feixes e do formador de feixes restrito. A medição de diferença pode ser uma medição de distância, como, por exemplo, uma medição determinada como a distância entre vetores dos coeficientes dos filtros de formação de feixes do primeiro formador de feixes e do formador de feixes restrito.

[0026] Deve-se considerar que uma medição de similaridade pode ser equivalente a uma medição de diferença na medida em que uma medição de similaridade, ao fornecer informações relacionadas à similaridade entre duas características, fornece também inerentemente informações relacionadas à diferença entre as mesmas, e vice-versa.

[0027] O critério de similaridade pode, por exemplo, compreender um requisito de que a medição de diferença seja indicativa de uma diferença abaixo de uma dada medição, por exemplo, pode ser exigido que uma medição de diferença que tenha valores crescentes esteja abaixo de um limiar.

[0028] Os formadores de feixe restritos são restritos pelo fato de que a adaptação está sujeita à restrição de que a adaptação só é executada se a medição de diferença de diferença satisfaz o critério de similaridade. Em contraste, o primeiro formador de feixes não é submetido a esse requisito. Em particular, a adaptação do primeiro formador de feixes pode ser independente de qualquer um dos formadores de feixe

Petição 870190060716, de 28/06/2019, pág. 17/259

10/106 restritos e, especificamente, pode ser independente da formação desses feixes.

[0029] A restrição da adaptação para exigir que a medição de diferença esteja, por exemplo, abaixo de um limiar pode ser considerada como correspondente à adaptação apenas para formadores de feixe restritos que atualmente formam feixes correspondentes a fontes de áudio em uma região próxima a uma fonte de áudio à qual o primeiro formador de feixes está atualmente adaptado.

[0030] A adaptação dos formadores de feixe pode ser mediante a adaptação dos parâmetros de filtro dos filtros de formação de feixes dos formadores de feixe, como especificamente mediante a adaptação de coeficientes de filtro. A adaptação pode procurar otimizar (maximizar ou minimizar) um dado parâmetro de adaptação, como, por exemplo, maximizar um nivel de sinal de saida quando uma fonte de áudio é detectada ou minimizá-lo quando somente ruido é detectado. A adaptação pode procurar modificar os filtros de formação de feixes para otimizar um parâmetro medido.

[0031] De acordo com um recurso opcional da invenção, o aparelho compreende adicionalmente um detector de fonte de áudio para detectar fontes de áudio pontuais nas segundas saidas de áudio formadas em feixes; e o segundo adaptador está disposto de modo a adaptar os parâmetros de formação restrita de feixes apenas para formadores de feixe restritos para os quais uma presença de uma fonte de áudio pontual é detectada na saida de áudio restrita formada em feixes.

[0032] Isso pode melhorar ainda mais o desempenho e pode, por exemplo, fornecer um desempenho mais robusto,

Petição 870190060716, de 28/06/2019, pág. 18/259

11/106 resultando em captura de áudio aprimorada. Diferentes critérios podem ser usados para detectar uma fonte de áudio pontual em diferentes modalidades. Uma fonte de áudio pontual pode ser especificamente uma fonte de áudio correlacionada para os microfones da matriz de microfones. Uma fonte de áudio pontual pode, por exemplo, ser considerada como sendo detectada se uma correlação entre os sinais de microfone da matriz de microfones (por exemplo, após a filtragem pelos filtros de formação de feixes do formador de feixes restrito) exceder um dado limiar.

[0033] De acordo com um recurso opcional da invenção, o detector de fonte de áudio é adicionalmente disposto de modo a detectar fontes de áudio pontuais na primeira saida de áudio formada em feixes; e o aparelho compreende adicionalmente um controlador disposto de modo a definir parâmetros de formação restrita de feixes para um primeiro formador de feixes restrito em resposta aos parâmetros de formação de feixes do primeiro formador de feixes se uma fonte de áudio pontual for detectada na primeira saida de áudio formada em feixes, mas não em quaisquer saidas de áudio formadas em feixes restritas.

[0034] Isso pode melhorar ainda mais o desempenho e pode, por exemplo, em muitas modalidades, fornecer um desempenho de adaptação aprimorado para nova fonte de áudio pontual desejada. Em muitas modalidades e cenários, isso pode permitir a detecção mais rápida ou mais confiável de novas fontes de áudio.

[0035] De acordo com um recurso opcional da invenção, o controlador está disposto de modo a definir os parâmetros de formação restrita de feixes para o primeiro

Petição 870190060716, de 28/06/2019, pág. 19/259

12/106 formador de feixes restrito em resposta aos parâmetros de formação de feixes do primeiro formador de feixes apenas se uma medição de diferença para o primeiro formador de feixes restrito exceder o limiar.

[0036] Isso pode melhorar o desempenho ainda mais e pode, especificamente, em muitas modalidades, fornecer um desempenho de adaptação aprimorado.

[0037] De acordo com um recurso opcional da invenção, o detector de fonte de áudio é adicionalmente disposto de modo a detectar fontes de áudio na primeira saida de áudio formada em feixes; e o aparelho compreende adicionalmente um controlador disposto de modo a definir parâmetros de formação restrita de feixes para um primeiro formador de feixes restrito em resposta aos parâmetros de formação de feixes do primeiro formador de feixes se uma fonte de áudio pontual for detectada na primeira saida de áudio formada em feixes e em uma segunda saida de áudio formada em feixe do primeiro formador de feixes restrito e uma medição de diferença tiver sido determinada para o primeiro formador de feixes restrito que excede um limiar.

[0038] Isso pode aprimorar ainda mais o desempenho e pode, especificamente em muitas modalidades, fornecer um desempenho de adaptação aprimorado.

[0039] De acordo com um recurso opcional da invenção, a pluralidade de formadores de feixe restritos é um subconjunto ativo de formadores de feixe restritos selecionados a partir de um conjunto de formadores de feixe restritos, e o controlador está disposto de modo a aumentar inúmeros formadores de feixe restritos para incluir o primeiro formador de feixes restrito ao inicializar um formador de

Petição 870190060716, de 28/06/2019, pág. 20/259

13/106 feixes restrito do conjunto de formadores de feixe restritos com o uso de parâmetros do primeiro formador de feixes.

[0040] Isso pode aprimorar adicionalmente o desempenho e/ou facilitar a implementação e/ou operação. Isso pode reduzir os requisitos de recursos computacionais em muitos cenários.

[0041] De acordo com um recurso opcional da invenção, o segundo adaptador é adicionalmente disposto de modo a adaptar os parâmetros de formação restrita de feixes para um primeiro formador de feixes restrito apenas se for satisfeito um critério que compreende ao menos um requisito selecionado do grupo de: um requisito de que um nivel da segunda saida de áudio formada em feixes do primeiro formador de feixes restrito seja mais alto do que para qualquer outra segunda saida de áudio formada em feixes; um requisito de que um nivel de uma fonte de áudio pontual na segunda saida de áudio formada em feixes do primeiro formador de feixes restrito seja mais alto que qualquer fonte de áudio pontual em qualquer outra segunda saida de áudio formada em feixes; um requisito de que uma razão sinal/ruido para a segunda saida de áudio formada por feixe do primeiro formador de feixes restrito exceda um limiar; e um requisito de que a segunda saida de áudio formada em feixes do primeiro formador de feixes restrito compreenda um componente de fala.

[0042] Isso pode aprimorar ainda mais o desempenho e pode, especificamente em muitas modalidades, fornecer um desempenho de adaptação aprimorado.

[0043] De acordo com um recurso opcional da invenção, o processador de diferença está disposto de modo a determinar a medição de diferença para um primeiro formador de

Petição 870190060716, de 28/06/2019, pág. 21/259

14/106 feixes restrito para refletir ao menos um dentre: uma diferença entre o primeiro conjunto de parâmetros e o conjunto restrito de parâmetros para o primeiro formador de feixes restrito; e uma diferença entre a primeira saída de áudio formada por feixe e a saída de áudio restrita formada em feixes do primeiro formador de feixes restrito.

[0044] Isso pode aprimorar ainda mais o desempenho e pode, especificamente em muitas modalidades, fornecer um desempenho de adaptação aprimorado.

[0045] De acordo com um recurso opcional da invenção, uma taxa de adaptação para o primeiro formador de feixes é maior que para a pluralidade de formadores de feixe restritos.

[0046] Isso pode aprimorar ainda mais o desempenho e pode, especificamente em muitas modalidades, fornecer um desempenho de adaptação aprimorado. Em particular, isso pode possibilitar que o desempenho geral do sistema forneça uma adaptação precisa e confiável para o cenário de áudio atual enquanto fornece ao mesmo tempo uma adaptação rápida às mudanças no mesmo (por exemplo, quando uma nova fonte de áudio emerge) .

[0047] De acordo com um recurso opcional da invenção, o primeiro formador de feixes e a pluralidade de formadores de feixe restritos são formadores de feixe do tipo filtragem e combinação.

[0048] Os formadores de feixe do tipo filtragem e combinação podem compreender especificamente filtros de formação de feixes sob a forma de filtros de resposta finita (FIRs - Finite Response Filters), tendo uma pluralidade de coeficientes .

Petição 870190060716, de 28/06/2019, pág. 22/259

15/106 [0049] De acordo com um recurso opcional da invenção, o primeiro formador de feixes é um formador de feixes do tipo filtragem e combinação compreendendo uma primeira pluralidade de filtros de formação de feixes, cada um tendo uma primeira resposta adaptativa a impulso e um segundo formador de feixes que é um formador de feixes restrito da pluralidade de formadores de feixe restritos é um formador de feixes do tipo filtragem e combinação compreendendo uma segunda pluralidade de filtros de formação de feixes, cada um tendo uma segunda resposta adaptativa a impulso; e o processador de diferença está disposto de modo a determinar a medição de diferença entre os feixes do primeiro formador de feixes e do segundo formador de feixes em resposta a uma comparação das primeiras respostas de impulso adaptativo às segundas respostas de impulso adaptativo.

[0050] A abordagem pode em muitos cenários e aplicações fornecer uma indicação aprimorada da diferença/similaridade entre feixes formados por dois formadores de feixe. Em particular, uma medição de diferença aprimorada pode frequentemente ser fornecida em cenários em que a trajetória direta de fontes de áudio às quais os formadores de feixe se adaptam não é dominante. Frequentemente, pode-se obter um desempenho aprimorado para cenários que compreendem um alto grau de ruido difuso, de sinais reverberantes e/ou de reflexões tardias.

[0051] A abordagem pode reduzir a sensibilidade de propriedades dos sinais de áudio (seja o sinal de saida de áudio formado por feixe ou os sinais de microfone) e pode, consequentemente, ser menos sensivel, por exemplo, a ruido. Em muitos cenários, a medição de diferença pode ser gerada mais rápido e, por exemplo, em alguns cenários instantaneamente. Em

Petição 870190060716, de 28/06/2019, pág. 23/259

16/106 particular, a medição de diferença pode ser gerada com base nos parâmetros de filtro atuais sem qualquer cálculo de média.

[0052] O formador de feixes do tipo filtragem e combinação pode compreender um filtro de formação de feixes para cada microfone e um combinador para combinar as saídas dos filtros de formação de feixes para gerar o sinal de saída de áudio formada em feixes. O combinador pode ser especificamente uma unidade de soma, e os formadores de feixe do tipo filtragem e combinação podem ser formadores de feixe do tipo filtragem e soma.

[0053] Os formadores de feixe são formadores de feixe adaptáveis e podem compreender funcionalidade de adaptação para adaptar as respostas de impulso adaptativo (adaptando, desse modo, a direcionalidade eficaz da matriz de microfones).

[0054] Uma medição de diferença é equivalente a uma medida de similaridade.

[0055] Os formadores de feixe do tipo filtragem e combinação podem compreender especificamente filtros de formação de feixes na forma de filtros de resposta finita (FIRs - Finite Response Filters), tendo uma pluralidade de coeficientes.

[0056] Em algumas modalidades, o processador de diferença está disposto de modo que cada microfone da matriz de microfones determine uma correlação entre a primeira e a segunda respostas de impulso adaptativo para o microfone e determine a medição de diferença em resposta a uma combinação de correlações para cada microfone da matriz de microfones.

Petição 870190060716, de 28/06/2019, pág. 24/259

17/106 [0057] Isso pode proporcionar uma medição de diferença particularmente vantajosa sem exigir complexidade excessiva.

[0058] Em algumas modalidades, o processador de diferenças está disposto de modo a determinar representações de dominio de frequência das primeiras respostas de impulso adaptativo e das segundas respostas de impulso adaptativo; e determinar a medição de diferença em resposta às representações de dominio de frequência das primeiras respostas de impulso adaptativo e das segundas respostas de impulso adaptativo.

[0059] Isso pode melhorar o desempenho e/ou facilitar a operação. Em muitas modalidades, isso pode facilitar a determinação da medição de diferença. Em algumas modalidades, as respostas de impulso adaptativo podem ser fornecidas no dominio de frequência e as representações de dominio de frequência podem estar prontamente disponiveis. Entretanto, na maioria das modalidades, as respostas de impulso adaptativo podem ser fornecidas no dominio de tempo, por exemplo, por coeficientes de um filtro FIR (Finite Impulse Response), e o processador de diferença pode estar disposto de modo a aplicar, por exemplo, uma transformada discreta de Fourier (DFT - Discrete Fourier Transform) às respostas de impulso de dominio de tempo para gerar as representações de frequência.

[0060] Em algumas modalidades, o processador de diferença está disposto de modo a determinar medições de diferença de frequência para frequências das representações de dominio de frequência; e para determinar a medição de diferença em resposta às medições de diferença de frequência

Petição 870190060716, de 28/06/2019, pág. 25/259

18/106 para as frequências das representações de domínio de frequência; sendo que o processador de diferença está disposto de modo a determinar uma medição de diferença de frequência para uma primeira frequência e um primeiro microfone da matriz de microfones em resposta a um primeiro coeficiente de domínio de frequência e um segundo coeficiente de domínio de frequência, sendo que um primeiro coeficiente de domínio de frequência é um coeficiente de domínio de frequência para a primeira frequência para a primeira resposta adaptativa a impulso para o primeiro microfone e sendo que o segundo coeficiente de domínio de frequência é um coeficiente de domínio de frequência para a primeira frequência para a segunda resposta adaptativa a impulso para o primeiro microfone; e o processador de diferença é adicionalmente disposto de modo a determinar a medição de diferença de frequência para a primeira frequência em resposta a uma combinação de medições de diferença de frequência para uma pluralidade de microfones da matriz de microfones.

[0061] Isso pode fornecer uma medição de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes.

[0062] Indicando, o primeiro e o segundo componentes de frequência para uma frequência ω e microfone m como F_lm(e^7£0) e F2_m(e^7£O) respectivamente, a medição de diferença de frequência para a frequência ω e microfone m pode ser determinada como:

Sa,.m=fl(Flm O).

[0063] A medição de diferença de frequência (combinada) para a frequência ω para a pluralidade de

Petição 870190060716, de 28/06/2019, pág. 26/259

19/106 microfones da matriz de microfones pode ser determinada mediante a combinação dos valores para os microfones de diferença. Por exemplo para uma soma simples sobre microfones

M:

ω,τη m=l [0064]

A medição de diferença geral pode, então ser determinada pela combinação das medições de diferença de frequência individuais. Por exemplo uma combinação dependente de frequência pode ser aplicada:

[0065] em

S = I w(e^76J)S_6Jdúj /ω=0 que w(e^7£0) é uma função de ponderação de frequência adequada.

[0066]

Em algumas modalidades, o processador de diferença está disposto de modo a determinar a medição de diferença de frequência para a primeira frequência e para o primeiro microfone em resposta a uma multiplicação do primeiro coeficiente de dominio de frequência e um conjugado do segundo coeficiente de dominio de frequência.

[0067]

Isso pode fornecer uma medição de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes.

Em algumas modalidades, a medição de diferença de frequência para frequência ω e o microfone m pode ser determinada como:

ω,τη [0068]

Em algumas modalidades, o processador de diferença está disposto de modo a determinar a medição de diferença de frequência para a primeira frequência em resposta

Petição 870190060716, de 28/06/2019, pág. 27/259

20/106 a uma parte real da combinação de medições de diferença de frequência para a primeira frequência para a pluralidade de microfones da matriz de microfones.

[0069] Isso pode fornecer uma medição de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes.

[0070] Em algumas modalidades, o processador de diferença está disposto de modo a determinar a medição de diferença de frequência para a primeira frequência em resposta a uma norma da combinação de medições de diferença de frequência para a primeira frequência para a pluralidade de microfones da matriz de microfones.

[0071] Isso pode fornecer uma medição de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes. A norma pode ser especificamente uma norma LI.

[0072] Em algumas modalidades, o processador de diferença está disposto de modo a determinar a medição de diferença de frequência para a primeira frequência em resposta a ao menos uma dentre uma parte real e uma norma da combinação de medições de diferença de frequência para a primeira frequência da pluralidade de microfones da matriz de microfones em relação a uma soma de uma função de uma norma L2 para uma soma do primeiro coeficiente de dominio de frequência e uma função de uma norma L2 para uma soma do segundo coeficiente de dominio de frequência para a pluralidade de microfones da matriz de microfones.

[0073] Isso pode fornecer uma medição de diferença particularmente vantajosa que, em particular, pode fornecer uma

Petição 870190060716, de 28/06/2019, pág. 28/259

21/106 indicação exata da diferença entre os feixes. As funções monotônicas podem ser especificamente funções quadráticas.

[0074] Em algumas modalidades, o processador de diferença está disposto de modo a determinar a medição de diferença de frequência para a primeira frequência em resposta a uma norma da combinação de medições de diferença de frequência para a primeira frequência da pluralidade de microfones da matriz de microfones em relação a um produto de uma função de uma norma L2 para uma soma dos coeficientes do primeiro dominio de frequência e uma função de uma norma L2 para uma soma dos coeficientes do dominio da primeira frequência.

[0075] Isso pode fornecer uma medição de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes. As funções monotônicas pode ser especificamente uma função de valor absoluto [0076] Em algumas modalidades, o processador de diferença está disposto de modo a determinar a medição de diferença como uma soma ponderada seletiva em frequência das medições de diferença de frequência.

[0077] Isso pode fornecer uma medição de diferença particularmente vantajosa que, em particular, pode fornecer uma indicação exata da diferença entre os feixes. Em particular, isso pode proporcionar uma ênfase de frequências significativas de modo particularmente perceptível, como uma ênfase nas frequências de fala.

[0078] Em algumas modalidades, a primeira pluralidade de filtros formadores de feixe e a segunda pluralidade de filtros formadores de feixe são filtros de resposta finita a impulso tendo uma pluralidade de coeficientes .

Petição 870190060716, de 28/06/2019, pág. 29/259

22/106 [0079] Isso pode fornecer operação e implementação eficientes em muitas modalidades.

[0080] De acordo com um recurso opcional da invenção, o aparelho compreende: um formador de feixes de referência de ruido disposto de modo a gerar um sinal de saida de áudio formada em feixes e ao menos um sinal de referência de ruido, sendo que o formador de feixes de referência de ruido é um dentre o primeiro formador de feixes e a pluralidade de formadores de feixe restritos; um primeiro transformador para gerar um primeiro sinal de dominio da frequência a partir de uma transformada de frequência do sinal de saida de áudio formada em feixes, sendo que o primeiro sinal de dominio da frequência é representado por valores de região tempofrequência; um segundo transformador para gerar um segundo sinal de dominio da frequência a partir de uma transformada de frequência do ao menos um sinal de referência de ruido, sendo que o segundo sinal de dominio da frequência é representado por valores de região tempo-frequência; um processador de diferença disposto de modo a gerar medições de diferença da região tempofrequência, sendo que uma medição de diferença da região tempofrequência é indicativa de uma diferença entre uma primeira função monotônica de uma norma de um valor de região tempofrequência do primeiro sinal de dominio da frequência e uma segunda função monotônica de uma norma de um valor de região tempo-frequência do segundo sinal de dominio da frequência para a primeira frequência; um estimador de fonte de áudio pontual para gerar uma estimativa de fonte de áudio pontual indicativa de se o sinal de saida de áudio formada em feixes compreende uma fonte de áudio pontual, sendo que o estimador de fonte de áudio pontual está disposto de modo a gerar a estimativa de

Petição 870190060716, de 28/06/2019, pág. 30/259

23/106 fonte de áudio pontual em resposta a um valor de diferença combinado para medições de diferença de região de tempofrequência para frequências acima de um limiar de frequência.

[0081] A abordagem pode, em muitos cenários e aplicações, fornecer uma estimativa/detecção de fonte de áudio pontual aprimorada. Em particular, uma estimativa aprimorada pode ser frequentemente fornecida em cenários em que a trajetória direta de fontes de áudio às quais os formadores de feixe se adaptam não é dominante. Frequentemente, pode-se obter um desempenho aprimorado para cenários que compreendem um alto grau de ruído difuso, de sinais reverberantes e/ou de reflexões tardias. A detecção aprimorada para fontes de áudio pontuais a distâncias maiores, e particularmente fora do raio de reverberação, pode muitas vezes ser obtida.

[0082] O formador de feixes pode ser um formador de feixes adaptativo que compreende funcionalidade de adaptação para adaptar as respostas de impulso adaptativo dos filtros de formação de feixes (adaptando, assim, a direcionalidade eficaz da matriz de microfones).

[0083] Tanto a primeira como a segunda funções monotônicas podem, tipicamente, ser funções monotonicamente crescentes, mas podem, em algumas modalidades, ser funções monotonicamente decrescentes.

[0084] As normas podem, tipicamente, ser normas LI ou L2, ou seja, especificamente, as normas podem corresponder a uma medição de energia ou magnitude para os valores de região tempo-frequência.

[0085] Uma região tempo-frequência pode corresponder especificamente a um intervalo da transformada

Petição 870190060716, de 28/06/2019, pág. 31/259

24/106 de frequência em um segmento/periodo de tempo. Especificamente, o primeiro e o segundo transformadores podem usar processamento em bloco para transformar segmentos consecutivos do primeiro e do segundo sinais. Uma região tempo-frequência pode corresponder a um conjunto de intervalos de transformada (tipicamente um) em um segmento/periodo.

[008 6] O pelo menos um formador de feixes pode compreender dois formadores de feixe em que um gera o sinal de saida de áudio formado em feixe e o outro gera o sinal de referência de ruido. Os dois formadores de feixe podem ser acoplados a conjuntos de microfones diferentes e potencialmente desarticulados da matriz de microfones. De fato, em algumas modalidades, a matriz de microfones pode compreender duas submatrizes separadas acopladas aos diferentes formadores de feixe. As submatrizes (e, possivelmente, os formadores de feixe) podem se situar em posições diferentes, potencialmente afastadas uma das outras. Especificamente, as submatrizes (e, possivelmente, os formadores de feixe) podem se situar em dispositivos diferentes.

[0087] Em algumas modalidades da invenção, apenas um subconjunto da pluralidade de microfones em uma matriz pode ser acoplado a um formador de feixes.

[0088] Em algumas modalidades, o estimador de fonte de áudio pontual está disposto de modo a detectar uma presença de uma fonte de áudio pontual na saida de áudio formada em feixes em resposta ao valor de diferença combinado que excede um limiar.

[0089] A abordagem pode fornecer, tipicamente, uma detecção de fonte de áudio pontual aprimorada para formadores de feixe e, especificamente, para detectar fontes de áudio

Petição 870190060716, de 28/06/2019, pág. 32/259

25/106 pontuais fora do raio de reverberação, onde o campo direto não é dominante.

[0090] Em algumas modalidades, o limiar de frequência não é menor que 500 Hz.

[0091] Isso pode melhorar o desempenho ainda mais, e pode, por exemplo, em muitas modalidades e cenários, assegurar que uma descorrelação suficiente ou aprimorada seja alcançada entre os valores de sinal da saída de áudio formada em feixes e os valores do sinal da referência de ruído usados na determinação da estimativa da fonte de áudio pontual. Em algumas modalidades, o limiar de frequência é vantajosamente não menor que 1 kHz, 1,5 kHz, 2 kHz, 3 kHz ou mesmo 4 kHz.

[0092] Em algumas modalidades, o processador de diferença está disposto de modo a gerar uma estimativa de coerência de ruído indicativa de uma correlação entre uma amplitude do sinal de saída de áudio formada em feixes e uma amplitude do ao menos um sinal de referência de ruído; e pelo menos uma dentre a primeira função monotônica e a segunda função monotônica é dependente da estimativa de coerência de ruído.

[0093] Isso pode melhorar ainda mais o desempenho, e pode especificamente, em muitas modalidades em particular, fornecer desempenho aprimorado para matrizes de microfones com distâncias menores entre os microfones.

[0094] A estimativa de coerência de ruído pode ser especificamente uma estimativa da correlação entre as amplitudes do sinal de saída de áudio formada em feixes e as amplitudes do sinal de referência de ruído quando não há fonte de áudio pontual ativa (por exemplo, durante períodos de tempo sem fala, isto é, quando a fonte de fala está inativa) . A

Petição 870190060716, de 28/06/2019, pág. 33/259

26/106 estimativa de coerência de ruido pode, em algumas modalidades, ser determinada com base no sinal de saída de áudio formada em feixes e no sinal de referência de ruído e/ou no primeiro e no segundo sinais de domínio da frequência. Em algumas modalidades, a estimativa de coerência de ruído pode ser gerada com base em um processo de calibração ou medição separado.

[0095] Em algumas modalidades, o processador de diferença está disposto de modo a escalonar a norma do valor de região de tempo-frequência do primeiro sinal de domínio de frequência para a primeira frequência em relação à norma do valor de região de tempo-frequência do segundo sinal de domínio de frequência para a primeira frequência em resposta à estimativa de coerência de ruído.

[0096] Isso pode melhorar o desempenho ainda mais e pode, especificamente, em muitas modalidades, fornecer uma precisão aprimorada da estimativa de fonte de áudio pontual. Isso pode possibilitar adicionalmente uma baixa implementação de complexidade.

[0097] Em algumas modalidades, o processador de diferença está disposto de modo a gerar a medição de diferença de região de tempo-frequência para o tempo tk na frequência ωι substancialmente como:

d = I Ζ(^ω_ζ)| -γΕ^,ωΟ | [00 98] onde Z(t_k,ú)i) é o valor de região de tempofrequência para o sinal de saída de áudio formada em feixes no tempo tk na frequência ωι; X(t_k, Wj) é o valor de região de tempofrequência para o ao menos um sinal de referência de ruído no tempo tk na frequência ωι; C(t_k,a>i) é uma estimativa de coerência de ruído no tempo tk na frequência ωι; e y é um parâmetro de projeto.

Petição 870190060716, de 28/06/2019, pág. 34/259

27/106 [0099] Isso pode fornecer uma estimativa de fonte de áudio pontual particularmente vantajosa em muitos cenários e modalidades.

[00100] Em algumas modalidades, o processador de diferença está disposto de modo a filtrar pelo menos um dos valores de região de tempo-frequência do sinal de saida de áudio formada em feixes e os valores de região de tempo-frequência do pelo menos um sinal de referência de ruido.

[00101] Isso pode proporcionar uma estimativa aprimorada sobre a fonte de áudio pontual. A filtragem pode ser uma filtragem passa-baixa, como, por exemplo, uma média.

[00102] Em algumas modalidades, o filtro é tanto uma direção de frequência como uma direção de tempo.

[00103] Isso pode proporcionar uma estimativa aprimorada sobre a fonte de áudio pontual. O processador de diferença pode estar disposto de modo a filtrar valores de região de tempo-frequência ao longo de uma pluralidade de regiões de tempo-frequência, sendo que a filtragem inclui regiões de tempo-frequência que diferem tanto em tempo quanto em frequência.

[00104] De acordo com um aspecto da invenção, é fornecido um dispositivo de captura de áudio; sendo que o método compreende: um primeiro formador de feixes acoplado a uma matriz de microfones que gera uma primeira saida de áudio formada em feixes; uma pluralidade de formadores de feixe restritos acoplados à matriz de microfones que gera uma saida de áudio restrita formada em feixes; adaptar os parâmetros de formação de feixes do primeiro formador de feixes; adaptar os parâmetros de formação restrita de feixes para a pluralidade de formadores de feixe restritos; determinar uma medição de

Petição 870190060716, de 28/06/2019, pág. 35/259

28/106 diferença para ao menos um dentre a pluralidade de formadores de feixe restritos, sendo que a medição de diferença é indicativa de uma diferença entre feixes formados pelo primeiro formador de feixes e o pelo menos um dentre a pluralidade de formadores de feixe restritos; e sendo que adaptar os parâmetros de formação restrita de feixes compreende adaptar parâmetros de formação restrita de feixes a uma restrição de que os parâmetros de formação restrita de feixes são adaptados apenas para formadores de feixe restritos da pluralidade de formadores de feixe restritos para os quais uma medição de diferença foi determinada que satisfaz um critério de similaridade.

[00105] Esses e outros aspectos, recursos e vantagens da invenção ficarão evidentes e serão elucidados com referência à modalidade descrita (ou modalidades descritas) a seguir.

Breve descrição dos desenhos [00106] As modalidades da invenção serão descritas, apenas a titulo de exemplo, com referência aos desenhos, nos quais:

[00107] a Figura 1 ilustra um exemplo de elementos de um sistema de captura de áudio de formação de feixes;

[00108] a Figura 2 ilustra um exemplo de uma pluralidade de feixes formados por um sistema de captura de áudio;

[00109] a Figura 3 ilustra um exemplo de elementos de um aparelho de captura de áudio de acordo com algumas modalidades da invenção;

Petição 870190060716, de 28/06/2019, pág. 36/259

29/106

	[00110]	a Figura	4	ilustra	um	exemplo	de elementos
de	um aparelho de	captura	de	áudio	de	acordo	com algumas
modalidades da invenção;
	[00111]	a Figura	5	ilustra	um	exemplo	de elementos
de	um aparelho de	captura	de	áudio	de	acordo	com algumas
modalidades da invenção;
	[00112]	a Figura	6 ilustra	um exemplo de um

fluxograma para uma abordagem de adaptação de formadores de feixe restritos de um aparelho de captura de áudio de acordo com algumas modalidades da invenção;

[00113] a Figura 7 ilustra um exemplo de elementos de um aparelho de captura de áudio de acordo com algumas modalidades da invenção;

[00114] a Figura 8 ilustra um exemplo de elementos de um formador de feixes do tipo filtragem e soma;

[00115] a Figura 9 ilustra um exemplo de elementos de um aparelho de captura de áudio de acordo com algumas modalidades da invenção;

[00116] a Figura 10 ilustra um exemplo de um transformador de dominio de frequência; e [00117] a Figura 11 ilustra um exemplo de elementos de um processador de diferença para um aparelho de captura de áudio de acordo com algumas modalidades da invenção.

Descrição detalhada de algumas modalidades da invenção [00118] A descrição a seguir se concentra em modalidades da invenção aplicáveis a um sistema de áudio de captura de fala com base na formação de feixes, mas deve-se considerar que a abordagem é aplicável a muitos outros sistemas e cenários de captura de áudio.

Petição 870190060716, de 28/06/2019, pág. 37/259

30/106 [00119] A Figura 3 ilustra um exemplo de elementos de um aparelho de captura de áudio de acordo com algumas modalidades da invenção.

[00120] O aparelho de captura de áudio compreende uma matriz de microfones 301 que compreende uma pluralidade de microfones disposta de modo a capturar áudio no ambiente. No exemplo, a matriz de microfones 301 é acoplada a um cancelador de eco opcional 303 que pode cancelar os ecos que se originam de fontes acústicas (para as quais um sinal de referência está disponível) que estão linearmente relacionados aos ecos no sinal (ou sinais) de microfone. Essa fonte pode, por exemplo, ser um alto-falante. Um filtro adaptativo pode ser aplicado com o sinal de referência como entrada, e com a saída sendo subtraída do sinal de microfone para criar um sinal compensado do eco. Isso pode ser repetido para cada microfone individual.

[00121] Deve-se considerar que o cancelador de eco 303 é opcional e pode ser simplesmente omitido em muitas modalidades.

[00122] A matriz de microfones 301 é acoplada a um primeiro formador de feixes 305, típica, diretamente ou através do cancelador de eco 303 (bem como possivelmente por amplificadores, conversores de sinal digital para analógico etc., como será bem conhecido pelo versado na técnica).

[00123] O primeiro formador de feixes 305 está disposto de modo a combinar os sinais a partir da matriz de microfones 301 de modo que uma sensibilidade de áudio direcional eficaz da matriz de microfones 301 seja gerada. O primeiro formador de feixes 305 gera assim um sinal de saída, chamado de primeira saída de áudio formada em feixes, o que corresponde a uma captura seletiva de áudio no ambiente. O primeiro formador

Petição 870190060716, de 28/06/2019, pág. 38/259

31/106 de feixes 305 é um formador de feixes adaptativo e a direcionalidade pode ser controlada pela definição de parâmetros, chamados de primeiros parâmetros de formação de feixes, da operação de formação de feixes do primeiro formador de feixes 305.

[00124] O primeiro formador de feixes 305 é acoplado a um primeiro adaptador 307 que está disposto de modo a adaptar os primeiros parâmetros de formação de feixes. Dessa forma, o primeiro adaptador 307 está disposto de modo a adaptar os parâmetros do primeiro formador de feixes 305 de modo que o feixe possa ser direcionado.

[00125] Além disso, o aparelho de captura de áudio compreende uma pluralidade de formadores de feixe restritos 309, 311, cada um dos quais está disposto de modo a combinar os sinais a partir da matriz de microfones 301, de modo que seja gerada uma sensibilidade de áudio direcional eficaz da matriz de microfones 301. Cada um dos formadores de feixe restritos 309, 311 está, portanto, disposto de modo a gerar uma saida de áudio, chamada de saida de áudio restrita formada em feixes, o que corresponde a uma captura seletiva de áudio no ambiente. De modo similar, para o primeiro formador de feixes 305, os formadores de feixe restritos 309, 311 são formadores de feixe adaptativos, onde a diretividade de cada formador de feixes restrito 309, 311 pode ser controlada pelo ajuste de parâmetros, chamados de parâmetros de formação restrita de feixes, dos formadores de feixe restritos 309, 311.

[00126] O aparelho de captura de áudio compreende consequentemente um segundo adaptador 313 que está disposto de modo a adaptar os parâmetros de formação restrita de feixes

Petição 870190060716, de 28/06/2019, pág. 39/259

32/106 da pluralidade de formadores de feixe restritos adaptando, assim, os feixes formados pelos mesmos.

[00127] Tanto o primeiro formador de feixes 305 quanto os formadores de feixe restritos 309, 311 são, consequentemente, formadores de feixe adaptativos para os quais o feixe real formado pode ser adaptado dinamicamente. Especificamente, os formadores de feixe 305, 309, 311 são do tipo filtragem e combinação (ou especificamente, na maioria das modalidades, filtragem e soma). Um filtro formador de feixes pode ser aplicado a cada um dos sinais de microfone, e as saidas filtradas podem ser combinadas tipicamente por meio da simples adição umas às outras.

[00128] Na maioria das modalidades, cada um dos filtros formadores de feixe tem uma resposta ao impulso no domínio do tempo que não é um simples pulso de Dirac (correspondente a um simples atraso e, portanto, um ganho e um deslocamento de fase no domínio da frequência) mas, ao invés disso, tem uma resposta ao impulso que tipicamente se estende ao longo de um intervalo de tempo de não menos que 2,

5, 10 ou mesmo 30 ms.

[00129] A resposta ao impulso pode muitas vezes ser implementada pelos filtros de formação de feixes sendo filtros FIR (filtro de resposta finita) com uma pluralidade de coeficientes. O primeiro e o segundo adaptadores 307, 313, em tais modalidades, pode adaptar a formação de feixes por meio da adaptação dos coeficientes de filtro. Em muitas modalidades, os filtros FIR podem ter coeficientes que correspondem a compensações de tempo fixas (geralmente compensações de tempo de amostragem) com os adaptadores 307, 313 sendo dispostos de modo a adaptar os valores de coeficiente. Em outras modalidades,

Petição 870190060716, de 28/06/2019, pág. 40/259

33/106 os filtros formadores de feixe podem tipicamente ter um número substancialmente menor de coeficientes (por exemplo, apenas dois ou três), mas com a temporização destes sendo (também) adaptável.

[00130] Uma vantagem especifica de os filtros de formação de feixes terem respostas ao impulso estendidas em vez de serem um simples atraso de variável (ou um simples ajuste de fase/ganho de dominio da frequência) é que isso possibilita que os formadores de feixe 305, 30 9, 311 não se adaptem apenas ao componente de sinal mais forte, tipicamente direto. Ao invés disso, permite que os formadores de feixe 305, 309, 311 se adaptem para incluir trajetórias de sinal adicionais que correspondem tipicamente a reflexões. Consequentemente, a abordagem possibilita um desempenho aprimorado na maioria dos ambientes reais e, especificamente, permite um desempenho aprimorado em ambientes reflexivos e/ou reverberantes, e/ou para fontes de áudio mais distantes da matriz de microfones 301.

[00131] Deve-se considerar que diferentes algoritmos de adaptação podem ser usados em diferentes modalidades e que vários parâmetros de otimização serão conhecidos pelo versado na técnica. Por exemplo, os adaptadores 307, 313 podem adaptar os parâmetros de formação de feixes para maximizar o valor do sinal de saida do formador de feixes. Como um exemplo especifico, considere um formador de feixes no qual os sinais de microfone recebidos são filtrados com filtros correspondentes para a frente e onde as saidas filtradas são adicionadas. O sinal de saida é filtrado por filtros adaptativos para trás, sendo que as respostas de filtro são conjugadas para os filtros para frente (no dominio da frequência correspondente a respostas ao impulso invertidas no tempo no dominio do tempo). Os sinais de erro são gerados como a diferença entre os sinais

Petição 870190060716, de 28/06/2019, pág. 41/259

34/106 de entrada e as saídas dos filtros adaptativos para trás, e os coeficientes dos filtros são adaptados para minimizar os sinais de erro resultando assim na potência máxima de saída. Detalhes adicionais de tal abordagem podem ser encontrados nos documentos US 7.146.012 e US 7.602.926.

[00132] Deve-se notar que as abordagens como as descritas nos documentos US 7.146.012 e US 7.602.926 são baseadas no fato de que adaptação se baseia tanto no sinal da fonte de áudio z(n) quanto no sinal (ou sinais) de referência de ruído x(n) dos formadores de feixe, e será observado que a mesma abordagem pode ser usada para o sistema da Figura 3.

[00133] O primeiro formador de feixes 305 e os formadores de feixe restritos 309, 311 podem ser especificamente formadores de feixe que correspondem a um ilustrado na Figura 1 e revelado nos documentos US 7.146.012 e US 7 . 602.926.

[00134] Em muitas modalidades, a estrutura e implementação do primeiro formador de feixes 305 e dos formadores de feixe restritos 309, 311 podem ser iguais, por exemplo, os filtros de formação de feixes podem ter estruturas de filtro FIR idênticas com o mesmo número de coeficientes etc.

[00135] Entretanto, a operação e os parâmetros do primeiro formador de feixes 305 e dos formadores de feixe restritos 309, 311 serão diferentes e, em particular, os formadores de feixe restritos 309, 311 são restritos de maneiras que o primeiro formador de feixes 305 não é. Especificamente, a adaptação dos formadores de feixe restritos 309, 311 será diferente da adaptação do primeiro formador de

Petição 870190060716, de 28/06/2019, pág. 42/259

35/106 feixes 305 e estará especificamente sujeita a algumas restrições.

[00136] Especificamente, os formadores de feixe restritos 309, 311 estão sujeitos à restrição de que a adaptação (atualização de parâmetros de filtro de formação de feixes) é restrita a situações em que um critério é satisfeito, enquanto o primeiro formador de feixes 305 poderá adaptar mesmo quando esse critério não for satisfeito. De fato, em muitas modalidades, pode-se possibilitar que o primeiro adaptador 307 sempre adapte o filtro de formação de feixes sem que esse seja restringido por quaisquer propriedades do áudio capturado pelo primeiro formador de feixes 305 (ou qualquer dos formadores de feixe restritos

309, 311) .

[00137]

O critério para adaptar os formadores de feixe restritos

309

311 será descrito em mais detalhes posteriormente.

[00138]

Em muitas modalidades, a taxa de adaptação do primeiro formador de feixes 305 é maior do que para os formadores de feixe restritos 309, 311.

Dessa forma, em muitas modalidades, o primeiro adaptador 307 pode estar disposto de modo a adaptar-se mais rapidamente às variações do que segundo adaptador 313 dessa forma o primeiro formador de feixes

305 pode ser atualizado mais rapidamente do que os formadores de feixe restritos

309

311 .

Isso pode, por exemplo, ser alcançado mediante a filtragem por passa-baixa de um valor que é maximizado ou minimizado (por exemplo, o nivel de sinal do sinal de saida ou a magnitude de um sinal de erro) e tem uma frequência de corte para o primeiro formador de feixes 305 mais alta do que para os formadores de feixe restritos 309, 311. Como outro exemplo, uma alteração

Petição 870190060716, de 28/06/2019, pág. 43/259

36/106 máxima por atualização dos parâmetros de formação de feixes (especificamente, os coeficientes de filtro de formação de feixes) pode ser maior para o primeiro formador de feixes 305 do que para os formadores de feixe restritos 309, 311.

[00139] Consequentemente, no sistema, uma pluralidade de formadores de feixe focalizados (restritos em relação à adaptação) que adaptam lentamente e apenas quando um critério especifico é atendido é suplementada por um formador de feixes de adaptação livre e mais rápida que não está sujeito a essa restrição. Os formadores de feixe focalizados e mais lentos tipicamente fornecerão uma adaptação mais lenta, porém mais precisa e confiável, ao ambiente de áudio especifico, em comparação ao formador de feixes de execução livre que, no entanto, será tipicamente capaz de adaptar-se rapidamente ao longo de um maior intervalo de parâmetros.

[00140] No sistema da Figura 3, esses formadores de feixe são usados de modo sinérgico para fornecer desempenho aprimorado, conforme será descrito em mais detalhes posteriormente.

[00141] O primeiro formador de feixes 305 e os formadores de feixe restritos 309, 311 são acoplados a um processador de saida 315 que recebe os sinais de saida de áudio formada em feixes dos formadores de feixe 305, 309, 311. A saida exata gerada a partir do aparelho de captura de áudio dependerá das preferências e requisitos especificos da modalidade individual. De fato, em algumas modalidades, a saida do aparelho de captura de áudio pode simplesmente consistir nos sinais de saida de áudio dos formadores de feixe 305, 309, 311.

[00142] Em muitas modalidades, o sinal de saida do processador de saida 315 é gerado como uma combinação dos

Petição 870190060716, de 28/06/2019, pág. 44/259

37/106 sinais de saída de áudio dos formadores de feixe 305, 309, 311. De fato, em algumas modalidades, uma combinação de seleção simples pode ser realizada, por exemplo, selecionando-se os sinais de saída de áudio para os quais a razão entre sinal e ruído, ou simplesmente o nível de sinal, é a mais alta.

[00143] Dessa forma, a seleção de saída e o pósprocessamento do processador de saída 315 pode ser específico para a aplicação e/ou diferente em diferentes implementações/modalidades. Por exemplo, todas as saídas possíveis de feixe focalizado podem ser fornecidas, uma seleção pode ser feita com base em um critério definido pelo usuário (por exemplo, o orador mais forte é selecionado), entre outros.

[00144] Para uma aplicação de controle por voz, por exemplo, todas as saídas podem ser transmitidas a um reconhecedor de ativação por voz que está disposto de modo a detectar uma palavra ou frase específica para inicializar o controle por voz. Em tal exemplo, o sinal da saída de áudio no qual a palavra ou frase gatilho é detectada pode, após a frase de ativação, ser usado por um reconhecedor de voz para detectar comandos específicos.

[00145] Para aplicações de comunicação, pode ser vantajoso, por exemplo, selecionar o sinal de saída de áudio que é mais forte e, por exemplo, para o qual a presença de uma fonte de áudio pontual específica tenha sido encontrada.

[00146] Em algumas modalidades, pós-processamento, como a supressão de ruído da Figura 1, pode ser aplicado à saída do aparelho de captura de áudio (por exemplo, pelo processador de saída 315) . Isso pode aprimorar o desempenho para, por exemplo, comunicação por voz. Em tal pós-processamento, podem ser incluídas operações não lineares, embora para alguns

Petição 870190060716, de 28/06/2019, pág. 45/259

38/106 reconhecedores de fala, por exemplo, possa ser mais vantajoso limitar o processamento para incluir apenas processamento linear.

[00147] No sistema da Figura 3, uma abordagem particularmente vantajosa é tomada para capturar áudio com base na interação e inter-relação sinérgica entre o primeiro formador de feixes 305 e os formadores de feixe restritos 309, 311.

[00148] Para esse propósito, o aparelho de captura de áudio compreende um processador de diferença 317 que está disposto de modo a determinar uma medição de diferença entre um ou mais dos formadores de feixe restritos 309, 311 e o primeiro formador de feixes 305. A medição da diferença é indicativa de uma diferença entre os feixes formados respectivamente pelo primeiro formador de feixes 305 e o formador de feixes restrito 309, 311. Dessa forma, a medição de diferença para um primeiro formador de feixes restrito 309 pode indicar a diferença entre os feixes que são formados pelo primeiro formador de feixes 305 e pelo primeiro formador de feixes restrito 309. Dessa forma, a medição de diferença pode ser indicativa de quão próximos os dois formadores de feixe 305, 30 9 são adaptados à mesma fonte de áudio.

[00149] Diferentes medições de diferença podem ser usadas em diferentes modalidades e aplicações.

[00150] Em algumas modalidades, a medição de diferença pode ser determinada com base na saida de áudio formada em feixes gerada a partir dos diferentes formadores de feixe 305, 309, 311. Como um exemplo, uma simples medição de diferença pode simplesmente ser gerada pela medição dos niveis de sinal da saída do primeiro formador de feixes 305 e do primeiro formador de feixes restrito 309 e pela comparação dos mesmos,

Petição 870190060716, de 28/06/2019, pág. 46/259

39/106 um em relação ao outro. Quanto mais perto os niveis de sinal estiverem um do outro, menor será a medição de diferença (geralmente, a medição de diferença também aumentará como uma função do nivel de sinal real, por exemplo, do primeiro formador de feixes 305) .

[00151] Uma medição de diferença mais adequada em muitas modalidades pode ser gerada pela determinação de uma correlação entre a saída de áudio formada em feixes do primeiro formador de feixes 305 e do primeiro formador de feixes restrito 309. Quanto maior o valor de correlação, menor será a medição de diferença.

[00152] Alternativa ou adicionalmente, a medição de diferença pode ser determinada com base em uma comparação entre os parâmetros de formação de feixes do primeiro formador de feixes 305 e do primeiro formador de feixes restrito 309. Por exemplo, os coeficientes do filtro de formação de feixes do primeiro formador de feixes 305 e do filtro de formação de feixes do primeiro formador de feixes restrito 309 para um dado microfone podem ser representados por dois vetores. A magnitude do vetor de diferença desses dois vetores pode então ser calculada. O processo pode ser repetido para todos os microfones e a magnitude combinada ou média pode ser determinada e usada como uma medição de distância. Dessa forma, a medição de diferença gerada reflete quão diferentes os coeficientes dos filtros de formação de feixes são para o primeiro formador de feixes 305 e o primeiro formador de feixes restrito 309, e isso é usado como uma medição de diferença dos feixes.

[00153] Dessa forma, no sistema da Figura 3, uma medição de diferença é gerada para refletir uma diferença entre os parâmetros de formação de feixes do primeiro formador de

Petição 870190060716, de 28/06/2019, pág. 47/259

40/106 feixes 305 e do primeiro formador de feixes restrito 309 e/ou uma diferença entre as saidas de áudio formadas em feixes dos mesmos.

[00154] Deve-se considerar que gerar, determinar e/ou usar uma medição de diferença é diretamente equivalente a gerar, determinar e e/ou usar uma medição de similaridade. De fato, uma função pode tipicamente ser considerada monotonicamente decrescente da outra e, dessa forma, uma medição de diferença é também uma medição de similaridade (e vice-versa) com tipicamente uma simplesmente indicando diferenças crescentes por valores crescentes e a outra fazendo isso por valores decrescentes.

[00155] O processador de diferença 317 é acoplado ao segundo adaptador 313 e fornece a medição de diferença para ele. O segundo adaptador 313 está disposto de modo a adaptar os formadores de feixe restritos 309, 311 em resposta à medição de diferença. Especificamente, o segundo adaptador 313 está disposto de modo a adaptar os parâmetros de formação restrita de feixes apenas para formadores de feixe restritos para os quais foi determinada uma medição de diferença que satisfaz um critério de similaridade. Dessa forma, se nenhuma medição de diferença tiver sido determinada para um dado formador de feixes restrito 309, 311, ou se a medição de diferença determinada para o dado formador de feixes restrito 309, 311 indicar que os feixes do primeiro formador de feixes 305 e o dado formador de feixes restrito 309, 311 não são suficientemente similares, então nenhuma adaptação é feita.

[00156] Dessa forma, no aparelho de captura de áudio da Figura 3, os formadores de feixe restritos 309, 311 são restritos na adaptação dos feixes. Especificamente, eles

Petição 870190060716, de 28/06/2019, pág. 48/259

41/106 são restringidos a apenas se adaptar se o feixe atual formado pelo formador de feixes restrito 309, 311 estiver próximo do feixe que o primeiro formador de feixes de execução livre 305 está formando, isto é, o formador de feixes restrito individual 309, 311 é somente adaptado se o primeiro formador de feixes 305 for atualmente adaptado para ser suficientemente próximo ao formador de feixes restrito individual 309, 311.

[00157] O resultado disso é que a adaptação dos formadores de feixe restritos 309, 311 é controlada pela operação do primeiro formador de feixes 305 de modo que efetivamente o feixe formado pelo primeiro formador de feixes 305 controla quais dentre os formadores de feixe restritos 309, 311 são otimizados/adaptados. Essa abordagem pode fazer especificamente com que os formadores de feixe restritos 309, 311 sejam propensos a ser adaptados apenas quando uma fonte de áudio desejada estiver perto da adaptação atual do formador de feixes restrito 309, 311.

[00158] Na prática, observou-se que a abordagem de exigir similaridade entre os feixes para possibilitar uma adaptação resulta em um desempenho substancialmente otimizado quando a fonte de áudio desejada, o orador desejado no caso em questão, está fora do raio de reverberação. De fato, descobriuse que isso fornece um desempenho altamente desejável para, em particular, fontes de áudio fracas em ambientes reverberantes com um componente de áudio de trajetória direta não dominante.

[00159] Em muitas modalidades, a restrição da adaptação pode estar sujeita a requisitos adicionais.

[00160] Por exemplo, em muitas modalidades, a adaptação pode ser uma exigência de que uma razão entre sinal e ruido para a saida de áudio formada em feixes exceda um

Petição 870190060716, de 28/06/2019, pág. 49/259

42/106 limiar. Dessa forma, a adaptação para o formador de feixes restrito individual 309, 311 pode ser restrita a cenários em que isso é suficientemente adaptado e o sinal com base no qual a adaptação é baseada reflete o sinal de áudio desejado.

[00161] Deve-se considerar que, em modalidades diferentes, poderão ser usadas abordagens diferentes para determinar a razão entre sinal e ruido. Por exemplo, o piso de ruido dos sinais de microfone pode ser determinado mediante o rastreamento do minimo de uma estimativa de potência suavizada e, para cada periodo ou intervalo de tempo, a potência instantânea é comparada com esse minimo. Como outro exemplo, o piso de ruido da saida do formador de feixes pode ser determinado e comparado com a potência de saida instantânea da saida com formação de feixes.

[00162] Em algumas modalidades, a adaptação de um formador de feixes restrito 309, 311 é restrita a quando um componente de fala é detectado na saida do formador de feixes restrito 309, 311. Isso fornecerá desempenho aprimorado para aplicações de captura de voz. Deve-se considerar que qualquer abordagem ou algoritmo adequado para detectar fala em um sinal de áudio pode ser usado.

[00163] Deve-se considerar que os sistemas das Figuras 3 a 5 operam tipicamente com o uso de um processamento de quadro ou bloco. Dessa forma, os intervalos de tempo ou os periodos consecutivos são definidos, e o processamento descrito pode ser realizado dentro de cada intervalo de tempo. Por exemplo, os sinais de microfone podem ser divididos em intervalos de tempo de processamento e, para cada intervalo de tempo de processamento, os formadores de feixe 305, 309, 311 podem gerar um sinal de saida de áudio formada em feixes para

Petição 870190060716, de 28/06/2019, pág. 50/259

43/106 o intervalo de tempo, determinar uma medição de diferença, selecionar um formador de feixes restrito 309, 311 e atualizar/adaptar esse formador de feixes restrito 309, 311. Os intervalos de tempo de processamento, em muitas modalidades, vantajosamente têm uma duração entre 5 ms e 50 ms.

[00164] Deve-se considerar que, em algumas modalidades, diferentes intervalos de tempo de processamento podem ser usados para diferentes aspectos e funções do aparelho de captura de áudio. Por exemplo, a medição de diferença e a seleção de um formador de feixes restrito 309, 311 para adaptação podem ser realizadas em uma frequência mais baixa do que, por exemplo, o intervalo de tempo de processamento para formação de feixes.

[00165] Em muitas modalidades, a adaptação pode ocorrer em dependência da detecção das fontes de áudio pontuais nas saidas de áudio formadas em feixes. Consequentemente, em muitas modalidades, o aparelho de captura de áudio pode compreender adicionalmente um detector de fonte de áudio 401, conforme ilustrado na Figura 4.

[00166] O detector de fonte de áudio 401 pode especificamente, em muitas modalidades, estar disposto de modo a detectar fontes de áudio pontuais nas segundas saidas de áudio formadas em feixes e, consequentemente, o detector de fonte de áudio 401 é acoplado aos formadores de feixe restritos 309, 311 e recebe as saídas de áudio formadas por feixe a partir desses.

[00167] Uma fonte pontual de áudio na acústica é um som que se origina de um ponto no espaço. Será entendido que o detector de fonte de áudio 401 pode usar algoritmos ou critérios diferentes para estimar (detectar) se uma fonte de áudio pontual está presente na saída de áudio formada em feixes

Petição 870190060716, de 28/06/2019, pág. 51/259

44/106 de um dado formador de feixes restrito 309, 311 e que o versado na técnica estará ciente de várias dessas abordagens.

[00168] Uma abordagem pode ser especificamente baseada na identificação de características de uma fonte pontual única ou dominante capturada pelos microfones da matriz de microfones 301. Uma fonte pontual única ou dominante pode, por exemplo, ser detectada olhando-se a correlação entre os sinais nos microfones. Se houver uma correlação alta, então, uma fonte pontual dominante é considerada presente. Se a correlação for baixa, então, considera-se que não há uma fonte pontual dominante, mas que os sinais capturados se originam de muitas fontes não correlacionadas. Dessa forma, em muitas modalidades, uma fonte de áudio pontual pode ser considerada como sendo uma fonte de áudio espacialmente correlacionada, onde a correlação espacial é refletida pela correlação dos sinais de microfone.

[00169] No presente caso, a correlação é determinada após a filtragem pelos filtros de formação de feixes. Especificamente, pode ser determinada uma correlação da saida dos filtros formadores de feixe dos formadores de feixe restritos 309, 311, e se isso exceder um dado limiar, uma fonte de áudio pontual pode ser considerada como tendo sido detectada.

[00170] Em outras modalidades, uma fonte pontual pode ser detectada mediante a avaliação do conteúdo das saidas de áudio formadas em feixes. Por exemplo, o detector de fonte de áudio 401 pode analisar as saidas de áudio formadas em feixes, e se um componente de fala de resistência suficiente for detectado em uma saida de áudio formada em feixes, isso pode ser considerado como correspondente a uma fonte de áudio pontual e, dessa forma, a detecção de um componente de voz forte pode ser

Petição 870190060716, de 28/06/2019, pág. 52/259

45/106 considerada como sendo uma detecção de uma fonte de áudio pontual.

[00171] O resultado da detecção é passado do detector de fonte de áudio 401 para o segundo adaptador 313, que está disposto de modo a adaptar a adaptação em resposta a isso. Especificamente, o segundo adaptador 313 pode estar disposto de modo a adaptar apenas formadores de feixe restritos 309, 311 para os quais o detector 401 indica que uma fonte de áudio foi detectada.

[00172] Dessa forma, o aparelho de captura de áudio está disposto de modo a restringir a adaptação dos

formadores	de	feixe	restritos	309,	311	de modo que apenas
formadores	de	feixe	restritos	309,	311	sejam adaptados nos
quais uma	fonte de	áudio pontual	está	presente no feixe

formado, e o feixe formado está próximo daquele formado pelo primeiro formador de feixes 305. Dessa forma, a adaptação é tipicamente restrita aos formadores de feixe restritos 309, 311 que já estão próximos de uma fonte de áudio pontual (desejada). A abordagem possibilita uma formação de feixes muito robusta e precisa que tem um desempenho extraordinariamente bom em ambientes onde a fonte de áudio desejada pode estar fora de um raio de reverberação. Além disso, ao se operar e atualizar seletivamente uma pluralidade de formadores de feixe restritos 309, 311, essa robustez e exatidão podem ser suplementadas por um tempo de reação relativamente rápido que possibilita a rápida adaptação do sistema como um todo a fontes sonoras de movimento rápido ou de ocorrência recente.

[00173] Em muitas modalidades, o aparelho de captura de áudio pode estar disposto de modo a adaptar apenas

Petição 870190060716, de 28/06/2019, pág. 53/259

46/106 um formador de feixes restrito 309, 311 de cada vez. Dessa forma, o segundo adaptador 313 pode, em cada intervalo de tempo de adaptação, selecionar um dos formadores de feixe restritos 309, 311 e adaptar apenas isso mediante a atualização dos parâmetros de formação de feixes.

[00174] A seleção de um único formador de feixes restrito 309, 311 ocorrerá de modo tipicamente automático ao selecionar um formador de feixes restrito 309, 311 para adaptação apenas se o feixe atual formado estiver próximo àquele formado pelo primeiro formador de feixes 305 e se uma fonte de áudio pontual é detectada no feixe.

[00175] Entretanto, em algumas modalidades, pode ser possivel que uma pluralidade de formadores de feixe restritos 309, 311 satisfaça simultaneamente os critérios. Por exemplo, se uma fonte de áudio pontual é posicionada próxima às regiões cobertas por dois formadores de feixe restritos diferentes 309, 311 (ou, por exemplo, está em uma área de sobreposição das regiões) , a fonte de áudio pontual pode ser detectada em ambos os feixes e esses podem ser adaptados para estarem próximos uns dos outros por ambos serem adaptados em direção à fonte de áudio pontual.

[00176] Dessa forma, em tais modalidades, o segundo adaptador 313 pode selecionar um dos formadores de feixe restritos 309, 311 que satisfazem os dois critérios e apenas adaptam este. Isso reduzirá o risco de que dois feixes sejam adaptados para a mesma fonte de áudio pontual e, dessa forma, reduzir o risco de as operações destes interferirem entre si.

[00177] De fato, adaptar os formadores de feixe restritos 309, 311 sob a restrição de que a medição de diferença

Petição 870190060716, de 28/06/2019, pág. 54/259

47/106 correspondente precisa ser suficientemente baixa e selecionar apenas um único formador de feixes restrito 309, 311 para adaptação (por exemplo, em cada intervalo/quadro de tempo de processamento) resultará na adaptação sendo diferenciada entre os diferentes formadores de feixe restritos 309, 311. Isso tenderá a resultar nos formadores de feixe restritos 309, 311 sendo adaptados para cobrir diferentes regiões com o formador de feixes restrito mais próximo 309, 311 sendo automaticamente selecionado para adaptar/seguir a fonte de áudio detectada pelo primeiro formador de feixes 305. Entretanto, em contraste com, por exemplo, a abordagem da Figura 2, as regiões não são fixas e predeterminadas, mas são formadas dinâmica e automaticamente.

[00178] Deve-se observar também que as regiões podem ser dependentes da formação de feixes para uma pluralidade de trajetórias e não são tipicamente limitadas à direção angular das regiões de chegada. Por exemplo, as regiões podem ser diferenciadas com base na distância até a matriz de microfones. Dessa forma, o termo região pode ser considerado como referindose a posições no espaço em que uma fonte de áudio resultará na adaptação que satisfaz o requisito de similaridade para a medição de diferença. Isso inclui, portanto, a consideração não apenas da trajetória direta, mas também, por exemplo, das reflexões, se estas são consideradas nos parâmetros de formação de feixes e, em particular, são determinadas com base tanto no aspecto espacial como temporal (e especificamente dependem das respostas de impulso completo dos filtros de formação de feixes).

[00179] A seleção de um único formador de feixes restrito 309, 311 pode ser especificamente em resposta a um nivel de áudio capturado. Por exemplo, o detector de fonte de áudio 401 pode determinar o nivel de áudio de cada uma das

Petição 870190060716, de 28/06/2019, pág. 55/259

48/106 saídas de áudio formadas em feixes dos formadores de feixe restritos 309, 311 que satisfazem os critérios, e pode selecionar o formador de feixes restrito 309, 311 que resulta no nível mais alto. Em algumas modalidades, o detector de fonte de áudio 401 pode selecionar o formador de feixes restrito 309, 311 para o qual uma fonte de áudio pontual detectada na saída de áudio formada em feixes tem o valor mais alto. Por exemplo, o detector de fonte de áudio 401 pode detectar um componente de fala nas saídas de áudio formadas em feixes de dois formadores de feixe restritos 309, 311 e prosseguir para selecionar aquele que tem o nível mais alto do componente de fala.

[00180] Na abordagem, uma adaptação muito seletiva dos formadores de feixe restritos 309, 311 é, dessa forma, realizada levando a que estes apenas se adaptem em circunstâncias específicas. Isso fornece uma formação de feixes muito robusta pelos formadores de feixe restritos 309, 311 resultando na captura aprimorada de uma fonte de áudio desejada. Entretanto, em muitos cenários, as restrições na formação de feixes podem também resultar em uma adaptabilidade mais lenta e, de fato, podem, em muitas situações, resultar em novas fontes de áudio (por exemplo, novos alto-falantes) que não são detectadas ou são apenas muito lentamente adaptadas.

[00181] A Figura 5 ilustra o aparelho de captura de áudio da Figura 4, mas com a adição de um controlador de formador de feixes 501 que é acoplado ao segundo adaptador 313 e ao detector de fonte de áudio 401. O controlador de formador de feixes 501 está disposto de modo a inicializar um formador de feixes restrito 309, 311 em certas situações. Especificamente, o controlador de formador de feixes 501 pode inicializar um

Petição 870190060716, de 28/06/2019, pág. 56/259

49/106 formador de feixes restrito 309, 311 em resposta ao primeiro formador de feixes 305 e, especificamente, pode inicializar um dos formadores de feixe restritos 309, 311 para formar um feixe que corresponde àquele do primeiro formador de feixes 305.

[00182] O controlador de formador de feixes 501 define especificamente os parâmetros de formação de feixes de um dos formadores de feixe restritos 309, 311 em resposta aos parâmetros de formação de feixes do primeiro formador de feixes 305, doravante chamados de primeiros parâmetros de formação de feixe. Em algumas modalidades, os filtros dos formadores de feixe restritos 309, 311 e o primeiro formador de feixes 305 podem ser idênticos, por exemplo, eles podem ter a mesma arquitetura. Como um exemplo especifico, ambos os filtros dos formadores de feixe restritos 309, 311 e o primeiro formador de feixes 305 podem ser filtros FIR com o mesmo comprimento (isto é, um dado número de coeficientes), e os valores de coeficiente adaptados atuais dos filtros do primeiro formador de feixes 305 podem ser simplesmente copiados para o formador de feixes restrito 309, 311, isto é os coeficientes do formador de feixes restrito 309, 311 podem ser definidos como os valores do primeiro formador de feixes 305. Dessa maneira, o formador de feixes restrito 309, 311 será inicializado com as mesmas propriedades de feixe conforme atualmente adaptadas para o primeiro formador de feixes 305.

[00183] Em algumas modalidades, o ajuste dos filtros do formador de feixes restrito 309, 311 pode ser determinado a partir dos parâmetros de filtro do primeiro formador de feixes 305, mas em vez de usar esses filtros diretamente, eles podem ser adaptados antes de serem aplicados. Por exemplo, em algumas modalidades, os

Petição 870190060716, de 28/06/2019, pág. 57/259

50/106 coeficientes de filtros FIR podem ser modificados para inicializar o feixe do formador de feixes restrito 309, 311 para ser mais amplo do que o feixe do primeiro formador de feixes 305 (mas, por exemplo, sendo formado na mesma direção).

[00184] O controlador de formador de feixes 501 pode, em muitas modalidades, consequentemente, em algumas circunstâncias, inicializar um dos formadores de feixe restritos 309, 311 com um feixe inicial que corresponde àquele do primeiro formador de feixes 305. O sistema pode, então, prosseguir para tratar o formador de feixes restrito 309, 311 conforme anteriormente descrito e, especificamente, pode prosseguir para adaptar o formador de feixes restrito 309, 311 quando o mesmo satisfaz os critérios anteriormente descritos.

	[00185]	Os	critérios	para inicializar	um formador
de feixes	restrito	309,	311	podem	ser diferentes em	modalidades
diferentes	[00186]	Em	muitas modalidades, o controlador de
formador	de feixes	501	pode	estar disposto	de modo a

inicializar um formador de feixes restrito 309, 311 se a presença de uma fonte de áudio pontual for detectada na primeira saida de áudio formada em feixes, mas não em quaisquer saidas de áudio restritas formadas em feixe.

[00187] Dessa forma, o detector de fonte de áudio 401 pode determinar se uma fonte de áudio pontual está presente em qualquer uma das saidas de áudio formadas em feixes dos formadores de feixe restritos 309, 311 ou do primeiro formador de feixes 305. Os resultados de detecção/estimativa para cada saida de áudio formada em feixes podem ser encaminhados para o controlador de formador de feixes 501 que pode avaliar isso. Se uma fonte de áudio

Petição 870190060716, de 28/06/2019, pág. 58/259

51/106 pontual for detectada apenas para o primeiro formador de feixes 305, mas não para qualquer um dos formadores de feixe restritos 309, 311, isso pode refletir uma situação em que uma fonte de áudio pontual, como um alto-falante, está presente e detectada pelo primeiro formador de feixes 305, mas nenhum dos formadores de feixe restritos 309, 311 detectou ou foi adaptado à fonte de áudio pontual. Nesse caso, os formadores de feixe restritos 309, 311 podem nunca (ou apenas muito lentamente) adaptar-se à fonte de áudio pontual. Portanto, um dos formadores de feixe restritos 309, 311 é inicializado para formar um feixe que corresponde à fonte de áudio pontual. Subsequentemente, é provável que esse feixe esteja suficientemente próximo à fonte de áudio pontual e ele irá (de maneira tipicamente lenta, mas confiável) se adaptar a essa nova fonte de áudio pontual.

[00188] Dessa forma, a abordagem pode combinar e fornecer efeitos vantajosos tanto do primeiro formador de feixes rápido 305 quanto dos formadores de feixe restritos confiáveis 309, 311.

[00189] Em algumas modalidades, o controlador de formador de feixes 501 pode estar disposto de modo a inicializar o formador de feixes restrito 309, 311 apenas se a medição de diferença para o formador de feixes restrito 309, 311 exceder o limiar. Especificamente, se a medição de diferença determinada mais baixa para os formadores de feixe restritos 309, 311 estiver abaixo do limiar, nenhuma inicialização é executada. Em tal situação, pode ser possivel que a adaptação do formador de feixes restrito 309, 311 esteja mais próxima da situação desejada, enquanto a adaptação menos confiável do primeiro formador de feixes 305 é menos precisa

Petição 870190060716, de 28/06/2019, pág. 59/259

52/106 e pode se adaptar para estar mais próxima do primeiro formador de feixes 305. Dessa forma, em tais cenários em que a medição de diferença é suficientemente baixa, pode ser vantajoso permitir que o sistema tente se adaptar automaticamente.

[00190] Em algumas modalidades, o controlador de formador de feixes 501 pode especificamente estar disposto de modo a inicializar um formador de feixes restrito 309, 311 quando uma fonte de áudio pontual é detectada tanto para o primeiro formador de feixes 305 como para um dos formadores de feixe restritos 309, 311, mas a medição de diferença para estes não satisfaz um critério de similaridade. Especificamente, o controlador de formador de feixes 501 pode estar disposto de modo a definir parâmetros de formação de feixes para um primeiro formador de feixes restrito 309, 311 em resposta aos parâmetros de formação de feixes do primeiro formador de feixes 305 se uma fonte de áudio pontual for detectada tanto na saida de áudio formada em feixes do primeiro formador de feixes 305 quanto na saida de áudio formada em feixes do formador de feixes restrito 309, 311, e a medição de diferença desses excede um limiar.

[00191] Tal cenário pode refletir uma situação em que o formador de feixes restrito 309, 311 pode possivelmente ter se adaptado e capturado uma fonte de áudio pontual que, entretanto, é diferente da fonte de áudio pontual capturada pelo primeiro formador de feixes 305. Dessa forma, pode especificamente refletir que um formador de feixes restrito 309, 311 pode ter capturado a fonte de áudio pontual errada. Consequentemente, o formador de feixes restrito 309, 311 pode ser reinicializado para formar um feixe em direção à fonte de áudio pontual desejada.

Petição 870190060716, de 28/06/2019, pág. 60/259

53/106 [00192] Em algumas modalidades, o número de formadores de feixe restritos 309, 311 que são ativos pode ser variado. Por exemplo, o aparelho de captura de áudio pode compreender funcionalidade para formar um número potencialmente relativamente alto de formadores de feixe restritos 309, 311. Por exemplo, pode implementar até, por exemplo, oito formadores de feixe restritos simultâneos 309, 311. Entretanto, a fim de reduzir, por exemplo, o consumo de energia e a carga computacional, nem todos estes podem estar ativos ao mesmo tempo.

[00193] Dessa forma, em algumas modalidades, um conjunto ativo de formadores de feixe restritos 309, 311 é selecionado dentre um agrupamento maior de formadores de feixe. Isso pode ser feito especificamente quando um formador de feixes restrito 309, 311 é inicializado. Dessa forma, nos exemplos fornecidos acima, a inicialização de um formador de feixes restrito 309, 311 (por exemplo, se nenhuma fonte de áudio pontual for detectada em qualquer formador de feixes restrito ativo 309, 311) pode ser obtida inicializando-se um formador de feixes não restrito ativo 309, 311 do agrupamento aumentando assim o número de formadores de feixe restritos ativos 309, 311.

[00194] Se todos os formadores de feixe restritos 309, 311 no agrupamento estiverem atualmente ativos, a inicialização de um formador de feixes restrito 309, 311 pode ser feita inicializando-se um formador de feixes restrito atualmente ativo 309, 311. O formador de feixes restrito 309, 311 a ser inicializado pode ser selecionado de acordo com qualquer critério adequado. Por exemplo, os formadores de feixe restritos 309, 311 que têm a maior medição de diferença ou o nivel de sinal mais baixo podem ser selecionados.

Petição 870190060716, de 28/06/2019, pág. 61/259

54/106 [00195] Em algumas modalidades, um formador de feixes restrito 309, 311 pode ser desativado em resposta a um critério adequado sendo atendido. Por exemplo, os formadores de feixe restritos 309, 311 podem ser desativados se a medição de diferença aumentar acima de um dado limiar.

[00196] Uma abordagem especifica para controlar a adaptação e ajuste dos formadores de feixe restritos 309, 311 de acordo com muitos dos exemplos descritos acima é ilustrada pelo fluxograma da Figura 6.

[00197] O método começa na etapa 601 pela inicialização do próximo intervalo de tempo de processamento (por exemplo, espera do inicio do próximo intervalo de tempo de processamento, coleta de um conjunto de amostras para o intervalo de tempo de processamento, etc).

[00198] A etapa 601 é seguida pela etapa 603 em que é determinado se há uma fonte de áudio pontual detectada em qualquer um dos feixes dos formadores de feixe restritos 309, 311.

[00199] Em caso positivo, o método continua na etapa 605 em que é determinado se a medição de diferença satisfaz um critério de similaridade e, especificamente, se a medição de diferença está abaixo de um limiar.

[00200] Em caso positivo, o método continua na etapa 607 em que o formador de feixes restrito 309, 311 no qual a fonte de áudio pontual foi detectada (ou que tem o maior nivel de sinal no caso de uma fonte de áudio pontual ser detectada em mais de um formador de feixes restrito 309, 311) é adaptado, isto é, os parâmetros de formação de feixes (filtro) são atualizados.

Petição 870190060716, de 28/06/2019, pág. 62/259

55/106 [00201] Caso contrário, o método continua na etapa 609 em que um formador de feixes restrito 309, 311 é inicializado, os parâmetros de formação de feixes de um formador de feixes restrito 309, 311 são ajustados dependendo dos parâmetros de formação de feixe do primeiro formador de feixes 305. O formador de feixes restrito 309, 311 sendo inicializado pode ser um novo formador de feixes restrito 309, 311 (isto é, um formador de feixes proveniente do grupo de formadores de feixe inativos) ou pode ser um formador de feixes restrito já ativo 309, 311, para o qual são fornecidos novos parâmetros de formação de feixes.

[00202] Seguindo qualquer das etapas 607 e 609, o método retorna à etapa 601 e aguarda o próximo intervalo de tempo de processamento.

[00203] Se na etapa 603 for detectado que nenhuma fonte de áudio pontual é detectada na saída de áudio formada em feixes de qualquer um dos formadores de feixe restritos 309, 311, o método prossegue para a etapa 611 na qual é determinado se uma fonte de áudio pontual é detectada no primeiro formador de feixes 305, isto é, se o cenário atual corresponde a uma fonte de áudio pontual sendo capturada pelo primeiro formador de feixes 305, mas por nenhum formador de feixes restrito 309, 311.

[00204] Caso contrário, nenhuma fonte de áudio pontual foi detectada, e o método retorna à etapa 601 para aguardar o próximo intervalo de tempo de processamento.

[00205] De outro modo, o método prossegue para a etapa 613 em que é determinado se a medição de diferença satisfaz um critério de similaridade e, especificamente, se a medição de diferença está abaixo de um limiar (que pode ser

Petição 870190060716, de 28/06/2019, pág. 63/259

56/106 igual ou pode ser um limiar/critério diferente daquele usado na etapa 605).

[00206] Em caso positivo, o método prossegue para a etapa 615 em que o formador de feixes restrito 309, 311 para o qual a medição de diferença está abaixo do limiar é adaptado (ou se mais de um formador de feixes restrito 30 9, 311 satisfaz o critério, aquele com, por exemplo, a medição de diferença mais baixa pode ser selecionado).

[00207] Caso contrário, o método prossegue para a etapa 617 em que um formador de feixes restrito 309, 311 é inicializado, os parâmetros de formação de feixes de um formador de feixes restrito 309, 311 são ajustados dependendo dos parâmetros de formação de feixes do primeiro formador de feixes 305. O formador de feixes restrito 309, 311 sendo inicializado pode ser um novo formador de feixes restrito 309, 311 (isto é, um formador de feixes proveniente do grupo de formadores de feixe inativos) ou pode ser um formador de feixes restrito já ativo 309, 311, para o qual são fornecidos novos parâmetros de formação de feixes.

[00208] Seguindo qualquer das etapas 615 e 617, o método retorna à etapa 601 e aguarda o próximo intervalo de tempo de processamento.

[00209] A abordagem descrita do aparelho de captura de áudio da Figura 3 pode proporcionar um desempenho vantajoso em muitos cenários e, em particular, pode tender a permitir que o aparelho de captura de áudio forme dinamicamente feixes focalizados, robustos e precisos para capturar fontes de áudio. Os feixes tenderão a ser adaptados para cobrir regiões diferentes e a abordagem pode, por exemplo, selecionar

Petição 870190060716, de 28/06/2019, pág. 64/259

57/106 e adaptar automaticamente o formador de feixes restrito mais próximo 309, 311.

[00210] Dessa forma, em contraste com a abordagem, por exemplo, da Figura 2, nenhuma restrição especifica nas direções do feixe ou nos coeficientes do filtro precisa ser diretamente imposta. Ao invés disso, regiões separadas podem ser automaticamente geradas/formadas deixando que os formadores de feixe restritos 309, 311 somente se adaptem (condicionalmente) quando houver uma única fonte de áudio dominante, e quando ela estiver suficientemente próxima do feixe do formador de feixes restrito 309, 311. Isso pode ser especificamente determinado considerando-se os coeficientes de filtro que levam em conta tanto o campo direto como as (primeiras) reflexões.

[00211] Deve-se notar que o uso de filtros com uma resposta estendida a impulso (em oposição ao uso de filtros de atraso simples, isto é, filtros de coeficiente único) também leva em consideração que as reflexões chegam algum tempo (especifico) após o campo direto. Consequentemente, um feixe não é determinado apenas por caracteristicas espaciais (a partir de quais direções o campo direto e as reflexões chegam), mas também é determinado por caracteristicas temporais (em que momentos após o campo direto fazer as reflexões chegarem). Dessa forma, as referências aos feixes não são meramente restritas a considerações espaciais, mas também refletem o componente temporal dos filtros de formação de feixes. De modo similar, as referências a regiões incluem tanto os efeitos puramente espaciais como os efeitos temporais dos filtros de formação de feixes.

[00212] Dessa forma, a abordagem pode ser considerada como formando regiões que são determinadas pela

Petição 870190060716, de 28/06/2019, pág. 65/259

58/106 diferença na medida de distância entre o feixe de circulação livre do primeiro formador de feixes 305 e o feixe do formador de feixes restrito 309, 311. Por exemplo, suponha que um formador de feixes restrito 309, 311 tenha um feixe focalizado em uma fonte (com caracteristicas espaciais e temporais). Suponha que a fonte esteja silenciosa e uma nova fonte se torne ativa com o primeiro formador de feixes 305 se adaptando para focalizar nisso. Então, cada fonte com caracteristicas espaçotemporais de modo que a distância entre o feixe do primeiro formador de feixes 305 e o feixe do formador de feixes restrito 309, 311 não exceda um limiar pode ser considerada como estando na região do formador de feixes restrito 309, 311. Dessa forma, a restrição no primeiro formador de feixes restrito 309 pode ser considerada como uma restrição no espaço.

[00213] O critério de distância para adaptação de um formador de feixes restrito, juntamente com a abordagem de inicializar os feixes (por exemplo, copiando os coeficientes do filtro formador de feixe) tipicamente permite que os formadores de feixe restritos 309, 311 formem feixes em diferentes regiões.

[00214] A abordagem tipicamente resulta na formação automática de regiões que refletem a presença de fontes de áudio no ambiente, ao invés de um sistema fixo predeterminado, como aquele da Figura 2. Essa abordagem flexível permite que o sistema seja baseado em características espaço-temporais, como aquelas causadas por reflexões, que seriam muito difíceis e complexas de incluir para um sistema predeterminado e fixo (uma vez que essas características dependem de muitos parâmetros como o tamanho, formato e características de reverberação do cômodo, etc.).

Petição 870190060716, de 28/06/2019, pág. 66/259

59/106 [00215] A seguir, uma abordagem especifica para determinar as medições de diferença será descrita com referência à Figura 6 que ilustra, por brevidade e clareza, a matriz de microfones 301, o primeiro formador de feixes 305, um segundo formador de feixes 309 que é um dos formadores de feixe restritos 309 e o processador de diferença 317. A saida do primeiro formador de feixes 305 será chamada de o primeiro sinal de saída de áudio formada em feixes e a saída do segundo formador de feixes 309 será chamada de o segundo sinal de saída de áudio formada em feixes.

[00216] O primeiro e o segundo formadores de feixe 303, 305 são, consequentemente, formadores de feixe adaptativos em que a direcionalidade pode ser controlada mediante a adaptação dos parâmetros da operação de formação de feixes.

[00217] Especificamente, os formadores de feixe 305, 309 são formadores de feixe do tipo filtragem e combinação (ou especificamente na maioria das modalidades, do tipo filtragem e soma). Um filtro formador de feixes pode ser aplicado a cada um dos sinais de microfone, e as saídas filtradas podem ser combinadas tipicamente por meio da simples adição umas às outras.

[00218] Na maioria das modalidades, cada um dos filtros formadores de feixe tem uma resposta ao impulso no domínio do tempo que não é um simples pulso de Dirac (correspondente a um simples atraso e, portanto, um ganho e um deslocamento de fase no domínio da frequência) mas, ao invés disso, tem uma resposta ao impulso que tipicamente se estende ao longo de um intervalo de tempo de não menos que 2, 5, 10 ou mesmo 30 ms.

Petição 870190060716, de 28/06/2019, pág. 67/259

60/106 [00219] A resposta ao impulso pode muitas vezes ser implementada pelos filtros de formação de feixes sendo filtros FIR (Filtro de Resposta Finita) com uma pluralidade de coeficientes. Os formadores de feixe 305, 309 podem em tais modalidades adaptar a formação de feixes adaptando-se os coeficientes de filtro. Em muitas modalidades, os filtros FIR podem ter coeficientes que correspondem a compensações de tempo fixas (geralmente compensações de tempo de amostragem) com a adaptação sendo alcançada mediante a adaptação dos valores de coeficiente. Em outras modalidades, os filtros formadores de feixe podem tipicamente ter um número substancialmente menor de coeficientes (por exemplo, apenas dois ou três), mas com a temporização destes sendo (também) adaptável.

[00220] Uma vantagem especifica dos filtros de formação de feixes que têm respostas ao impulso estendidas em vez de serem um simples atraso de variável (ou um simples ajuste de fase/ganho de dominio da frequência) é que isso possibilita que os formadores de feixe 305, 309 não se adaptem apenas ao componente de sinal mais forte, tipicamente direto. Em vez disso, isso possibilita que os formadores de feixe 305, 309 se adaptem para incluir trajetórias de sinal adicionais que correspondem tipicamente a reflexões. Consequentemente, a abordagem possibilita um desempenho aprimorado na maioria dos ambientes reais e, especificamente, permite um desempenho aprimorado em ambientes reflexivos e/ou reverberantes, e/ou para fontes de áudio mais distantes da matriz de microfones 301.

[00221] Os formadores de feixe 305, 309 são especificamente formadores de feixe do tipo filtragem e combinação (e, em particular, do tipo filtragem e soma). A Figura 8 ilustra um exemplo simplificado de um formador de

Petição 870190060716, de 28/06/2019, pág. 68/259

61/106 feixes do tipo filtragem e soma com base em uma matriz de microfones que compreende apenas dois microfones 801. No exemplo, cada microfone 801 é acoplado a um filtro de formação de feixes 803, 805 cujas saidas são somadas no somador 808 para gerar um sinal de saida de áudio formada em feixes. Os filtros de formação de feixes 803, 805 têm respostas ao impulso fl e f2 que são adaptadas para formar um feixe em uma dada direção. Deve-se considerar que, normalmente, a matriz de microfones compreenderá mais de dois microfones, e que o principio da Figura 8 é facilmente estendido a mais microfones, incluindo, ainda, um filtro de formação de feixes para cada microfone.

[00222] O primeiro e o segundo formadores de feixe 303, 305 podem incluir tal arquitetura do tipo filtragem e soma para a formação de feixes (como, por exemplo, nos formadores de feixe dos documentos de patente US 7.146.012 e US 7.602.926). Deve-se considerar que, em muitas modalidades, a matriz de microfones 301 pode, no entanto, compreender mais de dois microfones. Deve-se considerar, ainda, que os formadores de feixe 305, 309 incluem funcionalidade para adaptar os filtros de formação de feixes conforme anteriormente descrito. Além disso, no exemplo especifico, os formadores de feixe 305, 30 9 geram não apenas um sinal de saida de áudio formada em feixes, mas também um sinal de referência de ruido.

[00223] Em abordagens convencionais para comparar formadores de feixe e feixes, a similaridade entre feixes é avaliada comparando-se as saidas de áudio geradas. Por exemplo, uma correlação cruzada entre as saidas de áudio pode ser gerada com a similaridade sendo indicada pela magnitude da correlação. Em alguns sistemas, um DoA pode ser determinado por correlação

Petição 870190060716, de 28/06/2019, pág. 69/259

62/106 cruzada dos sinais de áudio para um par de microfone e determinação do DoA em resposta a uma temporização do pico.

[00224] No sistema da Figura 7, a medição de diferença não é meramente determinada com base em uma propriedade ou comparação de sinais de áudio, seja os sinais de saida de áudio formada em feixes dos formadores de feixe ou os sinais de microfone de entrada mas, em vez disso, o processador de diferença 317 do aparelho de captura de áudio da Figura 7 está disposto de modo a determinar a medição de diferença em resposta a uma comparação das respostas de impulso dos filtros de formação de feixes do primeiro e do segundo formadores de feixe 305, 309.

[00225] No sistema da Figura 7, os parâmetros dos filtros de formação de feixes do primeiro formador de feixes 305 são comparados aos parâmetros dos filtros de formação de feixe do segundo formador de feixes 309. A medição de diferença pode então ser determinada para refletir quão perto esses parâmetros estão uns aos outros. Especificamente, para cada microfone, os filtros de formação de feixes correspondentes do primeiro formador de feixes 305 e do segundo formador de feixes 309 são comparados entre si para gerar uma medição de diferença intermediária. As medições de diferença intermediária são então combinadas em uma única medição de diferença que é produzida a partir do processador de diferença 317.

[00226] Os parâmetros de formação de feixes sendo comparados são tipicamente os coeficientes de filtro. Especificamente, os filtros de formação de feixes podem ser filtros FIR que têm uma resposta a impulso de dominio de tempo definida pelo conjunto de coeficientes de filtro FIR. O processador de diferença 317 pode estar disposto de modo a comparar os filtros correspondentes do primeiro formador de

Petição 870190060716, de 28/06/2019, pág. 70/259

63/106 feixes 305 e do segundo formador de feixes 309 mediante a determinação de uma correlação entre os filtros. Um valor de correlação pode ser determinado como a correlação máxima (isto é, o valor de correlação para o deslocamento de tempo que maximiza a correlação).

[00227] O processador de diferença 317 pode, então, combinar todos esses valores de correlação individuais em uma única medição de diferença, por exemplo, simplesmente somando-os juntos. Em outras modalidades, uma combinação ponderada pode ser realizada, por exemplo, mediante a ponderação de coeficientes maiores que os coeficientes mais baixos.

[00228] Será entendido que tal medição de diferença terá um valor crescente para uma correlação crescente dos filtros e, dessa forma, que um valor mais alto será indicativo de uma similaridade aumentada dos feixes em vez de uma diferença maior. Entretanto, em modalidades nas quais deseja-se que a medição de diferença aumente para aumentar a diferença, uma função monotonicamente decrescente pode simplesmente ser aplicada à correlação combinada.

[00229] A determinação da medição de diferença com base em uma comparação das respostas a impulso dos filtros de formação de feixes em vez de com base em sinais de áudio (os sinais de saida de áudio formada em feixes ou os sinais de microfone) fornece vantagens significativas em muitos sistemas e aplicações. Em particular, a abordagem tipicamente fornece desempenho muito aprimorado e, de fato, é adequada para aplicação em ambientes de áudio reverberantes e para fontes de áudio em distâncias adicionais incluindo, em particular, fontes de áudio fora do raio de reverberação. De fato, ela fornece desempenho

Petição 870190060716, de 28/06/2019, pág. 71/259

64/106 muito aprimorado em cenários em que a trajetória direta de uma fonte de áudio não é dominante, mas em vez disso, onde a trajetória direta e reflexões possivelmente precoces são dominadas, por exemplo, por um campo sonoro difuso. Em particular, em tais cenários, a estimativa de diferença com base no sinal de áudio será fortemente sujeita às características espaciais e temporais do campo sonoro enquanto a abordagem baseada em filtro permite uma avaliação mais direta dos feixes com base nos parâmetros de filtro que não apenas refletem o campo/trajetória de som direto, mas são adaptados para refletir o campo/trajetória de som direto e reflexões precoces (devido às respostas de impulso que têm uma duração prolongada para levar essas reflexões em consideração).

[00230] De fato, enquanto as métricas de correlação de sinal de áudio e DoA convencionais para estimar a similaridade de dois formadores de feixe são baseadas em ambientes anecoicos e, consequentemente, funcionam bem em ambientes onde os usuários desejados estão perto dos microfones (dentro do raio de reverberação) de modo que a energia do campo sonoro difuso domine, a abordagem da Figura 7 não se baseia em tais suposições e fornece estimativa excelente mesmo na presença de muitas reflexões e/ou ruído acústico difuso substancial.

[00231] Outras vantagens incluem que a medição de diferença pode ser determinada instantaneamente com base nos parâmetros de formação de feixes atuais e, especificamente, com base nos coeficientes de filtro atuais. Na maioria das modalidades, não há necessidade de qualquer média dos parâmetros, ao invés disso, a velocidade de adaptação dos

Petição 870190060716, de 28/06/2019, pág. 72/259

65/106 formadores de feixe adaptáveis determina o comportamento de rastreamento.

[00232] Um aspecto particularmente vantajoso é que a comparação e a medição de diferença podem ser baseadas em respostas de impulso que têm uma duração prolongada. Isso permite que a medição de diferença reflita não apenas um atraso de uma trajetória direta ou uma direção angular do feixe, mas também permite que uma parte significativa, ou mesmo todo, o impulso acústico de cômodo estimado seja levado em consideração. Dessa forma, a medição de diferença não é meramente baseada no subespaço excitado pelos sinais de microfone como em abordagens convencionais.

[00233] Em algumas modalidades, a medição de diferença pode ser especificamente disposta de modo a comparar as respostas de impulso no domínio de frequência em vez de no domínio de tempo. Especificamente, o processador de diferença 317 pode estar disposto de modo a transformar as respostas de impulso adaptativo dos filtros do primeiro formador de feixes 305 no domínio de frequência. Da mesma forma, o processador de diferença 317 pode estar disposto de modo a transformar as respostas de impulso adaptativo dos filtros do segundo formador de feixes 309 no domínio de frequência. A transformação pode ser especificamente realizada aplicando-se, por exemplo, uma transformada rápida de Fourier (FFT - Fast Fourier Transform) às respostas a impulso dos filtros formadores de feixe tanto do primeiro formador de feixes 305 quanto do segundo formador de feixes 309.

[00234] O processador de diferença 317 pode, consequentemente, para cada filtro do primeiro formador de feixes 305 e do segundo formador de feixes 309 gerar um

Petição 870190060716, de 28/06/2019, pág. 73/259

66/106 conjunto de coeficientes de domínio de frequência. Ele pode, então, prosseguir para determinar a medição de diferença com base na representação de frequência. Por exemplo, para cada microfone da matriz de microfones 301, o processador de diferença 317 pode comparar os coeficientes de domínio de frequência dos dois filtros de formação de feixes. Como um exemplo simples, ele pode simplesmente determinar uma magnitude de um vetor de diferença calculado como a diferença entre os vetores de coeficiente de domínio de frequência para os dois filtros. A medição de diferença pode, então, ser determinada mediante a combinação das medições de diferença intermediárias geradas para as frequências individuais.

[00235] A seguir, serão descritas algumas abordagens específicas e altamente vantajosas para determinar uma medição de diferença. As abordagens são baseadas em uma comparação das respostas de impulso adaptativo no domínio da frequência. Na abordagem, o processador de diferença 317 está disposto de modo a determinar medições de diferença de frequência para frequências das representações de domínio de frequência. Especificamente, uma medição de diferença de frequência pode ser determinada para cada frequência na representação de frequência. A medição de diferença de saída é, então, gerada a partir dessas medições de diferença de frequência individuais.

[00236] Uma medição de diferença de frequência pode ser gerada especificamente para cada coeficiente de filtro de frequência de cada par de filtros de filtros de formação de feixes, onde um par de filtros representa os filtros do primeiro formador de feixes 305 e do segundo formador de feixes 309 para o mesmo microfone. A medição de diferença de frequência para

Petição 870190060716, de 28/06/2019, pág. 74/259

67/106 esse par de coeficientes de frequência é gerada como uma função dos dois coeficientes. De fato, em algumas modalidades, a medição de diferença de frequência para o par de coeficientes pode ser determinada como a diferença absoluta entre os coeficientes.

[00237] Entretanto, para coeficientes de dominio de tempo de valor real (isto é, uma resposta a impulso de valor real), os coeficientes de frequência serão geralmente valores complexos, e em muitas aplicações uma medição de diferença de frequência particularmente vantajosa para um par de coeficientes é determinada em resposta à multiplicação de um primeiro coeficiente de dominio de frequência e um conjugado do segundo coeficiente de dominio da frequência (isto é, em resposta à multiplicação do coeficiente complexo de um filtro e o conjugado do coeficiente complexo do outro filtro do par) .

[00238] Dessa forma, para cada compartimento de frequência das representações de dominio de frequência das respostas a impulso dos filtros de formação de feixes, uma medição de diferença de frequência pode ser gerada para cada par de microfone/filtro. A medição de diferença de frequência combinada para a frequência pode, então, ser gerada mediante a combinação dessas medições de diferença de frequência especificas do microfone para todos os microfones, por exemplo, simplesmente através da soma das mesmas.

[00239] Em mais detalhes, os formadores de feixe 305, 309 podem compreender coeficientes de filtro de dominio de frequência para cada microfone e para cada frequência da representação de dominio de frequência.

[00240] Para o primeiro formador de feixes 305 esses coeficientes podem ser indicados F^Çe^^...^e para

Petição 870190060716, de 28/06/2019, pág. 75/259

68/106 o segundo formador de feixes 309 podem ser indicados onde M é o número de microfones.

[00241] O conjunto total de coeficiente de filtro de dominio de frequência de formador de feixes para uma certa frequência e para todos os microfones podem para o primeiro formador de feixes 305 e o segundo formador de feixes 309 ser respectivamente indicado como f¹ e f².

[00242] Nesse caso, a medição de diferença de frequência para uma dada frequência e pode ser determinada como:

5(ω)=/(Λ/²) [00243] Multiplicando-se os coeficientes de filtro de valor complexo que pertencem aos mesmos microfones, obtémse para cada frequência uma primeira forma de medida de distância, dessa forma [00244] onde (·)* representa o conjugado complexo. Isso pode ser usado como uma medição de diferença para a frequência ω para o microfone m. A medição de diferença de frequência combinada para todos os microfones pode ser gerada como a soma desses, isto é

M

SM = </Ί/²> = Σ fi™ O) m=l [00245] Se os dois filtros não estiverem relacionados, isto é, o estado adaptado dos filtros e, dessa forma, os feixes formados forem muito diferentes, espera-se que essa soma seja próxima de zero e, dessa forma, a medição de diferença de frequência é próxima de zero. Entretanto, se os coeficientes de filtro forem similares, um grande valor

Petição 870190060716, de 28/06/2019, pág. 76/259

69/106 positivo é obtido. Se os coeficientes de filtração têm o sinal oposto, então um grande valor negativo é obtido. Dessa forma, a medição de diferença de frequência gerada é indicativa da similaridade dos filtros de formação de feixe para essa frequência.

[00246] A multiplicação dos dois coeficientes complexos (incluindo a conjugação) resulta em um valor complexo e, em muitas modalidades, pode ser desejável converter isso em um valor escalar.

[00247] Em particular, em muitas modalidades, a medição de diferença de frequência para uma dada frequência é determinada em resposta a uma parte real da combinação de medições de diferença de frequência para os diferentes microfones para essa frequência.

[00248] Especificamente, a medição de diferença de frequência combinada pode ser determinada como:

(M

Ο⁷'^ω) · F₂*_m(e^7w) m=l [00249] Nessa medida, a medida de similaridade com base em Re(S) resulta no valor máximo obtido quando os coeficientes de filtro são iguais, enquanto o valor minimo é atingido quando os coeficientes de filtro são iguais, mas têm sinais opostos.

[00250] Uma outra abordagem é determinar a medição de diferença de frequência combinada para uma dada frequência em resposta a uma norma da combinação das medições de diferença de frequência para os microfones. A norma pode, tipicamente, ser vantajosamente uma norma LI ou L2.

[00251] Por exemplo:

Petição 870190060716, de 28/06/2019, pág. 77/259

70/106 m=l [00252] Em algumas modalidades, a medição de diferença de frequência combinada para todos os microfones da matriz de microfones 301 é dessa forma, determinada como a amplitude ou valor absoluto da soma das medições de diferença de frequência de valor complexo para os microfones individuais.

[00253] Em muitas modalidades, pode ser vantajoso normalizar as medições de diferença. Por exemplo, pode ser vantajoso normalizar a medição de diferença de modo que ela se situe no intervalo de [0;l] .

[00254] Em algumas modalidades, as medições de diferença descritas acima podem ser normalizadas ao serem determinadas em resposta à soma de uma função monotônica de uma norma da soma dos coeficientes de dominio de frequência para o primeiro formador de feixes 305 e uma função monotônica de uma norma para a soma dos coeficientes de dominio de frequência para o segundo formador de feixes 309, onde as somas estão sobre os microfones. A norma pode ser vantajosamente uma norma L2 e a função monotônica pode ser vantajosamente uma função quadrada.

[00255] Dessa forma, as medições de diferença podem ser normalizadas em relação ao seguinte valor:

w¹./²) = nni+nrni [00256] Combinado com a primeira abordagem descrita acima, isso resulta nas medições de diferença de frequência combinadas dadas como:

s₅(A/²)

Petição 870190060716, de 28/06/2019, pág. 78/259

71/106 [00257] em que o deslocamento de lí é introduzido de modo que para f^í=f² a medição de diferença de frequência tenha um valor de um e para f¹ = —f² a medição de diferença de frequência tenha um valor de zero. Dessa forma, uma medição de diferença entre 0 e 1 é gerada onde um valor crescente é indicativo de uma diferença de redução. Será entendido que se um valor crescente for desejado para uma diferença crescente, isso pode simplesmente ser obtido mediante a determinação de:

*5(Λ/²) = ι-*5 (A/²)=f

Re^f²» iirii^ + n/²^ [00258] De modo similar, para a segunda abordagem, a seguinte medição de diferença de frequência pode ser determinada:

^6(/¹ J²)

W¹!/²)!

ιιγιι^ + ιι/²^ [00259] mais uma vez, resultando em uma medição de diferença de frequência que se situa no intervalo de [0;l].

[00260] Como outro exemplo, a normalização pode, em algumas modalidades, ser baseada em uma multiplicação das normas, e especificamente das normas de L2, das somações individuais dos coeficientes de dominio de frequência:

W¹·/²) = 11/412-11/¾ [00261] Isso pode, em particular, em muitas aplicações, fornecer um desempenho muito vantajoso para o último exemplo de uma medição de diferença (isto é, com base na norma LI para os coeficientes). Em particular, a seguinte

medição

de diferença de frequência pode ser usada: . ffl ,2-) ₌ 1071 ^AZ ’^{z }} ΙΙΡΙΙζ-ΙΙΛΙΙζ

Petição 870190060716, de 28/06/2019, pág. 79/259

72/106 [00262]

As medições de diferença de frequência especificas podem ser consequentemente determinadas como:

[00263] ^J iiriiz · ιι/Ίΐζ

Onde (a|<b) = ((a)^H<b)* é um produto interno e [00264] O processador de diferença 317 pode então, gerar a medição de diferença a partir das medições de diferença de frequência combinando estas em uma única medição de diferença indicativa de quão similares são os feixes do primeiro formador de feixes 305 e do segundo formador de feixes 309.

[00265] Especificamente, a medição de diferença pode ser determinada como uma soma ponderada seletiva em frequência das medições de diferença de frequência.

abordagem seletiva em frequência pode ser especificamente útil para aplicar uma janela de frequência adequada que permite, por exemplo, que a ênfase seja colocada em faixas de frequência especificas, como, por exemplo, na faixa de áudio ou nos intervalos de frequência de fala principais. Por exemplo, uma média (ponderada) pode ser aplicada para gerar uma medição de diferença de banda larga robusta.

[00266] Especificamente, a medição de diferença pode ser determinada como:

Petição 870190060716, de 28/06/2019, pág. 80/259

73/106 [002 67] onde w(e^7£0) é uma função de ponderação adequada.

[002 68] Por exemplo, a função de peso w(e^7£0) pode ser projetada para levar em consideração que a fala é principalmente ativa em certas bandas de frequência e/ou que matrizes de microfone tendem a ter baixa direcionalidade para frequências relativamente baixas.

[00269] Deve-se compreender que, embora as equações acima sejam apresentadas no dominio de frequência continuo, elas podem ser prontamente convertidas no dominio de frequência distinto.

[00270] Por exemplo, filtros de domínio de tempo distintos podem ser primeiramente transformados em filtros de domínio de frequência distintos pela aplicação de uma transformada discreta de Fourier, isto é, para 0 < k < K, podemos calcular:

Nf-1 FmU<] = Σ ^J2nNfkn=0 [00271] onde fm[n] representa a resposta de filtro de tempo distinto do jésimo formador de feixes para mésimo microfone, Np é o comprimento dos filtros de domínio de tempo, representa o filtro de domínio de frequência distinto do jésimo formador de feixes para mésimo microfone, e K é o comprimento dos filtros de formação de feixes de domínio de frequência, tipicamente escolhida como K =2Nf (muitas vezes o mesmo número como coeficientes de domínio de tempo, embora este não necessariamente seja o caso. Por exemplo, para vários coeficientes de domínio de tempo diferentes de 2^N, a inserção

Petição 870190060716, de 28/06/2019, pág. 81/259

74/106 de zero pode ser usada para facilitar a conversão de dominio da frequência (por exemplo, com o uso de uma FFT)).

[00272] O homólogos de dominio de frequência distintos dos vetores /¹ ² são os vetores F^r[k] e F²[k], que são obtidos através da coleta de coeficientes de filtro de dominio da frequência para indice de frequência k para todos os microfones em um vetor.

[00273] Subsequentemente, o cálculo da por exemplo medida de similaridade s₇ (F^F^k] pode então ser realizado da seguinte forma:

,_rl I(f¹W,f²M)| com

M (FWW=£®HFâ*m m=l

IIFW2 [00274] [00275] iimik onde

M m=l (·)* representa conjugação complexa.

Finalmente a medida de similaridade de banda larga ^(F¹,/⁷²) pode, com base na função de ponderação w[fc], ser calculada da seguinte forma:

K-l

S-^F^F²) = ^wíMs^FhF²)^] k = 0 [00276] escolha da função de ponderação como w[fc] = 1/K leva a uma medida de similaridade de banda larga que

Petição 870190060716, de 28/06/2019, pág. 82/259

75/106 é delimitada entre zero e um e que pondera todas as frequências de modo igual.

[00277] Funções de ponderação alternativas podem se concentrar em uma faixa de frequências especifica (por exemplo, devido ao fato de que é provável que contenha fala) . Nesse caso, uma função de ponderação que leva a uma medida de similaridade delimitada entre zero e um pode, então, ser escolhida como:

( ¹

Γ7 η uP^ara fci < < ^2

W[fc] = U/C;, -fcj ( 0 para outros valores [00278] onde k₁ e k₂ são indices de frequência que correspondem aos contornos da faixa de frequência desejada.

[00279] A medição de diferença derivada fornece um desempenho particularmente eficiente com caracteristicas diferentes que podem ser desejáveis em diferentes modalidades. Em particular, os valores determinados podem ser sensíveis a diferentes propriedades da diferença de feixe, e dependendo das preferências da modalidade individual, diferentes medidas podem ser preferenciais.

[00280] Na verdade, a medida de diferença/similaridade s₅ (A/²) pode ser considerada para medir a fase, atenuação, e diferenças de direção entre os formadores de feixe, enquanto leva apenas diferenças de ganho e direção em consideração. Finalmente, a medição de diferença Syí/'¹,/'²) leva apenas diferenças de direção em consideração e ignora as diferenças de fase e de atenuação.

[00281] Essas diferenças se referem à estrutura dos formadores de feixe. Especificamente, suponha que os coeficientes de filtro de um formador de feixes compartilhem um fator comum (dependente de frequência) sobre todos os

Petição 870190060716, de 28/06/2019, pág. 83/259

76/106 microfones, indicados como ^(e⁷⁶⁰). Neste caso, os coeficientes de filtro de formador de feixes podem ser decompostos conforme exposto a seguir:

Fn(e^;) = ... F_lmÇe^ = A(e^P_lmÇe^ [00282] Em notação abreviada tem-se f¹ = . Em seguida, considera-se duas versões do fator comum ^(e⁷⁶⁰).

[00283] No primeiro caso, presume-se que o fator comum consista em apenas um deslocamento de fase (dependente de frequência), isto é = β^^ω(^^ω, também conhecido como um filtro passa-tudo. No segundo caso, supõe-se que o fator comum tenha um ganho arbitrário e um deslocamento de fase por frequência. As três medidas de similaridade apresentadas lidam com esses fatores comuns de forma diferente.

[00284] ^ssÇf¹>f²) é sensivel a diferenças de amplitude e fase comuns entre formadores de feixe.

[00285] SóC/¹,/²) é sensível às diferenças de amplitude comuns entre os formadores de feixe [0028 6] SyC/'¹,/'²) é insensível ao fator comum Α(εί^ω) [00287] Isso pode ser visto a partir dos seguintes Exemplos:

Exemplo 1:

[00288] Neste exemplo, consideramos um cenário com f¹ = A^e^)/², com sendo uma fase por frequência arbitrária, isto é, um filtro passa-tudo.

[00289] Isso resulta nos seguintes resultados para as medidas de similaridade:

Petição 870190060716, de 28/06/2019, pág. 84/259

77/106

Re({A(e^f²|/²)) ₌ 1 Re(A(e^ · ||/²1|²) |/l(e^)|²-||/²||² + ||/²||² 22|im + Re ^_2 ₌ 2|(4(e^)/²|/²)| ₌ 2\{f²\f²)\ ^} IX^)IM/²IIÍ + II/²IIÍ \\f²\\²2 + \\f²\\²2 ,2. ₌ Η^^ω)/Ί/²)Ι ₌ l(/²l/²)l ^} |/1(^^ω)|·||/²||2·||/²||2 ||/²||2·||/²||2

Exemplo 2:

[00290] Neste exemplo, considera-se um cenário com

7' = B(e>“)/², com B(e^7£0) sendo um ganho e fase por frequência arbitrários. Isso resulta nos seguintes resultados para as medidas de similaridade:

_: Re((B(eJ'^M)f²lf²)) 1 , /?e(B(e^)||/²||^)

2⁺ iB(e>“)i² iiriü-mrni ” 2⁺ ci+isce^i²) · iir²!^

Re (B(e^jcú^) ⁺ 1+ |B(e/)l²

2\{B(eJ“)f²\f²}\ 2|B(e^)| \(f²\f²)\ 2|B(e^)| |B(e^)|² · ||/²||^ + ||/²||^ |B(e^)|2 . ||_Z2||2 ₊ ||_/2||2 ! ₊ |_Β(67ω)|2 \{B(e^f²\f²)\ \{f²\f²)\ |Β(^^ω)|·||/²||2·||/²||2 ||/²||2·||/²||2 [00291] Em muitas modalidades práticas, pode haver uma diferença de ganho e fase comum entre os formadores de feixe, e consequentemente a medição de diferença £7(///²) pode em muitas modalidades proporcionar uma medida particularmente atraente.

[00292] A seguir, uma abordagem especifica para determinar uma estimativa de fonte de áudio pontual pode ser especificamente usada pelo detector de fonte de áudio pontual 401 para detectar uma fonte de áudio pontual no sinal de saída de áudio formado por feixe de um formador de feixes. O exemplo

Petição 870190060716, de 28/06/2019, pág. 85/259

78/106 será descrito com referência ao primeiro formador de feixes 305, mas será entendido que o mesmo pode ser igualmente aplicado a qualquer um dos formadores de feixe restritos 309, 311.

[00293] O exemplo será descrito com referência à Figura 9 e se baseia no formador de feixes 305 que gera tanto um sinal de saida de áudio formada em feixes e um sinal de referência de ruido conforme anteriormente descrito.

[00294] O formador de feixes 305 está disposto de modo a gerar tanto um sinal de saida de áudio formada em feixes quanto um sinal de referência de ruido.

[00295] O formador de feixes 305 pode estar disposto de modo a adaptar a formação de feixes para capturar uma fonte de áudio desejada e representar isso no sinal de saida de áudio formada em feixes. Isso pode, ainda, gerar o sinal de referência de ruido para fornecer uma estimativa de um áudio capturado remanescente, ou seja, é indicativo do ruido que seria capturado na ausência da fonte de áudio desejada.

[00296] No exemplo em que o formador de feixes 305 é um formador de feixes, conforme revelado nos documentos US 7.146.012 e US 7.602.926, a referência de ruido pode ser gerada conforme anteriormente descrito, por exemplo, diretamente mediante o uso do sinal de erro. Entretanto, devese considerar que outras abordagens podem ser usadas em outras modalidades. Por exemplo, em algumas modalidades, a referência de ruido pode ser gerada como o sinal de microfone de um microfone (por exemplo, omnidirecional) menos o sinal de saida de áudio formada em feixes gerado, ou mesmo o próprio sinal de microfone no caso de este microfone de referência de ruido estar longe dos outros microfones e não conter a fala

Petição 870190060716, de 28/06/2019, pág. 86/259

79/106 desejada. Como outro exemplo, o formador de feixes 305 pode estar disposto de modo a gerar um segundo feixe que tem um nulo na direção do máximo do feixe que gera o sinal de saída de áudio formada em feixes, e a referência de ruído pode ser gerada como o áudio capturado por esse feixe complementar.

[00297] Em algumas modalidades, o formador de feixes 305 pode compreender dois subformadores de feixe que individualmente podem gerar feixes diferentes. Em tal exemplo, um dos subformadores de feixe pode estar disposto de modo a gerar o sinal de saída de áudio formado por feixe, enquanto o outro subformador de feixes pode estar disposto de modo a gerar o sinal de referência de ruído. Por exemplo, o primeiro subformador de feixes pode estar disposto de modo a maximizar o sinal de saída resultando na captura da fonte dominante, enquanto o segundo subformador de feixes pode estar disposto de modo a minimizar o nível de saída, resultando, assim, em um nulo sendo gerado em direção à fonte dominante. Dessa forma, o último sinal formado por feixe pode ser usado como uma referência de ruído.

[00298] Em algumas modalidades, os dois subformadores de feixe podem ser acoplados e usar diferentes microfones da matriz de microfones 301. Dessa forma, em algumas modalidades, a matriz de microfones 301 pode ser formada por duas submatrizes de microfone (ou mais), cada uma das quais sendo acoplada a um subformador de feixes diferente e disposta de modo a gerar individualmente um feixe. De fato, em algumas modalidades, as submatrizes podem até mesmo ser posicionadas afastadas umas das outras e podem capturar o ambiente de áudio a partir de diferentes posições. Dessa forma, o sinal de saída de áudio formada em feixes pode ser gerado a partir de uma submatriz de microfone em uma posição, enquanto o sinal de

Petição 870190060716, de 28/06/2019, pág. 87/259

80/106 referência de ruido é gerado a partir de uma submatriz de microfone em uma posição diferente (e tipicamente em um dispositivo diferente).

[00299] Em algumas modalidades, um pósprocessamento como a supressão de ruido da Figura 1 pode, pelo processador de saida 306, ser aplicado à saida do aparelho de captura de áudio. Isso pode aprimorar o desempenho para, por exemplo, comunicação por voz. Em tal pós-processamento, podem ser incluidas operações não lineares, embora para alguns reconhecedores de fala, por exemplo, possa ser mais vantajoso limitar o processamento para incluir apenas processamento linear.

[00300] Em muitas modalidades, pode ser desejável estimar se uma fonte de áudio pontual está presente na saida de áudio formada por feixes gerada pelo formador de feixes 305, isto é, pode ser desejável estimar se o formador de feixes 305 foi adaptado a uma fonte de áudio de modo que o sinal de saida de áudio formado por feixe compreenda uma fonte de áudio pontual.

[00301] Uma fonte de ponto de áudio pode, em acústica, ser considerada como uma fonte de um som que se origina de um ponto no espaço. Em muitas aplicações, desejase detectar e capturar uma fonte de áudio pontual, como, por exemplo, um orador humano. Em alguns cenários, tal fonte de áudio pontual pode ser uma fonte de áudio dominante em um ambiente acústico, mas em outras modalidades, esse pode não ser o caso, isto é, uma fonte de áudio pontual desejada pode ser dominada, por exemplo, por ruido de fundo difuso.

[00302] Uma fonte de áudio pontual tem a propriedade de que o som de trajetória direta tenderá a chegar aos diferentes microfones com uma forte correlação e, de fato,

Petição 870190060716, de 28/06/2019, pág. 88/259

81/106

tipicamente o	mesmo sinal	será	capturado	com	um atraso
(variação de	fase linear	no	dominio	da	frequência)
correspondente	às diferenças	no	comprimento	da	trajetória.

Dessa forma, quando se considera a correlação entre os sinais capturados pelos microfones, uma alta correlação indica uma fonte de ponto dominante, enquanto uma baixa correlação indica que o áudio capturado é recebido de muitas fontes não correlacionadas. De fato, uma fonte de áudio pontual no ambiente de áudio poderia ser considerada uma para a qual um componente de sinal direto resulta em alta correlação para os sinais de microfone e, de fato, uma fonte de áudio pontual poderia ser considerada como correspondendo a uma fonte de áudio espacialmente correlacionada.

[00303] Entretanto, embora possa ser possivel buscar detectar a presença de uma fonte de áudio pontual ao se determinar correlações para os sinais de microfone, isso tende a ser impreciso e a não fornecer desempenho ótimo. Por exemplo, se a fonte de áudio pontual (e de fato, o componente de trajetória direta) não for dominante, a detecção tenderá a ser imprecisa. Dessa forma, a abordagem não é adequada para, por exemplo, fontes de áudio pontuais que estão longe da matriz de microfones (especificamente fora do raio de reverberação) ou onde há niveis altos de, por exemplo, ruido difuso. Além disso, tal abordagem indicaria meramente se uma fonte de áudio pontual está presente, mas não reflete se o formador de feixes se adaptou àquela fonte de áudio pontual.

[00304] O aparelho de captura de áudio da Figura 9 compreende o detector de fonte de áudio pontual 401 que está disposto de modo a gerar uma estimativa de fonte de áudio pontual indicativa de se o sinal de saida de áudio formado em

Petição 870190060716, de 28/06/2019, pág. 89/259

82/106 feixe compreende ou não uma fonte de áudio pontual. O detector de fonte de áudio pontual 401 não determina correlações para os sinais de microfone mas, em vez disso, determina uma estimativa de fonte de áudio pontual com base no sinal de saída de áudio formado em feixe e no sinal de referência de ruído gerado pelo formador de feixes 305.

[00305] O detector de fonte de áudio pontual 401 compreende um primeiro transformador 901 disposto de modo a gerar um primeiro sinal de domínio da frequência mediante a aplicação de uma transformada de frequência ao sinal de saída de áudio formado por feixes. Especificamente, o sinal de saída de áudio formada em feixes é dividido em segmentos/intervalos de tempo. Cada intervalo/segmento de tempo compreende um grupo de amostras que são transformadas, por exemplo, por uma FFT, em um grupo de amostras de domínio da frequência. Dessa forma, o primeiro sinal de domínio da frequência é representado por amostras de domínio da frequência onde cada amostra de domínio da frequência corresponde a um intervalo de tempo específico (o quadro de processamento correspondente) e um intervalo de frequência específico. Cada intervalo de frequência e intervalo de tempo está tipicamente no campo conhecido como uma região tempo-frequência. Dessa forma, o primeiro sinal de domínio da frequência é representado por um valor para cada uma dentre uma pluralidade de regiões tempo-frequência, isto é, por valores de região tempo-frequência.

[00306] O detector de fonte de áudio pontual 401 compreende adicionalmente um segundo transformador 903 que recebe o sinal de referência de ruído. O segundo transformador 903 está disposto de modo a gerar um segundo sinal de domínio da frequência mediante a aplicação de uma transformada de

Petição 870190060716, de 28/06/2019, pág. 90/259

83/106 frequência ao sinal de referência de ruido. Especificamente, o sinal de referência de ruido é dividido em segmentos/intervalos de tempo. Cada intervalo/segmento de tempo compreende um grupo de amostras que são transformadas, por exemplo, por uma FFT, em um grupo de amostras de dominio da frequência. Dessa forma, o segundo sinal de dominio da frequência é representado por um valor para cada uma dentre uma pluralidade de regiões tempofrequência, isto é, por valores de região tempo-frequência.

[00307] A Figura 10 ilustra um exemplo especifico de elementos funcionais de possíveis implementações da primeira e da segunda unidades da transformada 901, 903. No exemplo, um conversor serial-paralelo gera blocos (períodos) sobrepostos de amostras de 2B que, após a aplicação de janelas de Hanning, são convertidos para o domínio da frequência por uma transformada rápida de Fourier (FFT).

	[00308]	0	sinal de saída de	áudio formada em
feixes e	o	sinal	de	referência de ruído	são, a seguir,
chamados	de	z (n)	e x	(n) respectivamente	e	o primeiro e o
segundo sinais de	domínio da frequência	são	chamados pelos

vetores Z^^M\tk) e X^^M\tk) (sendo que cada vetor compreende todos os valores da região de frequência M para um dado segmento/período de tempo de processamento/transformação).

[00309] Quando em uso, presume-se que z(n) compreenda ruído e fala, enquanto presume-se que x(n) compreenda, idealmente, apenas ruído. Além disso, presume-se que os componentes de ruído de z (n) e x(n) não estejam correlacionados (Presume-se que os componentes não estejam correlacionados no tempo. Entretanto, supõe-se que seja tipicamente uma relação entre as amplitudes médias e essa relação pode ser representada por um termo de coerência,

Petição 870190060716, de 28/06/2019, pág. 91/259

84/106 conforme será posteriormente descrito). Tais suposições tendem a ser válidas em alguns cenários; e especificamente, em muitas modalidades, o formador de feixes 305 pode, como no exemplo da Figura 1, compreender um filtro adaptativo que atenua ou remove o ruido no sinal de saída de áudio formada em feixes que está correlacionado com o sinal de referência de ruído.

[00310] Após a transformação para o domínio da frequência, presume-se que os componentes reais e imaginários dos valores de tempo-frequência tenham distribuição gaussiana. Essa suposição é tipicamente precisa, por exemplo, para cenários com ruído proveniente de campos sonoros difusos, para ruído de sensor e para uma série de outras fontes de

ruído encontradas [00311]	em 0	muitos cenários práticos.
primeiro	transformador 901	e	o segundo
transformador 903	são	acoplados	a um	processador	de	diferença
905 que está disposto	de modo a	gerar	uma medição	de	diferença

da região tempo-frequência para as frequências de região individuais. Especificamente, ele pode gerar uma medição de diferença para o período atual para cada intervalo de frequência resultante das FFTs. A medição de diferença é gerada a partir dos valores de região tempo-frequência correspondentes do sinal de saída de áudio formada em feixes e dos sinais de referência de ruído, isto é, do primeiro e do segundo sinais de domínio da frequência.

[00312] Em particular, a medição de diferença para uma dada região tempo-frequência é gerada para refletir uma diferença entre uma primeira função monotônica de uma norma do valor de região tempo-frequência do primeiro sinal de domínio da frequência (isto é, do sinal de saída de áudio formada em

Petição 870190060716, de 28/06/2019, pág. 92/259

85/106 feixes) e uma segunda função monotônica de uma norma do valor de região tempo-frequência do segundo sinal de domínio da frequência (o sinal de referência de ruído). A primeira e a segunda funções monotônicas podem ser iguais ou podem ser diferentes.

[00313] As normas podem ser tipicamente uma norma LI ou uma norma L2. Dessa forma, na maioria das modalidades, a medição de diferença da região tempo-frequência pode ser determinada como uma indicação de diferença que reflete uma diferença entre uma função monotônica de uma magnitude ou potência do valor do primeiro sinal de domínio da frequência e uma função monotônica de uma magnitude ou potência do valor do segundo sinal de domínio da frequência.

[00314] As funções monotônicas podem tipicamente ser ambas monotonicamente crescentes, mas podem, em algumas modalidades, ser ambas monotonicamente decrescentes.

[00315] Deve-se considerar que diferentes medições de diferença podem ser usadas em diferentes modalidades. Por exemplo, em algumas modalidades, a medição de diferença pode ser simplesmente determinada subtraindo-se os resultados da primeira e da segunda funções entre si. Em outras modalidades, eles podem ser divididos um pelo outro para gerar uma razão indicativa da diferença, entre outros.

[00316] O processador de diferença 905 gera, consequentemente, uma medição de diferença da região tempofrequência para cada região tempo-frequência com a medição de diferença sendo indicativa do nível relativo, respectivamente, do sinal de saída de áudio formada em feixes e do sinal de referência de ruído naquela frequência.

Petição 870190060716, de 28/06/2019, pág. 93/259

86/106 [00317] O processador de diferença 905 é acoplado a um estimador de fonte de áudio pontual 90 7 que gera uma estimativa de fonte de áudio pontual em resposta a um valor de diferença combinado de medições de diferença de regiões tempofrequência para frequências acima de um limiar de frequência. Dessa forma, o estimador de fonte de áudio pontual 907 gera a estimativa de fonte de áudio pontual combinando-se as medições de diferença da região tempo-frequência para frequências acima de uma dada frequência. A combinação pode ser especificamente uma soma, ou, por exemplo, uma combinação ponderada, que inclui uma ponderação dependente da frequência, de todas as medições de diferença de região tempo-frequência ao longo de uma dada frequência limite.

[00318] A estimativa de fonte de áudio pontual é, dessa forma, gerada para refletir a diferença especifica de frequência relativa entre os niveis do sinal de saida de áudio formada em feixes e o sinal de referência de ruido ao longo de uma dada frequência. A frequência limite pode geralmente estar acima de 500 Hz.

[00319] Os inventores perceberam que tal medida fornece uma forte indicação de se uma fonte de áudio pontual está compreendida no sinal de saida de áudio formada em feixes ou não. De fato, eles perceberam que a comparação especifica de frequência, juntamente com a restrição a frequências mais altas, na prática fornece uma indicação aprimorada da presença da fonte de áudio pontual. Adicionalmente, eles perceberam que a estimativa é adequada para aplicação em ambientes e cenários acústicos onde abordagens convencionais não fornecem resultados precisos. Especificamente, a abordagem descrita pode proporcionar detecção vantajosa e precisa das fontes de áudio

Petição 870190060716, de 28/06/2019, pág. 94/259

87/106 pontuais mesmo para fontes de áudio pontuais fala não-dominantes que estão distantes da matriz de microfones 301 (e fora do raio de reverberação) e na presença de ruido difuso forte.

[00320] Em muitas modalidades, o estimador de fonte de áudio pontual 907 pode estar disposto de modo a gerar a estimativa de fonte de áudio pontual para indicar simplesmente se uma fonte de áudio pontual foi detectada ou não. Especificamente, o estimador de fonte de áudio pontual 907 pode estar disposto de modo a indicar que a presença de uma fonte de áudio pontual no sinal de saída de áudio formada em feixes foi detectada e o valor de diferença combinado excede um limiar. Dessa forma, se o valor de diferença combinado gerado indicar que a diferença é maior que um dado limiar, então, considera-se que a fonte de áudio pontual foi detectada no sinal de saída de áudio formada em feixes. Se o valor de diferença combinado gerado for menor que o limiar, então, considera-se que uma fonte de áudio pontual não foi detectada no sinal de saída de áudio formada em feixes.

[00321] A abordagem descrita pode, dessa forma, fornecer uma detecção de baixa complexidade de se o sinal de saída de áudio formada em feixes gerado inclui ou não uma fonte de ponto.

[00322] Será entendido que tal detecção pode ser usada para muitas aplicações e cenários diferentes e, de fato, pode ser usada de muitas maneiras diferentes.

[00323] Por exemplo, conforme anteriormente mencionado, a estimativa/detecção de fonte de áudio pontual pode ser usada pelo processador de saída 306 na adaptação do sinal de áudio de saída. Como um exemplo simples, a saída pode ser desativada a menos que uma fonte de áudio pontual

Petição 870190060716, de 28/06/2019, pág. 95/259

88/106 seja detectada no sinal de saida de áudio formada em feixes. Como outro exemplo, a operação do processador de saida 306 pode ser adaptada em resposta à estimativa de fonte de áudio pontual. Por exemplo, a supressão de ruido pode ser adaptada dependendo da probabilidade de uma fonte de áudio pontual estar presente.

[00324] Em algumas modalidades, a estimativa de fonte de áudio pontual pode simplesmente ser fornecida como um sinal de saida juntamente com o sinal de saida de áudio. Por exemplo, em um sistema de captura de fala, a fonte de áudio pontual pode ser considerada como sendo uma estimativa de presença de fala e isso pode ser fornecido juntamente com o sinal de áudio. Um reconhecedor de voz pode ser dotado do sinal de saida de áudio e pode, por exemplo, estar disposto de modo a executar o reconhecimento de voz a fim de detectar comandos de voz. O reconhecedor de voz pode estar disposto de modo a executar o reconhecimento de voz apenas quando a estimativa de fonte de áudio pontual indicar que uma fonte de voz está presente.

[00325] A seguir, será descrito um exemplo especifico de uma determinação altamente vantajosa de uma estimativa de fonte de áudio.

[00326] No exemplo, o formador de feixes 305 pode se adaptar conforme anteriormente descrito para focalizar em uma fonte de áudio desejada e focalizar especificamente em uma fonte de fala. Ele pode fornecer um sinal de saida de áudio formada em feixes que é focalizado na fonte, bem como um sinal de referência de ruido que é indicativo do áudio de outras fontes. O sinal de saida de áudio formada em feixes é denotado como z (n) e o sinal de referência de ruido como x(n) . Tanto z (n) quanto x(n) podem, tipicamente, ser contaminados

Petição 870190060716, de 28/06/2019, pág. 96/259

89/106 com ruído, como ruído especificamente difuso. Embora a descrição a seguir se concentre na detecção de fala, deve-se considerar que a mesma se aplica a fontes de áudio pontuais em geral.

[00327] Seja Ζ(ί*,ωι) o primeiro sinal de domínio da frequência (complexo) correspondente ao sinal de saída de áudio formada em feixes. Este sinal consiste no sinal de fala desejado Z_s(tk,(òi) e um sinal de ruído Z_n(tk,(òi) :

Z(t_k,íúi) Z_s(t_k, íi>i) + Z_n(t_k, íi>i).

[00328] Se a amplitude de Z_n(t_fc,ú){) fosse conhecida, seria possível derivar uma variável d conforme exposto a seguir:

= \ZÇt_k,M_l')\ - \Z_n(t_k,Mt)\, [00329] que é representativa da amplitude de fala [00330] O segundo sinal de domínio da frequência, isto é, a representação do domínio da frequência do sinal de

referência	de ruído	x (n), pode	ser denotado	por	ZnC^k’ ^l) ·
	[00331]	Pode-se considerar que	Zn	(n) e x(n)	têm
variâncias	iguais,	pois ambos	representam	ruído difuso e	são
obtidos pela adição (z_n) ou	subtração (x_n)	de sinais	com
variâncias	iguais,	logo, as	partes reais	e	imaginárias	de
	Xn&k’ ^t)	também têm variâncias	iguais. Portanto,

\Z_nÇt_k^t)\ pode ser substituído por |Χ_η(Α'^ωί)Ι ^na equação acima.

[00332] No caso em que nenhuma fala está presente (e, dessa forma, Z(t_k,(jòi) = Z_n(t_k,(jòi)), isso leva a: lZ_n(t_k, íi>i)| l>

[00333] sendo que lZ_n(t_k,Mi)l e 1^((^,6^)1 terão distribuição de Rayleigh, pois as partes reais e imaginárias têm distribuição gaussiana e independente.

Petição 870190060716, de 28/06/2019, pág. 97/259

90/106 [00334] A média da diferença de duas variáveis estocásticas é igual à diferença das médias e, portanto, o valor médio da medição de diferença da região tempo-frequência acima será igual a zero:

E{d] = 0.

[00335] A variância da diferença de dois sinais estocásticos é igual à soma das variâncias individuais e, portanto:

var(d) = (4 — π)σ².

[00336] Agora a variância pode ser reduzida pela obtenção da média de ΐΖη(ΐ/{'^ωΐ)Ι θ IXn(tk> ^ωΐ) I sobre valores independentes de L no plano fornecendo ã= |Ζ(^,ω_ζ)| - ΐΧζ^,ωΟΙ· [00337] A suavização (filtragem passa-baixa) não muda a média, então temos:

E{d} = 0.

[00338] A variância da diferença de dois sinais estocásticos é igual à soma das variâncias individuais:

z js (4 - π)σ²var(a) =---------.

Lt [00339] A obtenção da média, portanto, reduz a variância do ruido.

[00340] Dessa forma, o valor médio da diferença da região tempo-frequência medida quando nenhuma fala está presente é igual a zero. No entanto, na presença de fala, o valor médio aumenta. Especificamente, a obtenção da média sobre valores L do componente de fala terá muito menos efeito, pois todos os elementos de |Z_s(t_k, ω_ζ)| serão positivos e

Ε{|Ζ₅(^,_ωί)|}>0.

Petição 870190060716, de 28/06/2019, pág. 98/259

91/106 [00341] Dessa forma, quando fala estiver presente, o valor médio da medição de diferença da região tempo-frequência acima será maior que zero:

E{d} > 0.

[00342] A medição de diferença da região tempofrequência pode ser modificada pela aplicação de um parâmetro de design sob a forma do fator de subtração y que é maior que

1:
abaixo	d = \z(t_k,M_t) \ - [00343] Nesse caso, o valor de zero quando nenhuma fala	médio ficará estiver presente.

Entretanto, o fator de subtração y pode ser selecionado de modo que o valor médio í^djna presença de fala tenderá a ser maior que zero.

[00344] Para gerar uma estimativa de fonte de áudio pontual, as medições de diferença da região tempofrequência para uma pluralidade de regiões tempo-frequência podem ser combinadas, por exemplo, por uma soma simples. Além disso, a combinação pode estar disposta de modo a incluir apenas regiões tempo-frequência para frequências acima de um primeiro limiar e possivelmente apenas para regiões tempofrequência abaixo de um segundo limiar.

[00345] Especificamente, a estimativa de fonte de áudio pontual pode ser gerada como:

^ωΙ^=ωαΙία ^ω1^=ωόαίχα [00346] Essa estimativa de fonte de áudio pontual pode ser indicativa da quantidade de energia no sinal de saida de áudio formada em feixes a partir de uma fonte de fala

Petição 870190060716, de 28/06/2019, pág. 99/259

92/106 desejada em relação à quantidade de energia no sinal de referência de ruido. Ela pode fornecer uma medição particularmente vantajosa para distinguir a fala de ruido difuso. Especificamente, uma fonte de fala pode ser considerada como estando presente apenas se β(ΐ^) for positivo. Se e (t^) for negativo, considera-se que nenhuma fonte de fala desejada é encontrada.

[00347] Deve-se considerar que a estimativa de fonte de áudio pontual determinada não é apenas indicativa de se uma fonte de áudio pontual, ou especificamente uma fonte de fala, está presente no ambiente de captura, mas fornece especificamente uma indicação de se isso está de fato presente no sinal de saida de áudio formada em feixes, isto é, também fornece uma indicação de se o formador de feixes 305 se adaptou a essa fonte.

[00348] De fato, se o formador de feixes 305 não estiver completamente focalizado no orador desejado, parte do sinal de fala estará presente no sinal de referência de ruido x(n). Para os formadores de feixe adaptativos dos documentos US 7.14 6.012 e US 7.602.92 6, é possivel mostrar que a soma das energias da fonte desejada nos sinais de microfone é igual à soma das energias no sinal de saida de áudio formada em feixes e as energias no sinal (ou sinais) de referência de ruido. No caso de o feixe não estar completamente focalizado, a energia no sinal de saida de áudio formada em feixes diminuirá e a energia na referência (ou referências) de ruido aumentará. Isso resultará em um valor mais baixo significativo para e(t^) quando comparado a um formador de feixes que é completamente focalizado. Dessa forma, um discriminador robusto pode ser realizado.

Petição 870190060716, de 28/06/2019, pág. 100/259

93/106 [00349] Deve-se considerar que, embora a descrição acima exemplifique o contexto e os benefícios da abordagem do sistema da Figura 9, muitas variações e modificações podem ser aplicadas sem que se desvie da abordagem.

[00350] Deve-se considerar que diferentes funções e abordagens para determinar a medição de diferença que reflete uma diferença entre, por exemplo, magnitudes do sinal de saída de áudio formada em feixes e o sinal de referência de ruído podem ser usadas em diferentes modalidades. De fato, o uso de diferentes normas ou a aplicação de diferentes funções às normas podem fornecer diferentes estimativas com propriedades diferentes, mas podem ainda resultar em medições de diferença que são indicativas das diferenças subjacentes entre o sinal de saída de áudio formada em feixes e o sinal de referência de ruído na dada região tempo-frequência.

[00351] Dessa forma, considerando que as abordagens específicas anteriormente descritas podem proporcionar um desempenho particularmente vantajoso em muitas modalidades, muitas outras funções e abordagens podem ser usadas em outras modalidades dependendo das características específicas da

aplicação.
	[00352]	De modo	mais genérico	f a	medição	de
diferença	pode ser	calculada	como:
	dÇtfc,		ω_ζ)Ι) - <x>í	)l)
	[00353]	onde fi (x)	e Í2 (x) podem	ser	selecionadas
para ser	quaisquer funções	monotônicas	que	atendam	às
preferências e	requisitos	específicos	da	modalidade

individual. Geralmente, as funções fi(x) e Í2 (x) serão funções monotonicamente crescentes ou decrescentes. Deve-se

Petição 870190060716, de 28/06/2019, pág. 101/259

94/106 considerar ainda que, em vez de usar meramente a magnitude, outras normas (por exemplo, uma norma L2) podem ser usadas.

[00354] A medição de diferença da região tempofrequência é, no exemplo acima, indicativa de uma diferença entre uma primeira função monotônica fi (x) de um valor de região tempo-frequência de magnitude (ou outra norma) do primeiro sinal do domínio da frequência e uma segunda função monotônica Í2 (x) de um valor de região tempo-frequência de magnitude (ou outra norma) do segundo sinal do domínio da frequência. Em algumas modalidades, a primeira e a segunda funções monotônicas podem ser funções diferentes. Entretanto, na maioria das modalidades, as duas funções serão iguais.

[00355] Além disso, uma ou ambas dentre as funções fi(x) e Í2 (x) podem ser dependentes de vários outros parâmetros e medições, como, por exemplo, um nível de potência média geral dos sinais de microfone, a frequência etc.

[00356] Em muitas modalidades, uma ou ambas dentre as funções fi(x) e Í2 (x) podem ser dependentes de valores de sinal para outras regiões de frequência, por exemplo, por meio da obtenção da média de um ou mais dentre Z(t_k,Wj)< |Z(t_k,0^)1, ΑζΐΖζ^,ωΟΙ), Χ(^,ω_ζ), |Χ(^,ω0Ι ou em relação a outras regiões na dimensão de frequência e/ou tempo (isto é, a obtenção da média de valores para diferentes índices de k e/ou 1) . Em muitas modalidades, pode-se realizar uma média sobre uma zona que se estende tanto na dimensão de tempo quanto na dimensão de frequência. Exemplos específicos com base nas equações de medição de diferença específicas fornecidas anteriormente serão descritos mais adiante, mas deve-se considerar que abordagens correspondentes podem também ser

Petição 870190060716, de 28/06/2019, pág. 102/259

95/106 aplicadas a outros algoritmos ou funções que determinam a medição de diferença.

[00357] Exemplos de funções possiveis para determinar a medição de diferença incluem, por exemplo:

= |Ζ(^,ω_ζ)Γ - γ· [00358] onde α e β são parâmetros de design com tipicamente α = β, como, por exemplo, em:

d(t_k, ω_ζ) = - y fc + 3 fc + 3 |Ζ(ί_η,ω_ζ)|-y ΐΧζ^,ωΟΙ n=k-4 n=k-4 = {|Z(t_k, ω_ζ)| - y. |X(t_k,úh)|} σ(ω_ζ) [00359] onde cr(<z>_í) é uma função de ponderação adequada usada para proporcionar características espectrais desejadas da medição da diferença e da estimativa de fonte de áudio pontual.

[00360] Deve-se considerar que essas funções são meramente exemplificadoras e que muitas outras equações e algoritmos para calcular uma medição de distância podem ser previstos.

[00361] Nas equações acima, o fator γ representa um fator que é introduzido para inclinar a medição de diferença para valores negativos. Deve-se considerar que, enquanto os exemplos específicos introduzem essa inclinação por um fator de escala simples aplicado à região tempo-frequência do sinal de referência de ruído, muitas outras abordagens são possíveis.

[00362] De fato, pode-se usar qualquer maneira adequada de dispor a primeira e a segunda funções fi(x) e Í2 (x) a fim de fornecer uma inclinação para valores negativos. A polarização é especificamente, como nos exemplos anteriores, uma

Petição 870190060716, de 28/06/2019, pág. 103/259

96/106 polarização que gerará valores esperados da medição de diferença que são negativos se não houver fala. De fato, se tanto o sinal de saida de áudio formada em feixes quanto o sinal de referência de ruido contiverem somente ruido aleatório (por exemplo, os valores de amostra podem ser simetricamente e aleatoriamente distribuídos em torno de um valor médio), o valor esperado da medição de diferença será negativo, em vez de zero. No exemplo especifico anterior, isso foi obtido pelo fator de subtração y que resultou em valores negativos quando não há fala.

[00363] Um exemplo de um detector de fonte de áudio pontual 401 com base nas considerações descritas é fornecido na Figura 11. No exemplo, o sinal de saida de áudio formada em feixes e o sinal de referência de ruido são fornecidos ao primeiro transformador 901 e ao segundo transformador 903 que geram o primeiro e o segundo sinais de dominio da frequência correspondentes.

[00364] Os sinais de dominio da frequência são gerados, por exemplo, mediante o cálculo de uma transformada de Fourier de curta duração (STFT - Short-Time Fourier Transform) de, por exemplo, blocos janelados de Hanning sobrepostos do sinal de dominio do tempo. A STFT é, em geral, uma função de tempo e frequência, e é expressa pelos dois argumentos tk e ωι sendo que tk = kB é o tempo distinto, e onde k é o indice do periodo, B o deslocamento do periodo e ωι = 1 ωο é a frequência (distinta) , sendo que 1 é o indice de frequência e ωο denota o espaçamento de frequência elementar.

[00365] Após essa transformação de dominio da frequência, os sinais representados pelos vetores e respectivamente de comprimento são, dessa forma, fornecidos.

Petição 870190060716, de 28/06/2019, pág. 104/259

97/106 [00366] A transformação de dominio da frequência é, no exemplo especifico, alimentada a unidades de magnitude 1101, 1103 que determinam e fornecem as magnitudes dos dois sinais, isto é, elas geram os valores |Z^(M)(tj| e [00367] Em outras modalidades, outras normas podem ser usadas e o processamento pode incluir a aplicação de funções monotônicas .

[00368] As unidades de magnitude 1101, 1103 são acopladas a um filtro passa-baixa 1105 que pode suavizar os valores de magnitude. A filtragem/suavização pode ser no dominio do tempo, no dominio da frequência ou muitas vezes vantajosamente em ambos, isto é, a filtragem pode se estender em ambas as dimensões do tempo e da frequência.

[00369] Os vetores/sinais de magnitude filtrados |zW(t_k)| ^e |*^(M)M também serão chamados de |Z^(tk)|e [00370] O filtro 1105 é acoplado ao processador de diferença 905, que está disposto de modo a determinar as medições de diferença da região tempo-frequência. Como um exemplo especifico, o processador de diferença 905 pode gerar as medições de diferença da região tempo-frequência como:

dÇtk.Md = \Z(tk,Mt)\ — γ_η |X(t_k,ω_ζ)| [00371] O parâmetro de design γ_η pode, tipicamente, estar na faixa de 1..2.

[00372] O processador de diferença 905 é acoplado ao estimador de fonte de áudio pontual 907 onde é alimentado com as medições de diferença da região tempo-frequência e, em resposta, prossegue para determinar a estimativa de fonte de áudio pontual pela combinação dessas.

Petição 870190060716, de 28/06/2019, pág. 105/259

98/106 [00373] Especificamente, a soma das medições de diferença da região tempo-frequência íOj) para valores de frequência entre e = w_aita pode ser determinada como: ^ωΙ~^ωαΙία ^ω1^=ωόαίχα [00374] Em algumas modalidades, esse valor pode ser fornecido a partir do detector de fonte de áudio pontual 401. Em outras modalidades, o valor determinado pode ser comparado a um limiar e usado para gerar, por exemplo, um valor binário indicando se a fonte de áudio pontual é considerada como sendo detectada ou não. Especificamente, o valor e (tk) pode ser comparado com o limiar de zero, isto é, se o valor for negativo, é considerado que nenhuma fonte de áudio pontual foi detectada e, se for positivo, é considerado que uma fonte de áudio pontual foi detectada no sinal de saída de áudio formada em feixes.

[00375] No exemplo, o detector de fonte de áudio pontual 401 incluía filtragem passa-baixa/obtenção de média para os valores da região tempo-frequência de magnitude do sinal de saída de áudio formada em feixes e para os valores da região tempo-frequência de magnitude do sinal de referência de ruído.

[00376] A suavização pode ser especificamente realizada mediante a obtenção de uma média sobre valores vizinhos. Por exemplo, a filtragem passa-baixa a seguir pode ser aplicada ao primeiro sinal de domínio da frequência:

|Ζ(^,ω0Ι = Zm=oZn=-ll^(tk-m^_í__n)|*W(m,n) , [00377] onde (com N=l) W é uma matriz 3*3 com pesos de 1/9. Deve-se considerar que outros valores de N podem

Petição 870190060716, de 28/06/2019, pág. 106/259

99/106 certamente ser usados e, de modo similar, diferentes intervalos de tempo podem ser usados em outras modalidades. De fato, o tamanho sobre o qual a filtragem/suavização é realizada pode ser variado, por exemplo, dependendo da frequência (por exemplo, um núcleo maior é aplicado para frequências mais altas do que para frequências mais baixas).

[00378] De fato, deve-se considerar que a filtragem pode ser alcançada pela aplicação de um núcleo que tem uma extensão adequada tanto na direção do tempo (número de periodos de tempo considerados vizinhos) quanto na direção da frequência (número de intervalos de frequência considerados vizinhos), e que, de fato, o tamanho do núcleo pode ser variado, por exemplo, para frequências diferentes ou para propriedades de sinal diferentes.

[00379] Além disso, diferentes núcleos, conforme representado por W(m,n) na equação acima, podem ser variados, e isso pode, de modo similar, ser uma variação dinâmica, por exemplo, para frequências diferentes ou em resposta a propriedades de sinal.

[00380] A filtragem não somente reduz o ruído e, dessa forma, fornece uma estimativa mais precisa, mas em particular aumenta a diferenciação entre fala e ruído. De fato, a filtragem terá um impacto substancialmente maior no ruído do que uma fonte de áudio pontual que resulta em uma diferença maior sendo gerada para as medições de diferença de região de tempo-frequência.

[00381] Constatou-se que a correlação entre o sinal de saída de áudio formada em feixes e o um (ou mais) sinal de referência de ruído para formadores de feixe, como aquele da Figura 1, reduz para frequências crescentes.

Petição 870190060716, de 28/06/2019, pág. 107/259

100/106

Consequentemente, a estimativa de fonte de áudio é gerada em resposta a apenas medições de diferença de região de tempofrequência para frequências acima de um limiar. Isso resulta em uma maior descorrelação e, consequentemente, em uma diferença maior entre o sinal de saida de áudio formada em feixes e o sinal de referência de ruido quando fala está presente. Isso resulta em uma detecção mais precisa de fontes de áudio pontuais no sinal de saida de áudio formada em feixes.

[00382] Em muitas modalidades, um desempenho vantajoso foi encontrado ao limitar a estimativa de fonte de áudio pontual para ser baseada apenas nas medições de diferença de região de tempo-frequência para frequências não abaixo de 500 Hz ou, em algumas modalidades, vantajosamente não abaixo de 1 kHz ou mesmo 2 kHz.

[00383] Entretanto, em algumas aplicações ou cenários, uma correlação significativa entre o sinal de saida de áudio formada em feixes e o sinal de referência de ruido pode permanecer mesmo para frequências de áudio relativamente altas e, de fato, em alguns cenários, para toda a faixa de áudio.

[00384] De fato, em um campo de ruido difuso esfericamente isotrópico ideal, o sinal de saida de áudio formada em feixes e o sinal de referência de ruido serão parcialmente correlacionados, com a consequência de que os valores esperados de ΐΖ^ζί^,ω^Ι e |Χ_η(Α'^ωί)Ι ⁿão serão iguais e, portanto, não será prontamente substituído por \^n^k> ^ω0 I · [00385] Isso pode ser entendido ao se olhar para as características de um campo de ruido difuso esfericamente

Petição 870190060716, de 28/06/2019, pág. 108/259

101/106 isotrópico ideal. Quando dois microfones são colocados em tal campo a uma distância d e têm sinais de microfone U(t_k, ú)j) e U₂(t_k, ^ωι) respectivamente, nós temos:

Ε{|ί7ι(^,ω)|²} = Ε{|ί7₂(^,ω)|²} = 2σ² e

_ sinífcd) ί’ίί/ιίί/,.,ω). = 2σ²——— = 2σ² sinc(kd),

ω [0038 6] com o numero de onda k = — (cea c

velocidade

do som) e <J² a variância das partes reais e imaginárias de U₁(t_k, ω₍) e U₂(t_k,úüi), que têm distribuição gaussiana.

[00387] Suponha que o formador de feixes seja um formador de feixes simples do tipo atrasar e somar com 2 microfones e forma um feixe transversal (isto é, os atrasos são zero).

[00388] Podemos escrever:

Ζ(Λ,ω_ζ) = υ^,ωΟ + υ^,ωΟ,

[00389] e para o sinal de referência de

ruido:

XÇt_k,M_t)= U₁Çt_k^_l)-U₂(.t_k^_l).

[00390] Para os valores esperados

obtêm-se,

presumindo que apenas ruido esteja presente:

Ε{|Ζ(^,ω)|² } = ΕίΙί/Λ^ω)!²} + Ε{|ί7₂(^ω)|²} + 2 ^(^(^,ω).

= 4σ² + 4σ² sinc(fcd) = 4σ² (1 + sinc(fcd)) .

[00391] De modo similar, obtemos para £{1 co)|² }:

E{\X(t_k,ω)|² } = 4<j²(1 — sinc(fcd)).

[00392] Assim, para as frequências baixas, |Z_n(tfc,*h)| e \X_n(t_k, ú){)| não serão iguais.

[00393] Em algumas modalidades, o detector de

fonte de áudio pontual 401 pode estar disposto

de modo a

Petição 870190060716, de 28/06/2019, pág. 109/259

102/106 compensar tal correlação. Em particular, o detector de fonte de áudio pontual 401 pode estar disposto de modo a determinar uma estimativa de coerência de ruido C(t_k,(ji)i)que é indicativa de uma correlação entre a amplitude do sinal de referência de ruido e a amplitude de um componente de ruido do sinal de saída de áudio formada em feixes. A determinação das medições de diferença da região tempo-frequência pode, então, ser como uma função desta estimativa de coerência.

[00394] De fato, em muitas modalidades, o detector de fonte de áudio pontual 401 pode estar disposto de modo a determinar uma coerência para o sinal de saída de áudio formada em feixes e o sinal de referência de ruído do formador de feixes com base na razão entre as amplitudes esperadas:

_r,. λ _ ⁽’^ωί) “ Ε{|Ύ_η(^_ωί)|}’ [00395] onde £{.} é o operador de expectativa. O termo de coerência é uma indicação da correlação média entre as amplitudes do componente de ruído no sinal de saída de áudio formada em feixes e as amplitudes do sinal de referência de ruído.

[00396] Uma vez que não é dependente do áudio instantâneo nos microfones mas, em vez disso, depende das características espaciais do campo sonoro do ruído, a variação de íOj) como uma função do tempo é muito menor que as variações de tempo de Z_r e Xn.

[00397] Como resultado, C(t_k,ú)i) pode ser estimado de forma relativamente precisa pela média de e \X_n(t_k, |ao longo do tempo durante os períodos em que nenhuma fala está presente. Uma abordagem para fazer isso é revelada no documento US 7.602.926, que descreve especificamente um

Petição 870190060716, de 28/06/2019, pág. 110/259

103/106 método onde nenhuma detecção de fala explícita é necessária para determinar úij) · [00398] Deve-se considerar que qualquer abordagem adequada para determinar a estimativa de coerência de ruido C(t_k, (Ojjpode ser usada. Por exemplo, pode ser feita uma calibração na qual o alto-falante é instruido a não falar com o primeiro e o segundo sinais de dominio de frequência sendo comparados e com a estimativa de correlação de ruído íOj) para cada região de tempo-frequência simplesmente sendo determinada como a razão média dos valores de região de tempo-frequência do primeiro sinal de domínio de frequência e do segundo sinal de domínio de frequência. Para um campo de ruído difuso esfericamente isotrópico ideal, a função de coerência também pode ser analiticamente determinada seguindo a abordagem descrita acima.

[00399] Com base nessa estimativa \Z_n(t_k, ω^Ι pode ser substituído por C(t_k, úh)|X_n(t_fc, ío^lem vez de apenas \X_n(t_k, á)j)|. Isso pode fazer com que as medições de diferença da região tempofrequência sejam dadas por:

d = |Ζ(^,ω_ζ)| -y C(t_k,úh)|X(tfc,úh)|.

[00400] Dessa forma, a medição de diferença da região tempo-frequência anterior pode ser considerada um exemplo específico da medição de diferença acima com a função de coerência ajustada para um valor constante igual a 1.

[00401] O uso da função de coerência pode possibilitar que a abordagem seja usada em frequências mais baixas, incluindo em frequências onde há uma correlação relativamente forte entre o sinal de saída de áudio formada em feixes e o sinal de referência de ruído.

Petição 870190060716, de 28/06/2019, pág. 111/259

104/106 [00402] Deve-se considerar que a abordagem pode ainda mais vantajosamente, em muitas modalidades, incluir adicionalmente um cancelador adaptativo que está disposto de modo a cancelar um componente de sinal do sinal de saida de áudio formada em feixes correlacionado com o ao menos um sinal de referência de ruido. Por exemplo, de modo similar ao exemplo da Figura 1, um filtro adaptativo pode ter o sinal de referência de ruido como uma entrada e com a saida sendo subtraida do sinal de saida de áudio formada em feixes. O filtro adaptativo pode, por exemplo, estar disposto de modo a minimizar o nível do sinal resultante durante os intervalos de tempo onde nenhuma fala está presente.

[00403] Deve-se considerar que, para fins de clareza, a descrição acima descreveu as modalidades da invenção com referência a diferentes circuitos, unidades e processadores funcionais. Entretanto, ficará evidente que qualquer distribuição adequada de funcionalidade entre os diferentes circuitos, unidades ou processadores funcionais pode ser usada sem se desviar da invenção. Por exemplo, a funcionalidade ilustrada a ser executada por processadores ou controladores separados pode ser executada pelo mesmo processador ou pelos mesmos controladores. Por isso, as referências a unidades ou circuitos funcionais específicos devem ser consideradas apenas como referências a meios adequados para fornecer a funcionalidade descrita e não como indicativas de uma estrutura física ou uma organização lógica ou física estrita.

[00404] A invenção pode ser implementada em qualquer forma adequada, incluindo hardware, software, firmware ou qualquer combinação dos mesmos. A invenção pode ser, opcionalmente, implementada, ao menos parcialmente, como

Petição 870190060716, de 28/06/2019, pág. 112/259

105/106 software de computador que é executado em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma modalidade da invenção podem ser implementados física, funcional e logicamente de qualquer forma adequada. De fato, a funcionalidade pode ser implementada em uma unidade única, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Assim, a invenção pode ser implementada em uma unidade única ou pode ser distribuída física e funcionalmente entre diferentes unidades, circuitos e processadores.

[00405] Embora a presente invenção tenha sido descrita em conexão com algumas modalidades, a mesma não está destinada a ser limitada à forma específica aqui apresentada. Em vez disso, o escopo da presente invenção é limitado apenas pelas reivindicações em anexo. Adicionalmente, embora possa parecer que um recurso é descrito em conexão com modalidades específicas, o elemento versado na técnica reconhecerá que vários recursos das modalidades descritas podem ser combinados de acordo com a invenção. Nas reivindicações, o termo que compreende não exclui a presença de outros elementos ou outras etapas.

[00406] Além disso, embora individualmente mencionados, uma pluralidade de meios, elementos, circuitos ou etapas de métodos podem ser implementados, por exemplo por meio de um único circuito, uma única unidade ou um único processador. Adicionalmente, embora recursos individuais possam estar incluídos em reivindicações diferentes, eles podem ser vantajosamente combinados, e sua inclusão em reivindicações diferentes não implica que uma combinação de recursos não seja viável e/ou vantajosa. Além disso, a inclusão de um recurso em

Petição 870190060716, de 28/06/2019, pág. 113/259

106/106 uma categoria de reivindicações não implica uma limitação a essa categoria, porém, em vez disso, indica que o recurso é igualmente aplicável a outras categorias das reivindicações, conforme for adequado. Além disso, a ordem dos recursos nas reivindicações não implica em nenhuma ordem especifica na qual os recursos precisam ser trabalhados e, em particular, a ordem das etapas individuais em uma reivindicação de método não implica que as etapas precisam ser executadas nessa ordem. As etapas podem, na verdade, ser executadas em qualquer ordem adequada. Além disso, referências no singular não excluem uma pluralidade. Dessa forma, as referências a um(a), uns/umas, primeiro(a), segundo(a) etc., não excluem uma pluralidade. Os sinais de referência nas reivindicações são fornecidos meramente como exemplos esclarecedores e não devem ser interpretados como limitadores do escopo das reivindicações de forma alguma.

Claims

REIVINDICAÇÕES

1. APARELHO PARA CAPTURA DE ÁUDIO, sendo o aparelho caracterizado por compreender:

uma matriz de microfones (301);

um primeiro formador de feixes (305) acoplado à matriz de microfones (301) e disposto de modo a gerar uma primeira saida de áudio formada em feixes;

uma pluralidade de formadores de feixe restritos (309, 311) acoplados à matriz de microfones (301), e cada um disposto de modo a gerar uma saida de áudio restrita formada em feixes;

um primeiro adaptador (307) para adaptar os parâmetros de formação de feixes do primeiro formador de feixes (305);

um segundo adaptador (313) para adaptar os parâmetros de formação restrita de feixes para a pluralidade de formadores de feixe restritos (309, 311);

um processador de diferença (317) para determinar uma medição de diferença para ao menos um dentre a pluralidade de formadores de feixe restritos (309, 311), sendo que a medição de diferença é indicativa de uma diferença entre feixes formados pelo primeiro formador de feixes (305) e pelo ao menos um dentre a pluralidade de formadores de feixe restritos (309, 311);

sendo que o segundo adaptador (313) está disposto de modo a adaptar parâmetros de formação restrita de feixes com uma restrição de que os parâmetros de formação restrita de feixes sejam adaptados apenas para formadores de feixe restritos dentre a pluralidade de formadores de feixe restritos (309, 311) para os quais foi determinada uma medição de diferença que satisfaz um critério de similaridade, e sendo que o processador de diferença (317) está disposto de modo a determinar a medição de diferença para um

Petição 870190060716, de 28/06/2019, pág. 115/259
2/8 primeiro formador de feixes restrito (309) como uma diferença entre o primeiro conjunto de parâmetros e o conjunto restrito de parâmetros para o primeiro formador de feixes restrito (309).

2. APARELHO, de acordo com a reivindicação 1, caracterizado por compreender adicionalmente um detector de fonte de áudio (401) para detectar fontes de áudio pontuais nas segundas saidas de áudio formadas em feixes; e sendo que o segundo adaptador (313) está disposto de modo a adaptar os parâmetros de formação restrita de feixes apenas para formadores de feixe restritos para os quais é detectada uma presença de uma fonte de áudio pontual na saida de áudio restrita formada em feixes.
3. APARELHO, de acordo com a reivindicação 2, caracterizado pelo detector de fonte de áudio (401) estar adicionalmente disposto de modo a detectar fontes de áudio pontuais na primeira saida de áudio formada em feixes; e o aparelho compreender adicionalmente um controlador (501) disposto de modo a definir parâmetros de formação restrita de feixes para um primeiro formador de feixes restrito (309), em resposta aos parâmetros de formação de feixes do primeiro formador de feixes (305), se for detectada uma fonte de áudio pontual na primeira saida de áudio formada em feixes, mas não em quaisquer saidas de áudio restritas formadas em feixe.
4. APARELHO, de acordo com a reivindicação 3, caracterizado pelo controlador (501) estar disposto de modo a definir os parâmetros de formação restrita de feixes para o primeiro formador de feixes restrito (309), em resposta aos parâmetros de formação de feixes do primeiro formador de feixes (305), apenas se uma medição de diferença para o primeiro formador de feixes restrito (309) exceder o limiar.

Petição 870190060716, de 28/06/2019, pág. 116/259

3/8
5. APARELHO, de acordo com qualquer uma das reivindicações 2 a 4, caracterizado pelo detector de fonte de áudio (401) estar adicionalmente disposto de modo a detectar fontes de áudio na primeira saida de áudio formada em feixes; e o aparelho compreender adicionalmente um controlador (501) disposto de modo a definir parâmetros de formação restrita de feixes para um primeiro formador de feixes restrito (309), em resposta aos parâmetros de formação de feixes do primeiro formador de feixes (305), se tiver sido detectada uma fonte de áudio pontual na primeira saida de áudio formada em feixes e em uma segunda saida de áudio formada em feixes do primeiro formador de feixes restrito (309), e tiver sido determinada uma medição de diferença para o primeiro formador de feixes restrito (309) que excede um limiar.
6. APARELHO, de acordo com a reivindicação 5, caracterizado pela pluralidade de formadores de feixe restritos (30 9, 311) ser um subconjunto ativo de formadores de feixe restritos selecionados dentre um grupo de formadores de feixe restritos, e o controlador (401) estar disposto de modo a aumentar um número de formadores de feixe restritos para incluir o primeiro formador de feixes restrito (309), por meio da inicialização de um formador de feixes restrito proveniente do grupo de formadores de feixe restritos com o uso dos parâmetros de formação de feixes do primeiro formador de feixes (305).
7. APARELHO, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo segundo adaptador (313) estar adicionalmente disposto de modo a adaptar os parâmetros de formação restrita de feixes para um primeiro formador de feixes restrito (309) apenas se for

Petição 870190060716, de 28/06/2019, pág. 117/259

4/8 satisfeito um critério que compreende ao menos um requisito selecionado do grupo de:

- um requisito de que um nivel da segunda saida de áudio formada em feixes do primeiro formador de feixes restrito (309) seja mais alto que para qualquer outra segunda saida de áudio formada em feixes;

- um requisito de que um nivel de uma fonte de áudio pontual na segunda saida de áudio formada em feixes do primeiro formador de feixes restrito (309) seja mais alto que qualquer fonte de áudio pontual em qualquer outra saida de áudio formada em feixes;

- um requisito de que uma razão sinal/ruido para a segunda saida de áudio formada em feixes do primeiro formador de feixes restrito (309) exceda um limiar; e

- um requisito de que a segunda saida de áudio formada em feixes do primeiro formador de feixes restrito (309) compreenda um componente de fala.
8. APARELHO, de acordo com qualquer uma das reivindicações anteriores, caracterizado por uma taxa de adaptação para o primeiro formador de feixes (305) ser mais alta que para a pluralidade de formadores de feixe restritos (309, 311) .
9. APARELHO, de acordo com a reivindicação 1, caracterizado pelo primeiro formador de feixes (305) e a pluralidade de formadores de feixe restritos (309, 311) serem formadores de feixe do tipo filtragem e combinação.
10. APARELHO, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo primeiro formador de feixes (305) ser um formador de feixes do tipo filtragem e combinação, compreendendo uma primeira

Petição 870190060716, de 28/06/2019, pág. 118/259

5/8 pluralidade de filtros de formação de feixes, cada um tendo uma primeira resposta adaptativa a impulso e sendo que um segundo formador de feixes que é um formador de feixes restrito dentre a pluralidade de formadores de feixe restritos é um formador de feixes do tipo filtragem e combinação, compreendendo uma segunda pluralidade de filtros de formação de feixes, cada um tendo uma segunda resposta adaptativa a impulso; e o processador de diferença (317) estar disposto de modo a determinar a medição de diferença entre os feixes do primeiro formador de feixes (303) e do segundo formador de feixes (305), em resposta a uma comparação entre as primeiras respostas adaptativas a impulso e as segundas respostas adaptativas a impulso.
11. APARELHO, de acordo com a reivindicação 1, caracterizado por compreender:

um formador de feixes de referência de ruido (305) disposto de modo a gerar um sinal de saida de áudio formada em feixes e ao menos um sinal de referência de ruido, sendo que o formador de feixes de referência de ruido é um dentre o primeiro formador de feixes (305) e a pluralidade de formadores de feixe restritos (309, 311);

um primeiro transformador (901) para gerar um primeiro sinal de dominio da frequência a partir de uma transformada de frequência do sinal de saida de áudio formada em feixes, sendo que o primeiro sinal de dominio da frequência é representado por valores de região tempo-frequência;

um segundo transformador (903) para gerar um segundo sinal de dominio da frequência a partir de uma transformada de frequência do ao menos um sinal de referência de ruido,

Petição 870190060716, de 28/06/2019, pág. 119/259

6/8 sendo que o segundo sinal de dominio da frequência é representado por valores de região tempo-frequência;

um processador de diferença (905) disposto de modo a gerar medições de diferença da região de tempo-frequência, sendo que uma medição de diferença de região de tempofrequência é indicativa de uma diferença entre uma primeira função monotônica de uma norma de um valor de região de tempofrequência do primeiro sinal de dominio de frequência para a primeira frequência e uma segunda função monotônica de uma norma de um valor de região de tempo-frequência do segundo sinal de dominio da frequência para a primeira frequência;

um estimador de fonte de áudio pontual (907) para gerar uma estimativa de fonte de áudio pontual indicativa de se o sinal de saida de áudio formada em feixes compreende uma fonte de áudio pontual, sendo que o estimador de fonte de áudio pontual (907) está disposto de modo a gerar a estimativa de fonte de áudio pontual em resposta a um valor de diferença combinado para medições de diferença de região de tempofrequência, para frequências acima de um limiar de frequência.
12. APARELHO PARA CAPTURA DE ÁUDIO, de acordo com a reivindicação 11, caracterizado pelo estimador de fonte de áudio pontual (907) estar disposto de modo a detectar uma presença de uma fonte de áudio pontual na saida de áudio formada em feixes, em resposta ao valor de diferença combinado exceder um limiar.
13. MÉTODO DE CAPTURA DE ÁUDIO, sendo o método caracterizado por compreender:

um primeiro formador de feixes (305) acoplado a uma matriz de microfones (301), gerando uma primeira saida de áudio formada em feixes;

Petição 870190060716, de 28/06/2019, pág. 120/259

7/8 uma pluralidade de formadores de feixe restritos (309, 311) acoplados à matriz de microfones (301), gerando uma saida de áudio restrita formada em feixes;

adaptar os parâmetros de formação de feixes do primeiro formador de feixes (305);

adaptar os parâmetros de formação restrita de feixes para a pluralidade de formadores de feixe restritos (309, 311);

determinar uma medição de diferença para ao menos um dentre a pluralidade de formadores de feixe restritos (309, 311), sendo que a medição de diferença é indicativa de uma diferença entre feixes formados pelo primeiro formador de feixes (305) e o pelo menos um dentre a pluralidade de formadores de feixe restritos (309, 311);

sendo que a adaptação dos parâmetros de formação restrita de feixes compreende adaptar parâmetros de formação restrita de feixes com uma restrição de que os parâmetros de formação restrita de feixes sejam adaptados apenas para formadores de feixe restritos, dentre a pluralidade de formadores de feixe restritos (309, 311), para os quais tenha sido determinada uma medição de diferença que satisfaz um critério de similaridade, e sendo que o processador de diferença (317) está disposto de modo a determinar a medição de diferença para um primeiro formador de feixes restrito (309) como uma diferença entre o primeiro conjunto de parâmetros e o conjunto restrito de parâmetros para o primeiro formador de feixes restrito (309).
14. PRODUTO DE PROGRAMA DE COMPUTADOR, caracterizado por compreender meios de código de programa de computador adaptados para executar todas as etapas, conforme

Petição 870190060716, de 28/06/2019, pág. 121/259

8/8 definido na reivindicação 13, quando o dito programa for executado em um computador.