BR112015004625B1 - Aparelho e método para fornecer uma estimativa de probabilidade de presença de voz multicanal informada. - Google Patents

Aparelho e método para fornecer uma estimativa de probabilidade de presença de voz multicanal informada. Download PDF

Info

Publication number
BR112015004625B1
BR112015004625B1 BR112015004625-8A BR112015004625A BR112015004625B1 BR 112015004625 B1 BR112015004625 B1 BR 112015004625B1 BR 112015004625 A BR112015004625 A BR 112015004625A BR 112015004625 B1 BR112015004625 B1 BR 112015004625B1
Authority
BR
Brazil
Prior art keywords
probability
speech
estimate
estimator
information
Prior art date
Application number
BR112015004625-8A
Other languages
English (en)
Other versions
BR112015004625A2 (pt
Inventor
Prof. Dr. Habets Emanuel
Taseska Maja
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BR112015004625A2 publication Critical patent/BR112015004625A2/pt
Publication of BR112015004625B1 publication Critical patent/BR112015004625B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

aparelho e método para fornecer uma estimativa de probabilidade de presença de voz multicanal informada. um aparelho para fornecer uma estimativa de probabilidade de voz é fornecido. o aparelho compreende um primeiro estimador de probabilidade de voz (110) para estimar informações de probabilidade de voz, indicando uma primeira probabilidade se um campo de som de uma cena compreender voz ou se o campo de som da cena não compreender voz. além disso, o aparelho compreende uma interface de saída (120) para emitir a estimativa de probabilidade de voz, dependendo das informações de probabilidade de voz. o primeiro estimador de probabilidade de voz (110) é configurado para estimar as primeiras informações de probabilidade de voz com base, pelo menos, nas informações espaciais sobre o campo de som ou informações espaciais sobre a cena.

Description

DESCRIÇÃO
[0001] A presente invenção refere-se ao processamento do sinal de áudio e, em particular, a um aparelho e método para uma estimativa de probabilidade de presença de voz multicanal informada.
[0002] O processamento do sinal de áudio se torna cada vez mais importante. Em particular, a captura de voz que não requer uso das mãos é necessária em muitas interfaces homem-máquina e sistemas de comunicação. Os sensores acústicos embutidos geralmente recebem uma mistura de sons desejados (por exemplo, voz) e sons indesejados (por exemplo, ruido ambiente, alto-falantes de interferência, reverberação e ruido do sensor). Como os sons indesejados degradam a qualidade e inteligibilidade dos sons desejados, os sinais do sensor acústico podem ser processados (por exemplo, filtrados e somados) a fim de extrair o sinal fonte desejado ou, indicado de forma diferente, para reduzir os sinais de som indesejados. Para computar estes filtros, uma estimativa precisa da matriz da densidade espectral da potência do ruido (PSD I power spectral density) é geralmente utilizada. Na prática, o sinal do ruido é não observável e sua matriz PSD precisa ser estimada a partir dos sinais do sensor acústico do ruido.
[0003] Estimadores de probabilidade de presença de voz de canal único (SPP I speech presence probability) foram utilizados para estimar o PSD do ruido (vide, por exemplo, [1-5]) e para controlar a compensação entre a redução de ruido e a distorção de voz (vide, por exemplo, [6, 7]). Um SPP multicanal a posteriori foi recentemente empregado para estimar a matriz PSD do ruido (vide, por exemplo, [8]). Além disso, a estimativa de SPP pode ser utilizada para mitigar o consumo de energia de um dispositivo.
[0004] A seguir, o modelo do sinal bem estabelecido no processamento de voz multicanal será considerado, onde cada sensor acústico de uma matriz do elemento-M captura uma mistura de aditivo de um sinal desejado e sinal indesejado. O sinal recebido no sensor acústico m-th pode ser descrito no dominio de tempo-frequência, conforme segue
Figure img0001
[0005] onde Xm(k, n) e Vm(k, n) denotam os coeficientes espectrais complexos do sinal fonte desejado e o sensor acústico m-th do componente do ruido, respectivamente, e n e k são os indices de tempo e frequência, respectivamente.
[0006] O sinal desejado pode, por exemplo, ser espacialmente coerente através dos microfones e a coerência espacial do ruido pode, por exemplo, seguir a coerência espacial de um campo de som esfericamente isotrópico, vide [24] .
[0007] Em outras palavras, por exemplo, Xm(k, n) pode denotar os coeficientes espectrais complexos do sinal da fonte desejada no sensor acústico m-th, Vm(k, n) pode denotar os coeficientes espectrais complexos do componente do ruido no sensor acústico m-th, n pode denotar o indice de tempo e k pode denotar o indice de frequência.
[0008] Os sinais do sensor acústico com ruido observados podem ser gravados na notação do vetor como
Figure img0002
[0009] e a densidade espectral da potência do ruido (PSD) de y(k, n) é definida como
Figure img0003
[0010] onde o indice H denota a transposição conjugada de uma matriz. Os vetores x(k, n) e v(k, n) e as matrizes ^*xx( ’n)θ Φvv(k, n)s^o definidos semelhantemente. Os sinais desejados e indesejados são assumidos não correlacionados e com média zero, de modo que a fórmula (3) pode ser escrita como
Figure img0004
[0011] A seguinte hipótese padrão é introduzida com relação à presença de um sinal desejado (por exemplo, um sinal de voz) em uma dada posição de tempo-frequência:
[0012] H0(k, n) : y(k; n) = v(k; n) i ndicando ausência de voz, e
[0013] H1(k, n) : y(k; n) = x(k; n) + v(k; n) i ndicando presença e voz.
[0014] Por exemplo, pode ser observado estimar a SPP a posteriori condicional, ou seja, p[Hl(k, n) I y(kg n)]•
[0015] Supondo que se considera o microfone i-th da matriz como uma referência, por exemplo, pode ser observado estimar o sinal desejado Xi(nyk).
[0016] Sob a suposição de que os componentes desejados e indesejados podem ser modelados como variáveis aleatórias gaussianas multivariadas complexas, a estimativa SPP multicanal é dada por (vide [9]):
Figure img0005
[0017] onde q(k, n) = p[H1(k, n) ] denota a probabilidade de presença de voz a priori (SPP), e
Figure img0006
[0018] onde t'r{°} denota o operador de traço. Estimadores alternativos assumindo outro tipo de distribuição (por exemplo, uma distribuição Laplaciana) também pode ser derivado e utilizado.
[0019] Apenas sob a suposição que a matriz PSD do sinal desejado tem classificação um [por exemplo, 0=(k, n) =¢'=,=,(k, n) "y(k, n)7iH(k, n) com ¢TÍTi(k, n) = E { |X,'(k, n)|2 } e 'Yi denota um vetor da coluna de comprimento M] , a SPP multicanal pode ser obtida aplicando um estimador de SPP de canal único à saida de um gerador de feixes com resposta sem distorção de variância minima (MVDR | minimum variance distortionless response).
[0020] O estado da técnica abrange tanto o uso de uma SPP fixa a priori [4, 9] quanto um valor que depende da razão sinal-para-ruido a priori de canal único ou multicanal (SNR I signal-to-noise ratio) (vide [2, 8, 10]). Cohen et al. [10], uso de três parâmetros ^localí^,n), Pgbbal(^,n), e ^frame(^) que se baseiam na distribuição de tempo-frequência do SNR a priori de canal único estimado, para calcular a SNR a priori dada por
Figure img0007
[0021] Estes parâmetros explicam a forte correlação da presença de voz nas posições de frequência próximas de períodos de tempo consecutivos. Em outras abordagens do estado da técnica (vide [11]), os parâmetros são calculados no domínio de energia do registro. Em outras abordagens do estado da técnica (vide [8]), a SNR a priori multicanal foi utilizada ao invés de calcular ^local(&» /^globa](^,n), e ^frame(^)
[0022] Um defeito principal dos estimadores de SPP do estado da técnica é que eles não podem distinguir entre os sons desejados e indesejados.
[0023] O objeto da presente invenção é fornecer conceitos melhorados para fornecer uma estimativa da probabilidade da presença de voz multicanal informada. O objeto da presente invenção é solucionado por um aparelho, de acordo com a reivindicação 1, por um método, de acordo com a reivindicação 19, e por um programa de computador, de acordo com a reivindicação 20,
[0024] A seguir utilizaremos o termo "cena". Uma cena é um ambiente onde um campo de som é gerado. As informações especiais sobre uma cena podem, por exemplo, compreender informações sobre a posição de uma ou mais fontes sonoras que geram o campo de som, informações sobre a posição de sensores acústicos, informações sobre a distância das fontes sonoras aos sensores acústicos, informações sobre se um orador humano ou boca sào detectadas e/ou informações sobre se um orador humano ou boca estão na proximidade dos sensores acústicos.
[0025] Um campo de som pode, por exemplo, ser caracterizado pela pressão de som em cada posição em um ambiente, por exemplo, um ambiente onde o campo de som sai. Por exemplo, um campo de som pode ser caracterizado pelas amplitudes da pressão de som em cada posição em um ambiente, por exemplo, um ambiente onde o campo de som sai. Ou, um campo de som pode, por exemplo, ser caracterizado pela pressão de som complexa em cada posição em um ambiente, por exemplo, um ambiente onde o campo de som sai, quando um dominio espectral ou um dominio de tempo-frequência é considerado. Por exemplo, as pressões de som nas posições no ambiente caracterizando o campo de som podem, por exemplo, serem gravados por um ou mais sensores acústicos, por exemplo, por um ou mais microfones. As informações especiais sobre o campo de som podem, por exemplo, compreender uma direção do vetor de chegada ou, por exemplo, uma razão da energia direta a difusa determinada pelas gravações de um ou mais sensores acústicos que gravam as pressões de som nas posições no ambiente, as pressões de som caracterizando o campo de som.
[0026] Um aparelho para fornecer uma estimativa de probabilidade de voz é fornecido. O aparelho compreende um primeiro estimador de probabilidade de voz (que pode ser igual ao estimador de probabilidade de presença de voz a priori) para estimar as informações de probabilidade de voz indicando uma primeira probabilidade sobre se um campo de som de uma cena compreende voz ou sobre se o campo de som de uma cena não compreende voz. Além disso, o aparelho compreende uma interface de saida para emitir a estimativa de probabilidade de voz dependendo das informações de probabilidade de voz. O primeiro estimador de probabilidade de voz é configurado para estimar as primeiras informações de probabilidade de voz com base pelo menos nas informações especiais sobre o campo de som ou informações especiais sobre a cena.
[0027] Os conceitos para superar o defeito da técnica anterior pela explicação das informações anteriores derivadas dos sinais do sensor acústico e possivelmente sinais do sensor não-acústico no cálculo computacional de uma SPP a posteriori condicional são fornecidos. Em particular, as informações especiais sobre o campo de som como direcionalidade, proximidade e localização são utilizadas.
[0028] Os parâmetros e/ou 'c , blocai (&» 71), e/ou ^framc(^) podem ser determinados.
[0029] É importante observar que qualquer combinação (por exemplo, produto, soma, soma ponderada) dos parâmetros e/ou e outros parâmetros conhecidos, por exemplo ^local n), Pg]oba](Âr, n), e/ou ^frameC™) , põem ser utilizados para obter as informações de probabilidade de voz utilizando o combinador. Isso também significa que ainda é A p p. p possivel utilizar apenas os parâmetros ' a, ° ou ' c para obter as informações de probabilidade de voz.
[0030] O significado dos parâmetros será explicado mais abaixo.
[0031] Qualquer possível combinação dos parâmetros pode ser utilizada, por exemplo: a) *1 c (Por exemplo, assume ' c = 0,7 quando um objeto está na proximidade do sensor. Então qualquer fonte sonora ativa (se ou não perto) seria considerada desejada com um SNR a priori de 1-0,7=0,3.) b) *1 “ c (Por exemplo, um som é considerado desejado quando há um objeto perto do sensor e a DDR é suficientemente alta) c) (Por exemplo, um som e considerado desejado quando há um objeto perto do sensor e a localização da fonte de sonora está dentro da área de interesse, por exemplo, faixa da direção de chagada) q = Va ‘Pb Pc . d) M (Por exemplo, um som e considerado desejado quando há um objeto perto do sensor, a DDR do som observado é suficientemente alta e a localização da fonte de sonora está dentro da área de interesse).
[0032] De acordo com uma aplicação, o aparelho pode ainda compreender um segundo estimador de probabilidade de voz para estimar a probabilidade da voz indicando uma segunda probabilidade sobre se o campo de som compreende voz ou sobre se o campo de som não compreende voz. O segundo estimador de probabilidade de voz pode ser configurado para estimar a probabilidade da voz com base nas informações de probabilidade de voz estimadas pelo primeiro estimador de probabilidade de voz, e com base em um ou mais sinais do sensor acústico, que dependem do campo de som.
[0033] Em outra aplicação, o primeiro estimador de probabilidade de voz pode ser configurado para estimar as informações de probabilidade de voz com base nas informações direcionais, caracterizado pelas informações direcionais indicarem, como o som direcional do campo de som está. De modo alternativo ou adicional, o primeiro estimador de probabilidade de voz pode ser configurado para estimar as informações de probabilidade de voz com base nas informações de localização, em que as informações de localização indicam pelo menos uma localização de uma fonte de sonora da cena. De modo alternativo ou adicional, o primeiro estimador de probabilidade de voz é configurado para estimar as informações de probabilidade de voz com base nas informações de proximidade, em que as informações de proximidade indicam pelo menos uma proximidade de pelo menos um (possivel) objeto de som para pelo menos um sensor de proximidade.
[0034] De acordo com outra aplicação, o primeiro estimador de probabilidade de voz pode ser configurado para estimar a probabilidade da voz pela determinação de uma estimativa da razão direta a difusa de uma razão difusa a difusa como as informações especiais, a razão difusa a difusa indicando uma razão de som direto compreendido pelos sinais do sensor acústico para o som difuso compreendido pelos sinais do sensor acústico.
[0035] Em outra aplicação, o primeiro estimador de probabilidade de voz pode ser configurado para determinar a estimativa da razão direta a difusa pela determinação de uma estimativa de coerência de uma coerência complexa entre um primeiro sinal acústico dos sinais do sensor acústico, o primeiro sinal acústico sendo gravado por um primeiro sensor acústico p, e um segundo sinal acústico dos sinais do sensor acústico, o segundo sinal acústico sendo gravado por um segundo sensor acústico q. 0 primeiro estimador de probabilidade de voz pode ainda ser configurado para determinar a razào difusa a difusa com base em uma estimativa de mudança de fase de uma mudança de fase do som direto entre o primeiro sinal acústico e o segundo sinal acústico.
[0036] De acordo com uma aplicação, o primeiro estimador de probabilidade de voz pode ser configurado para determinar a estimativa da razão direta a difusa r(fc,n) entre o primeiro sinal acústico e o segundo sinal acústico aplicando a fórmula:
Figure img0008
[0037] rpq(k,n) pode ser a estimativa de coerência da coerência complexa entre o primeiro sinal acústico e o segundo sinal acústico com relação a uma posição de tempo- frequência (k, n), caracterizado por n denotar tempo e em que k denota frequência.
[0038] θ(k,n) pode ser a estimativa de mudança de fase da mudança de fase do som direto entre o primeiro sinal acústico e o segundo sinal acústico com relação à posição de tempo-frequência (k, n), e
[0039] rpgtdiff(À:) pode corresponder à coerência espacial entre o sensor acústico p e o sensor acústico q em um campo de som difuso puro.
[0040] A função (^) pode ser medida ou pode ser pré-calculada dependendo do campo de som difuso assumido.
[0041] A função rpç,diff(^) pode ser medida ou pode ser pré-calculada dependendo do campo de som difuso assumido.
[0042] Em outra aplicação, o primeiro estimador de probabilidade de voz pode ser configurado para estimar as informações de probabilidade de voz pela determinação de ?i)] caracterizado por pO(^er ser a estimative da razão direta a difusa, e em que pode ser a função de mapeamento que representa um mapeamento da estimativa da razão direta a difusa em um valor entre 0 e 1
[0043] Em outra aplicação, a função de mapeamento ,f[r(k,n)] pode ser definida pela fórmula:
Figure img0009
[0044] caracterizado por 2min poder ser um valor minimo da função de mapeamento, em que imax pode ser um valor máximo da função de mapeamento, em que c pode ser um valor para controlar a compensação ao longo do eixo T, θ em que pode definir a inclinação da transição entre 2min e 2max.
[0045] De acordo com outra aplicação, o primeiro estimador de probabilidade de voz pode ser configurado para determinar o parâmetro de localização b empregando a fórmula:
Figure img0010
[0046] caracterizado por ser uma localização especifica, em que é uma localização estimada,
[0047] em que p(Q IQ; ∑Q) é uma função de densidade da probabilidade condicional, e
[0048] em que é a função de densidade da probabilidade anterior de n, e
[0049] em que P(Ô) é a função de densidade da probabilidade de fi, e
[0050] em que ∑Q denota a incerteza associada com as estimativas de fí, e
[0051] em que é uma função multidimensional que descreve uma área de interesse, em que 0<7í(fi)<l.
[0052] Em outra aplicação, o primeiro estimador de probabilidade de voz pode ser configurado para determinar as informações de probabilidade de voz q(k, n) aplicando a fórmula:
Figure img0011
[0053] caracterizado por θ ser uma direção especifica de chegada, e em que é uma direção de chegada estimada,
[0054] em que p(0|Ô;a) éda probabilidade condicional, é e uma função de densidade
[0055] em que p(B) é a função de densidade da probabilidade em que P^β ) anterior de θ, e é a função de densidade da
[0056] n((P em que > é a função de densidade da probabilidade de i9, e
[0057] em que a denota a incerteza associada com as
[0058] em que J L ' > representa um mapeamento da estimativa da razão direta a difusa F(ÀJ,n) em um vaj_or entre 0 e 1, e
[0059] em que é uma função multidimensional que descreve uma área de interesse, em que O<7t(0) < 1.
[0060] Em outra aplicação, o primeiro estimador de probabilidade de voz pode ser configurado para determinar um parâmetro de proximidade como as informações especiais, caracterizado pelo parâmetro de proximidade ter um primeiro valor do parâmetro, quando o primeiro estimador de probabilidade de voz detecta uma ou mais possiveis fontes sonoras dentro de uma distância predefinida de um sensor de proximidade, e em que o parâmetro de proximidade tem um segundo valor do parâmetro, sendo menor do que o primeiro valor do parâmetro, quando o primeiro estimador de probabilidade de voz não detecta possiveis fontes sonoras na proximidade direta do sensor de proximidade. O primeiro estimador de probabilidade de voz é configurado para determinar um primeiro valor de probabilidade de voz como as informações de probabilidade de voz quando o parâmetro de proximidade tem o primeiro valor do parâmetro, e em que o primeiro estimador de probabilidade de voz é configurado para determinar um segundo valor de probabilidade de voz como as informações de probabilidade de voz quando o parâmetro de proximidade tem o segundo valor do parâmetro, o primeiro valor de probabilidade de voz indicando uma primeira probabilidade que o campo de som compreende voz, em que a primeira probabilidade é maior do que uma segunda probabilidade que o campo de som compreende voz, a segunda probabilidade sendo indicada pelo segundo valor de probabilidade de voz.
[0061] Em uma aplicação, um aparelho para determinar uma estimativa da densidade espectral de potência do ruido é fornecido, compreendendo um aparelho de acordo com uma das aplicações descritas acima e uma unidade da estimativa da densidade espectral de potência do ruido. O aparelho de acordo com uma das aplicações descritas acima pode ser configurado para fornecer a estimativa de probabilidade de voz à unidade da estimativa da densidade espectral de potência do ruido. A unidade da estimativa da densidade espectral de potência do ruido é configurada para determinar a estimativa da densidade espectral de potência do ruido com base na estimativa de probabilidade de voz e uma pluralidade de canais de áudio de entrada.
[0062] Em outra aplicação, um aparelho para estimar um vetor de direção é provido, compreendendo um aparelho de acordo com uma das aplicações descritas acima e uma unidade de estimativa do vetor de direção. O aparelho de acordo com uma das aplicações descritas acima pode ser configurado para fornecer a estimativa de probabilidade de voz à unidade de estimativa do vetor de direção. A unidade de estimativa do vetor de direção pode ser configurada para estimar o vetor de direção com base na estimativa de probabilidade de voz e uma pluralidade de canais de áudio de entrada.
[0063] De acordo com outra aplicação, um aparelho para redução de ruido multicanal é fornecido, compreendendo um aparelho de acordo com uma das aplicações descritas acima e uma unidade de filtro. A unidade de filtro pode ser configurada para receber uma pluralidade de canais de entrada de áudio. O aparelho de acordo com uma das aplicações descritas acima pode ser configurado para fornecer as informações de probabilidade de voz à unidade de filtro. A unidade de filtro pode ser configurada para filtrar a pluralidade de canais de entrada de áudio para obter os canais de áudio filtrados com base nas informações de probabilidade de voz e uma pluralidade de canais de áudio de entrada.
[0064] Em uma aplicação, o primeiro estimador de probabilidade de voz pode ser configurado para gerar um parâmetro de compensação, caracterizado pelo parâmetro de compensação depender das informações especiais sobre o campo de som ou informações especiais sobre a cena.
[0065] De acordo com outra aplicação, a unidade de filtro pode ser configurada para filtrar a pluralidade de canais de entrada de áudio dependendo do parâmetro de compensação.
[0066] Os conceitos são propostos para cegamente extrair os sons que são fortemente coerentes pela matriz. Um estimador da matriz PSD de ruido multicanal é fornecido tendo como base a SPP a posteriori. Em contraste ao estado da técnica, uma estimativa da DDR é utilizada para determinar a SNR a priori. Além disso, é proposto utilizar a DDR estimada para controlar o parâmetro de compensação de PMWF. Além disso, é demonstrado que o PWMF controlado por DDR supera o gerador de feixes MVDR e o MWF em termo de melhoria da SNR segmentai e melhoria de PESQ.
[0067] Em uma aplicação, um método para fornecer uma estimativa de probabilidade de voz é fornecido. O método compreende: - Estimar as informações de probabilidade de voz indicando uma primeira probabilidade sobre se um campo de som compreende voz ou sobre se o campo de som não compreende voz, e: - Emitir a estimativa de probabilidade de voz dependendo das informações de probabilidade de voz.
[0068] A estimativa das primeiras informações de probabilidade de voz é baseada pelo menos nas informações especiais sobre o campo de som ou informações especiais sobre a cena.
[0069] Além disso, um programa de computador para implementar o método descrito acima quando executado em um computador ou processador de sinal é fornecido.
[0070] As aplicações são fornecidas nas reivindicações dependentes.
[0071] A seguir, as aplicações da presente invenção serão descritas em mais detalhes com referência às figuras, nas quais:
[0072] A figura 1 ilustra um aparelho para fornecer uma estimativa de probabilidade de voz de acordo com uma aplicação,
[0073] A figura 2 ilustra um aparelho para fornecer uma estimativa de probabilidade de voz de acordo com outra aplicação,
[0074] A figura 3 ilustra um diagrama em blocos de um estimador de SPP a posteriori multicanal informado de acordo com uma aplicação,
[0075] A figura 4 ilustra um diagrama em blocos de um estimador de SNR a priori de acordo com uma aplicação,
[0076] A figura 5 ilustra um mapeamento de DDR T ao parâmetro : 2min=0,2, lmax=0,8, ^=2, c=3 de acordo com uma aplicação,
[0077] A figura 6 ilustra um diagrama em blocos do estimador para utilizar os ajustes do usuário/aplicação para determinar a área de interesse de acordo com uma aplicação,
[0078] A figura 7 ilustra um diagrama em blocos do estimador para ^b utilizar os dados acústicos e não acústicos para determinar a área de interesse de acordo com uma aplicação,
[0079] A figura 8 ilustra um aparelho para determinar uma estimativa da densidade espectral de potência do ruido de acordo com uma aplicação.
[0080] A figura 9 ilustra um diagrama em blocos do estimador da matriz de PSD do ruido proposto de acordo com outra aplicação,
[0081] A figura 10a ilustra um aparelho para estimar um vetor de direção de acordo com uma aplicação,
[0082] A figura 10b ilustra um diagrama em blocos de um vetor de direção estimador de acordo com uma aplicação,
[0083] A figura 11 ilustra um aparelho para redução de ruido multicanal de acordo com uma aplicação,
[0084] A figura 12 ilustra um mapeamento da DDR ao parâmetro de compensação β ~ 1 • Pa (Anin ~ θ» An®c— 5, — 2, c — 0)
[0085] A figura 13 ilustra a melhoria de PESQ para ruído imóvel (esquerda) e murmúrio (direita),
[0086] A figura 14 ilustra o ganho de SNR para ruído imóvel (esquerda) e murmúrio (direita),
[0087] A figura 15 ilustra espectrogramas exemplars para murmúrio ~ ^B), e
[0088] A figura 16 ilustra a DDR estimada e a SPP correspondente ~ dB).
[0089] A figura 1 ilustra um aparelho para fornecer uma estimativa de probabilidade de voz de acordo com uma aplicação. O aparelho compreende um primeiro estimador de probabilidade de voz 110 para estimar as informações de probabilidade de voz indicando uma primeira probabilidade sobre se um campo de som de uma cena compreende voz ou sobre se o campo de som da cena não compreender voz. Além disso, o aparelho compreende uma interface de saída 120 para emitir a estimativa de probabilidade de voz dependendo das informações de probabilidade de voz. 0 primeiro estimador de probabilidade de voz 110 é configurado para estimar as primeiras informações de probabilidade de voz com base pelo menos nas informações especiais sobre o campo de som ou informações especiais sobre a cena.
[0090] Uma cena é um ambiente onde um campo de som é gerado. Informações especiais sobre uma cena podem, por exemplo, compreender informações sobre a posição de uma ou mais fontes sonoras que geram o campo de som, informações sobre a posição de sensores acústicos, informações sobre a distância das fontes sonoras aos sensores acústicos, informações sobre se um orador humano ou boca é detectado, e/ou informações sobre se um orador humano ou boca está na proximidade dos sensores acústicos.
[0091] Informações especiais sobre um campo de som podem, por exemplo, ser informações direcionais indicando como o som direcional do campo de som está. Por exemplo, as informações direcionais podem ser uma razão difusa a difusa (DDR I direct-to-difuse) , conforme descrito abaixo.
[0092] A figura 2 ilustra um aparelho para fornecer uma estimativa de probabilidade de voz de acordo com outra aplicação. O aparelho compreende um primeiro estimador de probabilidade de voz 210 e uma interface de saida 220. Além disso, o aparelho ainda compreende um segundo estimador de probabilidade de voz 215 para estimar a estimativa de probabilidade de voz indicando uma segunda probabilidade sobre se o campo de som compreende voz ou sobre se o campo de som não compreende voz. O segundo estimador de probabilidade de voz 215 é configurado para estimar a estimativa de probabilidade de voz com base nas informações de probabilidade de voz estimadas pelo primeiro estimador de probabilidade de voz, e com base em um ou mais sinais do sensor acústico, que dependem do campo de som.
[0093] Para esta finalidade, o primeiro estimador de probabilidade de voz recebe as informações especiais sobre o campo de som e/ou informações especiais sobre a cena. O primeiro estimador de probabilidade de voz 210 então estima as informações de probabilidade de voz que indicam a primeira probabilidade sobre se o campo de som da cena compreende voz ou sobre se o campo de som da cena não compreende voz. O primeiro estimador de probabilidade de voz 210 pode então inserir as informações de probabilidade de voz ao segundo estimador de probabilidade de voz 215. Além disso, o segundo estimador de probabilidade de voz 215 pode ainda receber um ou mais sinais do sensor acústico. O segundo estimador de probabilidade de voz 215 então estima a estimativa de probabilidade de voz com base nas informações de probabilidade de voz estimadas pelo primeiro estimador de probabilidade de voz 210, e com base em um ou mais sinais do sensor acústico, que dependem do campo de som.
[0094] Em contraste ao estado da técnica, inter alia, a estimativa de uma probabilidade da voz é conduzida com base nas informações especiais. Isso melhora significativamente a estimativa da probabilidade da voz.
[0095] Agora, a seguinte hipótese referente à presença de um sinal de voz desejado em uma dada posição de tempo-frequência é introduzida, de acordo com:
[0096] H0(k,n):y(k,n)=v(k,n) indica a ausência de voz desejada e
[0097] Hi(k, n) : y(k, n) = x(k, n) + v(k, n) indica a presença de voz desejada.
[0098] Em outras palavras: indica a ausência da voz desejada, enquanto n)indica a presença de voz desejada.
[0099] A figura 3 ilustra um diagrama em blocos de um estimador de SPP multicanal informado. O módulo do "Cálculo computacional da SPP a posteriori condicional" pode implementar a fórmula (5).
[0100] Na figura 3, o módulo 310 realiza a implementação de um "Cálculo computacional da SNR a priori". Na aplicação da figura 3, o módulo do "Cálculo computacional da SNR a priori" 310 pode implementar uma realização particular do primeiro estimador de probabilidade de voz 210 da figura 2. Além disso, na figura 3, o módulo 315 realiza a implementação do "Cálculo computacional da SPP a posteriori condicional". Na aplicação da figura 3, o módulo do "Cálculo computacional da SPP a posteriori condicional" 315 pode implementar uma realização particular do segundo estimador de probabilidade de voz 215 da figura 2.
[0101] Uma implementação do módulo do "Cálculo computacional da SNR a priori" 310 de acordo com uma aplicação particular é mostrada na figura 4. Na figura 4, as configurações do usuário/aplicação estão disponíveis para o cálculo computacional dos parâmetros nos módulos 401,..., 40P. As configurações do usuário/aplicação também podem ser fornecidas ao combinador 411. Aqui os parâmetros P são calculados utilizando os dados do sensor acústico e não acústico bem como as configurações do usuário/aplicação. Os T>. p parâmetros !>•*•>'? são combinados (por exemplo, soma ponderada, produto, combinador de razão máxima) pelo combinador 411 para calcular a SNR a priori n)-
[0102] As seguintes subjecções, três parâmetros que podem ser utilizados para calcular a SNR a priori necessária para a SPP multicanal informada são apresentadas.
[0103] A seguir, inter alia, um parâmetro "o. com base na direcionalidade é fornecido.
[0104] É razoável assumir que os sons desejados sejam direcionais enquanto os sons indesejados sejam não direcionais. Um parâmetro é então utilizado para indicar o quão direcional é o som observado. Uma possibilidade de medir a direcionalidade do campo de som é a razão difusa a difusa (DDR) . Uma estimativa da DDR pode ser obtida através da coerência complexa (CC | complex coherence) conforme mostrado em [12]. A CC entre os dois sinais medidos nos sensores acústicos p e q é definido no dominio de tempo-frequência como
Figure img0012
[0105] onde ¢pq(kgn)cruzada ¢pp(k,n) e ¢qq(k: n)são as auto-PSDs dos dois sinais. O estimador de DDR em [12] tem como base um modelo do campo de som onde a pressão de som em qualquer posição e posição de tempo- frequência é modelada como uma superposição de um som direto representado por uma única onda do plano monocromático e um campo difuso ideal. Supondo sensores acústicos onidirecionais, a função CC pode ser expressa como
Figure img0013
[0106] onde θ(k^Tl) é a mudança de fase do som direto entre os dois sensores acústicos, 1 denota a isotrópico esfericamente ideal, com Av correspondente ao número da onda no indice de frequência k, e d à distância entre os sensores acústicos p e q. A função pOCje ainda resultar de uma medição. As PSDs exigidas para calcular utilizando (9), são aproximadas pelas médias temporais e a mudança de fase θ(k,n) do som direto pode ser obtida do PSD com ruído estimado, ou seja, Ô(k,n) = Lepq(kgn) .
[0107] A DDR I7(k. n) pode agora ser expressa em termos da CC estimada rpq(k,7l) e a mudança de fase estimada ê(k, n) como,
Figure img0014
[0108] Dependendo da aplicação ou cenário acústico (ambientes internos e externos), a função CC pode ainda ser substituída pela coerência espacial correspondente a outro campo de ruido. Quando mais do que dois sensores acústicos estão disponíveis, a estimativa de DDR obtida pelos pares de sensor acústico distintos pode ser combinada.
[0109] Claramente, os valores baixos de d(k,n) indicam a ausência de uma fonte direcional, enquanto valores altos de Tf/v*. 71) indicam a presença de uma fonte direcional. Com base nesta observação, Hfc.n) pode ser utilizado para calcular um parâmetro, denotado por Pa, que é utilizado para obter a SNR a priori. Uma função de mapeamento exemplar é dada por
Figure img0015
[0110] onde _Zmin e 2max determinam os valores minimo e máximo que a função pode obter, c (in dB) controla a compensação ao longo do eixo F , e define a inclinação da transição entre _Zmin e 2max.
[0111] A figura 5 ilustra um mapeamento (12) da DDR r ao parâmetro Pa: 2min = 0,2, 2max = 0,8, ? = 2, c = 3.
[0112] Finalmente, o parâmetro é dado por
Figure img0016
[0113] A SNR a priori pode, por exemplo, ser obtida por
Figure img0017
[0114] ou,
Figure img0018
[0115] Os parâmetros da função de mapeamento são escolhidos de modo que uma baixa DDR corresponda a uma baixa SPP, enquanto uma alta DDR corresponde a uma alta SPP.
[0116] A seguir, inter alia, um parâmetro com base na localização e incerteza é fornecido.
[0117] De acordo com as aplicações, um parâmetro obtido pela estimativa de localização instantânea e a incerteza associada é calculada. O termo ''localização" se refere às localizações unidimensional (DOA apenas) bem como a duas ou três localizações dimensionais. A localização pode ser descrita em coordenadas Cartesianas (ou seja, posição x, y, e z) ou coordenadas esféricas (ou seja, ângulo azimute, ângulo de elevação e distância).
[0118] Sob condições especificas, por exemplo, DDR,SNR, DOA, geometria da matriz e estimadores utilizados para o parâmetro de localização e DDR, uma função de densidade da probabilidade (PDF) empirica pode ser observada descrevendo a distribuição de probabilidade da localização estimada para uma fonte em uma localização especifica. Uma fase de treinamento é utilizada para calcular esta PDF empirica. Uma PDF analitica (por exemplo, uma PDF Gaussiana no caso unidimensional e uma PDF Gaussiana multivariada no caso bi ou tridimensional) é então ajustada aos parâmetros de localização estimados para cada localização fonte e condição especifica.
[0119] Neste exemplo, a PDF é denotada por P(Í2 | Q; ∑) , onde a matriz ∑ descreve a incerteza associada com a estimativa de . A partir dos dados uma função de mapeamento multidimensional -^∑ é derivada, pois mapeia as condições previamente mencionadas à incerteza ∑ . Adicionalmente, as probabilidades marginais Xí2) e p(Q) podem ainda ser calculadas na fase de treinamento. Por exemplo, pode ser modelado com base nas informações a priori sobre possiveis localizações fonte, enquanto que P(^) pode ser calculado observando as estimativas durante a fase de treinamento.
[0120] Além disso, uma área de interesse é definida pela função No caso da distância ser utilizada como um parâmetro de localização, uma distância minima e máxima que determinam a localização da fonte desejada pode ser definida. De modo alternativo, a faixa da distância desejada pode ser extraida automaticamente de um sensor de profundidade ou tempo do sensor de voo. Neste caso, a faixa desejada pode ser escolhida com base na média e variância do perfil de profundidade bem como um desvio predefinido e limites definidos do usuário/aplicaçào,
[0121] O cálculo computacional do parâmetro proposto é como segue: 1. Estimar as condições (por exemplo, parâmetro de localização instantâneo direcionalidade instantânea n)z e SNR) util izar sinais acústicos y(k, n) . 2. A área de interesse da fonte desejada é determinada: i) pelo usuário/aplicação, veja a figura 6, ou ii) pela análise dos dados do sensor acústico e não acústico, veja a figura 7. No último caso, a área de interesse, denotada por é variante do tempo. Uma imagem pode, por exemplo, ser analisada para determinar a localização da boca do(s) orador(es). A detecção do rosto e objeto bem como identificação dos oradores pode ser utilizada para definir as fontes sonoras desejadas e indesejadas. A aplicação permite selecionar as fontes sonoras/objetos desejados e fontes sonoras/objetos indesejados online por meios de uma interface do usuário. O anterior pode ser determinado pelo usuário/aplicação ou pela análise dos sensores não acústicos. 3. Determinar o indicador de incerteza ∑O para cada ponto da região de interesse, com base nas condições calculadas na Etapa 1 e na função de mapeamento multidimensional /∑. 4. O parâmetro é calculado por
Figure img0019
Figure img0020
onde S define todas as possíveis localizações que são consideradas, e R(Q) é uma função multidimensional (O<R(S"2) S 1) que descreve a área de interesse. A equação (17) segue da (16) diretamente de acordo com a regra de Bayes, e permite o cálculo computacional de utilizando as PDFs estimadas na fase de treinamento.
[0122] No caso unidimensional, n) denota a DOA instantânea e f(A;,n) & proporcional à incerteza associada. Por exemplo, se uma matriz do sensor acústico linear é utilizada, a precisão da DOA estimada na direção transversal da matriz é maior do que a precisão da DOA estimada na matriz endfire. Consequentemente, a incerteza é maior e assim & é maior para a direção endfire comparada à direção transversal. Ainda, sabe-se que o desempenho do estimador de DOA depende da SNR; baixos níveis de SNR produzem uma variância de estimativa maior e assim incerteza maior comparada aos níveis altos de SNR. No caso unidimensional, a área de interesse pode, por exemplo, ser definida como
Figure img0021
[0123] de modo que qualquer fonte que esteja ativa entre <7xnin e seja assumida ser desejada.
[0124] A SNR a priori pode, por exemplo, ser obtida pela combinação dos parâmetros Pa(k,7n) e Pb(k", n) :
Figure img0022
[0125] onde /U-) é dado por (12).
[0126] A figura 6 ilustra um diagrama em blocos do p. estimador para ° utilizar as configurações do usuário/aplicação para determinar a área de interesse. Um módulo de Estimativa de Localização Instantânea módulo 610 é configurado para estimar a localização instantânea. Um módulo do cálculo computacional de incerteza 620 é configurado para conduzir o cálculo computacional de incerteza. Além disso, um módulo de Cálculo Computacional do Parâmetro 630 é configurado para conduzir o cálculo computacional do parâmetro.
[0127] A figura 7 ilustra um diagrama em blocos do estimador para utilizar os dados acústicos e não acústicos para determinar a área de interesse. Novamente, um módulo de Estimativa de Localização Instantânea 710 é configurado para estimar a localização instantânea. Um módulo do cálculo computacional de incerteza 720 é configurado para conduzir o cálculo computacional de incerteza. Além disso, um módulo de Determinação da Área de interesse 725 é configurado para determinar uma área de interesse. Um módulo do Cálculo Computacional do Parâmetro 730 é configurado para conduzir o cálculo computacional do parâmetro.
[0128] A seguir, inter alia, um parâmetro com base na proximidade é fornecido.
[0129] O parâmetro tem como base a proximidade de um objeto a um sensor de proximidade. Aqui, os dados de um sensor de proximidade são mapeados para ^c(^) de modo que — 1 quando um objeto está na proximidade direta do sensor de proximidade e = -Bnin quando nenhum objeto está na proximidade do sensor, onde -Ruin é um limite inferior predefinido.
[0130] O parâmetro que indica que a proximidade pode ser derivado de um sensor de proximidade clássico (conforme utilizado em muitos smartphones, vide http://en.wikipedia.org/wiki/Proximidade_sensor) .
[0131] De modo alternativo, o parâmetro pode ser com base nas informações de um sensor de profundidade ou tempo do sensor de voo, que pode indicar que há um objeto dentro de R metros do sensor.
[0132] Em uma aplicação particular, pode ser implementado como um parâmetro de proximidade. O primeiro estimador de probabilidade de voz pode implementar um mapeamento para mapear o parâmetro de proximidade a um valor que representa as informações de probabilidade de voz, por exemplo, um valor de probabilidade de voz.
[0133] O parâmetro de proximidade pode, por exemplo, ter um primeiro valor do parâmetro, (por exemplo, = 0,60) quando uma ou mais possiveis fontes sonoras dentro de uma distância predefinida de um sensor de proximidade. Além disso, o parâmetro de proximidade pode ter um segundo valor do parâmetro (por exemplo = 0,40), sendo menor do que o primeiro valor do parâmetro, quando não há possivel fonte sonora dentro de uma distância predefinida de um sensor de proximidade. O parâmetro de proximidade Pc pode, por exemplo, assumir qualquer valor entre 0 e 1,0, por exemplo, dependendo da proximidade dos objetos detectados.
[0134] O primeiro estimador de probabilidade de voz pode ser configurado para determinar um primeiro valor de probabilidade de voz dependendo de Pc .
[0135] Agora, a determinação das informações de probabilidade de voz é considerada no geral.
[0136] É importante observar que qualquer combinação (por exemplo, produto, soma, soma ponderada) dos parâmetros Pa , Pb e/ou Pc e outros parâmetros conhecidos, por exemplo, Plocal(^\n), Pgiobal(^,e/ou Pframe(^) t pode ser utilizada para obter as informações de probabilidade de voz utilizando o combinador. Isso também significa que ainda é possivel utilizar apenas os parâmetros , P*> ou para obter as informações de probabilidade de voz.
[0137] Qualquer possivel combinação dos parâmetros pode ser utilizada, por exemplo: = P P a) Ç c(Por exemplo, assumir ' c = 0,7 quando um objeto está na proximidade do sensor. Então, qualquer fonte sonora ativa (tanto próxima ou não) seria considerada desejada com uma SNR a priori de 1-0,7=0,3.) q=PaPc.D 1 ' ■ H rí b)4 (Por exemplo, um som e considerado desejado quando há um objeto próximo ao sensor e a DDR é suficientemente alta) q = H Pc c) 1 (Por exemplo, um som e considerado desejado quando há um objeto próximo ao sensor e a localização da fonte de sonora está dentro da área de interesse, por exemplo, faixa da direção de chegada) .. q = z o 1 , d) n (Por exemplo, um som e considerado desejado quando há um objeto próximo ao sensor, a DDR do som observado é suficientemente alto e a localização da fonte de sonora está dentro da área de interesse).
[0138] A seguir, aplicações dos conceitos descritos acima são fornecidas.
[0139] Agora, a Estimativa da Matriz de PSD do ruido é descrita.
[0140] Em [2], um estimador de PSD de ruido da media recursiva controlada minima (MCRA | minima controlled recursive averaging) foi proposto utilizando uma regra de atualização de descodificação com base na SPP a posteriori de canal único. Aqui, a SNR a priori foi calculada utilizando (8). Um estimador semelhante de SPP foi proposto em [4], onde uma SPP fixa a priori e uma SNR a priori fixa foi utilizada ao invés das quantidades dependentes do sinal como em [2]. Souden et al. [8], propôs um estimador da matriz da PSD de ruido multicanal que utiliza um estimador de SPP multicanal [9]. Em [8], os autores determinam a SNR a priori utilizando a SNR a priori de forma semelhante ao estimador da PSD de ruido de MCRA.
[0141] Um defeito principal dos estimadores de SPP multicanal do estado da técnica é que eles dependem muito da matriz da PSD do ruido estimado. Se, por exemplo, um ar condicionado for ligado ou um orador distante começar a falar, os niveis de sinal aumentam e o estimador de SPP indicará que a voz está presente.
[0142] Neste caso, em contraste à técnica anterior, a aplicação ainda permitirá tomar uma decisão precisa entre o que é desejado e o que não é desejado.
[0143] Considerando a incerteza da presença de voz, uma estimativa do erro médio quadrático minimo (MMSE | minimum mean square error) para a matriz da PSD do ruido em uma certa posição de tempo-frequência é dada por [8]
Figure img0023
[0144] onde n) Iy(^>n)] indica a probabilidade condicional que a voz desejada está ausente e P[H1 (k-.n) I y(^\n)] denota a probabilidade condicional que a voz desejada está presente.
[0145] A figura 8 ilustra um aparelho para determinar uma estimativa da densidade espectral de potência do ruido de acordo com uma aplicação. O aparelho para determinar uma estimativa da densidade espectral de potência do ruido compreende um aparelho 910 para fornecer uma estimativa de probabilidade de voz de acordo com uma das aplicações descritas acima e uma unidade da estimativa da densidade espectral de potência do ruido 920. O aparelho 910 para fornecer uma estimativa de probabilidade de voz é configurado para fornecer a estimativa de probabilidade de voz à unidade da estimativa da densidade espectral de potência do ruido 920. A unidade da estimativa da densidade espectral de potência do ruido 920 é configurada para determinar a estimativa da densidade espectral de potência do ruido com base na estimativa de probabilidade de voz e com base em uma pluralidade de canais de áudio de entrada.
[0146] A figura 9 ilustra um diagrama em blocos de um estimador da matriz da PSD de ruido de acordo com outra aplicação. O estimador da matriz da PSD de ruido compreende um módulo de ’’Cálculo computacional da SNR a priori" 912.0 módulo do "Cálculo computacional da SNR a priori" 912 pode ser um primeiro estimador de probabilidade de voz do aparelho para fornecer uma estimativa de probabilidade de voz. Além disso, o estimador da matriz da PSD de ruido compreende um módulo do "Cálculo computacional da SPP a posteriori condicional" 914. O módulo do "Cálculo computacional da SPP a posteriori condicional" 914 pode ser um segundo estimador de probabilidade de voz do aparelho para fornecer uma estimativa de probabilidade de voz. Ainda, o estimador da matriz da PSD de ruido compreende uma unidade da "Estimativa da Matriz de PSD do Ruido" 920.
[0147] De acordo com as aplicações, uma técnica de estimativa de ruido para aproximar (19) é utilizar uma soma ponderada da matriz da PSD instantânea recursivamente média da observação com ruido, por exemplo, y(&,71)y (&»^), e uma estimativa da PSD do ruido da estrutura anterior, conforme descrito em [2, 4] para um caso de único canal e em [9] para um caso multicanal. Esta técnica de estimativa pode ser expressa como segue:
Figure img0024
[0148] onde 0U•U(k,'nf) é a PSD estimada da matriz do ruído e O<a,,(k,n)<1 é um parâmetro de nivelamento escolhido. Reorganizando (20), a seguinte regra de atualização é obtida
Figure img0025
[0149] de modo que = P^O^, n) I y(fc, n)] [1 - ^(A:, 7z)]_
[0150] Para reduzir mais o vazamento da voz desejada à estimativa da matriz de PSD do ruido, propomos calcular av(k,n) com base nos parâmetros estimados P1, ...,Pp ,
[0151] Em contraste ao algoritmo em [4], a SNR a priori é com base nos parâmetros e explica as informações temporais, espectrais e espaciais deduzidas tanto dos dados acústicos quanto dos não acústicos. O estimador da matriz da PSD do ruido proposto é resumido na figura 10.
[0152] Agora, um método para estimativa da matriz de PSD do ruido de acordo com uma aplicação é fornecido. Um estimador da matriz da PSD de ruido de acordo com uma aplicação pode ser configurado para implementar tal método. 1. Calcular os parâmetros • ■ • > . 2. Calcular a SNR a priori q(k, n) para a estrutura atual utilizando os parâmetros 3. Determinar o parâmetro de nivelamento QV(À:,n) com base nos parâmetros ^b • • ■». 4. Estimar n) I y(&?n)] de acordo com (5), utilizando a matriz da PSD do ruido estimada a partir da estrutura anterior [por exemplo, Φuw(fc,n —1)] e a estimativa atual de yy(k,Tl):
Figure img0026
[0153] onde ’’ denota uma constante de nivelamento. 5. Calcular uma SPP recursivamente nivelada como segue: 5. Calcular uma spp recursivamente nivelada como segue:
Figure img0027
onde P denota uma constante de nivelamento. 6. Evitar a estagnação da atualização da matriz da PSD do ruido definindo I n)] θm um valor máximo escolhido Pmax sempre que > Pmax . 7. Atualizar a matriz da PSD do ruido utilizando p[Hi(k,n) |y(À:,n)] e (22).
[0154] A seguir, a estimativa do vetor de direção é considerada.
[0155] A figura 10a ilustra um aparelho para estimar um vetor de direção. O aparelho para estimar um vetor de direção compreende um aparelho 1010 para fornecer uma estimativa de probabilidade de voz de acordo com uma das aplicações descritas acima e uma unidade de estimativa do vetor de direção 1020, O aparelho 1010 para fornecer uma estimativa de probabilidade de voz é configurado para fornecer a estimativa de probabilidade de voz à unidade de estimativa do vetor de direção 1020. A unidade de estimativa do vetor de direção 1020 é configurada para estimar o vetor de direção com base na estimativa de probabilidade de voz e com base uma pluralidade de canais de áudio de entrada.
[0156] A figura 10b ilustra um diagrama em blocos de um aparelho para estimar um vetor de direção de acordo com outra aplicação. O aparelho para estimar um vetor de direção compreende um módulo de "Estimativa de SNR a priori" 1012. O módulo de "Estimativa de SNR a priori" 1012 pode ser um primeiro estimador de probabilidade de voz do aparelho para fornecer uma estimativa de probabilidade de voz. Além disso, o aparelho para estimar um vetor de direção compreende um módulo de "Estimativa condicional de SPP a posteriori" 1014. O módulo de "Estimativa condicional de SPP a posteriori" 1014 pode ser um segundo estimador de probabilidade de voz do aparelho para fornecer uma estimativa de probabilidade de voz. Ainda, o aparelho para estimar um vetor de direção compreende uma unidade da "Estimativa do Vetor de Direção" 1020.
[0157] Para algumas aplicações, o vetor de direção da fonte direcional desejada é necessário, além ou ao invés da matriz da PSD do ruido. Em [13], o estimador de SPP de canal único foi utilizado para calcular o vetor de direção para dois sensores acústicos. 0 vetor de direção relacionado ao sinal desejado recebido pelo i-th sensor acústico é definido como
Figure img0028
[0158] onde (') denota o operador de conjugação, Φxix-i (k, rí) = E {T2.)|“ }
Figure img0029
[0159] Claramente, o vetor de direção pode ser obtido considerando a coluna i-th de ^xx(k,n) e dividindo-a pelo elemento i-th de 70ui. Pela definição, o element i-th do vetor de direção '7í(^» é igual a um.
[0160] Utilizando (4), a matriz de PSD da fonte pode ser expressa como Φxx(fc,n) = Φu„(k,n) — Φuv(/c, n). Assim, o vetor de direção pode ser expresso como
Figure img0030
[0161] Os termos no numerador pode ser obtido como a coluna i-th das matrizes ^yy(Â.,7i) e Φvv(k, Tl•), enquanto que os termos no denominador como o elemento i-th dos vetores da coluna e , De modo alternativo, o vetor de direção 7i pode ser obtido pelo cálculo computacional do decomposição do autovalor generalizado do par da matriz ( Φyy, Para o autovalor j-th generalizado e o par do autovetor o seguinte mantém:
Figure img0031
[0162] que utilizando (4) pode ser escrito como
Figure img0032
[0163] Reorganizando (29), e relembrando a classificação uma propriedade de ^xx (ou seja, = Φxixi'yj'y^) r segue
Figure img0033
[0164] que é equivalente a
Figure img0034
[0165] De (31), it pode ser concluido que se 'S\ o vetor de direção 7í(^>7í) representa uma versão alternada e escalada do autovetor , Entretanto, devido à classificação de uma há um único autovalor que não é igual ale assim o autovetor > é unicamente determinado. Eventualmente, a fim de evitar a ambiguidade de escala pode ser normalizado como segue:
Figure img0035
[0166] onde [0UU(k, n)bj]j é o elemento i-th do vetor Φuw(fc. n)6j. utilizando o estimador de SPP multicanal informado, o vetor de direção é estimado recursivamente como segue:
Figure img0036
[0167] onde n) = p[Hi(k; n) | y(k, n)] [1 - ax(fc,n)] e 0 < otx(k, 7i) <1 uma constante de nivelamento apropriadamente escolhido. A constante de nivelamento é dependente de tempo e frequência e é controlada por PI,P2,....PP para reduzir a taxa de atualização do vetor de direção quando, por exemplo, a SNR ou DDR é muito baixa.
[0168] A seguir, a redução de ruido multicanal é explicada.
[0169] A figura 11 ilustra um aparelho para redução de ruido multicanal de acordo com uma aplicação. O aparelho para redução de ruido multicanal compreende um aparelho 1110 para fornecer uma estimativa de probabilidade de voz de acordo com uma das aplicações descritas acima e uma unidade de filtro 1120. A unidade de filtro 1120 é configurada para receber uma pluralidade de canais de entrada de áudio. 0 aparelho 1110 para fornecer uma estimativa de probabilidade de voz é configurado para fornecer as informações de probabilidade de voz à unidade de filtro 1120. A unidade de filtro 1120 é configurada para filtrar a pluralidade de canais de entrada de áudio para obter os canais de áudio filtrados com base nas informações de probabilidade de voz.
[0170] A redução de ruido multicanal de acordo com as aplicações é agora explicada em mais detalhes.
[0171] Um estimador de SPP é geralmente utilizado no contexto de redução de ruido multicanal [6, 7, 14]. O estimador de SPP multicanal informado de acordo com as aplicações pode ser utilizado semelhantemente. Além disso, os parâmetros utilizados para calcular SNR a priori podem ser utilizados para controlar a compensação entre a redução de ruido e a distorção de voz.
[0172] Considerando o i-th sensor acústico como uma referência, o filtro Wiener multicanal paramétrico de dominio de tempo-frequência (PMWF | time-frequency domain parametric multichannel Wiener filter) é dado por [15-17]
Figure img0037
[0173] onde & 0 parâmetro de compensação.
[0174] Os filtros (espaciais) bem conhecidos são casos especiais de um filtro Wiener multicanal paramétrico (PMWF I parametric multichannel Wiener filter) . Por exemplo, o filtro de resposta sem distorção de variância minima (MVDR I minimum variance distortionless response) é obtida com β = θe o filtro Wiener multicanal (MWF | multichannel Wiener filter) é obtido com P~ Deve ser observado que (34) pode ser expresso em formas diferentes e pode ser decomposto em um filtro MVDR e um filtro paramétrico de canal único (vide por exemplo [14, 18] e as referências nele). Ainda, o filtro espacial pode ser expresso utilizando o vetor de direção e as matrizes de PSD. Uma vantagem principal do filtro em in (34) é que ele não depende do vetor de direção (vetor do múltiplo da matriz a.k.a. ou vetor de propagação) relacionado à fonte desejada.
[0175] Uma estimativa do sinal desejado conforme recebido pelo i-th sensor acústico é obtida por
Figure img0038
[0176] Na incerteza da presença de voz, a estimative do sinal desejado pode ser obtida de acordo com
Figure img0039
[0177] onde o segundo número à direita mitiga as distorções de voz no caso de uma decisão falsa-negativa. O fator de ganho Gnin(k) determina a quantidade máxima da redução de ruido quando a voz desejada é assumida como inativa.
[0178] No estimador de MMSE aplica-se o caso da presença de voz e ausência e isso é desejado no caso da voz presente, o objetivo é reduzir a distorção da voz desejada enquanto no caso da voz ausente, o objetivo é reduzir o ruido residual na saida do filtro, então observamos (34) com o parâmetro de compensação [6, 7]
Figure img0040
[0179] de modo que β = 0 (de modo que o PMWF é igual a um filtro MVDR) quando a SPP a posteriori n) | y(fc, 7i)] — 1, 8 — 1 m0C}0 gUe o p^WF é igual a um MWF) quando TI) | y(À;, n)] = 0.5 , e β atinge a infinidade quando a SPP a posteriori n) I y(^>n)] atinge zero. Assim, no último caso, a potência do ruido residual ainda pode reduzir a zero.
[0180] A figura 12 ilustra um mapeamento da DDR ao parâmetro de compensação com 8 — ~ Pa (/min = 0, Zmax = 5, p = 2, c — 0)
[0181] A aplicação direta à SNR a priori pode geralmente levar às distorções sonoras indesejadas do sinal desejado. A invenção inclui um PMWF no qual o parâmetro de compensação depende de uma combinação (por exemplo, soma ponderada, produto, combinador de razão máxima, etc.) dos parâmetros P^Pp PP . As funções de mapeamento utilizadas para combinar os parâmetros podem ser diferentes das utilizadas para calcular a SNR a priori.
[0182] Por exemplo, um pode controlar o parâmetro de compensação utilizando o parâmetro P>a(k'.n) que reflete a direcionalidade do som observado de modo que — 1 — Pa(k,n) e os parâmetros lmin, imaxz P e c são escolhidos de modo que obtemos > 1 quando a DDR estimada está baixa para atingir uma quantidade maior de redução de ruído comparada ao MWF padrão, e n) ~ 0 (por exemplo, aproximadamente igual ao filtro MVDR [16]) quando a DDR estimada é alta, para evitar a distorção de voz. Um exemplo da função de mapeamento para o parâmetro de compensação β é descrito na figura 12 com β = 1 — Pa (^min ~ θi ^max = 5, p — 2, C — 0).
[0183] Em uma aplicação mais geral, o parâmetro de compensação depende, pelo menos, das informações especiais sobre o campo de som ou informações especiais sobre a cena.
[0184] Em uma aplicação particular, o parâmetro de compensação é definido por /^k,n)=f\g(k,n)], onde q denota a saída do primeiro estimador de probabilidade de voz.
[0185] Em uma aplicação específica, o parâmetro de compensação é definido por β(k,n) = 1 - /[r(^,n)].
[0186] A seguir, o desempenho do algoritmo proposto em termos de melhoria de voz obtida na saída do PMWF é avaliado. Primeiro, as medidas de configuração e desempenho são descritas.
[0187] A análise foi realizada para diferentes SNRs e um tempo de reverberação de300 ms. Dois tipos diferentes de ruído utilizados: ruído estacionário com uma PSD a longo- prazo igual à PSD a longo-prazo da voz e murmúrio não estacionário. Em ambos os casos, a CC dos sinais de ruído corresponde à CC de um campo difuso ideal [21].
[0188] A frequência de amostragem foi 16 kHz, e o comprimento da estrutura foi L = 512 amostras. A simulação foi realizada para uma matriz linear uniforme de M microfones com um espaçamento entre os microfones de d = 2,3 cm. Os sinais desejados foram obtidos pela convolaçào de 45s da voz limpa com respostas impulsiva da sala (RIRs | room impulse responses) que foram geradas utilizando uma implementação eficiente do modelo imagem-fonte [22]. As PSDs necessárias para a estimativa de DDR são aproximadas pela média sobre 15 periodos. Para estes experimentos nós utilizamos os mapeamentos q e β com os parâmetros conforme ilustrado nas figuras 5 e 12a. Os parâmetros de nivelamento α utilizados na média recursiva av, αy e ap foram escolhidos como 0,75, 0,8 e 0,9, respectivamente. A melhoria da pontuação da avaliação perceptual da qualidade da voz (PESQ | perceptual evaluation of voz quality) [23] e o ganho de SNR segmental na saida de diferentes geradores de feixe direcionados pela matriz da PSD do ruido estimada foram estudados. A melhoria de PESQ é calculada como a diferença na avaliação de PESQ de STFT inverso de -Xi e de STFT inverso de Yi. A SNR segmentai foi obtida pela divisão dos sinais em segmentos não sobrepostos de 10 ms e calculando a média sobre os valores de SNS obtidos em dB. As SNRs segmentais na entrada e na saida são denotadas por e So,respectivamente. Comparamos o desempenho do MVDR padrão e geradores de feixe Wiener, o PMWF controlado por DDR, e a estimativa por (36) com i=l.
[0189] Agora, os resultados são apresentados. A melhoria da PESQ na saida dos geradores de feixe é ilustrada na figura 13 como uma função da SNR de entrada . Pode ser visto que o estimador de MMSE proposto supera os geradores de feixe padrão. Além disso, o PMWF controlado por DDR funciona melhor do que os dois geradores de feixe com uma compensação fixa. O algoritmo leva a uma melhoria de PESQ significativa no caso de murmúrio, que devido a sua não estacionaridade representa um problema desafiante para muitos algoritmos. Os ganhos segmentais de SNR correspondentes são mostrados na figura 14.
[0190] Os espectogramas do sinal da fonte desejada no primeiro microfone, o sinal com ruido recebido, o MWF padrão e a estimativa à base de MMSE são ilustrados na figura 15, para um fragmento de lis. O mapeamento correspondente da DDR estimada à SΔ7R a priori é mostrado na figura 16. Pode ser visto que a SPP é corretamente estimada em altas frequências também, assim preservando o sinal de voz nestas frequências onde a SNR de entrada é baixa.
[0191] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.
[0192] O sinal inventivo decomposto pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido por um meio de transmissão, tal como um meio de transmissão sem fio ou um meio de transmissão cabeado, tal como a Internet.
[0193] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle eletronicamente legiveis armazenados nele (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado.
[0194] Algumas aplicações, de acordo com a invenção, compreendem um transportador de dados não transitório tendo sinais de controle eletronicamente legiveis que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos neste documento seja realizado.
[0195] De forma geral, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código do programa pode, por exemplo, ser armazenado em um transportador legivel por máquina.
[0196] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um transportador legivel por máquina ou em um meio de armazenamento não transitório.
[0197] Em outras palavras, uma aplicação do método inventivo é, assim, um programa de computador tendo um código do programa para realizar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.
[0198] Outra aplicação dos métodos inventivos é, assim, um transportador de dados (ou um meio de armazenamento digital, ou um meio legivel por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos neste documento.
[0199] Outra aplicação do método inventivo é, assim, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[0200] Outra aplicação compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos neste documento.
[0201] Outra aplicação compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos neste documento.
[0202] Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas de campo programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste campo programáveis pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos neste documento. De forma geral, os métodos são preferivelmente realizados por qualquer aparelho de hardware.
[0203] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes a outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações da patente anexas e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações no presente documento.
REFERÊNCIA;
[0204] 1. I. Cohen and B. Berdugo, "Noise estimation by minima controlled recursive averaging for robust speech enhancement," IEEE Signal Process. Lett., vol. 9, no. 1, pp. 12-15, Jan. 2002.
[0205] 2. I. Cohen, "Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging," IEEE Trans. Speech Audio Process., vol. 11, no. 5, pp. 466-475, Sep. 2003.
[0206] 3. "Apparatus and method for computing speech absence probability, and apparatus and method removing noise using computation apparatus and method," U.S. Patent No. US 7,080,007 B2, Jul. 18, 2006.
[0207] 4. T. Gerkmann and R. C. Hendriks, "Noise power estimation base on the probability of speech presence, in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, NY, 2011.
[0208] 5. "Wind noise suppression," US Patent Application Publication Pub. No.US 2011/0103615 Al, May 5, 2011.
[0209] 6. K. Ngo, A. Spriet, M. Moonen, J. Wouters, and S. Jensen, "Incorporating the conditional speech presence probability in multi-channel Wiener filter based noise reduction in hearing aids, " EURASIP Journal on Applied Signal Processing, vol. 2009, p. 7, 2009.
[0210] 7. T. Yu and J. Hansen, "A speech presence microphone array beamformer using model based speech presence probability estimation," in Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2009, pp. 213-216.
[0211] 8. M. Souden, J. Chen, J. Benesty, and S.Affes, "An integrated solution for online multichannel noise tracking and reduction," IEEE Trans. Audio, Speech, Lang. Process., vol. 19, pp. 2159 - 2169, 2011.
[0212] 9. M. Souden, J. Chen, J. Benesty, and S. Affes, "Gaussian model-based multichannel speech presence probability," IEEE Transactions on Audio, Speech, and Language Processing, vol. 18, no. 5, pp. 1072-1077, July 2010.
[0213] 10. I. Cohen and B. Berdugo, "Microphone array post-filtering for non-stationary noise suppression, " in Proc. IEEE Inti. Conf, on Acoustics, Speech and Signal Processing (ICASSP), Orlando, Florida, USA, May 2002, pp. 901-904.
[0214] 11. "Method for estimating priori SAP based on statistical model," US Patent Application Publication Pub. No. US 2008/0082328 Al, Apr. 3, 2008.
[0215] 12. 0. Thiergart, G. D. Galdo, and E. A. P. Habets, "Signal-to-reverberant ratio estimation based on the complex spatial coherence between omnidirectional microphones," in Proc. IEEE Inti. Conf, on Acoustics, Speech and Signal Processing (ICASSP), 2012, pp. 309-312.
[0216] 13. I. Cohen, "Relative transfer function identification using speech signals," IEEE Trans. Speech Audio Process., vol. 12, no. 5, pp. 451{459, Sep. 2004.
[0217] 14. S. Gannot and I. Cohen, "Adaptive beamforming and postfiltering," in Springer Handbook of Speech Processing, J. Benesty, M. M. Sondhi, and Y. Huang, Eds. Springer-Verlag, 2007, ch. 48.
[0218] 15. A. Spriet, M. Moonen, and J. Wouters, "Spatially pre-processed speech distortion weighted multichannel Wiener filtering for noise reduction," Signal Processing, vol. 84, no. 12, pp. 2367-2387, Dec. 2004.
[0219] 16. J. Benesty, J. Chen, and Y. Huang, Microphone Array Signal Processing. Berlin, Germany: Springer-Verlag, 2008.
[0220] 17. S. Mehrez, J. Benesty, and S. Affes, "On optimal frequency-domain multichannel linear filtering for noise reduction," IEEE Trans. Audio, Speech, Lang. Process., vol. 18, no. 2, pp. 260-276, 2010.
[0221] 18. J. Benesty, J. Chen, and E. A. P. Habets, Speech Enhancement in the STFT Domain, ser. SpringerBriefs in Electrical and Computer Engineering. Springer-Verlag, 2011.
[0222] 19. Henry Stark, John W. Woods: Probability and Random Processes with Applications to Signal Processing
[0223] 20. A. Papoulis, U. Pillai: Probability, Random Variables and Stochastic Processe
[0224] 21. E. A. P. Habets, I. Cohen, and S. Gannot, "Generating nonstationary multisensor signals under a spatial coherence constraint," Journal Acoust. Soc. of America, vol. 124, no. 5, pp. 2911-2917, Nov. 2008
[0225] 22. E. A. P. Habets, "Room impulse response generator," Tech. Rep., Technische Universiteit Eindhoven, 2006
[0226] 23. A. Rix, J. Beerends, M. Hollier, and A. Hekstra, "Perceptual evaluation of speech quality (PESQ) - a new method for speech quality assessment of telephone networks and codecs," in Proc. IEEE Inti. Conf, on Acoustics, Speech and Signal Processing (ICASSP), 2001, vol. 2, pp. 749- 752.
[0227] 24. G. W. Elko, "Spatial coherence functions," in Microphone Arrays: Signal Processing Techniques and Applications, M. Brandstein and D. Ward, Eds., chapter 4, pp. 61-85. Springer-Verlag, 2001.

Claims (18)

1. Um aparelho para fornecer uma estimativa de probabilidade de voz, compreendendo: um primeiro estimador de probabilidade de voz (110; 210; 310) para estimar as informações de probabilidade de voz que indicam uma primeira probabilidade se um campo de som de uma cena compreender voz ou se o campo de som da cena não compreender voz, e caracterizado pelo primeiro estimador de probabilidade de voz (110; 210; 310) ser configurado para estimar as primeiras informações de probabilidade de voz com base, pelo menos, nas informações espaciais sobre o campo de som ou as informações espaciais sobre a cena; em que o aparelho compreende, ainda, um segundo estimador de probabilidade de voz (215; 315) para estimar a estimativa de probabilidade de voz que indica uma segunda probabilidade se o campo de som compreender voz ou se o campo de som não compreender voz, em que o segundo estimador de probabilidade de voz (215; 315) é configurado para estimar a estimativa de probabilidade de voz com base nas informações de probabilidade de voz estimadas pelo primeiro estimador de probabilidade de voz (110; 210; 310) e com base em um ou mais sinal(is) do sensor acústico que dependem do campo de som; uma interface de saída (120; 220) para emitir a estimativa de probabilidade de voz, dependendo das informações de probabilidade de voz, considerando que pelo menos um do primeiro estimador de probabilidade de fala e o segundo estimador de probabilidade de fala e a interface de saída são implementados usando um aparelho de hardware ou um computador ou uma combinação de um aparelho de hardware e um computador.
2. Um aparelho de acordo com a reivindicação 1, caracterizado pelo primeiro estimador de probabilidade de voz (110; 210; 310) ser configurado para estimar as informações de probabilidade de voz com base nas informações direcionais, em que as informações direcionais indicam como o som direcional do campo de som está, em que o primeiro estimador de probabilidade de voz (110; 210; 310) é configurado para estimar as informações de probabilidade de voz com base nas informações de localização, em que as informações de localização indicam, pelo menos, uma localização de uma fonte sonora da cena, ou em que o primeiro estimador de probabilidade de voz (110; 210; 310) é configurado para estimar as informações de probabilidade de voz com base nas informações de probabilidade, em que as informações de probabilidade indicam, pelo menos, uma proximidade de, pelo menos, de, pelo menos, um possível objeto de som, pelo menos, em um sensor de proximidade.
3. Um aparelho de acordo com a reivindicação 1, caracterizado pelo primeiro estimador de probabilidade de voz (110; 210; 310) ser configurado para estimar a estimativa de probabilidade de voz pela determinação de uma estimativa da razão direta a difusa de uma razão direta a difusa como as informações espaciais, a razão direta a difusa indicando uma razão de som direto compreendido pelos sinais do sensor acústico para difundir o som compreendido pelos sinais do sensor acústico.
4. Um aparelho de acordo com a reivindicação 3, caracterizado pelo primeiro estimador de probabilidade de voz (1 10; 210; 310) ser configurado para determinar a estimativa da razão direta a difusa pela determinação de uma estimativa de coerência de uma coerência complexa entre um primeiro sinal acústico dos sinais do sensor acústico, o primeiro sinal acústico sendo gravado por um primeiro sensor acústico p, e um segundo sinal acústico dos sinais do sensor acústico, o segundo sinal acústico sendo gravado por um segundo sensor acústico q, e em que o primeiro estimador de probabilidade de voz (110; 210; 310) é configurado, ainda, para determinar a razão direta a difusa com base em uma estimativa de mudança de fase de uma mudança de fase do som direto entre o primeiro sinal acústico e o segundo sinal acústico.
5. Um aparelho de acordo com a reivindicação 4, caracterizado pelo primeiro estimador de probabilidade de voz (110; 210; 310) ser configurado para determinar a estimativa da razão direta a difusa entre o primeiro sinal acústico e o segundo sinal acústico pela aplicação da fórmula:
Figure img0041
em que é a estimativa de coerência da coerência complexa entre o primeiro sinal acústico e o segundo sinal acústico com relação a uma posição de tempo- frequência (k, n), em que n denota tempo e em que k denota frequência, em que ji'' ■ ■■ é a estimativa de mudança de fase da mudança de fase do som direto entre o primeiro sinal acústico e o segundo sinal acústico com relação à posição de tempo-frequência (k, n), e em que ' ■J''' ” corresponde à coerência espacial entre o sensor acústico p e o sensor acústico q em um campo de som difuso puro.
6. Um aparelho de acordo com a reivindicação 3, caracterizado pelo primeiro estimador de probabilidade de voz (110; 210; 310) ser configurado para estimar as informações de probabilidade de voz pela determinação de /[f(fc,n)l em que é a estimativa da razão direta a difusa e em que é uma função de mapeamento que representam um mapeamento da estimativa da razão direta a difusa em um valor entre 0 e 1.
7. Um aparelho de acordo com a reivindicação 6, caracterizado pela função de mapeamento ser definida pela fórmula:
Figure img0042
em que lmin é um valor mínimo da função de mapeamento, em que lmax é um valor máximo da função de mapeamento, em que c é um valor para controlar a compensação ao longo do eixo r e em que P define a inclinação da transição entre lmin e lmax
8. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo primeiro estimador de probabilidade de voz (110; 210; 310) ser configurado para determinar um parâmetro de localização com base em uma distribuição de probabilidade de uma localização estimada de uma fonte sonora e com base em uma área de interesse para obter as informações de probabilidade de voz.
9. Um aparelho de acordo com a reivindicação 8, caracterizado pelo primeiro estimador de probabilidade de voz (110; 210; 310) ser configurado para determinar o parâmetro de localização , empregando a formula
Figure img0043
em que é uma localização específica, em que ”• é uma localização estimada, pí'Q IQ; ∑π) , . em que é uma função de densidade da probabilidade condicional, e em que ■''"■■'é a função de densidade da probabilidade anterior de - , e em que é a função de densidade da probabilidade de —, e em que as estimativas de -■ , e em que é uma função multidimensional
10. Um aparelho de acordo com a reivindicação 3, caracterizado pelo primeiro estimador de probabilidade de voz (110; 210; 310) ser configurado para uma probabilidade da presença de voz a priori q(k, informações de probabilidade de voz aplicando fórmula:
Figure img0044
em que é uma direção específica de chegada, e em que é uma direção estimada de chegada, em que é uma função de densidade da probabilidade condicional, e em que é a função de densidade da probabilidade anterior de , e em que é a função de densidade da probabilidade de , e em que denota a incerteza associada com as estimativas de , e em que representa um mapeamento da estimativa da razão direta a difusa em um valor entre 0 e 1 , e em que é uma função multidimensional que descreve uma área de interesse, em que
11. Um aparelho de acordo a reivindicação 1, caracterizado pelo primeiro estimador de probabilidade de voz (110; 210; 310) ser configurado para determinar um parâmetro de proximidade como as informações espaciais, em que o parâmetro de proximidade tem um primeiro valor de parâmetro, quando o primeiro estimador de probabilidade de voz (110; 210; 310) detecta uma ou mais possível(is) fonte(s) sonora(s) dentro de uma distância predefinida de um sensor de proximidade e em que o parâmetro de proximidade tem um segundo valor de parâmetro, sendo menor do que o primeiro valor de parâmetro, quando o primeiro estimador de probabilidade de voz (110; 210; 310) não detecta possíveis fontes sonoras na proximidade direta do sensor de proximidade, e em que o primeiro estimador de probabilidade de voz (110; 210; 310) é configurado para determinar um primeiro valor de probabilidade de voz como as informações de probabilidade de voz quando o parâmetro de proximidade tem o primeiro valor de parâmetro, e em que o primeiro estimador de probabilidade de voz (1 10; 210; 310) é configurado para determinar um segundo valor de probabilidade de voz como as informações de probabilidade de voz quando o parâmetro de proximidade tem o segundo valor de parâmetro, o primeiro valor de probabilidade de voz indicando uma primeira probabilidade que o campo de som compreende voz, em que a primeira probabilidade é maior do que uma segunda probabilidade que o campo de som compreende voz, o segundo probabilidade sendo indicado pelo segundo valor de probabilidade de voz.
12. Um aparelho de acordo com a reivindicação 1, caracterizado por: uma unidade da estimativa da densidade espectral de potência do ruído (920), em que o aparelho (910) é configurado para fornecer a estimativa de probabilidade de voz à unidade da estimativa da densidade espectral de potência do ruído (920), e em que a unidade da estimativa da densidade espectral de potência do ruído (920) é configurada para determinar a estimativa da densidade espectral de potência do ruído com base na estimativa de probabilidade de voz e uma pluralidade de canais de áudio de entrada.
13. Um aparelho de acordo com a reivindicação 12, caracterizado pelo aparelho (910), de acordo com uma das reivindicações de 1 a 12, ser configurado para computar um ou mais parâmetro(s) espacial(is), um ou mais parâmetro(s) espacial(is) indicando as informações espaciais sobre o campo de som, em que o aparelho (910), de acordo com uma das reivindicações de 1 a 12, é configurado para computar a estimativa de probabilidade de voz empregando um ou mais parâmetro(s) espacial(is), e em que a unidade da estimativa da densidade espectral de potência do ruído (920) é configurada para determinar a estimativa da densidade espectral de potência do ruído, atualizando uma matriz da densidade espectral de potência do ruído anterior dependendo da estimativa de probabilidade de voz para obter uma matriz da densidade espectral de potência do ruído atualizado como a estimativa da densidade espectral de potência do ruído.
14. Um aparelho, de acordo com a reivindicação 1, caracterizado por: uma unidade de estimativa do vetor de direção (1020), em que o aparelho (1010) é configurado para fornecer a estimativa de probabilidade de voz à unidade de estimativa do vetor de direção (1020), e em que a unidade de estimativa do vetor de direção (1020) é configurada para estimar o vetor de direção com base na estimativa de probabilidade de voz e uma pluralidade de canais de áudio de entrada.
15. Um aparelho de acordo com a reivindicação 1, caracterizado: uma unidade do filtro (1120), em que a unidade do filtro (1120) é configurada para receber uma pluralidade de canais de entrada de áudio, em que o aparelho (1110), de acordo com uma das reivindicações de 1 a 12, é configurado para fornecer as informações de probabilidade de voz à unidade do filtro (1120), e em que a unidade do filtro (1120) é configurada para filtrar a pluralidade de canais de entrada de áudio para obter os canais de áudio filtrados com base nas informações de probabilidade de voz.
16. Um aparelho de acordo com a reivindicação 15, caracterizado pelo primeiro estimador de probabilidade de voz (110; 210; 310) do aparelho (1110) ser configurado para gerar um parâmetro de compensação, em que o parâmetro de compensação depende de, pelo menos, um parâmetro espacial que indica informações espaciais sobre o campo de som ou informações espaciais sobre a cena.
17. Um aparelho de acordo com a reivindicação 16, caracterizado pela unidade do filtro (1120) ser configurada para filtrar a pluralidade de canais de entrada de áudio dependendo do parâmetro de compensação.
18. Um método para fornecer uma estimativa de probabilidade de voz, caracterizado por: estimar informações de probabilidade de fala por um primeiro estimador de probabilidade de fala, as informações de probabilidade de voz que indicam uma primeira probabilidade se um campo de som compreender voz ou se o campo de som não compreender voz, e emitir a estimativa de probabilidade de voz, dependendo das informações de probabilidade de voz, em que a estimativa das primeiras informações de probabilidade de voz se baseia, pelo menos, nas informações espaciais sobre o campo de som ou informações espaciais sobre a cena; estimar a estimativa de probabilidade de fala por um segundo estimador de probabilidade de fala, em que a estimativa de probabilidade de fala indica uma segunda probabilidade de saber se o campo sonoro compreende fala ou se o campo sonoro não compreende fala, em que a estimativa da probabilidade de fala é realizada com base no informações de probabilidade de fala e com base em um ou mais sinais acústicos do sensor, que dependem do campo sonoro, e emitir a estimativa de probabilidade de fala por uma interface de saída, em que pelo menos um do primeiro estimador de probabilidade de fala e o segundo estimador de probabilidade de fala e a interface de saída são implementados usando um aparelho de hardware ou um computador ou uma combinação de um aparelho de hardware e um computador.
BR112015004625-8A 2012-09-03 2012-09-03 Aparelho e método para fornecer uma estimativa de probabilidade de presença de voz multicanal informada. BR112015004625B1 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/067124 WO2014032738A1 (en) 2012-09-03 2012-09-03 Apparatus and method for providing an informed multichannel speech presence probability estimation

Publications (2)

Publication Number Publication Date
BR112015004625A2 BR112015004625A2 (pt) 2017-07-04
BR112015004625B1 true BR112015004625B1 (pt) 2021-12-07

Family

ID=46888395

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015004625-8A BR112015004625B1 (pt) 2012-09-03 2012-09-03 Aparelho e método para fornecer uma estimativa de probabilidade de presença de voz multicanal informada.

Country Status (7)

Country Link
US (1) US9633651B2 (pt)
EP (1) EP2893532B1 (pt)
JP (1) JP6129316B2 (pt)
CN (1) CN104781880B (pt)
BR (1) BR112015004625B1 (pt)
RU (1) RU2642353C2 (pt)
WO (1) WO2014032738A1 (pt)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US20160210957A1 (en) 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9449615B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
US9449610B2 (en) 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
US9449609B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Accurate forward SNR estimation based on MMSE speech probability presence
WO2016093854A1 (en) 2014-12-12 2016-06-16 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
JP6592940B2 (ja) * 2015-04-07 2019-10-23 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
WO2017065092A1 (ja) 2015-10-13 2017-04-20 ソニー株式会社 情報処理装置
EP3544311B1 (en) * 2015-10-13 2022-11-30 Sony Group Corporation Information processing device
CN108074582B (zh) * 2016-11-10 2021-08-06 电信科学技术研究院 一种噪声抑制信噪比估计方法和用户终端
US10219098B2 (en) * 2017-03-03 2019-02-26 GM Global Technology Operations LLC Location estimation of active speaker
CN106960672B (zh) * 2017-03-30 2020-08-21 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
JP7419270B2 (ja) 2018-06-21 2024-01-22 マジック リープ, インコーポレイテッド ウェアラブルシステム発話処理
US11417351B2 (en) * 2018-06-26 2022-08-16 Google Llc Multi-channel echo cancellation with scenario memory
CN109616139B (zh) * 2018-12-25 2023-11-03 平安科技(深圳)有限公司 语音信号噪声功率谱密度估计方法和装置
US11587563B2 (en) 2019-03-01 2023-02-21 Magic Leap, Inc. Determining input for speech processing engine
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
WO2021064468A1 (en) * 2019-10-04 2021-04-08 Soundskrit Inc. Sound source localization with co-located sensor elements
US11315586B2 (en) * 2019-10-27 2022-04-26 British Cayman Islands Intelligo Technology Inc. Apparatus and method for multiple-microphone speech enhancement
CN110830870B (zh) * 2019-11-26 2021-05-14 北京声加科技有限公司 一种基于传声器技术的耳机佩戴者语音活动检测系统
CN112951264B (zh) * 2019-12-10 2022-05-17 中国科学院声学研究所 一种基于混合式概率模型的多通道声源分离方法
US11270720B2 (en) * 2019-12-30 2022-03-08 Texas Instruments Incorporated Background noise estimation and voice activity detection system
US11917384B2 (en) * 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
CN111192569B (zh) * 2020-03-30 2020-07-28 深圳市友杰智新科技有限公司 双麦语音特征提取方法、装置、计算机设备和存储介质
KR20210125846A (ko) 2020-04-09 2021-10-19 삼성전자주식회사 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법
US20230230612A1 (en) * 2022-01-18 2023-07-20 Google Llc Privacy-preserving social interaction measurement
CN117275528B (zh) * 2023-11-17 2024-03-01 浙江华创视讯科技有限公司 语音存在概率的估计方法及装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
FI114422B (fi) * 1997-09-04 2004-10-15 Nokia Corp Lähteen puheaktiviteetin tunnistus
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6374216B1 (en) * 1999-09-27 2002-04-16 International Business Machines Corporation Penalized maximum likelihood estimation methods, the baum welch algorithm and diagonal balancing of symmetric matrices for the training of acoustic models in speech recognition
US6609094B1 (en) * 2000-05-22 2003-08-19 International Business Machines Corporation Maximum entropy and maximum likelihood criteria for feature selection from multivariate data
KR100400226B1 (ko) 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
KR100486736B1 (ko) * 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
DE60304859T2 (de) * 2003-08-21 2006-11-02 Bernafon Ag Verfahren zur Verarbeitung von Audiosignalen
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
US8788265B2 (en) * 2004-05-25 2014-07-22 Nokia Solutions And Networks Oy System and method for babble noise detection
US7518631B2 (en) * 2005-06-28 2009-04-14 Microsoft Corporation Audio-visual control system
JP5088701B2 (ja) * 2006-05-31 2012-12-05 日本電気株式会社 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
KR100821177B1 (ko) * 2006-09-29 2008-04-14 한국전자통신연구원 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법
US8218460B2 (en) * 2006-12-27 2012-07-10 Laura Laaksonen Network entity, method and computer program product for mixing signals during a conference session
US8005238B2 (en) * 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
US7626889B2 (en) * 2007-04-06 2009-12-01 Microsoft Corporation Sensor array post-filter for tracking spatial distributions of signals and noise
US8005237B2 (en) * 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
JP5642339B2 (ja) * 2008-03-11 2014-12-17 トヨタ自動車株式会社 信号分離装置及び信号分離方法
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
JP5215826B2 (ja) * 2008-11-28 2013-06-19 日本電信電話株式会社 複数信号区間推定装置とその方法とプログラム
KR101253102B1 (ko) * 2009-09-30 2013-04-10 한국전자통신연구원 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
US8600073B2 (en) * 2009-11-04 2013-12-03 Cambridge Silicon Radio Limited Wind noise suppression
KR101619578B1 (ko) * 2010-12-03 2016-05-18 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법
FR2976710B1 (fr) * 2011-06-20 2013-07-05 Parrot Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres"
US8935164B2 (en) * 2012-05-02 2015-01-13 Gentex Corporation Non-spatial speech detection system and method of using same

Also Published As

Publication number Publication date
BR112015004625A2 (pt) 2017-07-04
RU2015112126A (ru) 2016-10-20
JP6129316B2 (ja) 2017-05-17
JP2015526767A (ja) 2015-09-10
EP2893532A1 (en) 2015-07-15
CN104781880A (zh) 2015-07-15
CN104781880B (zh) 2017-11-28
WO2014032738A1 (en) 2014-03-06
US9633651B2 (en) 2017-04-25
EP2893532B1 (en) 2021-03-24
RU2642353C2 (ru) 2018-01-24
US20150310857A1 (en) 2015-10-29

Similar Documents

Publication Publication Date Title
BR112015004625B1 (pt) Aparelho e método para fornecer uma estimativa de probabilidade de presença de voz multicanal informada.
US9984702B2 (en) Extraction of reverberant sound using microphone arrays
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
KR101688354B1 (ko) 신호 소스 분리
JP6636633B2 (ja) 音響信号を向上させるための音響信号処理装置および方法
EP2786593B1 (en) Apparatus and method for microphone positioning based on a spatial power density
Taseska et al. MMSE-based blind source extraction in diffuse noise fields using a complex coherence-based a priori SAP estimator
Hendriks et al. Noise correlation matrix estimation for multi-microphone speech enhancement
BR112015014380B1 (pt) Filtro e método para filtragem espacial informada utilizando múltiplas estimativas da direção de chegada instantânea
BR112013013673B1 (pt) Aparelho e método para aquisição de som espacialmente seletivo por triangulação acústica
BR112013013681B1 (pt) aquisição de som através da extração de informações geométricas a partir das estimativas de direção de chegada
WO2010048635A1 (en) Acoustic voice activity detection (avad) for electronic systems
EP3320311B1 (en) Estimation of reverberant energy component from active audio source
Kodrasi et al. Late reverberant power spectral density estimation based on an eigenvalue decomposition
Stachurski et al. Sound source localization for video surveillance camera
Mirabilii et al. Spatial coherence-aware multi-channel wind noise reduction
KR101811635B1 (ko) 스테레오 채널 잡음 제거 장치 및 방법
Taseska et al. Minimum Bayes risk signal detection for speech enhancement based on a narrowband DOA model
JP2005077205A (ja) 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
CN113707171B (zh) 一种空域滤波语音增强系统及方法
Schüldt et al. Noise robust integration for blind and non-blind reverberation time estimation
US11425495B1 (en) Sound source localization using wave decomposition
KR101817421B1 (ko) 두 채널 구조에 기초하는 사전 음성 부재 확률의 추정 방법
Ji et al. Improved a priori SAP Estimator in Complex Noisy Environment for Dual Channel Microphone System.
d’Olne et al. Frame-based space-time covariance matrix estimation for polynomial eigenvalue decomposition-based speech enhancement

Legal Events

Date Code Title Description
B08F Application dismissed because of non-payment of annual fees [chapter 8.6 patent gazette]
B08G Application fees: restoration [chapter 8.7 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 03/09/2012, OBSERVADAS AS CONDICOES LEGAIS.