BR112013026333A2 - classificação de sinal de áudio baseada em quadro - Google Patents

classificação de sinal de áudio baseada em quadro Download PDF

Info

Publication number
BR112013026333A2
BR112013026333A2 BR112013026333-4A BR112013026333A BR112013026333A2 BR 112013026333 A2 BR112013026333 A2 BR 112013026333A2 BR 112013026333 A BR112013026333 A BR 112013026333A BR 112013026333 A2 BR112013026333 A2 BR 112013026333A2
Authority
BR
Brazil
Prior art keywords
resource
frame
measure
audio
fact
Prior art date
Application number
BR112013026333-4A
Other languages
English (en)
Other versions
BR112013026333B1 (pt
Inventor
Volodya Grancharov
Sebastian Näslund
Original Assignee
Telefonaktiebolaget L M Ericsson (Publ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget L M Ericsson (Publ) filed Critical Telefonaktiebolaget L M Ericsson (Publ)
Publication of BR112013026333A2 publication Critical patent/BR112013026333A2/pt
Publication of BR112013026333B1 publication Critical patent/BR112013026333B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

CLASSIFICAÇÃO DE SINAL DE ÁUDIO BASEADA EM QUADRO Trate-se de um classificador de áudio (12) para a classificação de sinal de áudio baseada em quadro que inclui um extrator de recursos (14) configurado para determinar, para cada número predeterminado de quadros consecutivos, as medidas de recursos que representam pelo menos os seguintes recursos: autocorrelação (Tn), energia de sinal de quadro (En), variação de energia de sinal interquadro ((Delta)En). Um comparador de medida de recursos (16) é configurado para comparar cada medida de recursos determinada (Tn, En, (Delta)En) com pelo menos um intervalo de recursos predeterminado correspondente. Um classificador de quadro (18) é configurado para calcular, para cada intervalo de recursos, uma medida de fração que representa o número total de medidas de recursos correspondentes que está dentro do intervalo de recursos, e classificar os últimos quadros consecutivos como fala se cada medida de fração estiver dentro de um intervalo de fração correspondente, e, de outro modo, como não-fala.

Description

| 1/13 “O “CLASSIFICAÇÃO DE SINAL DE ÁUDIO BASEADA EM QUADRO"
CAMPO DA TÉCNICA A presente tecnologia refere-se à classificação de sinal de áudio baseada em quadro.
ANTECEDENTES Os métodos de classificação de sinal de áudio são projetados sob diferentes pressuposições: abordagem em tempo real ou off-line, exigências de memória e | complexidade diferentes, etc. - Para um classificador usado em codificação de áudio, a decisão tipicamente deve —sertomada em uma base quadro a quadro, inteiramente baseada nas estatísticas de sinal 7 anteriores. Muitas aplicações de codificação de áudio, como codificação em tempo real, também impõem grandes restrições sobre a complexidade computacional do classificador. A Referência [1] descreve um discriminador (classificador) complexo de fala /música baseado em estimador a posteriori de máxima Gaussiana multidimensional, uma classificação de modelo de mistura Gaussiana, um esquema de partição espacial baseado | em árvores k-d ou um classificador mais próximo. Para obter uma taxa de erro de decisão « aceitável, também é necessário incluir recursos de sinal de áudio que exigem uma grande i latência. - . A Referência [2] descreve um discriminador de fala/música parcialmente baseado em — Frequências de Espectro de Linha (LSFs). Entretanto, a determinação de LSFs é um procedimento particularmente complexo. SUMÁRIO ! Um objetivo da presente tecnologia é uma classificação de sinal de áudio baseada em | quadro de baixa complexidade. ' Esse objetivo é atingido de acordo com as reivindicações em anexo. Um primeiro aspecto da presente tecnologia envolve um método de classificação de sinal de áudio baseada em quadro que inclui as seguintes etapas: Determinar, para cada número predeterminado de quadros consecutivos, medidas de recursos que representam pelo menos os seguintes recursos: um coeficiente de —autocorrelação, energia de sinal de quadro em um domínio comprimido, variação de energia de sinal interquadro. Comparar cada medida de recurso determinada com pelo menos um intervalo de recursos predeterminado correspondente. Calcular, para cada intervalo de recursos, uma medida de fração que representa o “35 número total de medidas de recursos correspondentes que estão dentro do intervalo de recursos. 1 Í
R
' Classificar os últimos quadros consecutivos como fala se cada medida de fração estiver dentro de um intervalo de fração correspondente, e, de outro modo, como não-fala. | Um segundo aspecto da presente tecnologia envolve um classificador de áudio para classificação de sinal de áudio baseada em quadro que inclui: Um extrator de recursos configurado para determinar, para cada número predeterminado de quadros consecutivos, medidas de recursos que representam pelo menos os seguintes recursos: um coeficiente de autocorrelação, energia de sinal de quadro, variação | de energia de sina! interquadro.
- Um comparador de medida de recursos configurado para comparar cada medida de recurso determinada com pelo menos um intervalo de recursos predeterminado 7 correspondente. Um classificador de quadro configurado para calcular, para cada intervalo de recursos, uma medida de fração que representa o número total de medidas de recursos correspondentes que estão dentro do intervalo de recursos, e classificar os últimos quadros consecutivos como falase cada medida de fração estiver dentro de um intervalo de fração correspondente, de outro modo, como não-fala. - Um terceiro aspecto da presente tecnologia envolve uma disposição de codificador de áudio que inclui um classificador de áudio de acordo com o segundo aspecto para classificar os : : quadros de áudio em falanão-fala e então selecionar um método de codificação ' correspondente. . Um quarto aspecto da presente tecnologia envolve uma disposição de codec de áudio que inclui um classificador de áudio de acordo com o segundo aspecto para classificar os quadros de áudio em fala/ínão-fala para selecionar um método de pós-fitrtagem correspondente. ' Um quinto aspecto da presente tecnologia envolve um dispositivo de comunicação de áudio que inclui uma disposição de codificador de áudio de acordo com o terceiro ou quarto aspecto. As vantagens da presente tecnologia são baixa complexidade e lógica de decisão simples. Esses recursos a torna especialmente adequada para codificação de áudio em tempo real
BREVE DESCRIÇÃO DOS DESENHOS A tecnologia, juntamente com seus objetivos e vantagens adicionais, pode ser mais bem compreendida fazendo-se referência à seguinte descrição realizada em conjunto com os desenhos em anexo, nos quais: A Figura 1 é um diagrama de bloco que ilustra um exemplo de uma disposição de codificador de áudio que utiliza um classificador de áudio; A Figura 2 é um diagrama que ilustra o rastreamento de máxima de energia; |
' A Figura 3 é um histograma que ilustra a diferença entre fala e música de um recurso específico; A Figura 4 é um fluxograma que ilustra a presente tecnologia; A Figura 5 é um diagrama de bloco que ilustra outro exemplo de uma disposição de S codificador de áudio que utiliza um classificador de áudio; A Figura 6 é um diagrama de bloco que ilustra uma modalidade exemplificativa de um classificador de áudio; A Figura 7 é um diagrama de bloco que ilustra uma modalidade exemplificativa de um - comparador de medida de recursos no classificador de áudio da Figura 6; A Figura 8 é um diagrama de bloco que ilustra uma modalidade exemplificativa de um 7 classificador de quadro no classificador de áudio da Figura 6; A Figura 9 é um diagrama de bloco que ilustra uma modalidade exemplificativa de um calculador de fração no classificador de quadro da Figura 8; A Figura 10 é um diagrama de bloco que ilustra uma modalidade exemplificativa de um —seletorde classe no classificador de quadro da Figura 8; AFigura 11 é um diagrama de bloco de uma modalidade exemplificativa de um - classificador de áudio; A Figura 12 é um diagrama de bloco que ilustra outro exemplo de uma disposição de . codificador de áudio que utiliza um classificador de áudio; A Figura 13 é um diagrama de bloco que ilustra um exemplo de uma disposição de codec de áudio que utiliza uma decisão de fala/não-fala de um classificador de áudio 12; e A Figura 14 é um diagrama de bloco que ilustra um exemplo de um disposítivo de comunicação de áudio que utiliza uma disposição de codificador de áudio.
DESCRIÇÃO DETALHADA Na seguinte descrição m denota o índice de amostra de áudio em um quadro e n denota o índice de quadro. Um quadro é definido como um bloco curto do sinal de áudio, por exemplo, 20-40 ms, contendo M amostras.
A Figura 1 é um diagrama de bloco que ilustra um exemplo de uma disposição de codificador de áudio que utiliza um classificador de áudio. Quadros consecutivos, denotados — FRAME n, FRAME n+1, FRAME n+2, ..., de amostras de áudio são encaminhados para um codificador 10, que codifica as mesmas em um sinal codificado. Um classificador de áudio de acordo com a presente tecnologia ajuda o codificador 10 a classificar os quadros em fala/não- fala. Isso permite que o codificador use esquemas de codificação diferentes para tipos de sinal de áudio diferentes, como fala/música ou fala/ruído de fundo.
A presente tecnologia se baseia em um conjunto de medidas de recursos que pode ser diretamente calculado a partir da forma de onda de sinal (ou sua representação em um domínio de frequência, como será descrito abaixo) em uma complexidade computacional muito baixa.
3 '
' As seguintes medidas de recursos são extraídas do sinal de áudio em um quadro em | uma base quadro a quadro:
1. Uma medida de recursos que representa um coeficiente de autocorrelação entre as amostras x, (1), de preferência, o coeficiente de autocorrelação de primeira ordem — normalizado. Essa medida de recursos pode ser, por exemplo, representada por:
M 25% (71) xa (7) - Ts Pg O 2% (7) m=2 i 2. Uma medida de recursos que representa a energia de sinal de quadro em um domínio comprimido. Essa medida de recursos pode ser, por exemplo, representada por: 18E , E, =10-logi| — Dx (n) 2) Ma - onde à compressão é fornecida pela função logarítmica. Outro exemplo é: 1& 2, ,V E, =1—>)> x. (n 3 efa 20) o Onde O <a <l é um fator de compressão. Um motivo para preferir um domínio comprimido é que esse simula o sistema auditivo humano.
3. Uma medida de recursos que representa a variação de energia de sinal de quadro entre quadros adjacentes. Essa medida de recursos pode ser, por exemplo, representada por: ae, - EE] " E, +E,, As medidas de recursos T,, E,, AE, são calculadas para cada quadro e usadas para derivar determinadas estatísticas de sinal. Primeiro, 7, E,, AE, são comparadas com os respectivos critérios predefinidos (veja as primeiras duas colunas Tabela 1 abaixo), e as decisões binárias de inúmeros quadros anteriores, por exemplo, N =40 quadros anteriores, 4 são mantidos em um buffer. Nota-se que algumas medidas de recursos (por exemplo, T,, E, na Tabela 1) podem estar associadas a vários critérios. Então, as estatísticas (frações) de sinal são obtidas a partir dos valores armazenados em buffer. Por fim, um procedimento de classificação se baseia nas estatísticas de sinal.
Tabela 1 Exemplo de Exemplo de Parâ- o Intervalo de Fraçã | Intervalo Critério Intervalo de Intervalo de - metro Recursos o de Fração . Recursos Fração per [ema Ja mas leo T, T, 6 (0,03) | (0,,0,3) 10.8,0.98) (Ta. Tao) | 10,0.375) | E,20,EM" | (e,E1% 0) | (0.628! 0) 0, | (Ta) | (0,097) | E, ' per Jess a mas lena Pao qe Tea oo A Coluna 2 da Tabela 1 descreve exemplos dos diferentes critérios de cada medida de recursos T,, E,, AE, . Embora esses critérios pareçam muito diferentes à primeira vista, esses são realmente equivalentes aos intervalos de recursos ilustrados na coluna 3 na Tabeia 1. Assim, em uma implementação prática, os critérios podem ser implementados ao testar se as medidas de recursos estão dentro de seus respectivos intervalos de recursos. Exemplos de intervalos de recursos são fornecidos na coluna 4 na Tabela 1. Na Tabela 1 também observa-se que, nesse exemplo, o primeiro intervalo de — recursos para a medida de recursos E, é definido por um parâmetro auxiliar EX" . Esse parâmetro auxiliar representa a máxima de sinal e é, de preferência, rastreado de acordo com: 5 |
EM (1 EMT + E, (5)
0.557 if E > EM u=10.038 if E <EMX
0.001 if E,<0.62EV Como pode ser observado a partir da Figura 2, esse algoritmo de rastreamento possui a propriedade que os aumentos em energia de sinal são imediatamente ' 5 acompanhados, enquanto reduções em energia de sinal são apenas lentamente acompanhadas.
Uma alternativa para o método de rastreamento descrito é usar um buffer grande para armazenar os valores de energia de quadro anteriores. O comprimento do buffer deve ser suficiente par armazenar valores de energia de quadro durante um período de tempo maior que a pausa esperada mais longa, por exemplo, 400 ms. Para cada novo quadro, o valor de energia de quadro mais antigo é removido e o valor de energia de último quadro é adicionado. Então, o valor máximo no buffer é determinado.
O sinal é classificado como fala se todas as estatísticas de sinal (as frações D, na . coluna 5 na Tabela 1) pertencerem a um intervalo de fração predefinido (coluna 6 na Tabela 1), isto é, VD, efT,,T,). Um exemplo de intervalos de fração é determinado na coluna 7 na Tabela 1. Se uma ou mais frações D, estiverem fora do intervalo de fração correspondente (T,,,T,,), o sinal é classificado como não-fala.
As estatísticas ou frações de sinal selecionadas &D, são motivadas por observações que indicam que um sinal de fala consiste em uma determinada quantidade de segmentos sonorizados e não sonorizados alternados. Um sinal de fala também pode ser ativo tipicamente apenas durante um período de tempo limitado e é então seguido por um segmento silencioso. Às dinâmicas ou variações de energia são geralmente maiores em um sinal de fala do que em não-fala, como música, veja a Figura 3 que ilustra um histograma de DP; sobre os bancos de dados de fala e música. Uma breve descrição de estatísticas ou frações desíinal selecionadas O, é apresentada na Tabela 2 abaixo.
Tabela 2 Medir a quantidade de quadros não sonorizados no buffer (uma decisão “não sonorizada”" está baseada na inclinação de espectro, que por sua vez pode estar baseada em um coeficiente de autocorrelação) 6 | o Medir a quantidade de quadros sonorizados que não possuem inclinação de espectro ? típica de fala Medir a quantidade de quadros de sinal ativo Medir a quantidade de quadros que pertencem a uma região de sinal de pausa ou não ativo | Medir a quantidade de quadros com grande dinâmica ou variação de energia . A Figura 4 é um fluxograma que ilustra a presente tecnologia. A Etapa S1 determina, | para cada número predeterminado de quadros consecutivos, medidas de recursos, por - exemplo, T,, E,, AE, que representam pelo menos os recursos: autocorrelação (7), | energiade sinal de quadro (E,) em um domínio comprimido, variação de energia de sinal interquadro. A Etapa S2 compara cada medida de recursos determinada com pelo menos um intervalo de recursos predeterminado correspondente. A Etapa S3 calcula, para cada intervalo de recursos, uma medida de fração, por exemplo, D,, que representa o número total de . medidas de recursos correspondentes que está dentro do intervalo de recursos. A Etapa S4 classifica os últimos quadros consecutivos como fala se cada medida de fração estiver dentro - de um intervalo de fração correspondente, e, de outro modo, como não-fala. Nos exemplos apresentados acima, as medidas de recursos fornecidas em (1)-(4) são determinadas no domínio de tempo. Entretanto, também é possível determinar as mesmas no domínio de frequência, como ilustrado pelo diagrama de bloco na Figura 5.
Nesse exemplo de disposição de codificador de áudio, o codificador 10 compreende um transformador de frequência 10A conectado a um codificador de transformada 10B. O codificador 10 pode estar, por exemplo, baseado na transformada Discreta de Cosseno Modificada (MDCT). Nesse caso, as medidas de recursos T,,E,,AE, podem ser determinadas no domínio de frequência de bins de frequência K X, (n) obtidos a partir do transformador de frequência 10A. Isso não resulta em qualquer complexidade ou atraso computacional adicional, visto que a transformação de frequência é exigida pelo codificador de transformada 10B de qualquer forma. Nessa implementação de domínio de frequência, a equação (1) pode ser substituído pela razão entre a parte alta e baixa do espectro: % K 2Xxim-2 > xim K k=l K EAR LEE 6) — 2 Xiln) x x As Equações (2) e (3) podem ser substituídas pela soma através de bins de frequência 7
X, (n.) em vez de amostras de entrada x, (n), que fornece: 1É E, =10-logy | —) X2(n) (7) K k=1 e 1 12 E,= (xSxm) | (6) K k=1 ' respectivamente. : Similarmente, a equação (4) pode ser substituída por: 1ÉE/ yo 2 2 AE, = [=X (Xin) - Xin-1) (9) Kia ou por - 1É 2 2 2 AE, = e 2 (oB(Xt(n)) —logíX?mn-1)) (10) kl A descrição acima se concentrou nas três medidas de recursos T., E,, AE, para classificar os sinais de áudio.
Entretanto, medidas de recursos adicionais realizadas da mesma maneira podem ser adicionadas.
Um exemplo é uma medida de passo (frequência fundamental) À, , que pode ser calculada ao maximizar a função de autocorrelação: a M P,=arg max| > xa (1)X1, to) (11) P m=P+l Também é possível realizar a estimativa de passo no domínio cepstral.
Os coeficientes cepstrais c,(n) são obtidos através de Transformada Discreta Inversa de Fourier (DFT) de espectro de magnitude logarítmica.
Isso pode ser expresso nas seguintes etapas: apresentar uma DFT no vetor de forma de onda; no vetor de frequência resultante calcular o valor absoluto e então o logaritmo; por fim, a Transformada Discreta Inversa de Fourier (IDFT) fornece o vetor de coeficientes cepstrais.
A localização do pico nesse vetor é uma estimativa de domínio de frequência do período de passo.
Na notação matemática: 8 ce, (n) = IDFT (log|DFT entro) À = argmax(cr(n)) o A Figura 6 é um diagrama de bloco que ilustra uma modalidade exemplificativa de um classificador de áudio. Essa modalidade é uma implementação de domínio de tempo, porém também pode ser implementada no domínio de frequência utilizando bins de frequência em vez de amostras de áudio. Na modalidade na Figura 6, o classificador de . áudio 12 inclui um extrator de recursos 14, um comparador de medida de recursos 16 e um classificador de quadro 18. O extrator de recursos 14 pode ser configurado para " implementar as equações descritas acima para determinar pelo menos T,, E,AE,. O comparador de medida de recursos 16 é configurado para comparar cada medida de recursos determinada com pelo menos um intervalo de recursos predeterminado correspondente. O classificador de quadro 18 é configurado para calcular, para cada intervalo de recursos, uma medida de fração que representa o número total de medidas de recursos correspondentes que está dentro do intervalo de recursos, e classificar os últimos quadros consecutivos como fala se Í 15 cada medida de fração estiver dentro de um intervalo de fração correspondente, e, de outro modo, como não-fala.
' A Figura 7 é um diagrama de bloco que ilustra uma modalidade exemplificativa do comparador de medida de recursos 16 no classificador de áudio 12 da Figura 6. Um comparador de intervalo de recursos 20 que recebe as medidas de recursos extraídas, por exemplo, T,, E,,AE,, é configurado para determinar se as medidas de recursos estão dentro dos intervalos de recursos predeterminados, por exemplo, os intervalos fornecidos na Tabela 1 acima. Esses intervalos de recursos são obtidos a partir de um gerador de intervalo de recursos 22, por exemplo, implementado como uma tabela de pesquisa. O intervalo de recursos que depende do parâmetro auxiliar EXMA é obtido ao atualizar a tabela de pesquisa com E!“* para cada novo quadro. O valor EM“ é determinado por um rastreador de máxima de sinal 24 configurado para rastrear a máxima de sinal, por exemplo, de acordo com a equação (5) acima.
A Figura 8 é um diagrama de bloco que ilustra uma modalidade exemplificativa de um classificador de quadro 18 no classificador de áudio 12 da Figura 6. Um calculador de fração 26 recebe as decisões binárias (uma decisão para cada intervalo de recursos) do comparador de medida de recursos 16 e é configurado para calcular, para cada intervalo de recursos, uma medida de fração (no exemplo &D, —&,) que representa o número total de medidas de recursos correspondentes que está dentro do intervalo de recursos. Uma modalidade exemplificativa do calculador de fração 26 é ilustrada na Figura 9. Essas medidas de fração 9 ;
' são encaminhadas para um seletor de classe 28 configurado para classificar o último quadro de áudio como faia se cada medida de fração estiver dentro de um intervalo de fração correspondente, e, de outro modo, como não-fata. Uma modalidade exemplificativa do seletor de classe 28 é ilustrada na Figura 10.
A Figura 9 é um diagrama de bloco que ilustra uma modalidade exemplificativa de um calculador de fração 26 no classificador de quadro 18 da Figura 8. As decisões binárias do comparador de medida de recursos 16 são encaminhadas para um buffer de decisão 30, que armazena as últimas decisões N para cada intervalo de recursos. Um calculador de fração por . intervalo de recursos 32 determina cada medida de fração contando o número de decisões do — recurso correspondente que indicam fala e dividindo essa conta pelo número total de decisões ' N . Uma vantagem dessa modalidade é que o buffer de decisão precisa armazenar apenas as decisões binárias, isso torna a implementação simples e reduz essencialmente o cálculo de fração a um processo de contagem simples.
A Figura 10 é um diagrama de bloco que ilustra uma modalidade exemplificativa de um seletor de classe 28 no classificador de quadro 18 da Figura 8. As medidas de fração do calculador de fração 26 são encaminhadas para um calculador de intervalo de fração 34, que é ] configurado para determinar se cada medida de fração está dentro de um intervalo de fração correspondente, e emitir uma decisão binária correspondente. Os intervalos de fração são 7 obtidos a partir de um armazenamento de intervalo de fração 36, que armazena, por exemplo, osintervalos de fração na coluna 7 na Tabela 1 acima. As decisões binárias do calculador de intervalo de fração 34 são encaminhadas para uma lógica AND 38, que é configurada para classificar o último quadro como fala se todas indicarem fala, e, de outro modo, como não-fala.
As etapas, funções, procedimentos e/ou blocos descritos aqui podem ser implementados em hardware utilizando qualquer tecnologia convencional, como tecnologia de circuito discreto ou circuito integrado, inclusive conjunto de circuitos eletrônicos de uso geral e conjunto de circuitos específicos para aplicativo.
Alternativamente, pelo menos algumas etapas, funções, procedimentos e/ou blocos descritos aqui podem ser implementados em software para execução por um dispositivo de processamento adequado, como um microprocessador, Processador de Sinal Digital (DSP) — e/ou qualquer dispositivo de logica programável adequado, como um dispositivo de Arranjo de Portas Programável em Campo (FPGA).
Também deve ser entendido que é possível reutilizar as capacidades de processamento gerais do codificador. Isso pode, por exemplo, ser feito ao reprogramar o software existente Ou ao adicionar novos componentes de software.
A Figura 11 é um diagrama de bloco de uma modalidade exemplificativa de um classificador de áudio 12. Essa modalidade está baseada em um processador 100, por exemplo, um microprocessador, que executa um componente de software 110 para determinar 10 as medidas de recursos, um componente de software 120 para comparar as medidas de ! recursos com os intervalos de recursos, e um componente de software 130 para classificação de quadro.
Esses componentes de software são armazenados na memória 150. O processador 100 se comunica com a memória através de um barramento de sistema.
As amostras de áudio XxX, (n) são recebidas por um controlador de entrada/saída (VO) 160 que controla um ' barramento I/O, ao qual o processador 100 e a memória 150 são conectados.
Nessa modalidade, as amostras recebidas pelo controlador /O 160 são armazenadas na memória 150, onde essas são processadas pelos componentes de software.
O componente de software : 110 pode implementar a funcionalidade do bloco 14 nas modalidades descritas acima.
O ' componente de software 120 pode implementar a funcionalidade do bloco 16 nas modalidades ' descritas acima.
O componente de software 130 pode implementar a funcionalidade do bloco 18 nas modalidades descritas acima.
A decisão de fala/não-fala obtida do componente de software 130 é emitida a partir da memória 150 pelo controlador 1/O 160 através do barramento Vo.
A Figura 12 é um diagrama de bloco que ilustra outro exemplo de uma disposição de codificador de áudio que utiliza um classificador de áudio 12. Nessa modalidade, o codificador ] 10 compreende um codificador de fala 50 e um codificador de música 52. O classificador de áudio controla um comutador 54 que direciona as amostras de áudio para o codificador ] apropriado 50 ou 52. A Figura 13 é um diagrama de bloco que ilustra um exemplo de uma disposição de codec de áudio que utiliza uma decisão de fala/não-fala de um classificador de áudio 12. Essa modalidade usa um pós-filtro 60 para aprimoramento de fala.
A pós-filtragem é descrita em [3] e [4]. Nessa modalidade, a decisão de fala/não-fala do classificador de áudio 12 é transmitida para um lado de recebimento juntamente com o sinal codificado do codificador 10. O sinal codificado é decodificado em um decodificador 60 e o sinal decodificado é pós-filtrado em um pós-filtro 62. A decisão de fala/não-fala é usada para selecionar um método de pós-filtragem correspondente.
Além de selecionar um método de pós-fitragem, a decisão de fala/não-fala também pode ser usada para selecionar o método de codificação, como indicado pela linha tracejada no codificador 10. A Figura 14 é um diagrama de bloco que ilustra um exemplo de um disposítivo de comunicação de áudio que utiliza uma disposição de codificador de áudio de acordo com a presente tecnologia.
A figura ilustra uma disposição de codificador de áudio 70 em uma . estação móvel.
Um microfone 72 é conectado a um amplificador e bloco de amostrador 74. As amostras do bloco 74 são armazenadas em um buffer de quadro 76 e são encaminhadas para —adisposição de codificador de áudio 70 em uma base quadro a quadro.
Os sinais codificados são então encaminhados para uma unidade de rádio 78 para codificação de canal, modulação e amplificação de potência.
Os sinais de rádio obtidos são então transmitidos através de uma nn t 12/13 antena.
Embora a maior parte das modalidades exemplificativas acima sejam ilustradas no domínio de tempo, é avaliado que essas também podem ser implementadas no domínio de frequência, por exemplo, para codificadores de transformada. Nesse caso, o extrator de recursos 14 se baseia, por exemplo, em algumas das equações (6)-(10). Entretanto, uma vez que as medidas de recursos são determinadas, os mesmos elementos das implementações de domínio de tempo podem ser usados.
Com uma modalidade baseada nas equações (1), (2), (4), (5) e na Tabela 1, o . seguinte desempenho foi obtido para classificação de sinal de áudio: í % de fala erroneamente classificada como Pa % de música erroneamente classificada como | 1,8 aa Tm a A classificação de áudio descrita acima é particularmente adequada para sistemas 7 que transmitem sinais de áudio codificados em tempo real. As informações fornecidas pelo classificador podem ser usadas para comutar entre tipos de codificadores (por exemplo, um ' 15 codificador de Predição Linear Excitada por Código (CELP) quando um sinal de fala for detectado e um codificador de transformada, como um codificador de Transformada Discreta de Cosseno Modificada (MDCT) quando um sinal de música for detectado), ou parâmetros de codificador. Ademais, decisões de classificação também podem ser usadas para controlar os módulos de processamento específicos de sinal ativo, como pós-filtros de aprimoramento de fala.
Entretanto, a classificação de áudio descrita também pode ser usada em aplicações off-line, como parte de um algoritmo de mineração de dados, ou para controlar os módulos de processamento de fala/música específicos, como equalizadores de frequência, controle de volume, etc.
Será entendido pelos elementos versados na técnica que várias modificações e alterações podem ser feitas na presente tecnologia sem que se abandone o escopo dessa, esse é definido pelas reivindicações em anexo.
Referências
[1] E. Scheirer and M. Slaney, "Construction and Evaluation of a Robust Multifeature Falaímúsica Discriminator, ICASSP '97 Proceedings of the 1997 IEEE International Conference on Acoustics, Speech, and Sinal Processing, Volume 2, page 1331-1334, 1997
[2] K. El-Maleh, M. Klein, G. Petrucci, P. Kabal, “Speech/music discrimination for multimedia applications”, available at: 12 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.93.3453&rep=rep1&type=p af
[3] J-H. Chen, A. Gersho, "Adaptive Postfilttering for Quality Enhancement of Coded Speech", IEEE Transactions on Speech and Audio Processing, Vol. 3, No. 1, January 1993, page5Sog-71
[4] WO 98/39768 A1
ABREVIAÇÕES ' CELP Predição Linear Excitada por Código DFT Transformada Discreta de Fourier , DSP Processador de Sinal Digital FPGA Arranjo de Portas Programável em Campo IDFT Transformada Discreta inversa de Fourier | LSFs Frequências Espectrais de Linha | MDCT Transformada Discreta de Cosseno Modificada | | 13

Claims (21)

REIVINDICAÇÕES
1. Método de classificação de sinal de áudio baseada em quadro, caracterizado pelo fato de que inclui as etapas de: determinar (S1), para cada número predeterminado de quadros consecutivos, as —medidasde recursos que representam pelo menos os seguintes recursos: um coeficiente de autocorrelação (T,), energia de sinal de quadro (E, ) em um domínio comprimido, . variação de energia de sinal interquadro; comparar (S2) cada medida de recursos determinada com pelo menos um intervalo de - 10 — recursos predeterminado correspondente; calcular (S3), para cada intervalo de recursos, uma medida de fração (&, - D,) que representa o número total de medidas de recursos correspondentes (T., E,, AE, ) que estão dentro do intervalo de recursos; classificar (S4) os últimos quadros consecutivos como fala se cada medida de fração : 15 estiver dentro de um intervalo de fração correspondente, e, de outro modo, como não-fala.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que as - medidas de recursos que representam o coeficiente de autocorrelação (ET) e a energia de sinal de quadro (E,) em um domínio comprimido são determinadas no domínio de tempo.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a medida —derecursos que representa o coeficiente de autocorrelação é fornecida por:
M 2X (1x1, (1) Tn. =" Mx 23% (7) m=2 onde Xm (n) denota a amostra m no quadro n, M é o número total de amostras em cada quadro.
4. Método, de acordo com a reivindicação 2 ou 3, caracterizado pelo fato de que a medida de recursos que representa a energia de sinal de quadro em um domínio comprimido é fornecida por: 1 E E, =10-log,, FX (o) Mm | onde X, (11) denota a amostram , M é o número total de amostras em um quadro.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que as medidas de recursos que representam o coeficiente de autocorrelação (T.) e a energia de sinal de quadro (E,) em um domínio comprimido são determinadas no domínio de frequência.
6. Método, de acordo com qualquer uma das reivindicações anteriores 1-5, ' caracterizado pelo fato de que a medida de recursos representa a variação de energia de sinal ' de quadro entre os quadros adjacentes é fornecida por: ag, = E En] m E, +E,, onde E, representa a energia de sinal de quadro em um domínio comprimido no quadro n. BR
7. Método, de acordo com qualquer uma das reivindicações anteriores 1-6, caracterizado pelo fato de que inclui a etapa de determinar uma medida de recursos adicional . que representa a variação espectral interquadro (SD)
8. Método, de acordo com qualquer uma das reivindicações anteriores 1-7, caracterizado pelo fato de que inclui a etapa de determinar uma medida de recursos adicional que representa a frequência fundamental (8).
9. Método, de acordo com qualquer uma das reivindicações anteriores 1-8, caracterizado pelo fato de que um intervalo de recursos correspondente à energia de sinal de quadro (E) em um domínio comprimido é fornecido por f0.62E” o), onde OQ é um limite de energia superior e EXM é um parâmetro auxiliar fornecido por: EM =(-EY + uE,
0.557 if E > EM u=140.038 if E, <EMX
0.001 if E <0.62E" onde E, representa a energia de sinal de quadro em um domínio comprimido no quadro n. 2
10. Classificador de áudio (12) para classificação de sinal de áudio baseada em quadro, caracterizado pelo fato de que inclui: um extrator de recursos (14) configurado para determinar, para cada número predeterminado de quadros consecutivos, as medidas de recursos que representam pelo —menosos seguintes recursos: um coeficiente de autocorrelação (7), energia de sinal de quadro (E, ), - variação de energia de sinal interquadro (AE, ); um comparador de medida de recursos (16) configurado para comparar cada medida de recursos determinada (T.,E,,AE,) com pelo menos um intervalo de recursos predeterminado correspondente; um classificador de quadro (18) configurado para calcular, para cada intervalo de recursos, uma medida de fração (0, — O, ) que representa o número total de medidas de recursos correspondentes que estão dentro do intervalo de recursos, e classificar os últimos - 15 quadros consecutivos como fala se cada medida de fração estiver dentro de um intervalo de fração correspondente, e, de outro modo, como não-fala.
. 11. Classificador de áudio, de acordo com a reivindicação 10, caracterizado pelo fato de que o extrator de recursos (14) é configurado para determinar as medidas de recursos que representam a energia de sinal de quadro (E) em um domínio comprimido e o coeficiente de —autocorrelação (7) no domínio de tempo.
12. Classificador de áudio, de acordo com a reivindicação 11, caracterizado pelo fato de que o extrator de recursos (14) é configurado para determinar a medida de recursos que representa o coeficiente de autocorrelação de acordo com:
M 2% (71) Xn (7) Ts Pl | 2x (7) m=2 onde X, (1) denota a amostra m no quadro n, M é o número total de amostras em cada quadro.
13. Classificador de áudio, de acordo com a reivindicação 11 ou 12, caracterizado pelo fato de queo extrator de recursos (14) é configurado para determinar a medida de recursos que representa a energia de sinal de quadro em um domínio comprimido de acordo com: 3 |
1 M E, =10-log, («> x? (o) : M mel onde X, (11) denota a amostra m, | M é o número total de amostras em um quadro. |
14. Classificador de áudio, de acordo com a reivindicação 10, caracterizado pelo fato | ' de que o extrator de recursos (14) é configurado para determinar as medidas de recursos que | representam a energia de sinal de quadro (E,) em um domínio comprimido e o coeficiente de ! ' autocorrelação (T ) no domínio de frequência.
15. Classificador de áudio, de acordo com qualquer uma das reivindicações anteriores 10-14, caracterizado pelo fato de que o extrator de recursos (14) é configurado para determinar a medida de recursos que representa a variação de energia de sinal interquadro de acordo com: az, = BE] "O EE, onde E, representa a energia de sinal de quadro em um domínio comprimido no quadro n..
16. Classificador de áudio, de acordo com qualquer uma das reivindicações anteriores 10-15, caracterizado pelo fato de que o extrator de recursos (14) é configurado para determinar uma medida de recursos adicional que representa a frequência fundamental (P).
17. Classificador de áudio, de acordo com qualquer uma das reivindicações anteriores 10-16, caracterizado pelo fato de que o comparador de medida de recursos (16) é configurado (20, 22) para gerar um intervalo de recursos (0.62EY*,0) correspondente à energia de sinal de quadro (E) em um domínio comprimido, onde O é um limite de energia superior e E” é um parâmetro auxiliar fornecido por: EM” =(1- E + 4E,
0.557 if E > EM u=140.038 if E <EM
0.001 if E,<0.62EMX 4 onde E, representa a energia de sinal de quadro em um domínio comprimido no quadro n.
18. Classificador de áudio, de acordo com qualquer uma das reivindicações anteriores 10-17, caracterizado pelo fato de que o classificador de quadro (18) inclui um calculador de fração (26) configurado para calcular, para cada intervalo de recursos, uma medida de fração (D, — D;) que representa o número total de medidas de recursos correspondentes que está dentro do intervalo de recursos; . um seletor de classe (28) configurado para classificar os últimos quadros consecutivos como fala se cada medida de fração estiver dentro de um intervalo de fração correspondente, . 10 e deoutromodo, como não-fala.
19. Disposição de codificador de áudio, caracterizado pelo fato de que inclui um classificador de áudio (12), de acordo com qualquer uma das reivindicações anteriores 10-18, para classificar quadros de áudio em fala/não-fala e então selecionar um método de codificação correspondente.
20. Dispositivo de comunicação de áudio, caracterizado pelo fato de que inclui uma . disposição de codificador de áudio (70), de acordo com a reivindicação 19.
21. Disposição de codec de áudio, caracterizada pelo fato de que inclui um . classificador de áudio (12), de acordo com qualquer uma das reivindicações anteriores 10-19, para classificar os quadros de áudio em fala/não-fala de modo a selecionar um método de pós- filtragem correspondente,
BR112013026333-4A 2011-04-28 2011-04-28 método de classificação de sinal de áudio baseada em quadro, classificador de áudio, dispositivo de comunicação de áudio, e, disposição de codec de áudio BR112013026333B1 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2011/056761 WO2012146290A1 (en) 2011-04-28 2011-04-28 Frame based audio signal classification

Publications (2)

Publication Number Publication Date
BR112013026333A2 true BR112013026333A2 (pt) 2020-11-03
BR112013026333B1 BR112013026333B1 (pt) 2021-05-18

Family

ID=44626095

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112013026333-4A BR112013026333B1 (pt) 2011-04-28 2011-04-28 método de classificação de sinal de áudio baseada em quadro, classificador de áudio, dispositivo de comunicação de áudio, e, disposição de codec de áudio

Country Status (5)

Country Link
US (1) US9240191B2 (pt)
EP (1) EP2702585B1 (pt)
BR (1) BR112013026333B1 (pt)
ES (1) ES2531137T3 (pt)
WO (1) WO2012146290A1 (pt)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP6037156B2 (ja) * 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
CN105849801B (zh) 2013-12-27 2020-02-14 索尼公司 解码设备和方法以及程序
CN104934032B (zh) * 2014-03-17 2019-04-05 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
CN107424621B (zh) 2014-06-24 2021-10-26 华为技术有限公司 音频编码方法和装置
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
EP3242295B1 (en) * 2016-05-06 2019-10-23 Nxp B.V. A signal processor
CN108074584A (zh) * 2016-11-18 2018-05-25 南京大学 一种基于信号多特征统计的音频信号分类方法
US10325588B2 (en) * 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal
CN115294947A (zh) * 2022-07-29 2022-11-04 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
SE9700772D0 (sv) 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6983242B1 (en) * 2000-08-21 2006-01-03 Mindspeed Technologies, Inc. Method for robust classification in speech coding
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation
US7127392B1 (en) * 2003-02-12 2006-10-24 The United States Of America As Represented By The National Security Agency Device for and method of detecting voice activity
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置

Also Published As

Publication number Publication date
EP2702585B1 (en) 2014-12-31
BR112013026333B1 (pt) 2021-05-18
US9240191B2 (en) 2016-01-19
WO2012146290A1 (en) 2012-11-01
EP2702585A1 (en) 2014-03-05
ES2531137T3 (es) 2015-03-11
US20140046658A1 (en) 2014-02-13

Similar Documents

Publication Publication Date Title
BR112013026333A2 (pt) classificação de sinal de áudio baseada em quadro
JP6752255B2 (ja) オーディオ信号分類方法及び装置
KR101427863B1 (ko) 오디오 신호 코딩 방법 및 장치
US11908485B2 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm
WO2008058842A1 (en) Voice activity detection system and method
JP2017511901A (ja) 音声信号を検出するための方法および装置
US10229686B2 (en) Methods and apparatus for speech segmentation using multiple metadata
Gowda et al. Quasi-closed phase forward-backward linear prediction analysis of speech for accurate formant detection and estimation
Wang et al. Deep learning approaches for voice activity detection
KR20150061669A (ko) 음성/무음성 구간 검출 방법 및 장치
JP4871191B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
Tran et al. Robust Pitch Regression with Voiced/Unvoiced Classification in Nonstationary Noise Environments.
CN106920558B (zh) 关键词识别方法及装置
Uzkent et al. Pitch-range based feature extraction for audio surveillance systems
Zhang et al. Incorporating phase-encoded spectrum masking into speaker-independent monaural source separation
Ahmad et al. Unsupervised multimodal VAD using sequential hierarchy
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
Sapozhnykov Sub-band detector for wind-induced noise
JP2009063700A (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
US20240021208A1 (en) Method and device for classification of uncorrelated stereo content, cross-talk detection, and stereo mode selection in a sound codec
Das et al. One-decade survey on speaker diarization for telephone and meeting speech
JP2023521476A (ja) サウンドコーデックにおける音声/音楽分類およびコアエンコーダ選択のための方法およびデバイス

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 28/04/2011, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF

B21F Lapse acc. art. 78, item iv - on non-payment of the annual fees in time

Free format text: REFERENTE A 13A ANUIDADE.