BRPI0616903A2 - método para separar fontes de áudio de um sinal de áudio monofÈnico, e, classificador de fonte de áudio - Google Patents

método para separar fontes de áudio de um sinal de áudio monofÈnico, e, classificador de fonte de áudio Download PDF

Info

Publication number
BRPI0616903A2
BRPI0616903A2 BRPI0616903-1A BRPI0616903A BRPI0616903A2 BR PI0616903 A2 BRPI0616903 A2 BR PI0616903A2 BR PI0616903 A BRPI0616903 A BR PI0616903A BR PI0616903 A2 BRPI0616903 A2 BR PI0616903A2
Authority
BR
Brazil
Prior art keywords
audio
frame
classifier
sources
signal
Prior art date
Application number
BRPI0616903-1A
Other languages
English (en)
Inventor
Dmitry V Shmunk
Original Assignee
Dts Licensing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dts Licensing Ltd filed Critical Dts Licensing Ltd
Publication of BRPI0616903A2 publication Critical patent/BRPI0616903A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)
  • Burglar Alarm Systems (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

MéTODO PARA SEPARAR FONTES DE áUDIO DE UM SINAL DE áUDIO MONOFÈNICO, E, CLASSIFICADOR DE FONTE DE áUDIO. Um classificador de rede neural fornece a habilidade para separar e categorizar fontes de áudio arbitrárias e previamente desconhecidas, com mixagem descendente para um único sinal de áudio monofónico. Isto é alcançado quebrando o sinal de áudio monofónico em quadro de linha de base (possivelmente se sobrepondo), organizando os quadros em janelas, extraindo um número de características descritivas em cada quadro, e empregando uma rede neural não linear pré- treinada como um classificador. Cada saída da rede neural manifesta a presença de um tipo pré-determinado de fonte de áudio em cada quadro de linha de base do sinal de áudio monofónico. O classificador de rede neural é bem adequado para endereçar, de forma ampla, parâmetros de mudança do sinal e fontes, sobreposição no domínio do tempo e frequência das fontes, e reverberação e oclusões em sinais da vida real. As saidas do classificador podem ser usadas como um dado autónomo de entrada para criar múltiplos canais de áudio para um algoritmo de separação de fonte (e. g., ICA) ou como parâmetros em algoritmo de pós processamento (e. g. categorizar musica, monitorar fontes, gerar índices de áudio para os propósitos de navegação, re-mixagem, segurança e vigilância, telefone e comunicações sem fio, e teleconferência).

Description

"MÉTODO PARA SEPARAR FONTES DE ÁUDIO DE UM SINAL DEÁUDIO MONOFÔNICO, E, CLASSIFICADOR DE FONTE DE ÁUDIO"CONHECIMENTO DA INVENÇÃO
Campo da Invenção
Esta invenção se refere a separação de fontes de áudiodesconhecidas com mixagem descendente para um único sinal de áudiomonofônico.
Descrição da Técnica Relacionada
Técnicas existem para extrair fonte dos sinais de áudio estéreoou multicanal. Análise de componente independente (ICA) é o método maisamplamente conhecido e pesquisado método. Contudo, ICA pode somenteextrair um número de fontes igual a ou menos do que o numero de canais nosinal de entrada. Por conseguinte, não pode ser usado na separação de sinalmonofônico.
Extração de fontes de áudio de um sinal monofônico pode serútil para extrair características de sinal de voz, sintetizar uma reapresentaçãode um sinal de multicanal, categorizar música, monitorar fontes, gerar umcanal adicional para ICA, gerar índices de áudio para os propósitos denavegação (navegar), re-mixagem (consumidor & pro), segurança evigilância, telefone e comunicação sem fio, e teleconferência. A extração decaracterísticas de sinal de voz (como detecção de dicção automatizada,reconhecimento de voz automatizado, detectores de voz / musica) está bemdesenvolvida. Extração de informação de instrumento musical arbitrária desinal monofônico é bem raramente pesquisada devido às dificuldadescolocadas pelo problema, que inclui, de forma ampla, parâmetros de mudançado sinal e fontes, sobreposição no domínio do tempo e freqüência das fontes,e reverberação e oclusões em sinais da vida real. Conhecidas técnicas incluemextração de parâmetros diretos e de equalização.
Um instrumento de equalização de sinal pode ser aplicado aosinal para extrair fontes ocupam intervalo de freqüências conhecidas. Porexemplo, maioria da energia do sinal de voz está presente no intervalo de200Hz-4kHz range. Sons de baixo de guitarra são normalmente limitados àsfreqüências abaixo de IkHz. Através da filtragem de todo o sinal de fora dabanda, a fonte selecionada pode ser ou extraída, ou sua energia pode seramplificada com relação a outras fontes. Contudo, a equalização não é efetivapara extrair fontes de sobreposição.
Um método de extração direta de parâmetros é descrito em"Audio Content Análise for Online Audiovisual Data Segmentation eClassification " por Tong Zhang e Jay Kuo (IEEE Transactions sobreprocessamento de voz e áudio, vol.9 No.4, pode 2001). Características deáudio simples tal como a função de energia, a proporção média de cruzamentoem zero, a freqüência fundamental, e as trilhas de pico espectral são extraídas.O sinal é então dividido em categorias (silêncio; com componentes de musica;sem componentes de musica) e subcategorias. Uma inclusão de um fragmentoem certa categoria é decidida por comparação direta de uma característicacom um conjunto de limites. Um conhecimento anterior das fontes érequerido.
Um método de categorização de gênero musical é descrito em" Musical Genre Classificação of Sinais de áudio" por George Tzanetakis ePerry Cook (IEEE Transactions processamento de voz e áudio, vol.10 No.5,July 2002). Características como instrumentação, estrutura rítmica, econteúdo harmônico, são extraídas do sinal e entrados em um classificador dereconhecimento de padrão estatístico pré-treinado. " Acoustic Segmetnaçãofor Audio Browsers " by Don Kimbler e Lynn Wilcox empregam HiddenMarkov Models para a segmentação e classificação de áudio.
SUMÁRIO DA INVENÇÃO
A presente invenção fornece a habilidade para separar ecategorizar fontes de áudios arbitrárias e previamente desconhecidas commixagem descendente para um único sinal de áudio monofônico.
Isto é alcançado quebrando o sinal de áudio monofônico emquadro de linha de base (percussão se sobrepondo), organizando os quadrosem janelas, extraindo um número de características descritivas em cadaquadro, e empregando uma rede neural não linear pré- treinada como umclassificador. Cada saída da rede neural manifesta a presença de um tipo pre-determinado de fonte de áudio em cada quadro de linha de base do sinal deáudio monofônico. A rede neural tipicamente tem tantas saídas quantos tiposde fontes de áudios existirem que o sistema é treinado para discriminar. Oclassificador de rede neural é bem adequado para endereçar, de forma ampla,parâmetros de mudança do sinal e fontes, sobreposição no domínio do tempoe freqüência das fontes, e reverberação e oclusões em sinais da vida real. Assaídas do classificador podem ser usadas como um dado autônomo de entradapara criar múltiplos canais de áudio para um algoritmo de separação de fonte(e. g., ICA) ou como parâmetros em algoritmo de pós processamento (e. g.categorizar musica, monitorar fontes, gerar índices de áudio para ospropósitos de navegação, re-mixagem, segurança e vigilância, telefone ecomunicações sem fio, e teleconferência).
Em uma primeira modalidade, o sinal de áudio monofônico éfiltrado por sub banda. O número de sub-bandas e a variação ou uniformidadedas sub-bandas é dependente da aplicação. Cada sub-banda é entãoenquadrada e as características extraídas. A mesma ou as diferentescombinações das características podem ser extraídas das sub-bandasdiferentes. Algumas sub-bandas podem não ter nenhumas característicasextraídas. Cada característica de sub-banda pode formar uma entrada separadado classificador ou como características pode ser " fundida " através das sub-bandas. O classificador pode incluir um único nó de saída para cada fonte deáudio pré-determinada para melhorar a robustez de classificar cada particularfonte de áudio. Alternativamente, o classificador pode incluir um nó de saídapara cada sub-banda por cada fonte de áudio pré-determinada para melhorar aseparação de fontes de freqüências sobrepostas.
Em uma segunda modalidade, uma ou mais das característicase. g. componentes tonais ou TNR, é extraída em resoluções de freqüência etempo e então graduada para o tamanho do quadro de linha de base. Isto épreferencialmente feito em paralelo, mas pode ser feito seqüencialmente. Ascaracterísticas em cada resolução pode ser entrada para o classificador ou elaspodem ser fundidas para formar uma única entrada. Esta abordagem deresolução múltipla aborda o não estado estacionário dos sinais naturais. Amaioria dos sinais pode ser considerada como um quase estacionário emcurtos intervalos de tempo, em curtos intervalos de tempo. Alguns sinaismudam mais rápidos, alguns mais lentos, e. g. para voz, com parâmetros desinal variando rápido, quadros de tempo mais curtos resultarão em umamelhor separação do sinal de energia. Para instrumentos de som de corda quesão mais estacionários, quadros mais longos fornecem resolução defreqüência mais alta sem diminuir em separação de sinal de energia.
Em uma terceira modalidade, o sinal de áudio monofônico éfiltrado por sub banda e uma ou mais das características em uma ou mais sub-bandas é extraída em resoluções de freqüência e tempo e então graduada parao tamanho do quadro de linha de base. A combinação de filtro de sub-banda eresolução múltipla podem, ainda, aprimorar a capacidade do classificador.
Em uma quarta modalidade, os valores nos nós de saída deNeural Net são filtrados por passa baixa para reduzir o ruído, daí a variaçãoquadro à quadro, da classificação. Sem filtragem de passa baixa, o sistemaopera em pedaços curtos do sinal (quadro de linha de base), sem oconhecimento das entradas passadas e futuras. Filtragem de passa baixadiminui o número de resultados falsos, assumindo que um sinal, tipicamente,dura para mais do que um quadro de linha de base.
Esta e outras características e vantagens da invenção serãoaparentes para aqueles com habilidade na técnica a partir da seguintedescrição detalhada das modalidades preferidas, consideradas junto com osdesenhos anexos, nos quais:
DESCRIÇÃO BREVE DOS DESENHOS
FIG. 1 é um diagrama em bloco para a separação de fontes deáudio desconhecidas com mixagem descendente para um único sinal de áudiomonofônico usando um classificador de rede neural de acordo com a presenteinvenção;
FIG. 2 é um diagrama ilustrando a filtragem de sub banda dosinal de entrada;
FIG. 3 é um diagrama ilustrando a elaboração de quadro e aseparação por janela do sinal de entrada;
FIG. 4 é um fluxograma para extrair componentes tonais deresolução múltipla e características de TNR;
FIG. 5 é um fluxograma para estimar o ruído de fundo;
FIG. 6 é um fluxograma para extrair uma característica de picode Cepstrum;
FIG. 7 é um diagrama em bloco de um típico de Rede Neural;
FIGs. 8a-8c são gráficos das fontes de áudios que compõemum sinal monofônico e as medidas emitidas pelo classificador de Rede neuralclassificador;
FIG. 9 é um diagrama em bloco de um sistema para usar asmedidas de saída para fazer re-mixagem do sinal monofônico em umapluralidade de canais de áudio; e
FIG. 10 é um diagrama em bloco de um sistema para usar asmedidas de saída para aumentar uma tarefa de pós-processamento padrãoefetuada no sinal monofônico.
DESCRIÇÃO DETALHADA DA INVENÇÃO
A presente invenção fornece a habilidade para separar ecategorizar fontes de áudio arbitrárias e previamente desconhecidas commixagem descendente, para um único sinal de áudio monofônico.
Como mostrado na Fig. 1, em uma pluralidade de fontes deáudio 10, e. g. voz, som de corda, e percussão, foi feita mixagem descendente(passo 12) para um único monofônico áudio canal 14. O sinal monofônicopode ser um mono mixagem convencional ou pode ser um canal de um sinalestéreo ou multicanal. No caso mais geral, há uma informação anteriorconsiderando os tipos particulares de fontes de áudio na mixagem específica,os próprios sinais, como muitos sinais diferentes são incluídos, ou oscoeficientes de mixagem. Os tipos de fontes de áudio que poderiam serincluídos em uma mixagem específica são conhecidos. Por exemplo, aaplicação pode ser para classificar as fontes ou fontes predominantes em umamixagem de musica. O classificador conhecerá que as fontes possíveisincluem vocal masculino, vocal feminino, som de corda, percussão etc. Oclassificador não reconhecerá qual dessas fontes ou como muitas são incluídasna mixagem específica, ou qualquer coisa sobre as fontes específicas ou comofoi feito mixagem nelas.
O processo de separar e categorizar as múltiplas fontes deáudio arbitrárias e previamente desconhecidas começa enquadrando o sinal deáudio monofônico na seqüência de quadro de linha de base (possivelmente sesobrepondo) (passo 16), separando por janela os quadros (passo 18), extraindoum número de características descritivas em cada quadro (passo 20), eempregando uma rede neural não linear pré-treinada como um classificador(passo 22). Cada saída da rede neural manifesta a presença de um tipo pre-determinado de fonte de áudio in cada quadro de linha de base do sinal deáudio monofônico. A rede neural, tipicamente, tem tantas saídas quantos sãoos tipos de fontes de áudio que o sistema é treinado para discriminar.
O desempenho do classificador de rede neural,particularmente, em separar e classificar "fontes se sobrepondo" pode seraprimorado em um número de meios incluindo filtragem de sub-banda dosinal monofônico, extrair características de resolução múltipla e filtragem depassa baixa dos valores de classificação.
Em uma primeira modalidade aprimorada, o sinal de áudiomonofônico pode ser filtrado por sub banda (passo 24). Isto é, tipicamente,mas não necessariamente efetuado antes de elaborar o quadro. O número desub-bandas e a variação ou uniformidade da sub-bandas é dependente daaplicação. Cada sub-banda é então enquadrada e características são extraídas.A mesma ou combinações diferentes de características podem ser extraídas dadiferentes sub-bandas. Algumas sub-bandas podem ter nenhumascaracterísticas extraídas. Cada característica de sub-banda pode formar umaentrada separada para o classificador ou como características semelhantespodem ser "fundidas" através das sub-bandas (passo 26). O classificador podeincluir um nó de saída único para cada fonte de áudio pré-determinada, noqual caso, extrair características das múltiplas sub-bandas melhora a robustezde classificar cada particular fonte de áudio. Alternativamente, o classificadorpode incluir um nó de saída para cada sub-banda para cada fonte de áudio pré-determinada, no qual caso, extrair características das múltiplas sub-bandasmelhora a separação de múltiplas fontes sobrepostas em freqüências.
Em uma segunda modalidade aprimorada, uma ou mais dascaracterísticas é extraída em resoluções de freqüência e tempo e entãoescalonada para o tamanho do quadro de linha de base. Como mostrado, osinal monofônico é inicialmente segmentado em quadro de linha de base,separados por janelas e as características são extraídas. Se uma ou mais dascaracterísticas está sendo extraída em múltiplas resoluções (passo 28), otamanho de quadro é diminuído (aumentado) (passo 30) e o processo érepetido. O tamanho de quadro é, de forma adequada, diminuído (aumentado)como um múltiplo do tamanho do quadro de linha de base ajustado parasobrepor e separar em janela. Como um resultado, haverão múltiplosexemplos de cada característica sobre o equivalente de um quadro de linha debase. Estas características precisam então ser escalonadas para o tamanho doquadro de linha de base, ou, de forma independente, ou junto (passo 32).
Características extraídas em tamanhos de quadro menores são calculadas ecaracterísticas extraídas em tamanhos de quadro maiores são interpoladaspara o tamanho do quadro de linha de base. Em alguns casos, o algoritmopode extrair características de resolução múltipla e ambos, diminuindo eaumentando diminuindo e aumentando do quadro de linha de base. Aindamais, pode ser desejável fundir as características extraídas em cada resoluçãopara formar uma entrada para o classificador (passo 26). Se as característicasde resolução múltipla não são fundidas, o escalonamento das linhas de base(passo 32) pode ser efetuado dentro do laço e as características entradas parao classificador em cada passo. Mais preferencialmente a extração deresolução múltipla é efetuada em paralelo.
Em uma terceira modalidade aprimorada, os valores nos nósde saída da Rede Neural são pós-processados usando, por exemplo, um filtropassa baixa de média móvel (passo 34) para reduzir o ruído, e daí a variaçãoquadro à quadro, da classificação.
Filtragem de sub-banda
Como mostrado na Figura 2, um filtro de sub-banda 40 divideo espectro de freqüência do sinal de áudio monofônico em N larguras de sub-bandas uniformes ou variando 42. Para propósitos de ilustração, possíveisespectros de freqüência H(f) são mostrados para voz 44, som de corda 46 epercussão 48. Através da extração de características em sub-bandas onde asobreposição de fonte é baixa, o classificador pode fazer um melhor trabalhoem classificar a fonte predominante no quadro. Em adição, através daextração de características em sub-bandas diferentes, o classificador pode sercapaz de classificar a fonte predominante em cada uma das sub-bandas.Naquelas sub-bandas onde o sinal separação é bom, a confiança daclassificação pode ser bem forte, e. g. perto de 1. Ao passo que naquelas sub-bandas onde os sinais se sobrepõem, o classificador pode ser de menosconfiança do que uma fonte predominante, e. g. duas ou mais fontes podemter valores similares.
A função equivalente pode também ser fornecida usando umatransformada de freqüência em vez o filtro de sub-banda.Enquadramento & Separação em janela
Com mostrado nas Figuras 3a-3c, o sinal monofônico 50 (oucada sub-banda do sinal) é quebrado em uma seqüência de quadro de linha debase 52. O sinal é quebrado, de forma adequada, em quadros sobrepostos epreferencialmente com uma sobreposição de 50% ou maior. Cada quadro éseparado em janela para reduzir efeitos de descontinuidade em nas fronteirasdo quadro e melhorar a separação de freqüência. Janelas de análise bemconhecidas 54 incluem Raised Cosine, Hamming, Hanning e Chebyschev,etc.. O sinal separado por janela 56 para cada quadro de linha de base é entãopassado adiante para extração de característica.
Extração de característica
Extração de característica é o processo de calcular umarepresentação numérica compacta que pode ser usada para caracterizar umquadro de linha de base de áudio. A idéia é identificar um número decaracterísticas, que sozinhas ou em combinação com outras características,em uma única ou múltiplas resoluções, e em uma única ou múltiplas bandasde espectro, de forma efetiva, diferencia entre fontes de áudio diferentes.Exemplos das características que são úteis na separação de fontes de um sinalde áudio monofônico incluem: número total de componentes tonais em umquadro; Proporção de tom para ruído(TNR); e amplitude de pico de Cepstrum.Em adição a essas características, qualquer uma ou combinação dosdescritores de 17 níveis baixos para áudio descritos na especificação deMPEG-7 podem ser características adequadas em aplicações diferentes.A Requerente agora vai descrever as características doscomponentes tonais, de TNR e de pico de Cepstrum em detalhes. Em adição,as características dos componentes tonais e TNR são extraídas em múltiplasresoluções de tempo e freqüência e escalonadas para o quadro de linha debase. Os passos para calcular os " descritores de nível baixo " estãodisponíveis na documentação de suporte para áudio de MPEG-7. (Ver porexemplo, International Standard ISO/DEC 15938 "Multemedia ContentDescription Interface", ou http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm).Componentes Tonais
Um Componente Tonai é essencialmente um tom que érelativamente forte quando comparado com o sinal médio. A característicaque é extraída é o número de componentes tonais em uma dada resolução detempo e freqüência. O procedimento para estimar o número de componentestonais em um único nível de resolução de tempo e freqüência em cada quadroé ilustrado na Figura 4 e inclui os seguintes passos:
1. Fazer quadro do sinal de entrada monofônico (passo 16).
2. Separarporjanela os dados caindo no quadro (passo 18).
3. Aplicar transformada de freqüência para o sinal separadopor janela (passo 60), tal como FFT, MDCT, etc.. O comprimento datransformada deve ser igual ao número de amostras de áudio no quadro, i. e. otamanho de quadro. Alargando o comprimento da transformada baixará aresolução de tempo, sem aprimoramentos na resolução de freqüência. Tendocomprimento de transformada menor então um comprimento de um quadrobaixará a resolução de freqüência.
4. Calcular a magnitude das linhas de espectro(passo 62). Parauma FFT, a magnitude A=Sqrt(Re*Re+Im* Im) onde Re e Im são oscomponentes Real e Imaginário de uma linha de espectro produzidos pelatransformada.5. Estimar nível de ruído de fundo para todas as freqüências(passo 64). (Ver Fig 5)
6. Contar número de componentes suficientemente acima doruído de fundo e. g. mais do que um limite fixo pré-determinado acima doruído de fundo (passo 66). Esses componentes são considerados "componentes tonais " e a contagem é emitida para o classificador da NN(passo 68).
Sinais de áudio da vida real podem conter ambos, fragmentosestacionários com componentes tonais neles (como instrumentos de som decorda) e fragmentos não estacionários que também tem componentes tonaisneles (como fragmentos de discurso de voz). Para eficientemente capturarcomponentes tonais em todas as situações, o sinal tem de ser analisado emvários níveis de resolução de tempo. Praticamente, resultados úteis podem serextraídos em quadros variando de aproximadamente de 5msec à 200msec.Note, que esses quadros são preferencialmente interpostos, e muitos quadrosde um dado comprimento podem cair em um único quadro de linha de base.
Para estimar o número de componentes tonais em resoluçõesde freqüência e tempo, o procedimento acima é modificado com a seguir:
1. Diminuir o tamanho de quadro, e. g. por um fator de 2(ignorando sobreposição) (passo 70).
2. Repetir os passos 16, 18, 60, 62, 64 e 66 para o novotamanho de quadro. A transformada de freqüência de comprimento igual aocomprimento do quadro deve ser efetuada para obter ótima negociação detempo e freqüência.
3. Escalonar a contagem dos componentes tonais para otamanho do quadro de linha de base emitido para o classificador da NN(passo 72). Como mostrado, um número acumulativo de componentes tonaisem cada resolução de tempo e freqüência é individualmente passado para oclassificador. Em uma implementação simples, o número de componentestonais em todas as resoluções seria extraído e somado junto para formar umvalor único.
4. Repetir até o menor tamanho de quadro desejado tenha sidoanalisado (passo 74). Para ilustrar a extração de componentes tonais deresolução múltipla considere os seguintes exemplos. O tamanho do quadro delinha de base é 4096 amostras. Os componentes tonais são extraídos em 1024,2048 e 4096 transformada comprimentos de transformada (não sobrepostos por simplicidade).
Resultados típicos poderiam ser:
Em transformada de 4096 pontos: 5 componentes
Em transformadas de 2048 pontos (total de 2 transformadas
em um quadro de linha de base): 15 componentes, 7 componentes
Em transformadas de 1024 pontos (total de 4 transformadasem um quadro de linha de base): 3, 10, 17, 4
Os números que serão passados para as entradas da NN serão5, 22 (=15+7), 34 (=3+10+17+4) em cada passo. Ou alternativamente osvalores poderiam ser somados 61=5+22+34 e entrados como um valor único.
O algoritmo para calcular resoluções múltiplas de tempo efreqüência através de incremento é análogo.
Proporção de tom para ruído(TNR)
A proporção de tom para ruído é a medida da proporção daenergia total nos componentes tonais para o ruído de fundo também pode serum abem relevante característica para discriminação dos vários tipos dasfontes. Por exemplo, vários tipos de instrumento de som de corda têmdiferentes níveis de TNR. O processo de proporção de tom para ruído ésimilar para estimativa de número de componentes tonais descrita acima. Emvez da contagem do número de componentes tonais (passo 66), oprocedimento calcula a proporção da energia acumulativa nos componentestonais para o ruído de fundo (passo 76) e emite a proporção para oclassificador da NN (passo 78).
Medindo a TNR em várias resoluções de tempo e freqüência étambém uma vantagem para fornecer um desempenho mais robusto com sinalda vida real. O tamanho de quadro é diminuído (passo 70) e o procedimentorepetido para um número de tamanhos de quadro pequenos. Os resultados dosquadros menores são escalonados pela média deles sobre um período detempo igual ao quadro de linha de base (passo 78). Como com oscomponentes tonais, a proporção média pode ser emitida para o classificadorem cada passo ou eles podem ser somados para um único valor. Também, asresoluções diferentes para ambos, componentes tonais e TNR são calculadasem paralelo, de forma adequada.
Para ilustrar a extração de TNRs de resolução múltiplaconsidere os seguintes exemplos. O tamanho de quadro de linha de base é4096 amostras. As TNRs são extraídas em 1024, 2048 e 4096 comprimentosde transformada (não sobrepostas por simplicidade). Resultados típicospoderiam ser:
Em transformada de 4096 pontos: proporção de 40dbEm transformadas de 2048 pontos (total de 2 transformadasem um quadro de linha de base): proporções de 28db, 20db
Em transformadas de 1024 pontos (total de 4 transformadasem um quadro de linha de base): proporção de 20db, 20db, 16db e 12db
As proporções que serão passadas para as entradas da NNserão 40db, 24db e 17db e, a cada passo. Ou alternativamente os valorespoderiam ser somados (média = 27db) e entrados como um valor único.
O algoritmo para calcular resoluções múltiplas de tempo efreqüência através de incremento é análogo.Estimativa de Ruído de fundo
O ruído de fundo usado para estimar os componentes tonais eTNR é uma medida da porção de ambiente ou não desejada do sinal. Porexemplo, se a requerente está tentando classificar ou separar os instrumentosmusicais em um desempenho musical acústico ao vivo, o ruído de fundorepresentaria o nível acústico médio da sala quando os músicos não estariamtocando.
Um número de algoritmos pode ser usado para estimar ruídode fundo em um quadro. Em uma implementação, um filtro passa baixa podeser aplicado sobre as amplitudes das linhas de espectro. O resultado de talfiltragem será ligeiramente maior do que o ruído de fundo real já que eleinclui ambos, energia de componentes ruidosos e tonais. Isto embora, pode sercompensado baixando ao valor limite. Como mostrado na Figura 5, um maispreciso algoritmo refina a abordagem de filtro de FIR simples para chegarperto do ruído de fundo real.
Uma estimativa simples do ruído de fundo é encontradaatravés da aplicação de um filtro de FIR:
<formula>formula see original document page 15</formula>
onde: Ni - ruído de fundo estimado para i-ésima linha doespectro;
A1 - magnitudes of linhas de espectro após as transformadas defreqüência;
Ck - coeficientes de filtro de FIR; e
L - comprimento do filtro.
Como mostrado na Figura 5, a estimativa mais precisa refina aestimativa inicial do FIR de passa baixa (passo 80) dado acima, marcandocomponentes que ficam suficientemente acima do ruído de fundo, e. g. 3dBacima da saída do FIR em cada freqüência (passo 82). Uma vez marcado, umcontador é configurado, e. g. J=O (passo 84) e os componentes marcados(magnitudes 86) são substituídos pelos últimos resultados do FIR (passo 88).Este passo, de forma efetiva, remove a energia do componente tonai docálculo do ruído de fundo. O FIR de passa baixa é re-aplicado (passo 90), oscomponentes que ficam suficientemente acima do ruído de fundo sãomarcados (passo 92), o contador é incrementado (passo 94) e os componentesmarcados são de novo substituídos pelos últimos resultado do FIR (passo 88).Este processo é repetido para um número desejado de iterações, e. g. 3 (passo96). Numero maior de iterações resultará em, ligeiramente, precisão melhor.
Vale a pena notar que a própria estimativa de Ruído de Fundopode ser usada como uma característica para descrever e separar as fontes deáudio.
Pico de Cepstrum
Análise de Cepstrum é usualmente utilizada em aplicaçõesrelacionadas com processamento de voz. Várias características do cepstrumpodem ser usadas como parâmetros para processamento. Cepstrum é tambémdescritivo para outros tipos de sinais altamente harmônicos. Um Cepstrum é oresultado de considerar a transformada de Fourier inversa do espectro dedecibel como se esse fosse o sinal. O procedimento de extração de um Pico deCepstrum é como a seguir:
1. Separar o sinal de áudio em uma seqüência de quadros(passo 16).
2. Separar por janela o sinal em cada quadro (passo 18).
4. Calcular Cepstrum:
a. Calcular uma transformada de freqüência do sinal separadopor janela, e. g. FFT (passo 100);
b. Calcular amplitude logarítmico das magnitudes da linha doespectro (passo 102); e
c. Calcular a transformada inversa em amplitudes logarítmico(passo 104).
5. O pico de Cepstrum é o valor e posição do valor máximo nocepstrum (passo 106).Classificador de rede neural
Muitos tipos conhecidos de redes neurais são adequados paraoperar como classificadores. O estado corrente da técnica em arquiteturas derede neural e algoritmos de treinamento tornam uma rede de alimentação àfrente (uma rede em camada s na qual cada camada somente recebe entradasdas camada s anteriores) uma muito boa candidata. Algoritmos detreinamento existentes fornecem resultados estáveis e uma boa generalização.
Como mostrado in Figura 7, uma rede de alimentação à frente110 inclui uma camada de entrada 112, uma ou mais camada s intermediárias114, e uma camada de saída 116. Neurônios na camada de entrada recebemum conjunto completo de características extraídas 118 e respectivos pesos.Um algoritmo de treinamento supervisionado off-line sintoniza os pesos comos quais as características são passadas para cada um dos neurônios. Ascamada(s) intermediárias incluem neurônios com funções de ativação nãolinear. Múltiplas camadas de neurônios com funções de transferência nãolinear permitem a uma rede aprender as relações linear e não linear entre sinalde entrada e de saída. O número de neurônios ma camada de saída é igual aonúmero de tipos de fontes que o classificador pode reconhecer. Cada uma dassaídas dos sinais de rede, a presença de um certo tipo de fonte 120, e o valor [0, 1 ] indica a confiança que o sinal de entrada inclui uma dada fonte deáudio. Se filtragem de sub-banda é empregada, o número de neurônios desaída pode ser igual ao número de fontes multiplicado pelo número de sub-bandas. Neste caso, a saída de um neurônio indica a presença de umaparticular fonte em uma particular sub-banda. Os neurônios de saída podemser pode ser passados " com são ", limitados somente para reter os valores deneurônios acima de um certo nível, ou limiar somente para reter a uma fontemais predominante.
A rede deve ser pré-treinada em um conjunto de,suficientemente, sinais representativos. Por exemplo, para o sistema capaz dereconhecer quatro gravações diferentes contendo: voz masculina, vozfeminina, instrumentos de percussão e instrumentos de som de corda, todosesses tipos das fontes devem estar presentes em um conjunto de treinamentoem variedade suficiente. Não é necessário exaustivamente apresentar todospossíveis tipos das fontes devido a habilidade de generalização da rede neural.Cada gravação deve ser passada através de uma parte de extração decaracterística do algoritmo. As características extraídas são entãoarbitrariamente feitas a mixagem em dois conjuntos de dados; treinamento evalidação. Um dos bem conhecidos algoritmos de treinamento supervisionadoé então usado para treinar a rede (e. g. tal como o algoritmo de Levenberg-Marquardt).
A robustez do classificador é fortemente dependente doconjunto de características extraídas. Se, as características juntas diferenciamas diferentes fontes, o classificador funcionará bem. A implementação deresolução múltipla e filtragem de sub banda para elevar as características deáudio padrão apresenta um muito mais rico conjunto de características paradiferenciar e apropriadamente classificar fontes de áudio no sinal monofônico.
Em uma modalidade exemplar, a alimentação à frente redearquitetura de rede de alimentação à frente de 5-3-3 (5 neurônios na camadade entrada, 3 neurônios na camada intermediária, e 3 neurônios na saídacamada de saída) com função de ativador de tansig (tangente hiperbólica) emtodas as camadas funcionam bem para classificação de três tipos de fontes;voz, percussão e string. Na arquitetura de alimentação à frente usada, cadaneurônio da camada dada é conectado a cada neurônio da camada anterior(exceto para a camada de entrada). Cada neurônio na camada de entradarecebe um conjunto completo de características extraídas. As característicasapresentadas para a rede incluem componentes tonais de resolução múltipla,TNR de resolução múltipla, e Pico de Cepstrum, que foram pré-normalizadostal para encaixar no intervalo de [ -1:1 ] range. A primeira saída da redesinalizou a presença de fonte de voz no sinal. A segunda saída sinalizou apresença de instrumentos de som de corda, e finalmente a terceira saída foitreinada para sinalizar presença de instrumentos de percussão.
Em cada camada, uma função de ativador "tansing" foi usada.
A formula computacionalmente efetiva para calcular a saída de um k-ésimoneurônio na j-ésima camada é dada por:
<formula>formula see original document page 19</formula>
Onde: A j,k - saída of k-ésimo neurônio na j-ésima camada;
W1 j;k. - i-ésimo peso daquele neurônio (configurado durante otreinamento).
Para a camada de entrada, a fórmula é:
<formula>formula see original document page 19</formula>
Onde: Fl- i-ésima característica
W1 i)k - i-ésimo peso daquele neurônio (configurado durante otreinamento).
Para testar um classificador simples, um longo arquivo deáudio foi concatenado de três tipos diferentes de sinais de áudio. As linhasazuis descrevem a presença real de voz (fala Alemã) 130, instrumento depercussão 132, e um instrumento de som de corda (guitarra acústica) 134. Oarquivo é aproximadamente 800 quadros em comprimento no qual osprimeiros 370 quadros são voz, os próximos 100 quadros são percussão, e osúltimos 350 quadros são de som de corda. Quedas repentinas ns linhas azuiscorrespondem a períodos de silencio no sinal de entrada. As linhas verdesrepresentam prognósticos de voz 140, de percussão 142 e 144 dados peloclassificador. Os valores de saída foram filtrados para reduzir ruído. Adistância de quão longe a saída da rede está de ou 0 ou 1 é a medida de quãocerto o classificador está que o sinal de entrada inclui aquela particular fontede áudio.
Embora o arquivo de áudio represente um sinal monofônico noqual nenhumas das fontes de áudio estão realmente presentes ao mesmotempo, é adequado e simples demonstrar a capacidade do classificador. Comomostrado na Figura 8c, o classificador identificou o instrumento de som decorda com grande confiança e sem erros. Como mostrado nas Figuras 8a e 8b,o desempenho nos sinais de voz e de percussão foram satisfatórios, emborahouvesse alguma sobreposição. O uso de componentes tonais de resoluçãomúltipla, de forma mais efetiva, distinguiria entre os instrumentos depercussão e fragmentos de voz (de fato, fragmentos de fala não vocalizados).
As saídas do classificador podem ser usadas como um dadoautônomo de entrada para criar múltiplos canais de áudio para um algoritmode separação de fonte (e. g., ICA) ou como parâmetros em um algoritmo de15 pós processamento (e. g. categorizar musica, monitorar fontes, gerar índicesde áudio para propósitos de navegação, re-mixagem, segurança e vigilância,telefone e comunicação sem fio, e teleconferência).
Como mostrado na Figura 9, o classificador é usado como umaentrada autônoma para um algoritmo de Blind Source Separation (BSS) 150,20 tal como ICA, que requer tantos canais de entrada quantas fontes ele estátentando separar. Assuma que o algoritmo de BSS quer separar fontes de voz,de percussão e de som de corda, de um sinal monofônico, que ele não podefazer. O classificador da NN pode ser configurado com neurônios de saída152 para voz, percussão e string. Os valores de neurônio são usados como25 pesos para fazer a mixagem 154 de cada quadro do sinal de áudio monofônicono canal de áudio 156 em três canais de áudio separados, um para voz 158,percussão 160 e som de corda 162. Os pesos podem ser os valores reais dosneurônios ou valores limitados para identificar o um sinal dominante porquadro. Este procedimento pode ser ainda refinado usando filtragem de subbanda e assim sendo, produzir muito mais canis de entrada para BSS. O BSSusa algoritmos potentes para ainda refinar a separação inicial de fontefornecida pelo classificador da NN.
Como mostrado na Figura 10, os neurônios da camada de saídada NN 170 podem ser usados em um pós-processador 172 que opera no sinalde áudio monofônico no canal de áudio 174.
Monitoramento - algoritmo pode ser aplicado a canisindividuais que foram obtidos com outros algoritmos (e. g. BSS) quetrabalham na base de quadro a quadro. Com a ajuda da saída do algoritmo,uma vinculação dos quadros vizinhos pode ser feita possível ou mais estávelou simples.
r r
Identificação de Audio e Dispositivo de Procura de Audio -padrões extraídos de tipos de sinal e possivelmente suas durações podem serusados como um índice em um banco de dados (ou como uma chave paratabela de procura).
Codec - informação sobre o tipo do sinal permite ao codecsintonizar com precisão um modelo físico acústico, alocação de bit ou outrosparâmetros de codificação.
Entrada autônoma para uma separação de fonte - algoritmos talcomo ICA requerem, pelo menos, tantos canais de entrada quantas fontesexistirem. Nosso algoritmo pode ser usado para criar múltiplos canais deáudio a partir do canal único ou para aumentar o número de canais de entradaindividuais disponíveis.
Re-mixagem - aos canais separados individuais pode ser feitore-mixagem de volta na representação monofônica (ou uma representaçãocom número reduzido de canais) com um algoritmo de pós-processamento(como instrumento de equalização de sinal) no meio.
Segurança e vigilância - as saídas do algoritmo podem serusadas como parâmetros em um algoritmo de pós-processamento paraaprimorar a inteligibilidade do áudio gravado.
Telefone e comunicação sem fio, e teleconferência - oalgoritmo pode ser usado para separar alto falantes individuais / fontes e umalgoritmo de pós-processamento pode atribuir posições virtuais individuaisem ambiente estéreo ou de multicanal. Um número reduzido de canais (oupossivelmente apenas canal único) terão de ser transmitidos.
Enquanto várias modalidades ilustrativas da invenção forammostradas e descritas, numerosas variações e modalidades alternativasocorrerão para aqueles com habilidade na técnica. Tais variações emodalidades alternativas são contempladas, e podem ser feitas sem fugir doespírito e escopo da invenção como definido nas reivindicações anexas.

Claims (28)

1. Método para separar fontes de áudio de um sinal de áudiomonofônico, caracterizado pelo fato de compreender:(a) fornecer um sinal de áudio monofônico compreendendouma mixagem descendente de uma pluralidade de fontes de áudiodesconhecidas;(b) separar o sinal de áudio em uma seqüência de quadros delinha de base;(c) separar por janela cada quadro;(d) extrair uma pluralidade de características de áudio de cadaquadro de linha de base que tendem a distinguir as fontes de áudio; e(e) aplicar as características de áudio de cada quadro de linhade base em um classificador de rede neural (NN) treinado em um conjuntorepresentativo de fontes de áudio com as características de áudiomencionadas, o classificador de rede neural emitindo pelo menos uma medidade uma fonte de áudio incluída em cada quadro de linha de base do sinal deáudio monofônico.
2. Método, de acordo com a reivindicação 1, caracterizadopelo fato de que a pluralidade de fontes de áudio desconhecidas é selecionadade um conjunto de fontes musicais compreendendo pelo menos voz, som decorda e percussão.
3. Método, de acordo com a reivindicação 1, caracterizadopelo fato de ainda compreender:repetir os passos (b) a (d) para um diferente tamanho dequadro para extrair características em múltiplas resoluções; eescalonar as características extraídas de áudio nas resoluçõesdiferentes ao quadro de linha de base.
4. Método, de acordo com a reivindicação 3, caracterizadopelo fato de ainda compreender aplicar as características escalonadas em cadaresolução para o classificador da NN.
5. Método, de acordo com a reivindicação 3, caracterizadopelo fato de ainda compreender fundir as características escalonadas em cadaresolução em uma única característica que é aplicada ao classificador da NN.
6. Método, de acordo com a reivindicação 1, caracterizadopelo fato de ainda compreender filtrar os quadros em uma pluralidade de sub-bandas de freqüência e extrair as características de áudio das sub-bandas.
7. Método, de acordo com a reivindicação 1, caracterizadopelo fato de ainda compreender filtrar por passa baixa as saídas doclassificador.
8. Método, de acordo com a reivindicação 1, caracterizadopelo fato de que uma ou mais características de áudio são selecionadas de umconjunto compreendendo componentes tonais, proporção de tom para ruído(TNR) e pico de Cepstrum.
9. Método, de acordo com a reivindicação 8, caracterizadopelo fato de que os componentes tonais são extraídos por:(f) aplicar uma transformada de freqüência ao sinal separadopor janela para cada quadro;(g) calcular a magnitude das linhas do espectro natransformada de freqüência;(h) estimar um ruído de fundo;(i) identificar como componentes tonais, os componentes doespectro que excedem o ruído de fundo por uma quantidade limite; e(j) emitir o número de componentes tonais como acaracterística do componente tonai.
10. Método, de acordo com a reivindicação 9, caracterizadopelo fato de que o comprimento da transformada de freqüência é igual aonúmero de amostras de áudio no quadro para uma certa resolução de tempo efreqüência.
11. Método, de acordo com a reivindicação 10, caracterizadopelo fato de ainda compreender:- repetir os passos (f) a (i) para comprimentos de transformadae quadros diferentes; e- emitir um número acumulativo de componentes tonais emcada resolução de tempo e freqüência.
12. Método, de acordo com a reivindicação 8, caracterizadopelo fato de que a característica de TNR é extraída por:(k) aplicar uma transformada de freqüência ao sinal separadopor janela para cada quadro;(1) calcular a magnitude das linhas do espectro natransformada de freqüência;(m) estimar um ruído de fundo;(n) determinar uma proporção da energia dos componentestonais identificados para o ruído de fundo; e(o) emitir a proporção como a característica de TNR.
13. Método, de acordo com a reivindicação 12, caracterizadopelo fato de que o comprimento da transformada de freqüência é igual aonúmero de amostras de áudio no quadro para uma certa resolução de tempo efreqüência.
14. Método, de acordo com a reivindicação 13, caracterizadopelo fato de ainda compreender:- repetir os passos (k) a (n) para comprimentos detransformada e quadros diferentes; e- tirar a média das proporções das resoluções diferentes aolongo de um período de tempo igual ao quadro de linha de base.
15. Método, de acordo com a reivindicação 12, caracterizadopelo fato de que o ruído de fundo é estimado por:(p) aplicar um filtro passa baixa sobre magnitudes das linhasdo espectro,(q) marcar componentes suficientemente acima da saída dofiltro,(r) substituir os componentes marcados com a saída do filtropassa baixa,(s) repetir passos (a) a (r) um número de vezes, e(t) emitir os componentes resultantes como a estimativa deruído de fundo.
16. Método, de acordo com a reivindicação 1, caracterizadopelo fato de que o classificador de rede neural inclui uma pluralidade deneurônios de saída que indicam, cada um, a presença de uma certa fonte deáudio no sinal de áudio monofônico.
17. Método, de acordo com a reivindicação 16, caracterizadopelo fato de que o valor de cada neurônio de saída indica a confiança de que oquadro de linha de base inclui a certa fonte de áudio.
18. Método, de acordo com a reivindicação 16, caracterizadopelo fato de ainda compreender usar os valores dos neurônios de saída parafazer re-mixagem do sinal de áudio monofônico em uma pluralidade de canaisde áudio para as respectivas fontes de áudio no conjunto representativo paracada quadro de linha de base.
19. Método, de acordo com a reivindicação 18, caracterizadopelo fato de que o sinal de áudio monofônico é re-mixado, comutando-o parao canal de áudio identificado como o mais proeminente.
20. Método, de acordo com a reivindicação 18, caracterizadopelo fato de que o classificador de rede neural emite uma medida, para cadauma das fontes de áudio no conjunto representativo, que indica uma confiançade que o quadro inclui a fonte de áudio correspondente, o sinal de áudiomonofônico sendo atenuado através de cada uma das medidas e direcionadopara os respectivos canais de áudio.
21. Método, de acordo com a reivindicação 18, caracterizadopelo fato de ainda compreender processar a pluralidade de canais de áudiousando um algoritmo de separação de fonte que requer pelo menos tantoscanais de entrada quantas fontes de áudio para separar a pluralidade de canaisde áudio em uma igual ou menor pluralidade das fontes de áudio.
22. Método, de acordo com a reivindicação 21, caracterizadopelo fato de que o algoritmo de separação de fonte é baseado na separação defonte cega (BSS).
23. Método, de acordo com a reivindicação 1, caracterizado pelo fato de ainda compreender passar o sinal de áudio monofônico e aseqüência das medidas para um pós-processador que usa as medidas paraaumentar o pós-processamento do sinal de áudio monofônico.
24. Método para separar fontes de áudio de um sinal de áudiomonofônico, caracterizado pelo fato de compreender:(a) fornecer um sinal de áudio monofônico compreendendouma mixagem descendente de uma pluralidade de fontes de áudiodesconhecidas;(b) separar o sinal de áudio em uma seqüência de quadros delinha de base;(c) separar por janela cada quadro;(d) extrair uma pluralidade de características de áudio de cadaquadro de linha de base que tendem a distinguir as fontes de áudio;(e) repetir passos (b) a (d) com um tamanho de quadrodiferente para extrair características em múltiplas resoluções;(f) escalonar as características de áudio extraídas, emresoluções diferentes para o quadro de linha de base; e(g) aplicar as características de áudio de cada quadro de linhade base em um classificador de rede neural (NN) treinado em um conjuntorepresentativo de fontes de áudio com as características de áudio, oclassificador de rede neural tendo uma pluralidade de neurônios de saída emque cada um sinaliza a presença de uma certa fonte de áudio no sinal de áudiomonofônico para cada quadro de linha de base.
25. Classificador de fonte de áudio, caracterizado pelo fato decompreender:- um montador de quadros para separar um sinal de áudiomonofônico compreendendo uma mixagem descendente de uma pluralidadede fontes de áudio desconhecidas em uma seqüência de quadros de linha debase separados por janela;- um extrator de característica para extrair uma pluralidade decaracterísticas de áudio de cada quadro de linha de base que tendem adistinguir as fontes de áudio; e- um classificador de rede neural (NN) treinado em umconjunto representativo de fontes de áudio com as características de áudio, oclassificador de rede neural recebendo as características de áudio extraídas decada quadro de linha de base e emitindo pelo menos uma medida de umafonte de áudio incluída em cada quadro de linha de base do sinal de áudiomonofônico.
26. Classificador de fonte de áudio, de acordo com areivindicação 25, caracterizado pelo fato de que o extrator de característicaextrai uma ou mais das características de áudio em resoluções de tempo efreqüência múltiplas e escalona as características de áudio extraídas nasdiferentes resoluções ao quadro de linha de base.
27. Classificador de fonte de áudio, de acordo com areivindicação 25, caracterizado pelo fato de que classificador da NN tem umapluralidade de neurônios de saída em que cada um sinaliza a presença de umacerta fonte de áudio no sinal de áudio monofônico para cada quadro de linhade base.
28. Classificador de fonte de áudio, de acordo com areivindicação 27, caracterizado pelo fato de que compreender ainda ummisturador que usa os valores dos neurônios de saída para fazer uma re-mixagem do sinal de áudio monofônico em uma pluralidade de canais deáudio para as fontes de áudio respectivas no conjunto representativo para cada quadro de linha de base.
BRPI0616903-1A 2005-10-06 2006-10-03 método para separar fontes de áudio de um sinal de áudio monofÈnico, e, classificador de fonte de áudio BRPI0616903A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/244554 2005-10-06
US11/244,554 US20070083365A1 (en) 2005-10-06 2005-10-06 Neural network classifier for separating audio sources from a monophonic audio signal
PCT/US2006/038742 WO2007044377A2 (en) 2005-10-06 2006-10-03 Neural network classifier for seperating audio sources from a monophonic audio signal

Publications (1)

Publication Number Publication Date
BRPI0616903A2 true BRPI0616903A2 (pt) 2011-07-05

Family

ID=37911912

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0616903-1A BRPI0616903A2 (pt) 2005-10-06 2006-10-03 método para separar fontes de áudio de um sinal de áudio monofÈnico, e, classificador de fonte de áudio

Country Status (13)

Country Link
US (1) US20070083365A1 (pt)
EP (1) EP1941494A4 (pt)
JP (1) JP2009511954A (pt)
KR (1) KR101269296B1 (pt)
CN (1) CN101366078A (pt)
AU (1) AU2006302549A1 (pt)
BR (1) BRPI0616903A2 (pt)
CA (1) CA2625378A1 (pt)
IL (1) IL190445A0 (pt)
NZ (1) NZ566782A (pt)
RU (1) RU2418321C2 (pt)
TW (1) TWI317932B (pt)
WO (1) WO2007044377A2 (pt)

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1605437B1 (en) * 2004-06-04 2007-08-29 Honda Research Institute Europe GmbH Determination of the common origin of two harmonic components
EP1605439B1 (en) * 2004-06-04 2007-06-27 Honda Research Institute Europe GmbH Unified treatment of resolved and unresolved harmonics
EP1686561B1 (en) 2005-01-28 2012-01-04 Honda Research Institute Europe GmbH Determination of a common fundamental frequency of harmonic signals
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
JP5174027B2 (ja) * 2006-09-29 2013-04-03 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びミックス信号処理方法
US9418667B2 (en) 2006-10-12 2016-08-16 Lg Electronics Inc. Apparatus for processing a mix signal and method thereof
KR100891665B1 (ko) 2006-10-13 2009-04-02 엘지전자 주식회사 믹스 신호의 처리 방법 및 장치
JP4838361B2 (ja) * 2006-11-15 2011-12-14 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及びその装置
WO2008069584A2 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
KR101111520B1 (ko) * 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
EP2118886A4 (en) * 2007-02-13 2010-04-21 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
US20100121470A1 (en) * 2007-02-13 2010-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
TWI356399B (en) * 2007-12-14 2012-01-11 Ind Tech Res Inst Speech recognition system and method with cepstral
JP5277887B2 (ja) * 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
US8200489B1 (en) * 2009-01-29 2012-06-12 The United States Of America As Represented By The Secretary Of The Navy Multi-resolution hidden markov model using class specific features
WO2010098130A1 (ja) * 2009-02-27 2010-09-02 パナソニック株式会社 トーン判定装置およびトーン判定方法
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US8682669B2 (en) * 2009-08-21 2014-03-25 Synchronoss Technologies, Inc. System and method for building optimal state-dependent statistical utterance classifiers in spoken dialog systems
EP4120263B1 (en) 2010-01-19 2023-08-09 Dolby International AB Improved subband block based harmonic transposition
US20110191102A1 (en) * 2010-01-29 2011-08-04 University Of Maryland, College Park Systems and methods for speech extraction
CN102446504B (zh) * 2010-10-08 2013-10-09 华为技术有限公司 语音/音乐识别方法及装置
US8762154B1 (en) * 2011-08-15 2014-06-24 West Corporation Method and apparatus of estimating optimum dialog state timeout settings in a spoken dialog system
US9210506B1 (en) * 2011-09-12 2015-12-08 Audyssey Laboratories, Inc. FFT bin based signal limiting
KR20130133541A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 오디오 신호 처리 방법 및 장치
EP2860729A4 (en) * 2012-06-04 2016-03-02 Samsung Electronics Co Ltd METHOD AND DEVICE FOR AUDIO CODING, METHOD AND DEVICE FOR AUDIO DECODING, AND MULTIMEDIA DEVICE EMPLOYING THEM
US9147157B2 (en) 2012-11-06 2015-09-29 Qualcomm Incorporated Methods and apparatus for identifying spectral peaks in neuronal spiking representation of a signal
CN103839551A (zh) * 2012-11-22 2014-06-04 鸿富锦精密工业(深圳)有限公司 音频处理系统与音频处理方法
CN103854644B (zh) * 2012-12-05 2016-09-28 中国传媒大学 单声道多音音乐信号的自动转录方法及装置
US10203839B2 (en) 2012-12-27 2019-02-12 Avaya Inc. Three-dimensional generalized space
US9892743B2 (en) * 2012-12-27 2018-02-13 Avaya Inc. Security surveillance via three-dimensional audio space presentation
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
CN104575507B (zh) * 2013-10-23 2018-06-01 中国移动通信集团公司 语音通信方法及装置
US10564923B2 (en) * 2014-03-31 2020-02-18 Sony Corporation Method, system and artificial neural network
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
WO2016014476A1 (en) 2014-07-23 2016-01-28 Schlumberger Canada Limited Cepstrum analysis of oilfield pumping equipment health
EP3192012A4 (en) * 2014-09-12 2018-01-17 Microsoft Technology Licensing, LLC Learning student dnn via output distribution
US20160162473A1 (en) * 2014-12-08 2016-06-09 Microsoft Technology Licensing, Llc Localization complexity of arbitrary language assets and resources
CN104464727B (zh) * 2014-12-11 2018-02-09 福州大学 一种基于深度信念网络的单通道音乐的歌声分离方法
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
CN105070301B (zh) * 2015-07-14 2018-11-27 福州大学 单通道音乐人声分离中的多种特定乐器强化分离方法
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
RU2698153C1 (ru) 2016-03-23 2019-08-22 ГУГЛ ЭлЭлСи Адаптивное улучшение аудио для распознавания многоканальной речи
US10249305B2 (en) 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
EP3469584B1 (en) * 2016-06-14 2023-04-19 The Trustees of Columbia University in the City of New York Neural decoding of attentional selection in multi-speaker environments
CN106847302B (zh) * 2017-02-17 2020-04-14 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法
US10614827B1 (en) * 2017-02-21 2020-04-07 Oben, Inc. System and method for speech enhancement using dynamic noise profile estimation
US10825445B2 (en) 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
KR20180111271A (ko) * 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
KR102395472B1 (ko) * 2017-06-08 2022-05-10 한국전자통신연구원 가변 윈도우 사이즈 기반의 음원 분리 방법 및 장치
CN107507621B (zh) * 2017-07-28 2021-06-22 维沃移动通信有限公司 一种噪声抑制方法及移动终端
US10878144B2 (en) 2017-08-10 2020-12-29 Allstate Insurance Company Multi-platform model processing and execution management engine
US11755949B2 (en) 2017-08-10 2023-09-12 Allstate Insurance Company Multi-platform machine learning systems
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN107749299B (zh) * 2017-09-28 2021-07-09 瑞芯微电子股份有限公司 一种多音频输出方法和装置
US10455325B2 (en) 2017-12-28 2019-10-22 Knowles Electronics, Llc Direction of arrival estimation for multiple audio content streams
WO2019133732A1 (en) * 2017-12-28 2019-07-04 Knowles Electronics, Llc Content-based audio stream separation
KR102128153B1 (ko) * 2017-12-28 2020-06-29 한양대학교 산학협력단 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법
CN108229659A (zh) * 2017-12-29 2018-06-29 陕西科技大学 基于深度学习的钢琴单键音识别方法
US10283140B1 (en) 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
JP6725185B2 (ja) * 2018-01-15 2020-07-15 三菱電機株式会社 音響信号分離装置および音響信号分離方法
FR3079706B1 (fr) * 2018-03-29 2021-06-04 Inst Mines Telecom Procede et systeme de diffusion d'un flux audio multicanal a des terminaux de spectateurs assistant a un evenement sportif
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US11756564B2 (en) 2018-06-14 2023-09-12 Pindrop Security, Inc. Deep neural network based speech enhancement
CN108922517A (zh) * 2018-07-03 2018-11-30 百度在线网络技术(北京)有限公司 训练盲源分离模型的方法、装置及存储介质
CN108922556B (zh) * 2018-07-16 2019-08-27 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN109166593B (zh) * 2018-08-17 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN109272987A (zh) * 2018-09-25 2019-01-25 河南理工大学 一种分选煤和矸石的声音识别方法
KR20200063290A (ko) 2018-11-16 2020-06-05 삼성전자주식회사 오디오 장면을 인식하는 전자 장치 및 그 방법
DE102019200956A1 (de) * 2019-01-25 2020-07-30 Sonova Ag Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
DE102019200954A1 (de) 2019-01-25 2020-07-30 Sonova Ag Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
US11017774B2 (en) 2019-02-04 2021-05-25 International Business Machines Corporation Cognitive audio classifier
RU2720359C1 (ru) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Способ и оборудование распознавания эмоций в речи
US11315585B2 (en) 2019-05-22 2022-04-26 Spotify Ab Determining musical style using a variational autoencoder
US11355137B2 (en) 2019-10-08 2022-06-07 Spotify Ab Systems and methods for jointly estimating sound sources and frequencies from audio
CN110782915A (zh) * 2019-10-31 2020-02-11 广州艾颂智能科技有限公司 一种基于深度学习的波形音乐成分分离方法
US11366851B2 (en) 2019-12-18 2022-06-21 Spotify Ab Karaoke query processing system
CN111370023A (zh) * 2020-02-17 2020-07-03 厦门快商通科技股份有限公司 一种基于gru的乐器识别方法及系统
CN111370019B (zh) * 2020-03-02 2023-08-29 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
US11558699B2 (en) 2020-03-11 2023-01-17 Sonova Ag Hearing device component, hearing device, computer-readable medium and method for processing an audio-signal for a hearing device
CN112115821B (zh) * 2020-09-04 2022-03-11 西北工业大学 一种基于小波近似系数熵的多信号智能调制模式识别方法
CN111787462B (zh) * 2020-09-04 2021-01-26 蘑菇车联信息科技有限公司 音频流处理方法及系统、设备、介质
US11839815B2 (en) 2020-12-23 2023-12-12 Advanced Micro Devices, Inc. Adaptive audio mixing
CN112488092B (zh) * 2021-02-05 2021-08-24 中国人民解放军国防科技大学 基于深度神经网络的导航频段信号类型识别方法及系统
CN113674756B (zh) * 2021-10-22 2022-01-25 青岛科技大学 基于短时傅里叶变换和bp神经网络的频域盲源分离方法
CN116828385A (zh) * 2023-08-31 2023-09-29 深圳市广和通无线通信软件有限公司 一种基于人工智能分析的音频数据处理方法及相关装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2807457B2 (ja) * 1987-07-17 1998-10-08 株式会社リコー 音声区間検出方式
JP3521844B2 (ja) 1992-03-30 2004-04-26 セイコーエプソン株式会社 ニューラルネットワークを用いた認識装置
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
US7295977B2 (en) * 2001-08-27 2007-11-13 Nec Laboratories America, Inc. Extracting classifying data in music from an audio bitstream
US7243060B2 (en) * 2002-04-02 2007-07-10 University Of Washington Single channel sound separation
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
JP4104626B2 (ja) * 2003-02-07 2008-06-18 日本電信電話株式会社 収音方法及び収音装置
US7091409B2 (en) * 2003-02-14 2006-08-15 University Of Rochester Music feature extraction using wavelet coefficient histograms
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
KR100486736B1 (ko) * 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
US7232948B2 (en) * 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
US7340398B2 (en) * 2003-08-21 2008-03-04 Hewlett-Packard Development Company, L.P. Selective sampling for sound signal classification
DE602004027774D1 (de) * 2003-09-02 2010-07-29 Nippon Telegraph & Telephone Signaltrennverfahren, Signaltrenneinrichtung,und Signaltrennprogramm
US7295607B2 (en) * 2004-05-07 2007-11-13 Broadcom Corporation Method and system for receiving pulse width keyed signals

Also Published As

Publication number Publication date
RU2418321C2 (ru) 2011-05-10
TW200739517A (en) 2007-10-16
NZ566782A (en) 2010-07-30
CN101366078A (zh) 2009-02-11
US20070083365A1 (en) 2007-04-12
WO2007044377B1 (en) 2008-11-27
JP2009511954A (ja) 2009-03-19
EP1941494A2 (en) 2008-07-09
EP1941494A4 (en) 2011-08-10
WO2007044377A3 (en) 2008-10-02
CA2625378A1 (en) 2007-04-19
KR101269296B1 (ko) 2013-05-29
IL190445A0 (en) 2008-11-03
AU2006302549A1 (en) 2007-04-19
WO2007044377A2 (en) 2007-04-19
KR20080059246A (ko) 2008-06-26
TWI317932B (en) 2009-12-01
RU2008118004A (ru) 2009-11-20

Similar Documents

Publication Publication Date Title
BRPI0616903A2 (pt) método para separar fontes de áudio de um sinal de áudio monofÈnico, e, classificador de fonte de áudio
Hu et al. Pitch‐based gender identification with two‐stage classification
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
US9892758B2 (en) Audio information processing
JP2009008836A (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
Elowsson et al. Predicting the perception of performed dynamics in music audio with ensemble learning
Azarloo et al. Automatic musical instrument recognition using K-NN and MLP neural networks
Kostyuchenko et al. Correlation normalization of syllables and comparative evaluation of pronunciation quality in speech rehabilitation
Valero et al. Narrow-band autocorrelation function features for the automatic recognition of acoustic environments
Hu et al. Singer identification based on computational auditory scene analysis and missing feature methods
Zwan et al. System for automatic singing voice recognition
Jokinen et al. Estimating the spectral tilt of the glottal source from telephone speech using a deep neural network
Bhatia et al. Analysis of audio features for music representation
Salhi et al. Robustness of auditory teager energy cepstrum coefficients for classification of pathological and normal voices in noisy environments
Sahoo et al. Analyzing the vocal tract characteristics for out-of-breath speech
Uzun et al. A preliminary examination technique for audio evidence to distinguish speech from non-speech using objective speech quality measures
Kalayar Khine et al. Exploring perceptual based timbre feature for singer identification
Sutton et al. Transcription of vocal melodies using voice characteristics and algorithm fusion
Joshi et al. Extraction of feature vectors for analysis of musical instruments
Chen AmbianceCount: an objective social ambiance measure from unconstrained day-long audio recordings
Bhalke et al. Fractional fourier transform based features for musical instrument recognition using machine learning techniques
Zhou et al. A Holistic Evaluation of Piano Sound Quality
Xu et al. An improved singer's formant extraction method based on LPC algorithm
Shelke et al. An Effective Feature Calculation For Analysis & Classification of Indian Musical Instruments Using Timbre Measurement
Maddage et al. Statistical analysis of musical instruments

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 19/00 , G10L 15/00 , G10L 21/00 , G10L 21/04

Ipc: G10L 21/0272 (2013.01), G10L 25/30 (2013.01)

B06T Formal requirements before examination [chapter 6.20 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B11E Dismissal acc. art. 34 of ipl - requirements for examination incomplete
B11T Dismissal of application maintained [chapter 11.20 patent gazette]