BR112016002409B1 - Método e dispositivo de classificação de sinal de áudio - Google Patents

Método e dispositivo de classificação de sinal de áudio Download PDF

Info

Publication number
BR112016002409B1
BR112016002409B1 BR112016002409-5A BR112016002409A BR112016002409B1 BR 112016002409 B1 BR112016002409 B1 BR 112016002409B1 BR 112016002409 A BR112016002409 A BR 112016002409A BR 112016002409 B1 BR112016002409 B1 BR 112016002409B1
Authority
BR
Brazil
Prior art keywords
frequency spectrum
frame
audio frame
current audio
stored
Prior art date
Application number
BR112016002409-5A
Other languages
English (en)
Other versions
BR112016002409A2 (pt
Inventor
Zhe Wang
Original Assignee
Huawei Technologies Co., Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co., Ltd filed Critical Huawei Technologies Co., Ltd
Publication of BR112016002409A2 publication Critical patent/BR112016002409A2/pt
Publication of BR112016002409B1 publication Critical patent/BR112016002409B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Television Receiver Circuits (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

método e aparelho de classificação de sinal de áudio. trata-se de um método de classificação de sinal de áudio. o método compreende: de acordo com a atividade de voz de um quadro de áudio atual, determinar a possibilidade de obter uma flutuação de espectro de frequência do quadro de áudio atual e armazenar a mesma em uma memória de flutuação de espectro de frequência (101); de acordo com a possibilidade de o quadro de áudio ser música percussiva ou a atividade de um quadro de áudio histórica, atualizar a flutuação de espectro de frequência armazenada na memória de flutuação de espectro de frequência (102); e de acordo com as estatísticas de alguns ou todos os dados válidos das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência, classificar o quadro de áudio atual como um quadro de voz ou um quadro de música(103). um aparelho de classificação de sinal de áudio é ainda fornecido.

Description

[0001] Este pedido reivindica a prioridade do pedido de patente n° CH 201310339218.5, depositado junto à Repartição de Patentes Chinesa em 6 de agosto de 2013 e intitulado "AUDIO SIGNAL CLASSIFICATION METHOD AND APPARATUS", o qual é incorporado em sua totalidade ao presente documento a título de referência.
CAMPO DA TÉCNICA
[0002] A presente invenção refere-se ao campo de tecnologias de processamento de sinal digital e, em particular, a um método e aparelho de classificação de sinal de áudio.
ANTECEDENTES DA INVENÇÃO
[0003] Para reduzir os recursos ocupados por um sinal de vídeo durante o armazenamento ou a transmissão, um sinal de áudio é comprimido em uma extremidade de transmissão e então transmitido para uma extremidade de recepção, e a extremidade de recepção restaura o sinal de áudio por meio de descompressão.
[0004] Em um aplicativo de processamento de áudio, a classificação de sinal de áudio é uma tecnologia importante que é aplicada amplamente. Por exemplo, em um aplicativo de codificação/decodificação de áudio, um codec relativamente popular é um tipo de híbrido de codificação e decodificação atualmente. Esse codec, em geral, inclui um codificador (tal como CELP) baseado em um modelo de geração de voz e um codificador baseado em conversão (tal como um codificador baseado em MDCT). Em uma taxa de bits intermediária ou baixa, o codificador baseado em um modelo de geração de voz pode obter qualidade de codificação de voz relativamente boa, mas tem qualidade de codificação de música relativamente ruim, enquanto que o codificador baseado em conversão pode obter qualidade de codificação de música relativamente boa, mas tem qualidade de codificação de voz relativamente ruim. Portanto, o codec híbrido codifica um sinal de voz com o uso do codificador baseado em um modelo de geração de voz, e codifica um sinal de música com o uso do codificador baseado em conversão para, desse modo, obter um efeito de codificação ótimo no todo. No presente documento, uma tecnologia básica é a classificação de sinal de áudio, ou seleção de modo de codificação até onde é especificamente de interesse desse aplicativo.
[0005] O codec híbrido precisa obter informações de tipo de sinal precisas antes de o codec híbrido poder obter a seleção de modo de codificação ótimo. Um classificador de sinal de áudio no presente documento também pode ser considerado aproximadamente como um classificador de voz/música. Uma taxa de reconhecimento de voz e uma taxa de reconhecimento de música são indicadores importantes para medir o desempenho do classificador de voz/música. Particularmente para um sinal de música, devido à diversidade/complexidade de suas características de sinal, o reconhecimento do sinal de música é, em geral, mais difícil do que de um sinal de voz. Além disso, um atraso de reconhecimento também é um dos indicadores muito importantes. Devido à imprecisão de características de voz/música em um curto prazo, em geral, é necessário um tempo relativamente longo antes de a voz/música poder ser reconhecida de forma relativamente precisa. Geralmente, em uma seção intermediária de um mesmo tipo de sinal, um atraso de reconhecimento mais longo indica reconhecimento mais preciso. Contudo, em uma seção de transição de dois tipos de sinal, um atraso de reconhecimento mais longo indica precisão de reconhecimento mais baixa, o que é especialmente grave em uma situação na qual um sinal híbrido (tal como uma voz com música ao fundo) é inserido. Portanto, ter tanto uma taxa de reconhecimento alta como um atraso de reconhecimento baixo é um atributo necessário de um reco- nhecedor de voz/música de alto desempenho. Além disso, a estabili- dade de classificação também é um atributo importante que afeta a qualidade da codificação de um codificador híbrido. Geralmente, quando o codificador híbrido comuta entre tipos de codificadores diferentes pode ocorrer deterioração de qualidade. Se ocorrer comutação de tipo frequente em um classificador em um mesmo tipo de sinal, a qualidade da codificação é muito afetada relativamente; portanto, é exigido que um resultado de classificação de saída do classificador seja preciso e regular. Adicionalmente, em alguns aplicativos, tal como um algoritmo de classificação em um sistema de comunicações, também é exigido que complexidade de cálculo e sobrecargas de armazenamento do algoritmo de classificação sejam tão baixas quanto possível, para satisfazer exigências comerciais.
[0006] O padrão G.720.1 do ITU-T inclui um classificador de voz/música. Esse classificador usa um parâmetro principal: uma variação de flutuação de espectro de frequência var_flux como uma base principal para classificação de sinal, e usa dois parâmetros de curtose de espectro de frequência diferentes p1 e p2 como uma base auxiliar. A classificação de um sinal de entrada de acordo com var_flux é completada em uma memória temporária var_flux FIFO de acordo com as estatísticas locais de var_flux. Um processo específico é resumido como segue: Primeiramente, um fluxo de flutuação de espectro de frequência é extraído a partir de cada quadro de áudio de entrada e ar-mazenado em memória temporária em uma primeira memória temporária, e o fluxo no presente documento é calculado nos quatro últimos quadros que compreendem um quadro de entrada atual, ou pode ser calculado com o uso de outro método. Então, uma variação de fluxo dos N últimos quadros que compreendem o quadro de entrada atual é calculada, para obter a var_flux do quadro de entrada atual, e a var_flux é armazenada em memória temporária em uma segunda memória temporária. Então, uma quantidade K de quadros cuja var_flux é maior do que um primeiro limiar entre os M últimos quadros que compreendem o quadro de entrada atual na segunda memória temporária é contada. Se uma razão de K para M for maior do que um segundo limiar, é determinado que o quadro de entrada atual é um quadro de voz; caso contrário o quadro de entrada atual é um quadro de música. Os parâmetros auxiliares p1 e p2 são usados principalmente para modificar a classificação, e também são calculados para cada quadro de áudio de entrada. Quando p1 e/ou p2 forem maiores do que um terceiro limiar e/ou do que um quarto limiar, é determinado diretamente que o quadro de áudio de entrada atual é um quadro de música.
[0007] As desvantagens desse classificador de voz/música são as seguintes: por um lado, uma taxa de reconhecimento absoluto para música ainda precisa para ser aprimorada, e por outro lado, devido aos aplicativos alvo do classificador não serem específicos para um cenário de aplicativo de um sinal híbrido, também ainda há espaço para aprimoramento no desempenho de reconhecimento para um sinal híbrido.
[0008] Muitos classificadores de voz/música existentes são projetados com base em um modo de princípio de reconhecimento. Esse tipo de classificadores geralmente extrai múltiplos (de uma dúzia a diversas dúzias) parâmetros de característica a partir de um quadro de áudio de entrada, e alimenta esses parâmetros em um classificador baseado em um modelo Gaussiano híbrido, ou uma rede neural, ou outro método de classificação clássico para realizar classificação.
[0009] Esse tipo de classificadores tem uma base teórica relativamente sólida, mas, em geral, tem complexidade de cálculo ou armazenamento relativamente alta, e, portanto, os custos de implantação são relativamente altos.
SUMÁRIO
[0010] Um objetivo das modalidades da presente invenção é for- necer um método e aparelho de classificação de sinal de áudio, para reduzir a complexidade de classificação de sinal ao mesmo tempo em que garantem uma taxa de reconhecimento de classificação de um sinal híbrido de áudio.
[0011] De acordo com um primeiro aspecto, um método de classificação de sinal de áudio é fornecido, em que o método inclui: determinar, de acordo com a atividade de voz de um quadro de áudio atual, a possibilidade de obter uma flutuação de espectro de frequência do quadro de áudio atual e de armazenar a flutuação de espectro de frequência em uma memória de flutuação de espectro de frequência, em que a flutuação de espectro de frequência denota uma flutuação de energia de um espectro de frequência de um sinal de áudio; atualizar, de acordo com o quadro de áudio é música per- cussiva ou atividade de um quadro de áudio histórico, as flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência; e classificar o quadro de áudio atual como um quadro de voz ou um quadro de música de acordo com as estatísticas de uma parte ou todos os dados eficazes das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência.
[0012] Em uma primeira forma de implantação possível, a deter-minação, de acordo com a atividade de voz de um quadro de áudio atual, a possibilidade de obter uma flutuação de espectro de frequência do quadro de áudio atual e armazenar a flutuação de espectro de frequência em uma memória de flutuação de espectro de frequência inclui: se o quadro de áudio atual for um quadro ativo, armazenar a flutuação de espectro de frequência do quadro de áudio atual na memória de flutuação de espectro de frequência.
[0013] Em uma segunda forma de implantação possível, a deter-minação, de acordo com a atividade de voz de um quadro de áudio atual, da possibilidade de obter uma flutuação de espectro de frequência do quadro de áudio atual e armazenar a flutuação de espectro de frequência em uma memória de flutuação de espectro de frequência inclui: se o quadro de áudio atual for um quadro ativo, e o quadro de áudio atual não pertencer a um ataque de energia, armazenar a flutuação de espectro de frequência do quadro de áudio atual na memória de flutuação de espectro de frequência.
[0014] Em uma terceira forma de implantação possível, a determinação, de acordo com a atividade de voz de um quadro de áudio atual, da possibilidade de obter uma flutuação de espectro de frequência do quadro de áudio atual e armazenar a flutuação de espectro de frequência em uma memória de flutuação de espectro de frequência inclui: se o quadro de áudio atual for um quadro ativo, e nenhum dentre os múltiplos quadros consecutivos que compreendem o quadro de áudio atual e um quadro histórico do quadro de áudio atual pertencer a um ataque de energia, armazenar a flutuação de espectro de frequência do quadro de áudio na memória de flutuação de espectro de frequência.
[0015] Com referência ao primeiro aspecto ou à primeira forma de implantação possível do primeiro aspecto ou à segunda forma de implantação possível do primeiro aspecto ou à terceira forma de implantação possível do primeiro aspecto, em uma quarta forma de implantação possível, a atualização, de acordo com a possibilidade de o quadro de áudio atual ser música percussiva, das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência inclui: se o quadro de áudio atual pertencer à música percussiva, modificar os valores das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência.
[0016] Com referência ao primeiro aspecto ou à primeira forma de implantação possível do primeiro aspecto ou à segunda forma de implantação possível do primeiro aspecto ou à terceira forma de implantação possível do primeiro aspecto, em uma quinta forma de implantação possível, a atualização, de acordo com a atividade de um quadro de áudio histórico, de flutuações de espectro de frequência armazenados na memória de flutuação de espectro de frequência inclui: se for determinado que a flutuação de espectro de frequência do quadro de áudio atual é armazenada na memória de flutuação de espectro de frequência, e um quadro de áudio anterior for um quadro inativo, modificar dados de outras flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência exceto a flutuação de espectro de frequência do quadro de áudio atual em dados ineficazes; ou se for determinado que a flutuação de espectro de frequência do quadro de áudio atual é armazenada na memória de flutuação de espectro de frequência, e três quadros históricos consecutivos antes do quadro de áudio atual não forem todos quadros ativos, modificar a flutuação de espectro de frequência do quadro de áudio atual em um primeiro valor; ou se for determinado que a flutuação de espectro de frequência do quadro de áudio atual é armazenada na memória de flutuação de espectro de frequência, e um resultado de classificação histórico for um sinal de música e a flutuação de espectro de frequência do quadro de áudio atual for maior do que um segundo valor, modificar a flutuação de espectro de frequência do quadro de áudio atual no segundo valor, sendo que o segundo valor é maior do que o primeiro valor.
[0017] Com referência ao primeiro aspecto ou à primeira forma de implantação possível do primeiro aspecto ou à segunda forma de implantação possível do primeiro aspecto ou à terceira forma de implantação possível do primeiro aspecto ou à quarta forma de implantação possível do primeiro aspecto ou à quinta forma de implantação possível do primeiro aspecto, em uma sexta forma de implantação possível, a classificação do quadro de áudio atual como um quadro de voz ou um quadro de música de acordo com as estatísticas de uma parte ou todos os dados eficazes das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência inclui: obter um valor médio de uma parte ou todos os dados eficazes das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência; e quando o valor médio obtido dos dados eficazes das flutuações de espectro de frequência satisfizer uma condição de classificação de música, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz.
[0018] Com referência ao primeiro aspecto ou à primeira forma de implantação possível do primeiro aspecto ou à segunda forma de implantação possível do primeiro aspecto ou à terceira forma de implantação possível do primeiro aspecto ou à quarta forma de implantação possível do primeiro aspecto ou à quinta forma de implantação possível do primeiro aspecto, em uma sétima forma de implantação possível, o método de classificação de sinal de áudio inclui adicionalmente: obter uma curtose de banda de alta frequência de espectro de frequência, um grau de correlação de espectro de frequência, e uma inclinação de energia residual de predição linear do quadro de áudio atual, em que a curtose de banda de alta frequência de espectro de frequência denota uma curtose ou uma acutância de energia, em uma banda de alta frequência, de um espectro de frequência do quadro de áudio atual; o grau de correlação de espectro de frequência denota estabilidade, entre quadros adjacentes, de uma estrutura harmônica de sinal do quadro de áudio atual; e a inclinação de energia residual de predição linear denota uma medida em que energia residual de predição linear do sinal de áudio muda conforme uma ordem de predição linear aumenta; e determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear nas memórias, em que a classificação do quadro de áudio de acordo com as estatísticas de uma parte ou de todos os dados das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência inclui: obter um valor médio dos dados eficazes das flutuações de espectro de frequência armazenadas, um valor médio de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, um valor médio de dados eficazes de graus de correlação de espectro de frequência armazenados, e uma variação de dados eficazes de inclinações de energia residual de predição linear armazenadas separadamente; e quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[0019] De acordo com um segundo aspecto, um aparelho de classificação de sinal de áudio é fornecido, em que o aparelho é configurado para classificar um sinal de áudio de entrada, e inclui: uma unidade de determinação de armazenamento, configurada para determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de obter e armazenar uma flutuação de espectro de frequência do quadro de áudio atual, em que a flutuação de espectro de frequência denota uma flutuação de energia de um espectro de frequência de um sinal de áudio; uma memória, configurada para armazenar a flutuação de espectro de frequência quando a unidade de determinação de armazenamento emite um resultado de que a flutuação de espectro de frequência precisa ser armazenada; uma unidade de atualização, configurada para atualizar, de acordo com a possibilidade de um quadro de voz ser música percussi- va ou atividade de um quadro de áudio histórico, flutuações de espectro de frequência armazenadas na memória; e uma unidade de classificação, configurada para classificar o quadro de áudio atual como um quadro de voz ou um quadro de música de acordo com as estatísticas de uma parte ou de todos os dados eficazes das flutuações de espectro de frequência armazenadas na memória.
[0020] Em uma primeira forma de implantação possível, a unidade de determinação de armazenamento é configurada especificamente para: quando for determinado que o quadro de áudio atual é um quadro ativo, emitir um resultado de que a flutuação de espectro de frequência do quadro de áudio atual precisa ser armazenada.
[0021] Em uma segunda forma de implantação possível, a unidade de determinação de armazenamento é configurada especificamente para: quando for determinado que o quadro de áudio atual é um quadro ativo, e o quadro de áudio atual não pertencer a um ataque de energia, emitir um resultado de que a flutuação de espectro de frequência do quadro de áudio atual precisa ser armazenada.
[0022] Em uma terceira forma de implantação possível, a unidade de determinação de armazenamento é configurada especificamente para: quando for determinado que o quadro de áudio atual é um quadro ativo, e nenhum dentre múltiplos quadros consecutivos que compreendem o quadro de áudio atual e um quadro histórico do quadro de áudio atual pertencer a um ataque de energia, emitir um resultado de que a flutuação de espectro de frequência do quadro de áudio atual precisa ser armazenada.
[0023] Com referência ao segundo aspecto ou à primeira forma de implantação possível do segundo aspecto ou à segunda forma de implantação possível do segundo aspecto ou à terceira forma de implantação possível do segundo aspecto, em uma quarta forma de implantação possível, a unidade de atualização é configurada especificamente para: se o quadro de áudio atual pertencer à música percussiva, modificar valores das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência.
[0024] Com referência ao segundo aspecto ou à primeira forma de implantação possível do segundo aspecto ou à segunda forma de implantação possível do segundo aspecto ou à terceira forma de implantação possível do segundo aspecto, em uma quinta forma de implantação possível, a unidade de atualização é configurada especificamente para: se o quadro de áudio atual for um quadro ativo, e um quadro de áudio anterior for um quadro inativo, modificar dados de outras flutuações de espectro de frequência armazenados na memória exceto a flutuação de espectro de frequência do quadro de áudio atual, para dados ineficazes; ou se o quadro de áudio atual for um quadro ativo, e três quadros consecutivos antes do quadro de áudio atual não forem todos quadros ativos, modificar a flutuação de espectro de frequência do quadro de áudio atual para um primeiro valor; ou se o quadro de áudio atual for um quadro ativo, e um resultado de classificação histórico for um sinal de música e a flutuação de espectro de frequência do quadro de áudio atual for maior do que um segundo valor, modificar a flutuação de espectro de frequência do quadro de áudio atual para o segundo valor, sendo que o segundo valor é maior do que o primeiro valor.
[0025] Com referência ao segundo aspecto ou à primeira forma de implantação possível do segundo aspecto ou à segunda forma de implantação possível do segundo aspecto ou à terceira forma de implantação possível do segundo aspecto ou à quarta forma de implantação possível do segundo aspecto ou à quinta forma de implantação possível do segundo aspecto, em uma sexta forma de implantação possível, a unidade de classificação inclui: uma unidade de cálculo, configurada para obter um valor médio de uma parte ou todos os dados eficazes das flutuações de espectro de frequência armazenados na memória; e uma unidade de determinação, configurada para comparar o valor médio dos dados eficazes das flutuações de espectro de frequência a uma condição de classificação de música; e quando o valor médio dos dados eficazes das flutuações de espectro de frequência satisfizer a condição de classificação de música, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz.
[0026] Com referência ao segundo aspecto ou à primeira forma de implantação possível do segundo aspecto ou à segunda forma de implantação possível do segundo aspecto ou à terceira forma de implantação possível do segundo aspecto ou à quarta forma de implantação possível do segundo aspecto ou à quinta forma de implantação possível do segundo aspecto, em uma sétima forma de implantação possível, o aparelho de classificação de sinal de áudio inclui adicionalmente: uma unidade de obtenção de parâmetro, configurada para obter uma curtose de banda de alta frequência de espectro de frequência, um grau de correlação de espectro de frequência, um parâmetro vocal, e uma inclinação de energia residual de predição linear do quadro de áudio atual, em que a curtose de banda de alta frequência de espectro de frequência denota uma curtose ou uma acutância de energia, em uma banda de alta frequência, de um espectro de frequência do quadro de áudio atual; o grau de correlação de espectro de frequência denota estabilidade, entre quadros adjacentes, de uma estrutura harmônica de sinal do quadro de áudio atual; o parâmetro vocal denota um grau de correlação de domínio de tempo entre o quadro de áudio atual e um sinal antes de um período de tom; e a inclinação de energia residual de predição linear denota uma medida em que a energia residual de predição linear do sinal de áudio muda conforme uma ordem de predição linear aumenta; sendo que a unidade de determinação de armazenamento é configurada adicionalmente para determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear nas memórias; a unidade de armazenamento é configurada adicionalmente para: quando a unidade de determinação de armazenamento emitir um resultado de que a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear precisam ser armazenados, armazenar a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear; e a unidade de classificação é configurada especificamente para obter estatísticas de dados eficazes das flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, estatísticas de dados eficazes de graus de correlação de espectro de frequência armazenados, e estatísticas de dados eficazes de inclinações de energia residual de predição linear armazenadas, e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes.
[0027] Com referência à sétima forma de implantação possível do segundo aspecto, em uma oitava forma de implantação possível, a unidade de classificação inclui: uma unidade de cálculo, configurada para obter um valor médio dos dados eficazes das flutuações de espectro de frequência armazenadas, um valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência armazenada, um valor médio dos dados eficazes dos graus de correlação de espectro de frequência armazenados, e uma variação dos dados eficazes das inclinações de energia residual de predição linear armazenadas separadamente; e uma unidade de determinação, configurada para: quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[0028] De acordo com um terceiro aspecto, um método de classificação de sinal de áudio é fornecido, em que o método inclui: realizar o processamento de divisão de quadro em um sinal de áudio de entrada; obter uma inclinação de energia residual de predição linear de um quadro de áudio atual, em que a inclinação de energia residual de predição linear denota uma medida em que a energia residual de predição linear do sinal de áudio muda conforme uma ordem de predição linear aumenta; armazenar a inclinação de energia residual de predição linear em uma memória; e classificar o quadro de áudio de acordo com as estatísticas de uma parte dos dados de inclinações de energia residual de predição na memória.
[0029] Em uma primeira forma de implantação possível, antes do armazenamento da inclinação de energia residual de predição linear em uma memória, o método inclui adicionalmente: determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a inclinação de energia residual de predição linear na memória; e armazenar a inclinação de energia residual de predição linear na memória quando for determinado que a inclinação de energia residual de predição linear precisa ser armazenada.
[0030] Com referência ao terceiro aspecto ou à primeira forma de implantação possível do terceiro aspecto, em uma segunda forma de implantação possível, as estatísticas da parte dos dados das inclinações de energia residual de predição são uma variação da parte dos dados das inclinações de energia residual de predição; e a classificação do quadro de áudio de acordo com as estatísticas de uma parte de dados de inclinações de energia residual de predição na memória inclui: comparar a variação da parte dos dados das inclinações de energia residual de predição com um limiar de classificação de música e, quando a variação da parte dos dados das inclinações de energia residual de predição for menor do que o limiar de classificação de música, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz.
[0031] Com referência ao terceiro aspecto ou à primeira forma de implantação possível do terceiro aspecto, em uma terceira forma de implantação possível, o método de classificação de sinal de áudio inclui adicionalmente: obter uma flutuação de espectro de frequência, uma curto- se de banda de alta frequência de espectro de frequência, e um grau de correlação de espectro de frequência do quadro de áudio atual, e armazenar a flutuação de espectro de frequência, a curtose de banda de alta frequência de espectro de frequência, e o grau de correlação de espectro de frequência em memórias correspondentes, em que a classificação do quadro de áudio de acordo com as estatísticas de uma parte de dados de inclinações de energia residual de predição na memória inclui: obter estatísticas de dados eficazes de flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência arma- zenada, estatísticas de dados eficazes de graus de correlação de espectro de frequência armazenados, e estatísticas de dados eficazes das inclinações de energia residual de predição linear armazenadas, e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes, em que as estatísticas dos dados eficazes se referem a um valor de dados obtido após uma operação de cálculo ser realizada nos dados eficazes armazenados nas memórias.
[0032] Com referência à terceira forma de implantação possível do terceiro aspecto, em uma quarta forma de implantação possível, a obtenção de estatísticas de dados eficazes de flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, estatísticas de dados eficazes de graus de correlação de espectro de frequência armazenados, e estatísticas de dados eficazes das inclinações de energia residual de predição linear armazenadas, e classificação do quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes inclui: obter um valor médio dos dados eficazes das flutuações de espectro de frequência armazenadas, um valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência armazenada, um valor médio dos dados eficazes dos graus de correlação de espectro de frequência armazenados, e uma variação dos dados eficazes das inclinações de energia residual de predição linear armazenadas separadamente; e quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[0033] Com referência ao terceiro aspecto ou à primeira forma de implantação possível do terceiro aspecto, em uma quinta forma de implantação possível, o método de classificação de sinal de áudio inclui adicionalmente: obter uma quantidade de som de espectro de frequência do quadro de áudio atual e uma razão da quantidade de som de espectro de frequência em uma banda de baixa frequência, e armazenar a quantidade de som de espectro de frequência e a razão da quantidade de som de espectro de frequência na banda de baixa frequência em memórias correspondentes, em que a classificação do quadro de áudio de acordo com as estatísticas de uma parte de dados de inclinações de energia residual de predição na memória inclui: obter estatísticas das inclinações de energia residual de predição linear armazenadas e estatísticas de quantidades de som de espectro de frequência armazenadas separadamente; e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas das inclinações de energia residual de predição linear, as estatísticas das quantidades de som do espectro de frequência, e a razão da quantidade de som de espectro de frequência na banda de baixa frequência, em que as estatísticas se referem a um valor de dados obtido após uma operação de cálculo ser realizada em dados armazenados nas memórias.
[0034] Com referência à quinta forma de implantação possível do terceiro aspecto, em uma sexta forma de implantação possível, a ob- tenção de estatísticas das inclinações de energia residual de predição linear armazenadas e estatísticas de quantidades de som de espectro de frequência armazenadas separadamente inclui: obter uma variação das inclinações de energia residual de predição linear armazenadas; e obter um valor médio das quantidades de som de espectro de frequência armazenadas; e a classificação do quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas das inclinações de energia residual de predição linear, as estatísticas das quantidades de som do espectro de frequência, e a razão da quantidade de som de espectro de frequência na banda de baixa frequência inclui: quando o quadro de áudio atual for um quadro ativo, e uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: a variação das inclinações de energia residual de predição linear é menor do que um quinto limiar; ou o valor médio das quantidades de som do espectro de frequência é maior do que um sexto limiar; ou a razão da quantidade de som de espectro de frequência na banda de baixa frequência é menor do que um sétimo limiar.
[0035] Com referência ao terceiro aspecto ou à primeira forma de implantação possível do terceiro aspecto ou à segunda forma de implantação possível do terceiro aspecto ou à terceira forma de implantação possível do terceiro aspecto ou à quarta forma de implantação possível do terceiro aspecto ou à quinta forma de implantação possível do terceiro aspecto ou à sexta forma de implantação possível do terceiro aspecto, em uma sétima forma de implantação possível, a obtenção de uma inclinação de energia residual de predição linear de um quadro de áudio atual inclui: obter a inclinação de energia residual de predição linear do quadro de áudio atual de acordo com a seguinte fórmula:
Figure img0001
[0036] em que epsP(i) denota a energia residual de predição de predição linear de iésima ordem do quadro de áudio atual; e n é um número inteiro positivo, denota uma ordem de predição linear e é menor do que ou igual a uma ordem máxima de predição linear.
[0037] Com referência à quinta forma de implantação possível do terceiro aspecto ou à sexta forma de implantação possível do terceiro aspecto, em uma oitava forma de implantação possível, a obtenção de uma quantidade de som de espectro de frequência do quadro de áudio atual e uma razão da quantidade de som de espectro de frequência em uma banda de baixa frequência inclui: contar uma quantidade de agrupamentos de frequência do quadro de áudio atual que estejam em uma banda de frequência de 0 a 8 kHz e tenham valores de pico de agrupamento de frequência maiores do que um valor predeterminado, para usar a quantidade como a quantidade de som de espectro de frequência; e calcular uma razão de uma quantidade de agrupamentos de frequência do quadro de áudio atual que estejam em uma banda de frequência de 0 a 4 kHz e tenham valores de pico de agrupamento de frequência maiores do que o valor predeterminado para a quantidade dos agrupamentos de frequência do quadro de áudio atual que estejam na banda de frequência de 0 a 8 kHz e tenham valores de pico de agrupamento de frequência maiores do que o valor predeterminado, para usar a razão como a razão da quantidade de som de espectro de frequência na banda de baixa frequência.
[0038] De acordo com um quarto aspecto, um aparelho de classificação de sinal é fornecido, em que o aparelho é configurado para classificar um sinal de áudio de entrada, e inclui: uma unidade divisora de quadro, configurada para realizar o processamento de divisão de quadro em um sinal de áudio de entrada; uma unidade de obtenção de parâmetro, configurada para obter uma inclinação de energia residual de predição linear de um quadro de áudio atual, em que a inclinação de energia residual de predição linear denota uma medida em que a energia residual de predição linear do sinal de áudio muda conforme uma ordem de predição linear aumenta; uma unidade de armazenamento, configurada para armazenar a inclinação de energia residual de predição linear; e uma unidade de classificação, configurada para classificar o quadro de áudio de acordo com as estatísticas de uma parte de dados de inclinações de energia residual de predição em uma memória.
[0039] Em uma primeira forma de implantação possível, o apare-lho de classificação de sinal inclui adicionalmente: uma unidade de determinação de armazenamento, configurada para determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a inclinação de energia residual de predição linear na memória, em que a unidade de armazenamento é configurada especificamente para: quando a unidade de determinação de armazenamento determinar que a inclinação de energia residual de predição linear precisa ser armazenada, armazenar a inclinação de energia residual de predição linear na memória.
[0040] Com referência ao quarto aspecto ou à primeira forma de implantação possível do quarto aspecto, em uma segunda forma de implantação possível, as estatísticas da parte dos dados das inclinações de energia residual de predição é uma variação da parte dos dados das inclinações de energia residual de predição; e a unidade de classificação é configurada especificamente para comparar a variação da parte dos dados das inclinações de energia residual de predição a um limiar de classificação de música, e quando a variação da parte dos dados das inclinações de energia residual de predição for menor do que o limiar de classificação de música, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz.
[0041] Com referência ao quarto aspecto ou à primeira forma de implantação possível do quarto aspecto, em uma terceira forma de implantação possível, a unidade de obtenção de parâmetro é configurada adicionalmente para: obter uma flutuação de espectro de frequência, uma curtose de banda de alta frequência de espectro de frequência, e um grau de correlação de espectro de frequência do quadro de áudio atual, e armazenar a flutuação de espectro de frequência, a curtose de banda de alta frequência de espectro de frequência, e o grau de correlação de espectro de frequência em memórias correspondentes; e a unidade de classificação é configurada especificamente para obter estatísticas de dados eficazes de flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, estatísticas de dados eficazes de graus de correlação de espectro de frequência armazenados, e estatísticas de dados eficazes das inclinações de energia residual de predição linear armazenadas, e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes, em que as estatísticas dos dados eficazes se referem a um valor de dados obtido após uma operação de cálculo ser realizada nos dados eficazes armazenados nas memórias.
[0042] Com referência à terceira forma de implantação possível do quarto aspecto, em uma quarta forma de implantação possível, a unidade de classificação inclui: uma unidade de cálculo, configurada para obter um valor médio dos dados eficazes das flutuações de espectro de frequência armazenadas, um valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência armazenada, um valor médio dos dados eficazes dos graus de correlação de espectro de frequência armazenados, e uma variação dos dados eficazes das inclinações de energia residual de predição linear armazenadas separadamente; e uma unidade de determinação, configurada para: quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[0043] Com referência ao quarto aspecto ou à primeira forma de implantação possível do quarto aspecto, em uma quinta forma de implantação possível, a unidade de obtenção de parâmetro é configurada adicionalmente para obter uma quantidade de som de espectro de frequência do quadro de áudio atual e uma razão da quantidade de som de espectro de frequência em uma banda de baixa frequência, e ar- mazenar a quantidade de som de espectro de frequência e a razão da quantidade de som de espectro de frequência na banda de baixa frequência nas memórias; e a unidade de classificação é configurada especificamente para obter estatísticas das inclinações de energia residual de predição linear armazenadas e estatísticas de quantidades de som de espectro de frequência armazenadas separadamente; e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas das inclinações de energia residual de predição linear, as estatísticas das quantidades de som do espectro de frequência, e a razão da quantidade de som de espectro de frequência na banda de baixa frequência, em que as estatísticas dos dados eficazes se referem a um valor de dados obtido após uma operação de cálculo ser realizada em dados armazenados nas memórias.
[0044] Com referência à quinta forma de implantação possível do quarto aspecto, em uma sexta forma de implantação possível, a unidade de classificação inclui: uma unidade de cálculo, configurado para obter uma variação de dados eficazes das inclinações de energia residual de predição linear armazenadas e um valor médio das quantidades de som de espectro de frequência armazenadas; e uma unidade de determinação, configurada para: quando o quadro de áudio atual for um quadro ativo, e uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: a variação das inclinações de energia residual de predição linear é menor do que um quinto limiar; ou o valor médio das quantidades de som do espectro de frequência é maior do que um sexto limiar; ou a razão da quantidade de som de espectro de frequência na banda de baixa frequência é menor do que um sétimo limiar.
[0045] Com referência ao quarto aspecto ou à primeira forma de implantação possível do quarto aspecto ou à segunda forma de implantação possível do quarto aspecto ou à terceira forma de implantação possível do quarto aspecto ou à quarta forma de implantação possível do quarto aspecto ou à quinta forma de implantação possível do quarto aspecto ou à sexta forma de implantação possível do quarto aspecto, em uma sétima forma de implantação possível, a unidade de obtenção de parâmetro obtém a inclinação de energia residual de predição linear do quadro de áudio atual de acordo com a seguinte fórmula:
Figure img0002
, em que epsP(i) denota energia residual de predição de predição linear de iésima ordem do quadro de áudio atual; e n é um número inteiro positivo, denota uma ordem de predição linear e é menor do que ou igual a uma ordem máxima de predição linear.
[0046] Com referência à quinta forma de implantação possível do quarto aspecto ou à sexta forma de implantação possível do quarto aspecto, em uma oitava forma de implantação possível, a unidade de obtenção de parâmetro é configurada para contar uma quantidade de agrupamentos de frequência do quadro de áudio atual que estejam em uma banda de frequência de 0 a 8 kHz e tenham valores de pico de agrupamento de frequência maiores do que um valor predeterminado, para usar a quantidade como a quantidade de som de espectro de fre-quência; e a unidade de obtenção de parâmetro é configurada para calcular uma razão de uma quantidade de agrupamentos de frequência do quadro de áudio atual que estejam em uma banda de frequência de 0 a 4 kHz e tenham valores de pico de agrupamento de frequência maiores do que o valor predeterminado para a quantidade dos agrupamentos de frequência do quadro de áudio atual que estejam na banda de frequência de 0 a 8 kHz e tenham valores de pico de agrupamento de frequência maiores do que o valor predeterminado, para usar a razão como a razão da quantidade de som de espectro de frequência na banda de baixa frequência.
[0047] Nas modalidades da presente invenção, um sinal de áudio é classificado de acordo com as estatísticas de longo prazo de flutuações de espectro de frequência; portanto, há relativamente poucos parâmetros, uma taxa de reconhecimento é relativamente alta, e a complexidade é relativamente baixa. Além disso, as flutuações de espectro de frequência são ajustadas considerando-se fatores tais como atividade de voz e música percussiva; portanto, a presente invenção tem uma taxa de reconhecimento mais alta para um sinal de música, e é adequada para classificação de sinal de áudio híbrido.
BREVE DESCRIÇÃO DOS DESENHOS
[0048] Para descrever as soluções técnicas nas modalidades da presente invenção ou na técnica anterior mais claramente, o seguinte introduz brevemente os desenhos anexos exigidos para descrever as modalidades ou a técnica anterior. Aparentemente, os desenhos anexos na descrição a seguir mostram meramente algumas modalidades da presente invenção, e indivíduos de conhecimento comum na técnica ainda podem derivar outros desenhos a partir desses desenhos anexos sem esforços criativos.
[0049] A figura 1 é um diagrama esquemático de divisão de um sinal de áudio em quadros; a figura 2 é um fluxograma esquemático de uma modalidade de um método de classificação de sinal de áudio de acordo com a presente invenção; a figura 3 é um fluxograma esquemático de uma modalidade de obtenção de uma flutuação de espectro de frequência de acordo com a presente invenção; a figura 4 é um fluxograma esquemático de outra modalidade de um método de classificação de sinal de áudio de acordo com a presente invenção; a figura 5 é um fluxograma esquemático de outra modalidade de um método de classificação de sinal de áudio de acordo com a presente invenção; a figura 6 é um fluxograma esquemático de outra modalidade de um método de classificação de sinal de áudio de acordo com a presente invenção; a figura 7 à figura 10 são fluxogramas de classificação específicos de classificação de sinal de áudio de acordo com a presente invenção; a figura 11 é um fluxograma esquemático de outra modalidade de um método de classificação de sinal de áudio de acordo com a presente invenção; a figura 12 é um fluxograma de classificação específico de classificação de sinal de áudio de acordo com a presente invenção; a figura 13 é um diagrama estrutural esquemático de uma modalidade de um aparelho de classificação de sinal de áudio de acordo com a presente invenção; a figura 14 é um diagrama estrutural esquemático de uma modalidade de uma unidade de classificação de acordo com a presente invenção; a figura 15 é um diagrama estrutural esquemático de outra modalidade de um aparelho de classificação de sinal de áudio de acordo com a presente invenção; a figura 16 é um diagrama estrutural esquemático de outra modalidade de um aparelho de classificação de sinal de áudio de acordo com a presente invenção; a figura 17 é um diagrama estrutural esquemático de uma modalidade de uma unidade de classificação de acordo com a presente invenção; a figura 18 é um diagrama estrutural esquemático de outra modalidade de um aparelho de classificação de sinal de áudio de acordo com a presente invenção; e a figura 19 é um diagrama estrutural esquemático de outra modalidade de um aparelho de classificação de sinal de áudio de acordo com a presente invenção.
DESCRIÇÃO DAS MODALIDADES
[0050] O seguinte descreve clara e completamente as soluções técnicas nas modalidades da presente invenção com referência aos desenhos anexos nas modalidades da presente invenção. Aparentemente, as modalidades descritas são meramente uma parte mas não todas as modalidades da presente invenção. Todas as outras modalidades obtidas por uma pessoa de habilidade comum na técnica com base nas modalidades da presente invenção sem esforços criativos devem ser abrangidas pelo escopo de proteção da presente invenção.
[0051] No campo de processamento de sinal digital, codecs de áudio e codecs de vídeo são aplicados amplamente em vários dispositivos eletrônicos, por exemplo, um telefone móvel, um aparelho sem fio, um assistente pessoal digital (PDA), um computador de mão ou portátil, um receptor/navegador de GPS, uma câmera, um reprodutor de áudio/vídeo, uma câmera de vídeo, um gravador de vídeo, e um dispositivo de monitoramento. Geralmente, esse tipo de dispositivo eletrônico inclui um codificador de áudio ou um decodificador de áudio, em que o codificador ou decodificador de áudio pode ser implantado diretamente por um circuito ou um chip digital, por exemplo, um DSP (processador de sinal digital), ou ser implantado por código de software que controla um processador para executar um processo no código de software. Em um codificador de áudio, um sinal de áudio primeiramente é classificado, diferentes tipos de sinais de áudio são codificados em modos de codificação diferentes, e então um fluxo de bits obtido após a codificação é transmitido para um lado decodificador.
[0052] Geralmente, um sinal de áudio é processado em uma forma de divisão de quadro, e cada quadro de sinal representa um sinal de áudio de uma duração especificada. Com referência à Figura 1, um quadro de áudio que é atualmente inserido e precisa ser classificado pode ser referenciado como um quadro de áudio atual, e qualquer quadro de áudio antes do quadro de áudio atual pode ser referenciado como um quadro de áudio histórico. De acordo com uma sequência temporal do quadro de áudio atual para quadros de áudio históricos, os quadros de áudio históricos podem se tornar sequencialmente um quadro de áudio anterior, um segundo quadro de áudio prévio, um ter-ceiro quadro de áudio prévio, e um Nésimo quadro de áudio prévio, em que N é maior do que ou igual a quatro.
[0053] Nessa modalidade, um sinal de áudio de entrada é um sinal de áudio de banda larga amostrado em 16 kHz, e o sinal de áudio de entrada é dividido em quadros com o uso de 20 ms como um quadro, ou seja, cada quadro tem 320 pontos de amostragem de domínio de tempo. Antes de um parâmetro característico ser extraído, um quadro de sinal de áudio de entrada é primeiramente reduzido para uma taxa de amostragem de 12,8 kHz, ou seja, há 256 pontos de amostragem em cada quadro. Cada quadro de sinal de áudio de entrada no seguinte se refere a um quadro de sinal de áudio obtido após a redução.
[0054] Com referência à Figura 2, uma modalidade de um método de classificação de sinal de áudio inclui: S101: Realizar processamento de divisão de quadro em um sinal de áudio de entrada, e determinar, de acordo com a atividade de voz de um quadro de áudio atual, a possibilidade de obter uma flutua- ção de espectro de frequência do quadro de áudio atual e armazenar a flutuação de espectro de frequência em uma memória de flutuação de espectro de frequência, em que a flutuação de espectro de frequência denota uma flutuação de energia de um espectro de frequência de um sinal de áudio.
[0055] A classificação de sinal de áudio é, em geral, realizada em uma base por quadro, e um parâmetro é extraído de cada quadro de sinal de áudio para realizar classificação, para determinar a possibilidade de o quadro de sinal de áudio pertencer a um quadro de voz ou um quadro de música, e realizar codificação em um modo de codificação correspondente. Em uma modalidade, uma flutuação de espectro de frequência de um quadro de áudio atual pode ser obtida após o processamento de divisão de quadro ser realizado em um sinal de áudio, e então é determinada de acordo com a atividade de voz do quadro de áudio atual a possibilidade de armazenar a flutuação de espectro de frequência em uma memória de flutuação de espectro de fre-quência. Em outra modalidade, após o processamento de divisão de quadro ser realizado em um sinal de áudio, pode ser determinada, de acordo com a atividade de voz de um quadro de áudio atual, a possibilidade de armazenar uma flutuação de espectro de frequência em uma memória de flutuação de espectro de frequência e, quando a flutuação de espectro de frequência precisar ser armazenada, a flutuação de espectro de frequência é obtida e armazenada.
[0056] O fluxo de flutuação de espectro de frequência denota uma flutuação de energia de curto prazo ou de longo prazo de um espectro de frequência de um sinal, e é um valor médio de valores absolutos de diferenças de energia logarítmicas entre frequências correspondentes de um quadro de áudio atual e um quadro histórico em um espectro de banda baixa e média, em que o quadro histórico se refere a qualquer quadro antes do quadro de áudio atual. Em uma modalidade, uma flu- tuação de espectro de frequência é um valor médio de valores absolutos de diferenças de energia logarítmicas entre frequências correspondentes de um quadro de áudio atual e um quadro histórico do quadro de áudio atual em um espectro de banda baixa e média. Em outra modalidade, uma flutuação de espectro de frequência é um valor médio de valores absolutos de diferenças de energia logarítmicas entre valores de pico de espectro de frequência correspondentes de um quadro de áudio atual e de um quadro histórico em um espectro de banda baixa e média.
[0057] Com referência à Figura 3, uma modalidade de obter uma flutuação de espectro de frequência inclui as seguintes etapas: S1011: Obter um espectro de frequência de um quadro de áudio atual.
[0058] Em uma modalidade, um espectro de frequência de um quadro de áudio pode ser obtido diretamente; em outra modalidade, espectros de frequência, ou seja, espectros de energia, de quaisquer dois subquadros de um quadro de áudio atual são obtidos, e um espectro de frequência do quadro de áudio atual é obtido com o uso de um valor médio dos espectros de frequência dos dois subquadros.
[0059] S1012: Obter um espectro de frequência de um quadro his tórico do quadro de áudio atual.
[0060] O quadro histórico se refere a qualquer quadro de áudio antes do quadro de áudio atual, e pode ser o terceiro quadro de áudio antes do quadro de áudio atual em uma modalidade.
[0061] S1013: Calcular um valor médio de valores absolutos de diferenças de energia logarítmicas entre frequências correspondentes do quadro de áudio atual e do quadro histórico em um espectro de banda baixa e média, para usar o valor médio como uma flutuação de espectro de frequência do quadro de áudio atual.
[0062] Em uma modalidade, pode ser calculado um valor médio de valores absolutos de diferenças entre energia logarítmica de todos os agrupamentos de frequência de um quadro de áudio atual em um espectro de banda baixa e média, e energia logarítmica de agrupamentos de frequência correspondentes de um quadro histórico no espectro de banda baixa e média.
[0063] Em outra modalidade, pode ser calculado um valor médio de valores absolutos de diferenças entre energia logarítmica de valores de pico de espectro de frequência de um quadro de áudio atual em um espectro de banda baixa e média e energia logarítmica de valores de pico de espectro de frequência correspondentes de um quadro histórico no espectro de banda baixa e média.
[0064] O espectro de banda baixa e média é, por exemplo, um espectro de faixa de frequência de 0 a fs/4 ou 0 a fs/3.
[0065] Um exemplo, em que um sinal de áudio de entrada é um sinal de áudio de banda larga amostrado em 16 kHz e o sinal de áudio de entrada usa 20 ms como um quadro, é usado, o FFT anterior de 256 pontos e o último FFT de 256 pontos são realizados em um quadro de áudio atual de cada 20 ms, duas janelas de FFT são sobrepostas por 50%, e os espectros de frequência (espectros de energia) de dois subquadros do quadro de áudio atual são obtidos, e são marcados respectivamente como C0(i) e C1(i), i = 0, 1, ..., 127, em que Cx(i) denota um espectro de frequência de um xésimo subquadro. Os dados de um segundo subquadro de um quadro prévio precisam ser usados para FFT de um primeiro subquadro do quadro de áudio atual, em que Cx(i) = rel 2 (i) + img 2(i) , em que rel(i) e img(i) denotam uma parte real e um parte imaginária de um coeficiente de FFT do iésimo agrupamento de frequência respectivamente. O espectro de frequência C(i) do quadro de áudio atual é obtido ponderando-se os espectros de frequência dos dois subquadros, em que
Figure img0003
[0066] O fluxo de flutuação de espectro de frequência do quadro de áudio atual é um valor médio de valores absolutos de diferenças de energia logarítmicas entre frequências correspondentes do quadro de áudio atual e de um quadro 60 ms à frente do quadro de áudio atual em um espectro de banda baixa e média em uma modalidade, e o intervalo pode não ser de 60 ms em outra modalidade, em que
Figure img0004
em que C-3(i) denota um espectro de frequência do terceiro quadro histórico antes do quadro de áudio atual, ou seja, um quadro histórico 60 ms à frente do quadro de áudio atual quando um tamanho de quadro é de 20 ms nessa modalidade. Cada forma similar à X^Q nesse relatório descritivo denota um parâmetro X do nésimo quadro histórico do quadro de áudio atual, e um subscrito 0 pode ser omitido para o quadro de áudio atual. log(.) denota um logaritmo com 10 como uma base.
[0067] Em outra modalidade, o fluxo de flutuação de espectro de frequência do quadro de áudio atual também pode ser obtido com o uso do seguinte método, ou seja, o fluxo de flutuação de espectro de frequência é um valor médio de valores absolutos de diferenças de energia logarítmicas entre valores de pico de espectro de frequência correspondentes do quadro de áudio atual e de um quadro 60 ms à frente do quadro de áudio atual em um espectro de banda baixa e média, em que
Figure img0005
em que P(i) denota energia do iésimo valor de pico local do espectro de frequência do quadro de áudio atual, um agrupamento de frequência em que um valor de pico local é localizado é um agrupa- mento de frequência, no espectro de frequência, cuja energia é maior do que a energia de um agrupamento de frequência mais alta adjacente e energia de um agrupamento de frequência mais baixa adjacente, e K denota uma quantidade de valores de pico locais no espectro de banda baixa e média.
[0068] A determinação, de acordo com a atividade de voz de um quadro de áudio atual, da possibilidade de armazenar uma flutuação de espectro de frequência em uma memória de flutuação de espectro de frequência pode ser implantada em múltiplas formas:
[0069] Em uma modalidade, se um parâmetro de atividade de voz do quadro de áudio denotar que o quadro de áudio é um quadro ativo, a flutuação de espectro de frequência do quadro de áudio é armazenada na memória de flutuação de espectro de frequência; caso contrário a flutuação de espectro de frequência não é armazenada.
[0070] Em outra modalidade, é determinado, de acordo com a atividade de voz do quadro de áudio e com a possibilidade de o quadro de áudio ser um ataque de energia, a possibilidade de armazenar a flutuação de espectro de frequência na memória. Se um parâmetro de atividade de voz do quadro de áudio denotar que o quadro de áudio é um quadro ativo, e um parâmetro que denota a possibilidade de o quadro de áudio ser um ataque de energia denotar que o quadro de áudio não pertence a um ataque de energia, a flutuação de espectro de frequência do quadro de áudio é armazenada na memória de flutuação de espectro de frequência; caso contrário a flutuação de espectro de frequência não é armazenada. Em outra modalidade, se o quadro de áudio atual for um quadro ativo, e nenhum dos múltiplos quadros consecutivos que compreendem o quadro de áudio atual e um quadro histórico do quadro de áudio atual pertencerem a um ataque de energia, a flutuação de espectro de frequência do quadro de áudio é arma-zenada na memória de flutuação de espectro de frequência; caso con- trário a flutuação de espectro de frequência não é armazenada. Por exemplo, se o quadro de áudio atual for um quadro ativo, e nenhum dentre o quadro de áudio atual, um quadro de áudio anterior e um segundo quadro de áudio prévio pertencer a um ataque de energia, a flutuação de espectro de frequência do quadro de áudio é armazenada na memória de flutuação de espectro de frequência; caso contrário a flutuação de espectro de frequência não é armazenada.
[0071] Um sinalizador de atividade de voz vad_flag denota a possibilidade de um sinal de entrada atual ser um sinal de primeiro plano ativo (voz, música ou similares) ou um sinal de fundo silencioso (tal como ruído de fundo ou mudo) de um de sinal de primeiro plano, e é obtido por um detector de atividade de voz VAD. O vad_flag = 1 denota que o sinal de entrada quadro é um quadro ativo, ou seja, um quadro de sinal de primeiro plano; caso contrário, vad_flag = 0 denota um quadro de sinal de fundo. Devido ao VAD não pertencer ao conteúdo inventivo da presente invenção, um algoritmo específico do VAD não é descrito em detalhes no presente documento.
[0072] Um sinalizador de ataque de voz attack_flag denota a possibilidade de o quadro de áudio atual pertencer a um ataque de energia em música. Quando diversos quadros históricos antes do quadro de áudio atual são principalmente quadros de música, se a energia de quadro do quadro de áudio atual aumentar de forma relativamente grande com relação àquela de um primeiro quadro histórico antes do quadro de áudio atual, e aumentar de forma relativamente grande com relação à energia média de quadros de áudio que estão dentro de um período de tempo à frente do quadro de áudio atual, e um pacote de domínio de tempo do quadro de áudio atual também aumentar de forma relativamente grande com relação a um pacote médio de quadros de áudio que estiverem dentro de um período de tempo à frente do quadro de áudio atual, é considerado que o quadro de áudio atual per- tence a um ataque de energia em música.
[0073] De acordo com a atividade de voz do quadro de áudio atual, a flutuação de espectro de frequência do quadro de áudio atual é armazenada apenas quando o quadro de áudio atual é um quadro ativo, o que pode reduzir uma taxa de erro de avaliação de um quadro inativo, e melhorar uma taxa de reconhecimento de classificação de áudio.
[0074] Quando as seguintes condições são satisfeitas, attack_flag é definido para 1, ou seja, o mesmo denota que o quadro de áudio atual é um ataque de energia em uma peça de música:
Figure img0006
em que etot denota energia de quadro logarítmica do quadro de áudio atual; etot-1 denota energia de quadro logarítmica de um quadro de áudio anterior; lp_voz denota uma média de movimento de longo prazo da energia de quadro logarítmica etot; log_max_spl e mov_log_max_spl denotam um amplitude máxima de ponto de amostragem logarítmica de domínio de tempo do quadro de áudio atual e uma média de movimento de longo prazo da amplitude máxima de ponto de amostragem logarítmica de domínio de tempo respectivamente; e mode_mov denota uma média de movimento de longo prazo de resultados de classificação final históricos em classificação de sinal.
[0075] O significado da fórmula apresentada acima é: quando diversos quadros históricos antes do quadro de áudio atual forem principalmente quadros de música, se a energia de quadro do quadro de áudio atual aumentar de forma relativamente grande com relação àquela de um primeiro quadro histórico antes do quadro de áudio atual, e aumentar de forma relativamente grande com relação à energia média de quadros de áudio que estiverem dentro de um período de tempo à frente do quadro de áudio atual, e um pacote de domínio de tempo do quadro de áudio atual também aumentar de forma relativamente grande com relação a um pacote médio de quadros de áudio que estiverem dentro de um período de tempo à frente do quadro de áudio atual, é considerado que o quadro de áudio atual pertence a um ataque de energia em música.
[0076] A energia de quadro logarítmica etot é denotada por ener-gia de sub-banda total logarítmica de um quadro de áudio de entrada:
Figure img0007
em que hb(j) e lb(j) denotam um limite de alta frequência e um limite de baixa frequência da jésima sub-banda em um espectro de frequência do quadro de áudio de entrada respectivamente; e C(i) denota o espectro de frequência do quadro de áudio de entrada.
[0077] A média de movimento de longo prazo mov_log_max_spl da amplitude máxima de ponto de amostragem logarítmica de domínio de tempo do quadro de áudio atual é atualizada apenas em um quadro de voz ativo:
Figure img0008
[0078] Em uma modalidade, o fluxo de flutuação de espectro de frequência do quadro de áudio atual é armazenado em memória temporária em uma memória temporária histórica de fluxo FIFO. Nessa modalidade, o tamanho da memória temporária histórica de fluxo é 60 (60 quadros). A atividade de voz do quadro de áudio atual e a possibilidade de o quadro de áudio ser um ataque de energia são determinadas, e quando o quadro de áudio atual é um quadro de sinal de primeiro plano e nenhum dentre o quadro de áudio atual e os dois quadros antes do quadro de áudio atual pertencerem a um ataque de energia de música, o fluxo de flutuação de espectro de frequência do quadro de áudio atual é armazenado na memória.
[0079] Antes do fluxo do quadro de áudio atual ser armazenado em memória temporária, é verificada a possibilidade das seguintes condições serem satisfeitas:
Figure img0009
se a condições forem satisfeitas, o fluxo é armazenado em memória temporária; caso contrário o fluxo não é armazenado em memória temporária. vad_flag denota a possibilidade do sinal de entrada atual ser um sinal de primeiro plano ativo ou um sinal de fundo silencioso de um de sinal de primeiro plano, e vad_flag = 0 denota um quadro de sinal de fundo; e attack_flag denota a possibilidade de o quadro de áudio atual pertencer a um ataque de energia em música, e attack_flag = 1 denota que o quadro de áudio atual é um ataque de energia em uma peça de música.
[0080] O significado da fórmula apresentada acima é: o quadro de áudio atual é um quadro ativo, e nenhum dentre o quadro de áudio atual, o quadro de áudio anterior, e o segundo quadro de áudio prévio pertence a um ataque de energia.
[0081] S102: Atualizar, de acordo com a possibilidade de o quadro de áudio ser música percussiva ou atividade de um quadro de áudio histórico, flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência.
[0082] Em uma modalidade, se um parâmetro que denota a possibilidade do quadro de áudio pertencer à música percussiva denotar que o quadro de áudio atual pertence à música percussiva, os valores das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência são modificados, e valores de flu- tuação de espectro de frequência válidos na memória de flutuação de espectro de frequência são modificados para um valor menor do que ou igual a um limiar de música, em que quando uma flutuação de espectro de frequência de um quadro de áudio é menor do que o limiar de música, o áudio é classificado como um quadro de música. Em uma modalidade, os valores de flutuação de espectro de frequência válidos são redefinidos para 5. Ou seja, quando um sinalizador de som per- cussivo percus_flag é definido para 1, todos os dados de memória temporária válidos na memória temporária histórica de fluxo são redefinidos para 5. No presente documento, os dados de memória temporária válidos são equivalentes a um valor de flutuação de espectro de frequência válido. Geralmente, um valor de flutuação de espectro de frequência de um quadro de música é relativamente pequeno, enquanto que um valor de flutuação de espectro de frequência de um quadro de voz é relativamente grande. Quando o quadro de áudio pertencer à música percussiva, os valores de flutuação de espectro de frequência válidos são modificados para um valor menor do que ou igual ao limiar de música, o que pode melhorar uma probabilidade de que o quadro de áudio seja classificado como um quadro de música para, desse modo, melhorar a precisão de classificação de sinal de áudio.
[0083] Em outra modalidade, as flutuações de espectro de fre-quência na memória são atualizadas de acordo com a atividade de um quadro histórico do quadro de áudio atual. Especificamente, em uma modalidade, se for determinado que a flutuação de espectro de frequência do quadro de áudio atual é armazenada na memória de flutuação de espectro de frequência, e um quadro de áudio anterior for um quadro inativo, os dados de outras flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência exceto a flutuação de espectro de frequência do quadro de áudio atual são modificados para dados ineficazes. Quando o quadro de áudio an terior é um quadro inativo enquanto que o quadro de áudio atual é um quadro ativo, a atividade de voz do quadro de áudio atual é diferente daquela do quadro histórico, uma flutuação de espectro de frequência do quadro histórico é invalidada, o que pode reduzir um impacto do quadro histórico na classificação de áudio para, desse modo, melhorar a precisão de classificação de sinal de áudio.
[0084] Em outra modalidade, se for determinado que a flutuação de espectro de frequência do quadro de áudio atual é armazenada na memória de flutuação de espectro de frequência, e três quadros consecutivos antes do quadro de áudio atual não forem todos quadros ativos, a flutuação de espectro de frequência do quadro de áudio atual é modificada para um primeiro valor. O primeiro valor pode ser um limiar de voz, em que quando a flutuação de espectro de frequência do quadro de áudio é maior do que o limiar de voz, o áudio é classificado como um quadro de voz. Em outra modalidade, se for determinado que a flutuação de espectro de frequência do quadro de áudio atual é armazenada na memória de flutuação de espectro de frequência, e um resultado de classificação de um quadro histórico for um quadro de mú-sica e a flutuação de espectro de frequência do quadro de áudio atual for maior do que um segundo valor, a flutuação de espectro de frequência do quadro de áudio atual é modificada para o segundo valor, em que o segundo valor é maior do que o primeiro valor.
[0085] Se o fluxo do quadro de áudio atual for armazenado em memória temporária, e o quadro de áudio anterior for um quadro inativo (vad_flag = 0), exceto o fluxo de quadro de áudio atual recém- armazenado em memória temporária na memória temporária histórica de fluxo, os dados remanescentes na memória temporária histórica de fluxo são todos redefinidos para -1 (equivalente a aqueles dados serem invalidados).
[0086] Se o fluxo for armazenado em memória temporária na me- mória temporária histórica de fluxo, e três quadros consecutivos antes do quadro de áudio atual não forem todos quadros ativos (vad_flag = 1), o fluxo de quadro de áudio atual armazenado há pouco em memória temporária na memória temporária histórica de fluxo é modificado para 16; ou seja, é verificada a possibilidade de as seguintes condições serem satisfeitas:
Figure img0010
se as condições não forem satisfeitas, o fluxo de quadro de áudio atual armazenado há pouco em memória temporária na memória temporária histórica de fluxo é modificado para 16; e se os três quadros consecutivos antes do quadro de áudio atual forem todos quadro ativos (vad_flag = 1), é verificada a possibilidade de as seguintes condições serem satisfeitas:
Figure img0011
se as condições forem satisfeitas, o fluxo de quadro de áudio atual armazenado há pouco em memória temporária na memória temporária histórica de fluxo é modificado para 20; caso contrário nenhuma operação é realizada, em que mode_mov denota uma média de movimento de longo prazo de resultados de classificação final históricos na classificação de sinal; mode_mov > 0,9 denota que o sinal é um sinal de música, e o fluxo é limitado de acordo com o resultado de classificação histórico do sinal de áudio, para reduzir uma probabilidade de que uma característica de voz ocorra no fluxo e melhorar a estabilidade de classificação de determinação.
[0087] Quando os três quadros históricos consecutivos antes do quadro de áudio atual são todos quadros inativos, e o quadro de áudio atual é um quadro ativo, ou quando os três quadros consecutivos an tes do quadro de áudio atual não são todos quadros ativos, e o quadro de áudio atual é um quadro ativo, a classificação está em uma fase de inicialização. Em uma modalidade, para tornar o resultado de classificação propenso à voz (música), a flutuação de espectro de frequência do quadro de áudio atual pode ser modificada para um limiar de voz (música) ou um valor próximo ao limiar de voz (música). Em outra modalidade, se um sinal antes de um sinal atual for um sinal de voz (mú-sica), a flutuação de espectro de frequência do quadro de áudio atual pode ser modificada para um limiar de voz (música) ou um valor próximo ao limiar de voz (música), para melhorar a estabilidade de classificação de determinação. Em outra modalidade, para tornar o resultado de classificação propenso à música, a flutuação de espectro de frequência pode ser limitada, ou seja, a flutuação de espectro de fre-quência do quadro de áudio atual pode ser modificada, para que a flutuação de espectro de frequência não seja maior do que um limiar, para reduzir a probabilidade de determinar que a flutuação de espectro de frequência é uma característica de voz.
[0088] O sinalizador de som percussivo percus_flag denota a possibilidade de que exista um som percussivo em um quadro de áudio. Aquele percus_flag ser definido para 1 denota que um som percussivo é detectado, e aquele percus_flag ser definido para 0 denota que nenhum som percussivo é detectado.
[0089] Quando uma protrusão de energia relativamente aguda ocorrer no sinal atual (ou seja, diversos quadros de sinal recentes que compreendem o quadro de áudio atual e diversos quadros históricos do quadro de áudio atual) tanto em um curto prazo como em um longo prazo, e o sinal atual não tem nenhuma característica de som de voz óbvia, se os diversos quadros históricos antes do quadro de áudio atual forem principalmente quadros de música, é considerado que o sinal atual é uma peça de música percussiva; caso contrário, adicionalmen- te, se nenhum dos subquadros do sinal atual tiver uma característica de som de voz óbvia e um aumento relativamente óbvio também ocorrer no pacote de domínio de tempo do sinal atual com relação a uma média de longo prazo do pacote de domínio de tempo, também é considerado que o sinal atual é uma peça de música percussiva.
[0090] O sinalizador de som percussivo percus_flag é obtido realizando-se a seguinte etapa:
[0091] A energia de quadro logarítmica etot de um quadro de áudio de entrada é obtida primeiramente, em que a energia de quadro logarítmica etot é denotada por energia de sub-banda total logarítmica do quadro de áudio de entrada:
Figure img0012
em que hb(j) e lb(j) denotam um limite de alta frequência e um limite de baixa frequência da jésima sub-banda em um espectro de frequência do quadro de entrada respectivamente, e C(i) denota o espectro de frequência do quadro de áudio de entrada.
[0092] Quando as seguintes condições são satisfeitas, percus_flag é definido para 1; caso contrário percus_flag é definido para 0:
Figure img0013
Figure img0014
em que etot denota energia de quadro logarítmica do quadro de áudio atual; lp_voz denota uma média de movimento de longo prazo da energia de quadro logarítmica etot; vocal(0), vocal-1(0), e vocal-1(1) denotam graus de correlação de tom de ciclo aberto normalizados de um primeiro subquadro de um quadro de áudio de entrada atual e primeiro e segundo subquadros de um primeiro quadro histórico respectivamente, e um vocal de parâmetro vocal é obtido por meio de predição e análise linear, representa um grau de correlação no domínio de tem-po entre o quadro de áudio atual e um sinal antes de um período de tom e tem um valor entre 0 e 1; mode_mov denota uma média de movimento de longo prazo de resultados de classificação final históricos em classificação de sinal; log_max_spl-2 e mov_log_max_spl-2 denotam uma amplitude máxima de ponto de amostragem logarítmica de domínio de tempo de um segundo quadro histórico e uma média de movimento de longo prazo da amplitude máxima de ponto de amostragem logarítmica de domínio de tempo respectivamente. lp_voz é atualizada em cada quadro de voz ativo (ou seja, um quadro cujo vad_flag = 1), e um método para atualizar lp_voz é:
Figure img0015
[0093] O significado das duas fórmulas expostas acima é: quando uma protrusão de energia relativamente aguda ocorrer no sinal atual (ou seja, diversos quadros de sinal recentes que compreendem o quadro de áudio atual e diversos quadros históricos do quadro de áudio atual) tanto em um curto prazo como em um longo prazo, e o sinal atual não tiver nenhuma característica de som de voz óbvia, se os diversos quadros históricos antes do quadro de áudio atual forem princi-palmente quadros de música, é considerado que o sinal atual é uma peça de música percussiva; caso contrário, adicionalmente, se nenhum dos subquadros do sinal atual tiver uma característica de som de voz óbvia e um aumento relativamente óbvio também ocorrer no pacote de domínio de tempo do sinal atual com relação a uma média de longo prazo do mesmo, também é considerado que o sinal atual é uma peça de música percussiva.
[0094] O vocal de parâmetro vocal, ou seja, um grau de correlação de tom de ciclo aberto normalizado,denota um grau de correlação no domínio de tempo entre o quadro de áudio atual e um sinal antes de um período de tom, pode ser obtido por meio de busca de tom de ciclo aberto ACELP, e tem um valor entre 0 e 1. Isso pertence à técnica anterior e, portanto, não é descrito em detalhes na presente invenção. Nessa modalidade, um vocal é calculado para cada um de dois subquadros do quadro de áudio atual, e os vocais são ponderados para obter um parâmetro vocal do quadro de áudio atual. O parâmetro vocal do quadro de áudio atual também é armazenado em memória temporária em uma memória temporária histórica vocal, e nessa modalidade, o tamanho da memória temporária histórica vocal é 10.
[0095] mode_mov é atualizado em cada quadro de voz ativo e quando mais do que 30 quadros de voz ativos consecutivos tiverem ocorrido antes do quadro, e um método de atualização é:
Figure img0016
em que o modo é um resultado de classificação de um quadro de áudio de entrada atual, e tem um valor binário, em que "0" denota uma categoria de voz, e "1" denota uma categoria de música.
[0096] S103: Classificar o quadro de áudio atual como um quadro de voz ou um quadro de música de acordo com as estatísticas de uma parte ou todos os dados das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência. Quando as estatísticas de dados eficazes das flutuações de espectro de frequência satisfizerem uma condição de classificação de voz, o quadro de áudio atual é classificado como um quadro de voz; quando as estatísticas dos dados eficazes das flutuações de espectro de frequência satisfizerem uma condição de classificação de música, o quadro de áudio atual é classificado como um quadro de música.
[0097] As estatísticas no presente documento são um valor obtido realizando-se uma operação estatística em uma flutuação de espectro de frequência válida (ou seja, dados eficazes) armazenada na memória de flutuação de espectro de frequência. Por exemplo, a operação estatística pode ser uma operação para obter um valor médio ou uma variação. Estatísticas nas modalidades seguintes têm significado simi-lar.
[0098] Em uma modalidade, a etapa S103 inclui: obter um valor médio de uma parte ou de todos os dados eficazes das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência; e quando o valor médio obtido dos dados eficazes das flutuações de espectro de frequência satisfizer uma condição de classificação de música, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz.
[0099] Por exemplo, quando o valor médio obtido dos dados eficazes das flutuações de espectro de frequência for menor do que um limiar de classificação de música, o quadro de áudio atual é classificado como um quadro de música; caso contrário o quadro de áudio atual é classificado como um quadro de voz.
[00100] Geralmente, um valor de flutuação de espectro de frequência de um quadro de música é relativamente pequeno, enquanto que um valor de flutuação de espectro de frequência de um quadro de voz é relativamente grande. Portanto, o quadro de áudio atual pode ser classificado de acordo com as flutuações de espectro de frequência. Certamente, a classificação de sinal também pode ser realizada no quadro de áudio atual com o uso de outro método de classificação. Por exemplo, uma quantidade de peças de dados eficazes das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência é contada; a memória de flutuação de espectro de frequência é dividida, de acordo com a quantidade de peças de dados eficazes, em pelo menos dois intervalos de tamanhos diferentes a partir de uma extremidade próxima a uma extremidade remota, e um valor médio de dados eficazes de flutuações de espectro de frequência correspondentes a cada intervalo é obtido, em que um ponto de início dos intervalos é uma localização de armazenamento da flutuação de espectro de frequência do quadro atual, a extremidade próxima é uma extremidade em que a flutuação de espectro de frequência do quadro atual é armazenada, e a extremidade remota é uma extremidade em que uma flutuação de espectro de frequência de um quadro histórico é armazenada; o quadro de áudio é classificado de acordo com as estatísticas de flutuações de espectro de frequência em um intervalo relativamente curto, e se as estatísticas dos parâmetros nesse intervalo forem suficientes para distinguir um tipo do quadro de áudio, o processo de classificação termina; caso contrário o processo de classificação continua no intervalo mais curto dos intervalos relativamente longos remanescentes, e o restante pode ser deduzido por analogia. Em um processo de classificação de cada intervalo, o quadro de áudio atual é classificado de acordo com um limiar de classificação correspondente a cada intervalo, o quadro de áudio atual é classificado como um quadro de voz ou um quadro de música, e quando as estatísticas dos dados eficazes das flutuações de espectro de frequência satisfizerem a condição de classificação de voz, o quadro de áudio atual é classifica-do como um quadro de voz; quando as estatísticas dos dados eficazes das flutuações de espectro de frequência satisfizerem a condição de classificação de música, o quadro de áudio atual é classificado como um quadro de música.
[00101] Após a classificação de sinal, sinais diferentes podem ser codificados em modos de codificação diferentes. Por exemplo, um sinal de voz é codificado com o uso de um codificador baseado em um modelo de geração de voz (tal como CELP), e um sinal de música é codificado com o uso de um codificador baseado em conversão (tal como um codificador baseado em MDCT).
[00102] Na modalidade exposta acima, devido a um sinal de áudio ser classificado de acordo com as estatísticas de longo prazo de flutuações de espectro de frequência, há relativamente poucos parâmetros, uma taxa de reconhecimento é relativamente alta e a complexidade é relativamente baixa. Além disso, as flutuações de espectro de frequência são ajustadas com consideração de fatores tais como atividade de voz e música percussiva; portanto, a presente invenção tem uma taxa de reconhecimento mais alta para um sinal de música, e é adequada para classificação de sinal de áudio híbrido.
[00103] Com referência à Figura 4, em outra modalidade, após a etapa S102, o método inclui adicionalmente: S104: Obter uma curtose de banda de alta frequência de espectro de frequência, um grau de correlação de espectro de frequência, e uma inclinação de energia residual de predição linear do quadro de áudio atual, e armazenar a curtose de banda de alta fre- quência de espectro de frequência, o grau de correlação de espectro de frequência e a inclinação de energia residual de predição linear nas memórias, em que a curtose de banda de alta frequência de espectro de frequência denota uma curtose ou uma acutância de energia, em uma banda de alta frequência de um espectro de frequência do quadro de áudio atual; o grau de correlação de espectro de frequência denota estabilidade, entre quadros adjacentes, de uma estrutura harmônica de sinal; e a inclinação de energia residual de predição linear denota a inclinação de energia residual de predição linear denota uma medida para a qual a energia residual de predição linear do sinal de áudio de entrada muda conforme uma ordem de predição linear aumenta.
[00104] Opcionalmente, antes de esses parâmetros serem armazenados, o método inclui adicionalmente: determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear nas memórias; e se o quadro de áudio atual for um quadro ativo, armazenar os parâmetros; caso contrário omitir armazenar os parâmetros.
[00105] A curtose de banda de alta frequência de espectro de frequência denota uma curtose ou uma acutância de energia, em uma banda de alta frequência, de um espectro de frequência do quadro de áudio atual. Em uma modalidade, a curtose de banda de alta frequência de espectro de frequência ph é calculada com o uso da seguinte fórmula:
Figure img0017
em que p2v_map(i) denota uma curtose do iésimo agrupamento de frequência de um espectro de frequência, e a curtose p2v_map(i) é obtida com o uso da seguinte fórmula:
Figure img0018
em que peak(i) = C(i) se o iésimo agrupamento de frequência for um valor de pico local do espectro de frequência; caso contrário peak(i) = 0; e vl(i) e vr(i) denotam valores de vale de espectro de frequência local v(n) que são os mais adjacentes ao iésimo agrupamento de frequência em um lado de alta frequência e um lado de baixa frequência do iésimo agrupamento de frequência respectivamente, em que
Figure img0019
[00106] A curtose de banda de alta frequência de espectro de frequência ph do quadro de áudio atual também é armazenada em memória temporária em uma memória temporária histórica de ph, e nessa modalidade, o tamanho da memória temporária histórica de ph é 60.
[00107] O grau de correlação de espectro de frequência cor_map_sum denota estabilidade, entre quadros adjacentes, de uma estrutura harmônica de sinal, e é obtido realizando-se as seguintes etapas:
[00108] Primeiramente, é obtido um espectro de frequência com piso removido C'(i) de um quadro de áudio de entrada C(i), em que
Figure img0020
em que floor(i) denota um piso de espectro de um espectro de frequência do quadro de áudio de entrada, em que i = 0, 1, ..., 127;
Figure img0021
em que idx[x] denota uma localização de x no espectro de frequência, em que idx[x] = 0, 1, ., 127.
[00109] Então, entre cada dois valores de vale de espectro de frequência adjacentes, uma correlação cor(n) entre o espectro de frequência com piso removido do quadro de áudio de entrada e um espectro de frequência com piso removido de um quadro prévio é obtida, em que
Figure img0022
em que lb(n) e hb(n) denotam, respectivamente, localizações de pontos de extremidade do nésimo intervalo de valor de vale de espectro de frequência (ou seja, uma área localizada entre dois valores de vale adjacentes), ou seja, localizações que limitam dois valores de vale de espectro de frequência do intervalo de valor de vale.
[00110] Finalmente, o grau de correlação de espectro de frequência cor_map_sum do quadro de áudio de entrada é calculado com o uso da seguinte fórmula:
Figure img0023
em que inv[f] denota uma função inversa de uma função f.
[00111] A inclinação de energia residual de predição linear epsP_tilt denota uma medida para a qual a energia residual de predição linear do sinal de áudio de entrada muda conforme uma ordem de predição linear aumenta, e pode ser calculada e obtida com o uso da seguinte fórmula:
Figure img0024
em que epsP(i) denota energia residual de predição de predição linear de iésima ordem; e n é um número inteiro positivo, denota uma ordem de predição linear e é menor do que ou igual a uma ordem máxima de predição linear. Por exemplo, em uma modalidade, n = 15.
[00112] Portanto, a etapa S103 pode ser substituída pela seguinte etapa: S105: Obter estatísticas de dados eficazes das flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, estatísticas de dados eficazes de graus de correlação de espectro de frequência armazenados, e estatísticas de dados eficazes de inclinações de energia residual de predição linear armazenadas, e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes, em que as estatísticas dos dados eficazes se referem a um valor de dados obtido após uma operação de cálculo ser realizada nos dados eficazes armazenados nas memórias, em que a operação de cálculo pode incluir uma operação para obter um valor médio, uma operação para obter uma variação ou similares.
[00113] Em uma modalidade, essa etapa inclui: obter um valor médio dos dados eficazes das flutuações de espectro de frequência armazenadas, um valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência armazenada, um valor médio dos dados eficazes dos graus de correlação de espectro de frequência armazenados e uma variação dos dados eficazes das inclinações de energia residual de predição linear armazenadas separadamente; e quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[00114] Geralmente, um valor de flutuação de espectro de frequência de um quadro de música é relativamente pequeno, enquanto que um valor de flutuação de espectro de frequência de um quadro de voz é relativamente grande; um valor de curtose de banda de alta frequência de espectro de frequência de um quadro de música é relativamente grande, e uma curtose de banda de alta frequência de espectro de fre-quência de um quadro de voz é relativamente pequena; um valor de grau de correlação de espectro de frequência de um quadro de música é relativamente grande, e um valor de grau de correlação de espectro de frequência de um quadro de voz é relativamente pequeno; uma mudança em uma inclinação de energia residual de predição linear de um quadro de música é relativamente pequena, e uma mudança em uma inclinação de energia residual de predição linear de um quadro de voz é relativamente grande. Portanto, o quadro de áudio atual pode ser classificado de acordo com as estatísticas dos parâmetros expostos acima. Certamente, a classificação de sinal também pode ser realizada no quadro de áudio atual com o uso de outro método de classificação. Por exemplo, uma quantidade de peças de dados eficazes das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência é contada; a memória é dividida, de acordo com a quantidade de peças de dados eficazes, em pelo menos dois intervalos de tamanhos diferentes a partir de uma extremidade próxima a uma extremidade remota, um valor médio de dados eficazes de flutuações de espectro de frequência correspondente a cada intervalo, um valor médio de dados eficazes de curtose de banda de alta frequência de espectro de frequência, um valor médio de dados eficazes de graus de correlação de espectro de frequência, e uma variação de dados eficazes de inclinações de energia residual de predição linear são obtidos, em que um ponto de início dos intervalos é uma localização de armazenamento da flutuação de espectro de frequência do quadro atual, a extremidade próxima é uma extremidade em que a flutuação de espectro de frequência do quadro atual é armazenada, e a extremidade remota é uma extremidade em que uma flutuação de espectro de frequência de um quadro histórico é armazenada; o quadro de áudio é classificado de acordo com as estatísticas de dados eficazes dos parâmetros expostos acima em um intervalo relativamente curto, e se as estatísticas dos parâmetros nesse intervalo forem suficientes para distinguir o tipo do quadro de áudio, o processo de classificação termina; caso contrário o processo de classificação continua no intervalo mais curto dos intervalos relativamente longos remanescentes, e o restante pode ser deduzido por analogia. Em um processo de classificação de cada intervalo, o quadro de áudio atual é classificado de acordo com um limiar de classificação correspondente para cada intervalo, e quando uma das condições a seguir for satisfeita, o quadro de áudio atual é classificado como um quadro de música; caso contrário o quadro de áudio atual é classificado como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[00115] Após a classificação de sinal, sinais diferentes podem ser codificados em modos de codificação diferentes. Por exemplo, um sinal de voz é codificado com o uso de um codificador baseado em um modelo de geração de voz (tal como CELP), e um sinal de música é codificado com o uso de um codificador baseado em conversão (tal como um codificador baseado em MDCT).
[00116] Na modalidade exposta acima, um sinal de áudio é classificado de acordo com as estatísticas de longo prazo de flutuações de espectro de frequência, com curtose de banda de alta frequência de espectro de frequência, com graus de correlação de espectro de frequência, e com inclinações de energia residual de predição linear; portanto, há relativamente poucos parâmetros, uma taxa de reconhecimento é relativamente alta, e a complexidade é relativamente baixa. Além disso, as flutuações de espectro de frequência são ajustadas considerando fatores tais como atividade de voz e música percussiva, e as flutuações de espectro de frequência são modificadas de acordo com um ambiente de sinal em que o quadro de áudio atual está localizado; portanto, a presente invenção melhora uma taxa de reconhecimento de classificação, e é adequada para a classificação de sinal de áudio híbrido.
[00117] Com referência à Figura 5, outra modalidade de um método de classificação de sinal de áudio inclui: S501: Realizar processamento de divisão de quadro em um sinal de áudio de entrada.
[00118] A classificação de sinal de áudio é, em geral, realizada em uma base por quadro, e um parâmetro é extraído a partir de cada quadro de sinal de áudio para realizar a classificação, para determinar a possibilidade do quadro de sinal de áudio pertencer a um quadro de voz ou a um quadro de música, e realizar a codificação em um modo de codificação correspondente.
[00119] S502: Obter uma inclinação de energia residual de predição linear de um quadro de áudio atual, em que a inclinação de energia residual de predição linear denota uma medida para a qual a energia residual de predição linear do sinal de áudio muda conforme uma ordem de predição linear aumenta.
[00120] Em uma modalidade, a inclinação de energia residual de predição linear epsP_tilt pode ser calculada e obtida com o uso da seguinte fórmula:
Figure img0025
em que epsP(i) denota energia residual de predição de predição linear de iésima ordem; e n é um número inteiro positivo, denota uma ordem de predição linear, e é menor do que ou igual a uma ordem máxima de predição linear. Por exemplo, em uma modalidade, n = 15.
[00121] S503: Armazenar a inclinação de energia residual de predi ção linear em uma memória.
[00122] A inclinação de energia residual de predição linear pode ser armazenada na memória. Em uma modalidade, a memória pode ser uma memória temporária FIFO, e o tamanho da memória temporária é de 60 unidades de armazenamento (ou seja, 60 inclinações de energia residual de predição linear podem ser armazenadas).
[00123] Opcionalmente, antes do armazenamento da inclinação de energia residual de predição linear, o método inclui adicionalmente: determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a inclinação de energia residual de predição linear na memória; e, se o quadro de áudio atual for um quadro ativo, armazenar a inclinação de energia residual de predição linear; caso contrário omitir armazenar a inclinação de energia residual de predição linear.
[00124] S504: Classificar o quadro de áudio de acordo com as esta tísticas de uma parte de dados de inclinações de energia residual de predição na memória.
[00125] Em uma modalidade, as estatísticas da parte dos dados das inclinações de energia residual de predição são uma variação da parte dos dados das inclinações de energia residual de predição, e, portanto, a etapa S504 inclui: comparar a variação da parte dos dados das inclinações de energia residual de predição a um limiar de classificação de música, e quando a variação da parte dos dados das inclinações de energia residual de predição for menor do que o limiar de classificação de música, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz.
[00126] Geralmente, uma mudança em um valor de inclinação de energia residual de predição linear de um quadro de música é relativamente pequena, e uma mudança em um valor de inclinação de energia residual de predição linear de um quadro de voz é relativamente grande. Portanto, o quadro de áudio atual pode ser classificado de acordo com as estatísticas das inclinações de energia residual de predição linear. Certamente, a classificação de sinal também pode ser realizada no quadro de áudio atual com referência a outro parâmetro com o uso de outro método de classificação.
[00127] Em outra modalidade, antes da etapa S504, o método inclui adicionalmente: obter uma flutuação de espectro de frequência, uma curtose de banda de alta frequência de espectro de frequência, e um grau de correlação de espectro de frequência do quadro de áudio atual, e armazenar a flutuação de espectro de frequência, a curtose de banda de alta frequência de espectro de frequência, e o grau de corre-lação de espectro de frequência em memórias correspondentes. Por- tanto, a etapa S504 consiste especificamente em: obter estatísticas de dados eficazes de flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, estatísticas de dados eficazes de graus de correlação de espectro de frequência armazenados, e estatísticas de dados eficazes das inclinações de energia residual de predição linear armazenadas, e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes, em que as estatísticas dos dados eficazes se referem a um valor de dados obtido após uma operação de cálculo ser realizada nos dados eficazes armazenados nas memórias.
[00128] Adicionalmente, a obtenção de estatísticas de dados eficazes de flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, estatísticas de dados eficazes de graus de correlação de espectro de frequência armazenados, e estatísticas de dados eficazes das inclinações de energia residual de predição linear armazenadas, e classificação do quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes inclui: obter um valor médio dos dados eficazes das flutuações de espectro de frequência armazenadas, um valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência armazenada, um valor médio dos dados eficazes de graus de correlação de espectro de frequência armazenados, e uma variação dos dados eficazes das inclinações de energia residual de predição linear armazenadas, separadamente; e quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes de graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[00129] Geralmente, um valor de flutuação de espectro de frequência de um quadro de música é relativamente pequeno, enquanto que um valor de flutuação de espectro de frequência de um quadro de voz é relativamente grande; um valor de curtose de banda de alta frequência de espectro de frequência de um quadro de música é relativamente grande, e uma curtose de banda de alta frequência de espectro de fre-quência de um quadro de voz é relativamente pequena; um valor de grau de correlação de espectro de frequência de um quadro de música é relativamente grande, e um valor de grau de correlação de espectro de frequência de um quadro de voz é relativamente pequeno; uma mudança em um valor de inclinação de energia residual de predição linear de um quadro de música é relativamente pequena, e uma mudança em um valor de inclinação de energia residual de predição linear de um quadro de voz é relativamente grande. Portanto, o quadro de áudio atual pode ser classificado de acordo com as estatísticas dos parâmetros expostos acima.
[00130] Em outra modalidade, antes da etapa S504, o método inclui adicionalmente: obter uma quantidade de som de espectro de frequência do quadro de áudio atual e uma razão da quantidade de som de espectro de frequência em uma banda de baixa frequência, e armazenar a quantidade de som de espectro de frequência e a razão da quantidade de som de espectro de frequência na banda de baixa fre- quência em memórias correspondentes. Portanto, a etapa S504 consiste especificamente em: obter estatísticas das inclinações de energia residual de predição linear armazenadas e estatísticas de quantidades de som de espectro de frequência armazenadas separadamente; e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas das inclinações de energia residual de predição linear, com as estatísticas das quantidades de som do espectro de frequência, e com a razão da quantidade de som de espectro de frequência na banda de baixa frequência, em que as estatísticas se referem a um valor de dados obtido após uma operação de cálculo ser realizada em dados armazenados nas memórias.
[00131] Adicionalmente, a obtenção de estatísticas das inclinações de energia residual de predição linear armazenadas e estatísticas de quantidades de som de espectro de frequência armazenadas separadamente incluem: obter uma variação das inclinações de energia resi-dual de predição linear armazenadas; e obter um valor médio das quantidades de som de espectro de frequência armazenadas. A classificação do quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas das inclinações de energia residual de predição linear, com as estatísticas das quantidades de som do espectro de frequência, e com a razão da quantidade de som de espectro de frequência na banda de baixa frequência inclui: quando o quadro de áudio atual for um quadro ativo, e uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: a variação das inclinações de energia residual de predição linear é menor do que um quinto limiar; ou o valor médio das quantidades de som do espectro de frequência é maior do que um sexto limiar; ou a razão da quantidade de som de espectro de frequência na banda de baixa frequência é menor do que um sétimo limiar.
[00132] A obtenção de uma quantidade de som de espectro de frequência do quadro de áudio atual e uma razão da quantidade de som de espectro de frequência em uma banda de baixa frequência inclui: contar uma quantidade de agrupamentos de frequência do quadro de áudio atual que estejam em uma banda de frequência de 0 a 8 kHz e tenham valores de pico de agrupamento de frequência maiores do que um valor predeterminado, para usar a quantidade como a quantidade de som de espectro de frequência; e calcular uma razão de uma quantidade de agrupamentos de frequência do quadro de áudio atual que estejam em uma banda de frequência de 0 a 4 kHz e tenham valores de pico de agrupamento de frequência maiores do que o valor predeterminado para a quantidade dos agrupamentos de frequência do quadro de áudio atual que estejam na banda de frequência de 0 a 8 kHz e tenham valores de pico de agrupamento de frequência maiores do que o valor predeterminado, para usar a razão como a razão da quantidade de som de espectro de frequência na banda de baixa frequência. Em uma modalidade, o valor predeterminado é 50.
[00133] A quantidade de som de espectro de frequência Ntonal denota uma quantidade de agrupamentos de frequência do quadro de áudio atual que estejam em uma banda de frequência de 0 a 8 kHz e tenham valores de pico de agrupamento de frequência maiores do que um valor predeterminado. Em uma modalidade, a quantidade pode ser obtida na seguinte forma: contar uma quantidade de agrupamentos de frequência do quadro de áudio atual que estejam em uma banda de frequência de 0 a 8 kHz e tenham valores de pico p2v_map(i) maiores do que 50, ou seja, Ntonal, em que p2v_map(i) denota uma curtose do iésimo agrupamento de frequência do espectro de frequência, e para uma forma calcular de p2v_map(i), consultar a descrição da modalidade exposta acima.
[00134] A razão ratio_Ntonal_lf da quantidade de som de espectro de frequência na banda de baixa frequência denota uma razão de uma quantidade de som de banda de baixa frequência para a quantidade de som de espectro de frequência. Em uma modalidade, a razão pode ser obtida da seguinte forma: contar uma quantidade Ntonal_lf do quadro de áudio atual que esteja em uma banda de frequência de 0 a 4 kHz e tenha p2v_map(i) maior do que 50. ratio_Ntonal_lf é uma razão de Ntonal_lf para Ntonal, ou seja, Ntonal_lf/Ntonal. O p2v_map(i) denota uma curtose do iésimo agrupamento de frequência do espectro de frequência, e para uma forma de calcular de p2v_map(i), consultar a descrição da modalidade exposta acima. Em outra modalidade, uma média de múltiplos valores de Ntonal armazenados e uma média de múltiplos valores de Ntonal_lf armazenados são obtidos separadamen-te, e uma razão da média dos valores de Ntonal_lf para a média dos valores de Ntonal é calculada para ser usada como a razão da quantidade de som de espectro de frequência na banda de baixa frequência.
[00135] Nessa modalidade, um sinal de áudio é classificado de acordo com as estatísticas de longo prazo de inclinações de energia residual de predição linear. Além disso, tanto a robustez de classificação como uma velocidade de reconhecimento de classificação são consideradas; portanto, há relativamente poucos parâmetros de classificação, mas um resultado é relativamente preciso, a complexidade é baixa, e as sobrecargas de memória são baixas.
[00136] Com referência à Figura 6, outra modalidade de um método de classificação de sinal de áudio inclui: S601: Realizar processamento de divisão de quadro em um sinal de áudio de entrada.
[00137] S602: Obter uma flutuação de espectro de frequência, uma curtose de banda de alta frequência de espectro de frequência, um grau de correlação de espectro de frequência, e uma inclinação de energia residual de predição linear de um quadro de áudio atual.
[00138] O fluxo de flutuação de espectro de frequência denota uma flutuação de energia de curto prazo ou de longo prazo de um espectro de frequência de um sinal, e é um valor médio de valores absolutos de diferenças de energia logarítmicas entre frequências correspondentes de um quadro de áudio atual e um quadro histórico em um espectro de banda baixa e média, em que o quadro histórico se refere a qualquer quadro antes do quadro de áudio atual. A curtose de banda de alta frequência de espectro de frequência ph denota uma curtose ou uma acutância de energia, em uma banda de alta frequência, de um espectro de frequência do quadro de áudio atual. O grau de correlação de espectro de frequência cor_map_sum denota estabilidade, entre quadros adjacentes, de uma estrutura harmônica de sinal. A inclinação de energia residual de predição linear epsP_tilt denota uma medida para a qual a energia residual de predição linear do sinal de áudio de entrada muda conforme uma ordem de predição linear aumenta. Para um método específico para calcular esses parâmetros, consultar a modalidade exposta acima.
[00139] Adicionalmente, um parâmetro vocal pode ser obtido; e o vocal de parâmetro vocal denota um grau de correlação no domínio de tempo entre o quadro de áudio atual e um sinal antes de um período de tom. O vocal de parâmetro vocal é obtido por meio de predição e análise linear, representa um grau de correlação no domínio de tempo entre o quadro de áudio atual e um sinal antes de um período de tom, e tem um valor entre 0 e 1. Isso pertence à técnica anterior e, portanto, não é descrito em detalhes na presente invenção. Nessa modalidade, um vocal é calculado para cada um de dois subquadros do quadro de áudio atual, e os vocais são ponderados para obter um parâmetro vocal do quadro de áudio atual. O parâmetro vocal do quadro de áudio atual também é armazenado em memória temporária em uma memória temporária histórica vocal, e nessa modalidade, o tamanho da memória temporária histórica vocal é 10.
[00140] S603: Armazenar a flutuação de espectro de frequência, a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear em memórias correspondentes.
[00141] Opcionalmente, antes de esses parâmetros serem armazenados, o método inclui adicionalmente: Em uma modalidade, é determinada, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a flutuação de espectro de frequência na memória de flutuação de espectro de frequência. Se o quadro de áudio atual for um quadro ativo, a flutuação de espectro de frequência do quadro de áudio atual é armazenada na memória de flutuação de espectro de frequência.
[00142] Em outra modalidade, é determinado, de acordo com a atividade de voz do quadro de áudio e com a possibilidade de o quadro de áudio ser um ataque de energia, a possibilidade de armazenar a flutuação de espectro de frequência na memória. Se o quadro de áudio atual for um quadro ativo, e o quadro de áudio atual não pertencer a um ataque de energia, a flutuação de espectro de frequência do quadro de áudio atual é armazenada na memória de flutuação de espectro de frequência. Em outra modalidade, se o quadro de áudio atual for um quadro ativo, e nenhum de múltiplos quadros consecutivos que compreendem o quadro de áudio atual e um quadro histórico do quadro de áudio atual pertencerem a um ataque de energia, a flutuação de espectro de frequência do quadro de áudio é armazenada na memória de flutuação de espectro de frequência; caso contrário a flutuação de espectro de frequência não é armazenada. Por exemplo, se o quadro de áudio atual for um quadro ativo, e nem um quadro prévio do quadro de áudio atual nem um segundo quadro histórico do quadro de áudio atual pertencerem a um ataque de energia, a flutuação de espectro de frequência do quadro de áudio é armazenada na memória de flutuação de espectro de frequência; caso contrário a flutuação de espectro de frequência não é armazenada.
[00143] Para definições e formas de obtenção do sinalizador de atividade de voz vad_flag e do sinalizador de ataque de voz attack_flag, consultar a descrição da modalidade exposta acima.
[00144] Opcionalmente, antes de esses parâmetros serem armazenados, o método inclui adicionalmente: Determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear nas memórias; e, se o quadro de áudio atual for um quadro ativo, armazenar os parâmetros; caso contrário omitir armazenar os parâmetros.
[00145] S604: Obter estatísticas de dados eficazes de flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, estatísticas de dados eficazes de graus de correlação de espectro de frequência armazenados, e estatísticas de dados eficazes de inclinações de energia residual de predição linear armazenadas, e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes, em que as estatísticas dos dados eficazes se referem a um valor de dados obtido após uma operação de cálculo ser realizada nos dados eficazes arma- zenados nas memórias, em que a operação de cálculo pode incluir uma operação para obter um valor médio, uma operação para obter uma variação, ou similares.
[00146] Opcionalmente, antes da etapa S604, o método pode incluir adicionalmente: atualizar, de acordo com a possibilidade de o quadro de áudio atual ser música percussiva, as flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência. Em uma modalidade, se o quadro de áudio atual for música percussiva, os valores de flutuação de espectro de frequência válidos na memória de flutuação de espectro de frequência são modificados para um valor menor do que ou igual a um limiar de música, em que quando uma flutuação de espectro de frequência de um quadro de áudio é menor do que o limiar de música, o áudio é classificado como um quadro de música. Em uma modalidade, se o quadro de áudio atual for música percussiva, os valores de flutuação de espectro de frequência válidos na memória de flutuação de espectro de frequência são redefinidos para 5.
[00147] Opcionalmente, antes da etapa S604, o método pode incluir adicionalmente: atualizar as flutuações de espectro de frequência na memória de acordo com a atividade de um quadro histórico do quadro de áudio atual. Em uma modalidade, se for determinado que a flutuação de espectro de frequência do quadro de áudio atual é armazenada na memória de flutuação de espectro de frequência, e um quadro de áudio anterior for um quadro inativo, dados de outras flutuações de espectro de frequência armazenadas na memória de flutuação de espec-tro de frequência exceto a flutuação de espectro de frequência do quadro de áudio atual são modificadas para dados eficazes. Em outra modalidade, se for determinado que a flutuação de espectro de fre- quência do quadro de áudio atual é armazenada na memória de flutuação de espectro de frequência, e três quadros consecutivos antes do quadro de áudio atual não forem todos quadros ativos, a flutuação de espectro de frequência do quadro de áudio atual é modificada para um primeiro valor. O primeiro valor pode ser um limiar de voz, em que quando a flutuação de espectro de frequência do quadro de áudio é maior do que o limiar de voz, o áudio é classificado como um quadro de voz. Em outra modalidade, se for determinado que a flutuação de espectro de frequência do quadro de áudio atual é armazenada na memória de flutuação de espectro de frequência, e um resultado de classificação de um quadro histórico for um quadro de música e a flutuação de espectro de frequência do quadro de áudio atual for maior do que um segundo valor, a flutuação de espectro de frequência do quadro de áudio atual é modificada para o segundo valor, em que o segundo valor é maior do que o primeiro valor.
[00148] Por exemplo, se um quadro prévio do quadro de áudio atual for um quadro inativo (vad_flag = 0), exceto o fluxo de quadro de áudio atual recém-armazenado em memória temporária na memória temporária histórica de fluxo, os dados remanescentes na memória temporária histórica de fluxo são todos redefinidos para -1 (equivalente àqueles dados serem invalidados). Se três quadros consecutivos antes do quadro de áudio atual não forem todos quadros ativos (vad_flag = 1), o fluxo de quadro de áudio atual armazenado há pouco em memória temporária na memória temporária histórica de fluxo é modificado para 16. Se os três quadros consecutivos antes do quadro de áudio atual forem todos quadros ativos (vad_flag = 1), um resultado suave de longo prazo de um resultado de classificação de sinal histórico é um sinal de música e o fluxo de quadro de áudio atual é maior do que 20, a flutuação de espectro de frequência do quadro de áudio atual armazenado em memória temporária é modificada para 20. Para cálculo do qua- dro ativo e o resultado suave de longo prazo do resultado de classificação de sinal histórico, consultar a modalidade exposta acima.
[00149] Em uma modalidade, etapa S604 inclui: obter um valor médio dos dados eficazes das flutuações de espectro de frequência armazenadas, um valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência armazenada, um valor médio dos dados eficazes dos graus de correlação de espectro de frequência armazenados, e uma variação dos dados eficazes das inclinações de energia residual de predição linear armazenadas separadamente; e quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[00150] Geralmente, um valor de flutuação de espectro de frequência de um quadro de música é relativamente pequeno, enquanto que um valor de flutuação de espectro de frequência de um quadro de voz é relativamente grande; um valor de curtose de banda de alta frequência de espectro de frequência de um quadro de música é relativamente grande, e uma curtose de banda de alta frequência de espectro de fre-quência de um quadro de voz é relativamente pequena; um valor de grau de correlação de espectro de frequência de um quadro de música é relativamente grande, e um valor de grau de correlação de espectro de frequência de um quadro de voz é relativamente pequeno; um valor de inclinação de energia residual de predição linear de um quadro de música é relativamente pequeno, e um valor de inclinação de energia residual de predição linear de um quadro de voz é relativamente grande. Portanto, o quadro de áudio atual pode ser classificado de acordo com as estatísticas dos parâmetros expostos acima. Certamente, a classificação de sinal também pode ser realizada no quadro de áudio atual com o uso de outro método de classificação. Por exemplo, uma quantidade de peças de dados eficazes das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência é contada; a memória é dividida, de acordo com a quantidade das peças de dados eficazes, em pelo menos dois intervalos de tama-nhos diferentes a partir de uma extremidade próxima a uma extremidade remota, um valor médio de dados eficazes de flutuações de espectro de frequência correspondente a cada intervalo, um valor médio de dados eficazes de curtose de banda de alta frequência de espectro de frequência, um valor médio de dados eficazes de graus de correlação de espectro de frequência, e uma variação de dados eficazes de inclinações de energia residual de predição linear são obtidos, em que um ponto de início dos intervalos é uma localização de armazenamento da flutuação de espectro de frequência do quadro atual, a extremidade próxima é uma extremidade em que a flutuação de espectro de frequência do quadro atual é armazenada, e a extremidade remota é uma extremidade em que uma flutuação de espectro de frequência de um quadro histórico é armazenada; o quadro de áudio é classificado de acordo com as estatísticas dos dados eficazes dos parâmetros expostos acima em um intervalo relativamente curto, e se estatísticas de parâmetro nesse intervalo forem suficientes para distinguir um tipo do quadro de áudio, o processo de classificação termina; caso contrário o processo de classificação continua no intervalo mais curto dos intervalos relativamente longos remanescentes, e o restante pode ser dedu- zido por analogia. Em um processo de classificação de cada intervalo, o quadro de áudio atual é classificado de acordo com um limiar de classificação correspondente a cada intervalo, e quando uma das condições a seguir for satisfeita, o quadro de áudio atual é classificado como um quadro de música; caso contrário o quadro de áudio atual é classificado como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[00151] Após a classificação de sinal, sinais diferentes podem ser codificados em modos de codificação diferentes. Por exemplo, um sinal de voz é codificado com o uso de um codificador baseado em um modelo de geração de voz (tal como CELP), e um sinal de música é codificado com o uso de um codificador baseado em conversão (tal como um codificador baseado em MDCT).
[00152] Nessa modalidade, a classificação é realizada de acordo com as estatísticas de longo prazo de flutuações de espectro de frequência, com a curtose de banda de alta frequência de espectro de frequência, com os graus de correlação de espectro de frequência, e com as inclinações de energia residual de predição linear. Além disso, tanto a robustez de classificação como uma velocidade de reconhecimento de classificação são consideradas; portanto, há relativamente poucos parâmetros de classificação, mas um resultado é relativamente preciso, uma taxa de reconhecimento é relativamente alta, e a complexidade é relativamente baixa.
[00153] Em uma modalidade, após o fluxo de flutuação de espectro de frequência, a curtose de banda de alta frequência de espectro de frequência ph, o grau de correlação de espectro de frequência cor_map_sum, e a inclinação de energia residual de predição linear epsP_tilt serem armazenados nas memórias correspondentes, a classificação pode ser realizada de acordo com uma quantidade de peças de dados eficazes das flutuações de espectro de frequência armaze-nadas com o uso de processos de determinação diferentes. Se o sinalizador de atividade de voz for definido para 1, ou seja, o quadro de áudio atual for um quadro de voz ativo, a quantidade N das peças de dados eficazes das flutuações de espectro de frequência armazenadas é verificada.
[00154] Se um valor da quantidade N das peças de dados eficazes das flutuações de espectro de frequência armazenadas na memória muda, um processo de determinação também muda.
[00155] (1) Com referência à Figura 7, se N = 60, um valor médio de todos os dados na memória temporária histórica de fluxo é obtido e marcado como flux60, um valor médio de 30 peças de dados em uma extremidade próxima é obtido e marcado como flux30, e um valor médio de 10 peças de dados na extremidade próxima é obtido e marcado como flux10. Um valor médio de todos os dados na memória temporária histórica de ph é obtido e marcado como ph60, um valor médio de 30 peças de dados em uma extremidade próxima é obtido e marcado como ph30, e um valor médio de 10 peças de dados na extremidade próxima é obtido e marcado como ph10. Um valor médio de todos os dados na memória temporária histórica de cor_map_sum é obtido e marcado como cor_map_sum60, um valor médio de 30 peças de dados em uma extremidade próxima é obtido e marcado como cor_map_sum30, e um valor médio de 10 peças de dados na extremidade próxima é obtido e marcado como cor_map_sum10. Além disso, uma variação de todos os dados na memória temporária histórica de epsP_tilt é obtida e marcada como epsP_tilt60, uma variação de 30 peças de dados em uma extremidade próxima é obtida e marcada como epsP_tilt30, e uma variação de 10 peças de dados na extremidade próxima é obtida e marcada como epsP_tilt10. Uma quantidade vo- cal_cnt de peças de dados cujo valor é maior do que 0,9 na memória temporária histórica vocal é obtida. A extremidade próxima é uma extremidade em que os parâmetros expostos acima correspondentes ao quadro de áudio atual são armazenados.
[00156] Primeiramente, é verificada a possibilidade de flux10, ph10, epsP_tilt10, cor_map_sum10, e vocal_cnt satisfazerem as seguintes condições: flux10 < 10 ou epsPtilt10 < 0,0001 ou ph10 > 1050 ou cor_map_sum10 > 95, e vocal_cnt < 6. Se as condições forem satisfeitas, o quadro de áudio atual é classificado como um tipo música (ou seja, modo = 1). Caso contrário, é verificada a possibilidade de flux10 ser maior do que 15 e a possibilidade de vocal_cnt ser maior do que 2, ou a possibilidade de flux10 ser maior do que 16. Se as condições forem satisfeitas, o quadro de áudio atual é classificado como um tipo voz (ou seja, modo = 0). Caso contrário, é verificada a possibilidade de flux30, flux10, ph30, epsP_tilt30, cor_map_sum30, e vocal_cnt satisfazerem as seguintes condições: flux30 < 13 e flux10 < 15, ou epsPtilt30 < 0,001 ou ph30 > 800 ou cor_map_sum30 > 75. Se as condições forem satisfeitas, o quadro de áudio atual é classificado como um tipo música. Caso contrário, é verificada a possibilidade de flux60, flux30, ph60, epsP_tilt60, e cor_map_sum60 satisfazerem as seguintes condições: flux60 < 14.5 ou cor_map_sum30 > 75 ou ph60 > 770 ou epsP_tilt10 < 0,002, e flux30 < 14. Se as condições forem satisfeitas, o quadro de áudio atual é classificado como um tipo música; caso con-trário o quadro de áudio atual é classificado como um tipo voz.
[00157] (2) Com referência à Figura 8, se N < 60 e N > 30, um valor médio de N peças de dados em uma extremidade próxima na memória temporária histórica de fluxo, um valor médio de N peças de dados em uma extremidade próxima na memória temporária histórica de ph, e um valor médio de N peças de dados em uma extremidade próxima na memória temporária histórica de cor_map_sum são obtidos separadamente e marcados como fluxN, phN, e cor_map_sumN. Além disso, uma variação de N peças de dados em uma extremidade próxima na memória temporária histórica de epsP_tilt é obtida e marcada como epsP_tiltN. É verificada a possibilidade de fluxN, phN, epsP_tiltN, e cor_map_sumN satisfazerem as seguintes condições: fluxN < 13 + (N - 30)/20 ou cor_map_sumN > 75 + (N - 30)/6 ou phN > 800 ou epsP_tiltN < 0,001. Se a condição for satisfeita, o quadro de áudio atual é classificado como um tipo música; caso contrário o quadro de áudio atual é classificado como um tipo voz.
[00158] (3) Com referência à Figura 9, se N < 30 e N > 10, um valor médio de N peças de dados em uma extremidade próxima na memória temporária histórica de fluxo, um valor médio de N peças de dados em uma extremidade próxima na memória temporária histórica de ph, e um valor médio de N peças de dados em uma extremidade próxima na memória temporária histórica de cor_map_sum são obtidos separadamente e marcados como fluxN, phN, e cor_map_sumN. Além disso, uma variação de N peças de dados em uma extremidade próxima na memória temporária histórica de epsP_tilt é obtido e marcado como epsP_tiltN.
[00159] Primeiramente, é verificada a possibilidade de uma média de movimento de longo prazo mode_mov de um resultado de classificação histórico ser maior do que 0,8. Em caso afirmativo, é verificada a possibilidade de fluxN, phN, epsP_tiltN, e cor_map_sumN satisfazerem as seguintes condições: fluxN < 16 + (N - 10)/20 ou phN > 1.000 - 12,5 x (N-10) ou epsP_tiltN < 0,0005 + 0,000045 x (N - 10) ou cor_map_sumN > 90 - (N - 10). Caso contrário, uma quantidade vo- cal_cnt de peças de dados cujo valor é maior do que 0,9 na memória temporária histórica vocal é obtido, e é verificada a possibilidade das seguintes condições serem satisfeitas: fluxN < 12 + (N - 10)/20 ou phN > 1050 - 12,5 x (N - 10) ou epsP_tiltN < 0,0001 + 0,000045 x (N - 10) ou cor_map_sumN > 95 - (N - 10), e vocal_cnt < 6. Se qualquer grupo dos dois grupos de condições expostos acima for satisfeito, o quadro de áudio atual é classificado como um tipo música; caso contrário o quadro de áudio atual é classificado como um tipo voz.
[00160] (4) Com referência à Figura 10, se N < 10 e N > 5, um valor médio de N peças de dados em uma extremidade próxima na memória temporária histórica de ph e um valor médio de N peças de dados em uma extremidade próxima na memória temporária histórica de cor_map_sum são obtidos e marcados como phN e cor_map_sumN, e uma variação de N peças de dados em uma extremidade próxima na memória temporária histórica de epsP_tilt é obtido e marcado como epsP_tiltN. Além disso, uma quantidade vocal_cnt6 de peças de dados cujo valor é maior do que 0,9 entre seis peças de dados em uma extremidade próxima na memória temporária histórica vocal é obtida.
[00161] É verificada a possibilidade de as seguintes condições serem satisfeitas: epsP_tiltN < 0,00008 ou phN > 1.100 ou cor_map_sumN > 100, e vocal_cnt < 4. Se as condições forem satisfeitas, o quadro de áudio atual é classificado como um tipo música; caso contrário o quadro de áudio atual é classificado como um tipo voz.
[00162] (5) Se N < 5, um resultado de classificação de um quadro de áudio anterior é usado como um tipo de classificação do quadro de áudio atual.
[00163] A modalidade exposta acima é um processo de classificação específico em que classificação é realizada de acordo com as estatísticas de longo prazo de flutuações de espectro de frequência, com a curtose de banda de alta frequência de espectro de frequência, com os graus de correlação de espectro de frequência, e inclinações de energia residual de predição linear, e um indivíduo versado na técnica pode compreender que, a classificação pode ser realizada com o uso de outro processo. O processo de classificação nessa modalidade po-de ser aplicado às etapas correspondentes na modalidade exposta acima, para servir como, por exemplo, um método de classificação específico da etapa 103 na Figura 2, etapa 105 na Figura 4, ou etapa 604 na Figura 6.
[00164] Com referência à Figura 11, outra modalidade de um método de classificação de sinal de áudio inclui: S1101: Realizar o processamento de divisão de quadro em um sinal de áudio de entrada.
[00165] S1102: Obter uma inclinação de energia residual de predi ção linear e uma quantidade de som de espectro de frequência de um quadro de áudio atual e uma razão da quantidade de som de espectro de frequência em uma banda de baixa frequência.
[00166] A inclinação de energia residual de predição linear epsP_tilt denota uma medida para a qual a energia residual de predição linear do sinal de áudio de entrada muda conforme uma ordem de predição linear aumenta; a quantidade de som de espectro de frequência Ntonal denota uma quantidade de agrupamentos de frequência do quadro de áudio atual que estão em uma banda de frequência de 0 a 8 kHz e têm valores de pico de agrupamento de frequência maiores do que um va-lor predeterminado; a razão ratio_Ntonal_lf da quantidade de som de espectro de frequência na banda de baixa frequência denota uma razão de uma quantidade de som de banda de baixa frequência para a quantidade de som de espectro de frequência. Para cálculo específico, consultar a descrição da modalidade exposta acima.
[00167] S1103: Armazenar a inclinação de energia residual de pre- dição linear epsP_tilt, a quantidade de som de espectro de frequência, e a razão da quantidade de som de espectro de frequência na banda de baixa frequência em memórias correspondentes.
[00168] A inclinação de energia residual de predição linear epsP_tilt e a quantidade de som de espectro de frequência do quadro de áudio atual são armazenadas em memória temporária em respectivas memórias temporárias históricas, e nessa modalidade, os tamanhos das duas memórias temporárias também são ambos 60.
[00169] Opcionalmente, antes de esses parâmetros serem armazenados, o método inclui adicionalmente: determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a inclinação de energia residual de predição linear, a quantidade de som de espectro de frequência, e a razão da quantidade de som de espectro de frequência na banda de baixa frequência nas memórias; e armazenar a inclinação de energia residual de predição linear em uma memória quando for determinado que a inclinação de energia residual de predição linear precisa ser armazenada. Se o quadro de áudio atual for um quadro ativo, os parâmetros são armazenados; caso contrário os parâmetros são não armazenados.
[00170] S1104: Obter estatísticas de inclinações de energia residual de predição linear armazenadas e estatísticas de quantidades de som de espectro de frequência armazenadas separadamente, em que as estatísticas se referem a um valor de dados obtido após uma operação de cálculo ser realizada em dados armazenados nas memórias, em que a operação de cálculo pode incluir uma operação para obter um valor médio, uma operação para obter uma variação, ou similares.
[00171] Em uma modalidade, a obtenção de estatísticas de inclinações de energia residual de predição linear armazenadas e estatísticas de quantidades de som de espectro de frequência armazenadas separadamente inclui: obter uma variação das inclinações de energia resi dual de predição linear armazenadas; e obter um valor médio das quantidades de som de espectro de frequência armazenadas.
[00172] S1105: Classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas das inclinações de energia residual de predição linear, com as estatísticas das quantidades de som do espectro de frequência, e com a razão da quantidade de som de espectro de frequência na banda de baixa frequência.
[00173] Em uma modalidade, essa etapa inclui: quando o quadro de áudio atual for um quadro ativo, e uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: a variação das inclinações de energia residual de predição linear é menor do que um quinto limiar; ou o valor médio das quantidades de som do espectro de frequência é maior do que um sexto limiar; ou a razão da quantidade de som de espectro de frequência na banda de baixa frequência é menor do que um sétimo limiar.
[00174] Geralmente, um valor de inclinação de energia residual de predição linear de um quadro de música é relativamente pequeno, e um valor de inclinação de energia residual de predição linear de um quadro de voz é relativamente grande; uma quantidade de som de espectro de frequência de um quadro de música é relativamente grande, e uma quantidade de som de espectro de frequência de um quadro de voz é relativamente pequena; uma razão de uma quantidade de som de espectro de frequência de um quadro de música em uma banda de baixa frequência é relativamente baixa, e uma razão de uma quantidade de som de espectro de frequência de um quadro de voz na banda de baixa frequência é relativamente alta (energia do quadro de voz é concentrada principalmente na banda de baixa frequência). Portanto, o quadro de áudio atual pode ser classificado de acordo com as estatísticas dos parâmetros expostos acima. Certamente, a classificação de sinal também pode ser realizada no quadro de áudio atual com o uso de outro método de classificação.
[00175] Após a classificação de sinal, sinais diferentes podem ser codificados em modos de codificação diferentes. Por exemplo, um sinal de voz é codificado com o uso de um codificador baseado em um modelo de geração de voz (tal como CELP), e um sinal de música é codificado com o uso de um codificador baseado em conversão (tal como um codificador baseado em MDCT).
[00176] Na modalidade exposta acima, um sinal de áudio é classificado de acordo com as estatísticas de longo prazo de inclinações de energia residual de predição linear e com quantidades de som do espectro de frequência e com uma razão de uma quantidade de som de espectro de frequência em uma banda de baixa frequência; portanto, há relativamente poucos parâmetros, uma taxa de reconhecimento é relativamente alta, e a complexidade é relativamente baixa.
[00177] Em uma modalidade, após a inclinação de energia residual de predição linear epsP_tilt, a quantidade de som de espectro de frequência Ntonal, e a razão ratio_Ntonal_lf da quantidade de som de espectro de frequência na banda de baixa frequência serem armazenadas em memórias temporárias correspondentes, uma variação de todos os dados na memória temporária histórica de epsP_tilt é obtido e marcado como epsP_tilt60. Um valor médio de todos os dados na memória temporária histórica de Ntonal é obtido e marcado como Nto- nal 60. Um valor médio de todos os dados na memória temporária histórica de Ntonal_If é obtido, e uma razão do valor médio para Ntonal60 é calculado e marcado como ratio_Ntonal_lf60. Com referência à Figura 12, um quadro de áudio atual é classificado de acordo com a se- guinte regra:
[00178] Se um sinalizador de atividade de voz for 1 (ou seja, vad_flag = 1), ou seja, o quadro de áudio atual for um quadro de voz ativo, é verificada a possibilidade de a seguinte condição ser satisfeita: epsP_tilt60 < 0,002 ou Ntonal60 > 18 ou ratio_Ntonal_lf60 < 0,42, se a condição for satisfeitas, o quadro de áudio atual é classificado como um tipo música (ou seja, modo = 1); caso contrário o quadro de áudio atual é classificado como um tipo voz (ou seja, modo = 0).
[00179] A modalidade exposta acima é um processo de classificação específico em que classificação é realizada de acordo com as estatísticas de inclinações de energia residual de predição linear, estatísticas de quantidades de som do espectro de frequência, e uma razão de uma quantidade de som de espectro de frequência em uma banda de baixa frequência, e um indivíduo versado na técnica pode compre-ender que a classificação pode ser realizada com o uso de outro processo. O processo de classificação nessa modalidade pode ser aplicado a etapas correspondentes na modalidade exposta acima, para servir como, por exemplo, um método de classificação específico da etapa 504 na Figura 5 ou etapa 1105 na Figura 11.
[00180] A presente invenção fornece um método de seleção de modo de codificação de áudio que tem baixa complexidade e baixas sobrecargas de memória. Além disso, tanto a robustez de classificação como uma velocidade de reconhecimento de classificação são consideradas.
[00181] Em associação com a modalidade de método exposta acima, a presente invenção fornece adicionalmente um aparelho de classificação de sinal de áudio, e o aparelho pode ser localizado em um dispositivo de terminal ou um dispositivo de rede. O aparelho de classificação de sinal de áudio pode realizar as etapas da modalidade de método expostas acima.
[00182] Com referência à Figura 13, a presente invenção fornece uma modalidade de um aparelho de classificação de sinal de áudio, em que o aparelho é configurado para classificar um sinal de áudio de entrada, e inclui: uma unidade de determinação de armazenamento 1301, configurada para determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de obter e armazenar uma flutuação de espectro de frequência do quadro de áudio atual, em que a flutuação de espectro de frequência denota uma flutuação de energia de um espectro de frequência de um sinal de áudio; uma memória 1302, configurada para armazenar a flutuação de espectro de frequência quando a unidade de determinação de armazenamento emite um resultado de que a flutuação de espectro de frequência precisa ser armazenada; uma unidade de atualização 1303, configurada para atualizar, de acordo com a possibilidade de um quadro de voz ser música percussiva ou com a atividade de um quadro de áudio histórico, flutuações de espectro de frequência armazenadas na memória; e uma unidade de classificação 1304, configurada para classificar o quadro de áudio atual como um quadro de voz ou um quadro de música de acordo com as estatísticas de uma parte ou todos os dados eficazes das flutuações de espectro de frequência armazenadas na memória; e quando as estatísticas de dados eficazes das flutuações de espectro de frequência satisfizerem uma condição de classificação de voz, classificar o quadro de áudio atual como um quadro de voz; ou quando as estatísticas dos dados eficazes das flutuações de espectro de frequência satisfizerem uma condição de classificação de música, classificar o quadro de áudio atual como um quadro de música.
[00183] Em uma modalidade, a unidade de determinação de arma- zenamento é configurada especificamente para: quando for determinado que o quadro de áudio atual é um quadro ativo, emitir um resultado de que a flutuação de espectro de frequência do quadro de áudio atual precisa ser armazenada.
[00184] Em outra modalidade, a unidade de determinação de armazenamento é configurada especificamente para: quando for determinado que o quadro de áudio atual é um quadro ativo, e o quadro de áudio atual não pertencer a um ataque de energia, emitir um resultado de que a flutuação de espectro de frequência do quadro de áudio atual precisa ser armazenada.
[00185] Em outra modalidade, a unidade de determinação de armazenamento é configurada especificamente para: quando for determinado que o quadro de áudio atual é um quadro ativo, e nenhum de múltiplos quadros consecutivos que compreendem o quadro de áudio atual e um quadro histórico do quadro de áudio atual pertencerem a um ataque de energia, emitir um resultado de que a flutuação de espectro de frequência do quadro de áudio atual precisa ser armazena-da.
[00186] Em uma modalidade, a unidade de atualização é configurada especificamente para: se o quadro de áudio atual pertencer à música percussiva, modificar os valores das flutuações de espectro de frequência armazenados na memória de flutuação de espectro de frequência.
[00187] Em outra modalidade, a unidade de atualização é configurada especificamente para: se o quadro de áudio atual for um quadro ativo, e um quadro de áudio anterior for um quadro inativo, modificar dados de outras flutuações de espectro de frequência armazenados na memória exceto a flutuação de espectro de frequência do quadro de áudio atual para dados ineficazes; ou se o quadro de áudio atual for um quadro ativo, e três quadros consecutivos antes do quadro de áu- dio atual não forem todos quadros ativos, modificar a flutuação de espectro de frequência do quadro de áudio atual para um primeiro valor; ou se o quadro de áudio atual for um quadro ativo, e um resultado de classificação histórico for um sinal de música e a flutuação de espectro de frequência do quadro de áudio atual for maior do que um segundo valor, modificar a flutuação de espectro de frequência do quadro de áudio atual para o segundo valor, em que o segundo valor é maior do que o primeiro valor.
[00188] Com referência à Figura 14, em uma modalidade, a unidade de classificação 1303 inclui: uma unidade de cálculo 1401, configurada para obter um valor médio de uma parte ou todos os dados eficazes das flutuações de espectro de frequência armazenadas na memória; e uma unidade de determinação 1402, configurada para comparar o valor médio dos dados eficazes das flutuações de espectro de frequência a uma condição de classificação de música; e quando o valor médio dos dados eficazes das flutuações de espectro de frequência satisfizer a condição de classificação de música, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz.
[00189] Por exemplo, quando o valor médio obtido dos dados eficazes das flutuações de espectro de frequência for menor do que um limiar de classificação de música, o quadro de áudio atual é classificado como um quadro de música; caso contrário o quadro de áudio atual é classificado como um quadro de voz.
[00190] Na modalidade exposta acima, devido ao fato de um sinal de áudio ser classificado de acordo com as estatísticas de longo prazo de flutuações de espectro de frequência, há relativamente poucos parâmetros, uma taxa de reconhecimento é relativamente alta, e a complexidade é relativamente baixa. Além disso, as flutuações de espectro de frequência são ajustadas considerando fatores tais como atividade de voz e música percussiva; portanto, a presente invenção tem uma taxa de reconhecimento mais alta para um sinal de música, e é adequada para classificação de sinal de áudio híbrido.
[00191] Em outra modalidade, o aparelho de classificação de sinal de áudio inclui adicionalmente: uma unidade de obtenção de parâmetro, configurada para obter uma curtose de banda de alta frequência de espectro de frequência, um grau de correlação de espectro de frequência, e uma inclinação de energia residual de predição linear do quadro de áudio atual, em que a curtose de banda de alta frequência de espectro de frequência denota uma curtose ou uma acutância de energia, em uma banda de alta frequência, de um espectro de frequência do quadro de áudio atual; o grau de correlação de espectro de frequência denota estabilidade, entre quadros adjacentes, de uma estrutura harmônica de sinal do quadro de áudio atual; e a inclinação de energia residual de predição linear denota uma medida para a qual a energia residual de predição linear do sinal de áudio muda conforme uma ordem de predição linear aumenta; em que a unidade de determinação de armazenamento é configurada adicionalmente para determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear; a unidade de armazenamento é configurada adicionalmente para: quando a unidade de determinação de armazenamento emitir um resultado de que a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear precisam ser armazena- dos, armazenar a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear; e a unidade de classificação é configurada especificamente para obter estatísticas de dados eficazes das flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, estatísticas de dados eficazes de graus de correlação de espectro de frequência armazenados, e estatísticas de dados eficazes de inclinações de energia residual de predição linear armazenadas, e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes; e quando as estatísticas dos dados eficazes das flutuações de espectro de frequência satisfizerem uma condição de classificação de voz, classificar o quadro de áudio atual como um quadro de voz; ou quando as estatísticas dos dados eficazes das flutuações de espectro de frequência satisfizerem uma condição de classificação de música, classificar o quadro de áudio atual como um quadro de música.
[00192] Em uma modalidade, a unidade de classificação inclui especificamente: uma unidade de cálculo, configurada para obter um valor médio dos dados eficazes das flutuações de espectro de frequência armazenadas, um valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência armazenada, um valor médio dos dados eficazes dos graus de correlação de espectro de frequência armazenados, e uma variação dos dados eficazes das inclina-ções de energia residual de predição linear armazenadas separadamente; e uma unidade de determinação, configurada para: quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[00193] Na modalidade exposta acima, um sinal de áudio é classificado de acordo com as estatísticas de longo prazo de flutuações de espectro de frequência, com curtose de banda de alta frequência de espectro de frequência, graus de correlação de espectro de frequência, e com inclinações de energia residual de predição linear; portanto, há relativamente poucos parâmetros, uma taxa de reconhecimento é relativamente alta, e a complexidade é relativamente baixa. Além disso, as flutuações de espectro de frequência são ajustadas considerando fatores tais como atividade de voz e música percussiva, e as flutuações de espectro de frequência são modificadas de acordo com um ambiente de sinal em que o quadro de áudio atual é localizado; portanto, a presente invenção melhora uma taxa de reconhecimento de clas-sificação, e é adequada para classificação de sinal de áudio híbrido.
[00194] Com referência à Figura 15, a presente invenção fornece outra modalidade de um aparelho de classificação de sinal de áudio, em que o aparelho é configurado para classificar um sinal de áudio de entrada, e inclui: uma unidade divisora de quadro 1501, configurada para realizar o processamento de divisão de quadro em um sinal de áudio de entrada; uma unidade de obtenção de parâmetro 1502, configurada para obter uma inclinação de energia residual de predição linear de um quadro de áudio atual, em que a inclinação de energia residual de predição linear denota uma medida para a qual a energia residual de predição linear do sinal de áudio muda conforme uma ordem de predição linear aumenta; uma unidade de armazenamento 1503, configurada para armazenar a inclinação de energia residual de predição linear; e uma unidade de classificação 1504, configurada para classificar o quadro de áudio de acordo com as estatísticas de uma parte de dados de inclinações de energia residual de predição em uma memória.
[00195] Com referência à Figura 16, o aparelho de classificação de sinal de áudio inclui adicionalmente: uma unidade de determinação de armazenamento 1505, configurada para determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a inclinação de energia residual de predição linear na memória, em que a unidade de armazenamento 1503 é configurada especificamente para: quando a unidade de determinação de armazenamento determinar que a inclinação de energia residual de predição linear precisa ser armazenada, armazenar a inclinação de energia residual de predição linear na memória.
[00196] Em uma modalidade, as estatísticas da parte dos dados das inclinações de energia residual de predição são uma variação da parte dos dados das inclinações de energia residual de predição; e a unidade de classificação é configurada especificamente para comparar a variação da parte dos dados das inclinações de energia residual de predição com um limiar de classificação de música, e quando a variação da parte dos dados das inclinações de energia residual de predição for menor do que o limiar de classificação de músi- ca, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz.
[00197] Em outra modalidade, a unidade de obtenção de parâmetro é configurada adicionalmente para: obter uma flutuação de espectro de frequência, uma curtose de banda de alta frequência de espectro de frequência, e um grau de correlação de espectro de frequência do quadro de áudio atual, e armazenar a flutuação de espectro de frequência, a curtose de banda de alta frequência de espectro de fre-quência, e o grau de correlação de espectro de frequência em memórias correspondentes; e a unidade de classificação é configurada especificamente para obter estatísticas de dados eficazes de flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, esta-tísticas de dados eficazes de graus de correlação de espectro de frequência armazenados, e estatísticas de dados eficazes das inclinações de energia residual de predição linear armazenadas, e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes, em que as estatísticas dos dados eficazes se referem a um valor de dados obtido após uma operação de cálculo ser realizada nos dados eficazes armazenados nas memórias.
[00198] Com referência à Figura 17, especificamente, em uma modalidade, a unidade de classificação 1504 inclui: uma unidade de cálculo 1701, configurada para obter um valor médio dos dados eficazes das flutuações de espectro de frequência armazenadas, um valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência armazenada, um valor médio dos dados eficazes dos graus de correlação de espec- tro de frequência armazenados, e uma variação dos dados eficazes das inclinações de energia residual de predição linear armazenadas separadamente; e uma unidade de determinação 1702, configurada para: quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[00199] Em outra modalidade, a unidade de obtenção de parâmetro é configurada adicionalmente para obter uma quantidade de som de espectro de frequência do quadro de áudio atual e uma razão da quantidade de som de espectro de frequência em uma banda de baixa frequência, e armazenar a quantidade de som de espectro de frequência e a razão da quantidade de som de espectro de frequência na banda de baixa frequência nas memórias; e a unidade de classificação é configurada especificamente para obter estatísticas das inclinações de energia residual de predição linear armazenadas e estatísticas de quantidades de som de espectro de frequência armazenadas separadamente; e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas das inclinações de energia residual de predição linear, as estatísticas das quantidades de som do espectro de frequência, e a razão da quantidade de som de espectro de frequência na banda de baixa frequência, em que as estatísticas dos dados eficazes se referem a um valor de dados obtido após uma operação de cálculo ser realizada em dados armazenados nas memórias.
[00200] Especificamente, a unidade de classificação inclui: uma unidade de cálculo, configurada para obter uma variação de dados eficazes das inclinações de energia residual de predição linear armazenadas e um valor médio das quantidades de som de espectro de frequência armazenadas; e uma unidade de determinação, configurada para: quando o quadro de áudio atual for um quadro ativo, e uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: a variação das inclinações de energia residual de predição linear é menor do que um quinto limiar; ou o valor médio das quantidades de som do espectro de frequência é maior do que um sexto limiar; ou a razão da quantidade de som de espectro de frequência na banda de baixa frequência é menor do que um sétimo limiar.
[00201] Especificamente, a unidade de obtenção de parâmetro obtém a inclinação de energia residual de predição linear do quadro de áudio atual de acordo com a seguinte fórmula:
Figure img0026
em que epsP(i) denota a energia residual de predição de predição linear de iésima ordem do quadro de áudio atual; e n é um número inteiro positivo, denota uma ordem de predição linear, e é menor do que ou igual a uma ordem máxima de predição linear.
[00202] Especificamente, a unidade de obtenção de parâmetro é configurada para contar uma quantidade de agrupamentos de frequência do quadro de áudio atual que estão em uma banda de frequência de 0 a 8 kHz e têm valores de pico de agrupamento de fre- quência maiores do que um valor predeterminado, para usar a quantidade como a quantidade de som de espectro de frequência; e a unidade de obtenção de parâmetro é configurada para calcular uma razão de uma quantidade de agrupamentos de frequência do quadro de áudio atual que estão em uma banda de frequência de 0 a 4 kHz e têm valores de pico de agrupamento de frequência maiores do que o valor predeterminado para a quantidade dos agrupamentos de frequência do quadro de áudio atual que estão na banda de frequência de 0 a 8 kHz e têm valores de pico de agrupamento de frequência maiores do que o valor predeterminado, para usar a razão como a razão da quantidade de som de espectro de frequência na banda de baixa frequência.
[00203] Nessa modalidade, um sinal de áudio é classificado de acordo com as estatísticas de longo prazo de inclinações de energia residual de predição linear. Além disso, tanto a robustez de classificação como uma velocidade de reconhecimento de classificação são consideradas; portanto, há relativamente poucos parâmetros de classificação, mas um resultado é relativamente preciso, a complexidade é baixa, e as sobrecargas de memória são baixas.
[00204] A presente invenção fornece outra modalidade de um aparelho de classificação de sinal de áudio, em que o aparelho é configurado para classificar um sinal de áudio de entrada, e inclui: uma unidade divisora de quadro, configurada para realizar o processamento de divisão de quadro em um sinal de áudio de entrada; uma unidade de obtenção de parâmetro, configurada para obter uma flutuação de espectro de frequência, uma curtose de banda de alta frequência de espectro de frequência, um grau de correlação de espectro de frequência, e uma inclinação de energia residual de predição linear de um quadro de áudio atual, em que a flutuação de espectro de frequência denota uma flutuação de energia de um espectro de frequência do sinal de áudio; a curtose de banda de alta frequência de espectro de frequência denota uma curtose ou uma acu- tância de energia, em uma banda de alta frequência, de um espectro de frequência do quadro de áudio atual; o grau de correlação de espectro de frequência denota estabilidade, entre quadros adjacentes, de uma estrutura harmônica de sinal do quadro de áudio atual; e a inclinação de energia residual de predição linear denota uma medida para a qual a energia residual de predição linear do sinal de áudio muda conforme uma ordem de predição linear aumenta; uma unidade de armazenamento, configurada para armazenar a flutuação de espectro de frequência, a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear; e uma unidade de classificação, configurada para obter estatísticas de dados eficazes de flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, estatísticas de dados eficazes de graus de correlação de espectro de frequência armazenados, e estatísticas de dados eficazes de inclinações de energia residual de predição linear armazenadas, e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes, em que as estatísticas dos dados eficazes se referem a um valor de dados obtido após uma operação de cálculo ser realizada nos dados eficazes armazenados nas memórias, em que a operação de cálculo pode incluir uma operação para obter um valor médio, uma operação para obter uma variação, ou similares.
[00205] Em uma modalidade, o aparelho de classificação de sinal de áudio pode incluir adicionalmente: uma unidade de determinação de armazenamento, configurada para determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a flutuação de espectro de frequência, a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear do quadro de áudio atual; e uma unidade de armazenamento é configurada especifica-mente para: quando a unidade de determinação de armazenamento emitir um resultado de que a flutuação de espectro de frequência, a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear precisam ser armazenados, armazenar a flutuação de espectro de frequência, a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear.
[00206] Especificamente, em uma modalidade, a unidade de determinação de armazenamento determina, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade de armazenar a flutuação de espectro de frequência na memória de flutuação de espectro de frequência. Se o quadro de áudio atual for um quadro ativo, a unidade de determinação de armazenamento emite um resultado de que o parâmetro precisa ser armazenado; caso contrário a unidade de de-terminação de armazenamento emite um resultado de que o parâmetro não precisa ser armazenado. Em outra modalidade, a unidade de determinação de armazenamento determina, de acordo com a atividade de voz do quadro de áudio e com a possibilidade de o quadro de áudio ser um ataque de energia, a possibilidade de armazenar a flutuação de espectro de frequência na memória. Se o quadro de áudio atual for um quadro ativo, e o quadro de áudio atual não pertencer a um ataque de energia, a flutuação de espectro de frequência do qua dro de áudio atual é armazenada na memória de flutuação de espectro de frequência. Em outra modalidade, se o quadro de áudio atual for um quadro ativo, e nenhum de múltiplos quadros consecutivos que compreendem o quadro de áudio atual e um quadro histórico do quadro de áudio atual pertencerem a um ataque de energia, a flutuação de espectro de frequência do quadro de áudio é armazenada na memória de flutuação de espectro de frequência; caso contrário a flutuação de espectro de frequência não é armazenada. Por exemplo, se o quadro de áudio atual for um quadro ativo, e nem um prévio quadro do quadro de áudio atual nem um segundo quadro histórico do quadro de áudio atual pertencerem a um ataque de energia, a flutuação de espectro de frequência do quadro de áudio é armazenada na memória de flutuação de espectro de frequência; caso contrário a flutuação de espectro de frequência não é armazenada.
[00207] Em uma modalidade, a unidade de classificação inclui: uma unidade de cálculo, configurada para obter um valor médio dos dados eficazes das flutuações de espectro de frequência armazenadas, um valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência armazenada, um valor médio dos dados eficazes dos graus de correlação de espectro de frequência armazenados, e uma variação dos dados eficazes das inclina-ções de energia residual de predição linear armazenadas separadamente; e uma unidade de determinação, configurada para: quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
[00208] Para uma forma específica para calcular a flutuação de espectro de frequência, a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear do quadro de áudio atual, consultar a modalidade de método exposta acima.
[00209] Adicionalmente, o aparelho de classificação de sinal de áudio pode incluir adicionalmente: uma unidade de atualização, configurada para atualizar, de acordo com a possibilidade de um quadro de voz ser música percussi- va ou atividade de um quadro de áudio histórico, as flutuações de espectro de frequência armazenadas na memória. Em uma modalidade, a unidade de atualização é configurada especificamente para: se o quadro de áudio atual pertencer à música percussiva, modificar valo-res das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência. Em outra modalidade, a unidade de atualização é configurada especificamente para: se o quadro de áudio atual for um quadro ativo, e um quadro de áudio anterior for um quadro inativo, modificar dados de outras flutuações de espectro de frequência armazenadas na memória exceto a flutuação de espectro de frequência do quadro de áudio atual para dados ineficazes; ou se o quadro de áudio atual for um quadro ativo, e três quadros consecutivos antes do quadro de áudio atual não forem todos quadros ativos, modificar a flutuação de espectro de frequência do quadro de áudio atual para um primeiro valor; ou se o quadro de áudio atual for um quadro ativo, e um resultado de classificação histórico for um sinal de música e a flutuação de espectro de frequência do quadro de áudio atual for maior do que um segundo valor, modificar a flutuação de espectro de frequência do quadro de áudio atual para o segundo valor, em que o segundo valor é maior do que o primeiro valor.
[00210] Nessa modalidade, a classificação é realizada de acordo com as estatísticas de longo prazo de flutuações de espectro de frequência, curtose de banda de alta frequência de espectro de frequência, graus de correlação de espectro de frequência, e inclinações de energia residual de predição linear. Além disso, tanto a robustez de classificação como uma velocidade de reconhecimento de classificação são consideradas; portanto, há relativamente poucos parâmetros de classificação, mas um resultado é relativamente preciso, uma taxa de reconhecimento é relativamente alta, e a complexidade é relativamente baixa.
[00211] A presente invenção fornece outra modalidade de um aparelho de classificação de sinal de áudio, em que o aparelho é configurado para classificar um sinal de áudio de entrada, e inclui: uma unidade divisora de quadro, configurada para realizar o processamento de divisão de quadro em um sinal de áudio de entrada; uma unidade de obtenção de parâmetro, configurada para obter uma inclinação de energia residual de predição linear e uma quantidade de som de espectro de frequência de um quadro de áudio atual e uma razão da quantidade de som de espectro de frequência em uma banda de baixa frequência, em que a inclinação de energia residual de predição linear epsP_tilt denota uma medida para a qual a energia residual de predição linear do sinal de áudio de entrada muda como uma ordem de predição linear aumenta; a quantidade de som de espectro de frequência Ntonal denota uma quantidade de agrupamentos de frequência do quadro de áudio atual que estão em uma banda de frequência de 0 a 8 kHz e têm valores de pico de agrupamento de frequência maiores do que um valor predeterminado; e a razão ra- tio_Ntonal_lf da quantidade de som de espectro de frequência na banda de baixa frequência denota uma razão de uma quantidade de som de banda de baixa frequência para a quantidade de som de espectro de frequência, em que, para o cálculo específico, consultar a descrição da modalidade exposta acima; uma unidade de armazenamento, configurada para armazenar a inclinação de energia residual de predição linear, a quantidade de som de espectro de frequência, e a razão da quantidade de som de espectro de frequência na banda de baixa frequência; e uma unidade de classificação, configurada para obter estatísticas de inclinações de energia residual de predição linear armazenadas e estatísticas de quantidades de som de espectro de frequência armazenadas separadamente; e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas das inclinações de energia residual de predição linear, as estatís-ticas das quantidades de som do espectro de frequência, e a razão da quantidade de som de espectro de frequência na banda de baixa frequência, em que as estatísticas dos dados eficazes se referem a um valor de dados obtido após uma operação de cálculo ser realizada em dados armazenados nas memórias.
[00212] A unidade de classificação inclui especificamente uma unidade de cálculo, configurada para obter uma variação de dados eficazes das inclinações de energia residual de predição linear armazenadas e um valor médio das quantidades de som de espectro de frequência armazenadas; e uma unidade de determinação, configurada para: quando o quadro de áudio atual for um quadro ativo, e uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: a variação das inclinações de energia residual de predição linear é menor do que um quinto limiar; ou o valor médio das quantidades de som do espectro de frequência é maior do que um sexto limiar; ou a razão da quantidade de som de espectro de frequência na banda de baixa frequência é menor do que um sétimo limiar.
[00213] Especificamente, a unidade de obtenção de parâmetro obtém a inclinação de energia residual de predição linear do quadro de áudio atual de acordo com a seguinte fórmula:
Figure img0027
em que epsP(i) denota energia residual de predição de predição linear de iésima ordem do quadro de áudio atual; e n é um número inteiro positivo, denota uma ordem de predição linear, e é menor do que ou igual a uma ordem máxima de predição linear.
[00214] Especificamente, a unidade de obtenção de parâmetro é configurada para contar uma quantidade de agrupamentos de frequência do quadro de áudio atual que estão em uma banda de frequência de 0 a 8 kHz e têm valores de pico de agrupamento de frequência maiores do que um valor predeterminado, para usar a quantidade como a quantidade de som de espectro de frequência; e a unidade de obtenção de parâmetro é configurada para calcular uma razão de uma quantidade de agrupamentos de frequência do quadro de áudio atual que estão em uma banda de frequência de 0 a 4 kHz e têm valores de pico de agrupamento de frequência maiores do que o valor predeterminado para a quantidade dos agrupamentos de frequência do quadro de áudio atual que estão na banda de frequência de 0 a 8 kHz e têm valores de pico de agrupamento de frequência maiores do que o valor predeterminado, para usar a razão como a razão da quantidade de som de espectro de frequência na banda de baixa frequên- cia.
[00215] Na modalidade exposta acima, um sinal de áudio é classificado de acordo com as estatísticas de longo prazo de inclinações de energia residual de predição linear e quantidades de som do espectro de frequência e uma razão de uma quantidade de som de espectro de frequência em uma banda de baixa frequência; portanto, há relativamente poucos parâmetros, uma taxa de reconhecimento é relativa-mente alta, e a complexidade é relativamente baixa.
[00216] O aparelho de classificação de sinal de áudio exposto acima pode ser conectado a codificadores diferentes, e codificar sinais diferentes com o uso dos codificadores diferentes. Por exemplo, o aparelho de classificação de sinal de áudio é conectado a dois codificadores, codifica um sinal de voz com o uso de um codificador baseado em um modelo de geração de voz (tal como CELP), e codifica um sinal de música com o uso de um codificador baseado em conversão (tal como um codificador baseado em MDCT). Para uma definição e um método de obtenção cada parâmetro específico na modalidade de aparelho exposta acima, consultar a descrição relacionada da modalidade do método.
[00217] Em associação com a modalidade do método exposta acima, a presente invenção fornece adicionalmente um aparelho de classificação de sinal de áudio, e o aparelho pode ficar localizado em um dispositivo de terminal ou em um dispositivo de rede. O aparelho de classificação de sinal de áudio pode ser implantado por um circuito de hardware, ou implantado por software em cooperação com hardware. Por exemplo, com referência à Figura 18, um processador invoca um aparelho de classificação de sinal de áudio para implantar a classificação em um sinal de áudio. O aparelho de classificação de sinal de áudio pode realizar os vários métodos e processos na modalidade de método exposta acima. Para módulos e funções específicas do apare- lho de classificação de sinal de áudio, consultar a descrição relacionada da modalidade de aparelho exposta acima.
[00218] Um exemplo de um dispositivo 1900 na Figura 19 é um codificador. O dispositivo 100 inclui um processador 1910 e uma memória 1920.
[00219] A memória 1920 pode incluir uma memória randômica, uma memória flash, uma memória somente de leitura, uma memória programável somente de leitura, uma memória não volátil, um registrador, ou similares. O processador 1920 pode ser uma unidade de processamento central (Unidade de Processamento Central, CPU).
[00220] A memória 1910 é configurada para armazenar uma instrução executável. O processador 1920 pode executar a instrução executável armazenada na memória 1910, e é configurado para:
[00221] Para outras funções e operações do dispositivo 1900, consultar os processos das modalidades do método na Figura 3 a Figura 12, as quais são não descritas novamente no presente documento para evitar repetição.
[00222] Uma pessoa de habilidade comum na técnica pode entender que todos os processos ou uma parte dos processos dos métodos nas modalidades podem ser implantados por um programa de computador que instrui um hardware relacionado. O programa pode ser armazenado em um meio de armazenamento legível por computador. Quando o programa é executado, os processos dos métodos nas mo-dalidades são realizados. As mídias de armazenamento expostas acima podem incluir: um disco magnético, um disco óptico, uma memória somente de leitura (Memória Somente de Leitura, ROM), ou uma memória de acesso randômico (Memória de Acesso Randômico, RAM).
[00223] Nas várias modalidades fornecidas no pedido presente deve-se compreender que o sistema, aparelho e método revelados podem ser implantados de outras maneiras. Por exemplo, a modalidade de aparelho descrita é meramente exemplificativa. Por exemplo, a divisão de unidade é meramente uma divisão de função lógica e pode ser outra divisão em uma implantação real. Por exemplo, uma pluralidade de unidades ou de componentes pode ser combinada ou integrada em outro sistema, ou algumas características podem ser ignoradas ou não realizadas. Além disso, os acoplamentos mútuos ou aco-plamentos diretos ou conexões de comunicação exibidos ou discutidos podem ser implantados com o uso de algumas interfaces. Os acoplamentos ou conexões de comunicação indiretos entre os aparelhos ou unidades podem ser implantados em formas eletrônicas, mecânicas ou outras.
[00224] As unidades descritas como partes separadas podem ou não ser separadas fisicamente, e as partes exibidas como unidades podem ou não ser unidades físicas, podem estar localizadas em uma posição, ou podem estar distribuídas em uma pluralidade de unidades de rede. Algumas ou todas as unidades podem ser selecionadas de acordo com necessidades reais para alcançar os objetivos das soluções das modalidades.
[00225] Além disso, unidades funcionais nas modalidades da presente invenção podem ser integradas em uma unidade de processamento, ou cada uma das unidades pode existir fisicamente sozinha, ou duas ou mais unidades são integradas em uma unidade.
[00226] O exposto acima são meramente modalidades exemplifica- tivas da presente invenção. Um indivíduo versado na técnica pode fazer várias modificações e variações à presente invenção sem se afastar do espírito e escopo da presente invenção.

Claims (10)

1. Método de classificação de sinal de áudio, CARACTERIZADO pelo fato de que o método compreende: determinar (101), de acordo com a atividade de voz de um quadro de áudio atual, a obtenção de uma flutuação de espectro de frequência do quadro de áudio atual e armazenamento da flutuação de espectro de frequência do quadro de áudio atual em uma memória de flutuação de espectro de frequência quando - o quadro de áudio atual é um quadro ativo, e - nenhum dos múltiplos quadros consecutivos compreendendo o quadro de áudio atual e um quadro histórico do quadro de áudio atual pertence a um ataque de energia; atualizar (102), de acordo com atividade de um quadro de áudio histórico, flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência; classificar (103) o quadro de áudio atual como um quadro de voz ou um quadro de música de acordo com estatísticas de uma parte ou todos os dados eficazes das flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência, em que a atualização, de acordo com a atividade de um quadro de áudio histórico, as flutuações do espectro de frequência armazenadas na memória de flutuação do espectro de frequência compreende: modificar dados de parâmetros de flutuação do espectro de frequência de quadros de áudio precedendo o quadro de áudio atual armazenado na memória em dados ineficazes quando o quadro de áudio atual é um quadro ativo e um último quadro de áudio precedendo o quadro de áudio atual é um quadro inativo, em que os dados de parâmetros de flutuação do espectro de frequência na memória não tendo sido modificados em dados ineficazes são os dados efetivos.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que atualizar, de acordo com a atividade de um quadro de áudio histórico, flutuações de espectro de frequência armazenadas na memória de flutuação de espectro de frequência adicionalmente compreende: se for determinado que a flutuação de espectro de frequência do quadro de áudio atual está armazenada na memória de flutuação de espectro de frequência, e três quadros históricos consecutivos antes do quadro de áudio atual não forem todos quadros ativos, modificar a flutuação de espectro de frequência do quadro de áudio atual em um primeiro valor; se for determinado que a flutuação de espectro de frequência do quadro de áudio atual está armazenada na memória de flutuação de espectro de frequência, e um resultado de classificação histórica for um sinal musical e a flutuação de espectro de frequência do quadro de áudio atual for maior do que um segundo valor, modificar a flutuação de espectro de frequência do quadro de áudio atual para o segundo valor.
3. Método, de acordo com as reivindicações 1 ou 2, CARACTERIZADO pelo fato de que classificar o quadro de áudio atual como um quadro de voz ou um quadro de música de acordo com estatísticas de uma parte ou todos os dados eficazes das flutuações de espectro de frequência armazenados na memória de flutuação de espectro de frequência compreende: obter um valor médio de uma parte ou todos os dados eficazes das flutuações de espectro de frequência armazenados na memória de flutuação de espectro de frequência; e quando o valor médio obtido dos dados eficazes das flutuações de espectro de frequência satisfizer uma condição de classificação de música, classificar o quadro de áudio atual como um quadro de música.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, CARACTERIZADO pelo fato de que compreende adicionalmente: obter (104) uma curtose de banda de alta frequência de espectro de frequência, um grau de correlação de espectro de frequência, e uma inclinação de energia residual de predição linear do quadro de áudio atual, em que a curtose de banda de alta frequência de espectro de frequência denota uma curtose ou uma acutância de energia, em uma banda de alta frequência, de um espectro de frequência do quadro de áudio atual; o grau de correlação de espectro de frequência denota estabilidade, entre quadros adjacentes, de uma estrutura harmônica de sinal do quadro de áudio atual; e a inclinação de energia residual de predição linear denota uma medida em que energia residual de predição linear do sinal de áudio muda conforme uma ordem de predição linear aumenta; e determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade do armazenamento da curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear em uma memória, em que a classificação do quadro de áudio de acordo com estatísticas de uma parte ou de todos os dados eficazes das flutuações de espectro de frequência armazenados na memória de flutuação de espectro de frequência compreende: obter (105) um valor médio dos dados eficazes das flutuações de espectro de frequência armazenados, um valor médio de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenados, um valor médio de dados eficazes de graus de correlação de espectro de frequência armazenados, e uma variação de dados eficazes de inclinações de energia residual de predição linear armazenados separadamente; e quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
5. Aparelho de classificação de sinal de áudio, CARACTERIZADO pelo fato de que o aparelho é configurado para classificar um sinal de áudio de entrada e compreende: uma unidade de determinação de armazenamento (1301), configurada para determinar, de acordo com a atividade de voz de um quadro de áudio atual, para obter e armazenar uma flutuação de espectro de frequência do quadro de áudio atual quando - o quadro de áudio atual é um quadro ativo, e - nenhum dos múltiplos quadros consecutivos compreendendo o quadro de áudio atual e um quadro histórico do quadro de áudio atual pertence a um ataque de energia; uma memória (1302), configurada para armazenar a flutuação de espectro de frequência do quadro de áudio atual quando a unidade de determinação de armazenamento (1301) emite um resultado de que a flutuação de espectro de frequência do quadro de áudio atual precisa ser armazenada; uma unidade de atualização (1304), configurada para atualizar, de acordo com atividade de um quadro de áudio histórico, flutuações de espectro de frequência armazenadas na memória (1302); e uma unidade de classificação (1303), configurada para classificar o quadro de áudio atual como um quadro de voz ou um quadro de música de acordo com estatísticas de uma parte ou de todos os dados eficazes das flutuações de espectro de frequência armazenados na memória (1302), em que a unidade de atualização (1304) é especificamente configurada para: modificar dados de parâmetros de flutuação do espectro de frequência de quadros de áudio precedendo o quadro de áudio atual armazenado na memória (1302) em dados ineficazes quando o quadro de áudio atual é um quadro ativo e um último quadro de áudio precedendo o quadro de áudio atual é um quadro inativo, em que os dados de parâmetros de flutuação do espectro de frequência na memória (1302) não tendo sido modificados em dados ineficazes são os dados efetivos.
6. Aparelho, de acordo com a reivindicação 5, CARACTERIZADO pelo fato de que a unidade de atualização (1304) é especificamente configurada para: se o quadro de áudio atual for um quadro ativo e três quadros consecutivos antes do quadro de áudio atual não forem todos quadros ativos, modificar a flutuação de espectro de frequência do quadro de áudio atual em um primeiro valor; se o quadro de áudio atual for um quadro ativo, e um resultado de classificação histórica for um sinal musical e a flutuação de espectro de frequência do quadro de áudio atual for maior do que um segundo valor, modificar a flutuação de espectro de frequência do quadro de áudio atual para um segundo valor.
7. Aparelho, de acordo com as reivindicações 5 ou 6, CARACTERIZADO pelo fato de que a unidade de classificação (1303) compreende: uma unidade de cálculo (1401), configurada para obter um valor médio de uma parte ou de todos os dados eficazes das flutuações de espectro de frequência armazenados na memória; e uma unidade de determinação (1402), configurada para comparar o valor médio dos dados eficazes das flutuações de espectro de frequência com uma condição de classificação de música; e quando o valor médio dos dados eficazes das flutuações de espectro de frequência satisfizer a condição de classificação de música, classificar o quadro de áudio atual como um quadro de música.
8. Aparelho, de acordo com qualquer uma das reivindicações 5 a 7, CARACTERIZADO pelo fato de que compreende adicionalmente: uma unidade de obtenção de parâmetro (1502), configurada para obter uma curtose de banda de alta frequência de espectro de frequência, um grau de correlação de espectro de frequência, um parâmetro vocal, e uma inclinação de energia residual de predição linear do quadro de áudio atual, sendo que a curtose de banda de alta frequência de espectro de frequência denota uma curtose ou uma acutância de energia, em uma banda de alta frequência, de um espectro de frequência do quadro de áudio atual; o grau de correlação de espectro de frequência denota estabilidade, entre quadros adjacentes, de uma estrutura harmônica de sinal do quadro de áudio atual; o parâmetro vocal denota um grau de correlação de domínio de tempo entre o quadro de áudio atual e um sinal antes de um período de tom; e a inclinação de energia residual de predição linear denota uma medida em que a energia residual de predição linear do sinal de áudio muda conforme uma ordem de predição linear aumenta; sendo que a unidade de determinação de armazenamento (1301) é adicionalmente configurada para determinar, de acordo com a atividade de voz do quadro de áudio atual, a possibilidade do armazenamento da curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência e a inclinação de energia residual de predição linear em memórias; a memória (1302) é adicionalmente configurada para: quando a unidade de determinação de armazenamento emitir um resultado de que a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência e a inclinação de energia residual de predição linear precisam ser armazenados, armazenar a curtose de banda de alta frequência de espectro de frequência, o grau de correlação de espectro de frequência, e a inclinação de energia residual de predição linear; e a unidade de classificação (1303) é especificamente configurada para obter estatísticas de dados eficazes das flutuações de espectro de frequência armazenadas, estatísticas de dados eficazes de curtose de banda de alta frequência de espectro de frequência armazenada, estatísticas de dados eficazes de graus de correlação de espectro de frequência armazenados e estatísticas de dados eficazes de inclinações de energia residual de predição linear armazenadas e classificar o quadro de áudio como um quadro de voz ou um quadro de música de acordo com as estatísticas dos dados eficazes.
9. Aparelho, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que a unidade de classificação compreende: uma unidade de cálculo (1701), configurada para obter um valor médio dos dados eficazes das flutuações de espectro de frequência armazenadas, um valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência armazenada, um valor médio dos dados eficazes dos graus de correlação de espectro de frequência armazenados e uma variação dos dados eficazes das inclinações de energia residual de predição linear armazenadas separadamente; e uma unidade de determinação (1702), configurada para: quando uma das condições a seguir for satisfeita, classificar o quadro de áudio atual como um quadro de música; caso contrário, classificar o quadro de áudio atual como um quadro de voz: o valor médio dos dados eficazes das flutuações de espectro de frequência é menor do que um primeiro limiar; ou o valor médio dos dados eficazes da curtose de banda de alta frequência de espectro de frequência é maior do que um segundo limiar; ou o valor médio dos dados eficazes dos graus de correlação de espectro de frequência é maior do que um terceiro limiar; ou a variação dos dados eficazes das inclinações de energia residual de predição linear é menor do que um quarto limiar.
10. Aparelho de classificação de sinal de áudio, CARACTERIZADO pelo fato de que compreende: um processador e uma memória; a memória é configurada para armazenar programas a serem executados pelo processador e para armazenar dados gerados durante a execução dos programas; o processador é configurado para ler os programas armazenados na memória para realizar um método como definido em qualquer uma das reivindicações 1 a 4.
BR112016002409-5A 2013-08-06 2013-09-26 Método e dispositivo de classificação de sinal de áudio BR112016002409B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310339218.5A CN104347067B (zh) 2013-08-06 2013-08-06 一种音频信号分类方法和装置
CN201310339218.5 2013-08-06
PCT/CN2013/084252 WO2015018121A1 (zh) 2013-08-06 2013-09-26 一种音频信号分类方法和装置

Publications (2)

Publication Number Publication Date
BR112016002409A2 BR112016002409A2 (pt) 2017-08-01
BR112016002409B1 true BR112016002409B1 (pt) 2021-11-16

Family

ID=52460591

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016002409-5A BR112016002409B1 (pt) 2013-08-06 2013-09-26 Método e dispositivo de classificação de sinal de áudio

Country Status (15)

Country Link
US (5) US10090003B2 (pt)
EP (4) EP4057284A3 (pt)
JP (3) JP6162900B2 (pt)
KR (4) KR101946513B1 (pt)
CN (3) CN104347067B (pt)
AU (3) AU2013397685B2 (pt)
BR (1) BR112016002409B1 (pt)
ES (3) ES2769267T3 (pt)
HK (1) HK1219169A1 (pt)
HU (1) HUE035388T2 (pt)
MX (1) MX353300B (pt)
MY (1) MY173561A (pt)
PT (3) PT3324409T (pt)
SG (2) SG10201700588UA (pt)
WO (1) WO2015018121A1 (pt)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
KR101621774B1 (ko) * 2014-01-24 2016-05-19 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015111772A1 (ko) * 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621766B1 (ko) 2014-01-28 2016-06-01 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
RU2665916C2 (ru) * 2014-07-29 2018-09-04 Телефонактиеболагет Лм Эрикссон (Пабл) Оценивание фонового шума в аудиосигналах
TWI576834B (zh) * 2015-03-02 2017-04-01 聯詠科技股份有限公司 聲頻訊號的雜訊偵測方法與裝置
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
EP3340238B1 (en) * 2015-05-25 2020-07-22 Guangzhou Kugou Computer Technology Co., Ltd. Method and device for audio processing
US9965685B2 (en) 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
CN106571150B (zh) * 2015-10-12 2021-04-16 阿里巴巴集团控股有限公司 一种识别音乐中的人声的方法和系统
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
US9852745B1 (en) 2016-06-24 2017-12-26 Microsoft Technology Licensing, Llc Analyzing changes in vocal power within music content using frequency spectrums
EP3309777A1 (en) * 2016-10-13 2018-04-18 Thomson Licensing Device and method for audio frame processing
GB201617408D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
GB201617409D0 (en) * 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
CN107221334B (zh) * 2016-11-01 2020-12-29 武汉大学深圳研究院 一种音频带宽扩展的方法及扩展装置
GB201704636D0 (en) 2017-03-23 2017-05-10 Asio Ltd A method and system for authenticating a device
GB2565751B (en) 2017-06-15 2022-05-04 Sonos Experience Ltd A method and system for triggering events
CN114898761A (zh) 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
EP3701528B1 (en) 2017-11-02 2023-03-15 Huawei Technologies Co., Ltd. Segmentation-based feature extraction for acoustic scene classification
CN107886956B (zh) * 2017-11-13 2020-12-11 广州酷狗计算机科技有限公司 音频识别方法、装置及计算机存储介质
GB2570634A (en) 2017-12-20 2019-08-07 Asio Ltd A method and system for improved acoustic transmission of data
CN108501003A (zh) * 2018-05-08 2018-09-07 国网安徽省电力有限公司芜湖供电公司 一种应用于变电站智能巡检机器人的声音识别系统和方法
CN108830162B (zh) * 2018-05-21 2022-02-08 西华大学 无线电频谱监测数据中的时序模式序列提取方法及存储方法
US11240609B2 (en) * 2018-06-22 2022-02-01 Semiconductor Components Industries, Llc Music classifier and related methods
US10692490B2 (en) * 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
CN108986843B (zh) * 2018-08-10 2020-12-11 杭州网易云音乐科技有限公司 音频数据处理方法及装置、介质和计算设备
EP3836482A4 (en) 2018-10-19 2022-05-04 Nippon Telegraph And Telephone Corporation AUTHENTICATION AUTHORIZATION SYSTEM, INFORMATION PROCESSING DEVICE, DEVICE, AUTHENTICATION AUTHORIZATION METHOD AND PROGRAM
US11342002B1 (en) * 2018-12-05 2022-05-24 Amazon Technologies, Inc. Caption timestamp predictor
CN109360585A (zh) * 2018-12-19 2019-02-19 晶晨半导体(上海)股份有限公司 一种语音激活检测方法
US12118987B2 (en) 2019-04-18 2024-10-15 Dolby Laboratories Licensing Corporation Dialog detector
CN110097895B (zh) * 2019-05-14 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 一种纯音乐检测方法、装置及存储介质
KR20220042165A (ko) * 2019-08-01 2022-04-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 공분산 평활화를 위한 시스템 및 방법
CN110600060B (zh) * 2019-09-27 2021-10-22 云知声智能科技股份有限公司 一种硬件音频主动探测hvad系统
KR102155743B1 (ko) * 2019-10-07 2020-09-14 견두헌 대표음량을 적용한 컨텐츠 음량 조절 시스템 및 그 방법
CN113162837B (zh) * 2020-01-07 2023-09-26 腾讯科技(深圳)有限公司 语音消息的处理方法、装置、设备及存储介质
CA3170065A1 (en) * 2020-04-16 2021-10-21 Vladimir Malenovsky Method and device for speech/music classification and core encoder selection in a sound codec
US11988784B2 (en) 2020-08-31 2024-05-21 Sonos, Inc. Detecting an audio signal with a microphone to determine presence of a playback device
CN112331233B (zh) * 2020-10-27 2024-07-23 郑州捷安高科股份有限公司 听觉信号识别方法、装置、设备及存储介质
CN112509601B (zh) * 2020-11-18 2022-09-06 中电海康集团有限公司 一种音符起始点检测方法及系统
US20220157334A1 (en) * 2020-11-19 2022-05-19 Cirrus Logic International Semiconductor Ltd. Detection of live speech
CN112201271B (zh) * 2020-11-30 2021-02-26 全时云商务服务股份有限公司 一种基于vad的语音状态统计方法、系统和可读存储介质
CN113192488B (zh) * 2021-04-06 2022-05-06 青岛信芯微电子科技股份有限公司 一种语音处理方法及装置
CN113593602B (zh) * 2021-07-19 2023-12-05 深圳市雷鸟网络传媒有限公司 一种音频处理方法、装置、电子设备和存储介质
CN113689861B (zh) * 2021-08-10 2024-02-27 上海淇玥信息技术有限公司 一种单声道通话录音的智能分轨方法、装置和系统
KR102481362B1 (ko) * 2021-11-22 2022-12-27 주식회사 코클 음향 데이터의 인식 정확도를 향상시키기 위한 방법, 장치 및 프로그램
CN114283841B (zh) * 2021-12-20 2023-06-06 天翼爱音乐文化科技有限公司 一种音频分类方法、系统、装置及存储介质
CN117147966B (zh) * 2023-08-30 2024-05-07 中国人民解放军军事科学院系统工程研究院 一种电磁频谱信号能量异常检测方法

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JP3700890B2 (ja) * 1997-07-09 2005-09-28 ソニー株式会社 信号識別装置及び信号識別方法
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6901362B1 (en) 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
JP4201471B2 (ja) 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
JP4696418B2 (ja) 2001-07-25 2011-06-08 ソニー株式会社 情報検出装置及び方法
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
CN1703736A (zh) 2002-10-11 2005-11-30 诺基亚有限公司 用于源控制可变比特率宽带语音编码的方法和装置
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
US7232948B2 (en) * 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
US20050159942A1 (en) * 2004-01-15 2005-07-21 Manoj Singhal Classification of speech and music using linear predictive coding coefficients
CN1815550A (zh) * 2005-02-01 2006-08-09 松下电器产业株式会社 可识别环境中的语音与非语音的方法及系统
US20070083365A1 (en) 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
JP4738213B2 (ja) * 2006-03-09 2011-08-03 富士通株式会社 利得調整方法及び利得調整装置
TWI312982B (en) * 2006-05-22 2009-08-01 Nat Cheng Kung Universit Audio signal segmentation algorithm
US20080033583A1 (en) * 2006-08-03 2008-02-07 Broadcom Corporation Robust Speech/Music Classification for Audio Signals
CN100483509C (zh) 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
KR100883656B1 (ko) 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
US8849432B2 (en) 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
CN101393741A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种宽带音频编解码器中的音频信号分类装置及分类方法
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
US8401845B2 (en) 2008-03-05 2013-03-19 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
CN101546557B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类器参数更新方法
CN101546556B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类系统
WO2010001393A1 (en) * 2008-06-30 2010-01-07 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal
KR101380297B1 (ko) * 2008-07-11 2014-04-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법
US8380498B2 (en) 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US9037474B2 (en) 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN101615395B (zh) 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
FR2944640A1 (fr) * 2009-04-17 2010-10-22 France Telecom Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.
JP5356527B2 (ja) * 2009-09-19 2013-12-04 株式会社東芝 信号分類装置
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102714034B (zh) * 2009-10-15 2014-06-04 华为技术有限公司 信号处理的方法、装置和系统
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
JP5651945B2 (ja) * 2009-12-04 2015-01-14 ヤマハ株式会社 音響処理装置
CN102098057B (zh) * 2009-12-11 2015-03-18 华为技术有限公司 一种量化编解码方法和装置
US8473287B2 (en) * 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
CN101944362B (zh) * 2010-09-14 2012-05-30 北京大学 一种基于整形小波变换的音频无损压缩编码、解码方法
CN102413324A (zh) * 2010-09-20 2012-04-11 联合信源数字音视频技术(北京)有限公司 预编码码表优化方法与预编码方法
CN102446504B (zh) * 2010-10-08 2013-10-09 华为技术有限公司 语音/音乐识别方法及装置
RU2010152225A (ru) * 2010-12-20 2012-06-27 ЭлЭсАй Корпорейшн (US) Обнаружение музыки с использованием анализа спектральных пиков
EP3493205B1 (en) * 2010-12-24 2020-12-23 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
CN102971789B (zh) * 2010-12-24 2015-04-15 华为技术有限公司 用于执行话音活动检测的方法和设备
EP2494545A4 (en) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
CN102982804B (zh) * 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
CN102543079A (zh) * 2011-12-21 2012-07-04 南京大学 一种实时的音频信号分类方法及设备
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
CN103021405A (zh) * 2012-12-05 2013-04-03 渤海大学 基于music和调制谱滤波的语音信号动态特征提取方法
JP5277355B1 (ja) * 2013-02-08 2013-08-28 リオン株式会社 信号処理装置及び補聴器並びに信号処理方法
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
CN104347067B (zh) * 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
US9620105B2 (en) * 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
JP6521855B2 (ja) 2015-12-25 2019-05-29 富士フイルム株式会社 磁気テープおよび磁気テープ装置

Also Published As

Publication number Publication date
HK1219169A1 (zh) 2017-03-24
SG11201600880SA (en) 2016-03-30
US11756576B2 (en) 2023-09-12
KR20170137217A (ko) 2017-12-12
HUE035388T2 (en) 2018-05-02
JP6162900B2 (ja) 2017-07-12
AU2017228659B2 (en) 2018-05-10
ES2909183T3 (es) 2022-05-05
MY173561A (en) 2020-02-04
EP3667665B1 (en) 2021-12-29
EP4057284A2 (en) 2022-09-14
EP3029673B1 (en) 2017-05-10
CN106409313B (zh) 2021-04-20
US10090003B2 (en) 2018-10-02
JP2018197875A (ja) 2018-12-13
EP4057284A3 (en) 2022-10-12
KR20160040706A (ko) 2016-04-14
US20200126585A1 (en) 2020-04-23
JP6392414B2 (ja) 2018-09-19
AU2013397685A1 (en) 2016-03-24
US11289113B2 (en) 2022-03-29
BR112016002409A2 (pt) 2017-08-01
SG10201700588UA (en) 2017-02-27
EP3029673A1 (en) 2016-06-08
JP2017187793A (ja) 2017-10-12
US20220199111A1 (en) 2022-06-23
CN106409310B (zh) 2019-11-19
EP3324409B1 (en) 2019-11-06
CN106409313A (zh) 2017-02-15
JP2016527564A (ja) 2016-09-08
AU2013397685B2 (en) 2017-06-15
AU2018214113B2 (en) 2019-11-14
AU2018214113A1 (en) 2018-08-30
KR102072780B1 (ko) 2020-02-03
JP6752255B2 (ja) 2020-09-09
AU2017228659A1 (en) 2017-10-05
MX353300B (es) 2018-01-08
KR102296680B1 (ko) 2021-09-02
EP3324409A1 (en) 2018-05-23
KR101946513B1 (ko) 2019-02-12
KR20200013094A (ko) 2020-02-05
US20160155456A1 (en) 2016-06-02
WO2015018121A1 (zh) 2015-02-12
EP3667665A1 (en) 2020-06-17
KR20190015617A (ko) 2019-02-13
ES2629172T3 (es) 2017-08-07
KR101805577B1 (ko) 2017-12-07
US10529361B2 (en) 2020-01-07
CN106409310A (zh) 2017-02-15
US20240029757A1 (en) 2024-01-25
PT3029673T (pt) 2017-06-29
MX2016001656A (es) 2016-10-05
PT3667665T (pt) 2022-02-14
EP3029673A4 (en) 2016-06-08
CN104347067A (zh) 2015-02-11
CN104347067B (zh) 2017-04-12
PT3324409T (pt) 2020-01-30
ES2769267T3 (es) 2020-06-25
US20180366145A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
BR112016002409B1 (pt) Método e dispositivo de classificação de sinal de áudio
BR112014017708B1 (pt) Método e aparelho para detectar atividade de voz na presença de ruído de fundo, e, memória legível por computador
WO2019001252A1 (zh) 时延估计方法及装置
CN113299269B (zh) 语音合成系统的训练方法、装置、计算机设备及存储介质
KR20230003546A (ko) 오디오 코덱의 감각 불협화음 및 사운드 정위 큐의 불변성 유지

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: G10L 19/04

Ipc: G10L 25/81 (2013.01), G10L 19/04 (2000.01)

B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09B Patent application refused [chapter 9.2 patent gazette]
B12B Appeal against refusal [chapter 12.2 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 26/09/2013, OBSERVADAS AS CONDICOES LEGAIS.