BR112016029380B1 - método e aparelho de codificação de áudio - Google Patents

método e aparelho de codificação de áudio Download PDF

Info

Publication number
BR112016029380B1
BR112016029380B1 BR112016029380-0A BR112016029380A BR112016029380B1 BR 112016029380 B1 BR112016029380 B1 BR 112016029380B1 BR 112016029380 A BR112016029380 A BR 112016029380A BR 112016029380 B1 BR112016029380 B1 BR 112016029380B1
Authority
BR
Brazil
Prior art keywords
energy
audio frame
audio frames
audio
dispersion
Prior art date
Application number
BR112016029380-0A
Other languages
English (en)
Other versions
BR112016029380A2 (pt
Inventor
Zhe Wang
Original Assignee
Huawei Technologies Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co., Ltd. filed Critical Huawei Technologies Co., Ltd.
Publication of BR112016029380A2 publication Critical patent/BR112016029380A2/pt
Publication of BR112016029380B1 publication Critical patent/BR112016029380B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

MÉTODO E APARELHO D E CODIFICAÇÃO DE ÁUDIO Trata-se de um método e um aparelho de codificação de áudio. O método inclui: determinar a dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada (101), em que os N quadros de áudio incluem um quadro de áudio atual e N é um número inteiro positivo; e determinar, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se deve ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual (102), em que o primeiro método de codificação é um método de codificação que tem base em transformada de frequência de tempo e quantização de coeficiente de transformada e que não tem base em previsão linear e o segundo método de codificação é um método de codificação com base em previsão linear. De acordo com o método, quando um quadro de áudio for codificado, a dispersão de distribuição, em um espectro, de energia do quadro de áudio é considerada, o que pode reduzir a complexidade de codificação e garantir que a codificação seja de precisão relativamente alta.

Description

CAMPO DA TÉCNICA
[0001] As modalidades da presente invenção referem-se ao campo de tecnologias de processamento de sinal e, mais especificamente, a um método de codificação de áudio e a um aparelho.
ANTECEDENTES
[0002] Na técnica anterior, um codificador híbrido é, muitas vezes, usado para codificar um em um sistema de comunicações de voz. De maneira específica, o codificador híbrido inclui, muitas vezes, dois subcodificadores. Um subcodificador é adequado para codificar um sinal de voz e o codificador é adequado para codificar um sinal de não voz. Para um sinal de áudio recebido, cada subcodificador do codificador híbrido codifica o sinal de áudio. O codificador híbrido compara diretamente a qualidade dos sinais de áudio codificados para selecionar um subcodificador ideal. No entanto, tal método de codificação de ciclo fechado tem alta complexidade de operação.
SUMÁRIO
[0003] As modalidades da presente invenção fornecem um método de codificação de áudio e um aparelho que podem reduzir a complexidade de codificação e garantir que a codificação seja de precisão relativamente alta.
[0004] De acordo com um primeiro aspecto, é fornecido um método de codificação de áudio, sendo que o método inclui: determinar dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada, em que os N quadros de áudio incluem um quadro de áudio atual, e N é um número inteiro positivo; e determinar, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual, em que o primeiro método de codificação é um método de codificação que se baseia em transformada de frequência de tempo e em quantização de coeficiente de transformada e que não se baseia em previsão linear, e o segundo método de codificação é um método de codificação com base em previsão linear.
[0005] Com referência ao primeiro aspecto, em uma primeira possível maneira de implantação do primeiro aspecto, a determinação da dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada inclui: dividir um espectro de cada um dentre os N quadros de áudio em P envelopes espectrais, em que P é um número inteiro positivo; e determinar um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que o parâmetro de dispersão geral indica a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio.
[0006] Com referência à primeira possível maneira de implantação do primeiro aspecto, em uma segunda possível maneira de implantação do primeiro aspecto, o parâmetro de dispersão geral inclui uma primeira largura de banda mínima; a determinação de um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: determinar um valor médio das larguras de banda mínimas, distribuídas nos espectros, de energia com primeira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com primeira proporção predefinida dos N quadros de áudio é a primeira largura de banda mínima; e a determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, de dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: quando a primeira largura de banda mínima for menor que um primeiro valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; ou, quando a primeira largura de banda mínima for maior que o primeiro valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual.
[0007] Com referência à segunda possível maneira de implantação do primeiro aspecto, em uma terceira possível maneira de implantação do primeiro aspecto, a determinação de um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com primeira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: classificar a energia dos P envelopes espectrais de cada quadro de áudio em ordem decrescente; determinar, de acordo com a energia, classificada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a primeira proporção predefinida de cada um dentre os N quadros de áudio; e determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a primeira proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio.
[0008] Com referência à primeira possível maneira de implantação do primeiro aspecto, em uma quarta possível maneira de implantação do primeiro aspecto, o parâmetro de dispersão geral inclui uma primeira proporção de energia; a determinação de um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: selecionar Pi envelopes espectrais dentre os P envelopes espectrais de cada um dentre os N quadros de áudio; e determinar a primeira proporção de energia de acordo com a energia dos Pi envelopes espectrais de cada um dentre os N quadros de áudio e com a energia total dos respectivos N quadros de áudio, em que Pi é um número inteiro positivo menor que P; e a determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, de dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: quando a primeira proporção de energia for maior que um segundo valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; ou, quando a primeira proporção de energia for menor que o segundo valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual.
[0009] Com referência à quarta possível maneira de implantação do primeiro aspecto, em uma quinta possível maneira de implantação do primeiro aspecto, a energia de qualquer um dentre os Pi envelopes espectrais é maior que a energia de qualquer um outros os outros envelopes espectrais nos P envelopes espectrais com exceção dos Pi envelopes espectrais.
[0010] Com referência à primeira possível maneira de implantação do primeiro aspecto, em uma sexta possível maneira de implantação do primeiro aspecto, o parâmetro de dispersão geral inclui uma segunda largura de banda mínima e uma terceira largura de banda mínima; sendo que a determinação de um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com segunda proporção predefinida dos N quadros de áudio e determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com terceira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com segunda proporção predefinida dos N quadros de áudio é usado como a segunda largura de banda mínima, o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com terceira proporção predefinida dos N quadros de áudio é usado como a terceira largura de banda mínima, e a segunda proporção predefinida é menor que a terceira proporção predefinida; e a determinação, de acordo com uma dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, de dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: quando a segunda largura de banda mínima for menor que um terceiro valor predefinido e a terceira largura de banda mínima for menor que um quarto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; quando a terceira largura de banda mínima for menor que um quinto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; ou, quando a terceira largura de banda mínima for maior que um sexto valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual, em que o quarto valor predefinido é maior ou igual ao terceiro valor predefinido, o quinto valor predefinido é menor que o quarto valor predefinido e o sexto valor predefinido é maior que o quarto valor predefinido.
[0011] Com referência à sexta possível maneira de implantação do primeiro aspecto, em uma sétima possível maneira de implantação do primeiro aspecto, a determinação de um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com segunda proporção predefinida dos N quadros de áudio e a determinação de um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com terceira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: classificar a energia dos P envelopes espectrais de cada quadro de áudio em ordem decrescente; determinar, de acordo com a energia, classificada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a segunda proporção predefinida de cada um dentre os N quadros de áudio; determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a segunda proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a segunda proporção predefinida dos N quadros de áudio; determinar, de acordo com a energia, armazenada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a terceira proporção predefinida de cada um dentre os N quadros de áudio; e determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que responsabilizar por não menos que a terceira proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a terceira proporção predefinida dos N quadros de áudio.
[0012] Com referência à primeira possível maneira de implantação do primeiro aspecto, em uma oitava possível maneira de implantação do primeiro aspecto, o parâmetro de dispersão geral inclui uma segunda proporção de energia e uma terceira proporção de energia; a determinação de um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: selecionar P2 envelopes espectrais a partir dos P envelopes espectrais dentre os N quadros de áudio; determinar a segunda proporção de energia de acordo com a energia dos P2 envelopes espectrais de cada um dentre os N quadros de áudio e a energia total dos respectivos N quadros de áudio; selecionar P3 envelopes espectrais a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio; e determinar a terceira proporção de energia de acordo com a energia dos P3 envelopes espectrais de cada um dentre os N quadros de áudio e a energia total dos respectivos N quadros de áudio, em que P2 e P3 são números inteiros positivos menores que P, e P2 é menor que P3; e a determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: quando a segunda proporção de energia for maior que um sétimo valor predefinido e a terceira proporção de energia for maior que um oitavo valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; quando a segunda proporção de energia for maior que um nono valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; ou, quando a terceira proporção de energia for menor que um décimo valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual.
[0013] Com referência à oitava possível maneira de implantação do primeiro aspecto, em uma nona possível maneira de implantação do primeiro aspecto, os P2 envelopes espectrais são P2 envelopes espectrais que têm energia máxima nos P envelopes espectrais; e os P3 envelopes espectrais são P3 envelopes espectrais que têm energia máxima nos P envelopes espectrais.
[0014] Com referência ao primeiro aspecto, em uma décima possível maneira de implantação do primeiro aspecto, a dispersão de distribuição da energia nos espectros inclui dispersão global, dispersão local e intermitência a curto prazo de distribuição da energia nos espectros.
[0015] Com referência à décima possível maneira de implantação do primeiro aspecto, em uma décima primeira possível maneira de implantação do primeiro aspecto, N é 1, e os N quadros de áudio são o quadro de áudio atual; e a determinação da dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada inclui: dividir um espectro do quadro de áudio atual em Q sub-bandas; e determinar um a parâmetro de dispersão de intermitência de acordo com energia de pico de cada uma dentre as Q sub- bandas do espectro do quadro de áudio atual, em que o parâmetro de dispersão de intermitência é usado para indicar dispersão global, dispersão local e intermitência a curto prazo do quadro de áudio atual.
[0016] Com referência à décima primeira possível maneira de implantação do primeiro aspecto, em uma décima segunda possível maneira de implantação do primeiro aspecto, o parâmetro de dispersão de intermitência inclui: uma proporção global de pico para média de cada uma dentre as Q sub- bandas, uma proporção local de pico para média de cada uma dentre as Q sub-bandas, e uma flutuação de energia a curto prazo de cada uma dentre as Q sub-bandas, em que a proporção global de pico para média é determinada de acordo com a energia de pico na sub-banda e energia média de todas as sub-bandas do quadro de áudio atual, sendo que a proporção local de pico para média é determinada de acordo com a energia de pico na sub-banda e com a energia média na sub-banda, e a flutuação de energia de pico a curto prazo é determinada de acordo com a energia de pico na sub-banda e com a energia de pico em uma banda de frequência específica de um quadro de áudio antes do quadro de áudio; e a determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, de dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: determinar a possibilidade de haver uma primeira sub-banda nas Q sub-bandas, em que uma proporção local de pico para média da primeira sub-banda é maior que um décimo primeiro valor predefinido, uma proporção global de pico para média da primeira sub-banda é maior que um décimo segundo valor predefinido e uma flutuação de energia de pico a curto prazo da primeira sub-banda é maior que um décimo terceiro valor predefinido; e quando há a primeira sub-banda nas Q sub-bandas, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual.
[0017] Com referência ao primeiro aspecto, em uma décima terceira possível maneira de implantação do primeiro aspecto, a dispersão de distribuição da energia nos espectros inclui características limitadas por banda de distribuição da energia nos espectros.
[0018] Com referência à décima terceira possível maneira de implantação do primeiro aspecto, em uma décima possível maneira de implantação do primeiro aspecto, a determinação de dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada inclui: determinar uma frequência de demarcação de cada um dentre os N quadros de áudio; e determinar um parâmetro de dispersão limitada por banda de acordo com a frequência de demarcação de cada um dentre os N quadros de áudio.
[0019] Com referência à décima quarta possível maneira de implantação do primeiro aspecto, em uma décima quinta possível maneira de implantação do primeiro aspecto, o parâmetro de dispersão limitada por banda é um valor médio das frequências de demarcação dos N quadros de áudio; e a determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, de dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: quando se determina que o parâmetro de dispersão limitada por banda dos quadros de áudio é menor que um décimo quarto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual.
[0020] De acordo com um segundo aspecto, uma modalidade da presente invenção fornece um aparelho, em que o aparelho inclui: uma unidade de obtenção, configurada para obter N quadros de áudio, em que os N quadros de áudio incluem um quadro de áudio atual e N é um número inteiro positivo; e uma unidade de determinação, configurada para determinar a dispersão de distribuição, nos espectros, de energia dos N quadros de áudio obtidos pela unidade de obtenção; e a unidade de determinação é configurada adicionalmente para determinar, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual, em que o primeiro método de codificação é um método de codificação que se baseia em transformada de frequência de tempo e em quantização de coeficiente de transformada e que não se baseia em previsão linear, e o segundo método de codificação é um método de codificação com base em previsão linear.
[0021] Com referência ao segundo aspecto, em uma primeira possível maneira de implantação do segundo aspecto, a unidade de determinação é configurada especificamente para dividir um espectro de cada um dentre os N quadros de áudio em P envelopes espectrais e para determinar um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que P é um número inteiro positivo, e o parâmetro de dispersão geral indica a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio.
[0022] Com referência à primeira possível maneira de implantação do segundo aspecto, em uma segunda possível maneira de implantação do segundo aspecto, o parâmetro de dispersão geral inclui uma primeira largura de banda mínima; a unidade de determinação é configurada especificamente para determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com primeira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com primeira proporção predefinida dos N quadros de áudio é a primeira largura de banda mínima; e a unidade de determinação é configurada especificamente para: quando a primeira largura de banda mínima for menor que um primeiro valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e quando a primeira largura de banda mínima for maior que o primeiro valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual.
[0023] Com referência à segunda possível maneira de implantação do segundo aspecto, em uma terceira possível maneira de implantação do segundo aspecto, a unidade de determinação é configurada especificamente para: classificar a energia dos P envelopes espectrais de cada quadro de áudio em ordem decrescente; determinar, de acordo com a energia, classificada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a primeira proporção predefinida de cada um dentre os N quadros de áudio; e determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a primeira proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio.
[0024] Com referência à primeira possível maneira de implantação do segundo aspecto, em uma quarta possível maneira de implantação do segundo aspecto, o parâmetro de dispersão geral inclui uma primeira proporção de energia; a unidade de determinação é configurada especificamente para selecionar Pi envelopes espectrais a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio e determinar a primeira proporção de energia de acordo com a energia dos Pi envelopes espectrais de cada um dentre os N quadros de áudio e com a energia total dos respectivos N quadros de áudio, em que Pi é um número inteiro positivo menor que P; e a unidade de determinação é configurada especificamente para: quando a primeira proporção de energia for maior que um segundo valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e quando a primeira proporção de energia for menor que o segundo valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual.
[0025] Com referência à quarta possível maneira de implantação do segundo aspecto, em uma quinta possível maneira de implantação do segundo aspecto, a unidade de determinação é configurada especificamente para determinar os Pi envelopes espectrais de acordo com a energia dos P envelopes espectrais, em que a energia de qualquer um dentre os Pi envelopes espectrais é maior que a energia de qualquer um dentre os outros envelopes espectrais nas P envelopes espectrais com exceção do Pi envelopes espectrais.
[0026] Com referência à primeira possível maneira de implantação do segundo aspecto, em uma sexta possível maneira de implantação do segundo aspecto, o parâmetro de dispersão geral inclui uma segunda largura de banda mínima e uma terceira largura de banda mínima; a unidade de determinação é configurada especificamente para determine um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com segunda proporção predefinida dos N quadros de áudio e determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com terceira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com segunda proporção predefinida dos N quadros de áudio é usado como a segunda largura de banda mínima, o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com terceira proporção predefinida dos N quadros de áudio é usada como a terceira largura de banda mínima, e a segunda proporção predefinida é menor que a terceira proporção predefinida; e a unidade de determinação é configurada especificamente para: quando a segunda largura de banda mínima for menor que um terceiro valor predefinido e a terceira largura de banda mínima for menor que um quarto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; quando a terceira largura de banda mínima for menor que um quinto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e quando a terceira largura de banda mínima for maior que um sexto valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual, em que o quarto valor predefinido é maior ou igual ao terceiro valor predefinido, o quinto valor predefinido é menor que o quarto valor predefinido e o sexto valor predefinido é maior que o quarto valor predefinido.
[0027] Com referência à sexta possível maneira de implantação do segundo aspecto, em uma sétima possível maneira de implantação do segundo aspecto, a unidade de determinação é configurada especificamente para: classificar a energia dos P envelopes espectrais de cada quadro de áudio em ordem decrescente; determinar, de acordo com a energia, classificada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a segunda proporção predefinida de cada um dentre os N quadros de áudio; determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a segunda proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a segunda proporção predefinida dos N quadros de áudio; determinar, de acordo com a energia, armazenada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a terceira proporção predefinida de cada um dentre os N quadros de áudio; e determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a terceira proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a terceira proporção predefinida dos N quadros de áudio.
[0028] Com referência à primeira possível maneira de implantação do segundo aspecto, em uma oitava possível maneira de implantação do segundo aspecto, o parâmetro de dispersão geral inclui uma segunda proporção de energia e uma terceira proporção de energia; a unidade de determinação é configurada especificamente para: selecionar P2 envelopes espectrais a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio, determinar a segunda proporção de energia de acordo com a energia dos P2 envelopes espectrais de cada um dentre os N quadros de áudio e com a energia total dos respectivos N quadros de áudio, selecionar P3 envelopes espectrais a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio e determinar a terceira proporção de energia de acordo com a energia dos P3 envelopes espectrais de cada um dentre os N quadros de áudio e a energia total dos respectivos N quadros de áudio, em que P2θ P3 são números inteiros positivos menores que P, e P2 é menor que P3; e a unidade de determinação é configurada especificamente para: quando a segunda proporção de energia for maior que um décimo sétimo valor predefinido e a terceira proporção de energia for maior que um oitavo valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; quando a segunda proporção de energia for maior que um nono valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e quando a terceira proporção de energia for menor que um décimo valor predefinido, determinar usar o segundo método de codificação para codificar o quadro de áudio atual.
[0029] Com referência à oitava possível maneira de implantação do segundo aspecto, em uma nona possível maneira de implantação do segundo aspecto, a unidade de determinação é configurada especificamente para determinar, a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio, P2 envelopes espectrais que têm energia máxima, e determinar, a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio, P3 envelopes espectrais que têm energia máxima.
[0030] Com referência ao segundo aspecto, em uma décima possível maneira de implantação do segundo aspecto, N é 1, e os N quadros de áudio são o quadro de áudio atual; e a unidade de determinação é configurada especificamente para dividir um espectro do quadro de áudio atual em Q sub-bandas e determinar um parâmetro de dispersão de intermitência de acordo com a energia de pico de cada uma dentre as Q sub-bandas do espectro do quadro de áudio atual, em que o parâmetro de dispersão de intermitência é usado para indicar a dispersão global, dispersão local e intermitência a curto prazo do quadro de áudio atual.
[0031] Com referência à décima possível maneira de implantação do segundo aspecto, em uma décima primeira possível maneira de implantação do segundo aspecto, a unidade de determinação é configurada especificamente para determinar uma proporção global de pico para média de cada uma dentre as Q sub-bandas, uma proporção local de pico para média de cada uma dentre as Q sub-bandas e uma flutuação de energia a curto prazo de cada uma dentre as Q sub-bandas, em que a proporção global de pico para média é determinada pela unidade de determinação de acordo com a energia de pico na sub-banda e com a energia média de todas as sub-bandas do quadro de áudio atual, a proporção local de pico para média é determinada pela unidade de determinação de acordo com a energia de pico na sub-banda e com a energia média na sub-banda, e a flutuação de energia de pico a curto prazo é determinada de acordo com a energia de pico na sub-banda e com a energia de pico em uma banda de frequência específica de um quadro de áudio antes do quadro de áudio; e a unidade de determinação é configurada especificamente para: determinar a possibilidade de haver uma primeira sub- banda nas Q sub-bandas, em que uma proporção local de pico para média da primeira sub-banda é maior que um décimo primeiro valor predefinido, uma proporção global de pico para média da primeira sub-banda é maior que um décimo segundo valor predefinido e uma flutuação de energia de pico a curto prazo da primeira sub-banda é maior que um décimo terceiro valor predefinido; e quando há a primeira sub-banda nas Q sub-bandas, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual.
[0032] Com referência ao segundo aspecto, em uma décima segunda possível maneira de implantação do segundo aspecto, a unidade de determinação é configurada especificamente para determinar uma frequência de demarcação de cada um dentre os N quadros de áudio; e a unidade de determinação é configurada especificamente para determinar um parâmetro de dispersão limitada por banda de acordo com a frequência de demarcação de cada um dentre os N quadros de áudio.
[0033] Com referência à décima segunda possível maneira de implantação do segundo aspecto, em uma décima terceira possível maneira de implantação do segundo aspecto, o parâmetro de dispersão limitada por banda é um valor médio das frequências de demarcação dos N quadros de áudio; e a unidade de determinação é configurada especificamente para: quando se determina que o parâmetro de dispersão limitada por banda dos quadros de áudio é menor que um décimo quarto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual.
[0034] De acordo com as soluções técnicas acima, quando um quadro de áudio é codificado, a dispersão de distribuição, em um espectro, de energia do quadro de áudio é configurada, o que pode reduzir a complexidade de codificação e garantir que a codificação tenha precisão relativamente alta.
BREVE DESCRIÇÃO DOS DESENHOS
[0035] A fim de descrever mais claramente as soluções técnicas nas modalidades da presente invenção, a seguir, são descritos brevemente os desenhos anexos exigidos para descrever as modalidades da presente invenção. Certamente, os desenhos anexos à descrição a seguir mostram apenas algumas modalidades da presente invenção, e uma pessoa de habilidade comum na técnica ainda pode derivar outros desenhos a partir desses desenhos anexos sem esforços criativos.
[0036] A Figura 1 é um fluxograma esquemático de um método de codificação de áudio de acordo com uma modalidade da presente invenção;
[0037] A Figura 2 é um diagrama de blocos estrutural de um aparelho de acordo com uma modalidade da presente invenção; e
[0038] A Figura 3 é um diagrama de blocos estrutural de um aparelho de acordo com uma modalidade da presente invenção.
DESCRIÇÃO DAS MODALIDADES
[0039] A seguir, as soluções técnicas nas modalidades da presente invenção são descritas clara e completamente com referência aos desenhos anexos nas modalidades da presente invenção. Certamente, as modalidades descritas são meramente uma parte em vez de todas as modalidades da presente invenção. Todas as outras modalidades obtidas por uma pessoa de habilidade comum na técnica, com base nas modalidades da presente invenção sem esforços criativos, devem ser abrangidas pelo escopo de proteção da presente invenção.
[0040] A Figura 1 é um fluxograma esquemático de um método de codificação de áudio de acordo com uma modalidade da presente invenção.
[0041] 101. Determinar a dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada, em que os N quadros de áudio incluem um quadro de áudio atual, e N é um número inteiro positivo.
[0042] 102. Determinar, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual, em que o primeiro método de codificação é um método de codificação que se baseia em transformada de frequência de tempo e em quantização de coeficiente de transformada e que não se baseia em previsão linear, e o segundo método de codificação é um método de codificação com base em previsão linear.
[0043] De acordo com o método mostrado na Figura 1, quando um quadro de áudio é codificado, a dispersão de distribuição, em um espectro, de energia do quadro de áudio é configurada, o que pode reduzir a complexidade de codificação e garantir que a codificação tenha precisão relativamente alta.
[0044] Durante a seleção de um método de codificação apropriado para um quadro de áudio, a dispersão de distribuição, em um espectro, de energia do quadro de áudio pode ser considerada. Pode haver três tipos de dispersão de distribuição, em um espectro, de energia de um quadro de áudio: dispersão geral, dispersão de intermitência e dispersão limitada por banda.
[0045] Opcionalmente, em uma modalidade, um método de codificação apropriado pode ser selecionado para o quadro de áudio atual com o uso da dispersão geral. Nesse caso, a determinação da dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada inclui: dividir um espectro de cada um dentre os N quadros de áudio em P envelopes espectrais, em que P é um número inteiro positivo; e determinar um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que o parâmetro de dispersão geral indica a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio.
[0046] Especificamente, um valor médio de larguras de banda mínimas, distribuídas em espectros, de energia de proporção específica de N quadros de áudio consecutivos de entrada, pode ser definido como a dispersão geral. Uma largura de banda menor indica dispersão geral mais intensa, e uma largura de banda maior indica uma dispersão geral menos intensa. Em outras palavras, a dispersão geral mais intensa indica que a energia de um quadro de áudio está mais centralizada, e a dispersão geral menos intensa indica que a energia de um quadro de áudio está mais dispersa. A eficiência é alta quando o primeiro método de codificação é usado para codificar um quadro de áudio cuja dispersão geral é relativamente intensa. Portanto, um método de codificação apropriado pode ser selecionado determinando-se a dispersão geral de um quadro de áudio, a fim de codificar o quadro de áudio. A fim de auxiliar na determinação da determine dispersão geral de um quadro de áudio, a dispersão geral pode ser quantizada para obter um parâmetro de dispersão geral. Opcionalmente, quando N é 1, a dispersão geral é uma largura de banda mínima, distribuída em um espectro, de energia de proporção específica do quadro de áudio atual.
[0047] Opcionalmente, em uma modalidade, o parâmetro de dispersão geral inclui uma primeira largura de banda mínima. Nesse caso, a determinação de um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com primeira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com primeira proporção predefinida dos N quadros de áudio é a primeira largura de banda mínima. A determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, de dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: quando a primeira largura de banda mínima for menor que um primeiro valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; o quando a primeira largura de banda mínima for maior que o primeiro valor predefinido, determinar usar o segundo método de codificação para codificar o quadro de áudio atual. Opcionalmente, em uma modalidade, quando N é 1, os N quadros de áudio são o quadro de áudio atual, e o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com primeira proporção predefinida dos N quadros de áudio, é uma largura de banda mínima, distribuída no espectro, de energia com primeira proporção predefinida do quadro de áudio atual.
[0048] Uma pessoa versada na técnica pode entender que o primeiro valor predefinido e a primeira proporção predefinida podem ser determinados de acordo com um experimento de simulação. Um primeiro valor predefinido e uma primeira proporção predefinida apropriados podem ser determinados por meio de um experimento de simulação, de modo que um efeito de codificação satisfatório possa ser obtido quando um quadro de áudio que cumpre a condição for codificado com o uso do primeiro método de codificação ou do segundo método de codificação. De modo geral, um valor da primeira proporção predefinida é geralmente um número entre 0 e 1 e relativamente próximo a 1, por exemplo, 90% ou 80%. A seleção do primeiro valor predefinido está relacionada ao valor da primeira proporção predefinida e também relacionada a uma tendência de seleção entre o primeiro método de codificação e o segundo método de codificação. Por exemplo, um primeiro valor predefinido correspondente a uma primeira proporção predefinida relativamente grande é, geralmente, maior que um primeiro valor predefinido correspondente a uma primeira proporção predefinida relativamente pequena. Como outro exemplo, um primeiro valor predefinido correspondente a uma tendência a selecionar o primeiro método de codificação é geralmente maior que um primeiro valor predefinido correspondente a uma tendência a selecionar o segundo método de codificação.
[0049] A determinação de um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com primeira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: classificar a energia dos P envelopes espectrais de cada quadro de áudio em ordem decrescente; determinar, de acordo com a energia, classificada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a primeira proporção predefinida de cada um dentre os N quadros de áudio; e determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a primeira proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio. Por exemplo, um sinal de áudio de entrada é um sinal de banda larga amostrado em 16 kHz, e o sinal de entrada é inserido em um quadro de 20 ms. Cada quadro de sinal é 320 um ponto de amostragem de domínio de tempo. A transformada de frequência de tempo é realizada em um sinal de domínio de tempo. Por exemplo, a transformada de frequência de tempo é realizada por meio de uma transformada de Fourier rápida (Fast Fourier Transformation, FFT), para obter 160 envelopes espectrais S(k), ou seja, 160 coeficientes de espectro de energia de FFT, em que k=0, 1, 2, ..., 159. Uma largura de banda mínima é constatada a partir dos envelopes espectrais S(k) de maneira que uma proporção pela qual a energia na largura de banda se responsabiliza em energia total do quadro seja a primeira proporção predefinida. Especificamente, a determinação de uma largura de banda mínima, distribuída em um espectro, de energia com primeira proporção predefinida de um quadro de áudio de acordo com a energia, classificada em ordem decrescente, de P envelopes espectrais do quadro de áudio inclui: acumular sequencialmente a energia de bins de frequência nos envelopes espectrais S(k) em ordem decrescente; e compara a energia obtida após cada momento de acúmulo com a energia total do quadro de áudio e, caso uma proporção seja maior que a primeira proporção predefinida, terminar o processo de acúmulo, em que uma quantidade de vezes de acúmulo é a largura de banda mínima. Por exemplo, a primeira proporção predefinida é 90% e, caso uma proporção à qual uma soma de energia obtida após 30 vezes de acúmulo é correspondente na energia total exceda 90%, uma proporção pela qual uma soma de energia obtida após 29 vezes de acúmulo na energia total seja menor que 90% e uma proporção à qual uma soma de energia obtida após 31 vezes de acúmulo é correspondente na energia total exceda a proporção à qual a soma de energia obtida após 30 vezes de acúmulo corresponde na energia total, pode-se considerar que uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a primeira proporção predefinida do quadro de áudio é 30. O processo de determinação de largura de banda mínima supracitado é executado para cada um dentre os N quadros de áudio, para determinar separadamente as larguras de banda mínimas, distribuídas nos espectros, da energia que se responsabiliza por não menos que a primeira proporção predefinida dos N quadros de áudio incluindo o quadro de áudio atual e para calcular o valor médio das N larguras de banda mínimas. O valor médio das N larguras de banda mínimas pode ser denominado de primeira largura de banda mínima, e a primeira largura de banda mínima pode ser usada como o parâmetro de dispersão geral. Quando a primeira largura de banda mínima for menor que o primeiro valor predefinido, determina-se usar o primeiro método de codificação para codificar o quadro de áudio atual. Quando a primeira largura de banda mínima for maior que o primeiro valor predefinido, determina-se usar o segundo método de codificação para codificar o quadro de áudio atual.
[0050] Opcionalmente, em outra modalidade, o parâmetro de dispersão geral pode incluir uma primeira proporção de energia. Nesse caso, a determinação de um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: selecionar Pi envelopes espectrais dentre os P envelopes espectrais de cada um dentre os N quadros de áudio; e determinar a primeira proporção de energia de acordo com a energia dos Pi envelopes espectrais de cada um dentre os N quadros de áudio e com a energia total dos respectivos N quadros de áudio, em que Pi é um número inteiro positivo menor que P. A determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, de dever ser usada um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: quando a primeira proporção de energia for maior que um segundo valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; ou, quando a primeira proporção de energia for menor que o segundo valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual. Opcionalmente, em uma modalidade, quando N é 1, os N quadros de áudio são o quadro de áudio atual e a determinação da primeira proporção de energia de acordo com uma energia dos Pi envelopes espectrais de cada um dentre os N quadros de áudio e com a energia total dos respectivos N quadros de áudio inclui: determinar a primeira proporção de energia de acordo com a energia de Pi envelopes espectrais do quadro de áudio atual e energia total do quadro de áudio atual.
[0051] Especificamente, a primeira proporção de energia pode ser calculada com o uso da seguinte fórmula:
Figure img0001
Fórmula 1.1 em que Ri representa a primeira proporção de energia, Ep^n^ representa uma soma de energia de Pi envelopes espectrais selecionados em um n-ésimo quadro de áudio, Eaii(n) representa energia total do n-ésimo quadro de áudio, e r(n) representa a proporção pela qual a energia dos Pi envelopes espectrais do n-ésimo quadro de áudio nos N quadros de áudio corresponde na energia total do quadro de áudio.
[0052] Uma pessoa versada na técnica pode entender que o segundo valor predefinido e a seleção dos Pi envelopes espectrais podem ser determinados de acordo com um experimento de simulação. Um segundo valor predefinido apropriado, um valor apropriado de Pi, e um método apropriado para selecionar os Pi envelopes espectrais podem ser determinados por meio de um experimento de simulação, de modo que um efeito de codificação satisfatório possa ser obtido quando um quadro de áudio que cumpra a condição supracitada for codificado com o uso do primeiro método de codificação ou do segundo método de codificação. De modo geral, o valor de Pi pode ser um número relativamente pequeno. Por exemplo, Pi é selecionado de maneira que uma proporção de Pi a P seja menor que 20%. Para o segundo valor predefinido, um número correspondente a uma proporção excessivamente pequena não é selecionado geralmente. Por exemplo, um número menor que 10% não é selecionado. A seleção do segundo valor predefinido está relacionada ao valor de Pi e uma tendência de seleção entre o primeiro método de codificação e o segundo método de codificação. Por exemplo, um segundo valor predefinido correspondente a um Pi relativamente grande é, geralmente, maior que um segundo valor predefinido correspondente a um Pi relativamente pequeno. Como outro exemplo, um segundo valor predefinido correspondente a uma tendência a selecionar o primeiro método de codificação é geralmente menor que um segundo valor predefinido correspondente a uma tendência a selecionar o segundo método de codificação. Opcionalmente, em uma modalidade, a energia de qualquer um dentre os Pi envelopes espectrais é maior que a energia de qualquer um dentre os (P-Pi) envelopes espectrais restantes nos P envelopes espectrais.
[0053] Por exemplo, um sinal de áudio de entrada é um sinal de banda larga amostrado em 16 kHz, e o sinal de entrada é inserido em um quadro de 20 ms. Cada quadro de sinal são 320 pontos de amostragem de domínio de tempo. A transformada de frequência de tempo é realizada em um sinal de domínio de tempo. Por exemplo, a transformada de frequência de tempo é realizada por meio de uma transformada de Fourier rápida, para obter 160 envelopes espectrais S(k), em que k=0, 1, 2, ..., 159. Pi envelopes espectrais são selecionados a partir dos 160 envelopes espectrais, e uma proporção à qual uma soma de energia dos Pi envelopes espectrais corresponde na energia total do quadro de áudio é calculada. O processo supracitado é executado para cada um dentre os N quadros de áudio. Ou seja, uma proporção à qual uma soma de energia dos Pi envelopes espectrais de cada um dentre os N quadros de áudio corresponde na energia total respectiva é calculada. Um valor médio das proporções é calculado. O valor médio das proporções é a primeira proporção de energia. Quando a primeira proporção de energia for maior que o segundo valor predefinido, determina-se usar o primeiro método de codificação para codificar o quadro de áudio atual. Quando a primeira proporção de energia for menor que o segundo valor predefinido, determina-se usar o segundo método de codificação para codificar o quadro de áudio atual. A energia de qualquer um dentre os Pi envelopes espectrais é maior que a energia de qualquer um dentre os outros envelopes espectrais nos P envelopes espectrais com exceção dos Pi envelopes espectrais. Opcionalmente, em uma modalidade, o valor de Pi pode ser 20.
[0054] Opcionalmente, em outra modalidade, o parâmetro de dispersão geral pode incluir uma segunda largura de banda mínima e uma terceira largura de banda mínima. Nesse caso, a determinação de um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com segunda proporção predefinida dos N quadros de áudio e determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com terceira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com segunda proporção predefinida dos N quadros de áudio é usado como a segunda largura de banda mínima, o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com terceira proporção predefinida dos N quadros de áudio é usado como a terceira largura de banda mínima e a segunda proporção predefinida é menor que a terceira proporção predefinida. A determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, de dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: quando a segunda largura de banda mínima for menor que um terceiro valor predefinido e a terceira largura de banda mínima for menor que um quarto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; quando a terceira largura de banda mínima for menor que um quinto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; ou, quando a terceira largura de banda mínima for maior que um sexto valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual. O quarto valor predefinido é maior ou igual ao terceiro valor predefinido, o quinto valor predefinido é menor que o quarto valor predefinido, e o sexto valor predefinido é maior que o quarto valor predefinido. Opcionalmente, em uma modalidade, quando N é 1, os N quadros de áudio são o quadro de áudio atual. A determinação de um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com segunda proporção predefinida dos N quadros de áudio como a segunda largura de banda mínima inclui: determinar uma largura de banda mínima, distribuída no espectro, de energia com segunda proporção predefinida do quadro de áudio atual como a segunda largura de banda mínima. A determinação de um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com terceira proporção predefinida dos N quadros de áudio como a terceira largura de banda mínima inclui: determinar uma largura de banda mínima, distribuída no espectro, de energia com terceira proporção predefinida do quadro de áudio atual como a terceira largura de banda mínima.
[0055] A pessoa versada na técnica pode entender que o terceiro valor predefinido, o quarto valor predefinido, o quinto valor predefinido, o sexto valor predefinido, a segunda proporção predefinida e a terceira proporção predefinida podem ser determinados de acordo com um experimento de simulação. Os valores predefinidos e as proporções predefinidas apropriados podem ser determinados por meio de um experimento de simulação, de modo que um efeito de codificação satisfatório possa obtido quando um quadro de áudio que cumpra as conduções supracitadas for codificado com o uso do primeiro método de codificação ou do segundo método de codificação.
[0056] A determinação de um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com segunda proporção predefinida dos N quadros de áudio e a determinação de um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com terceira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: classificar a energia dos P envelopes espectrais de cada quadro de áudio em ordem decrescente; determinar, de acordo com a energia, classificada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a segunda proporção predefinida de cada um dentre os N quadros de áudio; determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a segunda proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a segunda proporção predefinida dos N quadros de áudio; determinar, de acordo com a energia, armazenada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a terceira proporção predefinida de cada um dentre os N quadros de áudio; e determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que responsabilizar por não menos que a terceira proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a terceira proporção predefinida dos N quadros de áudio. Por exemplo, um sinal de áudio de entrada é um sinal de banda larga amostrado em 16 kHz, e o sinal de entrada é inserido em um quadro de 20 ms. Cada quadro de sinal são 320 pontos de amostragem de domínio de tempo. A transformada de frequência de tempo é realizada em um sinal de domínio de tempo. Por exemplo, a transformada de frequência de tempo é realizada por meio de uma transformada de Fourier rápida, para obter 160 envelopes espectrais S(k), em que k=0, 1,2, ..., 159. Uma largura de banda mínima é constatada a partir dos envelopes espectrais S(k) de maneira que uma proporção pela qual a energia na largura de banda se responsabiliza em energia total do quadro seja a segunda proporção predefinida. Uma largura de banda continua a ser constada a partir dos envelopes espectrais S(k) de maneira que a proporção pela qual a energia na largura de banda corresponde na energia total seja a terceira proporção predefinida. Especificamente, a determinação, de acordo com a energia, armazenada em ordem decrescente, de P envelopes espectrais do quadro de áudio, de uma largura de banda mínima, distribuída em um espectro, de energia que corresponde a não menos que a segunda proporção predefinida de um quadro de áudio e de uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a terceira proporção predefinida do quadro de áudio inclui: acumular sequencialmente uma energia de bins de frequência nos envelopes espectrais S(k) em ordem decrescente. A energia obtida após cada momento de acúmulo é comparada à energia total do quadro de áudio e, caso uma proporção seja maior que a segunda proporção predefinida, uma quantidade de vezes de acúmulo é uma largura de banda mínima que que se encontra não menor que a segunda proporção predefinida. O acúmulo é continuado e caso uma proporção de energia obtida após acúmulo para a energia total do quadro de áudio seja maior que a terceira proporção predefinida, o acúmulo é terminado e uma quantidade de vezes de acúmulo é uma largura de banda mínima que se encontra não menor que a terceira proporção predefinida. Por exemplo, a segunda proporção predefinida é 85%, e a terceira proporção predefinida é 95%. Caso uma proporção à qual uma soma de energia obtida após 30 vezes de acúmulo é correspondente na energia total exceda 85%, pode-se considerar que a largura de banda mínima, distribuída no espectro, da energia com segunda proporção predefinida do quadro de áudio é 30. O acúmulo é continuado e, caso uma proporção pela qual uma soma de energia obtida após 35 vezes de acúmulo corresponde na energia total seja 95%, pode-se considerar que a largura de banda mínima, distribuída no espectro, da energia com terceira proporção predefinida do quadro de áudio é 35. O processo supracitado é executado para cada um dentre os N quadros de áudio, a fim de determinar separadamente as larguras de banda mínimas, distribuídas nos espectros, da energia que se responsabilizar por não menos que a segunda proporção predefinida dos N quadros de áudio incluindo o quadro de áudio atual e as larguras de banda mínimas, distribuídas nos espectros, da energia que corresponde a não menos que a terceira proporção predefinida dos N quadros de áudio incluindo os quadro de áudio atual. O valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia que corresponde a não menos que a segunda proporção predefinida dos N quadros de áudio é a segunda largura de banda mínima. O valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia que corresponde a não menos que a terceira proporção predefinida dos N quadros de áudio é a terceira largura de banda mínima. Quando a segunda largura de banda mínima for menor que o terceiro valor predefinido e a terceira largura de banda mínima for menor que o quarto valor predefinido, determina-se usar o primeiro método de codificação para codificar o quadro de áudio atual. Quando a terceira largura de banda mínima for menor que o quinto valor predefinido, determina-se usar o primeiro método de codificação para codificar o quadro de áudio atual. Quando a terceira largura de banda mínima for maior que o sexto valor predefinido, determina-se usar o segundo método de codificação para codificar o quadro de áudio atual.
[0057] Opcionalmente, em outra modalidade, o parâmetro de dispersão geral inclui uma segunda proporção de energia e uma terceira proporção de energia. Nesse caso, a determinação de um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio inclui: selecionar P2 envelopes espectrais a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio; determinar a segunda proporção de energia de acordo com a energia dos P2 envelopes espectrais de cada um dentre os N quadros de áudio e com a energia total dos respectivos N quadros de áudio; selecionar P3 envelopes espectrais a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio; e determinar a terceira proporção de energia de acordo com a energia dos P3 envelopes espectrais de cada um dentre os N quadros de áudio e a energia total dos respectivos N quadros de áudio. A determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: quando a segunda proporção de energia for maior que um décimo sétimo valor predefinido e a terceira proporção de energia for maior que um oitavo valor predefinido, determinar usar o primeiro método de codificação para codificar 0 quadro de áudio atual; quando a segunda proporção de energia for maior que um nono valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; ou, quando a terceira proporção de energia for menor que um décimo valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual. P2 e P3 são números inteiros positivos menores que P, e P2 é menor que P3. Opcionalmente, em uma modalidade, quando N é 1, os N quadros de áudio são o quadro de áudio atual. A determinação da segunda proporção de energia de acordo com a energia dos P2 envelopes espectrais de cada um dentre os N quadros de áudio e a energia total dos respectivos N quadros de áudio inclui: determinar a segunda proporção de energia de acordo com a energia de P2 envelopes espectrais do quadro de áudio atual e com a energia total do quadro de áudio atual. A determinação da terceira proporção de energia de acordo com a energia dos P3 envelopes espectrais de cada um dentre os N quadros de áudio e com a energia total dos respectivos N quadros de áudio inclui: determinar a terceira proporção de energia de acordo com a energia de P3 envelopes espectrais do quadro de áudio atual e com a energia total do quadro de áudio atual.
[0058] Uma pessoa versada na técnica pode entender que os valores de P2 e P3, o décimo sétimo valor predefinido, o oitavo valor predefinido, o nono valor predefinido e 0 décimo valor predefinido podem ser determinados de acordo com um experimento de simulação. Os valores predefinidos apropriados podem ser determinados por meio de um experimento de simulação, de modo que um efeito de codificação satisfatório possa obtido quando um quadro de áudio que cumpra as conduções supracitadas for codificado com o uso do primeiro método de codificação ou do segundo método de codificação. Opcionalmente, em uma modalidade, os P2 envelopes espectrais podem ser P2 envelopes espectrais que têm energia máxima nos P envelopes espectrais; e os P3 envelopes espectrais podem ser P3 envelopes espectrais que têm energia máxima nos P envelopes espectrais.
[0059] Por exemplo, um sinal de áudio de entrada é um sinal de banda larga amostrado em 16 kHz, e 0 sinal de entrada é inserido em um quadro de 20 ms. Cada quadro de sinal são 320 pontos de amostragem de domínio de tempo. A transformada de frequência de tempo é realizada em um sinal de domínio de tempo. Por exemplo, a transformada de frequência de tempo é realizada por meio de uma transformada de Fourier rápida, para obter 160 envelopes espectrais S(k), em que k=0, 1, 2, ..., 159. P2 envelopes espectrais são selecionados a partir dos 160 envelopes espectrais, e uma proporção à qual uma soma de energia dos P2 envelopes espectrais corresponde na energia total do quadro de áudio é calculada. O processo supracitado é executado para cada um dentre os N quadros de áudio. Ou seja, uma proporção à qual uma soma de energia dos P2 envelopes espectrais de cada um dentre os N quadros de áudio corresponde na energia total respectiva é calculada. Um valor médio das proporções é calculado. O valor médio das proporções é a segunda proporção de energia. P3 envelopes espectrais são selecionados a partir dos 160 envelopes espectrais, e uma proporção à qual uma soma de energia dos P3 envelopes espectrais corresponde na energia total do quadro de áudio é calculada. O processo supracitado é executado para cada um dentre os N quadros de áudio. Ou seja, uma proporção à qual uma soma de energia dos P3 envelopes espectrais de cada um dentre os N quadros de áudio corresponde na energia total respectiva é calculada. Um valor médio das proporções é calculado. O valor médio das proporções é a terceira proporção de energia. Quando a segunda proporção de energia for maior que o décimo sétimo valor predefinido e a terceira proporção de energia for maior que o oitavo valor predefinido, determina-se usar o primeiro método de codificação para codificar o quadro de áudio atual. Quando a segunda proporção de energia for maior que o nono valor predefinido, determina-se usar o primeiro método de codificação para codificar o quadro de áudio atual. Quando a terceira proporção de energia for menor que o décimo valor predefinido, determina-se usar o segundo método de codificação para codificar o quadro de áudio atual. Os P2 envelopes espectrais podem ser P2 envelopes espectrais que têm energia máxima nos P envelopes espectrais; e os P3 envelopes espectrais podem ser P3 envelopes espectrais que têm energia máxima nos P envelopes espectrais. Opcionalmente, em uma modalidade, o valor de P2 pode ser 20, e o valor de P3 pode ser 30.
[0060] Opcionalmente, em outra modalidade, um método de codificação apropriado pode ser selecionado para o quadro de áudio atual com o uso da dispersão de intermitência. Para a dispersão de intermitência, a dispersão global, a dispersão local e a intermitência a curto prazo de distribuição, em um espectro, de energia de um quadro de áudio, não precisam ser consideradas. Nesse caso, a dispersão de distribuição da energia nos espectros pode incluir dispersão global, dispersão local e intermitência a curto prazo de distribuição da energia nos espectros. Nesse caso, um valor de N pode ser 1, e os N quadros de áudio são o quadro de áudio atual. A determinação da dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada inclui: dividir um espectro do quadro de áudio atual em Q sub-bandas; e determinar um parâmetro de dispersão de intermitência de acordo com a energia de pico de cada uma dentre as Q sub- bandas do espectro do quadro de áudio atual, em que o parâmetro de dispersão de intermitência é usado para indicar a dispersão global, a dispersão local e a intermitência a curto prazo do quadro de áudio atual. O parâmetro de dispersão de intermitência inclui: uma proporção global de pico para média de cada uma dentre as Q sub-bandas, uma proporção local de pico para média de cada uma dentre as Q sub-bandas, e uma flutuação de energia a curto prazo de cada uma dentre as Q sub-bandas, em que a proporção global de pico para média é determinada de acordo com a energia de pico na sub-banda e com a energia média de todas as sub-bandas do quadro de áudio atual, a proporção local de pico para média é determinada de acordo com a energia de pico na sub-banda e com a energia média na sub-banda, e a flutuação de energia de pico a curto prazo é determinada de acordo com a energia de pico na sub- banda e com a energia de pico em uma banda de frequência específica de um quadro de áudio antes do quadro de áudio. A determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: determinar a possibilidade de haver uma primeira sub-banda nas Q sub-bandas, em que uma proporção local de pico para média da primeira sub-banda é maior que um décimo primeiro valor predefinido, uma proporção global de pico para média da primeira sub-banda é maior que um décimo segundo valor predefinido, e uma flutuação de energia de pico a curto prazo da primeira sub-banda é maior que um décimo terceiro valor predefinido; e quando há a primeira sub-banda nas Q sub-bandas, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. A proporção global de pico para média de cada uma dentre as Q sub-bandas, a proporção local de pico para média de cada uma dentre as Q sub-bandas e a flutuação de energia a curto prazo de cada uma dentre as Q sub-bandas representam respectivamente a dispersão global, a dispersão local e a intermitência a curto prazo.
[0061] Especificamente, a proporção global de pico para média pode ser determinada com o uso de da seguinte fórmula:
Figure img0002
Fórmula 1.2 em que representa energia de pico de uma i-ésima sub-banda nas Q sub-bandas, s(^) representa energia de um k-ésimo envelope espectral nos P envelopes espectrais e P^s0) representa uma proporção global de pico para média da i-ésima sub-banda.
[0062] A proporção local de pico para média pode ser determinada com o uso de da seguinte fórmula:
Figure img0003
Fórmula 1.3 em que representa a energia de pico da i-ésima sub-banda nas Q sub-bandas, s(k) representa a energia do k-ésimo envelope espectral nos P envelopes espectrais, representa um índice de um envelope espectral que está incluído na i-ésima sub-banda e que tem uma frequência mais alta possível, representa um índice de um envelope espectral que está incluído na i-ésima sub-banda e que tem uma frequência mais baixa possível, P^a(0 representa a proporção local de pico para média da i-ésima sub-banda e h(i) é menor ou igual a P-1.
[0063] A flutuação de energia de pico a curto prazo pode ser determinada com o uso da seguinte fórmula:
Figure img0004
Fórmula 1.4 em que ci ) representa a energia de pico da i-ésima sub-banda nas Q sub-bandas do quadro de áudio atual, e ei e e? representam a energia de pico de bandas de frequência específicas de quadros de áudio antes do quadro de áudio atual. Especificamente, presumindo-se que o quadro de áudio atual é um M-ésimo quadro de áudio, um envelope espectral no qual a energia de pico da i-ésima sub-banda do quadro de áudio atual está localizada é determinado. Presume-se que o envelope espectral no qual a energia de pico está localizada é ii. A energia de pico dentro de uma faixa a partir de um (ii-t)-ésimo envelope espectral até um (ii+t)-ésimo envelope espectral em um (M-l)-ésimo quadro de áudio é determinado, e a energia de pico é ei. De semelhante, a energia de pico dentro de uma faixa a partir de um (ii-t)-ésimo envelope espectral até um (ii+t)-ésimo envelope espectral em um (M-2)-ésimo quadro de áudio é determinado, e a energia de pico é β2.
[0064] Uma pessoa versada na técnica pode entender que o décimo primeiro valor predefinido, o décimo segundo valor predefinido e o décimo terceiro valor predefinido podem ser determinados de acordo com um experimento de simulação. Os valores predefinidos apropriados podem ser determinados por meio de um experimento de simulação, de modo que um efeito de codificação satisfatório possa ser obtido quando um quadro de áudio que cumpre a condição supracitada seja codificado com o uso do primeiro método de codificação.
[0065] Opcionalmente, em outra modalidade, um método de codificação apropriado pode ser selecionado para o quadro de áudio atual com o uso da dispersão limitada por banda. Nesse caso, a dispersão de distribuição da energia nos espectros inclui dispersão limitada por banda de distribuição da energia nos espectros. Nesse caso, a determinação da dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada inclui: determinar uma frequência de demarcação de cada um dentre os N quadros de áudio; e determinar um parâmetro de dispersão limitada por banda de acordo com a frequência de demarcação de cada N quadro de áudio. O parâmetro de dispersão limitada por banda pode ser um valor médio das frequências de demarcação dos N quadros de áudio. Por exemplo, um Ni-ésimo quadro de áudio é qualquer um dentre os N quadros de áudio, e uma faixa de frequência do Ni-ésimo quadro de áudio parte de Fb para a Fe, em que Fb é menor que Fe. Presumindo-se que a frequência inicial é Fb, um método para determinar uma frequência de demarcação do Ni-ésimo quadro de áudio pode estar buscando uma frequência Fs começando por Fb, em que Fs cumpre as seguintes condições: uma proporção de uma soma de energia de Fb a Fs à energia total do Ni-ésimo quadro de áudio não é menor que uma quarta proporção predefinida, e uma proporção de uma soma de energia de Fb a qualquer frequência menor que Fs à energia total do Ni-ésimo quadro de áudio é menor que a quarta proporção predefinida, em que Fs é a frequência de demarcação do Ni-ésimo quadro de áudio. A etapa de determinação de frequência de demarcação supracitada é realizada para cada um dentre os N quadros de áudio. Dessa maneira, as N frequências de demarcação dos N quadros de áudio podem ser obtidas. A determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, de dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual inclui: quando se determina que o parâmetro de dispersão limitada por banda dos quadros de áudio é menor que um décimo quarto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual.
[0066] Uma pessoa versada na técnica pode entender que a quarta proporção predefinida e o décimo quarto valor predefinido podem ser determinados de acordo com um experimento de simulação. Um valor predefinido e uma proporção predefinida apropriados podem ser determinados de acordo com um experimento de simulação, de modo que um efeito de codificação satisfatório possa ser obtido quando um quadro de áudio que cumpre a condição for codificado com o uso do primeiro método de codificação. De modo geral, um número menor que 1, porém, próximo a 1, por exemplo, 95% ou 99%, é selecionado como um valor da quarta proporção predefinida. Para a seleção do décimo quarto valor predefinido, um número correspondente a uma frequência relativamente alta não selecionado geralmente. Por exemplo, em algumas modalidades, caso uma faixa de frequência de um quadro de áudio seja de 0 Hz a 8 kHz, um número menor que uma frequência de 5 kHz pode ser selecionado como o décimo quarto valor predefinido.
[0067] Por exemplo, a energia de cada um dentre os P envelopes espectrais do quadro de áudio atual pode ser determinada, e busca-se uma frequência de demarcação a partir de uma frequência baixa a uma frequência alta de maneira que a proporção pela qual a energia que é menor que a frequência de demarcação corresponde na energia total do quadro de áudio atual seja a quarta proporção predefinida. Presumindo-se que N é 1, a frequência de demarcação do quadro de áudio atual é o parâmetro de dispersão limitada por banda. Presumindo-se que N é um número inteiro maior que 1, determina-se que o valor médio das frequências de demarcação dos N quadros de áudio é o parâmetro de dispersão limitada por banda. Uma pessoa versada na técnica pode entender que a determinação de frequência de demarcação mencionado acima é apenas um exemplo. Alternativamente, o método de determinação de frequência de demarcação pode estar buscando por uma frequência de demarcação a partir de uma frequência alta até uma frequência baixa ou pode ser outro método.
[0068] Além disso, a fim de evitar a comutação frequente entre o primeiro método de codificação e o segundo método de codificação, um período de desconexão pode ser definido adicionalmente. Para um quadro de áudio no período de desconexão, um método de codificação usado para um quadro de áudio em uma posição inicial do período de desconexão pode ser usado. Dessa maneira, uma diminuição de qualidade de comutação causada pela comutação frequente entre diferentes métodos de codificação pode ser evitada.
[0069] Caso uma duração de desconexão do período de desconexão seja L, L quadros de áudio após o quadro de áudio atual, todos pertencem a um período de desconexão do quadro de áudio atual. Caso a dispersão de distribuição, em um espectro, de energia de um quadro de áudio que pertence ao período de desconexão seja diferente da dispersão de distribuição, em um espectro, de energia de um quadro de áudio em uma posição inicial do período de desconexão, o quadro de áudio ainda é codificado com o uso de um método de codificação que é igual ao usado para o quadro de áudio na posição inicial do período de desconexão.
[0070] A duração de período de desconexão pode ser atualizada de acordo com a dispersão de distribuição, em um espectro, de energia de um quadro de áudio no período de desconexão, até que a duração de período de desconexão seja 0.
[0071] Por exemplo, caso determine-se usar o primeiro método de codificação para um l-ésimo quadro de áudio e uma duração de um período de desconexão predefinido seja L, o primeiro método de codificação é usado para um (l+1)-ésimo quadro de áudio a um (l+L)-ésimo quadro de áudio. Em seguida, a dispersão de distribuição, em um espectro, de energia do (1+1)- ésimo quadro de áudio é determinada, e o período de desconexão é recalculado de acordo com a dispersão de distribuição, no espectro, da energia do (l+1)-ésimo quadro de áudio. Caso o (l+1)-ésimo quadro de áudio ainda cumpra uma condução de usar o primeiro método de codificação, um período de desconexão subsequente ainda é o período de desconexão predefinido L. Ou seja, o período de desconexão se inicia de um (L+2)-ésimo quadro de áudio a um (l+1+L)-ésimo quadro de áudio. Caso o (l+1)-ésimo quadro de áudio não cumpra a condição de usar o primeiro método de codificação, o período de desconexão é determinado novamente de acordo com a dispersão de distribuição, no espectro, da energia do (l+1)-ésimo quadro de áudio. Por exemplo, determina-se novamente que o período de desconexão é L-L1, em que L1 é um número inteiro positivo menor ou igual a L. Caso L1 seja igual a L, a duração de período de desconexão é atualizada para 0. Nesse caso, o método de codificação é determinado novamente de acordo com a dispersão de distribuição, no espectro, da energia do (l+1)-ésimo quadro de áudio. Caso L1 seja um número inteiro menor que L, o método de codificação é determinado novamente de acordo com a dispersão de distribuição, em um espectro, de energia de um (l+1+L-L1)-ésimo quadro de áudio. No entanto, devido ao fato de que o (l+1)-ésimo quadro de áudio está em um período de desconexão do l-ésimo quadro de áudio, o (l+1)-ésimo quadro de áudio ainda é codificado com o uso do primeiro método de codificação. L1 pode ser denominado de parâmetro de atualização de desconexão, e um valor do parâmetro de atualização de desconexão pode ser determinado de acordo com a dispersão de distribuição, em um espectro, de energia de um quadro de áudio de entrada. Dessa maneira, a atualização de período de desconexão está relacionada à dispersão de distribuição, em um espectro, de energia de um quadro de áudio.
[0072] Por exemplo, quando um parâmetro de dispersão geral é determinado e o parâmetro de dispersão geral é uma primeira largura de banda mínima, o período de desconexão pode ser determinado novamente de acordo com uma largura de banda mínima, distribuída em um espectro, de energia com primeira proporção predefinida de um quadro de áudio. Presume-se que é determinado o uso do primeiro método de codificação para codificar o l-ésimo quadro de áudio, e um período de desconexão predefinido é L. Uma largura de banda mínima, distribuída em um espectro, de energia com primeira proporção predefinida de cada um dentre os H quadros de áudio consecutivos incluindo o (l+1)-ésimo quadro de áudio é determinado, em que H é um número inteiro positivo maior que 0. Caso o (l+1)-ésimo quadro de áudio não cumpra a condição de usar o primeiro método de codificação, uma quantidade de quadros de áudio cujas larguras de banda mínimas, distribuídas em espectros, de energia com primeira proporção predefinida são menores que um décimo quinto valor predefinido (a quantidade é denominada brevemente de primeiro parâmetro de desconexão) é determinada. Quando uma largura de banda mínima, distribuída em um espectro, de energia com primeira proporção predefinida de um (L+1)-ésimo quadro de áudio for maior que um décimo sexto valor predefinido e for menor que um décimo sétimo valor predefinido, e o primeiro parâmetro de desconexão for menor que um décimo oitavo valor predefinido, a duração de período de desconexão é subtraída por 1, ou seja, o parâmetro de atualização de desconexão é 1. O décimo sexto valor predefinido é maior que o primeiro valor predefinido. Quando a largura de banda mínima, distribuída no espectro, da energia com primeira proporção predefinida do (L+1)-ésimo quadro de áudio for maior que o décimo sétimo valor predefinido e for menor que um décimo nono valor predefinido e o primeiro parâmetro de desconexão for menor que o décimo oitavo valor predefinido, a duração de período de desconexão é subtraída por 2, ou seja, o parâmetro de atualização de desconexão é 2. Quando a largura de banda mínima, distribuída no espectro, da energia com primeira proporção predefinida do (L+1)-ésimo quadro de áudio for maior que o décimo nono valor predefinido, o período de desconexão é definido como 0. Quando o primeiro parâmetro de desconexão e a largura de banda mínima, distribuída no espectro, da energia com primeira proporção predefinida do (L+1)-ésimo quadro de áudio não cumprem um ou mais dentre o décimo sexto valor predefinido ao décimo nono valor predefinido, o período de desconexão permanece inalterado.
[0073] Uma pessoa versada na técnica pode entender que, o período de desconexão predefinido pode ser definido de acordo com uma situação real, e o parâmetro de atualização de desconexão também pode ser ajustado de acordo com uma situação real. O décimo quinto valor predefinido ao décimo nono valor predefinido pode ser ajustado de acordo com uma situação real, de modo que diferentes períodos de desconexão possam ser definidos.
[0074] De modo semelhante, quando o parâmetro de dispersão geral inclui uma segunda largura de banda mínima e uma terceira largura de banda mínima, ou o parâmetro de dispersão geral inclui uma primeira proporção de energia ou o parâmetro de dispersão geral inclui uma segunda proporção de energia e uma terceira proporção de energia, um período de desconexão predefinido correspondente, um parâmetro de atualização de desconexão correspondente e um parâmetro relacionado usado para determinar o parâmetro de atualização de desconexão podem ser definidos, de modo que um período de desconexão correspondente possa ser determinado e a comutação frequente entre métodos de codificação seja evitada.
[0075] Quando o método de codificação é determinado de acordo com a dispersão de intermitência (ou seja, o método de codificação é determinado e acordo com a dispersão global, dispersão local e intermitência a curto prazo de distribuição, em um espectro, de energia de um quadro de áudio), um período de desconexão correspondente, um parâmetro de atualização de desconexão correspondente e um parâmetro relacionado usado para determinar o parâmetro de atualização de desconexão pode ser definido para evitar a comutação frequente entre métodos de codificação. Nesse caso, o período de desconexão pode ser menor que o período de desconexão que é definido no caso do parâmetro de dispersão geral.
[0076] Quando o método de codificação é determinado de acordo com uma característica limitada por banda de distribuição de energia em um espectro, um período de desconexão correspondente, um parâmetro de atualização de desconexão correspondente e um parâmetro relacionado usado para determinar o parâmetro de atualização de desconexão pode ser definido para evitar a comutação frequente entre métodos de codificação. Por exemplo, uma proporção de energia de baixo envelope espectral de um quadro de áudio de entrada à energia de todos os envelopes espectrais pode ser calculada e o parâmetro de atualização de desconexão é determinado de acordo com a proporção. Especificamente, a proporção da energia do baixo envelope espectral à energia de todos os envelopes espectrais pode ser determinada com o uso da seguinte fórmula:
Figure img0005
Fórmula 1.5 em que low representa a proporção da energia de baixo envelope espectral à energia de todos os envelopes espectrais, s(k) representa energia de um k-ésimo envelope espectral, y representa um índice de um envelope espectral mais alto possível de uma banda de frequência baixa, e P indica que o quadro de áudio é dividido em P envelopes espectrais no total. Nesse caso, caso low seja maior que um vigésimo valor predefinido, o parâmetro de atualização de desconexão é 0. De outro modo, caso low seja maior que um vigésimo primeiro valor predefinido, o parâmetro de atualização de desconexão pode ter um valor relativamente baixo, em que o vigésimo valor predefinido é maior que o vigésimo primeiro valor predefinido. Caso low não seja maior que o vigésimo primeiro valor predefinido, o parâmetro de desconexão pode ter um valor relativamente alto. A pessoa versada na técnica pode entender que, o vigésimo valor predefinido e o vigésimo primeiro valor predefinido podem ser determinados de acordo com um experimento de simulação, e o valor do parâmetro de atualização de desconexão também pode ser determinado de acordo com um experimento. De modo geral, um número que é uma proporção excessivamente pequena não é selecionado geralmente como o vigésimo primeiro valor predefinido. Por exemplo, um número maior que 50% pode ser selecionado de modo geral. O vigésimo valor predefinido está faixa entre o vigésimo primeiro valor predefinido e 1.
[0077] Além disso, quando o método de codificação é determinado de acordo com uma característica limitada por banda de distribuição de energia em um espectro, uma frequência de demarcação de um quadro de áudio de entrada pode ser determinada adicionalmente e o parâmetro de atualização de desconexão é determinado de acordo com a frequência de demarcação, em que a frequência de demarcação pode ser diferente de uma frequência de demarcação usada para determinar um parâmetro de dispersão limitada por banda. Caso a frequência de demarcação seja menor que um vigésimo segundo valor predefinido, o parâmetro de atualização de desconexão é 0. De outro modo, caso a frequência de demarcação seja menor que um vigésimo terceiro valor predefinido, o parâmetro de atualização de desconexão tem um valor relativamente baixo. O vigésimo terceiro valor predefinido é maior que o vigésimo segundo valor predefinido. Caso a frequência de demarcação seja maior que o vigésimo terceiro valor predefinido, o parâmetro de atualização de desconexão pode ter um valor relativamente alto. A pessoa versada na técnica pode entender que o vigésimo segundo valor predefinido e o vigésimo terceiro valor predefinido podem ser determinados de acordo com um experimento de simulação e o valor do parâmetro de atualização de desconexão também podem ser determinados de acordo com um experimento. De modo geral, um número correspondente a uma frequência relativamente alta não é selecionado como o vigésimo terceiro valor predefinido. Por exemplo, caso uma faixa de frequência de um quadro de áudio seja 0 Hz a 8 kHz, um número menor que uma frequência de 5 kHz pode ser selecionado como o vigésimo terceiro valor predefinido.
[0078] A Figura 2 é um diagrama de blocos estrutural de um aparelho de acordo com uma modalidade da presente invenção. O aparelho 200 mostrado na Figura 2 pode realizar as etapas na Figura 1. Conforme mostrado na Figura 2, o aparelho 200 inclui uma unidade de obtenção 201 e uma unidade de determinação 202.
[0079] A unidade de obtenção 201 é configurada para obter N quadros de áudio, em que os N quadros de áudio incluem um quadro de áudio atual e N é um número inteiro positivo.
[0080] A unidade de determinação 202 é configurada para determinar a dispersão de distribuição, nos espectros, de energia dos N quadros de áudio obtidos pela unidade de obtenção 201.
[0081] A unidade de determinação 202 é configurada adicionalmente para determinar, de acordo com a dispersão de distribuição, nos espectros, das energia dos N quadros de áudio, se dever ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual, em que o primeiro método de codificação é um método de codificação que se baseia em transformada de frequência de tempo e em quantização de coeficiente de transformada, e não se baseia em previsão linear, e o segundo método de codificação é um método de codificação com base em previsão linear.
[0082] De acordo com o aparelho mostrado na Figura 2 quando um quadro de áudio é codificado, a dispersão de distribuição, em um espectro, de energia do quadro de áudio é configurada, o que pode reduzir a complexidade de codificação e garantir que a codificação tenha precisão relativamente alta.
[0083] Durante a seleção de um método de codificação apropriado para um quadro de áudio, a dispersão de distribuição, em um espectro, de energia do quadro de áudio pode ser considerada. Pode haver três tipos de dispersão de distribuição, em um espectro, de energia de um quadro de áudio: dispersão geral, dispersão de intermitência e dispersão limitada por banda.
[0084] Opcionalmente, em uma modalidade, um método de codificação apropriado pode ser selecionado para o quadro de áudio atual com o uso da dispersão geral. Nesse caso, a unidade de determinação 202 é configurada especificamente para dividir um espectro de cada um dentre os N quadros de áudio em P envelopes espectrais e para determinar um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que P é um número inteiro positivo, e o parâmetro de dispersão geral indica que a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio.
[0085] Especificamente, um valor médio de larguras de banda mínimas, distribuídas em espectros, de energia de proporção específica de N quadros de áudio consecutivos de entrada, pode ser definido como a dispersão geral. Uma largura de banda menor indica dispersão geral mais intensa, e uma largura de banda maior indica uma dispersão geral menos intensa. Em outras palavras, a dispersão geral mais intensa indica que a energia de um quadro de áudio está mais centralizada, e a dispersão geral menos intensa indica que a energia de um quadro de áudio está mais dispersa. A eficiência é alta quando o primeiro método de codificação é usado para codificar um quadro de áudio cuja dispersão geral é relativamente intensa. Portanto, um método de codificação apropriado pode ser selecionado determinando-se a dispersão geral de um quadro de áudio, a fim de codificar o quadro de áudio. A fim de auxiliar na determinação da determine dispersão geral de um quadro de áudio, a dispersão geral pode ser quantizada para obter um parâmetro de dispersão geral. Opcionalmente, quando N é 1, a dispersão geral é uma largura de banda mínima, distribuída em um espectro, de energia de proporção específica do quadro de áudio atual.
[0086] Opcionalmente, em uma modalidade, o parâmetro de dispersão geral inclui uma primeira largura de banda mínima. Nesse caso, a unidade de determinação 202 é configurada especificamente para determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com primeira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com primeira proporção predefinida dos N quadros de áudio é a primeira largura de banda mínima. A unidade de determinação 202 é configurada especificamente para: quando a primeira largura de banda mínima for menor que um primeiro valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e quando a primeira largura de banda mínima for maior que o primeiro valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual.
[0087] Uma pessoa versada na técnica pode entender que o primeiro valor predefinido e a primeira proporção predefinida podem ser determinados de acordo com um experimento de simulação. Um primeiro valor predefinido e uma primeira proporção predefinida apropriados podem ser determinados por meio de um experimento de simulação, de modo que um efeito de codificação satisfatório possa ser obtido quando um quadro de áudio que cumpre a condição for codificado com o uso do primeiro método de codificação ou do segundo método de codificação.
[0088] A unidade de determinação 202 é configurada especificamente para: classificar a energia dos P envelopes espectrais de cada quadro de áudio em ordem decrescente; determinar, de acordo com a energia, classificada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a primeira proporção predefinida de cada um dentre os N quadros de áudio; e determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a primeira proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio. Por exemplo, um sinal de áudio obtido pela unidade de obtenção 201 é um sinal de banda larga amostrado em 16 kHz, e o sinal de áudio obtido é obtido em um quadro de 20 ms. Cada quadro de sinal são 320 pontos de amostragem de domínio de tempo. A unidade de determinação 202 pode realizar a transformada de frequência de tempo em um sinal de domínio de tempo, por exemplo, realizar a transformada de frequência de tempo por meio de uma transformada de Fourier rápida (Fast Fourier Transformation, FFT), para obter 160 envelopes espectrais S(k), ou seja, 160 coeficientes de espectro de energia de FFT, em que k=0, 1, 2, ..., 159. A unidade de determinação 202 pode constatar uma largura de banda mínima dos envelopes espectrais S(k) de maneira que uma proporção pela qual a energia na largura de banda corresponde na energia total do quadro seja a primeira proporção predefinida. De maneira especifica, a unidade de determinação 202 pode acumular sequencialmente a energia de bins de frequência nos envelopes espectrais S(k) em ordem decrescente; e comparar a energia obtida após cada momento de acúmulo com a energia total do quadro de áudio e, caso uma proporção seja maior que a primeira proporção predefinida, terminar o processo de acúmulo, em que uma quantidade de vezes de acúmulo é a largura de banda mínima. Por exemplo, a primeira proporção predefinida é 90% e, caso uma proporção à qual uma soma de energia obtida após 30 vezes de acúmulo é correspondente na energia total exceda 90%, pode-se considerar que uma largura de banda mínima de energia que corresponde a não menos que a primeira proporção predefinida do quadro de áudio é 30. A unidade de determinação 202 pode executar o processo de determinação de largura de banda mínima supracitada para cada um dentre os N quadros de áudio, a fim de determinar separadamente as larguras de banda mínimas da energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio incluindo o quadro de áudio atual. A unidade de determinação 202 pode calcular um valor médio das larguras de banda mínimas da energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio. O valor médio das larguras de banda mínimas da energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio pode ser denominado de primeira largura de banda mínima, e a primeira largura de banda mínima pode ser usado como o parâmetro de dispersão geral. Quando a primeira largura de banda mínima for menor que o primeiro valor predefinido, a unidade de determinação 202 pode determinar usar o primeiro método de codificação para codificar o quadro de áudio atual. Quando a primeira largura de banda mínima for maior que o primeiro valor predefinido, a unidade de determinação 202 pode determinar usar o segundo método de codificação para codificar o quadro de áudio atual.
[0089] Opcionalmente, em outra modalidade, o parâmetro de dispersão geral pode incluir uma primeira proporção de energia. Nesse caso, a unidade de determinação 202 é configurada especificamente para selecionar Pi envelopes espectrais a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio e determinar a primeira proporção de energia de acordo com a energia dos Pi envelopes espectrais de cada um dentre os N quadros de áudio e com a energia total dos N quadros de áudio respectivos, em que Pi é um número inteiro positivo menor que P. A unidade de determinação 202 é configurada especificamente para: quando a primeira proporção de energia for maior que um segundo valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e quando a primeira proporção de energia for menor que o segundo valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual. Opcionalmente, em uma modalidade, quando N é 1, os N quadros de áudio são o quadro de áudio atual, e a unidade de determinação 202 é configurada especificamente para determinar a primeira proporção de energia de acordo com a energia de Pi envelopes espectrais do quadro de áudio atual e a energia total do quadro de áudio atual. A unidade de determinação 202 é configurada especificamente para determinar os Pi envelopes espectrais de acordo com a energia dos P envelopes espectrais, em que a energia de qualquer um dentre os Pi envelopes espectrais é maior que a energia de qualquer um dentre os outros envelopes espectrais nos P envelopes espectrais com exceção do Pi envelopes espectrais.
[0090] Especificamente, a unidade de determinação 202 pode calcular a primeira proporção de energia com o uso da seguinte fórmula:
Figure img0006
Fórmula 1.6 em que Ri representa a primeira proporção de energia, Ep^n-) representa uma soma de energia de Pi envelopes espectrais selecionados em um n-ésimo quadro de áudio, Eall^n^ representa energia total do n-ésimo quadro de áudio, e r(n) representa a proporção pela qual a energia dos Pi envelopes espectrais do n-ésimo quadro de áudio nos N quadros de áudio corresponde na energia total do quadro de áudio.
[0091] Uma pessoa versada na técnica pode entender que o segundo valor predefinido e a seleção dos Pi envelopes espectrais podem ser determinados de acordo com um experimento de simulação. Um segundo valor predefinido apropriado, um valor apropriado de Pi, e um método apropriado para selecionar os Pi envelopes espectrais podem ser determinados por meio de um experimento de simulação, de modo que um efeito de codificação satisfatório possa ser obtido quando um quadro de áudio que cumpra a condição supracitada for codificado com o uso do primeiro método de codificação ou do segundo método de codificação. Opcionalmente, em uma modalidade, os Pi envelopes espectrais podem ser Pi envelopes espectrais que têm energia máxima nos P envelopes espectrais.
[0092] Por exemplo, um sinal de áudio obtido pela unidade de obtenção 201 é um sinal de banda larga amostrado em 16 kHz, e o sinal de áudio obtido é obtido em um quadro de 20 ms. Cada quadro de sinal é 320 um ponto de amostragem de domínio de tempo. A unidade de determinação 202 pode realizar transformada de frequência de tempo em um sinal de domínio de tempo, por exemplo, realizar transformada de frequência de tempo por meio de transformada de Fourier rápida, para obter 160 envelopes espectrais S(k), em que k=0, 1, 2, ..., 159. A unidade de determinação 202 pode selecionar Pi envelopes espectrais a partir dos 160 envelopes espectrais e calcular uma proporção à qual uma soma de energia dos Pi envelopes espectrais corresponde na energia total do quadro de áudio. A unidade de determinação 202 pode executar o processo supracitado para cada um dentre os N quadros de áudio, ou seja, calcular uma proporção à qual uma soma de energia dos Pi envelopes espectrais de cada um dentre os N quadros de áudio corresponde na energia total respectiva. A unidade de determinação 202 pode calcular um valor médio das proporções. O valor médio das proporções é a primeira proporção de energia. Quando a primeira proporção de energia for maior que o segundo valor predefinido, a unidade de determinação 202 pode determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Quando a primeira proporção de energia for menor que o segundo valor predefinido, a unidade de determinação 202 pode determinar o uso do segundo método de codificação para codificar o quadro de áudio atual. Os Pi envelopes espectrais podem ser Pi envelopes espectrais que têm energia máxima nos P envelopes espectrais. Ou seja, a unidade de determinação 202 é configurada especificamente para determinar, a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio, Pi envelopes espectrais que têm energia máxima. Opcionalmente, em uma modalidade, o valor de Pi pode ser 20.
[0093] Opcionalmente, em outra modalidade, o parâmetro de dispersão geral ode incluir uma segunda largura de banda mínima e uma terceira largura de banda mínima. Nesse caso, a unidade de determinação 202 é configurada especificamente para determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com segunda proporção predefinida dos N quadros de áudio e determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com terceira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dentre os N quadros de áudio, em que o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com segunda proporção predefinida dos N quadros de áudio é usado como a segunda largura de banda mínima, o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com terceira proporção predefinida dos N quadros de áudio é usado como a terceira largura de banda mínima e a segunda proporção predefinida é menor que a terceira proporção predefinida. A unidade de determinação 202 é configurada especificamente para: quando a segunda largura de banda mínima menor que um terceiro valor predefinido e a terceira largura de banda mínima for menor que um quarto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; quando a terceira largura de banda mínima for menor que um quinto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e quando a terceira largura de banda mínima for menor que um sexto valor predefinido, determinar usar o segundo método de codificação para codificar o quadro de áudio atual. Opcionalmente, em uma modalidade, quando N é 1, os N quadros de áudio são o quadro de áudio atual. A unidade de determinação 202 pode determinar uma largura de banda mínima, distribuída no espectro, de energia com segunda proporção predefinida do quadro de áudio atual como a segunda largura de banda mínima. A unidade de determinação 202 pode determinar uma largura de banda mínima, distribuída no espectro, de energia com terceira proporção predefinida do quadro de áudio atual como a terceira largura de banda mínima.
[0094] A pessoa versada na técnica pode entender que o terceiro valor predefinido, o quarto valor predefinido, o quinto valor predefinido, o sexto valor predefinido, a segunda proporção predefinida e a terceira proporção predefinida podem ser determinados de acordo com um experimento de simulação. Os valores predefinidos e as proporções predefinidas apropriados podem ser determinados por meio de um experimento de simulação, de modo que um efeito de codificação satisfatório possa obtido quando um quadro de áudio que cumpra as conduções supracitadas for codificado com o uso do primeiro método de codificação ou do segundo método de codificação.
[0095] A unidade de determinação 202 é configurada especificamente para: classificar a energia dos P envelopes espectrais de cada quadro de áudio em ordem decrescente; determinar, de acordo com a energia, classificada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a segunda proporção predefinida de cada um dentre os N quadros de áudio; determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a segunda proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a segunda proporção predefinida dos N quadros de áudio; determinar, de acordo com a energia, armazenada em ordem decrescente, dos P envelopes espectrais de cada um dentre os N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a terceira proporção predefinida de cada um dentre os N quadros de áudio; e determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a terceira proporção predefinida de cada um dentre os N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a terceira proporção predefinida dos N quadros de áudio. Por exemplo, um sinal de áudio obtido pela unidade de obtenção 201 é um sinal de banda larga amostrado em 16 kHz, e o sinal de áudio obtido é obtido em um quadro de 20 ms. Cada quadro de sinal são 320 pontos de amostragem de domínio de tempo. A unidade de determinação 202 pode realizar transformada de frequência de tempo em um sinal de domínio de tempo, por exemplo, realizar transformada de frequência de tempo por meio de transformada de Fourier rápida, para obter 160 envelopes espectrais S(k), em que k=0, 1, 2, ..., 159. A unidade de determinação 202 pode constatar uma largura de banda mínima a partir dos envelopes espectrais S(k) de maneira que uma proporção pela qual a energia na largura de banda corresponde na energia total do quadro não seja menor que a segunda proporção predefinida. A unidade de determinação 202 pode continuar a constatar uma largura de banda a partir dos envelopes espectrais S(k) de maneira que uma proporção pela qual a energia na largura de banda corresponde na energia total não seja menor que a terceira proporção predefinida. Especificamente, a unidade de determinação 202 pode acumular sequencialmente a energia de bins de frequência nos envelopes espectrais S(k) em ordem decrescente. A energia obtida após cada momento de acúmulo é comparada à energia total do quadro de áudio e, caso uma proporção seja maior que a segunda proporção predefinida, uma quantidade de vezes de acúmulo é uma largura de banda mínima que que não é menor que a proporção predefinida. A unidade de determinação 202 pode continuar com o acúmulo. Caso uma proporção de energia obtida após acúmulo à energia total do quadro de áudio seja maior que a terceira proporção predefinida, o acúmulo é terminado, e uma quantidade de vezes de acúmulo é uma largura de banda mínima que não é menor que terceira proporção predefinida. Por exemplo, a segunda proporção predefinida é 85%, e a terceira proporção predefinida é 95%. Caso uma proporção à qual uma soma de energia obtida após 30 vezes de acúmulo é correspondente na energia total exceda 85%, pode-se considerar que a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a segunda proporção predefinida do quadro de áudio é 30. O acúmulo é continuado e caso uma proporção pela qual uma soma de energia obtida após 35 vezes de acúmulo corresponde na energia total seja 95%, pode-se considerar que a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a terceira proporção predefinida do quadro de áudio é 35. A unidade de determinação 202 pode executar o processo supracitado para cada um dentre os N quadros de áudio. A unidade de determinação 202 pode determinar separadamente as larguras de banda mínimas, distribuídas nos espectros, da energia que se responsabilizar por não menos que a segunda proporção predefinida dos N quadros de áudio incluindo o quadro de áudio atual e as larguras de banda mínimas, distribuídas nos espectros, da energia que corresponde a não menos que a terceira proporção predefinida dos N quadros de áudio incluindo o quadro de áudio atual. O valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia que corresponde a não menos que a segunda proporção predefinida dos N quadros de áudio é a segunda largura de banda mínima. O valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia que corresponde a não menos que a terceira proporção predefinida dos N quadros de áudio é a terceira largura de banda mínima. Quando a segunda largura de banda mínima for menor que o terceiro valor predefinido e a terceira largura de banda mínima for menor que o quarto valor predefinido, a unidade de determinação 202 pode determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Quando a terceira largura de banda mínima for menor que o quinto valor predefinido, a unidade de determinação 202 pode determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Quando a terceira largura de banda mínima for maior que o primeiro valor predefinido, a unidade de determinação 202 pode determinar usar o segundo método de codificação para codificar o quadro de áudio atual.
[0096] Opcionalmente, em outra modalidade, o parâmetro de dispersão geral inclui uma segunda proporção de energia e uma terceira proporção de energia. Nesse caso, a unidade de determinação 202 é configurada especificamente para: selecionar P2 envelopes espectrais a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio, determinar a segunda proporção de energia de acordo com a energia dos P2 envelopes espectrais de cada um dentre os N quadros de áudio e com a energia total dos N quadros de áudio respectivos, selecionar P3 envelopes espectrais a partir dos P envelopes espectrais de cada um dentre os N quadros de áudio e determinar a terceira proporção de energia de acordo com a energia dos P3 envelopes espectrais de cada um dentre os N quadros de áudio e a energia total dos N quadros de áudio respectivos, em que P2 e P3 são números inteiros positivos menores que P, e P2 é ,menor que P3. A unidade de determinação 202 é configurada especificamente para: quando a segunda proporção de energia for maior que um décimo sétimo valor predefinido e a terceira proporção de energia for maior que um oitavo valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; quando a segunda proporção de energia for maior que um nono valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e quando a terceira proporção de energia for menor que um décimo valor predefinido, determinar usar o segundo método de codificação para codificar o quadro de áudio atual. Opcionalmente, em uma modalidade, quando N é 1, os N quadros de áudio são o quadro de áudio atual. A unidade de determinação 202 pode determinar a segunda proporção de energia de acordo com a energia de P2 envelopes espectrais do quadro de áudio atual e com a energia total do quadro de áudio atual. A unidade de determinação 202 pode determinar a terceira proporção de energia de acordo com a energia de P3 envelopes espectrais do quadro de áudio atual e com a energia total do quadro de áudio atual.
[0097] Uma pessoa versada na técnica pode entender que os valores de P2 e P3, o sétimo valor predefinido, o oitavo valor predefinido, o nono valor predefinido e o décimo valor predefinido podem ser determinados de acordo com um experimento de simulação. Os valores predefinidos apropriados podem ser determinados por meio de um experimento de simulação, para que um bom efeito de codificação possa ser obtido quando um quadro de áudio que cumpre a condição supracitada for codificado com 0 uso do primeiro método de codificação ou do segundo método de codificação. Opcionalmente, em uma modalidade, uma unidade de determinação 202 é configurada especificamente para determinar, a partir dos P envelopes espectrais de cada um dos N quadros de áudio, P2 envelopes espectrais que têm energia máxima e determinar, a partir dos P envelopes espectrais de cada um dos N quadros de áudio, P3 envelopes espectrais que têm energia máxima.
[0098] Por exemplo, um sinal de áudio obtido pela unidade de obtenção 201 é um sinal de banda larga amostrada em 16 kHz e o sinal de áudio obtido é obtido em um quadro de 20 ms. Cada quadro de sinal é 320 pontos de amostragem de domínio de tempo. A unidade de determinação 202 pode realizar transformada de frequência de tempo em um sinal de domínio de tempo, por exemplo, realizar transformada de frequência de tempo por meio de transformada de Fourier rápida, para obter 160 envelopes espectrais S(k), em que k=0, 1, 2, ..., 159. A unidade de determinação 202 pode selecionar P2 envelopes espectrais a partir dos 160 envelopes espectrais e calcular uma proporção à que uma soma de energia dos P2 envelopes espectrais corresponde na energia total do quadro de áudio. A unidade de determinação 202 pode executar o processo supracitado para cada um dos N quadros de áudio, ou seja, calcular uma proporção à que uma soma de energia dos P2 envelopes espectrais de cada um dos N quadros de áudio leva em consideração na respectiva energia total. A unidade de determinação 202 pode calcular um valor médio das proporções. O valor médio das proporções é a segunda proporção de energia. A unidade de determinação 202 pode selecionar P3 envelopes espectrais a partir dos 160 envelopes espectrais e calcular uma proporção à que uma soma de energia dos P3 envelopes espectrais corresponde na energia total do quadro de áudio. A unidade de determinação 202 pode executar o processo supracitado para cada um dos N quadros de áudio, ou seja, calcular uma proporção à que uma soma de energia dos P3 envelopes espectrais de cada um dos N quadros de áudio leva em consideração na respectiva energia total. A unidade de determinação 202 pode calcular um valor médio das proporções. O valor médio das proporções é a terceira proporção de energia. Quando a segunda proporção de energia for maior que o sétimo valor predefinido e a terceira proporção de energia for maior que o oitavo valor predefinido, a unidade de determinação 202 pode determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Quando a segunda proporção de energia for maior que o nono valor predefinido, a unidade de determinação 202 pode determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Quando a terceira proporção de energia for menor que o décimo valor predefinido, a unidade de determinação 202 pode determinar o uso do segundo método de codificação para codificar o quadro de áudio atual. Os P2 envelopes espectrais podem ser P2 envelopes espectrais que têm energia máxima nos P envelopes espectrais; e os P3 envelopes espectrais podem ser P3 envelopes espectrais que têm energia máxima nos P envelopes espectrais. Opcionalmente, em uma modalidade, o valor de P2 pode ser 20 e o valor de P3 pode ser 30.
[0099] Opcionalmente, em outra modalidade, um método de codificação apropriado pode ser selecionado para o quadro de áudio atual com o uso da dispersão de intermitência. Para a dispersão de intermitência, a dispersão global, a dispersão local e a intermitência a curto prazo da distribuição, em um espectro, da energia de um quadro de áudio precisam ser considerados. Nesse caso, a dispersão de distribuição da energia nos espectros pode incluir dispersão global, dispersão local e intermitência a curto prazo de distribuição da energia nos espectros. Nesse caso, um valor de N pode ser 1 e os N quadros de áudio são o quadro de áudio atual. A unidade de determinação 202 é configurada especificamente para dividir um espectro do quadro de áudio atual em Q sub-bandas e determinar um parâmetro de dispersão de intermitência de acordo com a energia de pico de cada uma das Q sub-bandas do espectro do quadro de áudio atual, em que o parâmetro de dispersão de intermitência é usado para indicar dispersão global, dispersão local e intermitência a curto prazo do quadro de áudio atual.
[0100] Especificamente, a unidade de determinação 202 é configurada especificamente para determinar uma proporção global de pico para média de cada uma das Q sub-bandas, uma proporção local de pico para média de cada uma das Q sub-bandas e uma flutuação de energia a curto prazo de cada uma das Q sub-bandas, em que a proporção global de pico para média é determinada pela unidade de determinação 202 de acordo com a energia de pico na energia de sub-banda e energia média de todas as sub- bandas do quadro de áudio atual, a proporção local de pico para média é determinada pela unidade de determinação 202 de acordo com a energia de pico na energia de sub-banda e energia média na sub-banda e a flutuação de energia de pico a curto prazo é determinada de acordo com a energia de pico na sub-banda e energia de pico em uma faixa de frequência específica de um quadro de áudio antes do quadro de áudio. A proporção global de pico para média de cada uma das Q sub-bandas, a proporção local de pico para média de cada uma das Q sub-bandas e a flutuação de energia a curto prazo de cada uma das Q sub-bandas representam respectivamente a dispersão global, a dispersão local e a intermitência a curto prazo. A unidade de determinação 202 é configurada especificamente para: determinar se existe uma primeira sub- banda nas Q sub-bandas, em que uma proporção local de pico para média da primeira sub-banda é maior que um décimo primeiro valor predefinido, uma proporção global de pico para média da primeira sub-banda é maior que um décimo segundo valor predefinido e uma flutuação de energia de pico a curto prazo da primeira sub-banda é maior que um décimo terceiro valor predefinido; e, quando existir a primeira sub-banda nas Q sub-bandas, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual.
[0101] Especificamente, uma unidade de determinação 202 pode calcular a proporção global de pico para média com o uso da seguinte fórmula:
Figure img0007
Fórmula 1.7 em que representa energia de pico de uma i-ésima sub-banda nas Q sub-bandas, s(k) representa energia de um k-ésimo envelope espectral nos P envelopes espectrais e representa uma proporção global de pico para média da i-ésima sub-banda.
[0102] A unidade de determinação 202 pode calcular a proporção local de pico para média com o uso da seguinte fórmula:
Figure img0008
Fórmula 1.8 em que representa a energia de pico da i-ésima sub-banda nas Q sub-bandas, representa a energia do k-ésimo envelope espectral nos P envelopes espectrais, representa um índice de um envelope espectral que está incluído na i-ésima sub-banda e que tem uma frequência mais alta possível, representa um índice de um envelope espectral que está incluído na i-ésima sub-banda e que tem uma frequência mais baixa possível, P^a(0 representa uma proporção local de pico para média da i-ésima sub-banda e h(i) é menor ou igual a P-1.
[0103] A unidade de determinação 202 pode calcular a flutuação de energia de pico a curto prazo com o uso da seguinte fórmula:
Figure img0009
Fórmula 1.9 em que representa a energia de pico da i-ésima sub-banda nas Q sub-bandas do quadro de áudio atual e ei e e2 representam a energia de pico das bandas de frequência específica de quadros de áudio antes do quadro de áudio atual. Especificamente, presumindo-se que o quadro de áudio atual seja um M-ésimo quadro de áudio, um envelope espectral no qual a energia de pico da i-ésima sub-banda do quadro de áudio atual está localizada é determinada. Presume-se que o envelope espectral no qual a energia de pico está localizada seja ii. A energia de pico dentro de uma faixa desde um (h-t)- ésimo envelope espectral até um (ii+t)-ésimo envelope espectral em um (M—1 )- ésimo quadro de áudio é determinada e a energia de pico é ei. De modo similar, a energia de pico dentro de uma faixa desde um (ii-t)-ésimo envelope espectral até um (ii+t)-ésimo envelope espectral em um (M-2)-ésimo quadro de áudio é determinada e a energia de pico é e2.
[0104] Uma pessoa versada na técnica pode entender que o décimo primeiro valor predefinido, o décimo segundo valor predefinido e o décimo terceiro valor predefinido pode ser determinado de acordo com um experimento de simulação. Os valores predefinidos apropriados podem ser determinados por meio de um experimento de simulação, para que um bom efeito de codificação possa ser obtido quando um quadro de áudio que cumpre a condição supracitada for codificado com o uso do primeiro método de codificação.
[0105] Opcionalmente, em outra modalidade, um método de codificação apropriado pode ser selecionado para o quadro de áudio atual com o uso da dispersão limitada por banda. Nesse caso, a dispersão de distribuição da energia nos espectros inclui dispersão limitada por banda de distribuição da energia nos espectros. Nesse caso, uma unidade de determinação 202 é configurada especificamente para determinar uma frequência de demarcação de cada um dos N quadros de áudio. A unidade de determinação 202 é configurada especificamente para determinar um parâmetro de dispersão limitada por banda de acordo com a frequência de demarcação de cada um dos N quadros de áudio.
[0106] Uma pessoa versada na técnica pode entender que a quarta proporção predefinida e o décimo quarto valor predefinido pode ser determinado de acordo com um experimento de simulação. Um valor predefinido e uma proporção predefinida apropriados podem ser determinados de acordo com um experimento de simulação, para que um bom efeito de codificação possa ser obtido quando um quadro de áudio que cumpre a condição supracitada for codificado com o uso do primeiro método de codificação.
[0107] Por exemplo, uma unidade de determinação 202 pode determinar a energia de cada um dos P envelopes espectrais do quadro de áudio atual e buscar por uma frequência de demarcação a desde uma baixa frequência até uma alta frequência de modo que uma proporção que a energia que é menor que a frequência de demarcação leva em consideração na energia total do quadro de áudio atual é a quarta proporção predefinida. O parâmetro de dispersão limitada por banda pode ser um valor médio das frequências de demarcação dos N quadros de áudio. Nesse caso, uma unidade de determinação 202 é configurada especificamente para: quando for determinado que o parâmetro de dispersão limitada por banda dos quadros de áudio é menor que um décimo quarto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Presumindo-se que N seja 1, a frequência de demarcação do quadro de áudio atual é o parâmetro de dispersão limitada por banda. Presumindo-se que N seja um número inteiro maior que 1, a unidade de determinação 202 pode determinar que o valor médio das frequências de demarcação dos N quadros de áudio seja o parâmetro de dispersão limitada por banda. Uma pessoa versada na técnica pode entender que a determinação de frequência de demarcação mencionada acima é meramente um exemplo. Alternativamente, o método de determinação de frequência de demarcação pode ser buscar por uma frequência de demarcação desde uma alta frequência até uma baixa frequência ou pode ser outro método.
[0108] Adicionalmente, para evitar a comutação frequente entre o primeiro método de codificação e o segundo método de codificação, a unidade de determinação 202 pode ser configurada adicionalmente para definir o período de desconexão. A unidade de determinação 202 pode ser configurada para: para um quadro de áudio no período de desconexão, usar um método de codificação usado para um quadro de áudio em uma posição inicial do período de desconexão. Desse modo, uma diminuição de qualidade de comutação causada por comutação frequente entre diferentes métodos de codificação pode ser evitada.
[0109] Se uma duração de desconexão do período de desconexão for L, a unidade de determinação 202 pode ser configurado para determinar que L quadros de áudio após o quadro de áudio atual, todos, pertencem a um período de desconexão do quadro de áudio atual. Se a dispersão de distribuição, em um espectro, de energia de um quadro de áudio que pertence o período de desconexão é diferente da dispersão de distribuição, em um espectro, de energia de um quadro de áudio em uma posição inicial do período de desconexão, a unidade de determinação 202 pode ser configurada para determinar que o quadro de áudio ainda é codificado com o uso de um método de codificação que é o mesmo que o usado para o quadro de áudio na posição inicial do período de desconexão.
[0110] A duração do período de desconexão pode ser atualizada de acordo com a dispersão de distribuição, em um espectro, de energia de um quadro de áudio no período de desconexão, até que a duração do período de desconexão seja 0.
[0111] Por exemplo, se a unidade de determinação 202 determinar o uso do primeiro método de codificação para um l-ésimo quadro de áudio e uma duração de um período de desconexão predefinido for L, a unidade de determinação 202 pode determinar que o primeiro método de codificação é usado para um (l+1)-ésimo quadro de áudio a um (l+L)-ésimo quadro de áudio. Então, a unidade de determinação 202 pode determinar dispersão de distribuição, em um espectro, de energia do (l+1)-ésimo quadro de áudio e recalcular o período de desconexão de acordo com a dispersão de distribuição, no espectro, da energia do (l+1)-ésimo quadro de áudio. Se o (l+1)-ésimo quadro de áudio continuar a cumprir uma condição de uso do primeiro método de codificação, a unidade de determinação 202 pode determinar que um período de desconexão subsequente continue a ser o período de desconexão predefinido L. Ou seja, o período de desconexão inicia desde um (L+2)-ésimo quadro de áudio até um (l+1+L)-ésimo quadro de áudio. Se o (l+1)-ésimo quadro de áudio não cumprir a condição de uso do primeiro método de codificação, a unidade de determinação 202 pode determinar novamente o período de desconexão de acordo com a dispersão de distribuição, no espectro, da energia do (l+1)-ésimo quadro de áudio. Por exemplo, a unidade de determinação 202 pode determinar novamente que o período de desconexão é L-L1, em que L1 é um número inteiro positivo menor ou igual a L. Se L1 for igual a L, a duração do período de desconexão é atualizada para 0. Nesse caso, a unidade de determinação 202 pode determinar novamente o método de codificação de acordo com a dispersão de distribuição, no espectro, da energia do (l+1)-ésimo quadro de áudio. Se L1 for um número inteiro menor que L, a unidade de determinação 202 pode determinar novamente o método de codificação de acordo com a dispersão de distribuição, em um espectro, de energia de um (l+1+L-L1)-ésimo quadro de áudio. Entretanto, devido ao fato de o (l+1)-ésimo quadro de áudio estar em um período de desconexão do l-ésimo quadro de áudio, o (l+1)-ésimo quadro de áudio continua a ser codificado com o uso do primeiro método de codificação. L1 pode ser referido como parâmetro de atualização de desconexão e um valor do parâmetro de atualização de desconexão pode ser determinado de acordo com a dispersão de distribuição, em um espectro, de energia de um quadro de áudio de entrada. Desse modo, a atualização de período de desconexão é relacionada à dispersão de distribuição, em um espectro, de energia de um quadro de áudio.
[0112] Por exemplo, quando um parâmetro de dispersão geral for determinado e o parâmetro de dispersão geral for uma primeira largura de banda mínima, a unidade de determinação 202 pode determinar novamente o período de desconexão de acordo com uma largura de banda mínima, distribuída em um espectro, de energia com primeira proporção predefinida de um quadro de áudio. Presume-se que seja determinado o uso do primeiro método de codificação para codificar o l-ésimo quadro de áudio e um período de desconexão predefinido seja L. A unidade de determinação 202 pode determinar uma largura de banda mínima, distribuída em um espectro, de energia com primeira proporção predefinida de cada um dos H quadros de áudio consecutivos que inclui o (l+1)-ésimo quadro de áudio, em que H é um número inteiro positivo maior que 0. Se o (l+1)-ésimo quadro de áudio não cumprir a condição de uso do primeiro método de codificação, a unidade de determinação 202 pode determinar uma quantidade de quadros de áudio cujas larguras de banda mínimas, distribuídas em espectros, de energia com primeira proporção predefinida são menores que um décimo quinto valor predefinido (a quantidade é referida brevemente como um primeiro parâmetro de desconexão). Quando uma largura de banda mínima, distribuída em um espectro, de energia com primeira proporção predefinida de um (L+1)-ésimo quadro de áudio, for maior que um décimo sexto valor predefinido e for menor que um décimo sétimo valor predefinido e o primeiro parâmetro de desconexão for menor que um décimo oitavo valor predefinido, a unidade de determinação 202 pode subtrair a duração do período de desconexão em 1, ou seja, o parâmetro de atualização de desconexão é 1. O décimo sexto valor predefinido é maior que o primeiro valor predefinido. Quando a largura de banda mínima, distribuída no espectro, da energia com primeira proporção predefinida do (L+1)-ésimo quadro de áudio for maior que o décimo sétimo valor predefinido e for menor que um décimo nono valor predefinido e o primeiro parâmetro de desconexão for menor que o décimo oitavo valor predefinido, a unidade de determinação 202 pode subtrair a duração do período de desconexão em 2, ou seja, o parâmetro de atualização de desconexão é 2. Quando a largura de banda mínima, distribuída no espectro, da energia com primeira proporção predefinida do (L+1)-ésimo quadro de áudio for maior que o décimo nono valor predefinido, a unidade de determinação 202 pode definir o período de desconexão a 0. Quando o primeiro parâmetro de desconexão e a largura de banda mínima, distribuída no espectro, da energia com primeira proporção predefinida do (L+1)-ésimo quadro de áudio não cumprirem um ou mais dentre o décimo sexto valor predefinido ao décimo nono valor predefinido, a unidade de determinação 202 pode determinar que o período de desconexão permanece inalterado.
[0113] Uma pessoa versada na técnica pode entender que o período de desconexão predefinido pode ser definido de acordo com uma situação real e o parâmetro de atualização de desconexão também pode ser ajustado de acordo com uma situação real. O décimo quinto valor predefinido ao décimo nono valor predefinido pode ser ajustado de acordo com uma situação real, para que diferentes períodos de desconexão possam ser definidos.
[0114] De modo similar, quando o parâmetro de dispersão geral incluir uma segunda largura de banda mínima e uma terceira largura de banda mínima, ou o parâmetro de dispersão geral incluir uma primeira proporção de energia, ou o parâmetro de dispersão geral incluir uma segunda proporção de energia e uma terceira proporção de energia, a unidade de determinação 202 pode definir um período de desconexão predefinido correspondente, um parâmetro de atualização de desconexão correspondente e um parâmetro relacionado usado para determinar o parâmetro de atualização de desconexão, para que um período de desconexão correspondente pode ser determinado e a comutação frequente entre métodos de codificação é evitada.
[0115] Quando o método de codificação for determinado de acordo com a dispersão de intermitência (ou seja, o método de codificação é determinado de acordo com dispersão global, dispersão local e intermitência a curto prazo de distribuição, em um espectro, de energia de um quadro de áudio), a unidade de determinação 202 pode definir um período de desconexão correspondente, um parâmetro de atualização de desconexão correspondente e um parâmetro relacionado usado para determinar o parâmetro de atualização de desconexão, para evitar comutação frequente entre métodos de codificação. Nesse caso, o período de desconexão pode ser menor que o período de desconexão que é definido no caso do parâmetro de dispersão geral.
[0116] Quando o método de codificação for determinado de acordo com uma característica limitada por faixa de distribuição de energia em um espectro, a unidade de determinação 202 pode definir um período de desconexão correspondente, um parâmetro de atualização de desconexão correspondente e um parâmetro relacionado usado para determinar o parâmetro de atualização de desconexão, para evitar comutação frequente entre métodos de codificação. Por exemplo, a unidade de determinação 202 pode calcular uma proporção entre a energia de um envelope espectral baixo de um quadro de áudio de entrada e a energia de todos os envelopes espectrais e determinar o parâmetro de atualização de desconexão de acordo com a proporção. Especificamente, a unidade de determinação 202 pode determinar a proporção entre a energia do envelope espectral baixo e a energia de todos os envelopes espectrais com o uso da seguinte fórmula:
Figure img0010
Fórmula 1.10 em que low representa a proporção entre a energia do envelope espectral baixo e a energia de todos os envelopes espectrais, s(k) representa a energia de um k-ésimo envelope espectral, y representa um índice de um envelope espectral mais alto possível de uma banda de baixa frequência e P indica que o quadro de áudio é dividido em P envelopes espectrais no total. Nesse caso, se low for maior que um vigésimo valor predefinido, o parâmetro O de atualização de desconexão é 0. Se |ow for maior que um vigésimo primeiro valor predefinido, o parâmetro de atualização de desconexão pode ter um valor relativamente pequeno, em que o vigésimo valor predefinido é maior que o O vigésimo primeiro valor predefinido. Se low não for maior que o vigésimo primeiro valor predefinido, o parâmetro de desconexão pode ter um valor relativamente grande. Uma pessoa versada na técnica pode entender que o vigésimo valor predefinido e o vigésimo primeiro valor predefinido podem ser determinados de acordo com um experimento de simulação e o valor do parâmetro de atualização de desconexão também pode ser determinado de acordo com um experimento.
[0117] Além disso, quando o método de codificação for determinado de acordo com uma característica limitada por faixa de distribuição de energia em um espectro, a unidade de determinação 202 pode determinar adicionalmente uma frequência de demarcação de um quadro de áudio de entrada e determinar o parâmetro de atualização de desconexão de acordo com a frequência de demarcação, em que a frequência de demarcação pode ser diferente de uma frequência de demarcação usada para determinar um parâmetro de dispersão limitada por banda. Se a frequência de demarcação for menor que um vigésimo segundo valor predefinido, a unidade de determinação 202 pode determinar que o parâmetro de atualização de desconexão é 0. Se a frequência de demarcação for menor que um vigésimo terceiro valor predefinido, a unidade de determinação 202 pode determinar que o parâmetro de atualização de desconexão tem um valor relativamente pequeno. Se a frequência de demarcação for maior que o vigésimo terceiro valor predefinido, a unidade de determinação 202 pode determinar que o parâmetro de atualização de desconexão pode ter um valor relativamente grande. Uma pessoa versada na técnica pode entender que o vigésimo segundo valor predefinido e o vigésimo terceiro valor predefinido podem ser determinados de acordo com um experimento de simulação e o valor do parâmetro de atualização de desconexão também pode ser determinado de acordo com um experimento.
[0118] A Figura 3 é um diagrama de blocos estrutural de um aparelho de acordo com uma modalidade da presente invenção. O aparelho 300 mostrado na Figura 3 pode realizar as etapas na Figura 1. Conforme mostrado na Figura 3, o aparelho 300 inclui um processador 301 e uma memória 302.
[0119] Os componentes no aparelho 300 são acoplados com o uso de um sistema de barramento 303. O sistema de barramento 303 inclui adicionalmente um barramento de alimentação de potência, um barramento de controle e um barramento de sinal de situação além de um barramento de dados. Entretanto, para facilidade de descrição clara, todos os barramentos são marcados como o sistema de barramento 303 na Figura 3.
[0120] O método revelado nas modalidades supracitadas da presente invenção pode ser aplicado ao processador 301, ou implantado pelo processador 301. O processador 301 pode ser um chip de circuito integrado e tem uma capacidade de processamento de sinal. Em um processo de implantação, as etapas do método podem ser completadas com o uso de um circuito de lógica integrada de hardware no processador 301 ou uma instrução na forma de um software. O processador 301 pode ser um processador de propósito geral, um processador de sinal digital (Digital Signal Processor, DSP), um circuito integrado de aplicação específica (Application Specific Integrated Circuit, ASIC), uma matriz de portal programável por campo (Field Programmable Gate Array, FPGA) ou outro dispositivo lógico programável, um dispositivo lógico de portal ou de transitor discreto, ou um componente de hardware discreto. O processador 301 pode implantar ou executar métodos, etapas e diagramas de blocos lógicos revelados nas modalidades da presente invenção. O processador de propósito geral pode ser um microprocessador ou o processador pode ser qualquer processador comum e similares. As etapas dos métodos revelados com referência às modalidades da presente invenção podem ser executadas e completadas diretamente por meio de um processador de decodificação de hardware, ou podem ser executadas e completadas com o uso de uma combinação de módulos de hardware e software modules no processador de decodificação. O módulo de software pode estar localizado em um meio de armazenamento que está maduro na técnica como uma memória de acesso aleatório (Random Access Memory, RAM), uma memória flash, uma memória de apenas leitura (Read-Only Memory, ROM), uma memória de apenas leitura programável ou uma memória programável apagável eletricamente ou um registro. O meio de armazenamento está localizado na memória 302. O processador 301 lê a instrução a partir da memória 302 e completa as etapas do método em combinação com hardware do mesmo.
[0121] O processador 301 é configurado para obter N quadros de áudio, em que os N quadros de áudio incluem um quadro de áudio atual e N é um número inteiro positivo.
[0122] O processador 301 é configurado para determinar a dispersão de distribuição, nos espectros, de energia dos N quadros de áudio obtidos pelo processador 301.
[0123] O processador 301 é configurado adicionalmente para determinar, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se deve ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual, em que o primeiro método de codificação é um método de codificação que tem base em transformada de frequência de tempo e na quantização de coeficiente de transformada e que não tem base em previsão linear e o segundo método de codificação é um método de codificação com base em previsão linear.
[0124] De acordo com o aparelho mostrado na Figura 3, quando um quadro de áudio for codificado, a dispersão de distribuição, em um espectro, de energia do quadro de áudio é considerada, o que pode reduzir a complexidade de codificação e garantir que a codificação tenha precisão relativamente alta.
[0125] Durante a seleção de um método de codificação apropriado para um quadro de áudio, a dispersão de distribuição, em um espectro, de energia do quadro de áudio pode ser considerada. Podem existir três tipos de dispersão de distribuição, em um espectro, de energia de um quadro de áudio: dispersão geral, dispersão de intermitência e dispersão limitada por banda.
[0126] Opcionalmente, em uma modalidade, um método de codificação apropriado pode ser selecionado para o quadro de áudio atual com o uso da dispersão geral. Nesse caso, o processador 301 é configurado especificamente para dividir um espectro de cada um dos N quadros de áudio em P envelopes espectrais e determinar um parâmetro de dispersão geral de acordo com a energia dos P envelopes espectrais de cada um dos N quadros de áudio, em que P é um número inteiro positivo e o parâmetro de dispersão geral indica a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio.
[0127] Especificamente, um valor médio de larguras de banda mínimas, distribuídas em espectros, de energia de proporção específica de N quadros de áudio consecutivos de entrada pode ser definido como a dispersão geral. Uma largura de banda menor indica dispersão geral mais intensa e uma largura de banda maior indica dispersão geral menos intensa. Em outras palavras, a dispersão geral mais intensa indica que a energia de um quadro de áudio está mais centralizada e a dispersão geral menos intensa indica que a energia de um quadro de áudio está mais dispersa. A eficiência é alta quando o primeiro método de codificação é usado para codificar um quadro de áudio cuja dispersão geral e reativamente intensa. Portanto, um método de codificação apropriado pode ser selecionado determinando-se a dispersão geral de um quadro de áudio, para codificar o quadro de áudio. Para ajudar a determinar a dispersão geral de um quadro de áudio, a dispersão geral pode ser quantizada para obter um parâmetro de dispersão geral. Opcionalmente, quando N for 1, a dispersão geral é uma largura de banda mínima, distribuída em um espectro, de energia de proporção específica do quadro de áudio atual.
[0128] Opcionalmente, em uma modalidade, o parâmetro de dispersão geral inclui uma primeira largura de banda mínima. Nesse caso, o processador 301 é configurado especificamente para determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, da energia com primeira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dos N quadros de áudio, em que o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com primeira proporção predefinida dos N quadros de áudio é a primeira largura de banda mínima. O processador 301 é configurado especificamente para: quando a primeira largura de banda mínima for menor que um primeiro valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e, quando a primeira largura de banda mínima for maior que o primeiro valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual.
[0129] Uma pessoa versada na técnica pode entender que o primeiro valor predefinido e a primeira proporção predefinida podem ser determinados de acordo com um experimento de simulação. Um primeiro valor predefinido e uma primeira proporção predefinida apropriados podem ser determinados por meio de um experimento de simulação, para que um bom efeito de codificação possa ser obtido quando um quadro de áudio que cumpre a condição supracitada for codificado com o uso do primeiro método de codificação ou do segundo método de codificação.
[0130] O processador 301 é configurado especificamente para: classificar a energia dos P envelopes espectrais de cada quadro de áudio em ordem decrescente; determinar, de acordo com a energia, classificada em ordem decrescente, dos P envelopes espectrais de cada um dos N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a primeira proporção predefinida de cada um dos N quadros de áudio; e determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a primeira proporção predefinida de cada um dos N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio. Por exemplo, um sinal de áudio obtido pelo processador 301 é um sinal de banda larga amostrada em 16 kHz e o sinal de áudio obtido é obtido em um quadro de 30 ms. Cada quadro de sinal é 330 pontos de amostragem de domínio de tempo. O processador 301 pode realizar transformada de frequência de tempo em um sinal de domínio de tempo, por exemplo, realizar transformada de frequência de tempo por meio de transformada de Fourier rápida (Fast Fourier Transformation, FFT), para obter 130 envelopes espectrais S(k), ou seja, 130 coeficientes de espectro de energia de FFT, em que k=0, 1, 2, ..., 159. O processador 301 pode encontrar uma largura de banda mínima a partir dos envelopes espectrais S(k) de modo que uma proporção que a energia na largura de banda leva em consideração na energia total do quadro é a primeira proporção predefinida. Especificamente, o processador 301 pode acumular de modo sequencial a energia de bins de frequência nos envelopes espectrais S(k) em ordem decrescente; e comparar a energia obtida após cada momento de acúmulo com a energia total do quadro de áudio e se uma proporção for maior que a primeira proporção predefinida, termina o processo de acúmulo, em que uma quantidade de vezes de acúmulo é a largura de banda mínima. Por exemplo, a primeira proporção predefinida é 90%, e se uma proporção à que uma soma de energia obtida após 30 vezes de acúmulo levar em consideração na energia total exceder 90%, pode ser considerado que uma largura de banda mínima de energia que corresponde a não menos que a primeira proporção predefinida do quadro de áudio seja 30. O processador 301 pode executar o processo de determinação de largura de banda mínima supracitado para cada um dos N quadros de áudio, para determinar separadamente as larguras de banda mínimas da energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio que inclui o quadro de áudio atual. O processador 301 pode calcular um valor médio das larguras de banda mínimas da energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio. O valor médio das larguras de banda mínimas da energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio pode ser referido como a primeira largura de banda mínima, e a primeira largura de banda mínima pode ser usada como o parâmetro de dispersão geral. Quando a primeira largura de banda mínima for menor que o primeiro valor predefinido, o processador 301 pode determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Quando a primeira largura de banda mínima for maior que o primeiro valor predefinido, o processador 301 pode determinar o uso do segundo método de codificação para codificar o quadro de áudio atual.
[0131] Opcionalmente, em outra modalidade, o parâmetro de dispersão geral pode incluir uma primeira proporção de energia. Nesse caso, o processador 301 é configurado especificamente para selecionar Pi envelopes espectrais a partir dos P envelopes espectrais de cada um dos N quadros de áudio e determinar a primeira proporção de energia de acordo com a energia dos Pi envelopes espectrais de cada um dos N quadros de áudio e a energia total dos respectivos N quadros de áudio, em que Pi é um número inteiro positivo menor que P. O processador 301 é configurado especificamente para: quando a primeira proporção de energia for maior que um segundo valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e, quando a primeira proporção de energia for menor que o segundo valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual. Opcionalmente, em uma modalidade, quando N for 1, os N quadros de áudio são o quadro de áudio atual e o processador 301 é configurado especificamente para determinar a primeira proporção de energia de acordo com a energia de Pi envelopes espectrais do quadro de áudio atual e a energia total do quadro de áudio atual. O processador 301 é configurado especificamente para determinar os Pi envelopes espectrais de acordo com a energia dos P envelopes espectrais, em que a energia de qualquer um dos Pi envelopes espectrais é maior que energia de qualquer um dos outros envelopes espectrais nos P envelopes espectrais exceto os Pi envelopes espectrais.
[0132] Especificamente, o processador 301 pode calcular a primeira proporção de energia com o uso da seguinte fórmula:
Figure img0011
em que Ri representa a primeira proporção de energia, Ep1^n-) representa uma soma de energia de Pi envelopes espectrais selecionados em um n-ésimo quadro de áudio, Eau(n) representa a energia total do n-ésimo quadro de áudio e r(n) representa uma proporção que a energia dos Pi envelopes espectrais do n-ésimo quadro de áudio nos N quadros de áudio leva em consideração na energia total do quadro de áudio.
[0133] Uma pessoa versada na técnica pode entender que o segundo valor predefinido e a seleção dos Pi envelopes espectrais podem ser determinados de acordo com um experimento de simulação. Um segundo valor predefinido apropriado, um valor apropriado de Pi e um método apropriado para selecionar os Pi envelopes espectrais podem ser determinados por meio de um experimento de simulação para que um bom efeito de codificação possa ser obtido quando um quadro de áudio que cumpre a condição supracitada for codificado com o uso do primeiro método de codificação ou do segundo método de codificação. Opcionalmente, em uma modalidade, os Pi envelopes espectrais podem ser Pi envelopes espectrais que têm a energia máxima nos P envelopes espectrais.
[0134] Por exemplo, um sinal de áudio obtido pelo processador 301 é um sinal de banda larga amostrada em 16 kHz e o sinal de áudio obtido é obtido em um quadro de 30 ms. Cada quadro de sinal é 330 pontos de amostragem de domínio de tempo. O processador 301 pode realizar transformada de frequência de tempo em um sinal de domínio de tempo, por exemplo, realizar transformada de frequência de tempo por meio de transformada de Fourier rápida, para obter 130 envelopes espectrais S(k), em que k=0, 1, 2, ..., 159. O processador 301 pode selecionar Pi envelopes espectrais a partir dos 130 envelopes espectrais e calcular uma proporção à que uma soma de energia dos Pi envelopes espectrais corresponde na energia total do quadro de áudio. O processador 301 pode executar o processo supracitado para cada um dos N quadros de áudio, ou seja, calcular uma proporção à que uma soma de energia dos Pi envelopes espectrais de cada um dos N quadros de áudio leva em consideração na respectiva energia total. 0 processador 301 pode calcular um valor médio das proporções. O valor médio das proporções é a primeira proporção de energia. Quando a primeira proporção de energia for maior que o segundo valor predefinido, o processador 301 pode determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Quando a primeira proporção de energia for menor que o segundo valor predefinido, o processador 301 pode determinar o uso do segundo método de codificação para codificar o quadro de áudio atual. Os Pi envelopes espectrais podem ser Pi envelopes espectrais que têm a energia máxima nos P envelopes espectrais. Ou seja, o processador 301 é configurado especificamente para determinar, a partir dos P envelopes espectrais de cada um dos N quadros de áudio, Pi envelopes espectrais que têm energia máxima. Opcionalmente, em uma modalidade, o valor de Pi pode ser 30.
[0135] Opcionalmente, em outra modalidade, o parâmetro de dispersão geral pode incluir uma segunda largura de banda mínima e uma terceira largura de banda mínima. Nesse caso, o processador 301 é configurado especificamente para determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, da energia com segunda proporção predefinida dos N quadros de áudio e determinar um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia com terceira proporção predefinida dos N quadros de áudio de acordo com a energia dos P envelopes espectrais de cada um dos N quadros de áudio, em que o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com segunda proporção predefinida dos N quadros de áudio é usado como a segunda largura de banda mínima, o valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia com terceira proporção predefinida dos N quadros de áudio é usado como a terceira largura de banda mínima e a segunda proporção predefinida é menor que a terceira proporção predefinida. O processador 301 é configurado especificamente para: quando a segunda largura de banda mínima for menor que um terceiro valor predefinido e a terceira largura de banda mínima é menor que um quarto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; quando a terceira largura de banda mínima for menor que um quinto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e, quando a terceira largura de banda mínima é maior que um sexto valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual. Opcionalmente, em uma modalidade, quando N for 1, os N quadros de áudio são o quadro de áudio atual. O processador 301 pode determinar uma largura de banda mínima, distribuída no espectro, de energia com segunda proporção predefinida do quadro de áudio atual como a segunda largura de banda mínima. O processador 301 pode determinar a largura de banda mínima, distribuída no espectro, de energia com terceira proporção predefinida do quadro de áudio atual como a terceira largura de banda mínima.
[0136] Uma pessoa versada na técnica pode entender que o terceiro valor predefinido, o quarto valor predefinido, o quinto valor predefinido, o sexto valor predefinido, a segunda proporção predefinida e a terceira proporção predefinida podem ser determinadas de acordo com um experimento de simulação. Os valores predefinidos apropriados e as proporções predefinidas podem ser determinados por meio de um experimento de simulação, para que um bom efeito de codificação possa ser obtido quando um quadro de áudio que cumpre a condição supracitada for codificado com o uso do primeiro método de codificação ou do segundo método de codificação.
[0137] O processador 301 é configurado especificamente para: classificar a energia dos P envelopes espectrais de cada quadro de áudio em ordem decrescente; determinar, de acordo com a energia, classificada em ordem decrescente, dos P envelopes espectrais de cada um dos N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a segunda proporção predefinida de cada um dos N quadros de áudio; determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a segunda proporção predefinida de cada um dos N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a segunda proporção predefinida dos N quadros de áudio; determinar, de acordo com a energia, classificada em ordem decrescente, dos P envelopes espectrais de cada um dos N quadros de áudio, uma largura de banda mínima, distribuída no espectro, de energia que corresponde a não menos que a terceira proporção predefinida de cada um dos N quadros de áudio; e determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a terceira proporção predefinida de cada um dos N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a terceira proporção predefinida dos N quadros de áudio. Por exemplo, um sinal de áudio obtido pelo processador 301 é um sinal de banda larga amostrada em 16 kHz e o sinal de áudio obtido é obtido em um quadro de 30 ms. Cada quadro de sinal é 330 pontos de amostragem de domínio de tempo. O processador 301 pode realizar transformada de frequência de tempo em um sinal de domínio de tempo, por exemplo, realizar transformada de frequência de tempo por meio de transformada de Fourier rápida, para obter 130 envelopes espectrais S(k), em que k=0, 1, 2, ..., 159. O processador 301 pode encontrar uma largura de banda mínima a partir dos envelopes espectrais S(k) de modo que uma proporção que a energia na largura de banda leva em consideração na energia total do quadro não seja menos que a segunda proporção predefinida. O processador 301 pode continuar a encontrar uma largura de banda a partir dos envelopes espectrais S(k) de modo que uma proporção que a energia na largura de banda leva em consideração na energia total não seja menor que a terceira proporção predefinida. Especificamente, o processador 301 pode acumular de modo sequencial a energia de bins de frequência nos envelopes espectrais S(k) em ordem decrescente. A energia obtida após cada momento de acúmulo é comparada à energia total do quadro de áudio e se uma proporção for maior que a segunda proporção predefinida, uma quantidade de vezes de acúmulo é uma largura de banda mínima que não é menor que a segunda proporção predefinida. O processador 301 pode continuar o acúmulo. Se uma proporção de energia obtida após acúmulo à energia total do quadro de áudio for maior que a terceira proporção predefinida, o acúmulo é encerrado e uma quantidade de vezes de acúmulo é uma largura de banda mínima que não é menor que a terceira proporção predefinida. Por exemplo, a segunda proporção predefinida é 85% e a terceira proporção predefinida é 95%. Se uma proporção à que uma soma de energia obtida após 30 momentos de acúmulo corresponde na energia total exceder 85%, pode ser considerado que a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a segunda proporção predefinida do quadro de áudio é 30. O acúmulo é continuado e se uma proporção à que uma soma de energia obtida após 35 momentos de acúmulo corresponde na energia total for 95%, pode ser considerado que a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a terceira proporção predefinida do quadro de áudio é 35. O processador 301 pode executar o processo supracitado para cada um dos N quadros de áudio. O processador 301 pode determinar separadamente as larguras de banda mínimas, distribuídas nos espectros, da energia que corresponde a não menos que a segunda proporção predefinida dos N quadros de áudio que inclui o quadro de áudio atual e as larguras de banda mínimas, distribuídas nos espectros, da energia que corresponde a não menos que a terceira proporção predefinida dos N quadros de áudio que inclui o quadro de áudio atual. O valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia que corresponde a não menos que a segunda proporção predefinida dos N quadros de áudio é a segunda largura de banda mínima. O valor médio das larguras de banda mínimas, distribuídas nos espectros, da energia que corresponde a não menos que a terceira proporção predefinida dos N quadros de áudio é a terceira largura de banda mínima. Quando a segunda largura de banda mínima for menor que o terceiro valor predefinido e a terceira largura de banda mínima for menor que o quarto valor predefinido, o processador 301 pode determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Quando a terceira largura de banda mínima for menor que o quinto valor predefinido, o processador 301 pode determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Quando a terceira largura de banda mínima for maior que o sexto valor predefinido, o processador 301 pode determinar o uso do segundo método de codificação para codificar o quadro de áudio atual.
[0138] Opcionalmente, em outra modalidade, o parâmetro de dispersão geral inclui uma segunda proporção de energia e uma terceira proporção de energia. Nesse caso, o processador 301 é configurado especificamente para: selecionar P2 envelopes espectrais a partir dos P envelopes espectrais de cada um dos N quadros de áudio, determinar a segunda proporção de energia de acordo com a energia dos P2 envelopes espectrais de cada um dos N quadros de áudio e a energia total dos respectivos N quadros de áudio, selecionar P3 envelopes espectrais a partir dos P envelopes espectrais de cada um dos N quadros de áudio e determinar a terceira proporção de energia de acordo com a energia dos P3 envelopes espectrais de cada um dos N quadros de áudio e a energia total dos respectivos N quadros de áudio, em que P2 θ P3 são números inteiros positivos menores que P e P2 é menor que P3. O processador 301 é configurado especificamente para: quando a segunda proporção de energia for maior que um sétimo valor predefinido e a terceira proporção de energia for maior que um oitavo valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; quando a segunda proporção de energia for maior que um nono valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e, quando a terceira proporção de energia for menor que um décimo valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual. Opcionalmente, em uma modalidade, quando N for 1, os N quadros de áudio são o quadro de áudio atual. O processador 301 pode determinar a segunda proporção de energia de acordo com a energia de P2 envelopes espectrais do quadro de áudio atual e energia total do quadro de áudio atual. O processador 301 pode determinar a terceira proporção de energia de acordo com a energia de P3 envelopes espectrais do quadro de áudio atual e energia total do quadro de áudio atual.
[0139] Uma pessoa versada na técnica pode entender que os valores de P2 e P3, o sétimo valor predefinido, o oitavo valor predefinido, o nono valor predefinido e o décimo valor predefinido podem ser determinados de acordo com um experimento de simulação. Os valores predefinidos apropriados podem ser determinados por meio de um experimento de simulação, para que um bom efeito de codificação possa ser obtido quando um quadro de áudio que cumpre a condição supracitada for codificado com o uso do primeiro método de codificação ou do segundo método de codificação. Opcionalmente, em uma modalidade, 0 processador 301 é configurado especificamente para determinar, a partir dos P envelopes espectrais de cada um dos N quadros de áudio, P2 envelopes espectrais que têm energia máxima e determinar, a partir dos P envelopes espectrais de cada um dos N quadros de áudio, P3 envelopes espectrais que têm energia máxima.
[0140] Por exemplo, um sinal de áudio obtido pelo processador 301 é um sinal de banda larga amostrada em 16 kHz e o sinal de áudio obtido é obtido em um quadro de 30 ms. Cada quadro de sinal é 330 pontos de amostragem de domínio de tempo. O processador 301 pode realizar transformada de frequência de tempo em um sinal de domínio de tempo, por exemplo, realizar transformada de frequência de tempo por meio de transformada de Fourier rápida, para obter 130 envelopes espectrais S(k), em que k=0, 1, 2, ..., 159. O processador 301 pode selecionar P2 envelopes espectrais a partir dos 130 envelopes espectrais e calcular uma proporção à que uma soma de energia dos P2 envelopes espectrais corresponde na energia total do quadro de áudio. O processador 301 pode executar o processo supracitado para cada um dos N quadros de áudio, ou seja, calcular uma proporção à que uma soma de energia dos P2 envelopes espectrais de cada um dos N quadros de áudio leva em consideração na respectiva energia total. O processador 301 pode calcular um valor médio das proporções. O valor médio das proporções é a segunda proporção de energia. O processador 301 pode selecionar P3 envelopes espectrais a partir dos 130 envelopes espectrais e calcular uma proporção à que uma soma de energia dos P3 envelopes espectrais corresponde na energia total do quadro de áudio. O processador 301 pode executar o processo supracitado para cada um dos N quadros de áudio, ou seja, calcular uma proporção à que uma soma de energia dos P3 envelopes espectrais de cada um dos N quadros de áudio leva em consideração na respectiva energia total. O processador 301 pode calcular um valor médio das proporções. O valor médio das proporções é a terceira proporção de energia. Quando a segunda proporção de energia for maior que o sétimo valor predefinido e a terceira proporção de energia for maior que o oitavo valor predefinido, o processador 301 pode determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Quando a segunda proporção de energia for maior que o nono valor predefinido, o processador 301 pode determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Quando a terceira proporção de energia for menor que o décimo valor predefinido, o processador 301 pode determinar o uso do segundo método de codificação para codificar o quadro de áudio atual. Os P2 envelopes espectrais podem ser P2 envelopes espectrais que têm energia máxima nos P envelopes espectrais; e os P3 envelopes espectrais podem ser P3 envelopes espectrais que têm energia máxima nos P envelopes espectrais. Opcionalmente, em uma modalidade, 0 valor de P2 pode ser 30 e 0 valor de P3 pode ser 30.
[0141] Opcionalmente, em outra modalidade, um método de codificação apropriado pode ser selecionado para 0 quadro de áudio atual com o uso da dispersão de intermitência. Para a dispersão de intermitência, a dispersão global, a dispersão local e a intermitência a curto prazo da distribuição, em um espectro, da energia de um quadro de áudio precisam ser considerados. Nesse caso, a dispersão de distribuição da energia nos espectros pode incluir dispersão global, dispersão local e intermitência a curto prazo de distribuição da energia nos espectros. Nesse caso, um valor de N pode ser 1 e os N quadros de áudio são o quadro de áudio atual. O processador 301 é configurado especificamente para dividir um espectro do quadro de áudio atual em Q sub-bandas e determinar um parâmetro de dispersão de intermitência de acordo com a energia de pico de cada uma das Q sub-bandas do espectro do quadro de áudio atual, em que o parâmetro de dispersão de intermitência é usado para indicar dispersão global, dispersão local e intermitência a curto prazo do quadro de áudio atual.
[0142] Especificamente, o processador 301 é configurado especificamente para determinar uma proporção global de pico para média de cada uma das Q sub-bandas, uma proporção local de pico para média de cada uma das Q sub-bandas e uma flutuação de energia a curto prazo de cada uma das Q sub-bandas, em que a proporção global de pico para média é determinada pela unidade de determinação de acordo com a energia de pico na energia de sub-banda e energia média de todas as sub-bandas do quadro de áudio atual, a proporção local de pico para média é determinada pela unidade de determinação de acordo com a energia de pico na energia de sub- banda e energia média na sub-banda e a flutuação de energia de pico a curto prazo é determinada de acordo com a energia de pico na sub-banda e energia de pico em uma faixa de frequência específica de um quadro de áudio antes do quadro de áudio. A proporção global de pico para média de cada uma das Q sub-bandas, a proporção local de pico para média de cada uma das Q sub- bandas e a flutuação de energia a curto prazo de cada uma das Q sub-bandas representam respectivamente a dispersão global, a dispersão local e a intermitência a curto prazo. O processador 301 é configurado especificamente para: determinar se existe uma primeira sub-banda nas Q sub-bandas, em que uma proporção local de pico para média da primeira sub-banda é maior que um décimo primeiro valor predefinido, uma proporção global de pico para média da primeira sub-banda é maior que um décimo segundo valor predefinido e uma flutuação de energia de pico a curto prazo da primeira sub-banda é maior que um décimo terceiro valor predefinido; e, quando existir a primeira sub-banda nas Q sub-bandas, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual.
[0143] Especificamente, o processador 301 pode calcular a proporção global de pico para média com o uso da seguinte fórmula:
Figure img0012
Fórmula 1.7 em que representa energia de pico de uma i-ésima sub-banda nas Q sub-bandas, s(k) representa energia de um k-ésimo envelope espectral nos P envelopes espectrais e representa uma proporção global de pico para média da i-ésima sub-banda.
[0144] O processador 301 pode calcular a proporção local de pico para média com o uso da seguinte fórmula:
Figure img0013
Fórmula 1.8 em que representa a energia de pico da i-ésima sub-banda nas Q sub-bandas, representa a energia do k-ésimo envelope espectral nos P envelopes espectrais, representa um índice de um envelope espectral que está incluído na i-ésima sub-banda e que tem uma frequência mais alta possível, representa um índice de um envelope espectral que está incluído na i-ésima sub-banda e que tem uma frequência mais baixa possível, P^a(0 representa uma proporção local de pico para média da i-ésima sub-banda e h(i) é menor ou igual a P-1.
[0145] O processador 301 pode calcular a flutuação de energia de pico a curto prazo com o uso da seguinte fórmula:
Figure img0014
Fórmula 1.9 em que representa a energia de pico da i-ésima sub-banda nas Q sub-bandas do quadro de áudio atual e ei e β2 representam a energia de pico das bandas de frequência específica de quadros de áudio antes do quadro de áudio atual. Especificamente, presumindo-se que o quadro de áudio atual seja um M-ésimo quadro de áudio, um envelope espectral no qual a energia de pico da i-ésima sub-banda do quadro de áudio atual está localizada é determinada. Presume-se que o envelope espectral no qual a energia de pico está localizada seja h. A energia de pico dentro de uma faixa desde um (h-t)- ésimo envelope espectral até um (ii+t)-ésimo envelope espectral em um (M—1 )- ésimo quadro de áudio é determinada e a energia de pico é ei. De modo similar, a energia de pico dentro de uma faixa desde um (ii-t)-ésimo envelope espectral até um (ii+t)-ésimo envelope espectral em um (M-2)-ésimo quadro de áudio é determinada e a energia de pico é β2.
[0146] Uma pessoa versada na técnica pode entender que o décimo primeiro valor predefinido, o décimo segundo valor predefinido e o décimo terceiro valor predefinido podem ser determinados de acordo com um experimento de simulação. Os valores predefinidos apropriados podem ser determinados por meio de um experimento de simulação, para que um bom efeito de codificação possa ser obtido quando um quadro de áudio que cumpre a condição supracitada for codificado com o uso do primeiro método de codificação.
[0147] Opcionalmente, em outra modalidade, um método de codificação apropriado pode ser selecionado para o quadro de áudio atual com o uso da dispersão limitada por banda. Nesse caso, a dispersão de distribuição da energia nos espectros inclui dispersão limitada por banda de distribuição da energia nos espectros. Nesse caso, o processador 301 é configurado especificamente para determinar uma frequência de demarcação de cada um dos N quadros de áudio. O processador 301 é configurado especificamente para determinar um parâmetro de dispersão limitada por banda de acordo com a frequência de demarcação de cada um dos N quadros de áudio.
[0148] Uma pessoa versada na técnica pode entender que a quarta proporção predefinida e o décimo quarto valor predefinido pode ser determinado de acordo com um experimento de simulação. Um valor predefinido e uma proporção predefinida apropriados podem ser determinados de acordo com um experimento de simulação, para que um bom efeito de codificação possa ser obtido quando um quadro de áudio que cumpre a condição supracitada for codificado com o uso do primeiro método de codificação.
[0149] Por exemplo, o processador 301 pode determinar a energia de cada um dos P envelopes espectrais do quadro de áudio atual e buscar por uma frequência de demarcação a desde uma baixa frequência até uma alta frequência de modo que uma proporção que a energia que é menor que a frequência de demarcação leva em consideração na energia total do quadro de áudio atual é a quarta proporção predefinida. O parâmetro de dispersão limitada por banda pode ser um valor médio das frequências de demarcação dos N quadros de áudio. Nesse caso, o processador 301 é configurado especificamente para: quando for determinado que o parâmetro de dispersão limitada por banda dos quadros de áudio é menor que um décimo quarto valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual. Presumindo-se que N seja 1, a frequência de demarcação do quadro de áudio atual é o parâmetro de dispersão limitada por banda. Presumindo-se que N seja um número inteiro maior que 1, o processador 301 pode determinar que o valor médio das frequências de demarcação dos N quadros de áudio seja o parâmetro de dispersão limitada por banda. Uma pessoa versada na técnica pode entender que a determinação de frequência de demarcação mencionada acima é meramente um exemplo. Altemativamente, o método de determinação de frequência de demarcação pode ser buscar por uma frequência de demarcação desde uma alta frequência até uma baixa frequência ou pode ser outro método.
[0150] Adicionalmente, para evitar a comutação frequente entre o primeiro método de codificação e o segundo método de codificação, o processador 301 pode ser configurado adicionalmente para definir o período de desconexão. O processador 301 pode ser configurado para: para um quadro de áudio no período de desconexão, usar um método de codificação usado para um quadro de áudio em uma posição inicial do período de desconexão. Desse modo, uma diminuição de qualidade de comutação causada por comutação frequente entre diferentes métodos de codificação pode ser evitada.
[0151] Se uma duração de desconexão do período de desconexão for L, o processador 301 pode ser configurado para determinar que L quadros de áudio após o quadro de áudio atual, todos, pertencem a um período de desconexão do quadro de áudio atual. Se a dispersão de distribuição, em um espectro, de energia de um quadro de áudio que pertence o período de desconexão é diferente da dispersão de distribuição, em um espectro, de energia de um quadro de áudio em uma posição inicial do período de desconexão, o processador 301 pode ser configurado para determinar que o quadro de áudio ainda é codificado com o uso de um método de codificação que é o mesmo que o usado para o quadro de áudio na posição inicial do período de desconexão.
[0152] A duração do período de desconexão pode ser atualizada de acordo com a dispersão de distribuição, em um espectro, de energia de um quadro de áudio no período de desconexão, até que a duração do período de desconexão seja 0.
[0153] Por exemplo, se o processador 301 determinar o uso do primeiro método de codificação para um l-ésimo quadro de áudio e uma duração de um período de desconexão predefinido for L, o processador 301 pode determinar que o primeiro método de codificação é usado para um (1+1)- ésimo quadro de áudio a um (l+L)-ésimo quadro de áudio. Então, o processador 301 pode determinar dispersão de distribuição, em um espectro, de energia do (l+1)-ésimo quadro de áudio e recalcular o período de desconexão de acordo com a dispersão de distribuição, no espectro, da energia do (l+1)-ésimo quadro de áudio. Se o (l+1)-ésimo quadro de áudio continuar a cumprir uma condição de uso do primeiro método de codificação, o processador 301 pode determinar que um período de desconexão subsequente continue a ser o período de desconexão predefinido L. Ou seja, o período de desconexão inicia desde um (L+2)-ésimo quadro de áudio até um (1+1+L)- ésimo quadro de áudio. Se o (l+1)-ésimo quadro de áudio não cumprir a condição de uso do primeiro método de codificação, o processador 301 pode determinar novamente o período de desconexão de acordo com a dispersão de distribuição, no espectro, da energia do (l+1)-ésimo quadro de áudio. Por exemplo, o processador 301 pode determinar novamente que o período de desconexão é L-L1, em que L1 é um número inteiro positivo menor ou igual a L. Se L1 for igual a L, a duração do período de desconexão é atualizada para 0. Nesse caso, o processador 301 pode determinar novamente o método de codificação de acordo com a dispersão de distribuição, no espectro, da energia do (l+1)-ésimo quadro de áudio. Se L1 for um número inteiro menor que L, o processador 301 pode determinar novamente o método de codificação de acordo com a dispersão de distribuição, em um espectro, de energia de um (l+1+L-L1)-ésimo quadro de áudio. Entretanto, devido ao fato de o (l+1)-ésimo quadro de áudio estar em um período de desconexão do l-ésimo quadro de áudio, o (l+1)-ésimo quadro de áudio continua a ser codificado com o uso do primeiro método de codificação. L1 pode ser referido como parâmetro de atualização de desconexão, e um valor do parâmetro de atualização de desconexão pode ser determinado de acordo com a dispersão de distribuição, em um espectro, de energia de um quadro de áudio de entrada. Desse modo, a atualização de período de desconexão é relacionada à dispersão de distribuição, em um espectro, de energia de um quadro de áudio.
[0154] Por exemplo, quando um parâmetro de dispersão geral for determinado e o parâmetro de dispersão geral for uma primeira largura de banda mínima, o processador 301 pode determinar novamente o período de desconexão de acordo com uma largura de banda mínima, distribuída em um espectro, de energia com primeira proporção predefinida de um quadro de áudio. Presume-se que seja determinado o uso do primeiro método de codificação para codificar o l-ésimo quadro de áudio e um período de desconexão predefinido seja L. O processador 301 pode determinar uma largura de banda mínima, distribuída em um espectro, de energia com primeira proporção predefinida de cada um dos H quadros de áudio consecutivos que inclui o (l+1)-ésimo quadro de áudio, em que H é um número inteiro positivo maior que 0. Se o (l+1)-ésimo quadro de áudio não cumprir a condição de uso do primeiro método de codificação, o processador 301 pode determinar uma quantidade de quadros de áudio cujas larguras de banda mínimas, distribuídas em espectros, de energia com primeira proporção predefinida são menores que um décimo quinto valor predefinido (a quantidade é referida brevemente como um primeiro parâmetro de desconexão). Quando uma largura de banda mínima, distribuída em um espectro, de energia com primeira proporção predefinida de um (L+1)-ésimo quadro de áudio, for maior que um décimo sexto valor predefinido e for menor que um décimo sétimo valor predefinido e o primeiro parâmetro de desconexão for menor que um décimo oitavo valor predefinido, o processador 301 pode subtrair a duração do período de desconexão em 1, ou seja, o parâmetro de atualização de desconexão é 1. O décimo sexto valor predefinido é maior que o primeiro valor predefinido. Quando a largura de banda mínima, distribuída no espectro, da energia com primeira proporção predefinida do (L+1)-ésimo quadro de áudio for maior que o décimo sétimo valor predefinido e for menor que um décimo nono valor predefinido e o primeiro parâmetro de desconexão for menor que o décimo oitavo valor predefinido, o processador 301 pode subtrair a duração do período de desconexão em 2, ou seja, o parâmetro de atualização de desconexão é 2. Quando a largura de banda mínima, distribuída no espectro, da energia com primeira proporção predefinida do (L+1)-ésimo quadro de áudio for maior que o décimo nono valor predefinido, o processador 301 pode definir o período de desconexão a 0. Quando o primeiro parâmetro de desconexão e a largura de banda mínima, distribuída no espectro, da energia com primeira proporção predefinida do (L+1)-ésimo quadro de áudio não cumprirem um ou mais dentre o décimo sexto valor predefinido ao décimo nono valor predefinido, o processador 301 pode determinar que o período de desconexão permanece inalterado.
[0155] Uma pessoa versada na técnica pode entender que o período de desconexão predefinido pode ser definido de acordo com uma situação real e o parâmetro de atualização de desconexão também pode ser ajustado de acordo com uma situação real. O décimo quinto valor predefinido ao décimo nono valor predefinido pode ser ajustado de acordo com uma situação real, para que diferentes períodos de desconexão possam ser definidos.
[0156] De modo similar, quando o parâmetro de dispersão geral incluir uma segunda largura de banda mínima e uma terceira largura de banda mínima, ou o parâmetro de dispersão geral incluir uma primeira proporção de energia, ou o parâmetro de dispersão geral incluir uma segunda proporção de energia e uma terceira proporção de energia, o processador 301 pode definir um período de desconexão predefinido correspondente, um parâmetro de atualização de desconexão correspondente e um parâmetro relacionado usado para determinar o parâmetro de atualização de desconexão, para que um período de desconexão correspondente pode ser determinado e a comutação frequente entre métodos de codificação é evitada.
[0157] Quando o método de codificação for determinada de acordo com a dispersão de intermitência (ou seja, o método de codificação é determinado de acordo com dispersão global, dispersão local e intermitência a curto prazo de distribuição, em um espectro, de energia de um quadro de áudio), o processador 301 pode definir um período de desconexão correspondente, um parâmetro de atualização de desconexão correspondente e um parâmetro relacionado usado para determinar o parâmetro de atualização de desconexão, para evitar comutação frequente entre métodos de codificação. Nesse caso, o período de desconexão pode ser menor que o período de desconexão que é definido no caso do parâmetro de dispersão geral.
[0158] Quando o método de codificação for determinado de acordo com uma característica limitada por faixa de distribuição de energia em um espectro, o processador 301 pode definir um período de desconexão correspondente, um parâmetro de atualização de desconexão correspondente e um parâmetro relacionado usado para determinar o parâmetro de atualização de desconexão, para evitar comutação frequente entre métodos de codificação. Por exemplo, o processador 301 pode calcular uma proporção entre a energia de um envelope espectral baixo de um quadro de áudio de entrada e a energia de todos os envelopes espectrais e determinar o parâmetro de atualização de desconexão de acordo com a proporção. Especificamente, o processador 301 pode determinar a proporção entre a energia do envelope espectral baixo e a energia de todos os envelopes espectrais com o uso da seguinte fórmula:
Figure img0015
Fórmula 1.10 em que low representa a proporção entre a energia do envelope espectral baixo e a energia de todos os envelopes espectrais, s(k) representa a energia de um k-ésimo envelope espectral, y representa um índice de um envelope espectral mais alto possível de uma banda de baixa frequência e P indica que o quadro de áudio é dividido em P envelopes espectrais no total. D Nesse caso, se lo" for maior que um vigésimo valor predefinido, o parâmetro de atualização de desconexão é 0. Se low for maior que um vigésimo primeiro valor predefinido, o parâmetro de atualização de desconexão pode ter um valor relativamente pequeno, em que o vigésimo valor predefinido é maior que o vigésimo primeiro valor predefinido. Se low não for maior que o vigésimo primeiro valor predefinido, o parâmetro de desconexão pode ter um valor relativamente grande. Uma pessoa versada na técnica pode entender que o vigésimo valor predefinido e o vigésimo primeiro valor predefinido podem ser determinados de acordo com um experimento de simulação e o valor do parâmetro de atualização de desconexão também pode ser determinado de acordo com um experimento.
[0159] Além disso, quando o método de codificação for determinado de acordo com uma característica limitada por faixa de distribuição de energia em um espectro, o processador 301 pode determinar adicionalmente uma frequência de demarcação de um quadro de áudio de entrada e determinar o parâmetro de atualização de desconexão de acordo com a frequência de demarcação, em que a frequência de demarcação pode ser diferente de uma frequência de demarcação usada para determinar um parâmetro de dispersão limitada por banda. Se a frequência de demarcação for menor que um vigésimo segundo valor predefinido, o processador 301 pode determinar que o parâmetro de atualização de desconexão é 0. Se a frequência de demarcação for menor que um vigésimo terceiro valor predefinido, o processador 301 pode determinar que o parâmetro de atualização de desconexão tem um valor relativamente pequeno. Se a frequência de demarcação for maior que o vigésimo terceiro valor predefinido, o processador 301 pode determinar que o parâmetro de atualização de desconexão pode ter um valor relativamente grande. Uma pessoa versada na técnica pode entender que o vigésimo segundo valor predefinido e o vigésimo terceiro valor predefinido podem ser determinados de acordo com um experimento de simulação e o valor do parâmetro de atualização de desconexão também pode ser determinado de acordo com um experimento.
[0160] Um elemento de conhecimento comum na técnica pode estar ciente que, em combinação com os exemplos descritos nas modalidades reveladas nesse relatório descritivo, etapas de unidades e algoritmo podem ser implantados por hardware eletrônico ou uma combinação de software de computador e hardware eletrônico. Se as funções são executadas por um hardware ou software depende de condições de limitação de modelo e pedidos particulares das soluções técnicas. Uma pessoa versada na técnica pode usar métodos diferentes para implantar as funções descritas para cada pedido particular, mas não deve ser considerado que as implantações vão além de escopo da presente invenção.
[0161] Pode ser claramente compreendido por uma pessoa versada na técnica que, para o propósito de uma descrição breve e conveniente, para um processo de trabalho detalhado do sistema, aparelho e unidade supracitados, pode ser feita referência a um processo correspondente nas modalidades dos métodos anteriormente mencionados e os detalhes não são descritos no presente documento.
[0162] Nas diversas modalidades fornecidas no presente pedido deve-se compreender que o sistema, aparelho e método revelados podem ser implantados de outras maneiras. Por exemplo, a modalidade de aparelho descrita é meramente exemplificativa. Por exemplo, a divisão de unidade é meramente uma divisão de função lógica e pode ser outra divisão em uma implantação real. Por exemplo, uma pluralidade de unidades ou componentes pode ser combinada ou integrada em outro sistema, ou alguns recursos podem ser ignorados ou não realizados. Além disso, os acoplamentos mútuos ou acoplamentos diretos ou conexões de comunicação exibidos ou discutidos podem ser implantados através de algumas interfaces. Os acoplamentos indiretos ou conexões de comunicação entre os aparelhos ou unidades podem ser implantados em formas eletrônicas, mecânicas ou outras.
[0163] As unidades descritas como partes separadas podem ou não serem separadas fisicamente e as partes exibidas como unidades podem ou não serem unidades físicas, podem estar localizadas em uma posição, ou podem estar distribuídas em uma pluralidade de unidades de rede. Uma parte ou todas as unidades podem ser selecionadas de acordo com necessidades reais para alcançar os objetivos das soluções das modalidades.
[0164] Além disso, unidades funcionais nas modalidades da presente invenção podem ser integradas em uma unidade de processamento, ou cada das unidades pode existir fisicamente sozinha, ou duas ou mais unidades são integradas em uma unidade.
[0165] Quando as funções forem implantadas em uma forma de uma unidade funcional de software e vendida ou usada como um produto independente, as funções podem ser armazenadas em um meio de armazenamento legível pelo computador. Com base em tal compreensão, essencialmente as soluções técnicas da presente invenção, ou a parte que contribui para a técnica anterior, ou uma parte das soluções técnicas podem ser implantadas em forma de um produto de software. O produto de software é armazenado em um meio de armazenamento e inclui diversas instruções para instruir um dispositivo de computador (que pode ser um computador pessoal, um servidor, ou um dispositivo de rede) ou um processador para realizar todas ou uma parte das etapas dos métodos descritos nas modalidades da presente invenção. O meio de armazenamento supracitado inclui: qualquer meio que possa armazenar um código de programa, tal qual uma unidade flash USB, um disco rígido removível, uma memória só de leitura (ROM, Memória Só de Leitura), uma memória de acesso aleatório (RAM, Memória de Acesso Aleatório), um disco magnético, ou um disco óptico.
[0166] As descrições mencionadas anteriormente são meramente modalidades específicas da presente invenção, porém, não se destinam a limitar o escopo de proteção da presente invenção. Qualquer variação ou substituição prontamente percebida por uma pessoa versada na técnica abrangida pelo escopo técnico revelado na presente invenção deve ser abrangida pelo escopo de proteção da presente invenção. Portanto, o escopo de proteção da presente invenção deve ser submetido ao escopo de proteção das reivindicações.

Claims (8)

1. Método de codificação de áudio, CARACTERIZADO pelo fato de que o método compreende: determinar (101) a dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada, em que a dispersão de distribuição é determinada para cada um dos N quadros de áudio de entrada, em que os N quadros de áudio compreendem um quadro de áudio atual, e N é um número inteiro positivo; e determinar (102), de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se deve ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual, em que o primeiro método de codificação é um método de codificação que tem base em transformada de frequência de tempo e em quantização de coeficiente de transformada e que não tem base em previsão linear, e o segundo método de codificação é um método de codificação com base em previsão linear; em que a determinação da dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada compreende: dividir um espectro de cada um dos N quadros de áudio em P coeficientes de espectro de energia de FFT, em que P é um número inteiro positivo; e determinar um parâmetro de dispersão geral de acordo com os P coeficientes de espectro de energia de FFT de cada um dos N quadros de áudio, em que o parâmetro de dispersão geral indica a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio; em que o parâmetro de dispersão geral compreende uma primeira largura de banda mínima; a determinação de um parâmetro de dispersão geral de acordo com os P coeficientes de espectro de energia de FFT de cada um dos N quadros de áudio compreende: determinar um valor médio de larguras de banda mínimas de distribuições, nos espectros, de energia com primeira proporção predefinida dos N quadros de áudio de acordo com os P coeficientes de espectro de energia de FFT de cada um dos N quadros de áudio, em que, uma largura de banda mínima é encontrada a partir dos P coeficientes de espectro de energia de FFT em uma maneira que uma proporção que energia na largura de banda conta para a energia total de um quadro é a primeira proporção predefinida, em que o valor médio das larguras de banda mínimas de distribuição, nos espectros, da energia com primeira proporção predefinida dos N quadros de áudio é a primeira largura de banda mínima; e a determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se deve ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual compreende um dentre: quando a primeira largura de banda mínima for menor que um primeiro valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e quando a primeira largura de banda mínima for maior que o primeiro valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a determinação de um valor médio de larguras de banda mínimas de distribuição, nos espectros, de energia com primeira proporção predefinida dos N quadros de áudio de acordo com a energia dos P coeficientes de espectro de energia de FFT de cada um dos N quadros de áudio compreende: classificar os P coeficientes de espectro de energia de FFT de cada quadro de áudio em ordem decrescente; determinar, de acordo com os P coeficientes de espectro de energia de FFT, classificados em ordem decrescente, de cada um dos N quadros de áudio, uma largura de banda mínima de distribuição, no espectro, de energia que corresponde a não menos que a primeira proporção predefinida de cada um dos N quadros de áudio; e determinar, de acordo com a largura de banda mínima de distribuição, no espectro, da energia que corresponde a não menos que a primeira proporção predefinida de cada um dos N quadros de áudio, um valor médio de larguras de banda mínimas de distribuição, nos espectros, de energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio.
3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que, a determinação da largura de banda mínima inclui: acumular sequencialmente energia de bins de frequência nos P coeficientes de espectro de energia de FFT em ordem decrescente; e comparar energia obtida após cada tempo de acúmulo com a energia total do quadro de áudio, e se uma proporção for maior que a primeira proporção predefinida, terminar o processo de acúmulo, em que uma quantidade de vezes de acúmulo é a largura de banda mínima.
4. Método de codificação de áudio, CARACTERIZADO pelo fato de que o método inclui: determinar a dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada, em que a dispersão de distribuição é determinada para cada um dos N quadros de áudio de entrada, em que os N quadros de áudio compreendem um quadro de áudio atual, e N é um número inteiro positivo; e determinar, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se deve ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual, em que o primeiro método de codificação é um método de codificação que tem base em transformada de frequência de tempo e em quantização de coeficiente de transformada e que não tem base em previsão linear, e o segundo método de codificação é um método de codificação com base em previsão linear; em que a dispersão de distribuição da energia nos espectros compreende dispersão global, dispersão local, e intermitência a curto prazo de distribuição da energia nos espectros, em que N é 1, e os N quadros de áudio são o quadro de áudio atual; e a determinação da dispersão de distribuição, em espectros, de energia de N quadros de áudio de entrada compreende: dividir um espectro do quadro de áudio atual em Q sub-bandas; e determinar um parâmetro de dispersão de intermitência de acordo com a energia de pico de cada uma das Q sub-bandas do espectro do quadro de áudio atual, em que o parâmetro de dispersão de intermitência é usado para indicar dispersão global, dispersão local, e intermitência a curto prazo do quadro de áudio atual; em que o parâmetro de dispersão de intermitência compreende: uma proporção global de pico para média de cada uma das Q sub-bandas, uma proporção local de pico para média de cada uma das Q sub-bandas, e uma flutuação de energia de pico a curto prazo de cada uma das Q sub-bandas, em que a proporção global de pico para média é determinada de acordo com a energia de pico na sub-banda e com energia média de todas as sub-bandas do quadro de áudio atual, a proporção local de pico para média é determinada de acordo com a energia de pico na sub-banda e com energia média na sub-banda, e a flutuação de energia de pico a curto prazo é determinada de acordo com a energia de pico na sub-banda e com energia de pico em uma banda de frequência específica de um quadro de áudio antes do quadro de áudio; e a determinação, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se deve ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual compreende: determinar se existe uma primeira sub-banda nas Q sub-bandas, em que a proporção local de pico para média da primeira sub-banda é maior que um décimo primeiro valor predefinido, uma proporção global de pico para média da primeira sub-banda é maior que um décimo segundo valor predefinido, e uma flutuação de energia de pico a curto prazo da primeira sub-banda é maior que um décimo terceiro valor predefinido; e quando existir a primeira sub-banda nas Q sub-bandas, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual.
5. Aparelho, CARACTERIZADO pelo fato de que o aparelho compreende: uma unidade de obtenção (201), configurada para obter N quadros de áudio, em que a dispersão de distribuição é determinada para cada um dos N quadros de áudio de entrada, em que os N quadros de áudio compreendem um quadro de áudio atual, e N é um número inteiro positivo; uma unidade de determinação (202), configurada para determinar a dispersão de distribuição, nos espectros, de energia dos N quadros de áudio obtidos pela unidade de obtenção (201); e a unidade de determinação (202) é configurada adicionalmente para determinar, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se deve ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual, em que o primeiro método de codificação é um método de codificação que tem base em transformada de frequência de tempo e em quantização de coeficiente de transformada e que não tem base em previsão linear, e o segundo método de codificação é um método de codificação com base em previsão linear; a unidade de determinação (202) é configurada especificamente para dividir um espectro de cada um dos N quadros de áudio em P coeficientes de espectro de FFT, e determinar um parâmetro de dispersão geral de acordo com os P coeficientes de espectro de FFT de cada um dos N quadros de áudio, em que P é um número inteiro positivo, e o parâmetro de dispersão geral indica a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio; em que o parâmetro de dispersão geral compreende uma primeira largura de banda mínima; a unidade de determinação (202) é configurada especificamente para determinar um valor médio de larguras de banda mínimas de distribuição, nos espectros, da energia com primeira proporção predefinida dos N quadros de áudio de acordo com os P coeficientes de espectro de FFT de cada um dos N quadros de áudio, em que o valor médio das larguras de banda mínimas de distribuição, nos espectros, da energia com primeira proporção predefinida dos N quadros de áudio é a primeira largura de banda mínima; e a unidade de determinação (202) é configurada especificamente para um dentre: quando a primeira largura de banda mínima for menor que um primeiro valor predefinido, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual; e quando a primeira largura de banda mínima for maior que o primeiro valor predefinido, determinar o uso do segundo método de codificação para codificar o quadro de áudio atual.
6. Aparelho, de acordo com a reivindicação 5, CARACTERIZADO pelo fato de que uma unidade de determinação (202) é configurada especificamente para: classificar os P coeficientes de espectro de FFT, classificados em ordem decrescente, de cada quadro de áudio em ordem decrescente; determinar, de acordo com os P coeficientes de espectro de FFT, classificados em ordem decrescente, de cada um dos N quadros de áudio, uma largura de banda mínima de distribuição, no espectro, de energia que corresponde a não menos que a primeira proporção predefinida de cada um dos N quadros de áudio; e determinar, de acordo com a largura de banda mínima, distribuída no espectro, da energia que corresponde a não menos que a primeira proporção predefinida de cada um dos N quadros de áudio, um valor médio de larguras de banda mínimas, distribuídas nos espectros, de energia que corresponde a não menos que a primeira proporção predefinida dos N quadros de áudio.
7. Aparelho, de acordo com a reivindicação 5, CARACTERIZADO pelo fato de que, para determinar a largura de banda mínima, a unidade de determinação é configurada especificamente para: acumular sequencialmente energia de bins de frequência nos P coeficientes de espectro de energia de FFT em ordem decrescente; comparar energia obtida após cada tempo de acúmulo com a energia total do quadro de áudio, e terminar o processo de acúmulo se uma proporção for maior que a primeira proporção predefinida, em que uma quantidade de vezes de acúmulo é a largura de banda mínima.
8. Aparelho, CARACTERIZADO pelo fato de que o aparelho inclui: uma unidade de obtenção, configurada para obter N quadros de áudio, em que a dispersão de distribuição é determinada para cada um dos N quadros de áudio de entrada, em que os N quadros de áudio compreendem um quadro de áudio atual, e N é um número inteiro positivo; uma unidade de determinação, configurada para determinar a dispersão de distribuição, nos espectros, de energia dos N quadros de áudio obtidos pela unidade de obtenção; e a unidade de determinação é configurada adicionalmente para determinar, de acordo com a dispersão de distribuição, nos espectros, da energia dos N quadros de áudio, se deve ser usado um primeiro método de codificação ou um segundo método de codificação para codificar o quadro de áudio atual, em que o primeiro método de codificação é um método de codificação que tem base em transformada de frequência de tempo e em quantização de coeficiente de transformada e que não tem base em previsão linear, e o segundo método de codificação é um método de codificação com base em previsão linear; em que N é 1, e os N quadros de áudio são o quadro de áudio atual; e a unidade de determinação (202) é configurada especificamente para dividir um espectro do quadro de áudio atual em Q sub-bandas, e determinar um parâmetro de dispersão de intermitência de acordo com a energia de pico de cada uma das Q sub-bandas do espectro do quadro de áudio atual, em que o parâmetro de dispersão de intermitência é usado para indicar dispersão global, dispersão local, e intermitência a curto prazo do quadro de áudio atual, em que a unidade de determinação (202) é configurada especificamente para determinar uma proporção global de pico para média de cada uma das Q sub-bandas, uma proporção local de pico para média de cada uma das Q sub-bandas, e uma flutuação de energia de pico a curto prazo de cada uma das Q sub-bandas, em que a proporção global de pico para média é determinada pela unidade de determinação (202) de acordo com a energia de pico na sub-banda e com energia média de todas as sub-bandas do quadro de áudio atual, a proporção local de pico para média é determinada pela unidade de determinação (202) de acordo com a energia de pico na sub-banda e com energia média na sub-banda, e a flutuação de energia de pico a curto prazo é determinada de acordo com a energia de pico na sub-banda e com energia de pico em uma banda de frequência específica de um quadro de áudio antes do quadro de áudio; e a unidade de determinação (202) é configurada especificamente para: determinar se existe uma primeira sub-banda nas Q sub-bandas, em que uma proporção local de pico para média da primeira sub-banda é maior que um décimo primeiro valor predefinido, uma proporção global de pico para média da primeira sub-banda é maior que um décimo segundo valor predefinido, e uma flutuação de energia de pico a curto prazo da primeira sub-banda é maior que um décimo terceiro valor predefinido; e quando existir a primeira sub-banda nas Q sub-bandas, determinar o uso do primeiro método de codificação para codificar o quadro de áudio atual.
BR112016029380-0A 2014-06-24 2015-06-23 método e aparelho de codificação de áudio BR112016029380B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410288983.3 2014-06-24
CN201410288983.3A CN105336338B (zh) 2014-06-24 2014-06-24 音频编码方法和装置
PCT/CN2015/082076 WO2015196968A1 (zh) 2014-06-24 2015-06-23 音频编码方法和装置

Publications (2)

Publication Number Publication Date
BR112016029380A2 BR112016029380A2 (pt) 2017-08-22
BR112016029380B1 true BR112016029380B1 (pt) 2020-10-13

Family

ID=54936800

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016029380-0A BR112016029380B1 (pt) 2014-06-24 2015-06-23 método e aparelho de codificação de áudio

Country Status (17)

Country Link
US (3) US9761239B2 (pt)
EP (2) EP3144933B1 (pt)
JP (1) JP6426211B2 (pt)
KR (2) KR101960152B1 (pt)
CN (3) CN107424622B (pt)
AU (2) AU2015281506B2 (pt)
BR (1) BR112016029380B1 (pt)
CA (1) CA2951593C (pt)
DK (1) DK3460794T3 (pt)
ES (2) ES2883685T3 (pt)
HK (1) HK1220542A1 (pt)
MX (1) MX361248B (pt)
MY (1) MY173129A (pt)
PT (1) PT3144933T (pt)
RU (1) RU2667380C2 (pt)
SG (1) SG11201610302TA (pt)
WO (1) WO2015196968A1 (pt)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424622B (zh) 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
CN111739543B (zh) * 2020-05-25 2023-05-23 杭州涂鸦信息技术有限公司 音频编码方法的调试方法及其相关装置
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、系统、电子设备和存储介质

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI101439B1 (fi) * 1995-04-13 1998-06-15 Nokia Telecommunications Oy Transkooderi, jossa on tandem-koodauksen esto
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6647366B2 (en) * 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
US20050096898A1 (en) * 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
NZ562188A (en) * 2005-04-01 2010-05-28 Qualcomm Inc Methods and apparatus for encoding and decoding an highband portion of a speech signal
US8892448B2 (en) 2005-04-22 2014-11-18 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
DE102005046993B3 (de) 2005-09-30 2007-02-22 Infineon Technologies Ag Vorrichtung und Verfahren zum Erzeugen eines Leistungssignals aus einem Laststrom
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
RU2426179C2 (ru) 2006-10-10 2011-08-10 Квэлкомм Инкорпорейтед Способ и устройство для кодирования и декодирования аудиосигналов
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
KR101149449B1 (ko) * 2007-03-20 2012-05-25 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
KR100925256B1 (ko) * 2007-05-03 2009-11-05 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
WO2009110751A2 (ko) * 2008-03-04 2009-09-11 Lg Electronics Inc. 오디오 신호 처리 방법 및 장치
EP2139000B1 (en) * 2008-06-25 2011-05-25 Thomson Licensing Method and apparatus for encoding or decoding a speech and/or non-speech audio input signal
WO2010005224A2 (en) * 2008-07-07 2010-01-14 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010003521A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and discriminator for classifying different segments of a signal
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN101615910B (zh) 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
CN101800050B (zh) * 2010-02-03 2012-10-10 武汉大学 基于感知自适应比特分配的音频精细分级编码方法及系统
US20130114733A1 (en) 2010-07-05 2013-05-09 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, device, program, and recording medium
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US8484023B2 (en) 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
US9111526B2 (en) 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US9240191B2 (en) * 2011-04-28 2016-01-19 Telefonaktiebolaget L M Ericsson (Publ) Frame based audio signal classification
EP2770506A4 (en) 2011-10-19 2015-02-25 Panasonic Ip Corp America CODING DEVICE AND CODING METHOD
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
CN102737647A (zh) * 2012-07-23 2012-10-17 武汉大学 双声道音频音质增强编解码方法及装置
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
CN103747237B (zh) 2013-02-06 2015-04-29 华为技术有限公司 视频编码质量的评估方法及设备
CN103280221B (zh) 2013-05-09 2015-07-29 北京大学 一种基于基追踪的音频无损压缩编码、解码方法及系统
CN103778919B (zh) * 2014-01-21 2016-08-17 南京邮电大学 基于压缩感知和稀疏表示的语音编码方法
CN107424622B (zh) 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
CN104217730B (zh) * 2014-08-18 2017-07-21 大连理工大学 一种基于k‑svd的人工语音带宽扩展方法及装置

Also Published As

Publication number Publication date
ES2883685T3 (es) 2021-12-09
RU2017101813A3 (pt) 2018-07-27
AU2018203619B2 (en) 2020-02-13
CA2951593A1 (en) 2015-12-30
KR20170015354A (ko) 2017-02-08
ES2703199T3 (es) 2019-03-07
KR20190029778A (ko) 2019-03-20
CN107424622B (zh) 2020-12-25
KR102051928B1 (ko) 2019-12-04
JP2017523455A (ja) 2017-08-17
CN105336338A (zh) 2016-02-17
KR101960152B1 (ko) 2019-03-19
US20170103768A1 (en) 2017-04-13
AU2018203619A1 (en) 2018-06-14
US9761239B2 (en) 2017-09-12
US11074922B2 (en) 2021-07-27
CA2951593C (en) 2019-02-19
US20170345436A1 (en) 2017-11-30
US20190311727A1 (en) 2019-10-10
BR112016029380A2 (pt) 2017-08-22
HK1220542A1 (zh) 2017-05-05
PT3144933T (pt) 2018-12-18
SG11201610302TA (en) 2017-01-27
WO2015196968A1 (zh) 2015-12-30
RU2017101813A (ru) 2018-07-27
US10347267B2 (en) 2019-07-09
AU2015281506B2 (en) 2018-02-22
JP6426211B2 (ja) 2018-11-21
CN107424622A (zh) 2017-12-01
EP3144933A4 (en) 2017-03-22
EP3460794A1 (en) 2019-03-27
RU2667380C2 (ru) 2018-09-19
DK3460794T3 (da) 2021-08-16
CN107424621A (zh) 2017-12-01
AU2015281506A1 (en) 2017-01-05
CN105336338B (zh) 2017-04-12
MY173129A (en) 2019-12-30
EP3144933B1 (en) 2018-09-26
EP3144933A1 (en) 2017-03-22
EP3460794B1 (en) 2021-05-26
MX2016016564A (es) 2017-04-25
MX361248B (es) 2018-11-30
CN107424621B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
BR112016006925B1 (pt) Metodo e aparelho de codificaqao
BR112016029380B1 (pt) método e aparelho de codificação de áudio
US20160254002A1 (en) Method and apparatus for encoding stereo phase parameter
BR112015008609B1 (pt) Método e aparelho para alocação de bits de um sinal de áudio
BR112015029310B1 (pt) Método e dispositivo de codificação de sinal
RU2637885C2 (ru) Способ и устройство предсказания сигнала возбуждения верхней полосы
PT2905777T (pt) Método de codificação, método de descodificação, dispositivo de codificação e dispositivo de descodificação
JP2018041091A (ja) 信号処理方法及び装置
BR112016025330B1 (pt) Método de codificação de áudio e aparelho relacionado
BR112016020713B1 (pt) Método e aparelho para processamento de sinal

Legal Events

Date Code Title Description
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 23/06/2015, OBSERVADAS AS CONDICOES LEGAIS.