BR112015005980B1 - Método para codificar sinais e codificador de áudio - Google Patents

Método para codificar sinais e codificador de áudio Download PDF

Info

Publication number
BR112015005980B1
BR112015005980B1 BR112015005980-5A BR112015005980A BR112015005980B1 BR 112015005980 B1 BR112015005980 B1 BR 112015005980B1 BR 112015005980 A BR112015005980 A BR 112015005980A BR 112015005980 B1 BR112015005980 B1 BR 112015005980B1
Authority
BR
Brazil
Prior art keywords
digital signal
pitch
subframes
audio
signal
Prior art date
Application number
BR112015005980-5A
Other languages
English (en)
Other versions
BR112015005980A2 (pt
Inventor
Yang Gao
Original Assignee
Huawei Technologies Co., Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co., Ltd filed Critical Huawei Technologies Co., Ltd
Publication of BR112015005980A2 publication Critical patent/BR112015005980A2/pt
Publication of BR112015005980B1 publication Critical patent/BR112015005980B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

classificação de áudio com base na qualidade perceptual para taxas de bits baixas ou médias. a presente invenção refere-se ao fato que a qualidade de sinais codificados pode ser melhorada ao reclassificar os sinais de áudio que contêm dados que não de voz como sinais de voz quando os parâmetros da periodicidade do sinal satisfazem um ou mais critérios. em algumas modalidades, somente os sinais de taxa de bits baixa ou média são considerados para a reclassificação. os parâmetros da periodicidade podem incluir características ou um conjunto de características indicativas da periodicidade. por exemplo, o parâmetro da periodicidade pode incluir diferenças do passo entre subquadros no sinal de áudio, uma correlação normalizada do passo para um ou mais subquadros, uma correlação normalizada do passo média para o sinal de áudio, ou combinações destas. os sinais de áudio que são reclassificados como sinais de voz podem ser codificados no domínio do tempo, ao passo que os sinais de áudio que permanecem classificados como sinais de áudio podem ser codificados no domínio da frequência.

Description

CAMPO TÉCNICO
[001] A presente invenção refere-se de modo geral à classificação de áudio com base na qualidade perceptual para taxas de bits baixas ou médias.
ANTECEDENTES
[002] Os sinais de áudio são codificados tipicamente antes de ser armazenados ou transmitidos a fim de obter a compressão de dados de áudio, o que reduz os requisitos de largura de faixa de transmissão e/ou de armazenamento de dados de áudio. Os algoritmos de compressão de áudio reduzem a redundância da informação através da codificação, reconhecimento de padrão, predição linear e outras técnicas. Os algoritmos de compressão de áudio podem ser de natureza com perda ou sem perda, sendo que os algoritmos de compressão com perda propiciam uma compressão de dados maior do que os algoritmos de compressão sem perda.
SUMÁRIO DA INVENÇÃO
[003] As vantagens técnicas são em geral obtidas pelas modalidades da presente invenção que descrevem métodos e técnicas para melhorar a classificação de ÁUDIO/VOZ com base na qualidade perceptual para taxas de bits baixas ou médias.
[004] De acordo com uma modalidade, é apresentado um método para classificar sinais antes da codificação. Neste exemplo, o método inclui a recepção de um sinal digital que compreende dados de áudio. O sinal digital é classificado inicialmente como um sinal de ÁUDIO. O método também inclui a reclassificação do sinal digital como um sinal de VOZ quando um ou mais parâmetros de periodicidade do sinal digital satisfazem um critério, e a codificação do sinal digital de acordo com uma classificação de sinal digital. O sinal digital é codificado no domínio da frequência quando o sinal digital é classificado como um sinal de ÁUDIO. O sinal digital é codificado no domínio do tempo em que o sinal digital é reclassificado como um sinal de VOZ. Um aparelho para executar este método também é apresentado.
[005] De acordo com uma outra modalidade, é apresentado um outro método para classificar sinais antes da codificação. Neste exemplo, o método inclui a recepção de um sinal digital que compreende dados de áudio. O sinal digital é classificado inicialmente como um sinal de ÁUDIO. O método também inclui a determinação dos valores normalizados da correlação de tom para subquadros no sinal digital, a determinação de um valor normalizado médio da correlação de tom ao calcular a média dos valores normalizados da correlação de tom, e a determinação das diferenças de tom entre os subquadros no sinal digital ao comparar os valores normalizados da correlação de tom associados com os subquadros respectivos. O método também inclui a reclassificação do sinal digital como um sinal de VOZ quando cada uma das diferenças de tom estiver abaixo de um primeiro limite e a média calculada do valor normalizado da correlação de tom exceder um segundo limite, e a codificação do sinal digital de acordo com uma classificação de sinal digital. O sinal digital é codificado no domínio da frequência quando o sinal digital é classificado como um sinal de ÁUDIO. O sinal digital é codificado no domínio do tempo em que o sinal digital é classificado como um sinal de VOZ. i. Um aspecto da presente invenção apresenta um método para classificar sinais antes da codificação, em que o método compreende: ii. receber um sinal digital que compreende dados de áudio, em que o sinal de áudio é classificado inicialmente como um sinal de ÁUDIO; iii. determinar os valores da correlação normalizada do tom para subquadros no sinal digital; iv. determinar um valor médio de correlação normalizada do tom ao tirar a média dos valores de correlação normalizada do tom; v. determinar as diferenças de tom entre os subquadros no sinal digital ao comparar os valores da correlação normalizada do tom associados com os respectivos subquadros; vi. reclassificar o sinal digital como um sinal de VOZ quando cada uma das diferenças de tom estiver abaixo de um primeiro limite e a média do valor da correlação normalizada do tom exceder um segundo limite; e vii. codificar o sinal digital de acordo com uma classificação de sinal digital, em que o sinal digital é codificado no domínio da frequência quando o sinal digital é classificado como um sinal de ÁUDIO, e em que o sinal digital é codificado no domínio do tempo quando o sinal digital é classificado como um sinal de VOZ. viii. Em uma maneira de implementação possível do aspecto, o sinal digital contém música.
BREVE DESCRIÇÃO DOS DESENHOS
[006] A FIG. 1 ilustra um diagrama de um codificador de predição linear excitado por código (CELP) de uma modalidade;
[007] a FIG. 2 ilustra um diagrama de um decodificador inicial da modalidade;
[008] a FIG. 3 ilustra um diagrama de um codificador da modalidade;
[009] a FIG. 4 ilustra um diagrama de um decodificador da modalidade;
[0010] a FIG. 5 ilustra um gráfico que ilustra um período do tom de um sinal digital;
[0011] a FIG. 6 ilustra um gráfico que ilustra um período do tom de um outro sinal digital;
[0012] as FIGS. 7A-7B ilustram diagramas de um codec perceptual do domínio da frequência;
[0013] as FIGS. 8A-8B ilustram diagramas de um sistema de codificação de áudio de taxa de bits baixa/média; e
[0014] a FIG. 9 ilustra um diagrama de blocos de um sistema de processamento da modalidade.
[0015] Os números e os símbolos correspondentes nas figuras diferentes referem-se de modo geral às partes correspondentes a menos que esteja indicado de alguma outra maneira. As figuras são desenhadas para ilustrar claramente os aspectos relevantes das modalidades e não são necessariamente desenhadas em escala.
DESCRIÇÃO DETALHADA DE MODALIDADES ILUSTRATIVAS
[0016] A elaboração e o uso das modalidades da presente invenção são discutidas em detalhes a seguir. Deve ser apreciado, no entanto, que os conceitos aqui divulgados podem ser incorporados em uma ampla variedade de contextos específicos, e que as modalidades específicas aqui discutidas são meramente ilustrativas e não servem para limitar o âmbito das reivindicações. Além disso, deve ser compreendido que várias mudanças, substituições e alterações podem ser feitas na presente invenção sem desviar do caráter e âmbito da presente invenção tal como definido pelas reivindicações anexas.
[0017] Os sinais de áudio são codificados tipicamente no domínio do tempo ou no domínio da frequência. Mais especificamente, os sinais de áudio que contêm dados de voz são classificados tipicamente como sinais de VOZ e são codificados ao usar técnicas de codificação do domínio do tempo, ao tom que os sinais de áudio que contêm dados que não de voz são classificados tipicamente como sinais de ÁUDIO e são codificados ao usar técnicas de codificando do domínio da frequência. Notavelmente, o termo "sinal de áudio (letras minúsculas)" é aqui usado para se referir a todo sinal que contém dados de som (dados de voz, dados que não de voz, etc.), ao tom que o termo "sinal de ÁUDIO (letras maiúsculas)" é aqui usado para se referir a uma classificação de sinal específico. Esta maneira tradicional de classificar sinais de áudio gera tipicamente sinais codificados de qualidade mais elevada porque os dados de voz são em geral de natureza periódica e, portanto, mais suscetíveis à codificação do domínio do tempo, ao tom que os dados que não de voz são de natureza aperiódica e, portanto, mais suscetíveis à codificação do domínio da frequência. No entanto, alguns sinais que não de voz exibem uma periodicidade suficiente para assegurar a codificação do domínio do tempo.
[0018] Os aspectos da presente descrição reclassificam os sinais de áudio que contêm dados que não de voz como sinais de VOZ quando um parâmetro da periodicidade do sinal de áudio excede um limite. Em algumas modalidades, somente os sinais de ÁUDIO de taxa de bits baixa e/ou média são considerados para a reclassificação. Em outras modalidades, todos os sinais de ÁUDIO são considerados. O parâmetro de periodicidade pode incluir qualquer característica ou conjunto de características indicativas da periodicidade. Por exemplo, o parâmetro de periodicidade pode incluir diferenças de tom entre subquadros no sinal de áudio, uma correlação normalizada de tom para um ou mais subquadros, uma correlação normalizada média de tom para o sinal de áudio, ou combinações destas. Os sinais de áudio que são reclassificados como sinais de VOZ podem ser codificados no domínio do tempo, ao tom que os sinais de áudio que permanecem classificados como sinais de ÁUDIO podem ser codificados no domínio da frequência.
[0019] Falando de modo geral, é melhor usar a codificação do domínio de tempo para o sinal de voz e a codificação do domínio da frequência para o sinal de música a fim de obter a melhor qualidade. No entanto, para algum sinal específico de música tal como um sinal muito periódico, pode ser melhor usar a codificação do domínio de tempo com o benefício do ganho de Predição de Longa duração (LTP) muito elevado. A classificação de sinais de áudio antes da codificação, portanto, deve ser executada com cuidado, e pode de beneficiar da consideração de vários fatores suplementares, tais como a taxa de bits dos sinais e/ou das características dos algoritmos de codificação.
[0020] Os dados de voz são caracterizados tipicamente por um sinal de mudança rápida em que o espectro e/ou a energia varia mais rapidamente do que outros tipos de sinais (por exemplo, música, etc.). Os sinais de voz podem ser classificados como sinais SEM VOZ, sinais de VOZ, sinais GENÉRICOS, ou sinais de TRANSIÇÃO, dependendo das características de seus dados de áudio. Os dados que não de voz (por exemplo, música, etc.) são definidos tipicamente como um sinal de mudança lenta, cujo espectro e/ou energia muda mais lentamente do que o sinal de voz. Normalmente, o sinal de música pode incluir o tom e tipos harmônicos de sinal de ÁUDIO. Para a codificação de elevada taxa de bits, pode tipicamente ser vantajoso usar o algoritmo de codificação do domínio da frequência para codificar os sinais que não de voz. No entanto, quando os algoritmos de codificação de taxa de bits baixa ou média são usados, pode ser vantajoso usar a codificação do domínio do tempo para codificar o tom ou os tipos harmônicos de sinais que não de voz que exibem uma periodicidade, uma vez que a codificação do domínio da frequência pode não ser capaz de codificar precisamente a faixa de frequência inteira a uma taxa de bits baixa ou média. Em outras palavras, a codificação de sinais que não de voz que exibem uma forte periodicidade no domínio da frequência pode resultar em algumas subbandas de frequência não sendo codificadas ou sendo fracamente codificadas. Por outro lado, o tipo de CELP da codificação do domínio de tempo tem a função de LTP que pode se beneficiar muito da forte periodicidade. A descrição a seguir irá fornecer um exemplo detalhado.
[0021] Vários parâmetros são definidos em primeiro lugar. Para uma retardação de tom P, uma correlação normalizada de tom é definida frequentemente na forma matemática como
Figure img0001
[0022] Nesta equação, sw(n) é um sinal de voz ponderado, o numerador é uma correlação, e o denominador é um fator de normalização de energia. Supondo que Voicing exprime um valor de correlação normalizada de tom médio de quatro subquadros em um quadro de voz atual: Voicing = [R1(P1) + R2(P2) + R3(P3) + R4(P4)]/4. R1(P1), R2(P2), R3(P3) e R4(P4) são as quatro correlações normalizadas de tom calculadas para cada subquadro do quadro de voz atual; P1, P2, P3 e P4 para cada subquadro são os melhores candidatos de tom encontrados na faixa de tom de P = PIT_MIN a P = PIT_MAX. A correlação de tom suavizada de um quadro precedente ao quadro atual pode ser encontrada ao usar a seguinte expressão: Voicing_sm <= (3.Voicing_sm + Voicing)/4.
[0023] As diferenças de tom entre os subquadros podem ser definidas ao usar as seguintes expressões:
Figure img0002
[0024] Supondo que um sinal de áudio seja originalmente classificado como um sinal de ÁUDIO e deva ser codificado com o algoritmo de codificação do domínio da frequência tal como o algoritmo mostrado na FIG. 8. Em termos da razão da qualidade descrita acima, a classe de ÁUDIO pode ser para classe de VOZ e então ser codificada com a abordagem da codificação do domínio de tempo tal como CELP. O que segue é um exemplo de C-código para a reclassificação de sinais:
Figure img0003
[0025] Por conseguinte, a taxas de bits baixas ou médias, a qualidade perceptual de algum sinal de ÁUDIO ou sinais de música pode ser melhorada ao reclassificar os mesmos como sinais de VOZ antes da codificação. O que segue é um exemplo de C-código para a reclassificação de sinais:
Figure img0004
[0026] Os sinais de áudio podem ser codificados no domínio do tempo ou no domínio da frequência. As técnicas de áudio paramétricas de codificação do domínio de tempo tradicionais empregam a redundância inerente no sinal de voz/áudio para reduzir a quantidade de informação codificada bem como estimar os parâmetros de amostras de voz de um sinal a intervalos curtos. Esta redundância advém principalmente da repetição de formas de onda de voz a uma taxa quase periódica, e o envelope espectral de mudança lenta do sinal de voz. A redundância de forma da onda de voz pode ser considerada com respeito a vários tipos diferentes de sinal de voz, tais como de voz e sem voz. Para o discurso de voz, o sinal de voz é essencialmente periódico; no entanto, esta periodicidade pode ser variável por uma duração de um segmento de voz e a forma da onda periódica muda normalmente gradualmente de segmento a segmento. Uma codificação de voz do domínio de tempo pode se beneficiar bastante da exploração de tal periodicidade. O período de discurso com voz também é chamado de tom, e a predição do tom é normalmente chamada de Predição de Longa Duração (LTP). Tal como para o discurso sem voz, o sinal é mais parecido com um ruído aleatório e tem uma quantidade menor de predicabilidade. Os discursos com e sem voz são definidos tal como segue.
[0027] Em um ou outro caso, a codificação paramétrica pode ser usada para reduzir a redundância dos segmentos de voz ao separar o componente da excitação do sinal de voz do componente de envelope espectral. O envelope espectral de mudança lenta pode ser representado pela Codificação de Predição Linear (LPC), também chamada de Predição de Curta Duração (STP). Uma codificação de voz do domínio de tempo também pode se beneficiar muito da exploração de tal Predição de Curta Duração. A vantagem da codificação advém da taxa lenta em que os parâmetros mudam. Além disso, é raro que os parâmetros sejam significativamente diferentes dos valores mantidos dentro de alguns milissegundos. Por conseguinte, à taxa de amostragem de 8 kHz, 12,8 kHz ou 16 kHz, o algoritmo de codificação de voz é tal que a duração nominal do quadro fica na faixa de dez a trinta milissegundos. Uma duração de quadro de vinte milissegundos parece ser a escolha mais comum. Em padrões bem conhecidos mais recentes tais como G.723.1, G.729, G.718, EFR, SMV, AMR, VMR-WB ou AMR-WB, a Técnica de Predição Linear Excitada por Código ("CELP") foi adotada; a CELP é compreendida normalmente como uma combinação técnica de Excitação Codificada, Predição de Longa Duração e Predição de Curta Duração. A Codificação de Voz de Predição Linear Excitada por Código (CELP) é um princípio muito popular do algoritmo na área da compressão de voz embora os detalhes de CELP para codecs diferentes possam ser significativamente diferentes.
[0028] A FIG. 1 ilustra um codificador de predição linear excitada por código (CELP) inicial onde um erro ponderado 109 entre um discurso sintetizado 102 e um discurso original 101 é minimizado frequentemente ao usar uma chamada abordagem de análise-por- síntese. W(z) é um filtro de ponderação de erro 110. 1/B(z) é um filtro de predição linear de longa duração 105; 1/A(z) é um filtro de predição linear de curta duração 103. A excitação codificada 108, que também é chamada de excitação de livro de código fixa, é escalada por um ganho GC 107 antes de passar através dos filtros lineares. O filtro linear de curta duração 103 é obtido ao analisar o sinal original 101, que pode ser representado pelo seguinte conjunto de coeficientes:
Figure img0005
[0029] O filtro de ponderação 110 é relacionado um pouco ao filtro de predição de curta duração acima. Um filtro de ponderação da modalidade é representado pela seguinte equação: W(z) = A(z/a)/1 - β.z-1, onde β<α, 0<β<1, 0<a<1. A predição de longa duração 105 depende do tom e do ganho do tom. Um tom pode ser estimado a partir do sinal original, de um sinal residual ou de um sinal original ponderado. A função de predição de longa duração principal pode ser expressa tal como segue: B(z) = 1 - gp.z-Pitch
[0030] A excitação codificada 108 compreende normalmente um sinal parecido com pulso ou um sinal parecido com ruído, que pode ser matematicamente construído ou conservado em um livro de código. Finalmente, o índice de excitação codificado, o índice de ganho quantificado, o índice de parâmetro de predição de longa duração quantificado e o índice de parâmetro de predição de curta duração quantificado são transmitidos ao decodificador.
[0031] A FIG. 2 ilustra um decodificador inicial, que adiciona um bloco pós-processamento 207 após um discurso sintetizado 206. O decodificador é uma combinação de vários blocos incluindo uma excitação codificada 201, uma predição de longa duração 203, uma predição de curta duração 205 e um pós-processamento 207. Os blocos 201, 203 e 205 são configurados similarmente aos blocos correspondentes 101, 103 e 105 do codificador da FIG. 1. O pós- processamento também pode consistir no pós-processamento de curta duração e no pós-processamento de longa duração.
[0032] A FIG.3 mostra um codificador básico de CELP que realizou a predição linear de longa duração ao usar um livro de código adaptável 307 a contendo uma excitação sintetizada antiga 304 ou repetindo o ciclo de tom de excitação antigo no período do tom. A retardação do tom pode ser codificada em um valor de número inteiro quando é grande ou longa; a retardação do tom é codificada frequentemente em um valor fracionário mais preciso quando é pequena ou curta. A informação periódica do tom é empregada para gerar o componente de excitação adaptável. Este componente da excitação é então escalado por um ganho Gp 305 (também chamado de ganho do tom). Os dois componentes de excitação escalados são adicionados juntos antes de passar através do filtro de predição linear de curta duração 303. Os dois ganhos (Gp e Gc) precisam ser quantificados e então enviados a um decodificador.
[0033] A FIG. 4 mostra um decodificador básico que corresponde ao codificador na FIG. 3, o qual adiciona um bloco de pós- processamento 408 após um discurso sintetizado 407. Este decodificador é similar àquele mostrado na FIG. 2, com exceção de sua inclusão do livro de código adaptável 307. O decodificador é uma combinação de vários blocos que são a excitação codificada 402, o livro de código adaptável 401, a predição de curta duração 406 e o pós- processamento 408. Cada bloco exceto o pós-processamento tem a mesma definição que é descrita no codificador da FIG. 3. O pós- processamento também pode consistir no pós-processamento de curta duração e no pós-processamento de longa duração.
[0034] A Predição de Longa Duração pode desempenhar um papel importante para a codificação de discurso com voz porque o discurso com voz tem uma forte periodicidade. Os ciclos adjacentes do tom de discurso com voz são similares, o que significa que matematicamente o ganho do tom Gp na seguinte excitação expressa é elevado ou próximo de 1 quando expresso tal como segue: e(n) = Gp . ep(n) + Gc.ec(n), onde ep(n) é um subquadro da série de amostra indexada por n, preveniente do livro de código adaptável 307 que compreende a excitação antiga 304; ep(n) pode ser adaptavelmente filtrado com passagem de baixa frequência uma vez que a área de baixa frequência é frequentemente mais periódica ou mais harmônica do que área de alta frequência. ec(n) é do livro de código de excitação codificado 308 (também chamado de livro de código fixo) que é uma contribuição da excitação atual; ec(n) também pode ser realçado como um realce de filtragem de passagem de alta frequência, realce do tom, realce da dispersão, realce do formador, etc. Para o discurso com voz, a contribuição de ep(n) do livro de código adaptável pode ser dominante e o ganho de tom Gp 305 fica em torno de um valor igual a 1. A excitação é geralmente atualizada para cada subquadro. O tamanho típico do quadro é de 20 milissegundos (ms) e o tamanho típico do subquadro é de 5 milissegundos.
[0035] Para o discurso com voz, um quadro contém tipicamente mais de 2 ciclos de tom. A FIG. 5 mostra um exemplo em que o período de tom 503 é menor do que o tamanho de subquadro 502. A FIG. 6 mostra um exemplo em que o período de tom 603 é maior do que o tamanho de subquadro 602 e menor do que o meio tamanho de quadro. Tal como mencionado acima, a CELP é usada frequentemente para codificar o sinal de voz ao se beneficiar das características de voz humanas específicas ou do modelo de produção de voz vocal humano. O algoritmo de CELP é uma tecnologia muito popular que é usada em vários padrões ITU-T, MPEG, 3GPP e 3GPP2. A fim de codificar o sinal de voz mais eficientemente, o sinal de voz pode ser classificado em classes diferentes e cada classe é codificada de uma maneira diferente. Por exemplo, em alguns padrões tais como G.718, VMR-WB ou AMR- WB, o sinal de voz é classificado como SEM VOZ, DE TRANSIÇÃO, GENÉRICO, COM VOZ e RUÍDO. Para cada classe, o filtro de LPC ou de STP pode ser usado para representar o envelope espectral; mas a excitação para o filtro de LPC pode ser diferente. SEM VOZ e RUÍDO podem ser codificados com uma excitação de ruído e algum realce da excitação. A TRANSIÇÃO pode ser codificada com uma excitação de pulso e algum realce da excitação sem usar o livro de código adaptável ou LTP. GENÉRICO pode ser codificado com uma abordagem tradicional de CELP tal como CELP Algébrica usada em G.729 ou AMR- WB, em que um quadro de 20 ms contém quatro subquadros de 5 ms, ambos o componente adaptável de excitação do livro de código e o componente fixo de excitação do livro de código são produzidos com algum realce da excitação para cada subquadro, retardações de tom para o livro de código adaptável no primeiro e no terceiro subquadros são codificadas em uma faixa completa de um limite de tom mínimo PIT_MIN a um limite de tom máximo PIT_MAX, e retardações de tom para o livro de código adaptável no segundo e no quarto subquadros são codificados de maneira distinta da retardação de tom codificada precedente. COM VOZ pode ser codificado de uma maneira ligeiramente diferente de GENÉRICO, em que a retardação do tom no primeiro subquadro é codificada em uma faixa completa de um limite de tom mínimo PIT_MIN a um limite de tom máximo PIT_MAX, e as retardações do tom nos outros subquadros são codificadas de modo distinto da retardação de tom codificada precedente; supondo que a taxa de amostragem da excitação é de 12,8 kHz, o valor de PIT_MIN exemplificador pode ser 34 ou mais curto; e PIT_MAX pode ser 231.
[0036] No sistema de comunicação de sinal digital de áudio/voz moderno, um sinal digital é comprimido em um codificador, e a informação comprimida ou a corrente de bits podem ser compactadas e enviadas a um quadro do decodificador pelo quadro através de um canal de comunicação. O codificador e o decodificador combinados são indicados frequentemente como um codec. A compressão de voz/áudio pode ser usada para reduzir o número de bits que representam o sinal de voz/áudio, reduzindo desse modo a taxa da largura de faixa e/ou bits necessária para a transmissão. De modo geral, uma taxa de bits mais elevada irá resultar em uma qualidade de áudio mais elevada, ao tom que uma taxa de bits mais baixa irá resultar em uma qualidade de áudio mais baixa.
[0037] A codificação de áudio com base na tecnologia de banco de filtros é usado amplamente. No processamento de sinal, um banco de filtros é um conjunto de filtros de passagem de faixa que separa o sinal de entrada em componentes múltiplos, cada um dos quais contém uma única sub-banda de frequência do sinal de entrada original. O processo de decomposição executado pelo banco de filtros é chamado de análise, e a saída da análise do banco de filtros é indicada como um sinal de sub-banda que tem tantas sub-bandas quanto filtros no banco de filtros. O processo de reconstrução é chamado de síntese do banco de filtros. No processamento de sinal digital, o termo banco de filtros também é aplicado normalmente a um banco de receptores, que também pode converter para baixo as sub-bandas a uma frequência central baixa que pode ser reamostrada a uma taxa reduzida. O mesmo resultado sintetizado também pode às vezes ser obtido pela sub-amostragem das sub-bandas de passagem de faixa. A saída da análise do banco de filtros pode estar em uma forma de coeficientes complexos; em que cada coeficiente complexo que tem um elemento real e um elemento imaginário representa respectivamente um termo do coseno e um termo do seno para cada sub-banda do banco de filtros.
[0038] A Análise do Banco de Filtros e a Síntese do Banco de Filtros são um tipo de par de transformação que transforma um sinal do domínio de tempo em coeficientes do domínio da frequência e transforma inversamente os coeficientes do domínio da frequência de volta em um sinal do domínio de tempo. Outras técnicas populares da análise podem ser usadas na codificação de sinal de voz/áudio, incluindo os pares da síntese baseados na transformação de Coseno/Seno, tal como a Transformação Rápida de Fourier (FFT) e a FFT inversa, A Transformação Distinta de Fourier (DFT) e a DFT inversa), a Transformação Distinta de Coseno (DCT) e a DCT inversa), bem como a DCT modificado (MDCT) e a MDCT inversa.
[0039] Na aplicação de bancos de filtros para a compressão do sinal ou a compressão de áudio do domínio da frequência, algumas frequências são perceptualmente mais importantes do que outras. Após a decomposição, as frequências perceptualmente significativas podem ser codificadas com uma definição fina, uma vez que as diferenças pequenas nessas frequências são perceptualmente visíveis para assegurar o uso de um esquema de codificação que preserva estas diferenças. Por outro lado, as frequências menos perceptualmente significativas não replicadas precisamente, portanto, um esquema de codificação mais grosseiro pode ser usado, mesmo que alguns dos detalhes mais finos sejam perdidos na codificação. Um esquema de codificação mais grosseiro típico pode ser baseado no conceito da Extensão de Largura de Faixa (BWE), também conhecida como Extensão de Faixa Elevada (HBE). Uma BWE ou abordagem de BWE específica recentemente popular é conhecida como Réplica de SubBanda (SBR) ou Replicação de Banda Espectral (SBR). Estas técnicas são similares, uma vez que elas codificam e decodificam algumas subbandas de frequência (faixas normalmente elevadas) com pouco ou nenhum orçamento da taxa de bits, resultando desse modo uma taxa de bits significativamente mais baixa do que uma abordagem de codificação/decodificação normal. Com a tecnologia de SBR, uma estrutura fina espectral na faixa de alta frequência é copiada da faixa de baixa frequência, e o ruído aleatório pode ser adicionado. Em seguida, um envelope espectral da faixa de alta frequência é formado ao usar a informação colateral transmitida do codificador ao decodificador.
[0040] O uso do princípio psicoacústico ou do efeito de mascaramento perceptual para o desenho da compressão de áudio faz sentido. O equipamento ou uma comunicação de áudio/voz se presta à interação com seres humanos, com todas as suas capacidades e limitações de percepção. O equipamento de áudio tradicional tenta reproduzir sinais com uma fidelidade máxima ao original. Um objetivo mais apropriadamente dirigido e frequentemente mais eficiente é a obtenção de uma fidelidade perceptível por seres humanos. Este é o objetivo de codificadores perceptuais. Embora um objetivo principal de codificadores de áudio perceptuais digitais seja a redução de dados, a codificação perceptual pode ser usada para melhorar a representação do áudio digital através da alocação de bits avançada. Um dos exemplos de codificadores perceptuais poderiam ser sistemas de múltiplas bandas, a divisão do espectro em uma forma que imite as faixas críticas do psicoacústica (Ballman 1991). Com a modelação da percepção humana, os codificadores perceptuais podem processar os sinais de uma maneira muito parecida com aquela dos seres humanos, e tirar vantagem de fenômenos tais como o mascaramento. Embora este seja o seu objetivo, o processo é baseado em um algoritmo exato. Devido ao fato que é difícil ter um modelo perceptual muito exato que cubra o comportamento de audição humano comum, a exatidão de toda a expressão matemática do modelo perceptual ainda é limitada. No entanto, com uma exatidão limitada, o conceito da percepção ajudou muito no desenho de codecs de áudio. Numerosos esquemas de codificação de áudio de MPEG se beneficiaram da exploração do efeito de mascaramento perceptual. Vários codecs padrão de ITU também usam o conceito perceptual; por exemplo, ITU G.729.1 executa a chamada alocação de bits dinâmica com base no conceito de mascaramento perceptual; o conceito de alocação dinâmica de bits com base na importância perceptual também é usado no codec recente de 3GPP EVS. As FIGS. 7A a 7B fornecem uma descrição resumida do codec perceptual do domínio típico da frequência. O sinal de entrada 701 é transformado primeiramente no domínio da frequência para obter os coeficientes do domínio da frequência não quantificados 702. Antes de quantificar os coeficientes, a função de mascaramento (importância perceptual) divide o espectro da frequência em muitas sub-bandas (espaçados frequentemente igualmente para fins de simplificação). Cada sub-banda aloca dinamicamente o número necessário de bits enquanto mantém o número total de bits distribuídos a todas as subbandas não além do limite superior. Alguma sub-banda aloca até mesmo 0 bit se for considerado como sob o limite de mascaramento. Uma vez que uma determinação é feita a respeito do que pode ser descartado, ao restante é alocado o número disponível de bits. Devido ao fato que os bits não são desperdiçados no espectro de mascaramento, eles podem ser distribuídos em uma quantidade maior ao restante do sinal. De acordo com os bits alocados, os coeficientes são quantificados e a corrente de bits 703 é enviada ao decodificador. Embora o conceito de mascaramento perceptual ajude muito durante o desenho do codec, ainda não é perfeito devido a várias razões e limitações; o pós-processamento do lado do decodificador (vide a FIG.7 (b)) pode melhorar ainda mais a qualidade perceptual do sinal descodificado produzido com taxas de bits limitadas. O decodificador usa primeiramente os bits recebidos 704 para reconstruir os coeficientes quantificados 705; e então eles são pós-processados por um módulo corretamente projetado 706 para obter os coeficientes realçados 707; uma transformação inversa é executada nos coeficientes realçados para ter a saída de domínio de tempo final 708.
[0041] Para a codificação de áudio de taxa de bits baixa ou média, a predição linear de curta duração (STP) e a predição linear de longa duração (LTP) podem ser combinadas com uma codificação de excitação do domínio da frequência. A FIG. 8 fornece uma descrição resumida de um sistema de codificação de áudio de taxa de bits baixa ou média. O sinal original 801 é analisado pela predição de curta duração e pela predição de longa duração para obter um filtro quantificado de STP e o filtro de LTP; os parâmetros quantificados do filtro de STP e do filtro de LTP são transmitidos de um codificador a um decodificador; no codificador, o sinal 801 é filtrado pelo filtro de STP inverso e pelo filtro de LTP para obter um sinal de excitação de referência 802. Uma codificação do domínio da frequência é executada no sinal de excitação de referência que é transformado no domínio da frequência para obter os coeficientes não quantificados 803 do domínio da frequência. Antes de quantificar os coeficientes, o espectro da frequência é dividido frequentemente em muitas sub-bandas e uma função de mascaramento (importância perceptual) é explorada. Cada sub-banda aloca dinamicamente um número necessário de bits enquanto mantém um número total de bits distribuídos a todas as subbandas não além de um limite superior. Alguma sub-banda aloca até mesmo 0 bit se for considerado como estando sob um limite de mascaramento. Uma vez que uma determinação é feita a respeito do que pode ser descartado, ao restante é alocado o número disponível de bits. De acordo com os bits alocados, os coeficientes são quantificados e a corrente de bits 803 é enviada ao decodificador. O decodificador usa os bits recebidos 805 para reconstruir os coeficientes quantificados 806; e então eles são possivelmente pós-processados por um módulo corretamente projetado 807 para obter os coeficientes realçados 808; uma transformação inversa é executada nos coeficientes realçados para ter a excitação 809 do domínio de tempo. O sinal de saída final 810 é obtido ao filtrar a excitação 809 do domínio de tempo com um filtro de síntese de LTP e um filtro de síntese de STP.
[0042] A FIG. 9 ilustra um diagrama de blocos de um sistema de processamento que pode ser usado para executar os dispositivos e os métodos divulgados na presente invenção. Os dispositivos específicos podem utilizar todos os componentes mostrados, ou somente um subconjunto de componentes, e os níveis de integração podem variar de dispositivo a dispositivo. Além disso, um dispositivo pode conter exemplos múltiplos de um componente, tais como múltiplas unidades de processamento, processadores, memórias, transmissores, receptores, etc. O sistema de processamento pode compreender uma unidade de processamento equipada com um ou mais dispositivos de entrada/saída, tais como um alto-falante, microfone, mouse, tela de toque, keypad, teclado, impressora, monitor, e outros ainda. A unidade de processamento pode incluir uma unidade central de processamento (CPU), memória, um dispositivo de armazenamento em massa, um adaptador de vídeo, e uma interface I/O conectada a um barramento.
[0043] O barramento pode ser uma ou mais de qualquer tipo de várias arquiteturas de barramento incluindo um barramento de memória ou um controlador de memória, um barramento periférico, um barramento de vídeo, ou algo do gênero. A CPU pode compreender qualquer tipo de processador de dados eletrônico. A memória pode compreender qualquer tipo de memória de sistema tal como a memória de acesso aleatório estática (SRAM), uma memória de acesso aleatório dinâmica (DRAM), uma DRAM síncrona (SDRAM), uma memória só de leitura (ROM), uma combinação destas, ou algo do gênero. Em uma modalidade, a memória pode incluir uma ROM para o uso ao dar um boot, e a DRAM para o armazenamento de programa e dados para o uso ao executar programas.
[0044] O dispositivo de armazenamento em massa pode compreender qualquer tipo de dispositivo de armazenamento configurado para armazenar dados, programas e outras informações e para tornar os dados, os programas e outras informações acessíveis através do barramento. O dispositivo de armazenamento em massa pode compreender, por exemplo, um ou mais de um drive de estado sólido, um drive de disco rígido, um drive de disco magnético, um drive de disco óptico, ou algo do gênero.
[0045] O adaptador de vídeo e a interface de I/O fornecem interface para acoplar os dispositivos de entrada e saída externos à unidade de processamento. Tal como ilustrado, os exemplos de dispositivos de entrada e saída incluem o monitor acoplado ao adaptador de vídeo e o mouse acoplado à interface de I/O. Outros dispositivos podem ser acoplados à unidade de processamento, e cartões de interface cartões adicionais ou em menor número podem ser utilizados. Por exemplo, uma interface serial tal como o barramento serial universal (USB) (não mostrado) pode ser usada para obter uma interface para uma impressora.
[0046] A unidade de processamento também inclui uma ou mais interfaces de rede, que podem compreender ligações com fios, tais como um cabo de Ethernet ou algo do gênero, e/ou ligações sem fio para acessar nós ou redes diferentes. A interface de rede permite que a unidade de processamento se comunique com as unidades remotas através das redes. Por exemplo, a interface de rede pode prover uma comunicação sem fio através de uma ou mais transmissores/antenas de transmissão e um ou mais receptores/antenas de recepção. Em uma modalidade, a unidade de processamento é acoplada a uma rede de área local ou a uma rede de área ampla para o processamento de dados e as comunicações com os dispositivos, tais como outras unidades de processamento, Internet remota, instalações de armazenamento remoto, ou algo do gênero.
[0047] Embora a descrição seja descrita em detalhes, deve ser compreendido que várias mudanças, substituições e alterações podem ser feitas sem desviar do caráter e âmbito da presente invenção tal como definido pelas reivindicações anexas. Além disso, o âmbito da invenção não deve ser limitado às modalidades particulares aqui descritas, tal como um elemento versado na técnica irá apreciar prontamente a partir da presente descrição que processos, máquinas, manufatura, composições da matéria, meios, métodos, ou etapas, presentemente existentes ou a ser desenvolvidos posteriormente, podem desempenhar substancialmente a mesma função ou atingir substancialmente o mesmo resultado que as modalidades correspondentes aqui descritas. Por conseguinte, as reivindicações anexas se prestam a incluir dentro de seu âmbito tais processos, máquinas, manufatura, composições da matéria, meios, métodos ou etapas.

Claims (14)

1. Método para codificar sinais, o método caracterizado pelo fato de que compreende as etapas de: receber, por um codificador de áudio, um sinal digital que compreende dados de áudio, em que os dados de áudio incluem dados sons de voz e de que não são de voz; classificar, pelo codificador de áudio, o sinal digital como um sinal de ÁUDIO com base nos dados de áudio no sinal digital; determinar, pelo codificador de áudio, se condições de classificação são satisfeitas, em que as condições de classificação incluem: diferenças de tom entre subquadros no sinal digital são menos que um primeiro limite, uma taxa de codificação do sinal digital está abaixo de um segundo limite, um valor de correlação de tom normalizado médio para os subquadros no sinal digital é maior do que um terceiro limite e uma correlação de tom suavizada obtida de acordo com o valor de correlação de tom normalizado médio é maior do que um quarto limite, em que cada uma das diferenças de tom é um valor absoluto da diferença entre dois valores de tom correspondendo a dois subquadros respectivamente; reclassificar, pelo codificador de áudio, o sinal digital como um sinal de VOZ quando as condições de classificação são satisfeitas; codificar, pelo codificador de áudio, o sinal digital no domínio de tempo se o sinal digital é classificado como um sinal de VOZ, e codificar, pelo codificador de áudio, o sinal digital no domínio de frequência se o sinal digital é classificado como um sinal de ÁUDIO.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o valor de correlação de tom normalizado médio para os subquadros no sinal digital é obtido por: determinar um valor de correlação de tom normalizado para cada subquadro no sinal digital; e dividir a soma de todos os valores de correlação de tom normalizado pelo número dos subquadros no sinal digital para obter o valor de correlação de tom normalizado médio.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o sinal digital porta dados que não são de voz.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o sinal digital porta dados de música.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o número de subquadros é quatro, as diferenças de tom compreendem a primeira diferença de tom dpit1, a segunda diferença de tom dpit2, e a terceira diferença de tom dpit3, em que, a dpitl, a dpit2 e a dpit3 são calculadas como segue: dpitl = |P1 - P2|, dpit2 = |P2 - P3|, dpit3 = |P3 - P4| , em que P1, P2, P3 e P4 são 4 valores de tom correspondendo aos subquadros respectivamente; em conformidade, e em que a condição de classificação que as diferenças de tom entre os subquadros no sinal digital são menos que um limite compreende: todas das dpit1, dpit2 e dpit3 são menos que o primeiro limite.
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que, P1, P2, P3 e P4 são os melhores valores de tom encontrados em uma faixa de tons a partir de um limite de tom mínimo PIT_MIN até um limite de tom máximo PIT_MAX para cada subquadro.
7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a correlação de tom suavizada a partir de um quadro anterior para um atual é obtida pela seguinte fórmula: Voicing_sm = (3*(Voicing_sm) + Voicing)/4; em que, o Voicing_sm do lado esquerdo da fórmula denota a correlação de tom suavizada do quadro atual, o Voicing_sm do lado direito da fórmula denota a correlação de tom suavizada do quadro anterior e Voicing denota o valor de correlação de tom normalizado médio para os subquadros no sinal digital.
8. Codificador de áudio, caracterizado pelo fato de que compreende: pelo menos um processador; e um meio de armazenamento que pode ser lido por computador que armazena programação para execução pelo pelo menos um processador, a programação incluindo instruções para: receber um sinal digital que compreende dados de áudio, em que os dados de áudio incluem dados sons de voz e de que não são de voz; classificar o sinal digital como um sinal de ÁUDIO com base nos dados de áudio no sinal digital; determinar se condições de classificação são satisfeitas, em que as condições de classificação incluem: diferenças de tom entre subquadros no sinal digital são menos que um primeiro limite, uma taxa de codificação do sinal digital está abaixo de um segundo limite, um valor de correlação de tom normalizado médio para os subquadros no sinal digital é maior do que um terceiro limite e uma correlação de tom suavizada obtida de acordo com o valor de correlação de tom normalizado médio é maior do que um quarto limite; em que cada uma das diferenças de tom é um valor absoluto da diferença entre dois valores de tom correspondendo a dois subquadros respectivamente; reclassificar o sinal digital como um sinal de VOZ quando as condições de classificação são satisfeitas; codificar o sinal digital no domínio de tempo se o sinal digital é classificado como um sinal de VOZ, e codificar o sinal digital no domínio de frequência se o sinal digital é classificado como um sinal de ÁUDIO.
9. Codificador, de acordo com a reivindicação 8, caracterizado pelo fato de que as instruções para determinar um valor de correlação de tom normalizado médio para os subquadros no sinal digital inclui instruções para: determinar um valor de correlação de tom normalizado para cada subquadro no sinal digital; e dividir a soma de todos os valores de correlação de tom normalizado pelo número dos subquadros no sinal digital para obter o valor de correlação de tom normalizado médio.
10. Codificador, de acordo com a reivindicação 8, caracterizado pelo fato de que o sinal digital porta dados que não são de voz.
11. Codificador, de acordo com a reivindicação 8, caracterizado pelo fato de que o sinal digital porta dados de música.
12. Codificador, de acordo com a reivindicação 8, caracterizado pelo fato de que o número de subquadros é quatro, as diferenças de tom compreendem a primeira diferença de tom dpit1, a segunda diferença de tom dpit2, a terceira diferença de tom dpit3, em que, a dpitl, a dpit2 e a dpit3 são calculadas como segue: dpitl = |P1 - P2|, dpit2 = |P2 - P3|, dpit3 = |P3 - P4|, em que P1, P2, P3 e P4 são 4 valores de tom correspondendo aos subquadros respectivamente; em conformidade, e em que a condição de classificação que as diferenças de tom entre os subquadros no sinal digital são menos que um limite compreende: todas das dpit1, dpit2 e dpit3 são menos que o primeiro limite.
13. Codificador, de acordo com a reivindicação 12, caracterizado pelo fato de que, P1, P2, P3 e P4 são os melhores valores de tom encontrados em uma faixa de tons a partir de um limite de tom mínimo PIT_MIN até um limite de tom máximo PIT_MAX para cada subquadro.
14. Codificador, de acordo com a reivindicação 8, caracterizado pelo fato de que a correlação de tom suavizada a partir de um quadro anterior para um atual é obtida pela seguinte fórmula: Voicing_sm = (3*(Voicing_sm) + Voicing)/4; em que, o Voicing_sm do lado esquerdo da fórmula denota a correlação de tom suavizada do quadro atual, o Voicing_sm do lado direito da fórmula denota a correlação de tom suavizada do quadro anterior e Voicing denota o valor de correlação de tom normalizado médio para os subquadros no sinal digital.
BR112015005980-5A 2012-09-18 2013-09-18 Método para codificar sinais e codificador de áudio BR112015005980B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261702342P 2012-09-18 2012-09-18
US61/702,342 2012-09-18
US14/027,052 US9589570B2 (en) 2012-09-18 2013-09-13 Audio classification based on perceptual quality for low or medium bit rates
US14/027,052 2013-09-13
PCT/CN2013/083794 WO2014044197A1 (en) 2012-09-18 2013-09-18 Audio classification based on perceptual quality for low or medium bit rates

Publications (2)

Publication Number Publication Date
BR112015005980A2 BR112015005980A2 (pt) 2017-07-04
BR112015005980B1 true BR112015005980B1 (pt) 2021-06-15

Family

ID=50275348

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015005980-5A BR112015005980B1 (pt) 2012-09-18 2013-09-18 Método para codificar sinais e codificador de áudio

Country Status (9)

Country Link
US (3) US9589570B2 (pt)
EP (2) EP3296993B1 (pt)
JP (3) JP6148342B2 (pt)
KR (2) KR101705276B1 (pt)
BR (1) BR112015005980B1 (pt)
ES (1) ES2870487T3 (pt)
HK (2) HK1245988A1 (pt)
SG (2) SG10201706360RA (pt)
WO (1) WO2014044197A1 (pt)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104321814B (zh) * 2012-05-23 2018-10-09 日本电信电话株式会社 频域基音周期分析方法和频域基音周期分析装置
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
EP2830054A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
US9685166B2 (en) * 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
WO2023153228A1 (ja) * 2022-02-08 2023-08-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、及び、符号化方法

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3708597A (en) * 1996-08-02 1998-02-25 Matsushita Electric Industrial Co., Ltd. Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6694293B2 (en) 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7783488B2 (en) * 2005-12-19 2010-08-24 Nuance Communications, Inc. Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
CN101256772B (zh) 2007-03-02 2012-02-15 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
KR100925256B1 (ko) 2007-05-03 2009-11-05 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
US8185388B2 (en) * 2007-07-30 2012-05-22 Huawei Technologies Co., Ltd. Apparatus for improving packet loss, frame erasure, or jitter concealment
US8473283B2 (en) * 2007-11-02 2013-06-25 Soundhound, Inc. Pitch selection modules in a system for automatic transcription of sung or hummed melodies
ES2684297T3 (es) 2008-07-11 2018-10-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Método y discriminador para clasificar diferentes segmentos de una señal de audio que comprende segmentos de voz y música
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
US8185384B2 (en) * 2009-04-21 2012-05-22 Cambridge Silicon Radio Limited Signal pitch period estimation
KR20120032444A (ko) * 2010-09-28 2012-04-05 한국전자통신연구원 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
PL2633521T3 (pl) 2010-10-25 2019-01-31 Voiceage Corporation Kodowanie zwykłych sygnałów audio przy małych przepływnościach bitowych i małym opóźnieniu
TWI488176B (zh) * 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
US9542149B2 (en) * 2011-11-10 2017-01-10 Nokia Technologies Oy Method and apparatus for detecting audio sampling rate
ES2656022T3 (es) * 2011-12-21 2018-02-22 Huawei Technologies Co., Ltd. Detección y codificación de altura tonal muy débil
CN104254886B (zh) * 2011-12-21 2018-08-14 华为技术有限公司 自适应编码浊音语音的基音周期
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US9685166B2 (en) * 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding

Also Published As

Publication number Publication date
HK1206863A1 (en) 2016-01-15
HK1245988A1 (zh) 2018-08-31
JP2017156767A (ja) 2017-09-07
JP6148342B2 (ja) 2017-06-14
EP2888734A1 (en) 2015-07-01
WO2014044197A1 (en) 2014-03-27
KR101801758B1 (ko) 2017-11-27
US11393484B2 (en) 2022-07-19
EP2888734B1 (en) 2017-11-15
EP3296993A1 (en) 2018-03-21
US9589570B2 (en) 2017-03-07
SG10201706360RA (en) 2017-09-28
JP6843188B2 (ja) 2021-03-17
KR101705276B1 (ko) 2017-02-22
US10283133B2 (en) 2019-05-07
KR20170018091A (ko) 2017-02-15
JP2015534109A (ja) 2015-11-26
EP2888734A4 (en) 2015-11-04
BR112015005980A2 (pt) 2017-07-04
JP2019174834A (ja) 2019-10-10
SG11201502040YA (en) 2015-04-29
US20190237088A1 (en) 2019-08-01
EP3296993B1 (en) 2021-03-10
ES2870487T3 (es) 2021-10-27
US20170116999A1 (en) 2017-04-27
JP6545748B2 (ja) 2019-07-17
KR20150055035A (ko) 2015-05-20
US20140081629A1 (en) 2014-03-20

Similar Documents

Publication Publication Date Title
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
EP3039676B1 (en) Adaptive bandwidth extension and apparatus for the same
JP6545748B2 (ja) 低または中ビットレートに対する知覚品質に基づくオーディオ分類
KR102007972B1 (ko) 스피치 처리를 위한 무성음/유성음 결정

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B09W Correction of the decision to grant [chapter 9.1.4 patent gazette]

Free format text: O PRESENTE PEDIDO TEVE UM PARECER DE DEFERIMENTO NOTIFICADO NA RPI NO 2622 DE06-04-2021, TENDO SIDO CONSTATADO QUE ESTA NOTIFICACAO FOI EFETUADA COM INCORRECOES NO QUADRO01 (NUMERO DAS PAGINAS E PETICAO), ASSIM RETIFICA-SE A REFERIDA PUBLICACAO.

B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 18/09/2013, OBSERVADAS AS CONDICOES LEGAIS.