BR112015013233B1 - dispositivo e método de codificação de voz/áudio - Google Patents

dispositivo e método de codificação de voz/áudio Download PDF

Info

Publication number
BR112015013233B1
BR112015013233B1 BR112015013233-2A BR112015013233A BR112015013233B1 BR 112015013233 B1 BR112015013233 B1 BR 112015013233B1 BR 112015013233 A BR112015013233 A BR 112015013233A BR 112015013233 B1 BR112015013233 B1 BR 112015013233B1
Authority
BR
Brazil
Prior art keywords
groups
group
dominant
voice
bands
Prior art date
Application number
BR112015013233-2A
Other languages
English (en)
Other versions
BR112015013233B8 (pt
BR112015013233A2 (pt
Inventor
Zongxian Liu
Srikanth Nagisetty
Masahiro Oshikiri
Original Assignee
Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung filed Critical Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung
Publication of BR112015013233A2 publication Critical patent/BR112015013233A2/pt
Publication of BR112015013233B1 publication Critical patent/BR112015013233B1/pt
Publication of BR112015013233B8 publication Critical patent/BR112015013233B8/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

"DISPOSITIVO DE CODIFICAÇÃO DE VOZ E ÁUDIO, DISPOSITIVO DE DECODIFICAÇÃO DE VOZ E ÁUDIO, MÉTODO DE CODIFICAÇÃO DE VOZ E ÁUDIO E MÉTODO DE DECODIFICAÇÃO DE VOZ E ÁUDIO".A presente invenção refere-se a um dispositivo de codificação de voz e áudio, a um dispositivo de decodificação de voz e áudio, a um método de codificação de voz e áudio e a um método de decodificação de voz e áudio que realiza, de maneira eficiente, a distribuição de bit e melhora a qualidade do som. A unidade de identificação de banda de frequência dominante (301) identifica uma banda de frequência dominante que tem um valor de fator de norma que é o valor máximo dentro do espectro de um sinal de áudio e voz de entrada. As unidades de determinação de grupo dominante (302-1 a 302-N) e a unidade de determinação de grupo não dominante (303) agrupam todas as sub-bandas em um grupo dominante que contém a banda de frequência dominante e um grupo não dominante que não contém banda de frequência dominante. A unidade de distribuição de bit de grupo (308) distribui os bits para cada grupo com base na energia e na variância de norma de cada grupo. A unidade de distribuição de bit de sub-banda (309) distribui novamente os bits que foram distribuídos para cada grupo para cada sub-banda de acordo com a razão entre a norma para a energia dos grupos.

Description

Campo Técnico
[0001] A presente invenção refere-se a um aparelho de codifica ção de voz/áudio, a um aparelho de decodificação de voz/áudio, a um método de codificação de voz/áudio e a um método de decodificação de voz/áudio com o uso de um esquema de codificação de transformação.
Técnica Antecedente
[0002] Como um esquema capaz de codificar de maneira eficiente um sinal de voz ou um sinal de música em uma banda completa (FB) de 0,02 a 20 kHz, há uma técnica padronizada em ITU-T (setor de padronização de telecomunicação de união de telecomunicação internacional). Essa técnica transforma um sinal de entrada em um sinal de domínio de frequência e codifica uma banda de até 20 kHz (codificação de transformação).
[0003] Aqui, codificação de transformação é um esquema de codi ficação que transforma um sinal de entrada a partir de um domínio de tempo em um domínio de frequência com o uso de transformação de tempo/frequência, como a transformação de cosseno distinto (DCT) ou transformação de cosseno distinto modificada (MDCT) para permitir que um sinal seja mapeado em correspondência precisa com características auditivas.
[0004] Na codificação de transformação, um coeficiente espectral é dividido em uma pluralidade de sub-bandas de frequência. Na codificação de cada sub-banda, a alocação de mais bits de quantização para uma banda que é perceptualmente importante os ouvidos humanos possibilitam melhorar a qualidade geral do som.
[0005] A fim de alcançar esse objetivo, os estudos são realizados quanto aos esquemas de alocação de bit eficientes e, por exemplo, uma técnica apresentada na literatura de não patente (mais adiante neste documento, chamada de "NPL") 1 é conhecida. Mais adiante neste documento, o esquema de alocação de bit apresentado na literatura de patente (mais adiante neste documento, chamada de "PTL") 1 será descrito com o uso da figura 1 e da figura 2.
[0006] A figura 1 é um diagrama de blocos que ilustra uma confi guração de um aparelho de codificação de voz/áudio apresentado em PTL 1. Um sinal de entrada com amostra em 48 kHz é inserido no detector temporário 11 e na seção de transformação 12 do aparelho de codificação de voz/áudio.
[0007] O detector temporário 11 detecta, a partir do sinal de entra da, ou um quadro temporário que corresponde a uma borda anterior ou uma borda posterior de voz ou um quadro estacionário que corresponde a uma seção de voz além daquela, e a seção de transformação 12 aplica, ao quadro do sinal de entrada, a transformação de resolução de alta frequência ou a transformação de resolução de baixa frequência dependendo de se o quadro detectado pelo detector temporário 11 é um quadro temporário ou um quadro estacionário, e adquires um coeficiente espectral (ou coeficiente de transformação).
[0008] A seção de avaliação de norma 13 divide o coeficiente es pectral obtido na seção de transformação 12 em bandas de diferentes larguras de banda. A seção de avaliação de norma 13 avalia uma norma (ou energia) de cada banda dividida.
[0009] A seção de quantização de norma 14 determina um enve lope espectral constituído pelas normas de todas as bandas com base na norma de cada banda avaliada pela seção de avaliação de norma 13 e quantiza o envelope espectral determinado.
[0010] A seção de normalização de espectro 15 normaliza o coefi ciente espectral obtido pela seção de transformação 12 de acordo com a norma quantizada pela seção de quantização de norma 14.
[0011] A seção de ajuste de norma 16 ajusta a norma quantizada pela seção de quantização de norma 14 com base na ponderação espectral adaptiva.
[0012] A seção de alocação de bit 17 aloca os bits disponíveis pa ra cada banda em um quadro com o uso da norma de quantização ajustada pela seção de ajuste de norma 16.
[0013] A seção de codificação de vetor de retícula 18 realiza a co dificação de vetor de retícula no coeficiente espectral normalizado pela seção de normalização de espectro 15 com o uso de bits alocados para cada banda pela seção de alocação de bit 17.
[0014] A seção de ajuste de nível de ruído 19 avalia o nível do co eficiente espectral antes da codificação na seção de codificação de vetor de retícula 18 e codifica o nível avaliado. Um índice de ajuste de nível de ruído é obtido dessa maneira.
[0015] O multiplexador 20 multiplexa uma configuração de quadro do sinal de entrada adquirido pela seção de transformação 12, ou seja, uma sinalização de sinal temporário que indica se o quadro é um quadro estacionário ou quadro temporário, a norma quantizada pela seção de quantização de norma 14, o vetor de codificação de retícula obtido pela seção de codificação de vetor de retícula 18 e o índice de ajuste de nível de ruído obtido pela seção de ajuste de nível de ruído 19, e forma uma corrente de bit e transmite a corrente de bit a um aparelho de decodificação de voz/áudio.
[0016] A figura 2 é um diagrama de blocos que ilustra uma confi guração do aparelho de decodificação de voz/áudio apresentado em PTL 1. O aparelho de decodificação de voz/áudio recebe a corrente de bit transmitido a partir do aparelho de codificação de voz/áudio e de- multiplexador 21 demultiplexa a corrente de bit.
[0017] A seção de desquantização de norma 22 desquantiza a norma quantizada, adquire um envelope espectral constituído por normas de todas as bandas, e a seção de ajuste de norma 23 ajusta a norma desquantizada pela seção de desquantização de norma 22 com base na ponderação espectral adaptiva.
[0018] A seção de alocação de bit 24 aloca os bits disponíveis pa ra cada banda em um quadro com o uso das normas ajustadas pela seção de ajuste de norma 23. Ou seja, a seção de alocação de bit 24 calcula novamente a alocação de bit indispensável para decodificar o código de vetor de retícula do coeficiente espectral normalizado.
[0019] A seção de decodificação de retícula 25 decodifica uma si nalização de sinal temporário, decodifica o vetor de codificação de re- tícula com base em uma configuração de quadro indicada pela sinalização de sinal temporário decodificado e os bits alocados pela seção de alocação de bit 24 e adquire um coeficiente espectral.
[0020] O gerador de preenchimento espectral 26 gera novamente um coeficiente espectral de baixa frequência ao qual nenhum bit foi alocado com o uso de um livro-código criado com base no coeficiente espectral decodificado pela seção de decodificação de retícula 25. O gerador de preenchimento espectral 26 ajusta o nível do coeficiente espectral gerado novamente com o uso de um índice de ajuste de nível de ruído. Além disso, o gerador de preenchimento espectral 26 gera novamente um coeficiente espectral de alta frequência com o uso de um coeficiente espectral codificado de baixa frequência.
[0021] O adicionador 27 adiciona até o coeficiente espectral deco dificado e o coeficiente espectral gerado novamente, e gera um coeficiente espectral normalizado.
[0022] A seção de formação de envelope 28 aplica o envelope es pectral desquantizado pela seção de desquantização de norma 22 ao coeficiente espectral normalizado gerado pelo adicionador 27 e gera um coeficiente espectral de banda completa.
[0023] A seção de transformação inversa 29 aplica a transforma- ção inversa, como a transformação de cosseno distinto modificada inversa (IMDCT) ao coeficiente espectral de banda completa gerado pela seção de formação de envelope 28 para transformá-lo em um sinal de domínio de tempo. Aqui, a transformação inversa com resolução de alta frequência é aplicada a um caso com um quadro estacionário e a transformação inversa com resolução de baixa frequência é aplicada a um caso com um quadro temporário.
[0024] Em G.719, os coeficientes espectrais são divididos em gru pos de espectro. Cada grupo de espectro é dividido em bandas de subvetores de comprimento igual conforme mostrado na figura 3. Os subvetores são diferentes em comprimento a partir de um grupo para outro e esse comprimento aumenta à medida que a frequência aumenta. Com relação à resolução de transformação, a resolução de frequência mais alta é usada para baixas frequências, enquanto a resolução de frequência mais baixa é usada para altas frequências. Conforme descrito em G.719, o agrupamento permite um uso eficiente de "bit-budget" disponível durante a codificação.
[0025] Em G.719, o esquema de alocação de bit é idêntico em um aparelho de codificação e um aparelho de decodificação. Aqui, o esquema de alocação de bit será descrito com o uso da figura 4.
[0026] Conforme mostrado na figura 4, na etapa (mais adiante neste documento abreviada como “ST”) 31, as normas quantizadas são ajustadas antes da alocação de bit para ajustar os efeitos de ponderação e mascaramento psicoacústico.
[0027] Na ST32, as sub-bandas que têm uma norma máxima são identificadas dentre todas as sub-bandas e na ST33, um bit é alocado para cada coeficiente espectral para as sub-bandas que têm a norma máxima. Ou seja, o máximo de bits como coeficientes espectrais são alocados.
[0028] Na ST34, as normas são reduzidas de acordo com os bits alocados, e na ST35, determina-se se o número restante de bits que podem ser alocados é 8 ou mais. Quando o número de bits que podem ser alocados é de 8 ou mais, o fluxo retorna para ST32 e quando o número restante de bits que podem ser alocados é inferior a 8, o processo de alocação de bits é terminado.
[0029] Assim, no esquema de alocação de bit, os bits disponíveis dentro de um quadro são alocados entre as sub-bandas com o uso das normas de quantização ajustadas. Os coeficientes espectrais normalizados são codificados pela codificação de vetor de retícula com o uso dos bits alocados para cada sub-banda. Lista de Citação Literatura de Patente NPL 1
[0030] Recomendação ITU-T G.719, “Low-complexity full-band au dio coding for high-quality conversational applications”, ITU-T, 2009.
Sumário da Invenção Problema Técnico
[0031] No entanto, o esquema de alocação de bit acima não con sidera as características de sinal de entrada de consideração ao agrupar as bandas de espectro e, portanto, tem um problema pelo fato de que a alocação de bit eficiente não é possível e o aprimoramento adicional de qualidade de som não pode ser esperado.
[0032] Um objetivo da presente invenção é fornecer um aparelho de codificação de voz/áudio, um aparelho de decodificação de voz/áudio, um método de codificação de voz/áudio e um método de decodificação de voz/áudio capaz de realizar a alocação de bit eficiente e aprimorar a qualidade de som.
Solução para o Problema
[0033] Um aparelho de codificação de voz/áudio da presente in venção inclui: uma seção de transformação que transforma um sinal de entrada a partir de um domínio de tempo em um domínio de frequência; uma seção de avaliação que avalia um envelope de energia que representa um nível de energia para cada de uma pluralidade de sub-bandas obtido pela divisão de um espectro de frequência do sinal de entrada; uma seção de quantização que quantiza os envelopes de energia; uma seção de determinação de grupo que agrupa os envelopes de energia quantizados em uma pluralidade de grupos; uma primeira seção de alocação de bit que aloca os bits para a pluralidade de grupos; uma segunda seção de alocação de bit que aloca os bits alocados para a pluralidade de grupos para as sub-bandas de grupo em grupo; e uma seção de codificação que codifica o espectro de frequência com o uso de bits alocados para as sub-bandas.
[0034] Um aparelho de decodificação de voz/áudio de acordo com a presente invenção inclui: uma seção de desquantização que des- quantiza um envelope espectral quantizado; uma seção de determinação de grupo que agrupa os envelopes espectrais quantizados em uma pluralidade de grupos; uma primeira seção de alocação de bit que aloca os bits para a pluralidade de grupos; uma segunda seção de alocação de bit que aloca os bits alocados para a pluralidade de grupos para as sub-bandas de grupo em grupo; uma seção de decodifica- ção que decodifica um espectro de frequência d um sinal de voz/áudio com o uso de os bits alocados para a sub-bandas; uma seção de formação de envelope que aplica o envelope espectral desquantizado ao espectro de frequência decodificado e reproduz um espectro decodificado; e uma seção de transformação inversa que transforma de maneira inversa o espectro decodificado a partir de um domínio de frequência para um domínio de tempo.
[0035] Um método de codificação de voz/áudio de acordo com a presente invenção inclui: transformar um sinal de entrada a partir de um domínio de tempo para um domínio de frequência; avaliar um en velope de energia que representa um nível de energia para cada de uma pluralidade de sub-bandas obtido pela divisão de um espectro de frequência do sinal de entrada; quantizar os envelopes de energia; agrupar os envelopes de energia quantizados em uma pluralidade de grupos; alocar os bits para a pluralidade de grupos; alocar os bits alocados para a pluralidade de grupos para as sub-bandas de grupo em grupo; e codificar o espectro de frequência com o uso de bits alocados para as sub-bandas.
[0036] Um método de decodificação de voz/áudio de acordo com a presente invenção inclui: desquantizar um envelope espectral quanti- zado; agrupar o envelope espectral quantizado em uma pluralidade de grupos; alocar os bits para a pluralidade de grupos; alocar os bits alocados para a pluralidade de grupos para as sub-bandas de grupo em grupo; decodificar um espectro de frequência de um sinal de voz/áudio com o uso de os bits alocados para a sub-bandas; aplicar o envelope espectral desquantizado ao espectro de frequência decodificado e re-produzir um espectro decodificado; e transformar de maneira inversa o espectro decodificado a partir de um domínio de frequência em um domínio de tempo.
Efeitos Vantajosos da Invenção
[0037] De acordo com a presente invenção, é possível realizar a alocação de bit eficiente e melhorar a qualidade de som. Breve Descrição dos Desenhos a figura 1 é um diagrama de blocos que ilustra uma configuração de um aparelho de codificação de voz/áudio apresentado em PTL 1; a figura 2 é um diagrama de blocos que ilustra uma configuração de um aparelho de decodificação de voz/áudio apresentado em PTL 1; a figura 3 é um diagrama que ilustra o agrupamento de coe- ficientes espectrais em um modo estacionário apresentado em PTL 1; a figura 4 é um fluxograma que ilustra um esquema de alocação de bit apresentado em PTL 1; a figura 5 é um diagrama de blocos que ilustra uma configuração de um aparelho de codificação de voz/áudio de acordo com uma modalidade da presente invenção; a figura 6 é um diagrama de blocos que ilustra uma configuração de um aparelho de decodificação de voz/áudio de acordo com uma modalidade da presente invenção; a figura 7 é um diagrama de blocos que ilustra uma configuração interna da seção de alocação de bit mostrada na figura 5; as figuras 8A a 8C são diagramas fornecidos para descrever um método de agrupamento de acordo com uma modalidade da presente invenção; e a figura 9 é um diagrama que ilustra uma variância de norma.
Descrição das Modalidades
[0038] Mais adiante neste documento, as modalidades da presen te invenção serão descritas em detalhes com referência aos desenhos anexos. Modalidade
[0039] A figura 5 é um diagrama de blocos que ilustra uma confi guração do aparelho de codificação de voz/áudio 100 de acordo com uma modalidade da presente invenção. Um sinal de entrada com amostra em 48 kHz é inserido no detector temporário 101 e na seção de transformação 102 do aparelho de codificação de voz/áudio 100.
[0040] O detector temporário 101 detecta, a partir de um sinal de entrada, ou um quadro temporário que corresponde a uma borda anterior ou uma borda posterior de voz ou um quadro estacionário que corresponde a um seção de voz além daquele, e emite o resultado de de- tecção para a seção de transformação 102. A seção de transformação 102 aplica, ao quadro do sinal de entrada, a transformação de resolução de alta frequência ou a transformação de resolução de baixa frequência dependendo de se o resultado de detecção emitido a partir do detector temporário 101 é um quadro temporário ou quadro estacionário, e adquire um coeficiente espectral (ou coeficiente de transformação) e emite o coeficiente espectral à seção de avaliação de norma 103 e a seção de normalização de espectro 105. A seção de transformação 102 emite uma configuração de quadro que é o resultado de detecção emitido a partir do detector temporário 101, ou seja, uma sinalização de sinal temporário que indica se o quadro é um quadro estacionário ou um quadro temporário ao multiplexador 110.
[0041] A seção de avaliação de norma 103 divide o coeficiente es pectral emitido a partir da seção de transformação 102 em bandas de diferentes larguras de banda e avalia uma norma (ou energia) de cada banda dividida. A seção de avaliação de norma 103 emite a norma avaliada de cada banda para a seção de quantização de norma 104.
[0042] A seção de quantização de norma 104 determina um enve lope espectral constituído por normas de todas as bandas com base nas normas das respectivas bandas emitidas a partir da seção de avaliação de norma 103, quantiza o envelope espectral determinado e emite a envelope espectral quantizado à seção de normalização de espectro 105 e à seção de ajuste de norma 106.
[0043] A seção de normalização de espectro 105 normaliza o coe ficiente espectral emitido a partir da seção de transformação 102 de acordo com o envelope espectral quantizado emitido a partir da seção de quantização de norma 104 e emite um coeficiente espectral normalizado to seção de codificação de vetor de retícula 108.
[0044] A seção de ajuste de norma 106 ajusta o envelope espec tral quantizado emitido a partir da seção de quantização de norma 104 com base na ponderação espectral adaptiva e emite um envelope espectral quantizado ajustado à seção de alocação de bit 107.
[0045] A seção de alocação de bit 107 aloca os bits disponíveis para cada banda em um quadro com o uso do envelope espectral quantizado ajustado emitido a partir da seção de ajuste de norma 106 e emite os bits alocados à seção de codificação de vetor de retícula 108. Os detalhes da seção de alocação de bit 107 serão descritos adiante.
[0046] A seção de codificação de vetor de retícula 108 realiza a codificação de vetor de retícula no coeficiente espectral normalizado pela seção de normalização de espectro 105 com o uso de dos bits alocados para cada banda na seção de alocação de bit 107 e emite um vetor de codificação de retícula para a seção de ajuste de nível de ruído 109 e o multiplexador 110.
[0047] A seção de ajuste de nível de ruído 109 avalia o nível do coeficiente espectral antes da codificação na seção de codificação de vetor de retícula 108 e codifica o nível avaliado. Um índice de ajuste de nível de ruído é determinado dessa maneira. O índice de ajuste de nível de ruído é emitido ao multiplexador 110.
[0048] O multiplexador 110 multiplexa a sinalização de sinal tem porário emitida a partir da seção de transformação 102, o envelope espectral quantizado emitido a partir da seção de quantização de norma 104, o vetor de codificação de retícula emitido a partir da seção de codificação de vetor de retícula 108 e o índice de ajuste de nível de ruído emitido a partir da seção de ajuste de nível de ruído 109, e forma uma corrente de bit e transmite a corrente de bit a um aparelho de de- codificação de voz/áudio.
[0049] A figura 6 é um diagrama de blocos que ilustra uma confi guração do aparelho de decodificação de voz/áudio 200 de acordo com uma modalidade da presente invenção. Uma corrente de bit transmitida a partir do aparelho de codificação de voz/áudio 100 é recebida pelo aparelho de decodificação de voz/áudio 200 e demultiple- xada pelo demultiplexador 201.
[0050] A seção de desquantização de norma 202 desquantiza o envelope espectral quantizado (ou seja, a norma) emitido a partir do multiplexador, obtém um envelope espectral constituído por normas de todas as bandas e emite um envelope espectral obtido à seção de ajuste de norma 203.
[0051] A seção de ajuste de norma 203 ajusta o envelope espec tral emitido a partir da seção de desquantização de norma 202 com base na ponderação espectral adaptiva e emite o envelope espectral ajustado à seção de alocação de bit 204.
[0052] A seção de alocação de bit 204 aloca os bits disponíveis para cada banda em um quadro com o uso do envelope espectral emitido a partir da seção de ajuste de norma 203. Ou seja, a seção de alocação de bit 204 calcula novamente a alocação de bit indispensável para decodificar o código de vetor de retícula do coeficiente espectral normalizado. Os bits alocados são emitidos à seção de decodificação de retícula 205.
[0053] A seção de decodificação de retícula 205 decodifica o vetor de codificação de retícula emitido a partir da demultiplexador 201 com base em uma configuração de quadro indicada pela sinalização de sinal temporário emitido a partir da demultiplexador 201e os bits emitidos a partir da seção de alocação de bit 204 e adquire um coeficiente espectral. O coeficiente espectral é emitido ao gerador de preenchimento espectral 206 e ao adicionador 207.
[0054] O gerador de preenchimento espectral 206 gera novamente um coeficiente espectral de baixa frequência ao qual nenhum bit foi alocado com o uso de um livro-código criado com base no coeficiente espectral emitido a partir da seção de decodificação de retícula 205. O gerador de preenchimento espectral 206 ajusta o nível do gerado novamente coeficiente espectral com o uso do índice de ajuste de nível de ruído emitido a partir da demultiplexador 201. Além disso, o gerador de preenchimento espectral 206 gera novamente o coeficiente espectral não submetido à codificação de alta frequência com o uso de um coeficiente espectral codificado de baixa frequência. O coeficiente espectral de baixa frequência e de nível ajustado e coeficiente espectral de alta frequência e gerado novamente são emitidos ao adicionador 207.
[0055] O adicionador 207 adiciona o coeficiente espectral emitido a partir da seção de decodificação de retícula 205 e o coeficiente espectral emitido a partir do gerador de preenchimento espectral 206, gera um coeficiente espectral normalizado e emite um coeficiente espectral normalizado à seção de formação de envelope 208.
[0056] A seção de formação de envelope 208 aplica o envelope espectral emitido a partir da seção de desquantização de norma 202 ao coeficiente espectral normalizado gerado pelo adicionador 207 e gera um coeficiente espectral de banda completa (que corresponde ao espectro decodificado). O coeficiente espectral de banda completa gerado é emitido à seção de transformação inversa 209.
[0057] A seção de transformação inversa 209 aplica a transforma ção inversa, como a transformação de cosseno distinto modificada inversa (IMDCT) ao coeficiente espectral de banda completa emitido a partir da seção de formação de envelope 208, transforma o a um sinal de domínio de tempo e emite um sinal de saída. Aqui, a transformação inversa com a resolução de alta frequência é aplicada a um caso de um quadro estacionário e a transformação inversa com a resolução de baixa frequência é aplicada a um caso de um quadro temporário.
[0058] A seguir, os detalhes da seção de alocação de bit 107 se rão descritos com o uso da figura 7. Observa-se que a seção de alo- cação de bit 107 do aparelho de codificação de voz/áudio 100 é idêntica na configuração para a seção de alocação de bit 204 do aparelho de decodificação de voz/áudio 200 e, portanto, apenas a seção de alocação de bit 107 será descrita e a descrição da seção de alocação de bit 204 será omitida aqui.
[0059] A figura 7 é um diagrama de blocos que ilustra uma confi guração interna da seção de alocação de bit 107 mostrada na figura 5. A seção de identificação de banda de frequência dominante 301 identifica, com base no envelope espectral quantizado emitido a partir da seção de ajuste de norma 106, uma banda de frequência dominante que é uma sub-banda na qual um valor de coeficiente de norma no espectro tem um valor máximo local, e emite cada banda de frequência dominante identificada às seções de determinação de grupo domi-nante 302-1 a 302N. Além de designar uma banda de frequência para qual um valor de coeficiente de norma tem um valor máximo local, os exemplos do método para a determinação de uma banda de frequência dominante podem incluir a designação, uma banda dentre todas as sub-bandas nas quais o valor de coeficiente de norma tem um valor máximo como uma banda de frequência dominante ou designar como uma banda de frequência dominante, uma banda que tem um valor de coeficiente de norma que excede um limite predeterminado ou um limite calculado a partir das normas de todas as sub-bandas.
[0060] As seções de determinação de grupo dominante 302-1 a 302N determinam de maneira adaptativa as larguras de grupo de acordo com as características de sinal de entrada centralizado na banda de frequência dominante emitida a partir da seção de identificação de banda de frequência dominante 301. De maneira mais específica, a largura de grupo é definida como a largura de um grupo de subbandas centralizadas e em ambos os lados da banda de frequência dominante até as sub-bandas sendo que um coeficiente angular des- cendente do valor de coeficiente de norma para. As seções de determinação de grupo dominante 302-1 a 302N determinam as bandas de frequência incluídas nas larguras de grupo como grupos dominantes e emitem os grupos dominantes determinados à seção de determinação de grupo não dominante 303. Observa-se que quando uma banda de frequência dominante é localizada na borda (fim de uma frequência disponível), apenas um lado do coeficiente angular descendente é in-cluído no grupo.
[0061] A seção de determinação de grupo não dominante 303 de termina as sub-bandas contínuas emitidas a partir das seções de determinação de grupo dominante 302-1 a 302N, além dos grupos dominantes como grupos não dominantes sem as bandas de frequência dominantes. A seção de determinação de grupo não dominante 303 emite um grupo dominante e os grupos não dominantes à seção de cálculo de energia de grupo 304 e à seção de cálculo de variância de norma 306.
[0062] A seção de cálculo de energia de grupo 304 calcula a ener gia específica do grupo dos grupos dominantes e grupos não dominantes emitidos a partir da seção de determinação de grupo não dominante 303 e emite uma energia calculada à seção de cálculo de energia total 305 e à seção de distribuição de bit de grupo 308. A energia específica do grupo é calculada pela equação 1 a seguir.
Figure img0001
[0063] Aqui, k indica um índice de cada grupo, energia (G(k)) indi ca a energia de grupo k, i indica uma sub-banda índice do grupo 2, M indica o número total de sub-bandas do grupo k e Norm(i) indica um valor de coeficiente de norma da sub-banda i do grupo n.
[0064] A seção de cálculo de energia total 305 adiciona toda a energia específica do grupo emitido a partir da seção de cálculo de energia de grupo 304 e calcula a energia total de todos os grupos. A energia total calculada é emitida à seção de distribuição de bit de grupo 308. A energia total é calculada pela equação 2 a seguir.
Figure img0002
[0065] Aqui, a energiatotal indica a energia total de todos os grupos, N indica o número total de grupos em um espectro, k indica um índice de cada grupo, e a energia(G(k)) indica a energia do grupo k.
[0066] A seção de cálculo de variância de norma 306 calcula a va riância de norma de grupo específico para os grupos dominantes e os grupos não dominantes emitidos a partir da seção de determinação de grupo não dominante 303, e emite uma variância de norma calculada à seção de cálculo de variância de norma total 307 e à seção de distribuição de bit de grupo 308. A variância de norma de grupo específico é calculada pela equação 3 a seguir.
Figure img0003
[0067] Aqui, k indica um índice de cada grupo, Normvar(G(k)) indica uma variância de norma do grupo k, Normmax(G(k)) indica uma valor de coeficiente de norma máxima do grupo k, e Normmin(G(k)) indica um valor mínimo de coeficiente de norma do grupo k.
[0068] A seção de cálculo de variância de norma total 307 calcula uma variância de norma total de todos os grupos com base na variância de norma de grupo específico emitido a partir da seção de cálculo de variância de norma 306. A variância de norma total calculada é emitida à seção de distribuição de bit de grupo 308. A variância de norma total é calculada pela equação 4 a seguir.
Figure img0004
[0069] Aqui, Normvartotal indica uma variância de norma total de to dos os grupos, N indica o número total de grupos em um espectro, k indica um índice de cada grupo, e Normvar(G(k)) indica uma variância de norma do grupo k.
[0070] A seção de distribuição de bit de grupo 308 (que corres- ponde a uma primeira seção de alocação de bit) distribui os bits de grupo em grupo com base na energia específica do grupo emitido a partir da seção de cálculo de energia de grupo 304, a energia total de todos os grupos emitida a partir da seção de cálculo de energia total 305, a variância de norma de grupo específico emitida a partir da seção de cálculo de variância de norma 306 e a variância de norma total de todos os grupos emitida a partir da seção de cálculo de variância de norma total 307, e emite os bits distribuídos de grupo em grupo à seção de distribuição de bit de sub-banda 309. Os bits distribuídos de grupo em grupo são calculados pela equação 5 a seguir.
Figure img0005
[0071] qui, k indica um índice de cada grupo, Bits(G(k)) indica o número de bits distribuídos ao grupo k, Bitstotal indica o número total de bits disponíveis, scale1 indica a razão entre os bits alocados pela energia, Energia(G(k)) indica a energia do grupo k, energiatotal indica a energia total de todos os grupos, e Normvar(G(k)) indica uma variância de norma do grupo k.
[0072] Além disso, scale1 na equação 5 acima assume um valor dentro de uma faixa de [0, 1] e ajusta a razão de bits alocados pela energia ou variância de norma. Quanto maior o valor de scale1, mais bits são alocados pela energia e, em um caso extremo, se o valor for 1, todos os bits são alocados pela energia. Quanto menor o valor de scale1, mais bits são alocados pela variância de norma e, em um caso extremo, se o valor for 0, todos os bits são alocados pela variância de norma.
[0073] Ao distribuir os bits de grupo em grupo conforme descrito acima, a seção de distribuição de bit de grupo 308 pode distribuir mais bits aos grupos dominantes e distribuir menos bits aos grupos não dominantes.
[0074] Assim, a seção de distribuição de bit de grupo 308 pode determinar a importância perceptual de cada grupo pela energia e variância de norma e melhorar mais os grupos dominantes. A variância de norma corresponde a uma teoria de mascaramento e pode determinar a importância de perceptual com maior precisão.
[0075] A seção de distribuição de bit de sub-banda 309 (que cor responde a uma segunda seção de alocação de bit) distribui os bits às sub-bandas em cada grupo com base nos bits de grupo específico emitidos a partir da seção de distribuição de bit de grupo 308 e emite os bits alocados para as sub-bandas de grupo específico à seção de codificação de vetor de retícula 108 como o resultado de alocação de bit. Aqui, mais bits são distribuídos para as sub-bandas importantes de modo perceptual e menos bits são distribuídos para as sub-bandas menos importantes de modo perceptual. Os bits distribuídos para cada sub-banda em um grupo são calculados pela equação 6 a seguir.
Figure img0006
[0076] Aqui, BitsG(k)sb(i) indica os bits alocados para a sub-banda i do grupo k, i indica um índice de sub-banda do grupo k, Bits(G(k)) indica um bit alocado para o grupo k, Energia(G(k)) indica a energia do grupo k, e Norm(i) indica um valor de coeficiente de norma de sub-banda i do grupo k.
[0077] A seguir, um método de agrupamento será descrito com o uso das figuras 8A a 8C. Supondo que um envelope espectral quanti- zado mostrado na figura 8A é inserido na seção de identificação de banda de frequência de pico 301. A seção de identificação de banda de frequência de pico 301 identifica as bandas de frequência dominantes 9 e 20 com base no envelope espectral quantizado inserido (ver a figura 8B).
[0078] As seções de geração de grupo dominante 302-1 a 302-N determinam as sub-bandas centralizadas e em ambos os lados das bandas de frequência dominantes 9 e 20 até as sub-bandas sendo que um coeficiente angular descendente do valor de coeficiente de norma para como um grupo dominante idêntico. Nos exemplos nas figuras 8A a 8C, como para a banda de frequência dominante 9, as sub-bandas 6 a 12 são determinadas como o grupo dominante (grupo 2), enquanto para a banda de frequência dominante 20, as sub-bandas 17 a 22 são determinadas como o grupo dominante (grupo 4) (vide a figura 8C).
[0079] A seção de determinação de grupo não dominante 303 de termina as bandas de frequência contínua além dos grupos dominantes como grupos não dominantes sem as bandas de frequência dominantes. No exemplo nas figuras 8A a 8C, as sub-bandas 1 a 5 (grupo 1), as sub-bandas 13 a 16 (grupo 3) e as sub-bandas 23 a 25 (grupo 5) são determinadas como grupos não dominantes, respectivamente (vide a figura 8C).
[0080] Como um resultado, os envelopes espectrais quantizados são divididos em cinco grupos, ou seja, dois grupos dominantes (grupos 2 e 4) e três grupos não dominantes (grupos 1, 3 e 5).
[0081] Com o uso de tal método de agrupamento, é possível de terminar de maneira adaptativa as larguras de grupo de acordo com as características de sinal de entrada. De acordo com esse método, o aparelho de decodificação de voz/áudio também usa os coeficientes de norma quantizados disponíveis e, portanto, as informações adicionais não precisam ser transmitidas ao aparelho de decodificação de voz/áudio.
[0082] Observa-se que a seção de cálculo de variância de norma 306 calcula uma variância de norma de grupo específico. Nos exemplos nas figuras 8A a 8C, a variância de norma energiavar (G(2)) no grupo 2 é mostrada na figura 9 como uma referência.
[0083] A seguir, a importância perceptual será descrita. Um espec tro de um sinal de voz/áudio inclui, em geral, uma pluralidade de picos (montanhas) e vales. Um pico é constituído por um componente de espectro localizado em uma frequência dominante do sinal de voz/áudio (componente de som dominante). O pico é muito importante de modo perceptual. A importância perceptual do pico pode ser determinada por uma diferença entre a energia do pico e a energia do vale, ou seja, por uma variância de norma. De modo teórico, quando um pico tem energia grande o suficiente comparada às bandas de frequência vizinhas, o pico deve ser codificado com um número suficiente de bits, mas se o pico for codificado com um número insuficiente de bits, o ruído de codificação que se mistura se torna facilmente notado, fazendo com que a qualidade do som sofra uma deterioração. Por outro lado, um vale não é constituído por qualquer componente de som dominante de um sinal de voz/áudio e não é importante de modo perceptual.
[0084] De acordo com o método de agrupamento de banda de fre quência da presente modalidade, a banda de frequência dominante corresponde a um pico de um espectro e o agrupamento de banda de frequências significa que separam os picos (grupos dominantes que incluem as bandas de frequência dominantes) dos vales (grupos não dominantes sem as bandas de frequência dominantes).
[0085] A seção de distribuição de bit de grupo 308 determina a im portância perceptual de um pico. Em contraste à técnica G.719 na qual a importância perceptual é determinada apenas pela energia, a presente modalidade determina a importância perceptual com base tanto nas distribuições de energia quanto de norma (energia) e determina os bits a serem distribuídos a cada grupo com base na importância perceptual determinada.
[0086] Na seção de distribuição de bit de sub-banda 309, quando uma variância de norma em um grupo é grande, isso significa que esse grupo é um de picos, o pico é mais importante de modo perceptual e um coeficiente de norma que tem um valor máximo deve ser codifi- cado de maneira precisa. Por esse motivo, mais bits são distribuídos para cada sub-banda desse pico. Por outro lado, quando uma variância de norma em um grupo é muito pequena, isso significa que esse grupo é um de vales, e o vale não é importante de modo perceptual e não precisa ser codificado de maneira precisa. Por esse motivo, menos bits são distribuídos para cada sub-banda desse grupo.
[0087] Assim, a presente modalidade identifica uma banda de fre quência dominante na qual um valor de coeficiente de norma em um espectro de um sinal de voz/áudio de entrada tem um valor máximo local, os grupos de todas as sub-bandas em grupos dominantes que incluem uma banda de frequência dominante e os grupos não dominantes que não incluem qualquer banda de frequência dominante, distribui os bits para cada grupo com base na energia específica do grupo e as variâncias de norma, e ainda distribui os bits distribuídos de grupo em grupo para cada sub-banda de acordo com uma razão de uma norma para energia de cada grupo. Dessa maneira, é possível alocar mais bits para grupos importantes de modo perceptual e as subbandas e realizar uma distribuição de bit eficiente. Como um resultado, a qualidade de som pode ser aprimorada.
[0088] Observa-se que o coeficiente de norma na presente moda lidade representa a energia de sub-banda e também é chamado de “envelope de energia”. A descrição do Pedido de Patente Japonês N° 2012-272571, depositado no dia 13 de dezembro de 2012, que inclui o relatório descritivo, os desenhos e o resumo é aqui incorporado a título de referência em sua totalidade.
Aplicabilidade Industrial
[0089] O aparelho de codificação de voz/áudio, o aparelho de de- codificação de voz/áudio, o método de codificação de voz/áudio e o método de decodificação de voz/áudio de acordo com a presente invenção são aplicáveis a um aparelho terminal de comunicação de rádio, aparelho de estação base de comunicação de rádio, aparelho terminal de conferência de telefone, aparelho terminal de conferência de vídeo e aparelho terminal de voz por protocolo de Internet (VoIP) ou similares. Listagem de Referência 101 detector temporário 102 seção de transformação 103 seção de avaliação de norma 104 seção de quantização de norma 105 seção de normalização de espectro 106 , 203 seção de ajuste de norma 107 , 204 seção de alocação de bit 108 seção de codificação de vetor de retícula 109 seção de ajuste de nível de ruído 110 multiplexador 201 demultiplexador 202 seção de desquantização de norma 205 seção de decodificação de retícula 206 gerador de preenchimento espectral 207 adicionador 208 seção de formação de envelope 209 seção de transformação inversa 301 seção de identificação de banda de frequência dominante 302-1 a 302-N seção de determinação de grupo dominante 303 seção de determinação de grupo não dominante 304 seção de cálculo de energia de grupo 305 seção de cálculo de energia total 306 seção de cálculo de variância de norma 307 seção de cálculo de variância de norma total 308 seção de distribuição de bit de grupo 309 seção de distribuição de bit de sub-banda

Claims (10)

1. Dispositivo de codificação de voz/áudio, caracterizado por compreender, um receptor que recebe um sinal de entrada de voz/áudio de domínio de tempo; uma memória; e um processador que, transforma o sinal de entrada de voz/áudio em um domínio de frequência; divide um espectro de frequência do sinal de voz/áudio para obter uma pluralidade de bandas secundárias; estima um envelope de energia o qual representa um nível de energia para cada uma dentre a pluralidade de bandas secundárias; quantiza o envelope de energia; determina uma pluralidade de grupos a partir do envelope de energia quantizado, cada um dentre a pluralidade de grupos sendo composto de uma pluralidade de bandas secundárias; aloca bits à pluralidade de grupos em uma base grupo por grupo; aloca os bits alocados a cada um dentre a pluralidade de grupos à pluralidade de bandas secundárias incluídas em cada um dos grupos em uma base banda secundária por banda secundária; e codifica o espectro de frequência usando os bits alocado às bandas secundárias sendo que, quando de determinação da pluralidade de grupos, o processador: identifica um ou mais grupos dominantes os quais são compostos de uma banda secundária de frequência dominante na qual um envelope de energia do espectro de frequência tem um valor máximo local e bandas secundárias mutuamente adjacentes sobre ambos os lados da banda secundária de frequência dominante, as bandas secundárias mutuamente adjacentes formando, cada uma, um declínio descendente de um envelope de energia, e identifica um ou mais grupos não dominantes os quais são compostos de outras bandas secundárias mutuamente adjacentes que não aquelas incluídas no um ou mais grupos dominantes.
2. Dispositivo de codificação de voz/áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o processador calcula a energia específica para grupo, e sendo que o processador aloca, com base na energia específica para grupo calculada, mais bits a um grupo quando a energia é maior e aloca menos bits a um grupo quando a energia é menor.
3. Dispositivo de codificação de voz/áudio, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que o processador aloca mais bits a uma banda secundária que tem um maior envelope de energia e aloca menos bits a uma banda secundária que tem um menor envelope de energia.
4. Dispositivo de codificação de voz/áudio, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que uma largura de grupo do grupo dominante é definida como uma largura de um grupo de bandas secundárias centralizado sobre ambos os lados da banda de frequência dominante até bandas secundárias onde um declínio descendente de um valor de coeficiente normal termina.
5. Dispositivo de codificação de voz/áudio, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que a banda de frequência dominante é a banda de maior frequência ou a banda de menor frequência dentre as bandas de frequência disponíveis, apenas um lado do declínio descendente é incluído no grupo dominante.
6. Dispositivo de decodificação de voz/áudio, caracterizado por compreender, um receptor que recebe dados de voz/áudio codificados; uma memória; e um processador que: de-quantiza um envelope espectral quantizado; determina uma pluralidade de grupos a partir do envelope espectral quantizado, cada um dentre a pluralidade de grupos sendo composto de uma pluralidade de bandas secundárias; aloca bits à pluralidade determinada de grupos em uma base grupo por grupo; aloca os bits alocados a cada um dentre a pluralidade de grupos à pluralidade de bandas secundárias incluídas em cada um dos grupos em uma base banda secundária por banda secundária; e decodifica um espectro de frequência de um sinal de voz/áudio usando os bits alocado às bandas secundárias; aplica o envelope espectral de-quantizado ao espectro de frequência decodificado e reproduz um espectro decodificado; e inversamente, transforma o espectro decodificado a partir de um domínio de frequência em um domínio de tempo; sendo que, quando de determinação da pluralidade de grupos, o processador: identifica um ou mais grupos dominantes os quais são compostos de uma banda secundária de frequência dominante na qual um envelope de energia do espectro de frequência tem um valor máximo local e bandas secundárias mutuamente adjacentes sobre ambos os lados da banda secundária de frequência dominante, as bandas secundárias mutuamente adjacentes formando, cada uma, um declínio descendente de um envelope de energia, e identifica um ou mais grupos não dominantes os quais são compostos de outras bandas secundárias mutuamente adjacentes que não aquelas incluídas no um ou mais grupos dominantes.
7. Dispositivo de decodificação de voz/áudio, de acordo com a reivindicação 6, caracterizado pelo fato de que o processador calcula ainda a energia específica para grupo e sendo que o processador aloca, com base na energia específica para grupo calculada, mais bits aos grupos quando a energia é maior e aloca menos bits aos grupos quando a energia é menor.
8. Dispositivo de decodificação de voz/áudio, de acordo com a reivindicação 6 ou 7, caracterizado pelo fato de que o processador aloca mais bits às bandas secundárias que têm um maior envelope de energia e aloca menos bits às bandas secundárias que têm um menor envelope de energia.
9. Método de codificação de voz/áudio, caracterizado por compreender: receber um sinal de entrada de voz/áudio de domínio de tempo; transformar o sinal de entrada de voz/áudio em um domínio de frequência; dividir um espectro de frequência do sinal de voz/áudio para obter uma pluralidade de bandas secundárias; estimar um envelope de energia que representa um nível de energia para cada uma dentre a pluralidade de bandas secundárias; quantizar o envelope de energia; determinar, a partir do envelope de energia quantizado, uma pluralidade de grupos, cada um dentre a pluralidade de grupos sendo composto de uma pluralidade de bandas secundárias; alocar bits à pluralidade de grupos determinada em uma base grupo por grupo; alocar os bits alocados a cada um dentre a pluralidade de grupos à pluralidade de bandas secundárias incluídas em cada um dos grupos em uma base banda secundária por banda secundária; e codificar o espectro de frequência usando os bits alocado às bandas secundárias sendo que, quando de determinação da pluralidade de grupos, o processador: identifica um ou mais grupos dominantes os quais são compostos de uma banda secundária de frequência dominante na qual um envelope de energia do espectro de frequência tem um valor máximo local e bandas secundárias mutuamente adjacentes sobre ambos os lados da banda secundária de frequência dominante, as bandas secundárias mutuamente adjacentes formando, cada uma, um declínio descendente de um envelope de energia, e identifica um ou mais grupos não dominantes os quais são compostos de outras bandas secundárias mutuamente adjacentes que não aquelas incluídas no um ou mais grupos dominantes.
10. Método de decodificação de voz/áudio, caracterizado por compreender: receber dados de voz/áudio codificados; de-quantizar um envelope espectral quantizado; determinar uma pluralidade de grupos a partir do envelope espectral quantizado, cada um dentre a pluralidade de grupos sendo composto de uma pluralidade de bandas secundárias; alocar bits à pluralidade determinada de grupos em uma base grupo por grupo; alocar os bits alocados a cada um dentre a pluralidade de grupos à pluralidade de bandas secundárias incluídas em cada um dos grupos em uma base banda secundária por banda secundária; e decodificar um espectro de frequência de um sinal de voz/áudio usando os bits alocado às bandas secundárias; aplicar o envelope espectral de-quantizado ao espectro de frequência decodificado e reproduz um espectro decodificado; e inversamente, transformar o espectro decodificado a partir de um domínio de frequência em um domínio de tempo; sendo que, quando de determinação da pluralidade de grupos, o processador: identifica um ou mais grupos dominantes os quais são compostos de uma banda secundária de frequência dominante na qual um envelope de energia do espectro de frequência tem um valor máximo local e bandas secundárias mutuamente adjacentes sobre ambos os lados da banda secundária de frequência dominante, as bandas secundárias mutuamente adjacentes formando, cada uma, um declínio descendente de um envelope de energia, e identifica um ou mais grupos não dominantes os quais são compostos de outras bandas secundárias mutuamente adjacentes que não aquelas incluídas no um ou mais grupos dominantes.
BR112015013233A 2012-12-13 2013-11-26 dispositivo e método de codificação de voz/áudio BR112015013233B8 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012272571 2012-12-13
JP2012-272571 2012-12-13
PCT/JP2013/006948 WO2014091694A1 (ja) 2012-12-13 2013-11-26 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Publications (3)

Publication Number Publication Date
BR112015013233A2 BR112015013233A2 (pt) 2017-07-11
BR112015013233B1 true BR112015013233B1 (pt) 2021-02-23
BR112015013233B8 BR112015013233B8 (pt) 2021-03-16

Family

ID=50934002

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015013233A BR112015013233B8 (pt) 2012-12-13 2013-11-26 dispositivo e método de codificação de voz/áudio

Country Status (13)

Country Link
US (3) US9767815B2 (pt)
EP (3) EP3457400B1 (pt)
JP (3) JP6535466B2 (pt)
KR (1) KR102200643B1 (pt)
CN (2) CN107516531B (pt)
BR (1) BR112015013233B8 (pt)
ES (3) ES2706148T3 (pt)
HK (1) HK1249651A1 (pt)
MX (1) MX341885B (pt)
PL (3) PL2933799T3 (pt)
PT (2) PT3232437T (pt)
RU (1) RU2643452C2 (pt)
WO (1) WO2014091694A1 (pt)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2933799T3 (pl) * 2012-12-13 2017-12-29 Panasonic Intellectual Property Corporation Of America Urządzenie kodujące głos, urządzenie dekodujące głos, sposób kodowania głosu i sposób dekodowania głosu
BR112016010273B1 (pt) * 2013-11-07 2022-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Método para particionamento de vetores de entrada para codificação de sinais de áudio, unidade de particionamento, codificador e meio não-transitório legível por máquina
EP3040987B1 (en) * 2013-12-02 2019-05-29 Huawei Technologies Co., Ltd. Encoding method and apparatus
JP6318904B2 (ja) * 2014-06-23 2018-05-09 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
MX356371B (es) 2014-07-25 2018-05-25 Fraunhofer Ges Forschung Dispositivo de codificacion de señal acustica, dispositivo de decodificacion de señal acustica, metodo para codificar una señal acustica y metodo para decodificar una señal acustica.
US10699721B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using difference data
KR20190069192A (ko) 2017-12-11 2019-06-19 한국전자통신연구원 오디오 신호의 채널 파라미터 예측 방법 및 장치
US10559315B2 (en) 2018-03-28 2020-02-11 Qualcomm Incorporated Extended-range coarse-fine quantization for audio coding
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
US10762910B2 (en) 2018-06-01 2020-09-01 Qualcomm Incorporated Hierarchical fine quantization for audio coding
CN109286922B (zh) * 2018-09-27 2021-09-17 珠海市杰理科技股份有限公司 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备
KR20200142787A (ko) 2019-06-13 2020-12-23 네이버 주식회사 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법
CN112037802B (zh) * 2020-05-08 2022-04-01 珠海市杰理科技股份有限公司 基于语音端点检测的音频编码方法及装置、设备、介质

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4899384A (en) * 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US5893065A (en) * 1994-08-05 1999-04-06 Nippon Steel Corporation Apparatus for compressing audio data
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3189660B2 (ja) * 1996-01-30 2001-07-16 ソニー株式会社 信号符号化方法
US6246945B1 (en) * 1996-08-10 2001-06-12 Daimlerchrysler Ag Process and system for controlling the longitudinal dynamics of a motor vehicle
JPH10233692A (ja) * 1997-01-16 1998-09-02 Sony Corp オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
JP3466507B2 (ja) * 1998-06-15 2003-11-10 松下電器産業株式会社 音声符号化方式、音声符号化装置、及びデータ記録媒体
DE69924922T2 (de) * 1998-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd., Kadoma Audiokodierungsmethode und Audiokodierungsvorrichtung
JP3434260B2 (ja) * 1999-03-23 2003-08-04 日本電信電話株式会社 オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体
JP4843142B2 (ja) 1999-04-16 2011-12-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 音声符号化のための利得−適応性量子化及び不均一符号長の使用
US6246345B1 (en) 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
JP4242516B2 (ja) * 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
JP4548348B2 (ja) 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
WO2008072670A1 (ja) * 2006-12-13 2008-06-19 Panasonic Corporation 符号化装置、復号装置、およびこれらの方法
JP4973397B2 (ja) 2007-09-04 2012-07-11 日本電気株式会社 符号化装置および符号化方法、ならびに復号化装置および復号化方法
CA2705968C (en) * 2007-11-21 2016-01-26 Lg Electronics Inc. A method and an apparatus for processing a signal
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
KR101301245B1 (ko) * 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
US8386266B2 (en) * 2010-07-01 2013-02-26 Polycom, Inc. Full-band scalable audio codec
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
JP5511848B2 (ja) 2009-12-28 2014-06-04 パナソニック株式会社 音声符号化装置および音声符号化方法
WO2011086924A1 (ja) 2010-01-14 2011-07-21 パナソニック株式会社 音声符号化装置および音声符号化方法
US8831932B2 (en) * 2010-07-01 2014-09-09 Polycom, Inc. Scalable audio in a multi-point environment
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
EP2631905A4 (en) 2010-10-18 2014-04-30 Panasonic Corp DEVICE FOR TONE CODING AND TONE DECODING
CN105225669B (zh) * 2011-03-04 2018-12-21 瑞典爱立信有限公司 音频编码中的后量化增益校正
US9536534B2 (en) * 2011-04-20 2017-01-03 Panasonic Intellectual Property Corporation Of America Speech/audio encoding apparatus, speech/audio decoding apparatus, and methods thereof
KR101995694B1 (ko) * 2011-04-20 2019-07-02 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 허프만 부호화를 실행하기 위한 장치 및 방법
AU2012256550B2 (en) 2011-05-13 2016-08-25 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
EP2772912B1 (en) * 2011-10-28 2016-08-10 Panasonic Intellectual Property Corporation of America Audio encoding apparatus, audio decoding apparatus, audio encoding method, and audio decoding method
US9454972B2 (en) 2012-02-10 2016-09-27 Panasonic Intellectual Property Corporation Of America Audio and speech coding device, audio and speech decoding device, method for coding audio and speech, and method for decoding audio and speech
PL2933799T3 (pl) * 2012-12-13 2017-12-29 Panasonic Intellectual Property Corporation Of America Urządzenie kodujące głos, urządzenie dekodujące głos, sposób kodowania głosu i sposób dekodowania głosu
EP3040987B1 (en) * 2013-12-02 2019-05-29 Huawei Technologies Co., Ltd. Encoding method and apparatus
JP6358500B2 (ja) 2014-06-06 2018-07-18 株式会社リコー クリーニングブレード、画像形成装置、及びプロセスカートリッジ

Also Published As

Publication number Publication date
EP3232437A1 (en) 2017-10-18
WO2014091694A1 (ja) 2014-06-19
CN104838443A (zh) 2015-08-12
MX341885B (es) 2016-09-07
EP3232437B1 (en) 2018-11-21
HK1249651A1 (zh) 2018-11-02
RU2015121716A (ru) 2017-01-16
EP2933799B1 (en) 2017-07-12
EP2933799A1 (en) 2015-10-21
RU2643452C2 (ru) 2018-02-01
KR20150095702A (ko) 2015-08-21
EP3457400C0 (en) 2023-08-16
EP2933799A4 (en) 2016-01-13
US20150317991A1 (en) 2015-11-05
PL3457400T3 (pl) 2024-02-19
US20170345431A1 (en) 2017-11-30
JP2019191594A (ja) 2019-10-31
JP6535466B2 (ja) 2019-06-26
EP3457400A1 (en) 2019-03-20
US10102865B2 (en) 2018-10-16
PT2933799T (pt) 2017-09-05
CN107516531A (zh) 2017-12-26
ES2643746T3 (es) 2017-11-24
BR112015013233B8 (pt) 2021-03-16
PL2933799T3 (pl) 2017-12-29
ES2706148T3 (es) 2019-03-27
CN107516531B (zh) 2020-10-13
US20190027155A1 (en) 2019-01-24
BR112015013233A2 (pt) 2017-07-11
PL3232437T3 (pl) 2019-05-31
JP7010885B2 (ja) 2022-01-26
CN104838443B (zh) 2017-09-22
JPWO2014091694A1 (ja) 2017-01-05
ES2970676T3 (es) 2024-05-30
MX2015006161A (es) 2015-08-07
KR102200643B1 (ko) 2021-01-08
JP2022050609A (ja) 2022-03-30
PT3232437T (pt) 2019-01-11
US10685660B2 (en) 2020-06-16
US9767815B2 (en) 2017-09-19
EP3457400B1 (en) 2023-08-16

Similar Documents

Publication Publication Date Title
BR112015013233B1 (pt) dispositivo e método de codificação de voz/áudio
ES2718400T3 (es) Método y dispositivo de codificación y decodificación de señal de audio
JP2019168699A (ja) ビット割り当て装置
ES2927563T3 (es) Métodos y dispositivos de codificación y descodificación de señal
US10770078B2 (en) Adaptive gain-shape rate sharing
BR112017000629B1 (pt) aparelho de codificação de sinal de áudio e método de codificação de sinal de áudio
CN105874534B (zh) 编码装置、解码装置、编码方法、解码方法及程序
ES2823250T3 (es) Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo
Ghahabi et al. Adaptive Variable Degree‐k Zero‐Trees for Re‐Encoding of Perceptually Quantized Wavelet Packet Transformed Audio and High‐Quality Speech

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B25A Requested transfer of rights approved

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWANDT FORSCHUNG E.V. (DE)

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWAN

B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B25K Entry of change of name and/or headquarter and transfer of application, patent and certificate of addition of invention: republication

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWAN

Free format text: RETIFICADO O DESPACHO 25.11 PUBLICADO NA RPI 2502 DE 18/12/2018 SOB O ITEM (71).

B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 26/11/2013, OBSERVADAS AS CONDICOES LEGAIS.

B09W Correction of the decision to grant [chapter 9.1.4 patent gazette]

Free format text: REF. RPI 2605 DE 08/12/2020.

B16C Correction of notification of the grant [chapter 16.3 patent gazette]

Free format text: REF. RPI 2616 DE 23/02/2021 QUANTO AOS DESENHOS.