BR112015009352B1 - Dispositivo de codificação de fala/áudio, dispositivo de decodificação de fala/áudio, método de codificação de fala/áudio e método de decodificação de fala/áudio - Google Patents

Dispositivo de codificação de fala/áudio, dispositivo de decodificação de fala/áudio, método de codificação de fala/áudio e método de decodificação de fala/áudio Download PDF

Info

Publication number
BR112015009352B1
BR112015009352B1 BR112015009352-3A BR112015009352A BR112015009352B1 BR 112015009352 B1 BR112015009352 B1 BR 112015009352B1 BR 112015009352 A BR112015009352 A BR 112015009352A BR 112015009352 B1 BR112015009352 B1 BR 112015009352B1
Authority
BR
Brazil
Prior art keywords
band
spectrum
subband
section
speech
Prior art date
Application number
BR112015009352-3A
Other languages
English (en)
Other versions
BR112015009352A2 (pt
BR112015009352A8 (pt
Inventor
Takuya Kawashima
Masahiro Oshikiri
Original Assignee
Panasonic Intellectual Property Corporation Of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corporation Of America filed Critical Panasonic Intellectual Property Corporation Of America
Publication of BR112015009352A2 publication Critical patent/BR112015009352A2/pt
Publication of BR112015009352A8 publication Critical patent/BR112015009352A8/pt
Publication of BR112015009352B1 publication Critical patent/BR112015009352B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

dispositivo de codificação de fala/áudio, dispositivo de decodificação de fala/áudio, método de codificação de fala/áudio e método de decodificação de fala/áudio. com a presente invenção, o número de bits de codificação alocados para a codificação de espectro de banda estendida é reduzido, enquanto que a degradação da qualidade de som na banda estendida é suprimida. uma unidade de compressão de banda (105) cria combinações de espectros de sub-banda em pares de duas amostras cada, em ordem, a partir de um lado de faixa baixa em uma sub-banda de alvo de compressão de banda, seleciona um espectro que tem uma amplitude de valor absoluto grande entre as combinações, e dispõe o espectro selecionado próximo ao lado de faixa baixa em um eixo geométrico de frequência. uma unidade de recálculo de número de unidades (106) redistribui bits salvos na sub-banda para a qual a compressão de banda foi realizada a uma faixa baixa fora da banda estendida, e redistribui o número de unidades com base nos bits redistribuídos.

Description

CAMPO DA TÉCNICA
[0001] A presente invenção refere-se a um aparelho de codificação de fala/áudio, um aparelho de decodificação de fala/áudio, um método de codificação de fala/áudio e um método de decodificação de fala/áudio com o uso de um esquema de codificação de transformada. TÉCNICA ANTECEDENTE
[0002] Como um esquema capaz de codificar de modo eficaz umsinal de fala ou sinal de música em uma branda ultralarga (SWB: banda superlarga) de 0,05 a 14 kHz, existem técnicas reveladas na Literatura de não patente (doravante, mencionada como "NPL") 1 e NPL 2 padronizada em ITU-T (setor de padronização de telecomunicação da União de telecomunicação internacional). De acordo com essas técnicas, uma banda de até 7 kHz é codificada por uma seção de codificação de núcleo e uma banda de 7 kHz ou maior (doravante mencionada como "banda estendida") é codificada por uma seção de codificação otimizada.
[0003] A seção de codificação de núcleo realiza a codificação como uso de predição linear excitada por código (CELP), transforma um sinal residual que não pode ser codificado por CELP em um domínio de frequência através de MDCT (transformada discreta de cosseno modificada) e, então, codifica o sinal residual transformado através de codificação de transformada, tal como FPC (codificação de pulso fatorial) ou AVQ (quantização de vetor algébrico). A seção de codificação otimizada realiza a codificação com o uso de uma técnica de pesquisa por uma banda que tem uma alta correlação com um espectro de banda baixa de até 7 kHz em uma banda estendida de 7 kHz ou maior e com o uso de uma banda que tem a maior correlação para a codificação da banda estendida. De acordo com NPL 1 e NPL 2, o número de bits codificado é predeterminado para o lado de banda baixa de até 7 kHz e o lado de banda alta de 7 kHz ou maior, respectivamente, e o lado de banda baixa e o lado de banda alta são codificados com os números de bits codificados respectivamente determinados.
[0004] NPL 3 também descreve que um esquema para codificarSWB é padronizado em ITU-T. O aparelho de codificação de acordo com NPL 3 transforma um sinal de entrada em um domínio de frequência através de MDCT, divide o sinal de entrada em sub-bandas e realiza a codificação em uma base de sub-banda. Mais especificamente, esse aparelho de codificação primeiramente calcula a energia de cada sub-banda e realiza a codificação. Em seguida, o aparelho de codificação aloca bits codificados para codificar uma estrutura fina de frequência para cada sub-banda com base na energia de sub-banda para codificar a estrutura fina de frequência. A estrutura fina de fre-quência é codificada com o uso de quantização de vetor em malha. Conforme com FPC ou AVQ, a quantização de vetor em malha também é um tipo de codificação de transformada adequada para a codificação de espectro. Visto que os bits codificados não são suficientemente alocados em quantização de vetor em malha, pode existir um grande erro entre a energia do espectro decodificado e a energia de sub-banda. Nesse caso, a codificação é realizada através do processamento de preencher o erro entre a energia de sub-banda e a energia do espectro decodificado com um vetor de ruído.
[0005] NPL 4 descreve uma técnica de codificação que usa AAC(codificação de áudio avançada). A AAC calcula um limiar de masca- ramento com base em um modelo perceptivo, exclui coeficientes de MDCT iguais ou menores que o limiar de mascaramento a partir de alvos de codificação e, assim, realiza de modo eficaz a codificação.
LISTA DE CITAÇÃOLITERATURA DE NÃO PATENTE
[0006] NPL 1
[0007] ITU-T Padrão G.718 Anexo B, 2010
[0008] NPL 2
[0009] ITU-T Padrão G.729.1 Anexo E, 2010
[0010] NPL 3
[0011] ITU-T Padrão G.719, 2008
[0012] NPL 4
[0013] MP3 e AAC explicados, AES 17th International Conferenceon High Quality Audio Coding, 1999
SUMÁRIO DA INVENÇÃO PROBLEMA DA TÉCNICA
[0014] De acordo com NPL 1 e NPL 2, os bits são alocados demaneira fixa para o lado de banda baixa a ser codificado pela seção de codificação de núcleo e o lado de banda alta a ser codificado pela seção de codificação otimizada, e não é possível alocar adequadamente os bits codificados para a banda baixa e a banda alta de acordo com as características de sinais. Por essa razão, há um problema que o desempenho suficiente não pode ser exibido dependendo das características de sinais de entrada.
[0015] Entretanto, de acordo com NPL 3, é fornecido um mecanismo para alocar adaptativamente bits a partir da banda baixa para a banda alta de acordo com a energia de sub-bandas, mas focalizando em uma característica perceptiva que quanto maior a banda, menor é a sensibilidade a um erro espectral, há um problema que mais bits que necessário devem ser provavelmente alocados para a banda alta. Esses problemas serão descritos abaixo.
[0016] Em um processo de codificação, uma quantidade de bit necessária para cada sub-banda é calculada de modo que quanto maior a energia de sub-banda calculada para cada sub-banda, mais bits são alocados. Contudo, com a codificação de transformada, de acordo com a natureza do algoritmo, mesmo quando o número de bits codificados alocados é aumentado por um bit, o desempenho de codificação pode não se aperfeiçoar e o resultado de codificação pode não alterar, a menos que um determinado número substancial de bits seja alocado. Por essa razão, pode ser conveniente se os bits forem alocados não bit por bit, mas em unidades de um determinado número substancial de bits. Tal unidade de bits necessária para a codificação é chamada de "unidade" doravante. Quanto maior o número de unidades alocadas, mais precisamente o formato e a amplitude de um espectro podem ser expressos. É uma prática geral, em consideração da característica perceptiva, que uma largura de banda mais larga é tomada para sub-bandas em uma banda superior que em uma banda inferior, mas quanto mais larga a largura de banda, mais bits são necessários para uma unidade e, portanto, o número de bits por unidade é alterado de acordo com a largura de banda.
[0017] Na codificação de transformada considerada na presenteinvenção, visto que um espectro é aproximado por um pequeno número de sequências de pulso em um domínio de frequência, os bits codificados alocados em uma base de unidade para as informações de amplitude e as informações de posição são consumidos.
[0018] Além disso, de acordo com NPL 4, a codificação é realizadade modo eficaz excluindo-se coeficientes de MDCT que não são importantes em termos de características perceptuais a partir de alvos de codificação, mas as informações de posição de espectros individuais a serem codificados são precisamente expressadas. Por essa razão, quanto mais larga a largura de banda de uma sub-banda, mais bits precisam ser consumidos para expressar posições de espectros individuais.
[0019] Contudo, a sensibilidade perceptiva a uma posição espectral se deteriora à medida que a banda se torna maior, e se a energia de sub-banda e amplitude espectral principal puderem ser expressas, a deterioração perceptiva é dificilmente percebida. No entanto, de acordo com NPL 3 e NPL 4, mais bits são consumidos também em uma banda alta de modo que as posições de espectros individuais possam ser expressas de maneira precisa. Isto é, há um problema que mais bits codificados que necessários são usados para expressar precisamente posições espectrais.
[0020] Um objetivo da presente invenção é fornecer um aparelhode codificação de fala/áudio, um aparelho de decodificação de fa- la/áudio, um método de codificação de fala/áudio e um método de de- codificação de fala/áudio capazes de reduzir o número de bits codificados a serem alocados para a codificação de um espectro de uma banda estendida, enquanto que evitam a deterioração da qualidade de som na banda estendida.
SOLUÇÃO PARA O PROBLEMA
[0021] A presente invenção atinge o objetivo acima por meios definidos nas reivindicações independentes. Modalidades preferidas são reivindicadas nas reivindicações dependentes.
[0022] Um aparelho de codificação de fala/áudio de acordo com apresente invenção inclui: uma seção de transformação de tem- po/frequência que transforma um sinal de entrada de domínio de tempo em um espectro de domínio de frequência; uma seção de divisão que divide o espectro em sub-bandas; uma seção de compressão de banda que divide um espectro em uma sub-banda dentro de uma banda estendida em combinações de uma pluralidade de amostras em ordem a partir de um lado de banda baixa ou um lado de banda alta, que seleciona espectros que têm grandes valores absolutos de amplitude entre as combinações, que dispõe firmemente os espectros sele- cionados no domínio de frequência, e que comprime a banda da subbanda; e uma seção de codificação de transformada que codifica um espectro de uma sub-banda menor que a banda estendida e um espectro comprimido por banda através da codificação de transformada.
[0023] Um aparelho de decodificação de fala/áudio de acordo coma presente invenção inclui: uma seção de decodificação de codificação de transformada que decodifica dados codificados que resultam da codificação de transformada de um espectro em uma banda de subbanda obtido dividindo-se um espectro de uma sub-banda dentro de uma banda estendida em combinações de uma pluralidade de amostras em ordem a partir de um lado de banda baixa ou um lado de banda alta, selecionando-se espectros que têm grandes valores absolutos de amplitude dentre as combinações, dispondo-se firmemente os espectros selecionados em um domínio de frequência e comprimindo-se a banda da sub-banda e um espectro de uma sub-banda menor que a banda estendida; uma seção de extensão de banda que estende a largura de banda da sub-banda comprimida a uma largura de banda da sub-banda original; uma seção de integração de sub-banda que integra um espectro de uma sub-banda menor que a banda estendida decodificada e um espectro de uma sub-banda dentro da banda estendida em um vetor; e uma seção de transformação de frequência/tempo que transforma o espectro de domínio de frequência integrado em um sinal de domínio de tempo.
[0024] Um método de codificação de fala/áudio de acordo com apresente invenção inclui: transformar um sinal de entrada de domínio de tempo em um espectro de domínio de frequência; dividir o espectro em sub-bandas; dividir um espectro em uma sub-banda dentro de uma banda estendida em combinações de uma pluralidade de amostras em ordem a partir de um lado de banda baixa ou um lado de banda alta, selecionar espectros que têm grandes valores absolutos de amplitude entre as combinações, dispor firmemente os espectros selecionados no domínio de frequência e comprimir a banda da sub-banda; e codificar um espectro de uma sub-banda menor que a banda estendida e um espectro comprimido por banda através da codificação de transformada.
[0025] Um método de decodificação de fala/áudio de acordo com apresente invenção inclui: decodificar dados codificados que resultam da codificação de transformada de um espectro em uma banda de sub-banda obtido dividindo-se um espectro de uma sub-banda dentro de uma banda estendida em combinações de uma pluralidade de amostras em ordem a partir de um lado de banda baixa ou um lado de banda alta, selecionando-se espectros que têm grandes valores absolutos de amplitude dentre as combinações, dispondo-se firmemente os espectros selecionados em um domínio de frequência e comprimindose a banda da sub-banda e um espectro de uma sub-banda menor que a banda estendida; estender a largura de banda da sub-banda comprimida a uma largura de banda da sub-banda original; integrar um espectro de uma sub-banda menor que a banda estendida decodificada e um espectro de uma sub-banda dentro da banda estendida em um vetor; e transformar o espectro de domínio de frequência integrado em um sinal de domínio de tempo.
EFEITOS VANTAJOSOS DA INVENÇÃO
[0026] De acordo com a presente invenção, é possível reduzir onúmero de bits codificados a serem alocados para a codificação de um espectro de uma banda estendida, enquanto que se evita a deterioração da qualidade de som na banda estendida.
BREVE DESCRIÇÃO DOS DESENHOS
[0027] A FIGURA 1 é um diagrama de blocos que ilustra uma configuração de um aparelho de codificação de fala/áudio de acordo com as modalidades 1, 3 e 5 da presente invenção; As FIGURAS 2A a 2C são diagramas fornecidos para descrever a compressão de banda;A FIGURA 3 é um diagrama fornecido para descrever a operação de uma seção de recálculo de número de unidade;A FIGURA 4 é um diagrama de blocos que ilustra uma con-figuração de um aparelho de decodificação de fala/áudio de acordo com as modalidades 1, 3 e 5 da presente invenção;A FIGURA 5 é um diagrama fornecido para descrever a extensão de banda;A FIGURA 6 é um diagrama de blocos que ilustra outra configuração do aparelho de codificação de fala/áudio de acordo com a modalidade 1 da presente invenção;A FIGURA 7 é um diagrama de blocos que ilustra outra configuração do aparelho de decodificação de fala/áudio de acordo com a modalidade 1 da presente invenção;A FIGURA 8 é um diagrama de blocos que ilustra uma con-figuração de um aparelho de codificação de fala/áudio de acordo com a modalidade 2 da presente invenção;A FIGURA 9 é um diagrama de blocos que ilustra uma con-figuração de um aparelho de decodificação de fala/áudio de acordo com a modalidade 2 da presente invenção;A FIGURA 10 é um diagrama que ilustra uma banda estendida com base nas informações de correção de posição;A FIGURA 11 é um diagrama de blocos que ilustra uma configuração de um aparelho de codificação de fala/áudio de acordo com a modalidade 4 da presente invenção;As FIGURAS 12A a 12D são diagramas fornecidos para descrever a intercalação;A FIGURA 13 é um diagrama de blocos que ilustra uma configuração de um aparelho de decodificação de fala/áudio de acordo com a modalidade 4 da presente invenção;A FIGURA 14 é um diagrama que ilustra um exemplo decompressão de banda;A FIGURA 15 é um diagrama que ilustra um exemplo deextensão de banda;A FIGURA 16 é um diagrama de blocos que ilustra umaconfiguração de um aparelho de codificação de fala/áudio de acordo com a modalidade 6 da presente invenção;A FIGURA 17 é um diagrama que ilustra um exemplo de codificação de transformada não acompanhada por limitação de banda;A FIGURA 18 é um diagrama que ilustra um exemplo de codificação de transformada acompanhada por limitação de banda; eA FIGURA 19 é um diagrama de blocos que ilustra uma configuração de um aparelho de decodificação de fala/áudio de acordo com a modalidade 6 da presente invenção.
DESCRIÇÃO DAS MODALIDADES
[0028] Doravante, as modalidades da presente invenção serãodescritas em detalhes com referência aos desenhos anexados. Entretanto, os componentes entre as modalidades que têm a mesma função são designados com os mesmos números de referência e a descrição sobreposta será omitida.
MODALIDADE 1
[0029] A FIGURA 1 é um diagrama de blocos que ilustra uma configuração de aparelho de codificação de fala/áudio 100 de acordo com a modalidade 1 da presente invenção. Doravante, a configuração de aparelho de codificação de fala/áudio 100 será descrita com o uso da FIGURA 1.
[0030] A seção de transformação de tempo/frequência 101 adquireum sinal de entrada, transforma o sinal de entrada de domínio de tem- po adquirido em um sinal de domínio de frequência e emite o sinal de domínio de frequência para a seção de divisão de sub-banda 102 como um espectro de sinal de entrada. Deve-se observar que na modalidade, MDCT será descrito como um exemplo de transformação de tempo/frequência, mas a transformação ortogonal, tal como FFT (transformada rápida de Fourier) ou DCT (transformada discreta de cosseno) também pode ser usada.
[0031] A seção de divisão de sub-banda 102 divide o espectro desinal de entrada emitido a partir da seção de transformação de tem- po/frequência 101 em M sub-bandas e emite o espectro de sub-banda para a seção de cálculo de energia de sub-banda 103 e a seção de compressão de banda 105. Com as características perceptuais humanas levadas em conta, a divisão não uniforme é geralmente realizada de modo que quanto menor a banda, mais estreita se torna a largura de banda, e quanto maior a banda, mais ampla se torna a largura de banda. A presente modalidade também será descrita com base nessa premissa. Supõe-se que um comprimento de sub-banda de uma n- ésima sub-banda seja representado por W[n] e um vetor de espectro de sub-banda seja representado por Sn. Cada Sn armazena W[n] es-pectros. Supõe-se que haja uma relação de W[k-1]<W[k]. Um exemplo do esquema de codificação que realiza a divisão não uniforme é ITU-T G.719. G.719 transforma em tempo/frequência um sinal de entrada que tem uma taxa de amostragem de 48 kHz. Depois disso, G.719 divide o espectro em sub-bandas em cada 8 pontos no domínio de frequência na banda menor e divide o espectro em sub-bandas em cada 32 pontos na banda maior. Deve-se observar que G.719 é um esquema de codificação que pode usar muitos bits codificados a partir de 32 kbps a 128 kbps, mas para reduzir adicionalmente a taxa de bit, é útil aumentar o comprimento de cada sub-banda e aumentar o comprimento de sub-banda para bandas altas, em particular.
[0032] A seção de cálculo de energia de sub-banda 103 calcula aenergia para cada sub-banda a partir do espectro de sub-banda emitido a partir da seção de divisão de sub-banda 102, emite a energia de sub-banda quantizada para a seção de cálculo de número de unidade 104 e emite os dados codificados de energia de sub-banda obtidos pela codificação da energia de sub-banda para a seção de multiplexa- ção 108. Aqui, supõe-se que a energia de sub-banda seja a energia de um espectro incluído na sub-banda expressa pelo logaritmo de base 2. Uma equação de cálculo de energia de sub-banda é mostrada na seguinte equação 1.
Figure img0001
[0033] Aqui, n representa um número de sub-banda, E[n] representa energia de sub-banda de sub-banda n, W[n] representa um comprimento de sub-banda de sub-banda n e Sn[i] representa um i- ésimo espectro da n-ésima sub-banda. Supõe-se que o comprimento de sub-banda seja registrado antecipadamente na seção de cálculo de energia de sub-banda 103.
[0034] A seção de cálculo de número de unidade 104 calcula umnúmero provisório de bits alocados a serem alocados para uma subbanda com base na energia de sub-banda quantizada emitida a partir da seção de cálculo de energia de sub-banda 103, e emite o número provisório de bits alocados em conjunto com o número de unidade calculado para a seção de recálculo de número de unidade 106. Conforme com a seção de cálculo de energia de sub-banda 103, supõe-se que o comprimento de sub-banda é registrado antecipadamente na seção de cálculo de número de unidade 104. Basicamente, quanto maior a energia de sub-banda E[n], mais bits codificados são alocados. Contudo, os bits codificados são alocados em uma base de uni- dade e o número de bits por unidade depende do comprimento de subbanda. Por essa razão, é necessário fazer uma alocação ideal que inclui alocação de bit em outras sub-bandas. Os detalhes da seção de cálculo de número de unidade 104 serão descritos posteriormente.
[0035] A seção de compressão de banda 105 comprime cada subbanda em uma banda estendida com o uso do espectro de sub-banda emitido a partir da seção de divisão de sub-banda 102 e emite a subbanda no lado de banda baixa e um espectro comprimido por subbanda que inclui a sub-banda comprimida para a seção de codificação de transformada 107. É um objetivo da compressão de banda deletar informações sobre uma posição de espectro, enquanto que deixa um espectro principal como um alvo de codificação e reduzir, assim, o número de bits codificados exigidos para a codificação de transformada. Os detalhes da seção de compressão de banda 105 serão descritos posteriormente.
[0036] A seção de recálculo de número de unidade 106 realoca osbits reduzidos na sub-banda comprimida por banda para uma banda baixa fora da banda estendida com base no número provisório de bits alocados e no número de unidades emitido a partir da seção de cálculo de número de unidade 104. A seção de recálculo de número de unidade 106 realoca o número de unidades com base no bit realocado e emite o número de unidades realocadas para a seção de codificação de transformada 107. Os detalhes da seção de recálculo de número de unidade 106 serão descritos posteriormente.
[0037] A seção de codificação de transformada 107 codifica o espectro comprimido por sub-banda a partir da seção de compressão de banda 105 através da codificação de transformada e emite os dados codificados por transformada para a seção de multiplexação 108. Como o esquema de codificação de transformada, um esquema de codificação de transformada, tal como FPC, AVQ ou LVQ, é usado. A se- ção de codificação de transformada 107 codifica o espectro comprimido por sub-banda inserido com o uso de bits codificados determinados pelo número de unidades realocadas emitidas a partir da seção de re- cálculo de número de unidade 106. À medida que o número de unidades realocadas aumenta, é possível aumentar o número de pulsos para aproximar o espectro oi tornar o valor de amplitude do mesmo mais preciso. Se aumentar o número de pulsos ou aperfeiçoar a precisão de amplitude é determinado com o uso da distorção entre o espectro de entrada a ser codificado e o espectro decodificado como uma referência.
[0038] A seção de multiplexação 108 multiplexa os dados codificados de energia de sub-banda emitidos a partir da seção de cálculo de energia de sub-banda 103 e os dados codificados por transformada emitidos a partir da seção de codificação de transformada 107 e emite os dados multiplexados como dados codificados.
[0039] Aqui, o método de alocação de número de unidade na seção de cálculo de número de unidade 104 mostrada na FIGURA 1 será descrito com um exemplo específico. Primeiramente, a seção de cálculo de número de unidade 104 calcula o número de bits alocados para cada sub-banda com base na energia de sub-banda emitida a partir da seção de cálculo de energia de sub-banda 103. Doravante, o número de bits calculados é chamado de um "número provisório de bits alocados". Por exemplo, quando o número total de bits codificados dado para codificar uma estrutura fina de espectro é 320 bits, e a energia de sub-banda total de sub-bandas respectivas calculada de acordo com a equação 1 e, então, quantizada é 160, visto que 320/160=2,0, a energia de cada sub-banda multiplicada por 2,0 pode ser presumida como o número provisório de bits alocados.
[0040] Em seguida, a seção de cálculo de número de unidade 104determina bits a serem realmente alocados para cada sub-banda (do- ravante mencionado como "número de bits alocados"), mas visto que os bits codificados são alocados em uma base de unidade na codificação de transformada, o número provisório de bits alocados pode não ser presumido como o número de bits alocados sem alteração. Por exemplo, quando o número provisório de bits alocados é 30 e uma unidade é 7 bits, se o número de bits alocados não exceder o número provisório de bits alocados, o número de unidades é 4, o número de bits alocados é 28 e 2 bits são bits redundantes em relação ao número provisório de bits alocados.
[0041] Desse modo, quando o número de bits alocados é sequencialmente calculado para cada sub-banda, o excesso ou deficiência pode ocorrer no número de bits codificados em um ponto no tempo em que o cálculo é completado para todas as sub-bandas. Por essa razão, é necessário encontrar uma forma de alocar de modo eficaz bits codificados. Por exemplo, os bits podem ser alocados sem excesso ou deficiência adicionando-se bits redundantes gerados em uma determinadas sub-banda ao número provisório de bits alocados na próxima subbanda.
[0042] Isso será descrito com o uso de um exemplo específico.Aqui, um caso em que somente as informações de posição de um pulso para aproximar um espectro são codificadas será descrito como um exemplo, e supõe-se que as informações de posição são simplesmente adicionadas toda vez que o número de pulsos codificados aumenta. Por exemplo, se o comprimento de sub-banda for 32, visto que 32 é 2 elevado à potência de 5, um mínimo de 5 bits é necessário tornar as posições espectrais dentro da sub-banda os alvos de codificação. Isto é, uma unidade nessa sub-banda é 5 bits.
[0043] Se o número provisório de bits alocados calculado a partirda energia de uma sub-banda for 33, o número de unidades alocadas é 6, o número de bits alocados é 30, e os bits redundantes são 3 bits. Contudo, se dois bits redundantes forem gerados na sub-banda precedente, dois bits redundantes da sub-banda precedente são adicionados ao número provisório de bits alocados dessa sub-banda e o número provisório de bits alocados se torna 35. Como um resultado, o número de unidades é 7 e o número de bits alocados é 35. Isto é, os bits redundantes são 0 bits. Mediante a repetição de maneira sequencial desse processo para todas as sub-bandas, a alocação de unidade eficaz é possível.
[0044] Em seguida, um método de compressão de banda na seção de compressão de banda 105 mostrado na FIGURA 1 será descrito. Como o método de compressão de banda, será descrito um caso como um exemplo, em que combinações de duas amostras são criadas em ordem a partir do lado de banda baixa da sub-banda submetida à compressão de banda e uma amostra de cada combinação que tem um valor absoluto de amplitude maior é deixada.
[0045] As FIGURAS 2A a 2C são diagramas fornecidos para descrever a compressão de banda. As FIGURAS 2A a 2C ilustram uma situação em que a sub-banda submetida à compressão de banda n é extraída em uma banda estendida, e supõe-se que o comprimento de sub-banda seja W(n), o eixo geométrico horizontal mostra uma frequência e o eixo geométrico vertical mostra um valor absoluto de amplitude de um espectro.
[0046] A FIGURA 2A ilustra um espectro de sub-banda antes dacompressão de banda. Nesse exemplo, supõe-se que uma largura de banda antes da compressão de banda seja W(n)=8. A seção de compressão de banda 105 cria combinações de duas amostras em ordem a partir do lado de banda baixa a partir dos espectros de sub-banda emitido a partir da seção de divisão de sub-banda 102 e deixa um espectro que tem um valor absoluto maior de amplitude de cada combinação. No exemplo na FIGURA 2A, de uma combinação de espectros localizada em primeira e segunda posições, o segundo espectro é selecionado e o primeiro espectro é descartado. Semelhantemente, a seção de compressão de banda 105 seleciona um espectro maior a partir de uma combinação de terceira e quarta posições, uma combinação de quinta e sexta posições e uma combinação de sétima e oitava posições, respectivamente. Os resultados de seleção são conforme mostrados na FIGURA 2B e quatro espectros na segunda, quarta, quinta e oitava posições são selecionados.
[0047] Em seguida, a seção de compressão de banda 105 comprime por banda os espectros selecionados. A compressão de banda é realizada dispondo-se firmemente os espectros selecionados no lado de banda baixa no domínio de frequência. Como um resultado, os espectros de sub-banda comprimidos por banda são expressos na FIGURA 2C e a largura de banda após a compressão de banda se torna metade da largura de banda antes da compressão. Quando também se considera um caso em que a largura de banda antes da compressão é um número ímpar, a largura de sub-banda W’(n) após a compressão de banda pode ser expressa pela seguinte equação 2.
Figure img0002
[0048] Na equação 2, (int) denota uma função que descarta todosos dígitos à direita do ponto decimal para tornar número inteiro, % denota um operador para calcular um resto.
[0049] Desse modo, com cada sub-banda submetida à compressão de banda na banda estendida, é possível reduzir a largura de banda na metade, enquanto que se deixa espectros que têm um valor absoluto maior de amplitude entre as combinações de duas amostras em ordem a partir do lado de banda baixa.
[0050] Em seguida, será descrito um método de recálculo de número de unidade na seção de recálculo de número de unidade 106 mostrado na FIGURA 1. A seção de recálculo de número de unidade 106 é similar à seção de cálculo de número de unidade 104 pelo fato de que calcula o número de bits alocados para aproximar ao número provisório de bits alocados, mas é diferente pelo fato de que mantém o número de unidades calculado na seção de cálculo de número de unidade 104 na sub-banda submetida à compressão de banda e que rea- loca os bits reduzidos na sub-banda submetida à compressão de banda para a banda baixa.
[0051] Com a finalidade de realocar os bits reduzidos na subbanda submetida à compressão de banda para a banda baixa, a seção de recálculo de número de unidade 106 primeiramente confirma o número de bits alocados da sub-banda submetida à compressão de banda. Visto que o número de unidades é fixo e o comprimento de subbanda é reduzido pela compressão de banda, o número de bits alocados pode ser reduzido. Aqui, visto que foi descrito um caso em que o comprimento de sub-banda é reduzido na metade através da compressão de banda, o número de bits por unidade é reduzido em 1. Quando o número total de unidades da sub-banda submetida à compressão de banda é 10, o número de bits pode ser reduzido em 10.
[0052] Mediante a adição dos bits que têm sido reduzidos de maneira bem sucedida ao número provisório de bits alocados nas subbandas de banda baixa, mais unidades podem ser alocadas para as sub-bandas de banda baixa. Aqui, supõe-se que os bits reduzidos sejam adicionados ao número provisório de bits alocados na sub-banda mais baixa para simplificar. Como um resultado, o número provisório de bits alocados aumenta na sub-banda de banda mais baixa e, portanto, pode se esperar que o número de unidades alocadas aumente.
[0053] Doravante, os bits redundantes gerados nessa sub-bandaao sequencialmente adicionados ao número provisório de bits alocados nas sub-bandas no lado de banda alta e as unidades são realoca- das. Repetindo-se isso até a sub-banda imediatamente antes da subbanda submetida à compressão de banda, é possível realocar unidades para todas as sub-bandas após a compressão de banda.
[0054] A FIGURA 3 mostra um diagrama fornecido para descrevera operação de seção de recálculo de número de unidade 106. A fileira superior na FIGURA 3 (fileira descrita como "sub-banda") mostra uma imagem de divisão de sub-banda. Supõe-se que uma banda seja dividida em sub-bandas 1 a M, com a sub-banda 1 sendo uma sub-banda no lado de banda mais baixa e a sub-banda M sendo uma sub-banda no lado de banda mais alta. Supõe-se que as sub-bandas 1 a (kh-1) correspondam ao lado de banda baixa não submetido à compressão de banda e as sub-bandas kh a M correspondam às sub-bandas submetidas à compressão de banda.
[0055] A fileira central (fileira descrita como "saída da seção decálculo de número de unidade") mostra o número de unidades emitido a partir da seção de cálculo de número de unidade 104. Como o número de unidades, supõe-se que u(k) seja designado para sub-banda k pela seção de cálculo de número de unidade 104.
[0056] A seção de recálculo de número de unidade 106 usa u(k)calculado na seção de cálculo de número de unidade 104 sem alteração para a sub-banda kh à sub-banda M. Isso é pretendido para manter o número de pulsos para aproximar um espectro mesmo depois de comprimir uma largura de banda. A largura de banda é, assim, comprimida, enquanto que se mantém o desempenho de aproximação de espectro nas sub-bandas comprimidas por banda, e é possível, assim, reduzir o número de bits codificados e converter os bits reduzidos em bits redundantes.
[0057] Na FIGURA 3, a fileira inferior (fileira descrita como "saídada seção de recálculo de número de unidade") mostra uma imagem de saída da seção de recálculo de número de unidade 106. Visto que a seção de recálculo de número de unidade 106 usa a saída da seção de cálculo de número de unidade 104 conforme é para a sub-banda kh à sub-banda M, o número de unidades é mantido em u(k). A seção de recálculo de número de unidade 106 pode usar bits redundantes para sub-bandas no lado de banda baixa e calcular novamente u’(k). Isso permite que a precisão de codificação de espectros de banda baixa, os quais são perceptivamente importantes, seja aumentada e pode, assim, aperfeiçoar a qualidade de som total.
[0058] Foi descrito um exemplo em que todos os bits reduzidosnas sub-bandas comprimidas por banda são adicionados ao número provisório de bits alocados da sub-banda no lado de banda mais baixa, mas também é possível alocar uniformemente o número de reduzidos bits alocados para sub-bandas cujo número de bits alocados não é calculado ainda e adicionar os mesmos ao número provisório de bits alocados dessas sub-bandas. Alternativamente, mais bits podem ser adicionados a uma sub-banda que tem energia de sub-banda maior. O processamento nem sempre precisa ser realizado em ordem ascendente a partir do lado de banda baixa ao lado de banda alta.
[0059] Com a configuração descrita acima, o aparelho de codificação de fala/áudio 100 comprime por banda cada sub-banda na banda estendida, reduz bits codificados, realoca os bits codificados reduzidos para a banda baixa como bits redundantes e pode, assim, aperfeiçoar a qualidade de som.
[0060] A FIGURA 4 é um diagrama de blocos que ilustra uma configuração de aparelho de decodificação de fala/áudio 200 de acordo com a modalidade 1 da presente invenção. O número de unidades ou o número de bits por unidade não é transmitido e, portanto, o número precisa ser calculado no lado de aparelho de decodificação. Por essa razão, o aparelho de decodificação de fala/áudio 200 é dotado de uma seção de cálculo de número de unidade e uma seção de recálculo de número de unidade, conforme no caso do aparelho de codificação. A configuração do aparelho de decodificação de fala/áudio 200 será descrita abaixo com o uso da FIGURA 4.
[0061] A seção de demultiplexação de código 201 recebe dadoscodificados, demultiplexa os dados codificados recebidos em dados codificados de energia de sub-banda e dados codificados por transformada, emite os dados codificados de energia de sub-banda para a seção de decodificação de energia de sub-banda 202 e dados codificados por transformada para a seção de decodificação/codificação de transformada 205.
[0062] A seção de decodificação de energia de sub-banda 202 decodifica os dados codificados de energia de sub-banda emitidos a partir da seção de demultiplexação de código 201 e emite a energia de sub-banda quantizada obtida pela decodificação para a seção de cálculo de número de unidade 203.
[0063] A seção de cálculo de número de unidade 203 calcula onúmero provisório de bits alocados e o número de unidades com o uso da energia de sub-banda quantizada emitida a partir da seção de de- codificação de energia de sub-banda 202 e emite o número provisório de bits alocados calculados e o número de unidades para a seção de recálculo de número de unidade 204. Deve-se observar que a seção de cálculo de número de unidade 203 é idêntica à seção de cálculo de número de unidade 104 do aparelho de codificação de fala/áudio 100 e, portanto, a descrição detalhada da mesma será omitida.
[0064] A seção de recálculo de número de unidade 204 calcula onúmero de unidades realocadas com base no número provisório de bits alocados e no número de unidades emitido a partir da seção de cálculo de número de unidade 203 e emite o número de unidades rea- locadas calculado para a seção de decodificação/codificação de transformada 205. A seção de recálculo de número de unidade 204 é idên- tica à seção de recálculo de número de unidade 106 do aparelho de codificação de fala/áudio 100 e, portanto, a descrição detalhada da mesma será omitida.
[0065] A seção de decodificação/codificação de transformada 205emite um resultado de decodificação para cada sub-banda para a seção de extensão de banda 206 conforme um espectro comprimido por sub-banda com base nos dados codificados por transformada emitidos a partir da seção de demultiplexação de código 201 e o número de unidades realocadas emitido a partir da seção de recálculo de número de unidade 204. A seção de decodificação/codificação de transformada 205 adquire o número de bits codificados exigidos para a codificação a partir do número de unidades realocadas e decodifica os dados codificados por transformada.
[0066] Em uma sub-banda não submetida à compressão de bandaentre os espectros comprimidos por sub-banda emitidos a partir da seção de decodificação/codificação de transformada 205, a seção de extensão de banda 206 emite o espectro comprimido por sub-banda tal como se encontra para a seção de integração de sub-banda 207 como um espectro de sub-banda. Em uma sub-banda submetida à compressão de banda entre os espectros comprimidos por sub-banda emitidos a partir da seção de decodificação/codificação de transformada 205, a seção de extensão de banda 206 estende o espectro comprimido por sub-banda a uma largura da sub-banda e emite o espectro estendido para a seção de integração de sub-banda 207 como um espectro de sub-banda.
[0067] De acordo com a presente modalidade, a seção de compressão de banda 105 do aparelho de codificação de fala/áudio 100 realiza a compressão de banda com o uso de um método para criar combinações de duas amostras em ordem a partir do lado de banda baixa da sub-banda comprimida por banda e deixando-se uma amos- tra de um valor absoluto maior de amplitude de cada combinação e, portanto, a seção de extensão de banda 206 armazena espectro decodificado alternado em um endereço de número par ou endereço de número ímpar, e pode, assim, obter um espectro estendido a uma largura de banda original (largura de banda antes da compressão). Nesse caso, um desvio de posição do espectro de sub-banda decodificado é um máximo de uma amostra. Os detalhes da seção de extensão de banda 206 serão descritos posteriormente.
[0068] A seção de integração de sub-banda 207 dispõe firmemente os espectros de sub-banda emitidos a partir da seção de extensão de banda 206 a partir do lado de banda baixa, integra os mesmos em um vetor e emite o vetor integrado para a seção de transformação de frequência/tempo 208 como um espectro de sinal decodificado.
[0069] A seção de transformação de frequência/tempo 208 transforma o espectro de sinal decodificado, o qual é um sinal de domínio de frequência emitido a partir da seção de integração de sub-banda 207, em um sinal de domínio de tempo e emite o sinal decodificado.
[0070] Em seguida, será descrito o método de extensão de bandana seção de extensão de banda 206 mostrado na FIGURA 4. A FIGURA 5 mostra um diagrama fornecido para descrever a extensão de banda. Contudo, na FIGURA 5, conforme no caso da FIGURA 2, supõe-se que o comprimento de sub-banda seja W(n), o eixo geométrico horizontal mostra uma frequência, o eixo geométrico vertical mostra um valor absoluto de amplitude de um espectro e será descrito um caso em que o espectro comprimido por sub-banda mostrado na FIGURA 2C é estendido.
[0071] Um espectro comprimido por sub-banda localizado na posição 1 após a compressão de banda existiu na posição 1 ou posição 2 antes da compressão. Semelhantemente, um espectro comprimido por sub-banda localizado na posição 2 após a compressão de banda exis- tiu na posição 3 ou posição 4 antes da compressão. Semelhantemente, os espectros comprimidos por sub-banda existente na posição 3 e posição 4 após a compressão de banda existiu na posição 5 ou posição 6, e posição 7 ou posição 8, respectivamente.
[0072] Visto que a seção de extensão de banda 206 não pode saber em qual posição um espectro após a compressão de banda existiu antes da compressão de banda, a seção de extensão de banda 206 estende o espectro após a compressão de banda colocando-se o espectro em qualquer posição. No exemplo na FIGURA 5, o espectro comprimido por sub-banda na posição 1 após a compressão de banda é colocado na posição 1 após a extensão, o espectro comprimido por sub-banda na posição 2 após a compressão de banda é colocado na posição 3 após a extensão, e assim por diante, isto é, os espectros comprimidos por sub-banda são sequencialmente colocados em endereços de número par. Como um resultado, somente o espectro localizado na posição de espectro 5 após a extensão é colocado em uma posição correta e os outros espectros são colocados em posições desviadas por uma amostra.
[0073] Com a configuração descrita acima, os dados codificadospodem ser decodificados pelo aparelho de decodificação de fala/áudio 200.
[0074] Dessa forma, de acordo com a modalidade 1, o aparelho decodificação de fala/áudio 100 cria combinações de duas amostras de espectros de sub-banda em ordem a partir do lado de banda baixa em uma sub-banda submetida à compressão de banda, seleciona um espectro que tem um valor absoluto maior de amplitude de cada combinação, dispõe firmemente os espectros selecionados no lado de banda baixa no domínio de frequência e pode, assim, diminuir espectros não perceptivamente importantes e comprimir a banda. Adicionalmente, é possível, assim, reduzir o número de bits alocados necessários para a codificação de transformada de um espectro.
[0075] De acordo com a modalidade 1, o número de bits alocadosreduzidos na sub-banda submetida à compressão de banda é realoca- do para a codificação de transformada de espectros em uma banda mais baixas que a banda estendida, e é possível, assim, expressar espectros perceptivamente importantes mais precisamente e, assim, aperfeiçoar a qualidade de som.
[0076] Foi descrito um caso na presente modalidade em que noaparelho de codificação de fala/áudio 100, a seção de cálculo de número de unidade 104 calcula o número de unidades e a seção de re- cálculo de número de unidade 106 calcula o número de unidades rea- locadas. Contudo, na presente invenção, conforme mostrado na FIGURA 6, as funções da seção de cálculo de número de unidade 104 e seção de recálculo de número de unidade 106 conforme o aparelho de codificação de fala/áudio 110 podem ser integradas na seção de cálculo de número de unidade 111.
[0077] Foi descrito um caso na presente modalidade em que noaparelho de decodificação de fala/áudio 200, a seção de cálculo de número de unidade 203 calcula o número de unidades e a seção de recálculo de número de unidade 204 calcula o número de unidades realocadas. Contudo, na presente invenção, conforme mostrado na FIGURA 7, as funções da seção de cálculo de número de unidade 203 e seção de recálculo de número de unidade 204 conforme o aparelho de decodificação de fala/áudio 210 podem ser integradas na seção de cálculo de número de unidade 211.
[0078] Foi descrito um caso na presente modalidade em que, como um método de compressão de banda, as combinações de duas amostras são criadas em ordem a partir do lado de banda baixa de uma sub-banda submetida à compressão de banda e uma amostra que tem um valor absoluto maior de amplitude de cada combinação é deixada, mas outros métodos de compressão de banda também podem ser usados. Por exemplo, sem se limitar às combinações de duas amostras, as combinações de três amostras ou mais podem ser criadas e uma amostra que tem o valor absoluto maior de amplitude de cada combinação pode ser deixada. Nesse case, é possível aumentar o número de bits que podem ser reduzidos por compressão de banda.
[0079] Ademais, quanto mais alta a banda, mais amostras podemser combinadas. Em vez de criar combinações em ordem a partir do lado de banda baixa, as combinações também podem ser criadas em ordem a partir do lado de banda alta.
MODALIDADE 2
[0080] A FIGURA 8 é um diagrama de blocos que ilustra uma configuração do aparelho de codificação de fala/áudio 120 de acordo com a modalidade 2 da presente invenção. A configuração do aparelho de codificação de fala/áudio 120 será descrita abaixo com o uso da FIGURA 8. A FIGURA 8 é diferente da FIGURA 1 pelo fato de que a seção de recálculo de número de unidade 106 é removida, a seção de cálculo de número de unidade 104 é alterada para a seção de cálculo de número de unidade 111 e a seção de atenuação de energia de subbanda 121 é adicionada.
[0081] A seção de atenuação de energia de sub-banda 121 causaa atenuação da energia de sub-banda da sub-banda submetida à compressão de banda da energia de sub-banda quantizada emitida a partir da seção de cálculo de energia de sub-banda 103 e emite a energia de sub-banda atenuada para a seção de cálculo de número de unidade 111.
[0082] A razão que a energia de sub-banda da sub-banda submetida à compressão de banda é induzida a atenuar será aqui descrita. Se a energia de sub-banda não for induzida a atenuar, conforme descrito na modalidade 1, os bits de alocação provisória são determinados pela seção de cálculo de número de unidade 111 com base nessa energia de sub-banda, mas se a banda for reduzida, por exemplo, pela metade através da compressão de banda, o número de bits de uma unidade é reduzido por um bit e, portanto, bits redundantes são gerados. Contudo, visto que a seção de recálculo de número de unidade 106 não está presente, os bits redundantes não podem ser sempre adequadamente realocados a partir de uma sub-banda no lado de banda alta para uma sub-banda no lado de banda baixa e podem ser desperdiçados.
[0083] Desse modo, a seção de atenuação de energia de subbanda 121 faz com que a energia de sub-banda se atenue em relação à sub-banda submetida à compressão de banda e, assim, evita que bits redundantes inúteis sejam gerados. Contudo, mesmo quando o comprimento de sub-banda é reduzido pela metade através da compressão de banda, os espectros principais são deixados e, portanto, o corte da energia de sub-banda pela metade pode resultar em atenuação excessiva. Desse modo, a seção de atenuação de energia de subbanda 121 pode, por exemplo, multiplicar a energia de sub-banda por uma taxa fixa, tal como 0,8, ou subtrair uma constante, por exemplo, 3,0 a partir da energia de sub-banda.
[0084] A FIGURA 9 é um diagrama de blocos que ilustra uma configuração do aparelho de decodificação de fala/áudio 220 de acordo com a modalidade 2 da presente invenção. Doravante, a configuração do aparelho de codificação de fala/áudio 220 será descrita com o uso da FIGURA 9. A FIGURA 9 é diferente da FIGURA 4 pelo fato de que a seção de recálculo de número de unidade 204 é eliminada, a seção de cálculo de número de unidade 104 é alterada para a seção de cálculo de número de unidade 211 e a seção de atenuação de energia de sub-banda 221 é adicionada.
[0085] A seção de atenuação de energia de sub-banda 221 causa a atenuação da energia de sub-banda da sub-banda submetida à compressão de banda da energia de sub-banda emitida a partir da seção de decodificação de energia de sub-banda 202 e emite a energia de sub-banda atenuada para a seção de cálculo de número de unidade 211. Contudo, a seção de atenuação de energia de sub-banda 221 realiza a atenuação sob a mesma condição que a seção de atenuação de energia de sub-banda 121 do aparelho de codificação de fala/áudio 120.
[0086] Desse modo, de acordo com a modalidade 2, o aparelho decodificação de fala/áudio 120 faz com que a energia de sub-banda da sub-banda submetida à compressão de banda se atenue de modo que os bits de alocação provisória tenham valores iguais àqueles no lado de codificação.
MODALIDADE 3
[0087] De acordo com a modalidade 1, a posição de espectro dasub-banda submetida à compressão de banda após a extensão pode se alterar a partir daquela da sub-banda antes da compressão de banda. Desse modo, para ao menos um espectro cujo valor absoluto de amplitude que tem uma grande influência sobre a percepção dentro de uma sub-banda é um espectro máximo (doravante mencionado como "espectro com amplitude máxima"), a posição de espectro pode ser adaptada para que não se altere antes e após a compressão de banda.
[0088] Será descrito um caso na modalidade 3 da presente invenção em que a posição de um espectro com amplitude máxima após a decodificação na sub-banda submetida à compressão de banda é corrigida.
[0089] As configurações de um aparelho de codificação de fa-la/áudio e um aparelho de decodificação de fala/áudio de acordo com a modalidade 3 da presente invenção são similares às configurações mostradas na modalidade 1 na FIGURA 1 e FIGURA 4, e são diferentes somente nas funções da seção de compressão de banda 105 e seção de extensão de banda 206 e, portanto, somente as funções diferentes serão descritas com referência à FIGURA 1 e FIGURA 4. Adicionalmente, as configurações serão descritas abaixo com o uso da FIGURA 2A, FIGURA 2B e FIGURA 5.
[0090] Com referência à FIGURA 1, a seção de compressão debanda 105 pesquisa por um espectro com amplitude máxima a partir dos espectros de sub-banda emitidos a partir da seção de divisão de sub-banda 102. A seção de compressão de banda 105 calcula informações de correção de posição que são presumidas como 0 se o espectro com amplitude máxima estiver localizado em um endereço de número par e presumidas como 1 se o espectro com amplitude máxima estiver localizado em um endereço de número ímpar e emite as informações de correção de posição para a seção de codificação de transformada 107. Na FIGURA 2B, visto que o espectro com amplitude máxima é um espectro localizado na posição 2 (endereço de número ímpar), a seção de compressão de banda 105 calcula as informações de correção de posição como 1. As informações de correção de posição calculadas são codificadas pela seção de codificação de transformada 107 e transmitidas para o aparelho de decodificação de fa- la/áudio 200.
[0091] Com referência à FIGURA 4, na sub-banda não submetidaà compressão de banda dos espectros comprimidos por sub-banda emitidos a partir da seção de decodificação/codificação de transformada 205, a seção de extensão de banda 206 presume o espectro comprimido por sub-banda como um espectro de sub-banda tal como se encontra e emite o espectro comprimido por sub-banda para a seção de integração de sub-banda 207. Na sub-banda submetida à compressão de banda dos espectros comprimidos por sub-banda emitidos a partir da seção de decodificação/codificação de transformada 205, a seção de extensão de banda 206 dispõe o espectro com amplitude máxima com base nas informações de correção de posição decodificadas, estende os espectros comprimidos por sub-banda restantes para a largura de sub-banda e emite o espectro comprimido por subbanda estendido para a seção de integração de sub-banda 207 como espectros de sub-banda. Aqui, visto que as informações de correção de posição são 1, o espectro com amplitude máxima é disposto em um endereço de número ímpar. Esse resultado é mostrado na FIGURA 10. Por ser visto a partir de uma comparação com a FIGURA 2A que o espectro com amplitude máxima localizado na posição 2 é disposto em uma posição correta. Deve-se observar que os espectros além do espectro com amplitude máxima podem ser deslocados por um máximo de uma amostra.
[0092] Desse modo, dispondo-se um espectro com amplitude máxima com base nas informações de correção de posição, é possível manter a posição de espectro do espectro com amplitude máxima antes e depois da compressão de banda.
[0093] Deve-se observar que, quando uma banda é reduzida pelametade, um bit precisa ser alocado para informações de correção de posição e, portanto, quando o número de unidades é 5, o número final de bits a serem reduzidos é 4 a partir dos cinco bits reduzidos e um bit que corresponde às informações de correção de posição a ser aumentado. Quando uma banda é comprimida para 1/4 e o número de unidades é 5, o número final de bits a serem reduzidos é 8 a partir dos dez bits reduzidos e dois bits que correspondem às informações de correção de posição a serem aumentados.
[0094] Desse modo, de acordo com a modalidade 3, o aparelho decodificação de fala/áudio 100 calcula 0 se o espectro com amplitude máxima da sub-banda submetida à compressão de banda estiver loca- lizado em um endereço de número par e calcula 1 se o espectro com amplitude máxima da sub-banda submetida à compressão de banda estiver localizado em um endereço de número ímpar, transmite o resultado do cálculo para o aparelho de decodificação de fala/áudio 200 e o aparelho de decodificação de fala/áudio 200 dispõe o espectro com amplitude máxima com base nas informações de correção de posição e pode, assim, manter a posição de espectro do espectro com amplitude máxima que tem uma grande influência sobre a percepção dentro de uma sub-banda antes e depois da compressão de banda.
[0095] Na presente modalidade, foi descrito tal cálculo que as informações de correção de posição são presumidas como 0 se o espectro com amplitude máxima estiver localizado em um endereço de número par e presumidas como 1 se o espectro com amplitude máxima estiver localizado em um endereço de número ímpar, mas a presente invenção não é limitada a isso. Por exemplo, as informações de correção de posição podem ser presumidas como 1 se o espectro com amplitude máxima estiver localizado em um endereço de número par e presumidas como 0 se o espectro com amplitude máxima estiver localizado em um endereço de número ímpar. Quando a sub-banda submetida à compressão de banda é comprimida para 1/3, 1/4, ou similares, as informações de correção de posição associadas à mesma são calculadas.
MODALIDADE 4
[0096] Foi descrito na Modalidade 1 um caso em que, conformeum método para comprimir uma banda, as combinações de duas amostras são criadas em ordem a partir do lado de banda baixa de uma sub-banda submetida à compressão de banda e uma amostra que tem um valor absoluto maior de amplitude de cada combinação é deixada. Contudo, em um caso em que um espectro que tem a próxima amplitude maior após o espectro com amplitude máxima (doravan- te mencionado como o "próximo espectro maior") é adjacente ao espectro com amplitude máxima, o próximo espectro maior pode ser excluído dos alvos de codificação. É confirmado a partir de uma observação que existem estocasticamente muitos casos em uma banda estendida em que um próximo espectro maior é adjacente a um espectro com amplitude máxima.
[0097] Desse modo, a modalidade 4 da presente invenção irá descrever um caso em que uma disposição de espectros de uma subbanda submetida à compressão de banda é alterada de acordo com um procedimento predeterminado (doravante mencionado como "intercalação") de modo que o espectro com amplitude máxima e o próximo espectro maior não sejam adjacentes um ao outro.
[0098] A FIGURA 11 é um diagrama de blocos que ilustra umaconfiguração do aparelho de codificação de fala/áudio 130 de acordo com a modalidade 4 da presente invenção. Doravante, a configuração do aparelho de codificação de fala/áudio 130 será descrita com o uso da FIGURA 11. Contudo, a FIGURA 11 é diferente da FIGURA 6 pelo fato de que o intercalador 131 é adicionado.
[0099] O intercalador 131 intercala a disposição de espectros desub-banda emitidos a partir da seção de divisão de sub-banda 102 e emite os espectros de sub-banda intercalados para a seção de compressão de banda 105.
[00100] As FIGURAS 12A a 12D mostram um diagrama fornecido para descrever a intercalação. As FIGURAS 12A a 12D mostram uma situação em que uma sub-banda n submetida à compressão de banda é extraída, e supõe-se que o comprimento de sub-banda seja representado por W(n), o eixo geométrico horizontal mostra uma frequência e o eixo geométrico vertical mostra um valor absoluto de amplitude de um espectro.
[00101] A FIGURA 12A mostra um espectro antes da compressão de banda, e supõe-se que o espectro na posição 2 seja um espectro com amplitude máxima e o espectro na posição 1 seja o próximo espectro maior. Aqui, se um espectro for selecionado com o uso do método mostrado na modalidade 1, o espectro na posição 2 é selecionado conforme mostrado na FIGURA 12B e o próximo espectro maior na posição 1 é excluído dos alvos de codificação.
[00102] A FIGURA 12C ilustra espectros após a intercalação. Mais especificamente, a FIGURA 12C ilustra uma situação em que os endereços de número par são redispostos no lado de banda baixa dos espectros e os endereços de número ímpar são redispostos no lado de banda alta dos espectros. Op(x) (x=1 a 8) na figura indica que a posição de espectro de sub-banda antes da intercalação é x.
[00103] Desse modo, o intercalador 131 intercala a disposição deespectros em sub-bandas submetidas à compressão de banda, de modo que a posição do espectro com amplitude máxima se torne 5, a posição do próximo espectro maior se torne 1 e ambos os espectros sejam separados um do outro. Por essa razão, mesmo quando a compressão de banda é realizada com o uso do método mostrado na modalidade 1, o espectro com amplitude máxima e o próximo espectro maior podem ser alvos de codificação conforme mostrado na FIGURA 12D. Contudo, o deslocamento em posições de espectro após a deco- dificação se torna um máximo de duas amostras nesse exemplo.
[00104] A FIGURA 13 é um diagrama de blocos que ilustra uma configuração do aparelho de decodificação de fala/áudio 230 de acordo com a modalidade 4 da presente invenção. Doravante, a configuração do aparelho de decodificação de fala/áudio 230 será descrita com o uso da FIGURA 13. Contudo, a FIGURA 13 é diferente da FIGURA 7 pelo fato de que o desintercalador 231 é adicionado.
[00105] Em uma sub-banda submetida à compressão de banda de espectros de sub-banda separados para cada sub-banda emitida a partir da seção de extensão de banda 206, o desintercalador 231 de- sintercala a disposição de espectros de sub-banda e emite os espectros de sub-banda na disposição desintercalada para a seção de integração de sub-banda 207.
[00106] Desse modo, na modalidade 4, o aparelho de codificação de fala/áudio 130 intercala a disposição de espectros de uma subbanda submetida à compressão de banda, realiza a compressão de banda e pode, assim, separar ambos os espectros espaçados um do outro, mesmo quando o próximo espectro maior é adjacente ao espectro com amplitude máxima, e evitar que o próximo espectro maior seja excluído pela compressão de banda.
[00107] Deve-se observar que a presente modalidade pode ser opcionalmente combinada com uma das modalidades 1 a 3. Sob esse aspecto, quando o método para codificar informações de correção de posição em relação a um espectro com amplitude máxima da modalidade 3 é combinado com a presente modalidade, é possível codificar precisamente a posição do espectro com amplitude máxima mesmo quando a intercalação é realizada.
MODALIDADE 5
[00108] A modalidade 4 tem descrito um método para evitar, quando a intercalação faz com que o espectro com amplitude máxima e o próximo espectro maior sejam adjacentes um ao outro, que o próximo espectro maior seja excluído dos alvos de codificação. Na modalidade 5 da presente invenção, será dada uma descrição de um método para evitar que o próximo espectro maior seja excluído dos alvos de codificação excluindo-se as proximidades de um espectro com amplitude máxima a partir dos alvos de compressão de banda.
[00109] As configurações de um aparelho de codificação de fa- la/áudio e um aparelho de decodificação de fala/áudio de acordo com a modalidade 5 da presente invenção são similares às configurações mostradas na modalidade 1 na FIGURA 1 e na FIGURA 4 e são somente diferentes nas funções da seção de compressão de banda 105 e seção de extensão de banda 206 e, portanto, as funções diferentes serão descritas com o uso da FIGURA 1 e FIGURA 4.
[00110] Com referência à FIGURA 1, a seção de compressão de banda 105 pesquisa por um espectro com amplitude máxima a partir dos espectros de sub-banda emitidos a partir da seção de divisão de sub-banda 102. Quando existe uma pluralidade de espectros com amplitude máxima, um espectro no lado de banda baixa é designado como um espectro com amplitude máxima. A seção de compressão de banda 105 extrai o espectro com amplitude máxima pesquisado e os espectros nas proximidades do mesmo e designa os mesmos como espectros não submetidos à compressão de banda, isto é, alguns dos espectros comprimidos por sub-banda. Por exemplo, supõe-se que uma amostra antes e depois do espectro com amplitude máxima, isto é, três amostras sejam excluídas dos alvos de compressão de banda.
[00111] A seção de compressão de banda 105 realiza a compressão de banda em espectros mais próximos ao lado de banda baixa que os espectros não submetidos à compressão de banda e dispõe o resultado de compressão de banda a partir do lado de banda baixa dos espectros comprimidos por sub-banda. A seção de compressão de banda 105 dispõe espectros não submetidos à compressão de banda em continuação ao lado de banda alta do espectro comprimido por sub-banda. Em seguida, a seção de compressão de banda 105 realiza a compressão de banda em espectros mais próximos ao lado de banda alta que os espectros não submetidos à compressão de banda e dispõe o resultado de compressão de banda em continuação ao lado de banda alta dos espectros comprimidos por sub-banda.
[00112] A realização de tal processamento pela seção de compressão de banda 105 torna possível obter um espectro comprimido por sub-banda com as proximidades do espectro com amplitude máxima excluídas do alvo de compressão de banda e tornar o espectro com amplitude máxima e o próximo espectro maior os alvos de codificação. Se a posição do espectro com amplitude máxima após a extensão não for precisamente expressa, não há informações a serem particularmente enviadas para o aparelho de decodificação de fala/áudio 200 em relação a esse método de compressão de banda.
[00113] Com referência à FIGURA 4, a seção de extensão de banda 206 pesquisa por um valor máximo de amplitude do espectro comprimido por sub-banda emitido a partir da seção de decodifica- ção/codificação de transformada 205. Quando uma pluralidade de valores máximos de amplitude é detectada, um espectro no lado de banda baixa é designado como um espectro com amplitude máxima conforme no caso do aparelho de codificação de fala/áudio 100. Como um resultado, a seção de extensão de banda 206 designa espectros nas proximidades do espectro com amplitude máxima como espectros não submetidos à compressão de banda. Aqui, o espectro com amplitude máxima e uma amostra antes e depois do espectro, isto é, um total de três amostras é extraído como espectros não submetidos à compressão de banda.
[00114] Em seguida, a seção de extensão de banda 206 estende espectros comprimidos por sub-banda mais próximos ao lado de banda baixa que os espectros não submetidos à compressão de banda. A extensão é realizada dispondo-se sequencialmente os espectros de lado de banda baixa dos espectros comprimidos por sub-banda em endereços de número par e repetindo-se a disposição até imediatamente antes dos espectros não submetidos à compressão de banda. A seção de extensão de banda 206 dispõe os espectros não submetidos à compressão de banda em continuação ao lado de banda alta dos espectros de sub-banda estendidos no lado de banda baixa. Em se- guida, a seção de extensão de banda 206 estende os espectros comprimidos por sub-banda mais próximos ao lado de banda alta que o espectro não submetido à compressão de banda e dispõe os espectros de sub-banda estendidos no lado de banda alta do espectro não submetido à compressão de banda.
[00115] A realização de tal processamento pela seção de extensão de banda 206 torna possível estender espectros comprimidos por subbanda com as proximidades do espectro com amplitude máxima excluídas dos alvos de compressão de banda.
[00116] Em seguida, um método de compressão de banda pela seção de compressão de banda 105 mencionada anteriormente será descrito. A FIGURA 14 ilustra um exemplo de compressão de banda. Aqui, supõe-se que o comprimento de sub-banda seja 10 e os valores de amplitude sejam 8, 3, 6, 2, 10, 9, 5, 7, 4 e 1 a partir do lado de banda baixa.
[00117] A seção de compressão de banda 105 primeiramente pesquisa por um espectro com amplitude máxima de espectros de subbanda e extrai um espectro com amplitude máxima e uma amostra antes e depois do espectro com amplitude máxima, um total de três amostras como espectros não submetidos à compressão de banda. Nesse exemplo, visto que um espectro na posição 5 é um máximo, os espectros nas posições 4, 5 e 6 são espectros não submetidos à compressão de banda. Isto é, os espectros nas posições 1, 2 e 3 no lado de banda baixa e espectros nas posições 7, 8, 9 e 10 no lado de banda alta são espectros submetidos à compressão de banda. Como um resultado, os espectros nas posições 1 e 3 são selecionados, os espectros nas posições 4, 5 e 6, os quais são diferentes dos alvos de compressão de banda, são dispostos em continuação aos mesmos, os espectros nas posições 8 e 10 são selecionados em continuação aos mesmos e um espectro comprimido por sub-banda é, assim, formado conforme mostrado na FIGURA 14.
[00118] Em seguida, o método de extensão de banda pela seção de extensão de banda 206 mencionada anteriormente será descrito. A FIGURA 15 ilustra um exemplo de extensão de banda. A seção de extensão de banda 206 pesquisa por um valor máximo de amplitude de um espectro comprimido por sub-banda. Nesse exemplo, um espectro na posição 4 é um espectro com amplitude máxima e, portanto, os espectros nas posições 3, 4 e 5 são espectros não submetidos à compressão de banda. Isto é, pode ser visto que os espectros nas posições 1 e 2 no lado de banda baixa e os espectros nas posições 6 e 7 no lado de banda alta são espectros comprimidos por banda.
[00119] A seção de extensão de banda 206 dispõe os espectros comprimidos por sub-banda nas posições 1 e 2 e nas posições 1 e 3 de espectros de sub-banda, respectivamente. Em seguida, a seção de extensão de banda 206 dispõe os espectros não submetidos à compressão de banda nas posições 5, 6 e 7 dos espectros de sub-banda em continuação aos mesmos. Adicionalmente, a seção de extensão de banda 206 dispõe os espectros comprimidos por sub-banda nas posições 6 e 7 e nas posições 8 e 10 dos espectros de sub-banda. Com tal procedimento, é possível estender um espectro comprimido de subbanda comprimido por banda excluindo-se o espectro com amplitude máxima e as proximidades do mesmo dos alvos de compressão de banda.
[00120] Desse modo, de acordo com a modalidade 5, o aparelho de codificação de fala/áudio 100 exclui um espectro com amplitude máxima e os espectros nas proximidades do mesmo in a sub-banda submetida à compressão de banda dos alvos de compressão de banda e comprime por banda outros espectros, e pode, assim, evitar, mesmo quando o próximo espectro maior é adjacente ao espectro com amplitude máxima, que o próximo espectro maior seja excluído pela com- pressão de banda.
[00121] Na presente modalidade, a posição do espectro com amplitude máxima após a extensão pode não ser uma posição precisa, mas é possível dispor o espectro com amplitude máxima em uma posição precisa codificando e transmitindo as informações de correção de posição descritas na modalidade 2.
MODALIDADE 6
[00122] Geralmente, é muitas vezes o caso que um espectro per- ceptivamente importante tem amplitude grande e é gerado de maneira consecutiva substancialmente na mesma frequência por um longo período de tempo que é um tempo predeterminado ou mais longo. A vogal na fala humana tem essa característica e essa característica pode ser observada em muitos casos com uma banda alta gerada por instrumentos musicais além da fala, embora não comparável com a vogal. Aproveitando-se dessa característica, extraindo-se espectros subjetivamente importantes em um quadro precedente e codificando exclusivamente somente as bandas periféricas ao espectro como alvos de codificação no quadro atual, é possível codificar os espectros per- ceptivamente importantes de modo eficaz.
[00123] No espectro de sub-banda que é o sinal original, a quantidade de bit codificado do espectro que tem sido estavelmente emitida para vários quadros pode flutuar quadro por quadro junto com a flutuação de energia de sub-banda, causando um fenômeno que a codificação sucede ou fracassa quadro por quadro. Nesse caso, a clareza da fala decodificada pode degradar e a fala se torna ruidosa.
[00124] Desse modo, na modalidade 6 da presente invenção, será dada uma descrição de uma configuração de modo que a codificação mais eficaz possa ser realizada não designando todos os espectros de uma sub-banda em uma banda estendida como alvos de codificação, mas designando-se somente as bandas periféricas de um espectro perceptivamente importante como alvos de codificação.
[00125] A FIGURA 16 é um diagrama de blocos que ilustra uma configuração de aparelho de codificação de fala/áudio 140 de acordo com a modalidade 6 da presente invenção. Doravante, a configuração do aparelho de codificação de fala/áudio 140 será descrita com o uso da FIGURA 16. Contudo, a FIGURA 16 é diferente da FIGURA 1 pelo fato de que a seção de recálculo de número de unidade 106 e a seção de compressão de banda 105 são eliminadas, a seção de cálculo de número de unidade 104 é alterada para a seção de cálculo de número de unidade 141, a seção de codificação de transformada 107 é altera-da para a seção de codificação de transformada 142, a seção de mul- tiplexação 108 é alterada para a seção de multiplexação 145 e a seção de armazenamento de resultado de codificação de transformada 143 e a seção de definição de banda alvo 144 são adicionadas.
[00126] A seção de cálculo de número de unidade 141 calcula o número provisório de bits alocados que são alocados para cada subbanda com base na energia de sub-banda emitida a partir da seção de cálculo de energia de sub-banda 103. A seção de cálculo de número de unidade 141 adquire um comprimento de sub-banda de uma banda alvo de codificação da codificação de transformada com base nas informações de sub-banda limitada por banda emitidas a partir da seção de definição de banda alvo 144, as quais serão descritas posteriormente. Visto que o número de unidades pode ser calculado a partir do comprimento de sub-banda adquirido, a seção de cálculo de número de unidade 141 calcula o número de bits codificados para se aproximar ao número provisório de bits alocados. A seção de cálculo de número de unidade 141 emite informações equivalentes à quantidade de bit codificado calculada para a seção de codificação de transformada 142 como o número de unidades. Os bits são basicamente alocados de maneira que quanto maior a energia de sub-banda E[n], mais bits são alocados. Contudo, os bits são alocados em uma base de unidade e o número de bits exigidos para a unidade depende do comprimento de sub-banda. Isto é, mesmo quando o número provisório de bits alocados é o mesmo, se o comprimento de sub-banda for pequeno, o número de bits necessários para a unidade é pequeno, e mais unidades podem ser usadas. Quando mais unidades podem ser usadas, mais espectros podem ser codificados ou a precisão de amplitude pode ser aumentada.
[00127] A seção de codificação de transformada 142 codifica o espectro de sub-banda emitido a partir da seção de divisão de sub-banda 102 através da codificação de transformada com o uso do número de unidades emitido a partir da seção de cálculo de número de unidade 141 e as informações de sub-banda limitada por banda emitidas a partir da seção de definição de banda alvo 144, as quais serão descritas posteriormente. Os dados codificados por transformada são emitidos para a seção de multiplexação 145. A seção de codificação de transformada 142 decodifica os dados codificados por transformada e emite o espectro decodificado para a seção de armazenamento de resultado de codificação de transformada 143 como o espectro de sub-banda decodificado. No momento da codificação, a seção de codificação de transformada 142 adquire uma posição de espectro inicial, posição de espectro final e comprimento de sub-banda, ou similar, de uma banda a ser codificada a partir do número de unidades emitido a partir da seção de cálculo de número de unidade 141 e informações de sub-banda limitada por banda emitidas a partir da seção de definição de banda alvo 144, e realiza a codificação de transformada. Doravante, uma sub-banda alvo de codificação mais curta que um comprimento de sub-banda normal definido pela seção de definição de banda alvo 144 será chamada de "banda limitada" e, quando todos os espectros dentro de uma sub-banda forem alvos de codificação, os espectros serão chamados de "banda inteira". A codificação eficaz é possível quando um esquema de codificação de transformada, tal como FPC, AVQ ou LVQ é usado como um esquema de codificação de transformada. Deve-se observar que os espectros fora da banda limitada são excluídos dos e, então, não são codificados pela codificação de transformada. Aqui, a amplitude de todos os espectros fora da banda limitada nos espectros de sub-banda decodificados é presumido como 0.
[00128] A seção de armazenamento de resultado de codificação de transformada 143 armazena informações de espectro de sub-banda decodificado emitidas a partir da seção de codificação de transformada 142. Aqui, para simplificar a descrição, supõe-se que a seção de armazenamento de resultado de codificação de transformada 143 armazene somente informações em um espectro com amplitude máxima na sub-banda (espectro com um valor absoluto máximo de amplitude). A seção de armazenamento de resultado de codificação de transformada 143 presume a posição de espectro armazenada como informações de espectro do quadro precedente e emite posição de espectro armazenada para a seção de definição de banda alvo 144 em um quadro próximo ao quadro armazenado. Deve-se observar que, quando existem poucos bits e o número de unidades se torna 0 e quando a codificação de transformada não é realizada, as informações de espectro são feitas para indicar que os espectros não estão armazenados. Por exemplo, as informações de espectro no quadro precedente podem ser definidas para -1.
[00129] A seção de definição de banda alvo 144 gera informações de sub-banda limitada por banda com o uso das informações de espectro no quadro precedente emitidas a partir da seção de armazenamento de resultado de codificação de transformada 143 e o espectro de sub-banda emitido a partir da seção de divisão de sub-banda 102, e emite as informações de sub-banda limitada por banda para a seção de cálculo de número de unidade 141 e a seção de codificação de transformada 142. As informações de sub-banda limitada por banda podem ser quaisquer informações que pelo menos identificam uma posição de espectro inicial e uma posição de espectro final de uma banda a ser codificada e um comprimento de sub-banda da banda a ser codificada.
[00130] A seção de definição de banda alvo 144 emite uma sinalização de limitação de banda que indica se limitar por banda ou não uma sub-banda para a seção de multiplexação 145. Aqui, supõe-se que a limitação de banda seja realizada quando a sinalização de limitação de banda é 1 e a banda inteira é presumida como um alvo de codificação quando a sinalização de limitação de banda é 0.
[00131] A seção de multiplexação 145 multiplexa os dados codificados de energia de sub-banda emitidos a partir de seção de cálculo de energia de sub-banda 103, dados codificados por transformada emitidos a partir da seção de codificação de transformada 142 e a sinalização de limitação de banda emitida a partir da seção de definição de banda alvo 144 e emite o resultado de multiplexação como dados codificados.
[00132] Com a configuração descrita acima, o aparelho de codificação de fala/áudio 140 pode gerar dados codificados limitados por banda com o uso do resultado de codificação de transformada no quadro precedente.
[00133] Em seguida, será descrito o método de definição de banda alvo pela seção de definição de banda alvo 144 mostrada na FIGURA 16.
[00134] A seção de definição de banda alvo 144 determina se todos os espectros incluídos na sub-banda a ser codificado deveriam ser alvos de codificação de transformada ou espectros incluídos na banda limitada à periferia de um espectro perceptivamente importante deveria ser alvos de codificação de transformada. O método para determinar se um espectro é um espectro perceptivamente importante ou não serão ilustrados com o uso de um método simples abaixo.
[00135] Entre os espectros de sub-banda, um espectro com amplitude máxima é considerado como perceptivamente importante. No quadro atual, se um espectro com amplitude máxima entre os espectros de sub-banda estiver dentro de uma banda próxima ao espectro com amplitude máxima no quadro precedente, é possível determinar que o espectro perceptivamente importante é temporariamente contínuo. Em tal caso, a faixa de codificação pode ser estreitada a somente uma banda periférica ao espectro perceptivamente importante no quadro precedente.
[00136] Por exemplo, em uma n-ésima sub-banda, supõe-se que a posição do espectro perceptivamente importante no quadro precedente seja P[t—1, n]. Quando a largura de banda após a limitação de alvo de codificação é WL[n], uma posição de espectro inicial de uma banda alvo de codificação após a limitação de banda é expressa por P[t—1, n]— (int)(WL[n]/2) e uma posição de espectro final é expressa por P[t—1, n]+(int)(WL[n])/2). Contudo, supõe-se que WL[n] represente um número ímpar e (int) represente um processo para descartar um ponto decimal no presente momento. Aqui, se o comprimento de sub-banda W[n] for 100 e WL[n] for 31, o número mínimo de bits necessários para expressar a posição de um espectro pode ser reduzido a partir de 7 para 5.
[00137] WL[n] será descrito como sendo predeterminado para cada sub-banda, mas também é variável de acordo com a característica do espectro de sub-banda. Por exemplo, existe um método que aumenta WL[n] quando a energia de sub-banda é grande e diminui WL[n] quando uma alteração em energia de sub-banda no quadro t—1 e energia de sub-banda no quadro t é pequena.
[00138] Embora haja uma relação de W[n-1]<W[n] no comprimento de sub-banda W[n], a largura de banda limitada WL[n] não precisa ser restrita por tal relação. Quando a posição de espectro inicial ou posição de espectro final de uma banda limitada está fora da faixa da subbanda original, a posição de espectro inicial da sub-banda original pode ser a posição de espectro inicial da banda limitada ou a posição de espectro final da sub-banda original pode ser a posição de espectro final da banda limitada, e WL[n] pode não ser alterado.
[00139] Quando a banda limitada é determinada somente por um resultado de codificação de transformada em um quadro precedente, se um espectro subjetivamente importante se mover para fora da banda limitada, há um risco que o espectro pode não ser codificado e alguma banda subjetivamente irrelevante pode continuar a ser codificada como uma banda limitada. Contudo, conforme descrito no presente exemplo, determinando-se se um espectro com amplitude máxima de uma sub-banda atual existe ou não em uma banda limitada, é possível saber se qualquer espectro subjetivamente importante existe ou não fora da banda limitada. Nesse caso, presumindo-se que a banda inteira seja um alvo de codificação, é possível contribuir para a codificação sucessiva de espectros subjetivamente importantes.
[00140] Foi descrito um caso como um exemplo em que a seção de definição de banda alvo 144 calcula uma banda perceptivamente importante a partir das posições de espectros com amplitude máxima no quadro precedente e no quadro atual, mas também é possível estimar uma estrutura harmônica de um espectro de banda alta a partir de uma estrutura harmônica de um espectro de banda baixa e calcular uma banda perceptivamente importante. A estrutura harmônica é uma estrutura em que os espectros de banda baixa são espaçados de maneira substancialmente uniforme também no lado de banda alta. Portanto, é possível estimar a estrutura harmônica a partir do espectro de banda baixa e também estimar a estrutura harmônica na banda alta. A periferia de banda estimada também pode ser codificada como uma banda limitada. Nesse caso, se os espectros de banda baixa foram codificados primeiro e os espectros de banda alta forem codificados com o uso do resultado de codificação, é possível obter informações de sub-banda limitada por banda idênticas entre o aparelho de codificação de fala/áudio e o aparelho de decodificação de fala/áudio.
[00141] Em seguida, será descrita uma série de operações do aparelho de codificação de fala/áudio 140 mencionado anteriormente.
[00142] Primeiramente, será descrita a codificação de uma banda estendida sem limitação de banda com o uso da FIGURA 17. A FIGURA 17 mostra duas sub-bandas: sub-banda n-1 e sub-banda n, e o eixo geométrico horizontal mostra uma frequência e o eixo geométrico vertical mostra um valor absoluto de amplitude de espectro. O espectro mostra somente um espectro com amplitude máxima em cada subbanda. Três quadros temporariamente contínuos t-1, t e t+1 são mostrados em ordem a partir do topo. Supõe-se que a posição de um espectro com amplitude máxima do quadro t, sub-banda n-1 seja representada por P[t, n-1].
[00143] Com base na energia de sub-banda calculada pela seçãode cálculo de energia de sub-banda 103, supõe-se que o número provisório de bits alocados para o quadro t-1, sub-banda n-1 seja 7 e o número provisório de bits alocados para a sub-banda n seja 5. Doravante, supõe-se que os números provisórios de bits alocados sejam 5 bits e 7 bits para o quadro t, e 7 bits e 5 bits para o quadro t+1.
[00144] Supõe-se que o comprimento de sub-banda W[n-1] da subbanda n-1 seja 100 e o comprimento de sub-banda W[n] seja 110, e visto que ambos são menores que 2 à sétima potência, a unidade é tornada número inteiro como 7 bits para simplificar. No quadro t-1, o número provisório de bits alocados de sub-banda n-1 excede a unida- de e, portanto, um espectro pode ser codificado. Entretanto, o número provisório de bits alocados de sub-banda n não excede a unidade e, portanto, o espectro não é codificado. No quadro t, visto que os números provisórios de bits alocados são 5 e 7, o espectro é codificado somente com a sub-banda n, e no quadro t+1, os números provisórios de bits alocados são 7 e 5 e, portanto, supõe-se que o espectro de subbanda n-1 seja codificado por transformada.
[00145] Em tal caso, quando se coloca em foco a sub-banda n-1, embora os espectros existissem consecutivamente dentro de uma Banda próxima em um espectro de entrada, o número provisório de bits alocados não é de certo modo suficiente e, portanto, o espectro não é codificado no quadro t, e não codificado de maneira temporariamente consecutiva a partir de t-1 a t+1. Quando a continuidade é perdida, conforme o caso com o presente exemplo, a clareza de um sinal decodificado se deteriora, dando uma impressão de ruído.
[00146] Em seguida, a codificação de uma banda estendida limitada por banda será descrita com o uso da FIGURA 18. A configuração básica na FIGURA 18 é similar àquela na FIGURA 17. Supõe-se que o quadro t-1 seja completamente idêntico àquele no exemplo descrito na FIGURA 17.
[00147] Primeiramente, a sub-banda n no quadro t será descrita. A sub-banda n no quadro t-1 não é codificada pela codificação de transformada e, portanto, no quadro t, as informações de espectro de um quadro precedente são emitidas como -1 para a seção de definição de banda alvo 144 a partir da seção de armazenamento de resultado de codificação de transformada 143. Desse modo, na sub-banda n no quadro t, a limitação de banda não é aplicada e todos os espectros dentro da sub-banda são submetidos à codificação de transformada. A sinalização de limitação de banda na sub-banda n é definida como 0. No caso do presente exemplo, visto que o número provisório de bits alocados é 7, um espectro é codificado.
[00148] Em seguida, a sub-banda n-1 no quadro t será descrita. No quadro t—1, a codificação de transformada é realizada na sub-banda n-1 e, portanto, as informações de espectro P[t-1, n-1] do quadro precedente são emitidas a partir da seção de armazenamento de resultado de codificação de transformada 143 para a seção de definição de banda alvo 144. A seção de definição de banda alvo 144 define uma banda limitada para uma faixa a partir de P[t-1, n-1] - (int)(WL[n-1]/2) a P[t-1, n-1]+(int)(WL[n-1]/2). Em seguida, o espectro com amplitude máxima P[t, n-1] é pesquisado dentre espectros de sub-banda inseridos. No presente exemplo, visto que P[t, n-1] existe dentro da banda limitada, a sinalização de limitação de banda de subbanda n-1 é definida para 1. Adicionalmente, a seção de definição de banda alvo 144 emite a posição de espectro inicial de banda limitada P[t-1, n-1]-(int)(WL[n-1]/2), a posição de espectro final P[t-1, n-1]+(int)(WL[n-1]/2) e a largura de banda limitada WL[n-1] como informações de sub-banda limitada por banda.
[00149] Visto que o comprimento de sub-banda é reduzido a partir de W[n-1] a WL[n-1] na seção de cálculo de número de unidade 141, o número de unidades é mais propenso a aumentar.
[00150] A seção de codificação de transformada 142 codifica somente espectros dentro da banda limitada especificada pelas informações de sub-banda de banda limitada emitidas a partir da seção de definição de banda alvo 144 entre espectros de sub-banda emitidos a partir da seção de divisão de sub-banda 102. Se WL[n-1] for 31, visto que 31 é menor que 2 à quinta potência, a unidade é expressa por 5 para simplificar. Nesse exemplo, visto que o número provisório de bits alocados é 5, um espectro pode ser codificado. Doravante, no quadro t+1, a codificação também é possível com o uso de um procedimento similar àquele no quadro t.
[00151] Foi descrito acima que realizando-se a codificação de transformada exclusivamente em uma banda periférica a um espectro importante, quando se coloca em foco a sub-banda n-1, é possível realizar a codificação continuamente a partir do quadro t-1 a t+1 através da codificação de transformada. Desse modo, visto que os espectros perceptivamente importantes podem ser codificados de maneira temporariamente contínua, é possível obter fala decodificada de alta clareza com menos ruídos.
[00152] A FIGURA 19 é um diagrama de blocos que ilustra uma configuração do aparelho de decodificação de fala/áudio 240 de acordo com a modalidade 6 da presente invenção. Doravante, a configuração do aparelho de decodificação de fala/áudio 240 será descrita com o uso da FIGURA 19. Contudo, a FIGURA 19 é diferente da FIGURA 7 pelo fato de que a seção de demultiplexação de código 201 é alterada para a seção de demultiplexação de código 241, a seção de cálculo de número de unidade 211 é alterada para a seção de cálculo de número de unidade 242, a seção de decodificação/codificação de transformada 205 é alterada para a seção de decodificação/codificação de transformada 243, a seção de integração de sub-banda 207 é alterada para a seção de integração de sub-banda 246 e a seção de armazenamento de resultado de codificação de transformada 244 e a seção de decodi- ficação de banda alvo 245 são adicionadas.
[00153] A seção de demultiplexação de código 241 recebe dados codificados e demultiplexa os dados codificados recebidos em dados codificados de energia de sub-banda, dados codificados por transformada e uma sinalização de limitação de banda, emite os dados codificados de energia de sub-banda para a seção de decodificação de energia de sub-banda 202, emite os dados codificados por transformada para a seção de decodificação/codificação de transformada 243 e emite a sinalização de limitação de banda para a seção de decodifi- cação de banda alvo 245.
[00154] A seção de cálculo de número de unidade 242 é idêntica à seção de cálculo de número de unidade 141 do aparelho de codificação de fala/áudio 140 e, portanto, a descrição detalhada da mesma será omitida.
[00155] A seção de decodificação/codificação de transformada 243 emite o resultado de decodificação para cada sub-banda para a seção de integração de sub-banda 246 como um espectro de sub-banda decodificado com base nos dados codificados por transformada emitidos a partir da seção de demultiplexação de código 241, no número de unidades emitido a partir da seção de cálculo de número de unidade 242 e informações de sub-banda limitada por banda emitidas a partir da seção de decodificação de banda alvo 245. Deve-se observar que, quando os dados codificados limitados por banda são decodificados, a amplitude de todos os espectros fora da banda limitada é definida para 0 e o comprimento de sub-banda a ser emitido é emitido como um espectro de comprimento de sub-banda W[n] antes da limitação de banda.
[00156] A seção de armazenamento de resultado de codificação de transformada 244 tem funções substancialmente idênticas àquelas da seção de armazenamento de resultado de codificação de transformada 143 do aparelho de codificação de fala/áudio 140. Contudo, quando as influências de erros por canais de comunicação, tais como apagamen- to de quadro, perda de pacote, são recebidas, os espectros de subbanda decodificados não podem ser armazenados na seção de armazenamento de resultado de codificação de transformada 244 e, portanto, as informações de espectro de um quadro precedente são definidas para -1, por exemplo.
[00157] A seção de decodificação de banda alvo 245 emite informações de sub-banda limitada por banda para a seção de cálculo de número de unidade 242 e a seção de decodificação/codificação de transformada 243 com base na sinalização de limitação de banda emitida a partir da seção de demultiplexação de código 241 e nas informações de espectro do quadro precedente emitido a partir da seção de armazenamento de resultado de codificação de transformada 244. A seção de decodificação de banda alvo 245 determina se realizar ou não a limitação de banda dependendo do valor da sinalização de limitação de banda. Aqui, quando a sinalização de limitação de banda é 1, a seção de decodificação de banda alvo 245 realiza a limitação de banda e emite informações de sub-banda limitada por banda que indicam a limitação de banda. Por outro lado, quando a sinalização de li-mitação de banda é 0, a seção de decodificação de banda alvo 245 não realiza a limitação de banda e emite as informações de sub-banda limitada por banda que indicam que todos os espectros da sub-banda são alvos de codificação. Contudo, mesmo quando as informações de espectro do quadro precedente emitido a partir da seção de armazenamento de resultado de codificação de transformada 244 é -1, se a sinalização de limitação de banda for 1, a seção de decodificação de banda alvo 245 calcula informações de sub-banda limitada por banda que indicam limitação de banda. Isso se deve ao fato de que, quando os dados codificados por transformada não são decodificados no qua-dro precedente devido a um apagamento de quadro, ou similares, as informações de espectro do quadro precedente se tornam -1, mas visto que o aparelho de codificação de fala/áudio 140 realiza a codificação de transformada acompanhada da limitação de banda, é necessário decodificar os dados codificados por transformada com base na premissa de limitação de banda.
[00158] A seção de integração de sub-banda 246 dispõe firmemente os espectros de sub-banda decodificados emitidos a partir da seção de decodificação/codificação de transformada 243 a partir do lado de banda baixa, integra os mesmos em um vetor e emite o vetor integrado para a seção de transformação de frequência/tempo 208 como um espectro de sinal decodificado.
[00159] Em seguida, será descrita uma série de operações do aparelho de decodificação de fala/áudio 240 mencionado anteriormente com o uso da FIGURA 18.
[00160] Aqui, supõe-se que a sub-banda n-1 seja codificada por transformada no quadro t-1 e a sub-banda n não é codificada por codificação de transformada. Supõe-se que a sub-banda n-1 e a subbanda n sejam codificadas por transformada no quadro t e a subbanda n-1 seja codificada por limitação de banda.
[00161] Primeiramente, o quadro t será descrito. A seção de decodi-ficação de banda alvo 245 pode saber, a partir da sinalização de limitação de banda emitida a partir da seção de demultiplexação de código 241, se cada sub-banda é uma sub-banda codificada por transformada sem limitação de banda ou uma sub-banda codificada por transformada após a limitação de banda. A sub-banda codificada por transformada sem limitação de banda, a sub-banda n aqui, é decodificada como todos os alvos de codificação de espectro. A seção de decodifi- cação/codificação de transformada 243 pode decodificar dados codificados emitidos a partir da seção de demultiplexação de código 241 com o uso do comprimento de sub-banda W[n] emitido a partir da seção de decodificação de banda alvo 245 e o número de unidades emitido a partir da seção de cálculo de número de unidade 242.
[00162] Por outro lado, a seção de decodificação de banda alvo 245 pode saber, a partir da sinalização de limitação de banda, que a subbanda n-1 é codificada em um estado limitado por banda. Por essa razão, a seção de decodificação/codificação de transformada 243 pode decodificar dados codificados emitidos a partir da seção de demul- tiplexação de código 241 com o uso do comprimento de sub-banda limitado por banda WL[n-1] da sub-banda n-1 emitido a partir da seção de decodificação de banda alvo 245 e o número de unidades emitido a partir da seção de cálculo de número de unidade 242.
[00163] Contudo, se a situação permanece a mesma, a seção de decodificação/codificação de transformada 243 não pode identificar um local preciso do espectro de sub-banda decodificado e, portanto, a seção de decodificação/codificação de transformada 243 identifica o local preciso com o uso de um resultado de decodificação da sub-banda n-1 no quadro precedente. Supõe-se que a seção de armazenamento de resultado de codificação de transformada 244 armazene P[t-1, n-1]. A seção de decodificação de banda alvo 245 define as informações de subbanda limitada por banda de modo que a largura de sub-banda se torne WL[n-1] centralizada em P[t-1, n-1] emitido a partir da seção de armazenamento de resultado de codificação de transformada 244. Mais especificamente, a posição de espectro inicial da sub-banda de limitação de banda é presumida como P[t-1, n-1] - (int)(WL[n-1]/2) e a posição de espectro final é presumida como P[t-1, n-1]+(int)(WL[n-1]/2). As informações de sub-banda limitada por banda calculadas dessa forma são emitidas para a seção de decodificação/codificação de transformada 243.
[00164] Desse modo, a seção de decodificação/codificação de transformada 243 pode dispor os espectros de sub-banda decodificados em posições precisas. Para os espectros fora da banda limitada indicada pelas informações de sub-banda limitada por banda, a amplitude dos espectros é definida para 0.
[00165] Deixando de receber o quadro t-1 devido às influências de um canal de comunicação e deixando de decodificar o mesmo, a seção de armazenamento de resultado de codificação de transformada 244 não pode armazenar um resultado de decodificação correto. Por essa razão, no caso de uma sub-banda codificada pela limitação de banda no quadro t, os espectros de sub-banda decodificados não podem ser dispostos em posições corretas. Nesse caso, a posição de espectro inicial e a posição de espectro final de informações de subbanda limitada por banda podem ser fixadas para que fiquem próximas ao centro da sub-banda, por exemplo. A seção de armazenamento de resultado de codificação de transformada 244 pode estimar as mesmas com o uso dos resultados de decodificação anteriores. A seção de decodificação/codificação de transformada 243 pode calcular uma estrutura harmônica a partir do espectro de banda baixa, estimar a estrutura harmônica na sub-banda e estimar a posição do espectro com amplitude máxima.
[00166] O aparelho de decodificação de fala/áudio 240 pode decodificar dados codificados pela limitação de banda através de uma série de operações descritas acima.
[00167] O aparelho de codificação de fala/áudio 140 descrito acima pode codificar de modo eficaz um espectro com alta continuidade de tempo em uma banda alta e o aparelho de decodificação de fala/áudio 240 pode obter um sinal decodificado com alta clareza.
[00168] Desse modo, a modalidade 6 codifica somente bandas periféricas ao espectro subjetivamente importante em um quadro precedente, e pode codificar uma banda alvo com menos bits, e pode aperfeiçoar, assim, a possibilidade de codificar os espectros perceptiva- mente importantes de maneira temporariamente contínua. Como um resultado, é possível obter um sinal decodificado com alta clareza.
APLICABILIDADE INDUSTRIAL
[00169] O aparelho de codificação de fala/áudio, aparelho de deco- dificação de fala/áudio, método de codificação de fala/áudio e método de decodificação de fala/áudio de acordo com a presente invenção são aplicáveis a um aparelho de comunicação que realiza chamada de voz, ou similares. LISTA DE SÍMBOLOS DE REFERÊNCIA101 Seção de transformação de tempo/frequência102, Seção de divisão de sub-banda103, Seção de cálculo de energia de sub-banda104, 203, 111, 141, 211, 242 Seção de cálculo de número de unidade105, Seção de compressão de banda106, 204 Seção de recálculo de número de unidade107, 142 Seção de codificação de transformada108, 145 Seção de multiplexação121, 221 Seção de atenuação de energia de sub-banda131 Intercalador143, 244 Seção de armazenamento de resultado de codificação de transformada144 Seção de definição de banda alvo201, 241 Seção de demultiplexação de código202 Seção de decodificação de energia de sub-banda205, 243 Seção de decodificação/codificação de transformada206 Seção de extensão de banda207, 246 Seção de integração de sub-banda208 Seção de transformação de frequência/tempo231 Desintercalador245 Seção de decodificação de banda alvo

Claims (8)

1. Aparelho de codificação de fala/áudio (140) caracterizado pelo fato de que compreende:uma seção de transformação de tempo/frequência (101) que é adaptada para transformar um sinal de entrada de domínio de tempo em um espectro de domínio de frequência;uma seção de divisão (102) que é adaptada para dividir uma região de frequência do espectro em bandas estendidas dentro de uma pluralidade de bandas;uma seção de compressão de banda (144) que é adaptada para definir, para cada banda resultante da divisão, quando uma diferença entre uma frequência com uma amplitude máxima de um espectro de banda dividida em um quadro anterior e uma frequência com uma amplitude máxima em um espectro de banda dividida em um quadro atual estiver abaixo de um limiar, uma banda limitada dentro da respectiva banda dividida, a banda limitada tendo uma meia-largura igual ao limiar, encurtada para uma extremidade da respectiva banda dividida, se necessário, de modo a não ir além da respectiva banda dividida, a banda limitada incluindo assim a frequência com a amplitude máxima no espectro no quadro anterior e a frequência com a amplitude máxima no espectro da banda dividida no quadro atual; euma seção de codificação de transformada (142) que é adaptada, para cada banda resultante da divisão, para codificar o espectro na banda limitada e não para codificar um espectro de fora da banda limitada dentro da respectiva banda dividida.
2. Aparelho de codificação de fala/áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende uma secção de armazenamento (143) que é adaptada para armazenar informação sobre o espectro máximo na respectiva banda dividida, em que a seção de definição de banda limitada (144) é adaptada para de- finir a banda limitada usando esta informação em relação ao quadro anterior.
3. Aparelho de codificação de fala/áudio, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a seção de definição de banda limitada (144) é adaptado para emitir um sinalizador de limitação de banda que indica se a banda limitada é definida ou não para a respectiva banda dividida.
4. Aparelho de decodificação de fala/áudio (240) caracterizado pelo fato de que compreende:uma secção de demultiplexação de código (241) que é adaptada para demultiplexar os dados de código recebidos em dados codificados de energia, dados codificados de transformada, e um sinalizador de limitação de banda que indica se os dados codificados de transformada são codificados ou não em uma banda limitada, para cada banda em que um espectro em banda estendida de um sinal codificado a ser decodificado é dividido;uma secção de detecção de banda limitada (245) que é adaptada para detectar, para cada banda dividida, se os dados codificados de transformada são codificados ou não na respectiva banda limitada, com base no sinalizador de limitação de banda, e para emitir informação sobre a banda limitada obtida a partir dos dados codificados de transformada, em que a banda limitada está dentro da respectiva banda dividida e inclui uma frequência com uma amplitude máxima de um espectro da respectiva banda dividida em um quadro anterior e uma frequência com uma amplitude máxima de um espectro da respectiva banda dividida em um quadro atual; euma seção de codificação/decodificação de transformada (243) que é adaptada para decodificar os dados codificados de transformada para cada banda dividida, ajustando a zero amplitudes para frequências dentro da banda dividida, mas fora da respectiva banda limitada.
5. Método de codificação de fala/áudio caracterizado pelo fato de que compreende as etapas de:realizar uma transformação tempo/frequência para transformar um sinal de entrada de voz no domínio do tempo em um espectro no domínio da frequência;dividir uma região de frequência do espectro na banda estendida em uma pluralidade de bandas;definir, para cada banda resultante da divisão, quando uma diferença entre uma frequência com uma amplitude máxima em um espectro de banda dividida em um quadro anterior e uma frequência com uma amplitude máxima em um espectro de banda dividida em um quadro atual está abaixo de um limiar, uma banda limitada dentro da respectiva banda dividida, a banda limitada tendo uma meia-largura igual ao limiar, encurtada para uma extremidade da respectiva banda dividida, se necessário, de modo a não ir além da respectiva banda dividida, a banda limitada incluindo assim a frequência com a amplitude máxima no espectro da banda dividida no quadro anterior e a frequência com a amplitude máxima no espectro da banda dividida no quadro atual; epara cada banda resultante da divisão, codificar o espectro na banda limitada e não codificar um espectro de fora da banda limitada dentro da respectiva banda dividida.
6. Método de codificação de fala/áudio, de acordo com a reivindicação 5, caracterizado pelo fato de que ainda compreende armazenar a informação sobre o espectro máximo na respectiva banda dividida, a definição da banda limitada usando esta informação em relação ao quadro anterior.
7. Método de codificação de fala/áudio, de acordo com a reivindicação 5 ou 6, caracterizado pelo fato de que ainda compre- ende emitir um sinalizador de limitação de banda que indica se a banda limitada é definida ou não para a respectiva banda dividida.
8. Método de decodificação de fala/áudio caracterizado pelo fato de que compreende as etapas de:demultiplexar os dados de código recebidos em dados codificados de energia, dados codificados de transformada, e um sinalizador de limitação de banda que indica se os dados codificados de transformada são codificados ou não em uma banda limitada, para cada banda em que um espectro em banda estendida de um sinal codificado a ser decodificado é dividido;detectar, para cada banda dividida, se os dados codificados de transformada são codificados ou não na respectiva banda limitada, com base no sinalizador de limitação de banda, e para emitir informação sobre a banda limitada obtida a partir dos dados codificados de transformada, em que a banda limitada está dentro da respectiva banda dividida e inclui uma frequência com uma amplitude máxima de um espectro da respectiva banda dividida em um quadro anterior e uma frequência com uma amplitude máxima de um espectro da respectiva banda dividida em um quadro atual; edecodificar os dados codificados de transformada para cada banda dividida, ajustando a zero amplitudes para frequências dentro da banda dividida, mas fora da respectiva banda limitada.
BR112015009352-3A 2012-11-05 2013-11-01 Dispositivo de codificação de fala/áudio, dispositivo de decodificação de fala/áudio, método de codificação de fala/áudio e método de decodificação de fala/áudio BR112015009352B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2012-243707 2012-11-05
JP2012243707 2012-11-05
JP2013115917 2013-05-31
JP2013-115917 2013-05-31
PCT/JP2013/006496 WO2014068995A1 (ja) 2012-11-05 2013-11-01 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Publications (3)

Publication Number Publication Date
BR112015009352A2 BR112015009352A2 (pt) 2017-07-04
BR112015009352A8 BR112015009352A8 (pt) 2019-09-17
BR112015009352B1 true BR112015009352B1 (pt) 2021-10-26

Family

ID=50626940

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015009352-3A BR112015009352B1 (pt) 2012-11-05 2013-11-01 Dispositivo de codificação de fala/áudio, dispositivo de decodificação de fala/áudio, método de codificação de fala/áudio e método de decodificação de fala/áudio

Country Status (13)

Country Link
US (4) US9679576B2 (pt)
EP (3) EP4220636A1 (pt)
JP (3) JP6234372B2 (pt)
KR (2) KR102215991B1 (pt)
CN (2) CN107633847B (pt)
BR (1) BR112015009352B1 (pt)
CA (1) CA2889942C (pt)
ES (2) ES2969117T3 (pt)
MX (1) MX355630B (pt)
MY (2) MY171754A (pt)
PL (2) PL3584791T3 (pt)
RU (3) RU2648629C2 (pt)
WO (1) WO2014068995A1 (pt)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4325488A3 (en) * 2014-02-28 2024-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoding device, encoding device, decoding method, encoding method, terminal device, and base station device
AU2015291897B2 (en) 2014-07-25 2019-02-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Acoustic signal encoding device, acoustic signal decoding device, method for encoding acoustic signal, and method for decoding acoustic signal
CN107294579A (zh) 2016-03-30 2017-10-24 索尼公司 无线通信系统中的装置和方法以及无线通信系统
JP6348562B2 (ja) * 2016-12-16 2018-06-27 マクセル株式会社 復号化装置および復号化方法
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US11682406B2 (en) * 2021-01-28 2023-06-20 Sony Interactive Entertainment LLC Level-of-detail audio codec
CN115512711A (zh) * 2021-06-22 2022-12-23 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质
CN117095685B (zh) * 2023-10-19 2023-12-19 深圳市新移科技有限公司 一种联发科平台终端设备及其控制方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2523286B2 (ja) 1986-08-01 1996-08-07 日本電信電話株式会社 音声符号化及び復号化方法
JP2570603B2 (ja) 1993-11-24 1997-01-08 日本電気株式会社 音声信号伝送装置およびノイズ抑圧装置
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
JP4359949B2 (ja) * 1998-10-22 2009-11-11 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US6353808B1 (en) 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
JP4287545B2 (ja) * 1999-07-26 2009-07-01 パナソニック株式会社 サブバンド符号化方式
JP4008244B2 (ja) * 2001-03-02 2007-11-14 松下電器産業株式会社 符号化装置および復号化装置
JP2002374171A (ja) * 2001-06-15 2002-12-26 Sony Corp 符号化装置および方法、復号装置および方法、記録媒体、並びにプログラム
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
JP2004094090A (ja) * 2002-09-03 2004-03-25 Matsushita Electric Ind Co Ltd オーディオ信号圧縮伸長装置及び方法
JP3877158B2 (ja) * 2002-10-31 2007-02-07 ソニー・エリクソン・モバイルコミュニケーションズ株式会社 周波数偏移検出回路及び周波数偏移検出方法、携帯通信端末
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
JP5142727B2 (ja) * 2005-12-27 2013-02-13 パナソニック株式会社 音声復号装置および音声復号方法
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
JP2010506207A (ja) * 2006-10-06 2010-02-25 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ エンコード方法、デコード方法、エンコーダ、デコーダ、及びコンピュータプログラム製品
CN101548316B (zh) * 2006-12-13 2012-05-23 松下电器产业株式会社 编码装置、解码装置以及其方法
KR101291672B1 (ko) * 2007-03-07 2013-08-01 삼성전자주식회사 노이즈 신호 부호화 및 복호화 장치 및 방법
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
WO2009084221A1 (ja) * 2007-12-27 2009-07-09 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
JPWO2009125588A1 (ja) * 2008-04-09 2011-07-28 パナソニック株式会社 符号化装置および符号化方法
JP5267115B2 (ja) * 2008-12-26 2013-08-21 ソニー株式会社 信号処理装置、その処理方法およびプログラム
JP5730860B2 (ja) * 2009-05-19 2015-06-10 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute 階層型正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
JP5295380B2 (ja) * 2009-10-20 2013-09-18 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US20120029926A1 (en) * 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
EP2676268B1 (en) * 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
JP5732614B2 (ja) 2011-05-24 2015-06-10 パナソニックIpマネジメント株式会社 放電灯点灯装置及びそれを用いた灯具並びに車両
JP2013115917A (ja) 2011-11-29 2013-06-10 Nec Tokin Corp 非接触電力伝送送電装置、非接触電力伝送受電装置、非接触電力伝送及び通信システム

Also Published As

Publication number Publication date
JP2018018100A (ja) 2018-02-01
PL2916318T3 (pl) 2020-04-30
US20190147897A1 (en) 2019-05-16
EP4220636A1 (en) 2023-08-02
MX355630B (es) 2018-04-25
ES2753228T3 (es) 2020-04-07
MX2015004981A (es) 2015-07-17
MY189358A (en) 2022-02-07
EP2916318B1 (en) 2019-09-25
US20170243594A1 (en) 2017-08-24
CN104737227B (zh) 2017-11-10
KR20200111830A (ko) 2020-09-29
KR20150082269A (ko) 2015-07-15
EP3584791B1 (en) 2023-10-18
US20180114535A1 (en) 2018-04-26
RU2648629C2 (ru) 2018-03-26
EP3584791A1 (en) 2019-12-25
US10210877B2 (en) 2019-02-19
RU2015116610A (ru) 2016-12-27
JP6435392B2 (ja) 2018-12-05
JP2019040206A (ja) 2019-03-14
EP2916318A4 (en) 2015-12-09
EP2916318A1 (en) 2015-09-09
US20150294673A1 (en) 2015-10-15
KR102161162B1 (ko) 2020-09-29
CN107633847A (zh) 2018-01-26
CN104737227A (zh) 2015-06-24
RU2678657C1 (ru) 2019-01-30
JPWO2014068995A1 (ja) 2016-09-08
JP6234372B2 (ja) 2017-11-22
PL3584791T3 (pl) 2024-03-18
JP6647370B2 (ja) 2020-02-14
US9892740B2 (en) 2018-02-13
US9679576B2 (en) 2017-06-13
WO2014068995A1 (ja) 2014-05-08
BR112015009352A2 (pt) 2017-07-04
CA2889942C (en) 2019-09-17
KR102215991B1 (ko) 2021-02-16
RU2701065C1 (ru) 2019-09-24
CN107633847B (zh) 2020-09-25
CA2889942A1 (en) 2014-05-08
ES2969117T3 (es) 2024-05-16
BR112015009352A8 (pt) 2019-09-17
US10510354B2 (en) 2019-12-17
MY171754A (en) 2019-10-28

Similar Documents

Publication Publication Date Title
BR112015009352B1 (pt) Dispositivo de codificação de fala/áudio, dispositivo de decodificação de fala/áudio, método de codificação de fala/áudio e método de decodificação de fala/áudio
ES2813940T3 (es) Aparato, método y programa informático para decodificar una señal de audio codificada
ES2643746T3 (es) Dispositivo de codificación de audio de voz, dispositivo de descodificación de audio de voz, método de codificación de audio de voz y método de descodificación de audio de voz
ES2971838T3 (es) Codificación de audio multiseñal utilizando el blanqueamiento de señal como preprocesamiento
ES2927563T3 (es) Métodos y dispositivos de codificación y descodificación de señal
JP5648123B2 (ja) 音声音響符号化装置、音声音響復号装置、およびこれらの方法
ES2749904T3 (es) Dispositivo, método, programa y medio de almacenamiento de análisis de predicción lineal
BR112017000629B1 (pt) aparelho de codificação de sinal de áudio e método de codificação de sinal de áudio
KR101736705B1 (ko) 오디오 신호를 위한 비트 할당 방법 및 장치
ES2707337T3 (es) Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 01/11/2013, OBSERVADAS AS CONDICOES LEGAIS.