BRPI0808705A2 - Dispositivo de codificação, dispositivo de decodificação e seu método - Google Patents

Dispositivo de codificação, dispositivo de decodificação e seu método Download PDF

Info

Publication number
BRPI0808705A2
BRPI0808705A2 BRPI0808705-9A BRPI0808705A BRPI0808705A2 BR PI0808705 A2 BRPI0808705 A2 BR PI0808705A2 BR PI0808705 A BRPI0808705 A BR PI0808705A BR PI0808705 A2 BRPI0808705 A2 BR PI0808705A2
Authority
BR
Brazil
Prior art keywords
layer
section
band
transform coefficients
coding
Prior art date
Application number
BRPI0808705-9A
Other languages
English (en)
Inventor
Masahiro Oshikiri
Tomofumi Yamanashi
Toshiyuki Morii
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Publication of BRPI0808705A2 publication Critical patent/BRPI0808705A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Relatório Descritivo da Patente de Invenção para "DISPOSITIVO DE CODIFICAÇÃO, DISPOSITIVO DE DECODIFICAÇÃO E SEU MÉTODO".
CAMPO DA TÉCNICA
A presente invenção refere-se a um aparelho de codificação, a
um aparelho de decodificação e os seus métodos utilizados em um sistema de comunicação de um esquema de codificação escalável.
ANTECEDENTES DA TÉCNICA
É demandado em um sistema de comunicação móvel que os 10 sinais de voz sejam comprimidos para baixas taxas de bits para transmitir para utilizar eficientemente os recursos de onda de rádio, e assim por diante. Por outro lado, é também demandado que um aperfeiçoamento de qualidade em voz de chamada telefônica e um serviço de chamada de alta fidelidade possam ser realizados, e, para atender estas demandas, é preferível não 15 somente prover os sinais de voz de qualidade, mas também codificar outros sinais de qualidade do que os sinais de voz, tais como os sinais de áudio de qualidade de bandas mais largas.
A técnica de integrar uma pluralidade de técnicas de codificação em camadas é promissora para estas duas demandas contraditórias. Esta 20 técnica combina em camadas a primeira camada para codificar os sinais de entrada em uma forma adequada para os sinais de voz em baixas taxas de bits e uma segunda camada para codificar os sinais diferenciais entre os sinais de entrada e os sinais decodificados da primeira camada em uma forma adequada para outros sinais do que a voz. A técnica de executar uma 25 codificação em camadas deste modo tem características de prover uma escalabilidade em fluxos de bits adquiridos de um aparelho de codificação, isto é, adquirir os sinais decodificados de parte de informações de fluxos de bits, e, portanto, é geralmente referida como "codificação escalável (codificação em camadas)".
O esquema de codificação escalável pode suportar flexivelmente
a comunicação entre as redes de taxas de bits variáveis graças às suas características, e, consequentemente, é adequado para um ambiente de rede futuro onde várias redes serão integradas pelo protocolo IP.
Por exemplo, o Documento Não de Patente 1 descreve uma técnica para realizar uma codificação escalável utilizando a técnica que é padronizada pelo MPEG-4 (Moving Picture Experts Group phase-4). Esta téc5 nica utiliza uma codificação CELP (Predição Linear Excitada em Código) adequada para os sinais de voz, na primeira camada, e utiliza uma codificação de transformada tal como AAC (Codificador de Áudio Avançado) e TwinVQ (Quantização de Vetor de Intercalação Ponderada de Domínio de Transformada) com relação a sinais residuais que subtraem o sinal decodifi10 cado de primeira camada dos sinais originais, na segunda camada.
Em contraste A isto, o Documento Não de Patente 2 descreve um método para codificar os coeficientes de MDCT de bandas de frequência desejadas em camadas utilizando TwinVQ que é aplicada a um módulo como um componente básico. Pelo compartilhamento deste módulo para utili15 zar uma pluralidade de vezes, é possível implementar uma codificação escalável simples de um alto grau de flexibilidade. Apesar deste método estar baseado na configuração onde as sub-bandas as quais são os alvos a serem codificados por cada camada são determinadas com antecedência, uma configuração está também descrita onde a posição de uma sub-banda, a 20 qual é o alvo a ser codificado por cada camada, é mudada dentro de bandas predeterminadas de acordo com a propriedade de sinais de entrada.
Documento Não de Patente 1: "Ali about MPEG-4", escrito e editado por Sukeichi MIKI, a primeira edição, Kogyo Chosakai Publishing, Inc., 30 de Setembro de 1998, páginas 126 a 127.
Documento Não de Patente 2: "Scalable Audio Coding Based no
Hierarquical Transform Coding Modules", Akio JIN et al., Academic Journal os The Institute of Electronics, Information and Communication Engineers, Volume J83-A, N- 3, páginas 241 a 252, Março de 2000.
Documento Não de Patente 3: "AMR Wideband Speech Codec; Transcoding functions", 3GPP TS 26.190, Março de 2001.
Documento Não de Patente 4: "Source-Controlled-Variable Rate Multimode Wideband Speech Codec (VMR-WB), Service options 62 and 63 for Spread Spectrum Systems", 3GPP2 C.S0052-A, Abril de 2005.
Documento Não de Patente 5: "7/10/15 kHz band scalable speech coding schemes using the band enhancement technique by means os pitch filtering", Journal of Acoustic Soeiety of Japan 3-11-4, páginas 327 a 5 328, Março de 2004.
DESCRIÇÃO DA INVENÇÃO
PROBLEMAS A SEREM RESOLVIDOS PELA INVENÇÃO
No entanto, para aperfeiçoar a qualidade de voz de sinais de saída, como as sub-bandas (isto é, as bandas de frequência-alvo) da seção 10 de codificação de segunda camada estão dispostas, é importante. O método descrito no Documento Não de Patente 2 determina com antecedência as sub-bandas as quais são o alvo a ser codificado pela segunda camada (Figura 1A). Neste caso, a qualidade de predeterminadas sub-bandas é aperfeiçoada o tempo todo e, portanto, existe um problema que, quando os com15 ponentes de erro estão concentrados em outras bandas do que estas subbandas, não é possível adquirir muito um efeito de aperfeiçoamento de qualidade de voz.
Ainda, apesar do Documento Não de Patente 2 descrever que a posição de uma sub-banda, a qual é o alvo a ser codificado por cada cama20 da, é mudada dentro de bandas predeterminadas (Figura 1B) de acordo com a propriedade de sinais de entrada, a posição empregada pela sub-banda está limitada dentro das bandas predeterminadas e, portanto, o problema acima descrito não pode ser resolvido. Se uma banda empregada como uma sub-banda cobrisse uma banda inteira de um sinal de entrada (Figura 1C), 25 existe um problema que a complexidade computacional para especificar a posição de uma sub-banda aumenta. Mais ainda, quando o número de camadas aumenta, a posição de uma sub-banda precisa ser especificada em uma base por camada e, portanto, este problema torna-se substancial.
É portanto um objeto da presente invenção prover um aparelho de codificação, um aparelho de decodificação e seus métodos para, em um esquema de codificação escalável, especificar precisamente uma banda de um maior erro da banda total com uma pequena complexidade computadonal.
MEIOS PARA RESOLVER O PROBLEMA
O aparelho de codificação de acordo com a presente invenção emprega uma configuração a qual inclui: uma seção de codificação de primeira camada que executa um processamento de codificação com relação a coeficientes de transformada de entrada para gerar os dados codificados de primeira camada; uma seção de decodificação de primeira camada que executa um processamento de decodificação que utiliza os dados codificados de primeira camada para gerar os coeficientes de transformada decodificados de primeira camada; e uma seção de codificação de segunda camada que executa um processamento de codificação com relação a uma banda de frequência-alvo onde, nos coeficientes de transformada de erro de primeira camada que representam um erro entre os coeficientes de transformada de entrada e os coeficientes de transformada decodificados de primeira camada, um erro máximo é encontrado, para gerar os dados codificados de segunda camada, e em que a seção de codificação de segunda camada tem: uma primeira seção de especificação de posição que pesquisa por uma primeira banda que tem o erro máximo através de toda a banda inteira, com base em uma largura de banda mais larga do que a banda de frequênciaalvo e um primeiro tamanho de etapa predeterminado para gerar as primeiras informações de posição que mostram a primeira banda especificada; uma segunda seção de especificação de posição que pesquisa pela banda de frequência-alvo através de toda a primeira banda, com base em um segundo tamanho de etapa mais estreita do que o primeiro tamanho de etapa para gerar as segundas informações de posição que mostram a banda de frequência-alvo especificada; e uma seção de codificação que codifica os coeficientes de transformada de erro de primeira camada incluídos na banda de frequência-alvo especificada com base nas primeiras informações de posição e nas segundas informações de posição para gerar as informações codificadas.
O aparelho de decodificação de acordo com a presente invenção emprega uma configuração a qual inclui: uma seção de recepção que recebe: os dados codificados de primeira camada adquiridos pela execução do processamento de codificação com relação aos coeficientes de transformada de entrada; os dados codificados de segunda camada adquiridos pela execução do processamento de codificação com relação a uma banda de fre5 quência-alvo onde, nos coeficientes de transformada de erro de primeira camada que representam um erro entre os coeficientes de transformada de entrada e os coeficientes de transformada decodificados de primeira camada os quais são adquiridos pela decodificação dos dados codificados de primeira camada, um erro máximo é encontrado; as primeiras informações de po10 sição que mostram uma primeira banda a qual maximiza o erro, em uma largura de banda mais larga do que a banda de frequência-alvo; e as segundas informações de posição que mostram a banda de frequência-alvo na primeira banda; uma seção de decodificação de primeira camada que decodifica os dados codificados de primeira camada para gerar os coeficientes de 15 transformada decodificados de primeira camada; uma seção de decodificação de segunda camada que especifica a banda de frequência-alvo com base nas primeiras informações de posição e nas segundas informações de posição e decodifica os dados codificados de segunda camada para gerar os coeficientes de transformada de erro decodificados de primeira camada; e 20 uma seção de adição que soma os coeficientes de transformada decodificados de primeira camada e os coeficientes de transformada de erro decodificados de primeira camada para gerar os coeficientes de transformada decodificados de segunda camada.
O método de codificação de acordo com a presente invenção 25 inclui: uma etapa de codificação de primeira camada de executar um processamento de codificação com relação aos coeficientes de transformada de entrada para gerar os dados codificados de primeira camada; uma etapa de decodificação de primeira camada de executar um processamento de decodificação utilizando os dados codificados de primeira camada para gerar os 30 coeficientes de transformada decodificados de primeira camada; e uma etapa de codificação de segunda camada de executar um processamento de codificação com relação a uma banda de frequência-alvo onde, nos coeficientes de transformada de erro de primeira camada que representam um erro entre os coeficientes de transformada de entrada e os coeficientes de transformada decodificados de primeira camada, um erro máximo é encontrado para gerar os dados codificados de segunda camada, onde a etapa de codi5 ficação de segunda camada inclui: uma primeira etapa de especificação de posição de pesquisar por uma primeira banda que tem o erro máximo através de toda uma banda inteira, com base em uma largura de banda mais larga do que a banda de frequência-alvo e um tamanho de primeira etapa predeterminado para gerar as primeiras informações de posição que mos10 tram a primeira banda especificada; uma segunda etapa de especificação de posição de pesquisar pela banda de frequência-alvo através de toda a primeira banda, com base em um tamanho de segunda etapa mais estreito do que o tamanho de primeira etapa para gerar as segundas informações de posição que mostram a banda de frequência-alvo especificada; e uma etapa 15 de codificação de codificar os coeficientes de transformada de erro de primeira camada incluídos na banda de frequência-alvo especificada com base nas primeiras informações de posição e nas segundas informações de posição para gerar as informações codificadas.
O método de decodificação de acordo com a presente invenção inclui: uma etapa de recepção de receber: os dados codificados de primeira camada adquiridos pela execução do processamento de codificação com relação aos coeficientes de transformada de entrada; os dados codificados de segunda camada adquiridos pela execução do processamento de codificação com relação a uma banda de frequência-alvo onde, nos coeficientes de transformada de erro de primeira camada que representam um erro entre os coeficientes de transformada de entrada e os coeficientes de transformada decodificados de primeira camada os quais são adquiridos pela decodificação dos dados codificados de primeira camada, um erro máximo é encontrado; as primeiras informações de posição que mostram uma primeira banda a qual maximiza o erro, em uma largura de banda mais larga do que a banda de frequência-alvo; e as segundas informações de posição que mostram a banda de frequência-alvo na primeira banda; uma etapa de decodificação de primeira camada de decodificar os dados codificados de primeira camada para gerar os coeficientes de transformada decodificados de primeira camada; uma etapa de decodificação de segunda camada de especificar a banda de frequência-alvo com base nas primeiras informações de posição 5 e nas segundas informações de posição e decodificar os dados codificados de segunda camada para gerar os coeficientes de transformada de erro decodificados de primeira camada; e uma etapa de adição de somar os coeficientes de transformada decodificados de primeira camada e os coeficientes de transformada de erro decodificados de primeira camada para gerar os 10 coeficientes de transformada decodificados de segunda camada.
EFEITOS VANTAJOSOS DA INVENÇÃO
De acordo com a presente invenção, a primeira seção de especificação de posição pesquisa pela banda de um grande erro através de toda a banda inteira de um sinal de entrada, com base em larguras de banda rela15 tivamente largas e tamanhos de etapa relativamente brutos para especificar a banda de um grande erro, e uma segunda seção de especificação de posição pesquisa pela banda de frequência-alvo (isto é, a banda de frequência que tem o maior erro) na banda especificada na primeira seção de especificação de posição com base em larguras de banda relativamente mais estrei20 tas e tamanhos de etapa relativamente mais estreitos para especificar a banda que tem o maior erro, de modo que seja possível especificar a banda de um grande erro da banda total com uma pequena complexidade computacional e aperfeiçoar a qualidade de som.
BREVE DESCRIÇÃO DOS DESENHOS Figura 1 mostra uma banda codificada da seção de codificação
de segunda camada de um aparelho de decodificação de voz convencional;
Figura 2 é um diagrama de blocos que mostra a configuração principal de um aparelho de codificação de acordo com a Modalidade 1 da presente invenção;
Figura 3 é um diagrama de blocos que mostra a configuração da
seção de codificação de segunda camada mostrada na Figura 2;
Figura 4 mostra a posição de uma banda especificada na primeira seção de especificação de posição mostrada na Figura 3;
Figura 5 mostra outra posição de uma banda especificada na primeira seção de especificação de posição mostrada na Figura 3;
Figura 6 mostra a posição de uma banda de frequência-alvo especificada na segunda seção de especificação de posição mostrada na Figura 3;
Figura 7 é um diagrama de blocos que mostra a configuração de uma seção de codificação mostrada na Figura 3;
Figura 8 é um diagrama de blocos que mostra uma configuração principal de um aparelho de decodificação de acordo com a Modalidade 1 da presente invenção;
Figura 9 mostra a configuração da seção de decodificação de segunda camada mostrada na Figura 8;
Figura 10 mostra o estado dos coeficientes de transformada de erro decodificados de primeira camada emitidos da seção de disposição mostrada na Figura 9;
Figura 11 mostra a posição da frequência-alvo especificada na segunda seção de especificação de posição mostrada na Figura 3;
Figura 12 é um diagrama de blocos que mostra outro aspecto da configuração da seção de codificação mostrada na Figura 7;
Figura 13 é um diagrama de blocos que mostra outro aspecto da configuração da seção de decodificação de segunda camada mostrada na Figura 9;
Figura 14 é um diagrama de blocos que mostra a configuração da seção de codificação de segunda camada do aparelho de codificação de acordo com a Modalidade 3 da presente invenção;
Figura 15 mostra a posição da frequência-alvo especificada em uma pluralidade de subseções de especificação de posição do aparelho de codificação de acordo com a Modalidade 3;
Figura 16 é um diagrama de blocos que mostra a configuração
da seção de codificação de segunda camada do aparelho de codificação de acordo com a Modalidade 4 da presente invenção; Figura 17 é um diagrama de blocos que mostra a configuração da seção de codificação mostrada na Figura 16;
Figura 18 mostra uma seção de codificação no caso onde os candidatos de segundas informações de posição armazenados no livro de códigos de informações de segunda posição na Figura 17 cada um tem três frequências-alvo;
Figura 19 é um diagrama de blocos que mostra outra configuração da seção de codificação mostrada na Figura 16;
Figura 20 é um diagrama de blocos que mostra a configuração da seção de codificação de segunda camada de acordo com a Modalidade 5 da presente invenção;
Figura 21 mostra a posição de uma banda especificada na primeira seção de especificação de posição mostrada na Figura 20;
Figura 22 é um diagrama de blocos que mostra a configuração principal do aparelho de codificação de acordo com a Modalidade 6;
Figura 23 é um diagrama de blocos que mostra a configuração da seção de codificação de primeira camada do aparelho de codificação mostrado na Figura 22;
Figura 24 é um diagrama de blocos que mostra a configuração da seção de decodificação de primeira camada do aparelho de codificação mostrado na Figura 22;
Figura 25 é um diagrama de blocos que mostra a configuração principal do aparelho de decodificação que suporta o aparelho de codificação mostrado na Figura 22;
Figura 26 é um diagrama de blocos que mostra a configuração
principal do aparelho de codificação de acordo com a Modalidade 7;
Figura 27 é um diagrama de blocos que mostra a configuração principal do aparelho de decodificação que suporta o aparelho de codificação mostrado na Figura 26;
Figura 28 é um diagrama de blocos que mostra outro aspecto da
configuração principal do aparelho de codificação de acordo com a Modalidade 7; Figura 29A mostra as posições de bandas na seção de codificação de segunda camada mostrada na Figura 28;
Figura 29B mostra as posições de bandas na seção de codificação de terceira camada mostrada na Figura 28;
Figura 29C mostra as posições de bandas na seção de codifica
ção de quarta camada mostrada na Figura 28;
Figura 30 é um diagrama de blocos que mostra a configuração principal do aparelho de decodificação que suporta o aparelho de codificação mostrado na Figura 28;
Figura 31A mostra outras posições de bandas na seção de codi
ficação de segunda camada mostrada na Figura 28;
Figura 31B mostra outras posições de bandas na seção de codificação de terceira camada mostrada na Figura 28;
Figura 31C mostra outras posições de bandas na seção de codificação de quarta camada mostrada na Figura 28;
Figura 32 ilustra a operação da primeira seção de especificação de posição de acordo com a Modalidade 8;
Figura 33 é um diagrama de blocos que mostra a configuração da primeira seção de especificação de posição de acordo com a Modalidade 8;
Figura 34 ilustra como as primeiras informações de posição são formadas na seção de formação de primeiras informações de posição de acordo com a Modalidade 8;
Figura 35 ilustra o processamento de decodificação de acordo com a Modalidade 8;
Figura 36 ilustra uma variação da Modalidade 8; e
Figura 37 ilustra uma variação da Modalidade 8.
MELHOR MODO PARA EXECUTAR A INVENÇÃO
As modalidades da presente invenção serão abaixo explicadas em detalhes com referência aos desenhos acompanhantes.
Modalidade 1
A Figura 2 é um diagrama de blocos que mostra a configuração principal de um aparelho de codificação de acordo com a Modalidade 1 da presente invenção. O aparelho de codificação 100 mostrado na Figura 2 tem uma seção de transformação de domínio de frequência 101, uma seção de codificação de primeira camada 102, uma seção de decodificação de primei5 ra camada 103, uma seção de subtração 104, uma seção de codificação de segunda camada 105 e uma seção de multiplexação 106.
A seção de transformação de domínio de frequência 101 transforma um sinal de entrada de domínio de tempo em um sinal de domínio de frequência (isto é, coeficientes de transformada de entrada), e emite os coeficientes de transformada de entrada para a seção de codificação de primeira camada 102.
A seção de codificação de primeira camada 102 executa um processamento de codificação com relação aos coeficientes de transformada de entrada para gerar os dados codificados de primeira camada, e emite estes dados codificados de primeira camada para a seção de decodificação de primeira camada 103 e a seção de multiplexação 106.
A seção de decodificação de primeira camada 103 executa um processamento de decodificação utilizando os dados codificados de primeira camada para gerar os coeficientes de transformada decodificados de primeira camada, e emite os coeficientes de transformada decodificados de primeira camada para a seção de subtração 104.
A seção de subtração 104 subtrai os coeficientes de transformada decodificados de primeira camada gerados na seção de decodificação de primeira camada 103, dos coeficientes de transformada de entrada, para 25 gerar os coeficientes de transformada de erro de primeira camada, e emite estes coeficientes de transformada de erro de primeira camada para a seção de codificação de segunda camada 105.
A seção de codificação de segunda camada 105 executa um processamento de codificação dos coeficientes de transformada de erro de primeira camada emitidos da seção de subtração 104, para gerar os dados codificados de segunda camada, e emite estes dados codificados de segunda camada para a seção de multiplexação 106. A seção de multiplexação 106 multiplexa os dados codificados de primeira camada adquiridos na seção de codificação de primeira camada 102 e os dados codificados de segunda camada adquiridos na seção de codificação de segunda camada 105 para formar um fluxo de bits, e emite este fluxo de bits como os dados codificados finais, para o canal de transmissão.
A Figura 3 é um diagrama de blocos que mostra a configuração da seção de codificação de segunda camada 105 mostrada na Figura 2. A seção de codificação de segunda camada 105 mostrada na Figura 3 tem uma primeira seção de especificação de posição 201, uma segunda seção 10 de especificação de posição 202, uma seção de codificação 203 e uma seção de multiplexação 204.
A primeira seção de especificação de posição 201 utiliza os coeficientes de transformada de erro de primeira camada recebidos da seção de subtração 104 para pesquisar por uma banda empregada como a banda de 15 frequência-alvo, a qual é o alvo a ser codificado, com base em larguras de banda predeterminadas e tamanhos de etapa predeterminados, e emite as informações que mostram a banda especificada como as primeiras informações de posição, para a segunda seção de especificação de posição 202, a seção de codificação 203 e a seção de multiplexação 204. Entrementes, a 20 primeira seção de especificação de posição 201 será posteriormente descrita em detalhes. Ainda, esta banda especificada pode ser referida como "faixa" ou "região".
A segunda seção de especificação de posição 202 pesquisa pela banda de frequência-alvo na banda especificada na primeira seção de 25 especificação de posição 201 com base em larguras de banda mais estreitas do que as larguras de banda utilizadas na primeira seção de especificação de posição 201 e tamanhos de etapa de mais estreitos do que os tamanhos de etapa utilizados na primeira seção de especificação de posição 201, e emite as informações que mostram a banda de frequência-alvo especificada 30 como as segundas informações de posição, para a seção de codificação 203 e a seção de multiplexação 204. Entrementes, a segunda seção de especificação de posição 202 será posteriormente descrita em detalhes. A seção de codificação 203 codifica os coeficientes de transformada de erro de primeira camada incluídos na banda de frequência-alvo especificados com base nas primeiras informações de posição e nas segundas informações de posição para gerar as informações codificadas, e emite 5 as informações codificadas para a seção de multiplexação 204. Entrementes a seção de codificação 203 será posteriormente descrita em detalhes.
A seção de multiplexação 204 multiplexa as primeiras informações de posição, as segundas informações de posição e as informações codificadas para gerar os segundos dados codificados, e emite estes segundos 10 dados codificados. Ainda, esta seção multiplexação 204 não é indispensável e estes itens de informação podem ser emitidos diretamente para a seção de multiplexação 106 como mostrado na Figura 2.
A Figura 4 mostra a banda especificada na primeira seção de especificação de posição 201 mostrada na Figura 3.
Na Figura 4, a primeira seção de especificação de posição 201
especifica uma de três bandas determinadas com base em uma largura de banda predeterminada, e emite as informações de posição desta banda como as primeiras informações de posição, para a segunda seção de especificação de posição 202, a seção de codificação 203 e a seção de multiplexa20 ção 204. Cada banda mostrada na Figura 4 está configurada para ter uma largura de banda igual a ou mais larga do que a largura de banda de frequência-alvo (a banda 1 é igual a ou mais alta do que Fi e mais baixa do que F3, a banda 2 é igual a ou mais alta do que F2 e mais baixa do que F4, e a banda 3 é igual a ou mais alta do que F3 e mais baixa do que F5). Ainda, 25 apesar de cada banda ser configurada para ter a mesma largura de banda com a presente modalidade, cada banda pode ser configurada para ter uma largura de banda diferente. Por exemplo, como a largura de banda crítica de percepção humana, as larguras de banda de bandas posicionadas em uma banda de baixa frequência podem ser determinadas estreitas e as larguras 30 de banda de bandas posicionadas em uma banda de alta frequência podem ser determinadas largas.
A sequir, o método para especificar uma banda na primeira seção de especificação de posição 201 será explicado. Aqui, a primeira seção de especificação de posição 201 especifica uma banda com base na magnitude de energia dos coeficientes de transformada de erro de primeira camada. Os coeficientes de transformada de erro de primeira camada estão re5 presentados como e-ι(k), e a energia Er(í) dos coeficientes de transformada de erro de primeira camada incluídos em cada banda é calculada de acordo com a equação 1 seguinte.
FRH (iy 1
Er(0= Σ eI(^)2 ■·■ (Ec>uaÇão 1)
k=FRL(i)
Aqui, i é um identificador que especifica uma banda, FRL(i) é a frequência mais baixa da banda i e FRH(i) é a frequência mais alta da banda i.
Deste modo, a banda de maior energia dos coeficientes de transformada de erro de primeira camada é especificada e os coeficientes de transformada de erro de primeira camada incluídos na banda de um grande erro são codificados, de modo que é possível diminuir os erros entre os sinais decodificados e os sinais de entrada e aperfeiçoar a qualidade de voz.
Entrementes, a energia normalizada NER(i), normalizada com base na largura de banda como na equação 2 seguinte pode ser calculada ao invés da energia dos coeficientes de transformada de erro de primeira camada.
j FRH(i)-l
NEo(i) =--6,(k)2 ... (Equação 2)
FRH(I)-FRL(I)k^
Ainda, como a referência para especificar a banda, ao invés da
energia dos coeficientes de transformada de erro de primeira camada, a energia WER(i) e WNER(i) dos coeficientes de transformada de erro de primeira camada (a energia normalizada que é normalizada com base na largura de banda), à qual um peso é aplicado levando em conta as características de percepção humana, pode ser encontrada de acordo com as equações 3 e
4. Aqui, w(k) representa o peso relativo às características de percepção humana. FRH (/)-!
WER(i)= ^ w(k)-ex(k)2 ... (Equação 3)
k=FRL(i)
FRH(i)-l
w(k) · ex (k)2 ... (Equação 4)
Neste caso, a primeira seção de especificação de posição 201
aumenta o peso para a frequência de alta importância nas características perceptivas de modo que a banda que inclui esta frequência é provável ser
selecionada, e diminui o peso para a frequência de baixa importância de modo que a banda que inclui esta frequência não é provável ser selecionada. Por este meio, uma banda perceptivamente importante é de preferência selecionada, de modo que é possível prover uma vantagem similar de aperfeiçoar a qualidade de som como acima descrito. O peso pode ser calculado 10 e usando utilizando, por exemplo, as características de intensidade perceptiva humana ou o limite de mascaramento perceptivo calculado com base em um sinal de entrada ou no sinal decodificado de primeira camada.
da de bandas dispostas em uma banda de baixa frequência que tem uma 15 frequência mais baixa do que a frequência de referência (Fx) a qual é determinada com antecedência. Com o exemplo da Figura 5, a banda é selecionada na banda 1 até a banda 8. A razão de determinar uma limitação (isto é, uma frequência de referência) quando da seleção de bandas é como segue. Com uma estrutura harmônica ou estrutura de harmonia a qual é uma carac20 terística de um sina de voz (isto é, uma estrutura na qual os picos aparecem em um espectro a dados intervalos de frequência), picos maiores aparecem em uma banda de baixa frequência do que em uma banda de alta frequência e os picos aparecem mais agudos em uma banda de baixa frequência do que em uma banda de alta frequência similar a um erro de quantização (isto 25 é, espectro de erro ou coeficientes de transformada de erro) produzido no processamento de codificação. Portanto, mesmo quando a energia de um espectro de erro (isto é, os coeficientes de transformada de erro) em uma banda de baixa frequência é mais baixa do que em uma banda de alta frequência, os picos em um espectro de erro (isto é, os coeficientes de trans
Ainda, o método de seleção de banda pode selecionar uma banformada de erro) em uma banda de baixa frequência aparecem mais agudos do que em uma banda de alta frequência, e, portanto, um espectro de erro (isto é, os coeficientes de transformada de erro) na banda de baixa frequência é provável exceder um limite de mascaramento perceptivo (Isto é, um
5 limite no qual as pessoas podem perceber um som) causando uma deterioração na qualidade de som perceptivo.
Este método determina a frequência de referência com antecedência para determinar a frequência-alvo de uma banda de baixa frequência na qual os picos de coeficientes de erro (ou vetores de erro) aparecem mais 10 agudos do que em uma banda de alta frequência que tem uma frequência mais alta do que a frequência de referência (Fx), de modo que é possível suprimir os picos dos coeficientes de transformada de erro e aperfeiçoar a qualidade de som.
Ainda, com o método de seleção de banda, a banda pode ser 15 selecionada de bandas dispostas em uma banda de baixa e média frequência. Com o exemplo na Figura 4, a banda 3 é excluída dos candidatos de seleção e a banda é selecionada da banda 1 e da banda 2. Por este meio, a banda de frequência-alvo é determinada da banda de baixa e média frequência.
Daqui em diante, como as primeiras informações de posição, a
primeira seção de especificação de posição 201 emite "1" quando a banda 1 é especificada, "2" quando a banda 2 é especificada e "3" quando a banda 3 é especificada.
A Figura 6 mostra a posição da banda de frequência-alvo especificada na segunda seção de especificação de posição 202 mostrada na Figura 3.
A segunda seção de especificação de posição 202 especifica a banda de frequência-alvo na banda especificada na primeira seção de especificação de posição 201 com base em tamanhos de etapa mais estreitos, e 30 emite as informações de posição da banda de frequência-alvo como as segundas informações de posição, para a seção de codificação 203 e a seção de multiplexação 204. A seguir, o método para especificar a banda de frequência-alvo na segunda seção de especificação de posição 202 será explicado. Aqui, referindo a um exemplo onde as primeiras informações de posição emitidas da primeira seção de especificação de posição 201 mostrada na Figura 3
são "2", a largura da banda de frequência-alvo está representada como "BW". Ainda, a frequência mais baixa F2 na banda 2 é determinada como o ponto de base, e esta frequência mais baixa F2 está representada como G1 para facilidade de explicação. Então, as frequências mais baixas da banda de frequência-alvo que podem ser especificadas na segunda seção de es10 pecificação de posição 202 são determinadas para G2 até Gn- Ainda, os tamanhos de etapa de bandas de frequência-alvo que são especificados na segunda seção de especificação de posição 202 são Gn - Gn-i e os tamanhos de etapa das bandas que são especificadas na primeira seção de especificação de posição 201 são Fn - Fn-i (Gn-Gn-i<Fn-Fn-i).
A segunda seção de especificação de posição 202 especifica a
banda de frequência-alvo dos candidatos de frequência-alvo que têm as frequências mais baixas Gi até Gn, com base na energia dos coeficientes de transformada de erro de primeira camada ou com base em uma referência similar. Por exemplo, a segunda seção de especificação de posição 202 cal20 cuia a energia dos coeficientes de transformada de erro de primeira camada de acordo com a equação 5 para todos os Gn candidatos de frequência-alvo, especifica a banda de frequência-alvo onde a maior energia ER(n) é calculada, e emite as informações de posição desta frequência-alvo como as segundas informações de posição.
G„+BW-1
ErÍ*1)- Σ (\<n< N) ... (Equação 5)
k=G„
Ainda, quando a energia dos coeficientes de transformada de
erro de primeira camada WER(n), aos quais um peso é aplicado levando em conta as características de percepção humana como acima explicado, é utilizada como uma referência, WER(n) é calculado de acordo com a equação 6 seguinte. Aqui, w(k) representa o peso relativo às características de percepção humana. O peso pode ser encontrado e usado utilizando, por exemplo, as características de intensidade perceptiva humana ou um limite de mascaramento perceptivo calculado com base em um sinal de entrada do sinal decodificado de primeira camada.
Gn+BW-1
WER(n) = ^ w{k)-ex{k)2 (1 <n<N) ... (Equação 6)
k=G„
Neste caso, a segunda seção de especificação de posição 202 5 aumenta o peso para a frequência de alta importância em características perceptivas de modo que a banda de frequência-alvo que inclui esta frequência é provável ser selecionada, e diminui o peso para a frequência de baixa importância de modo que a banda de frequência-alvo que inclui esta frequência não é provável ser selecionada. Por este meio, a banda de fre10 quência-alvo perceptivamente importante é de preferência selecionada, de modo que é possível aperfeiçoar adicionalmente a qualidade de som.
A Figura 7 é um diagrama de blocos que mostra uma configuração da seção de codificação 203 mostrada na Figura 3. A seção de codificação 203 mostrada na Figura 7 tem uma seção de formação de sinai-alvo 301, uma seção de cálculo de erro 302, uma seção de pesquisa 303, um livro de códigos de forma 304 e um livro de códigos de ganho 305.
A seção de formação de sinal-alvo 301 utiliza as primeiras informações de posição recebidas da primeira seção de especificação de posição 201 e as segundas informações de posição recebidas da segunda seção 20 de especificação de posição 202 para especificar a banda de frequênciaalvo, extrai uma porção incluída na banda de frequência-alvo com base nos coeficientes de transformada de erro de primeira camada recebidos da seção de subtração 104 e emite os coeficientes de transformada de erro de primeira camada extraídos como um sinal-alvo, para a seção de cálculo de 25 erro 302. Estes primeiros coeficientes de transformada de erro estão representados como e-i(k).
A seção de cálculo de erro 302 calcula o erro E de acordo com a equação 7 seguinte com base em: o is candidato de forma recebido do livro de códigos de forma 304 que armazena os candidatos (candidatos de forma) os quais representam a forma dos coeficientes de transformada de erro de forma; o ms candidato de ganho recebido do livro de códigos de ganho 305 que armazena os candidatos (candidatos de ganho) os quais representam o ganho dos coeficientes de transformada de erro; e um sinal-alvo recebido da seção de formação de sinal-alvo 301, e emite o erro calculado E para a seção de pesquisa 303.
BW-1
E= ^ (£](&)- ga(rn)· sh(i,k)) ... (Equação 7)
k=o
Aqui, sh(i, k) representa o i- candidato de forma e ga(m) representa o me candidato de forma.
A seção de pesquisa 303 pesquisa pela combinação de um candidato de forma e um candidato de ganho que minimize o erro E, com base 10 no erro E calculado na seção de cálculo de erro 302, e emite as informações de forma e as informações de ganho do resultado de pesquisa como informações codificadas, para a seção de multiplexação 204 mostrada na Figura 3. Aqui, as informações de forma são um parâmetro m que minimiza o erro E e as informações de ganho são um parâmetro i que minimiza o erro E.
Ainda, a seção de cálculo de erro 302 pode calcular o erro E de
acordo com a equação 8 seguinte pela aplicação de um grande peso a um espectro perceptivamente importante e pelo aumento da influência do espectro perceptivamente importante. Aqui, w(k) representa o peso relativo às características de percepção humana.
BW-1
E= w(k) · (e}(k) — ga(m) ■ sh(i,k)} ... (Equação 8)
k=0
Deste modo, enquanto o peso para a frequência de alta impor
tância nas características perceptivas é aumentado e a influência de distorção de quantização da frequência de alta importância nas características perceptivas é aumentada, o peso para a frequência de baixa importância é diminuído e a influência de distorção de quantização da frequência de baixa 25 importância é diminuída, de modo que é possível aperfeiçoar a qualidade subjetiva.
A Figura 8 é um diagrama de blocos que mostra a configuração principal do aparelho de decodificação de acordo com a presente modalidade. O aparelho de decodificação 600 mostrado na Figura 8 tem uma seção de demultiplexação 601, uma seção de decodificação de primeira camada 602, uma seção de decodificação de segunda camada 603, uma seção de adição 604, uma seção de comutação 605, uma seção de transformada de 5 domínio de tempo 606 e um pós-filtro 607.
A seção de demultiplexação 601 demultiplexa um fluxo de bits recebido através do canal de transmissão, em dados codificados de primeira camada e dados codificados de segunda camada, e emite os dados codificados de primeira camada e os dados codificados de segunda camada para 10 a seção de decodificação de primeira camada 602 e a seção de decodificação de segunda camada 603, respectivamente. Ainda, quando o fluxo de bits inserido inclui tanto os dados codificados de primeira camada quanto os dados codificados de segunda camada, a seção de demultiplexação 601 emite "2" como as informações de camada para a seção de comutação 605. Em 15 contraste com isto, quando o fluxo de bits inclui somente os dados codificados de primeira camada a seção de demultiplexação 601 emite "1" como as informações de camada para a seção de comutação 605. Ainda, existem casos onde todos os dados codificados são descartados, e, em tais casos, a seção de decodificação em cada camada executa um processamento de 20 compensação de erro predeterminado e o pós-filtro executa um processamento assumindo que as informações de camada mostram "1". A presente modalidade será explicada assumindo que o aparelho de decodificação adquire todos os dados codificados ou os dados codificados dos quais os dados codificados de segunda camada são descartados.
A seção de decodificação de primeira camada 602 executa um
processamento de decodificação dos dados codificados de primeira camada para gerar os coeficientes de transformada decodificados de primeira camada, e emite os coeficientes de transformada decodificados de primeira camada para a seção de adição 604 e a seção de comutação 605.
A seção de decodificação de segunda camada 603 executa um
processamento de decodificação dos dados codificados de segunda camada para qerar os coeficientes de transforma de erro decodificados de primeira camada, e emite os coeficientes de transformada de erro decodificados de primeira para a seção de adição 604.
A seção de adição 604 adiciona os coeficientes de transformada decodificados de primeira camada e os coeficientes de transforma de erro decodificados de primeira camada para gerar os coeficientes de transformada decodificados de segunda camada, e emite os coeficientes de transforma de decodificados de segunda camada para a seção de comutação 605.
Com base nas informações de camada recebidas da seção de demultiplexação 601, a seção de comutação 605 emite os coeficientes de 10 transformada decodificados de primeira camada quando as informações de camada mostram "1" e os coeficientes de transformada decodificados de segunda camada quando as informações de camada mostram "2" como os coeficientes de transformada decodificados, para a seção de transformação de domínio de tempo 606.
A seção de transformação de domínio de tempo 606 transforma
os coeficientes de transformada decodificados em um sinal de domínio de tempo para gerar um sinal decodificado e emite o sinal decodificado para o pós-filtro 607.
O pós-filtro 607 executa um processamento de pós-filtragem com relação ao sinal decodificado emitido da seção de transformação de domínio de tempo 606, para gerar um sinal de saída.
A Figura 9 mostra a configuração da seção de decodificação de segunda camada 603 mostrada na Figura 8. A seção de decodificação de segunda camada 603 mostrada na Figura 9 tem um livro de códigos de forma 601, um livro de códigos de ganho 702, uma seção de multiplicação 703 e uma seção de disposição 704.
O livro de códigos de forma 701 seleciona um candidato de forma sh (i, k) com base nas informações de forma incluídas nos dados codificados de segunda camada emitidos da seção de demultiplexação 601, e emite o candidato de forma sh (i, k) para a seção de multiplicação 703.
O livro de códigos de ganho 702 seleciona um candidato de ganho aa(rm) com base nas informações de ganho incluídas nos dados codificados de segunda camada emitidos da seção de demultiplexação 601, e emite o candidato de ganho ga(m) para a seção de multiplicação 703.
A seção de multiplexação 703 multiplica o candidato de forma sh (i, k) pelo candidato de ganho ga(m), e emite o resultado para a seção de disposição 704.
A seção de disposição 704 dispõe o candidato de forma após a multiplicação de candidato de ganho recebida da seção de multiplicação 703 na frequência-alvo especificada com base nas primeiras informações de posição e nas segundas informações de posição incluídas nos dados codifica10 dos de segunda camada emitidos da seção de demultiplexação 601, e emite o resultado para a seção de adição 604 como os coeficientes de transformada de erro decodificados de primeira camada.
A Figura 10 mostra o estado dos coeficientes de transformada de erro decodificados de primeira camada emitidos da seção de disposição 704 mostrada na Figura 9. Aqui, Fm representa a frequência especificada com base nas primeiras informações de posição e Gn representa a frequência especificada nas segundas informações de posição.
Deste modo, de acordo com a presente modalidade, a primeira seção de especificação de posição 201 pesquisa por uma banda de um 20 grande erro através de toda a banda inteira de um sinal de entrada com base em larguras de banda predeterminadas e tamanhos de etapa predeterminados para especificar a banda de um grande erro, e a segunda seção de especificação de posição 202 pesquisa pela frequência-alvo na banda especificada na primeira seção de especificação de posição 201 com base em 25 larguras de banda mais estreitas do que as larguras de banda predeterminadas e tamanho de etapa mais estreitos do que os tamanhos de etapa predeterminados, de modo que é possível especificar precisamente uma banda de um grande erro da banda total com uma pequena complexidade computacional e aperfeiçoar a qualidade de som.
Modalidade 2
Outro método para especificar a banda de frequência-alvo na segunda seção de especificação de posição 202, será explicado com a Modalidade 2. A Figura 11 mostra a posição da frequência-alvo especificada na segunda seção de especificação de posição 202 mostrada na Figura 3. A segunda seção de especificação de posição do aparelho de codificação de acordo com a presente modalidade difere da segunda seção de especifica5 ção de posição do aparelho de codificação explicado na Modalidade 1 em especificar uma única frequência-alvo. Os candidatos de forma para os coeficientes de transformada de erro que coincidem uma única frequência-alvo são representados por um pulso (ou um espectro de linha). Ainda, com a presente modalidade, a configuração do aparelho de codificação é a mesma 10 que o aparelho de codificação mostrado na Figura 2 exceto pela configuração interna da seção de codificação 203, e a configuração do aparelho de decodificação é a mesma que o aparelho de decodificação mostrado na Figura 8 exceto pela configuração interna da seção de decodificação de segunda camada 603. Portanto, a explicação destes será omitida, e somente a 15 seção de codificação 203 relativa à especificação de uma segunda posição e a seção de decodificação de segunda camada 603 do aparelho de decodificação serão explicadas.
Com a presente modalidade, a segunda seção de especificação de posição 202 especifica uma única frequência-alvo na banda especificada 20 na primeira seção de especificação de posição 201. Consequentemente, com a presente modalidade, um único coeficiente de transformada de erro de primeira camada é selecionado como o alvo a ser codificado. Aqui, um caso será explicado como um exemplo onde a primeira seção de especificação de posição 201 especifica a banda 2. Quando a largura de banda da 25 frequência-alvo é BW1 BW = 1 é verdadeiro com a presente modalidade.
Para ser mais específico, como mostrado na Figura 11, com relação a uma pluralidade de candidatos de frequência avo Gn incluídos na banda 2, a segunda seção de especificação de posição 202 calcula a energia do coeficiente de transformada de erro de primeira camada de acordo 30 com a equação 5 acima ou calcula a energia do coeficiente de transformada de erro de primeira camada, ao qual um peso é aplicado levando em conta as características de percepção humana, de acordo com a equação 6 acima. Ainda, a segunda seção de especificação de posição 202 especifica a frequência-alvo Gn (1 < η < N) que maximiza a energia calculada, e emite as informações de posição da frequência-alvo Gn especificada como as segundas informações de posição para a seção de codificação 203.
5 A Figura 12 é um diagrama de blocos que mostra outro aspecto
da configuração da seção de codificação 203 mostrada na Figura 7. A seção de codificação 203 mostrada na Figura 12 emprega um livro de códigos de forma de remoção de configuração 305 comparado com a Figura 7. Ainda, esta configuração suporta um caso onde os sinais emitidos do livro de códigos de forma 304 mostram "1" o tempo todo.
A seção de codificação 203 codifica o coeficiente de transformada de erro de primeira camada incluído na frequência-alvo Gn especificada na segunda seção de especificação de posição 202 para gerar as informações codificadas, e emite as informações codificadas para a seção de multi15 plicação 204. Aqui, uma única frequência-alvo é recebida da segunda seção de especificação de posição 202 e um único coeficiente de transformada de erro de primeira camada é um alvo a ser codificado, e, consequentemente, a seção de codificação 203 não requer as informações de forma do livro de códigos de forma 304, executa uma pesquisa somente no livro de códigos 20 de ganho 305 e emite as informações de ganho de um resultado de pesquisa como as informações codificadas para a seção de multiplexação 204.
A Figura 13 é um diagrama de blocos que mostra outro aspecto da configuração da seção de decodificação de segunda camada 603 mostrada na Figura 9. A seção de decodificação de segunda camada 603 mos25 trada na Figura 13 emprega um livro de códigos de forma de remoção de configuração 701 e a seção de multiplicação 703 comparada com a Figura 9. Ainda, esta configuração suporta um caso onde os sinais emitidos de livro de códigos de forma 701 mostram "1" o tempo todo.
A seção de disposição 704 dispõe o candidato de ganho selecionado do livro de códigos de ganho com base em informações de ganho, em uma única frequência-alvo especificada com base nas primeiras informações de posição e nas segundas informações de posição incluídas nos dados codificados de segunda camada emitidos da seção de demultiplexação
601, e emite o resultado como o coeficiente de transformada de erro decodificado de primeira camada, para a seção de adição 604.
Deste modo, de acordo com a presente modalidade, a segunda 5 seção de especificação de posição 202 pode representar um espectro de linha precisamente especificando uma única frequência-alvo na banda especificada na primeira seção de especificação de posição 201, de modo que é possível aperfeiçoar a qualidade de som de sinais de forte tonalidade tais como as vogais (sinais com características espectrais nos quais múltiplos 10 picos são observados).
Modalidade 3
Outro método para especificar as bandas de frequência-alvo na segunda seção de especificação de posição, será explicado com a Modalidade 3. Ainda, com a presente modalidade, a configuração do aparelho de 15 codificação é a mesma que o aparelho de codificação mostrado na Figura 2 exceto pela configuração interna da seção de codificação de segunda camada 105, e, portanto, a sua explicação será omitida.
A Figura 14 é um diagrama de blocos que mostra a configuração da seção de codificação de segunda camada 105 do aparelho de codificação 20 de acordo com a presente modalidade. A seção de codificação de segunda camada 105 mostrada na Figura 14 emprega uma configuração que inclui uma segunda seção de especificação de posição 301 ao invés da segunda seção de especificação de posição 202 comparado com a Figura 3. Aos mesmos componentes que a seção de codificação de segunda camada 105 25 mostrada na Figura 3 serão designados os mesmos números de referência, e a sua explicação será omitida.
A segunda seção de especificação de posição 301 mostrada na Figura 14 tem uma primeira subseção de especificação de posição 311-1, uma segunda subseção de especificação de posição 311-2, ..., uma Jâ subseção de especificação de posição 311-J e uma seção de multiplexação 312. Uma pluralidade de subseções de especificação de posição (311-1, ..., 311-J) especifica diferentes frequências-alvo na banda especificada na primeira seção de especificação de posição 201. Para ser mais específico, a n- subseção de especificação de posição 311-n especifica a nã 5 frequência-alvo, na banda excluindo as frequências-alvo especificadas na primeira até a (n-1)a subseções de especificação de posição (311-1, ..., 311 n-1) da banda especificada na primeira seção de especificação de posição 201.
A Figura 15 mostra as posições das frequências-alvo especifica10 das em uma pluralidade de subseções de especificação de posição (311-1, ..., 311 -J) do aparelho de codificação de acordo com a presente modalidade. Aqui, um caso será explicado como um exemplo onde a primeira seção de especificação de posição 201 especifica a banda 2 e a segunda seção de especificação de posição 301 especifica as posições de J frequências-alvo.
Como mostrado na Figura 15A, a primeira subseção de especifi
cação de posição 311-1 especifica uma única frequência-alvo dos candidatos de frequência-alvo na banda 2 (aqui, G3), e emite as informações de posição sobre esta frequência-alvo para a seção de multiplexação 312 e a segunda subseção de especificação de posição 311-2.
Como mostrado na Figura 15B, a segunda subseção de especi
ficação de posição 311-2 especifica uma única frequência-alvo (aqui, GN-i) de candidatos de frequência-alvo, que exclui da banda 2 a frequência-alvo G3 especificada na primeira subseção de especificação de posição 311-1, e emite as informações de posição da frequência-alvo para a seção de multi25 plexação 312 e a terceira subseção de especificação de posição 311-3, respectivamente.
Similarmente, como mostrado na Figura 15C, a Jâ subseção de especificação de posição 311-J especifica uma única frequência-alvo (aqui, G5) de candidatos de frequência-alvo, que exclui da banda 2 as (J-1) fre30 quências-alvo especificadas na primeira até a (J-1)ã subseções de especificação de posição (311-1, ..., 311 -J-1), e emite as informações de posição que especificam esta frequência-alvo, para a seção de multiplexação 312. A seção de multiplexação 312 multiplexa J itens de informações de posição recebidos das subseções de especificação de posição (311-1, 311-J) para gerar as segundas informações de posição, e emite as segundas informações de posição 204. Entrementes, a seção de multiplexação 5 312 não é indispensável, e J itens de informações de posição podem ser emitidos diretamente para a seção de codificação 203 e a seção de multiplexação 204.
Deste modo, a segunda seção de especificação de posição 301 pode representar uma pluralidade de picos especificando J frequências-alvo 10 na banda especificada na primeira seção de especificação de posição 201, de modo que é possível aperfeiçoar adicionalmente a qualidade de som de sinais de tonalidade forte, como as vogais. Ainda, somente J frequênciasalvo precisam ser determinadas da banda especificada na primeira seção de especificação de posição 201, de modo que é possível reduzir significativa15 mente o número de combinações de uma pluralidade de frequências-alvo comparado com o caso onde J frequências-alvo são determinadas de uma banda total. Por este meio, é possível tornar a taxa de bits mais baixa e a complexidade computacional menor.
Modalidade 4
Outro método de codificação na seção de codificação de segun
da camada 105 será explicado com a Modalidade 4. Ainda, com a presente modalidade, a configuração do aparelho de codificação é a mesma que o aparelho de codificação mostrado na Figura 2, exceto pela configuração interna da seção de codificação de segunda camada 105, e a sua explicação será omitida.
A Figura 16 é um diagrama de blocos que mostra outro aspecto da configuração da seção de codificação de segunda camada 105 do aparelho de codificação de acordo com a presente modalidade. A seção de codificação de segunda camada 105 mostrada na Figura 16 emprega uma confi30 guração que ainda inclui uma seção de codificação 221 ao invés da seção de codificação 203 mostrada na Figura 3, sem a segunda seção de especificação de posição 202 mostrada na Figura 3. A seção de codificação 221 determina as segundas informações de posição de modo que a distorção de quantização produzida quando os coeficientes de transformada de erro incluídos na frequência-alvo são codificados, é minimizada. Estas segundas informações de posição são armazenadas no livro de códigos de segundas informações de posição 321.
A Figura 17 é um diagrama de blocos que mostra a configuração da seção de codificação 221 mostrada na Figura 16. A seção de codificação 221 mostrada na Figura 17 emprega uma configuração que inclui uma seção de pesquisa 322 ao invés da seção de pesquisa 303 com uma adição do 10 livro de códigos de segundas informações de posição 321 comparado com a seção de codificação 203 mostrada na Figura 17. Ainda, aos mesmos componentes que na seção de codificação 203 mostrada na Figura 17 serão atribuídos os mesmos números de referência, e a sua explicação será omitida.
O livro de códigos de segundas informações de posição 321 se
leciona uma porção de segundas informações de posição dos candidatos de segundas informações de posição armazenados de acordo com um sinal de controle da seção de pesquisa 322 (posteriormente descrita), e emite as segundas informações de posição para a seção de formação de sinal-alvo 301. 20 No livro de códigos de segundas informações de posição 321 na Figura 17, os círculos pretos representam as posições das frequências-alvo dos candidatos de segundas informações de posição.
A seção de formação de sinal-alvo 301 especifica a frequênciaalvo utilizando as primeiras informações de posição recebidas da primeira 25 seção de especificação de posição 201 e as segundas informações de posição selecionadas no livro de códigos de segundas informações de posição 321, extrai uma porção incluída na frequência-alvo especificada dos coeficientes de transformada de erro de primeira camada recebidos da seção de subtração 104, e emite os coeficientes de transformada de erro de primeira 30 camada extraídos como o sinal-alvo para a seção de cálculo de erro 302.
A seção de pesquisa 322 pesquisa pela combinação de um candidato de forma, um candidato de ganho e os candidatos de segundas informações de posição que minimizam o erro E, com base no erro E recebido da seção de cálculo de erro 302, e emite as informações de forma, as informações de ganho e as segundas informações de posição do resultado de pesquisa como as informações codificadas para a seção de multiplexação 5 204 mostrada na Figura 16. Ainda, a seção de pesquisa 322 emite para o livro de códigos de segundas informações de posição 321 um sinal de controle para selecionar e emitir um candidato de segundas informações de posição para a seção de formação de sinal-alvo 301.
Deste modo, de acordo com a presente modalidade, as segun10 das informações de posição são determinadas de modo que a distorção de quantização produzida quando os coeficientes de transformada de erro incluídos na frequência-alvo, é minimizada e, consequentemente, a distorção de quantização final torna-se pequena, de modo que é possível aperfeiçoar a qualidade de voz.
Ainda, apesar de um exemplo ter sido explicado com a presente
modalidade onde o livro de códigos de segundas informações de posição 321 mostrado na Figura 17 armazena os candidatos de segundas informações de posição nos quais existe uma única frequência-alvo como um elemento, a presente invenção não está limitada a isto, e o livro de códigos de 20 segundas informações de posição 321 pode armazenar os candidatos de segundas informações de posição nos quais existe uma pluralidade de frequências-alvo como os elementos mostrados na Figura 18. A Figura 18 mostra a seção de codificação 221 no caso onde ao candidatos de segundas informações de posição armazenados no livro de códigos de segundas in25 formações de posição 321 cada um inclui três frequências-alvo.
Ainda, apesar de um exemplo ter sido explicado com a presente modalidade onde a seção de cálculo de erro 302 mostrada na Figura 17 calcula o erro E com base no livro de códigos de forma 304 e no livro de códigos de ganho 305, a presente invenção não está limitada a isto, e o erro E 30 pode ser calculado com base no livro de códigos de ganho 305 sozinho sem o livro de códigos de forma 304. A Figura 19 é um diagrama de blocos que mostra outra configuração da seção de codificação 221 mostrada na Figura 16. Esta configuração suporta o caso onde os sinais emitidos do livro de códigos de forma 304 mostram "1" o tempo todo. Neste caso, a forma é formada com uma pluralidade de pulsos e o livro de códigos de forma não é requerido, de modo que a seção de pesquisa 322 executa uma pesquisa so5 mente no livro de códigos de ganho 305 e no livro de códigos de segundas informações de posição 321 e emite as informações de ganho e as segundas informações de posição do resultado de pesquisa como informações codificadas, para a seção de multiplexação 204 mostrada na Figura 16.
Ainda, apesar da presente modalidade ter sido explicada assu10 mindo que o livro de códigos de segundas informações de posição 321 adota o modo de assegurar realmente o espaço de armazenamento e armazenar os candidatos de segundas informações de posição, a presente invenção não está limitada a isto, e o livro de códigos de segundas informações de posição 321 pode gerar os candidatos de segundas informações de posi15 ção de acordo com etapas de processamento predeterminadas. Neste caso, o espaço de armazenamento não é requerido no livro de códigos de segundas informações de posição 321.
Modalidade 5
Outro método para especificar na primeira seção de especifica20 ção de posição será explicado com a Modalidade 5. Ainda, com a presente modalidade, a configuração do aparelho de codificação é a mesma que o aparelho de codificação mostrado na Figura 2, exceto pela configuração interna da seção de codificação de segunda camada 105, e, portanto, a sua explicação será omitida.
A Figura 20 é um diagrama de blocos que mostra a configuração
da seção de codificação de segunda camada 105 do aparelho de codificação de acordo com a presente modalidade. A seção de codificação de segunda camada 105 mostrada na Figura 20 emprega a configuração que inclui a primeira seção de especificação de posição 231 ao invés da primeira seção de especificação de posição 201 mostrada na Figura 3.
Uma seção de cálculo (não mostrada) executa uma análise de altura de som com relação a um sinal de entrada para encontrar o período de altura, e calcula a frequência de altura com base na recíproca do período de altura encontrado. Ainda, a seção de cálculo pode calcular a frequência de altura de som com base nos dados codificados de primeira camada produzidos no processamento de codificação na seção de codificação de pri5 meira camada 102. Neste caso, os dados codificados de primeira camada são transmitidos e, portanto, as informações para especificar a frequência de altura de som não precisam ser adicionalmente transmitidas. Ainda, a seção de cálculo emite as informações de período altura de som para especificar a frequência de altura, para a seção de multiplexação 106.
A primeira seção de especificação de posição 231 especifica
uma banda de uma largura de banda predeterminada relativamente larga, com base na frequência de altura recebida da seção de cálculo (não mostrada), e emite as informações de posição da banda especificada como as primeiras informações de posição, para a segunda seção de especificação de posição 202, a seção de codificação 203 e a seção de multiplexação 204.
A Figura 21 mostra a posição da banda especificada na primeira seção de especificação de posição 231 mostrada na Figura 20. As três bandas mostradas na Figura 21 estão na proximidade das bandas de múltiplos integrais de frequências de referência Fi a F3, determinadas com base na 20 frequência de altura PF a ser inserida. As frequências de referência são determinadas somando os valores predeterminados à frequência de altura PF. Como um exemplo específico, os valores das frequências de referência somam -1, Oe 1 à PF, e as frequências de referência atendem Fi = PF-1, F2 = PF e F3 = PF+1.
As bandas são determinadas com base em múltiplos integrais da
frequência de altura porque um sinal de voz tem uma característica (ou a estrutura harmônica ou a harmonia) onde os picos sobem em um espectro na proximidade de múltiplos integrais da recíproca do período de altura (isto é, a frequência de altura de som) especificamente na porção de vogal da 30 periodicidade de altura forte, e os coeficientes de transformada de erro de primeira camada que são prováveis produzir um erro significativo estão na proximidade de múltiplos integrais da frequência de altura. Deste modo, de acordo com a presente modalidade, a primeira seção de especificação de posição 231 especifica a banda na proximidade de múltiplos integrais da frequência de altura e, consequentemente, a segunda seção de especificação de posição 202 eventualmente especifica a 5 frequência-alvo na proximidade da frequência de altura, de modo que é possível aperfeiçoar a qualidade de voz com uma pequena complexidade computacional.
Modalidade 6
Um caso será explicado com a Modalidade 6 onde o método de codificação de acordo com a presente invenção é aplicado no aparelho de codificação que tem uma seção de codificação de primeira camada utilizando um método para substituir um sinal aproximado tal como um ruído por uma banda de alta frequência. A Figura 22 é um diagrama de blocos que mostra a configuração principal do aparelho de codificação 220 de acordo com a presente modalidade. O aparelho de codificação 220 mostrado na Figura 22 tem uma seção de codificação de primeira camada 2201, uma seção de decodificação de primeira camada 2202, uma seção de retardo 2203, uma seção de subtração 104, uma seção de transformação de domínio de frequência 101, uma seção de codificação de segunda camada 105 e uma seção de multiplexação 106. Ainda, no aparelho de codificação 220 na Figura 22, aos mesmos componentes que o aparelho de codificação 100 mostrado na Figura 2 serão atribuídos os mesmos números de referência e a sua explicação será omitida.
A seção de codificação de primeira camada 2201 da presente 25 modalidade emprega um esquema de substituir um sinal aproximado tal como um ruído por uma banda de alta frequência. Para ser mais específico, representando uma banda de alta frequência de baixa importância perceptiva por um sinal aproximada e, ao contrário, aumentando o número de bits a serem alocados em uma banda de baixa frequência (ou uma banda de mé30 dia - baixa frequência) de importância perceptiva, a fidelidade desta banda é aperfeiçoada com relação ao sinal original. Por este meio, um aperfeiçoando de qualidade de som total é realizado. Por exemplo, existe um esquema de AMR-WB (Documento Não de Patente 3) ou um esquema de VMR-WB (Documento Não de Patente 4).
A seção de codificação de primeira camada 2201 codifica uma sinal de entrada para gerar os dados codificados de primeira camada, e emi5 te os dados codificados de primeira camada para a seção de multiplexação 106 e a seção de decodificação de primeira camada 2202. Ainda, a seção de codificação de primeira camada 2201 será posteriormente descrita em detalhes.
A seção de decodificação de primeira camada 2202 executa um 10 processamento de decodificação utilizando os dados codificados de primeira camada recebidos da seção de codificação de primeira camada 2201 para gerar o sinal decodificado de primeira camada, e emite o sinal decodificado de primeira camada para a seção de subtração 104. Ainda, a seção de decodificação de primeira camada 2202 será posteriormente descrita em deta15 lhes.
A seguir, a seção de codificação de primeira camada 2201 será explicada em detalhes utilizando a Figura 23. A Figura 23 é um diagrama de blocos que mostra a configuração da seção de codificação de primeira camada 2201 do aparelho de codificação 220. Como mostrado na Figura 23, a 20 seção de codificação de primeira camada 2201 é constituída por uma seção de redução de resolução 2210 e uma seção de codificação de núcleo 2220.
A seção de redução de resolução 2210 reduz a resolução do sinal de entrada de domínio de tempo para converter a taxa de amostragem do sinal de entrada de domínio de tempo para uma taxa de amostragem desejada, e emite o sinal de domínio de tempo de resolução reduzida para a seção de codificação de núcleo 2220.
A seção de codificação de núcleo 2220 executa um processamento de codificação com relação ao sinal de saída da seção de redução de resolução 2210 para gerar os dados codificados de primeira camada, e emite os dados codificados de primeira camada para a seção de decodificação de primeira camada 2202 e seção de multiplexação 106.
A sequir, a seção de decodificação de primeira camada 2202 será explicada em detalhes utilizando a Figura 24. A Figura 24 é um diagrama de blocos que mostra a configuração da seção de decodificação de primeira camada 2202 do aparelho codificação 220. Como mostrado na Figura
24, a seção de decodificação de primeira camada 2202 está constituída pela seção de decodificação de núcleo 2230, uma seção de aumento de resolução 2240 e uma seção de adição de componente de banda de alta frequência 2250.
A seção de decodificação de núcleo 2230 executa um processamento de decodificação utilizando os dados codificados de primeira ca10 mada recebidos da seção de codificação de núcleo 2220 para gerar um sinal decodificado, e emite o sinal decodificado para a seção de aumento de resolução 2240 e emite os coeficientes de LPC decodificados determinados no processamento de decodificação, para a seção de adição de componente de banda de alta frequência 2250.
A seção de aumento de resolução 2240 aumenta a resolução do
sinal decodificado emitido da seção de decodificação de núcleo 2230, para converter a taxa de amostragem do sinal decodificado para a mesma taxa de amostragem que o sinal de entrada, e emite o sinal de resolução aumentada para a seção de adição de componente de banda de alta frequência 2250.
A seção de adição de componente de banda de alta frequência
2250 gera um sinal aproximado para os componentes de banda de alta frequência de acordo com os métodos descritos, por exemplo, no Documento Não de Patente 3 e no Documento Não de Patente 4, com relação ao sinal de resolução aumentada na seção de aumento de resolução 2240, e compensa uma banda de alta frequência faltante.
A Figura 25 é um diagrama de blocos que mostra a configuração principal do aparelho de decodificação que suporta o aparelho de codificação de acordo com a presente modalidade. O aparelho de decodificação 250 na Figura 25 tem a mesma configuração básica que o aparelho de decodifi30 cação 600 mostrado na Figura 8, e tem uma seção de decodificação de primeira camada 2501 ao invés da seção de decodificação de primeira camada
602. Similar à seção de decodificação de primeira camada 2202 do aparelho de codificação, a seção de decodificação de primeira camada 2501 está constituída por uma seção de decodificação de núcleo, uma seção de aumento de resolução e uma seção de adição de componente de banda de alta frequência (não mostrada). Aqui, a explicação detalhada destes compo5 nentes será omitida.
Um sinal que pode ser gerado como um sinal de ruído na seção de codificação e na seção de decodificação sem informações adicionais, é aplicado no filtro de síntese formado com os coeficientes de LPC decodificados dados pela seção de decodificação de núcleo, de modo que o sinal de saída do filtro de síntese é utilizado como um sinal aproximado para o componente de banda de alta frequência. Neste momento, o componente de banda de alta frequência do sinal de entrada e o componente de banda de alta frequência do sinal decodificado de primeira camada mostram formas de onda completamente diferentes, e, portanto, a energia do componente de banda de alta frequência de um sinal de erro calculado na seção de subtração torna-se maior do que a energia do componente de banda de alta frequência do sinal de entrada. Como um resultado disto, um problema acontece na seção de codificação de segunda camada na qual a banda disposta em uma banda de alta frequência de baixa importância perceptiva é provável ser selecionada.
De acordo com a presente modalidade, o aparelho de codificação 220 que utiliza o método de substituir um sinal aproximado tal como um ruído pela banda de alta frequência como acima descrito no processamento de codificação na seção de codificação de primeira camada 2201, seleciona 25 uma banda de uma banda de baixa frequência de uma frequência mais baixa do que a frequência de referência determinada com antecedência e, consequentemente, pode selecionar uma banda de baixa frequência de alta importância perceptiva como o alvo para ser codificado pela seção de codificação de segunda camada mesmo quando a energia de uma banda de alta 30 frequência de um sinal de erro (ou coeficientes de transformada de erro) aumenta, de modo que é possível aperfeiçoara qualidade de som.
Ainda, apesar de uma configuração ter sido acima explicado como um exemplo onde as informações relativas a uma banda de alta frequência não são transmitidas para a seção de decodificação, a presente invenção não está limitada a isto, e, por exemplo, uma configuração pode ser possível onde, como descrito no Documento Não de Patente 5, um sinal de 5 uma banda de alta frequência é codificado a uma baixa taxa de bits comparado com uma banda de baixa frequência e é transmitido para a seção de decodificação.
Ainda, apesar de que no aparelho de codificação 220 mostrado na Figura 22, a seção de subtração 104 estar configurada para encontrar a diferença entre os sinais de domínio de tempo, a seção de subtração pode estar configurada para encontrar a diferença entre os coeficientes de transformada de domínio de frequência. Neste caso, os coeficientes de transformada de entrada são encontrados dispondo a seção de transformação de domínio de frequência 101 entre a seção de retardo 2203 e a seção de subtração 104, e os coeficientes de transformada decodificados de primeira camada são encontrados pela seção de transformação de domínio de frequência 101 recém-adicionada entre a seção de decodificação de primeira camada 2202 e a seção de subtração 104. Deste modo, a seção de subtração 104 está configurada para encontrar a diferença entre os coeficientes de transformada de entrada e os coeficientes de transformada decodificados de primeira camada, e fornecer os coeficientes de transformada de erro diretamente para a seção de codificação de segunda camada. Esta configuração permite um processamento de subtração adequado para cada banda encontrando a diferença em uma dada banda e não encontrando a diferença em outras bandas, de modo que é possível aperfeiçoar adicionalmente a qualidade de som.
(Modalidade 7
Um caso será explicado com a Modalidade 7 onde o aparelho de codificação e o aparelho de decodificação de outra configuração adotam o método de codificação de acordo com a presente invenção. A Figura 26 é um diagrama de blocos que mostra a configuração principal do aparelho de codificação 260 de acordo com a presente modalidade. O aparelho de codificação 260 mostrado na Figura 26 emprega uma configuração com uma adição de uma seção de filtro de ponderação 2601 comparado com o aparelho de codificação 220 mostrado na Figura 22. Ainda, no aparelho de codificação 260 na Figura 26, aos mesmos compo5 nentes que na Figura 22 serão atribuídos os mesmos números de referência, e a sua explicação será omitida.
A seção de filtro de ponderação 2601 executa um processamento de filtragem de aplicar um peso perceptivo a um sinal de erro recebido da seção de subtração 104 e emite o sinal após o processamento de filtragem, 10 para a seção de transformação de domínio de frequência 101. A seção de filtro de ponderação 2601 tem características espectrais opostas ao envelope espectral do sinal de entrada, e atenua (torna branco) o espectro do sinal de entrada ou muda-o para as características espectrais similares ao espectro atenuado do sinal de entrada. Por exemplo, o filtro de ponderação W(z) 15 está configurado como representado pela equação 9 seguinte utilizando os coeficientes de LPC decodificados adquiridos na seção de decodificação de primeira camada 2202.
NP
W(z) = 1 — · γι ■ Z 1 ... (Equação 9)
;=1
Aqui, a(i) são os coeficientes de LPC decodificados, NP é a ordem dos coeficientes de LPC, e γ é um parâmetro para controlar o grau de atenuação (isto é, o grau de tornar o espectro branco) do espectro e assume valores na faixa de 0<γ<1. Quando γ é maior, o grau de atenuação torna-se maior, e 0,92, por exemplo, é utilizado para γ.
O aparelho de decodificação 270 mostrado na Figura 27 emprega uma configuração com uma adição de uma seção de filtro de síntese 2701 comparado com o aparelho de decodificação 250 mostrado na Figura
25. Ainda, no aparelho de decodificação 270 na Figura 27, aos mesmos componentes que na Figura 25 serão atribuídos os mesmos números de referência, e a sua explicação será omitida.
A seção de filtro de síntese 2701 executa um processamento de filtragem de restaurar as características do espectro atenuado de volta para as características originais, com relação a um sinal recebido da seção de transformação de domínio de tempo 606, e emite o sinal após o processamento de filtragem para a seção de adição 604. A seção de filtro de síntese 2701 tem as características espectrais opostas ao filtro de ponderação re5 presentado na equação 9, isto é, as mesmas características que o envelope espectral do sinal de entrada. O filtro de síntese B(z) está representado como na equação 10 seguinte utilizando a equação 9.
Aqui, a(i) são os coeficientes de LPC decodificados, NP é a ordem dos coeficientes de LPC1 e γ é um parâmetro para controlar o grau de atenuação espectral (isto é, o graus de tornar o espectro branco) e assume valores na faixa de 0<γ<1. Quando γ é maior, o grau de atenuação torna-se maior, e 0,92, por exemplo, é utilizado para γ.
Geralmente, no aparelho de codificação e no aparelho de decodificação acima descritos, uma maior energia aparece em uma banda de baixa frequência do que em uma banda de alta frequência no envelope espectral de um sinal de voz, de modo que, mesmo quando a banda de baixa frequência e a banda de alta frequência têm uma distorção de codificação igual de um sinal antes que este sinal passe pelo filtro de síntese a distorção de codificação torna-se maior na banda de baixa frequência após este sinal passar pelo filtro de síntese. No caso onde um sinal de voz é comprimido para uma baixa taxa de bits e transmitido, a distorção de codificação não pode ser muito reduzida, e, portanto, a energia de uma banda de baixa frequência que contém uma distorção de código aumenta devido à influência do filtro de síntese da seção de decodificação como acima descrito e existe um problema que a deterioração de qualidade é provável ocorrer em uma banda de baixa frequência.
De acordo com o método de codificação da presente modalidade, a frequência-alvo é determinada de uma banda de baixa frequência co
1
... (Equação 10)
NP locada em uma frequência mais baixa do que a frequência de referência, e, consequentemente, a banda de baixa frequência é provável ser selecionada como o alvo a ser codificado pela seção de codificação de segunda camada 105, de modo que é possível minimizar a distorção de codificação na banda 5 de baixa frequência. Isto é, de acordo com a presente modalidade, apesar de um filtro de síntese enfatizar uma banda de baixa frequência, a distorção de codificação na banda de baixa frequência torna-se difícil de perceber, de modo que é possível prover uma vantagem de aperfeiçoar a qualidade de som.
Ainda, apesar da seção de subtração 104 do aparelho de codifi
cação 260 estar configurada com a presente modalidade para encontrar os erros entre os sinais de domínio de tempo, a presente invenção não está limitada a isto, e a seção de subtração 104 pode estar configurada para encontrar os erros entre os coeficientes de transformada de domínio de fre15 quência. Para ser mais específico, os coeficientes de transformada de entrada são encontrados dispondo a seção de filtro de ponderação 2601 e a seção de transformação de domínio de frequência 101 entre a seção de retardo 2203 e a seção de subtração 104, e os coeficientes de transformada decodificados de primeira camada são encontrados pela seção de filtro de 20 ponderação 2601 recém-adicionada e a seção de transformação de domínio de frequência 101 entre a seção de decodificação de primeira camada 2202 e a seção de subtração 104. Mais ainda, a seção de subtração 104 está configurada para encontrar o erro entre os coeficientes de transformada de entrada e os coeficientes de transformada decodificados de primeira camada e 25 fornecer estes coeficientes de transformada de erro diretamente para a seção de codificação de segunda camada 105. Esta configuração permite um processamento de subtração adequado para cada banda encontrando os erros em uma dada banda e não encontrando erros em outras bandas, de modo que é possível aperfeiçoar adicionalmente a qualidade de som.
Ainda, apesar de um caso ter sido explicado com a presente
modalidade como um exemplo onde o número de camadas no aparelho de codificação 220 é dois, a presente invenção não está limitada a isto, e o aparelho de codificação 220 pode estar configurado para incluir duas ou mais camadas de codificação como, por exemplo, no aparelho de codificação 280 mostrado na Figura 28.
A Figura 28 é um diagrama de blocos que mostra a configuração 5 principal do aparelho de codificação 280. Comparado com o aparelho de codificação 100 mostrado na Figura 2, o aparelho de codificação 280 emprega uma configuração que inclui três seções de subtração 104 com adições da seção de decodificação de segunda camada 2801, da seção de codificação de terceira camada 2802, da seção de decodificação de terceira 10 camada 2803, da seção de codificação de quarta camada 2804 e dois somadores 2805.
A seção de codificação de terceira camada 2802 e a seção de codificação de quarta camada 2804 mostradas na Figura 28 têm a mesma configuração e executam a mesma operação que a seção de codificação de 15 segunda camada 105 mostrada na Figura 2, e a seção de decodificação de segunda camada 2801 e a seção de decodificação de terceira camada 2803 têm a mesma configuração e executam a mesma operação que a seção de decodificação de primeira camada 103 mostrada na Figura 2. Aqui, as posições de bandas em cada seção de codificação de camada serão explicadas 20 utilizando a Figura 29.
Como um exemplo de disposição de banda em cada seção de codificação de camada, a Figura 29A mostra as posições de banda na seção de codificação de segunda camada. A Figura 29B mostra as posições de banda na seção de codificação de terceira camada, e a Figura 29C mostra 25 as posições de banda na seção de codificação de quarta camada, e o número de bandas é quatro em cada figura.
Para ser mais específico, quatro bandas estão dispostas na seção de codificação de segunda camada 105 de modo que as quatro bandas não excedam a frequência de referência Fx(L2) da camada 2, quatro bandas 30 estão dispostas na seção de codificação de terceira camada 2802 de modo que as quatro bandas não excedam a frequência de referência Fx(L3) da camada 3 e bandas estão dispostas na seção de codificação de quarta camada 2804 de modo que as bandas não excedam a frequência de referência Fx(L4) da camada 4. Mais ainda, existe a relação Fx(L2)<Fx(L3)<Fx(L4) entre as frequências de referência de camadas. Isto é, na camada 2 de uma baixa taxa de bits, a banda a qual é um alvo a ser decodificado é determina5 da da banda de baixa frequência de alta sensibilidade perceptiva, e, em uma camada mais alta de uma taxa de bits mais alta, a banda a qual é um alvo a ser codificado é determinada de uma banda que inclui até uma banda de alta frequência.
Pelo emprego de tal configuração, uma camada mais baixa enfatiza uma banda de baixa frequência e uma camada mais alta cobre uma banda mais larga, de modo que é possível fazer sinais de voz de alta qualidade.
A Figura 30 é um diagrama de blocos que mostra a configuração principal do aparelho de decodificação 300 que suporta o aparelho de codifi15 cação 280 mostrado na Figura 28. Comparado com o aparelho de decodificação 600 mostrado na Figura 8, o aparelho de decodificação 300 na Figura 30 emprega uma configuração com adições da seção de decodificação de terceira camada 3001, da seção de decodificação de quarta camada 3002 e de dois somadores 604. Ainda, a seção de decodificação de terceira camada 20 3001 e a seção de decodificação de quarta camada 3002 empregam a mesma configuração e executam a mesma configuração que a seção de decodificação de segunda camada 603 do aparelho de decodificação 600 mostrado na Figura 8 e, portanto, a sua explicação detalhada será omitida.
Como outro exemplo de disposição de banda em cada seção de 25 codificação de camada, a Figura 31A mostra as posições de quatro bandas na seção de codificação de segunda camada 105, a Figura 31B mostra as posições de seis banda na seção de codificação de terceira camada 2802 e a Figura 31C mostra oito bandas na seção de codificação de quarta camada 2804.
Na Figura 31, as bandas estão dispostas a intervalos iguais em
cada seção de codificação de camada, e somente as bandas dispostas na banda de baixa frequência são alvos a serem codificados por uma camada mais baixa mostrada na Figura 31A e o número de bandas as quais são alvos a serem codificados aumenta em uma camada mais alta mostrada na Figura 31B ou na Figura 31 C.
De acordo com tal configuração, as bandas estão dispostas a 5 intervalos iguais em cada camada, e, quando as bandas as quais são alvos a serem codificados são selecionadas em uma camada mais baixa, poucas bandas estão dispostas em uma banda de baixa frequência como candidatos a serem selecionados, de modo que é possível reduzir a complexidade computacional e a taxa de bits.
Modalidade 8
A Modalidade 8 da presente invenção difere da Modalidade 1 somente na operação da primeira seção de especificação de posição, e à primeira seção de especificação de posição de acordo com a presente modalidade será atribuído o número de referência "801" para mostrar esta dife15 rença. Para especificar a banda que pode ser empregada pela frequênciaalvo como o alvo a ser codificado, a primeira seção de especificação de posição 801 divide com antecedência uma banda inteira em uma pluralidade de bandas parciais e executa pesquisas em cada banda parcial com base em larguras de banda predeterminadas e tamanhos de etapa predetermina20 dos. Então, a primeira seção de especificação de posição 801 concatena as bandas de cada banda parcial que foram pesquisadas e encontradas, para fazer uma banda que pode ser empregada pela frequência-alvo como o alvo a ser codificado.
A operação da primeira seção de especificação de posição 801 25 de acordo com a presente modalidade será explicada utilizando a Figura 32. A Figura 32 ilustra um caso onde o número de bandas parciais é N=2, e a banda parcial 1 está configurada para cobrir a banda de baixa frequência e a banda parcial 2 está configurada para cobrir a banda de alta frequência. Uma banda é selecionada de uma pluralidade de bandas que são configura30 das com antecedência para ter uma largura de banda predeterminada (as informações de posição desta banda são referidas como "primeiras informações de posição de banda parcial") na banda parcial 1. Similarmente, uma banda é selecionada de uma pluralidade de bandas configuradas com antecedência para ter uma largura de banda predeterminada (as informações de posição desta banda são referidas como "segundas informações de posição de banda parcial") na banda parcial 2.
5 A seguir, a primeira seção de especificação de posição 801 con
catena a banda selecionada na banda parcial 1 e a banda selecionada na banda parcial 2 para formar a banda concatenada. Esta banda concatenada é a banda a ser especificada na primeira seção de especificação de posição 801 e, então, a segunda seção de especificação de posição 202 especifica 10 as segundas informações de posição com base na banda concatenada. Por exemplo, no caso onde a banda selecionada na banda parcial 1 é a banda 2 e a banda selecionada na banda parcial 2 é a banda 4, a primeira seção de especificação de posição 801 concatena estas duas bandas como mostrado na parte inferior na Figura 32 como a banda que pode ser empregada pela 15 banda de frequência como o alvo a ser codificado.
A Figura 33 é um diagrama de blocos que mostra a configuração da primeira seção de especificação de posição 801 que suporta o caso onde o número de bandas parciais é N. Na Figura 33, os coeficientes de transformada de erro de primeira camada recebidos da seção de subtração 104 são 20 fornecidos para a seção de especificação 811-1 da banda parcial 1 até a seção de especificação 811-N da banda parcial N. Cada seção de especificação de banda parcial n 811-n (onde n = 1 a N) seleciona uma banda de uma banda parcial n predeterminada, e emite as informações que mostram a posição da banda selecionada (isto é, as informações de posição da nâ ban25 da parcial) para seção de formação de primeiras informações de posição 812.
A seção de formação de primeiras informações de posição 812 forma as primeiras informações de posição utilizando as informações de posição de n- banda parcial (onde n = 1 a N) recebidas de cada seção de es30 pecificação 811-n de banda parcial n, e emite estas primeiras informações de posição para a segunda seção de especificação de posição 202, a seção de codificação 203 e a seção de multiplexação 204. A Figura 34 ilustra como as primeiras informações de posição são formadas na seção de formação de primeiras informações de posição 812 . Nesta figura, a seção de formação de primeiras informações de posição 812 forma as primeiras informações de posição dispondo as primeiras 5 informações de posição de banda parcial (isto é, bit A1) até a N— informações de posição de banda parcial (isto é, bit AN) em ordem. Aqui o comprimento de bit An de cada nâ informação de posição de banda parcial é determinado com base no número de bandas candidatas incluídas em cada banda parcial n, e pode ter um valor diferente.
A Figura 35 mostra como os coeficientes de transformada de
erro decodificados de primeira camada são encontrados utilizando as primeiras informações de posição e as segundas informações de posição no processamento de decodificação da presente modalidade. Aqui, um caso será explicado como um exemplo onde o número de bandas parciais é dois. En15 trementes, na explicação seguinte, os nomes e os números de cada componente que forma a seção de decodificação de segunda camada 603 de acordo com a Modalidade 1 serão apropriados.
A seção de disposição 704 redispõe os candidatos de forma após a multiplicação de candidatos de ganho recebida da seção de multiplica20 ção 703, utilizando as segundas informações de posição. A seguir, a seção de disposição 704 redispõe os candidatos de forma após a redisposição utilizando as segundas informações de posição, na banda parcial 1 e na banda parcial 2 utilizando as primeiras informações de posição. A seção de disposição 704 emite o sinal encontrado deste modo como os coeficientes de 25 transformada de erro decodificados de primeira camada.
De acordo com a presente modalidade, a primeira seção de especificação de posição seleciona uma banda de cada banda parcial e, consequentemente, torna possível dispor pelo menos um espectro decodificado em cada banda parcial. Por este meio, comparado com as modalidades on30 de uma banda é determinada de uma banda inteira, uma pluralidade de bandas para as quais a qualidade de som precisa ser aperfeiçoada pode ser determinada com antecedência. A presente modalidade é efetiva, por exempio, quando a qualidade tanto da banda de baixa frequência quanto da banda de alta frequência precisa ser aperfeiçoada.
Ainda, de acordo com a presente modalidade, mesmo quando a codificação é executada a uma baixa taxa de bits em uma camada inferior (isto é, a primeira camada com a presente modalidade), é possível aperfeiçoar a qualidade subjetiva do sinal decodificado. A configuração que aplica o esquema CELP a uma camada inferior é um destes exemplos. O esquema CELP é um esquema de codificação com base em coincidência de forma de onda e assim executa uma codificação de modo que a distorção de quantização em uma banda d baixa frequência de grande energia é minimizada comparado com uma banda de alta frequência. Como um resultado, o espectro da banda de alta frequência é atenuado e é percebido como abafado (isto é, faltando a sensação da banda). Em contraste com isto, a codificação baseada no esquema CELP é uma esquema de codificação de uma baixa taxa de bits, e portanto a distorção de quantização em uma banda de baixa frequência não pode ser muito suprimida e esta distorção de quantização é percebida como ruidosa. A presente modalidade seleciona as bandas como os alvos a serem codificados, de uma banda de baixa frequência e uma banda de alta frequência, respectivamente, de modo que é possível cancelar dois fatores de deterioração de ruído diferentes na banda de baixa frequência e um som abafado na banda de alta frequência, ao mesmo tempo, e aperfeiçoar a qualidade subjetiva.
Ainda, a presente modalidade forma uma banda concatenada pela concatenação de uma banda selecionada de uma banda de baixa fre25 quência e uma banda selecionada de uma banda de alta frequência e determina a forma espectral nesta banda concatenada, e, consequentemente, pode executar um processamento de seleção adaptável da forma espectral que enfatiza a banda de baixa frequência em um quadro para o qual o aperfeiçoamento de qualidade é mais necessário em uma banda de baixa fre30 quência do que em uma banda de alta frequência e selecionando a forma espectral que enfatiza a banda de alta frequência em um quadro para o qual o aperfeiçoamento de qualidade é mais necessário na banda de alta frequência do que na banda de baixa frequência, de modo que é possível aperfeiçoar a qualidade subjetiva. Por exemplo, para representar a forma espectral por pulsos, mais pulsos são alocados em uma banda de baixa frequência em um quadro para o qual o aperfeiçoamento de qualidade é mais necessá5 rio na banda de baixa frequência do que na banda de alta frequência, e mais pulsos são alocados na banda de alta frequência em um quadro para o qual o aperfeiçoamento de qualidade é mais necessário na banda de alta frequência do que na banda de baixa frequência, de modo que é possível aperfeiçoar a qualidade subjetiva por meio de tal processamento adaptável.
Ainda, como uma variação da presente modalidade, uma banda
fixa pode ser selecionada o tempo todo em uma banda parcial específica como mostrado na Figura 36. Com o exemplo mostrado na Figura 36, a banda 4 é selecionada o tempo todo na banda parcial 2 e forma parte da banda concatenada. Por este meio, similar à vantagem da presente modali15 dade, a banda para a qual a qualidade de som precisa ser aperfeiçoada pode ser determinada com antecedência, e, por exemplo, as informações de posição de banda parcial da banda parcial 2 não são requeridas, de modo que é possível reduzir o número de bits para representar as primeiras informações de posição mostradas na Figura 34.
Ainda, apesar da Figura 36 mostrar um caso como um exemplo
onde uma região fixa é selecionada o tempo todo na banda de alta frequência, (isto é, a banda parcial 2), a presente invenção não está limitada a isto, e uma região fixa pode ser selecionada o tempo todo na banda de baixa frequência (isto é, a banda parcial 1) ou a região fixa pode ser selecionada o 25 tempo todo na banda parcial de uma banda de frequência média que não está mostrada na Figura 36.
Ainda, como uma variação da presente modalidade, a largura de banda de bandas candidatas determinada em cada banda parcial pode variar como mostrado na Figura 37. A Figura 37 ilustra um caso onde a largura de banda da banda parcial determinada na banda parcial 2 é mais curta do que as bandas candidatas determinadas na banda parcial 1. As modalidades da presente invenção foram explicadas.
Ainda, a disposição de banda em cada seção de codificação de camada não está limitada aos exemplos acima explicados com a presente invenção, e, por exemplo, uma configuração é possível onde a largura de 5 banda de cada banda é feita mais estreita em uma camada mais baixa e a largura de banda de cada banda é feita mais larga em uma camada mais alta.
Ainda, com as modalidades acima, a banda do quadro corrente pode ser selecionada em associação com as bandas selecionadas em qua10 dros passados. Por exemplo, a banda do quadro corrente pode ser determinada de bandas posicionadas nas proximidades de bandas selecionadas em quadros anteriores. Ainda, redispondo os candidatos de banda para o quadro corrente nas proximidades das bandas selecionadas nos quadros anteriores, a banda do quadro corrente pode ser determinada dos candidatos de 15 banda redispostos. Ainda, transmitindo as informações de região uma vez a cada diversos quadros, uma região mostrada pelas informações de região transmitidas no passado pode ser utilizada em um quadro no qual as informações de região não são transmitidas (transmissão descontínua de informações de banda).
Mais ainda, com as modalidades acima, a banda da camada cor
rente pode ser selecionada em associação com a banda selecionada em uma camada mais baixa. Por exemplo, a banda da camada corrente pode ser selecionada das bandas posicionadas nas proximidades das bandas selecionadas em uma camada mais baixa. Redispondo os candidatos de ban25 da da camada corrente nas proximidades de banda selecionadas em uma camada mais baixa, a banda da camada corrente pode ser determinada dos candidatos de banda redispostos. Ainda, transmitindo as informações de região uma vez a cada diversos quadros, uma região indicada pelas informações de região transmitidas no passado pode ser utilizada em um quadro 30 no qual as informações de região não são transmitidas (transmissão intermitente de informações de banda).
Mais ainda, o número de camadas em codificação escalável não está limitado com a presente invenção.
Mais ainda, apesar das modalidades acima assumirem os sinais voz como sinais decodificados, a presente invenção não está limitada a isto e os sinais decodificados podem ser, por exemplo, sinais de áudio.
Também, apesar de casos terem sido descritos com a modali
dade acima como exemplos onde a presente invenção está configurada por hardware, a presente invenção pode também ser realizada por software.
Cada bloco de função empregado na descrição de cada uma das modalidades acima mencionadas pode tipicamente ser implementando 10 com um LSI constituído por um circuito integrado. Estes podem ser chips individuais ou parcialmente ou totalmente contidos em um único chip. "LSI" é aqui adotado mas isto pode também ser referido como "IC", "LSI de sistema", "super LSI", ou "ultra LSI" dependendo de diferentes extensões de integração.
Ainda, o método de integração de circuito não está limitado a
LSIs, e a implementação utilizando um circuito dedicado ou processadores de uso geral é também possível. Após a fabricação do LSI, a utilização de um FPGA (Rede de Portas Programável no Campo) programável ou um processador reconfigurável onde as conexões e os ajustes de células de circuito dentro de um LSI podem ser reconfigurados é também possível.
Ainda, se uma tecnologia de circuito integrado vier a substituir os LSIs como um resultado do avanço da tecnologia de semicondutor ou uma outra tecnologia derivada, é naturalmente também possível executar a integração de bloco de função utilizando esta tecnologia. A aplicação de biotecnologia é também possível.
As descrições do Pedido de Patente Japonesa Número 2007- 053498, depositado em 02 de Março de 2007, do Pedido de Patente Japonesa Número 2007-133525, depositado em 18 de Maio de 2007, do Pedido de Patente Japonesa Número 2007-184546 depositado em 13 de Julho de 30 2007, e do Pedido de Patente Japonesa Número 2008-044774, depositado em 26 de Fevereiro de 2008, incluindo as especificações, os desenhos e os resumos são aqui incorporadas por referência em sua totalidade. APLICABILIDADE INDUSTRIAL
A presente invenção é adequada para utilização em um aparelho de codificação, um aparelho de decodificação e assim por diante utilizados em um sistema de comunicação de um esquema de codificação escalável.

Claims (14)

1. Aparelho de codificação, que compreende: uma seção de codificação de primeira camada que executa um processamento de codificação com relação a coeficientes de transformada de entrada para gerar os dados codificados de primeira camada; uma seção de decodificação de primeira camada que executa um processamento de decodificação que utiliza os dados codificados de primeira camada para gerar os coeficientes de transformada decodificados de primeira camada; e uma seção de codificação de segunda camada que executa um processamento de codificação com relação a uma banda de frequência-alvo onde, nos coeficientes de transformada de erro de primeira camada que representam um erro entre os coeficientes de transformada de entrada e os coeficientes de transformada decodificados de primeira camada, um erro máximo é encontrado, para gerar os dados codificados de segunda camada, em que a seção de codificação de segunda camada compreende: uma primeira seção de especificação de posição que pesquisa por uma primeira banda que compreende o erro máximo através de toda a banda inteira, com base em uma largura de banda mais larga do que a banda de frequência-alvo e um primeiro tamanho de etapa predeterminado para gerar as primeiras informações de posição que mostram a primeira banda especificada; uma segunda seção de especificação de posição que pesquisa pela banda de frequência-alvo através de toda a primeira banda, com base em um segundo tamanho de etapa mais estreita do que o primeiro tamanho de etapa para gerar as segundas informações de posição que mostram a banda de frequência-alvo especificada; e uma seção de codificação que codifica os coeficientes de transformada de erro de primeira camada incluídos na banda de frequência-alvo especificada com base nas primeiras informações de posição e nas segundas informações de posição para gerar as informações codificadas.
2. Aparelho de codificação de acordo com a reivindicação 1, em que a segunda seção de especificação de posição especifica a banda de frequência-alvo com base em uma única frequência-alvo.
3. Aparelho de codificação de acordo com a reivindicação 1, em que a segunda seção de especificação de posição especifica a banda de frequência-alvo com base em uma pluralidade de frequências-alvo.
4. Aparelho de codificação de acordo com a reivindicação 1, em que a segunda seção de especificação de posição especifica a banda de frequência-alvo de modo que uma distorção de quantização produzida,quando os coeficientes de transformada de erro de primeira camada são codificados, é minimizada.
5. Aparelho de codificação de acordo com a reivindicação 1, em que a primeira seção de especificação de posição especifica a primeira banda com base em uma magnitude de energia dos coeficientes de transformada de erro de primeira camada.
6. Aparelho de codificação de acordo com a reivindicação 1, em que a primeira seção de especificação de posição especifica a primeira banda de uma banda de baixa frequência mais baixa do que uma frequência de referência que é determinada.
7. Aparelho de codificação de acordo com a reivindicação 1, em que a primeira seção de especificação de posição especifica a primeira banda com base em um múltiplo integral de uma frequência de altura de som.
8. Aparelho de codificação de acordo com a reivindicação 1, em que: o número de camadas no processamento de codificação é pelo menos dois: uma frequência de referência é determinada mais alta em uma camada mais alta; e a primeira seção de especificação de posição especifica a primeira banda de uma banda de baixa frequência mais baixa do que a frequência de referência, em uma base por camada.
9. Aparelho de codificação de acordo com a reivindicação 1, em que a primeira seção de especificação de posição divide a banda inteira em uma pluralidade de bandas parciais, seleciona uma banda em cada uma das bandas parciais e concatena uma pluralidade de bandas selecionadas para fazer uma banda concatenada como a primeira banda.
10. Aparelho de codificação de acordo com a reivindicação 9, em que a primeira seção de especificação de posição seleciona uma banda fixa predeterminada, em pelo menos uma da pluralidade de bandas parciais.
11. Aparelho de decodificação que compreende: uma seção de recepção que recebe: os dados codificados de primeira camada adquiridos pela execução do processamento de codificação com relação aos coeficientes de transformada de entrada; os dados codificados de segunda camada adquiridos pela execução do processamento de codificação com relação a uma banda de frequência-alvo onde, nos coeficientes de transformada de erro de primeira camada que representam um erro entre os coeficientes de transformada de entrada e os coeficientes de transformada decodificados de primeira camada os quais são adquiridos pela decodificação dos dados codificados de primeira camada, um erro máximo é encontrado; as primeiras informações de posição que mostram uma primeira banda a qual maximiza o erro, em uma largura de banda mais larga do que a banda de frequência-alvo; e as segundas informações de posição que mostram a banda de frequência-alvo na primeira banda; uma seção de decodificação de primeira camada que decodifica os dados codificados de primeira camada para gerar os coeficientes de transformada decodificados de primeira camada; uma seção de decodificação de segunda camada que especifica a banda de frequência-alvo com base nas primeiras informações de posição e nas segundas informações de posição e decodifica os dados codificados de segunda camada para gerar os coeficientes de transformada de erro decodificados de primeira camada; e uma seção de adição que soma os coeficientes de transformada decodificados de primeira camada e os coeficientes de transformada de erro decodificados de primeira camada para gerar os coeficientes de transformada decodificados de segunda camada.
12. Aparelho de decodificação de acordo com a reivindicação 11, em que a seção de decodificação de segunda camada executa a decodificação utilizando as informações de forma e as informações de ganho incluídas nos dados codificados de segunda camada.
13. Método de codificação, que compreende: uma etapa de codificação de primeira camada de executar um processamento de codificação com relação aos coeficientes de transformada de entrada para gerar os dados codificados de primeira camada; uma etapa de decodificação de primeira camada de executar um processamento de decodificação utilizando os dados codificados de primeira camada para gerar os coeficientes de transformada decodificados de primeira camada; e uma etapa de codificação de segunda camada de executar um processamento de codificação com relação a uma banda de frequência-alvo onde, nos coeficientes de transformada de erro de primeira camada que representam um erro entre os coeficientes de transformada de entrada e os coeficientes de transformada decodificados de primeira camada, um erro máximo é encontrado para gerar os dados codificados de segunda camada, em que a etapa de codificação de segunda camada compreende: uma primeira etapa de especificação de posição de pesquisar por uma primeira banda que compreende o erro máximo através de toda uma banda inteira, com base em uma largura de banda mais larga do que a banda de frequência-alvo e um tamanho de primeira etapa predeterminado para gerar as primeiras informações de posição que mostram a primeira banda especificada; uma segunda etapa de especificação de posição de pesquisar pela banda de frequência-alvo através de toda a primeira banda, com base em um tamanho de segunda etapa mais estreito do que o tamanho de primeira etapa para gerar as segundas informações de posição que mostram a banda de frequência-alvo especificada; e uma etapa de codificação de codificar os coeficientes de transformada de erro de primeira camada incluídos na banda de frequência-alvo especificada com base nas primeiras informações de posição e nas segundas informações de posição para gerar as informações codificadas.
14. Método de decodificação que compreende: uma etapa de recepção de receber: os dados codificados de primeira camada adquiridos pela execução do processamento de codificação com relação aos coeficientes de transformada de entrada; os dados codificados de segunda camada adquiridos pela execução do processamento de codificação com relação a uma banda de frequência-alvo onde, nos coeficientes de transformada de erro de primeira camada que representam um erro entre os coeficientes de transformada de entrada e os coeficientes de transformada decodificados de primeira camada os quais são adquiridos pela decodificação dos dados codificados de primeira camada, um erro máximo é encontrado; as primeiras informações de posição que mostram uma primeira banda a qual maximiza o erro, em uma largura de banda mais larga do que a banda de frequência-alvo; e as segundas informações de posição que mostram a banda de frequência-alvo na primeira banda; uma etapa de decodificação de primeira camada de decodificar os dados codificados de primeira camada para gerar os coeficientes de transformada decodificados de primeira camada; uma etapa de decodificação de segunda camada de especificar a banda de frequência-alvo com base nas primeiras informações de posição e nas segundas informações de posição e decodificar os dados codificados de segunda camada para gerar os coeficientes de transformada de erro decodificados de primeira camada; e uma etapa de adição de somar os coeficientes de transformada decodificados de primeira camada e os coeficientes de transformada de erro decodificados de primeira camada para gerar os coeficientes de transformada decodificados de segunda camada.
BRPI0808705-9A 2007-03-02 2008-02-29 Dispositivo de codificação, dispositivo de decodificação e seu método BRPI0808705A2 (pt)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP2007053498 2007-03-02
JP2007-053498 2007-03-02
JP2007133525 2007-05-18
JP2007-133525 2007-05-18
JP2007-184546 2007-07-13
JP2007184546 2007-07-13
JP2008044774A JP4708446B2 (ja) 2007-03-02 2008-02-26 符号化装置、復号装置およびそれらの方法
JP2008-044774 2008-02-26
PCT/JP2008/000396 WO2008120437A1 (ja) 2007-03-02 2008-02-29 符号化装置、復号装置およびそれらの方法

Publications (1)

Publication Number Publication Date
BRPI0808705A2 true BRPI0808705A2 (pt) 2014-09-09

Family

ID=39808024

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0808705-9A BRPI0808705A2 (pt) 2007-03-02 2008-02-29 Dispositivo de codificação, dispositivo de decodificação e seu método

Country Status (10)

Country Link
US (3) US8543392B2 (pt)
EP (3) EP2747080B1 (pt)
JP (1) JP4708446B2 (pt)
KR (1) KR101363793B1 (pt)
CN (3) CN102394066B (pt)
BR (1) BRPI0808705A2 (pt)
CA (1) CA2679192C (pt)
ES (1) ES2473277T3 (pt)
RU (2) RU2502138C2 (pt)
WO (1) WO2008120437A1 (pt)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
US8352249B2 (en) * 2007-11-01 2013-01-08 Panasonic Corporation Encoding device, decoding device, and method thereof
US8660851B2 (en) 2009-05-26 2014-02-25 Panasonic Corporation Stereo signal decoding device and stereo signal decoding method
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
FR2947945A1 (fr) * 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
CN101989429B (zh) * 2009-07-31 2012-02-01 华为技术有限公司 转码方法、装置、设备以及系统
EP2490216B1 (en) * 2009-10-14 2019-04-24 III Holdings 12, LLC Layered speech coding
WO2011048798A1 (ja) 2009-10-20 2011-04-28 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
PL3998606T3 (pl) * 2009-10-21 2023-03-06 Dolby International Ab Nadrpóbkowanie w połączonym banku filtrów modułu transpozycji
JP5525540B2 (ja) * 2009-10-30 2014-06-18 パナソニック株式会社 符号化装置および符号化方法
WO2011155144A1 (ja) * 2010-06-11 2011-12-15 パナソニック株式会社 復号装置、符号化装置及びこれらの方法
BR112012032746A2 (pt) * 2010-06-21 2016-11-08 Panasonic Corp dispositivo de descodificação, dispositivo de codificação, e métodos para os mesmos.
CA3093517C (en) 2010-07-02 2021-08-24 Dolby International Ab Audio decoding with selective post filtering
KR20130108281A (ko) 2010-09-10 2013-10-02 파나소닉 주식회사 부호화 장치 및 부호화 방법
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
ES2535609T3 (es) 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
EP4243017A3 (en) 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
JP6010539B2 (ja) * 2011-09-09 2016-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法および復号方法
EP2733699B1 (en) 2011-10-07 2017-09-06 Panasonic Intellectual Property Corporation of America Scalable audio encoding device and scalable audio encoding method
JP6133409B2 (ja) * 2012-05-25 2017-05-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. プログラムのリバースエンジニアリング及び/又は改竄に対する保護のための方法、システム及び装置
CA2916150C (en) 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
RU2670377C2 (ru) 2014-08-28 2018-10-22 Нокиа Текнолоджиз Ой Квантование аудиопараметров
KR102547480B1 (ko) * 2014-12-09 2023-06-26 돌비 인터네셔널 에이비 Mdct-도메인 에러 은닉
US20160323425A1 (en) * 2015-04-29 2016-11-03 Qualcomm Incorporated Enhanced voice services (evs) in 3gpp2 network
WO2017129270A1 (en) 2016-01-29 2017-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal
US10524173B2 (en) * 2016-02-24 2019-12-31 Cisco Technology, Inc. System and method to facilitate sharing bearer information in a network environment
BR112018067944B1 (pt) * 2016-03-07 2024-03-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Unidade de ocultação de erro, método de ocultação de erro,decodificador de áudio, codificador de áudio, método para fornecer uma representação de áudio codificada e sistema
CN109313905B (zh) 2016-03-07 2023-05-23 弗劳恩霍夫应用研究促进协会 隐藏音频帧丢失的错误隐藏单元、音频解码器及相关方法
CN109155134B (zh) 2016-03-07 2023-05-23 弗劳恩霍夫应用研究促进协会 隐藏音频帧丢失的错误隐藏单元、音频解码器和相关方法
JP6685198B2 (ja) * 2016-07-27 2020-04-22 キヤノン株式会社 撮像装置及びその制御方法及びプログラム
US10917857B2 (en) 2019-04-18 2021-02-09 Comcast Cable Communications, Llc Methods and systems for wireless communication

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
DE19638997B4 (de) * 1995-09-22 2009-12-10 Samsung Electronics Co., Ltd., Suwon Digitales Toncodierungsverfahren und digitale Toncodierungsvorrichtung
US5999905A (en) * 1995-12-13 1999-12-07 Sony Corporation Apparatus and method for processing data to maintain continuity when subsequent data is added and an apparatus and method for recording said data
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
JP3352406B2 (ja) * 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
JP2002020658A (ja) 2000-07-05 2002-01-23 Hiroshi Takimoto 記録液
FI109393B (fi) * 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
US7236839B2 (en) * 2001-08-23 2007-06-26 Matsushita Electric Industrial Co., Ltd. Audio decoder with expanded band information
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
DE60214599T2 (de) * 2002-03-12 2007-09-13 Nokia Corp. Skalierbare audiokodierung
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
FR2849727B1 (fr) 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
RU2248619C2 (ru) * 2003-02-12 2005-03-20 Рыболовлев Александр Аркадьевич Способ и устройство преобразования речевого сигнала методом линейного предсказания с адаптивным распределением информационных ресурсов
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
US7724818B2 (en) * 2003-04-30 2010-05-25 Nokia Corporation Method for coding sequences of pictures
JP4719674B2 (ja) * 2003-06-30 2011-07-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズの加算によるデコードオーディオの品質の向上
KR20050022419A (ko) * 2003-08-30 2005-03-08 엘지전자 주식회사 음성 부호화기의 스펙트럼 벡터 양자화 장치 및 방법
EP2071565B1 (en) * 2003-09-16 2011-05-04 Panasonic Corporation Coding apparatus and decoding apparatus
US7844451B2 (en) * 2003-09-16 2010-11-30 Panasonic Corporation Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums
JP4679049B2 (ja) * 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
CN100507485C (zh) 2003-10-23 2009-07-01 松下电器产业株式会社 频谱编码装置和频谱解码装置
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
JP4977472B2 (ja) 2004-11-05 2012-07-18 パナソニック株式会社 スケーラブル復号化装置
EP1858006B1 (en) 2005-03-25 2017-01-25 Panasonic Intellectual Property Corporation of America Sound encoding device and sound encoding method
CN101167124B (zh) 2005-04-28 2011-09-21 松下电器产业株式会社 语音编码装置和语音编码方法
US8428956B2 (en) 2005-04-28 2013-04-23 Panasonic Corporation Audio encoding device and audio encoding method
RU2296377C2 (ru) * 2005-06-14 2007-03-27 Михаил Николаевич Гусев Способ анализа и синтеза речи
US8112286B2 (en) 2005-10-31 2012-02-07 Panasonic Corporation Stereo encoding device, and stereo signal predicting method
JP5173795B2 (ja) 2006-03-17 2013-04-03 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法

Also Published As

Publication number Publication date
US8935162B2 (en) 2015-01-13
RU2012115551A (ru) 2013-08-27
EP2128860A4 (en) 2013-10-23
JP2009042733A (ja) 2009-02-26
EP2747080A3 (en) 2014-08-06
CN102394066B (zh) 2013-10-09
US20140019144A1 (en) 2014-01-16
RU2502138C2 (ru) 2013-12-20
EP2747080A2 (en) 2014-06-25
EP2128860A1 (en) 2009-12-02
KR20090117883A (ko) 2009-11-13
EP2747080B1 (en) 2017-06-28
CN101611442B (zh) 2012-02-08
CN101611442A (zh) 2009-12-23
EP2747079A2 (en) 2014-06-25
RU2488897C1 (ru) 2013-07-27
CN102385866A (zh) 2012-03-21
US8935161B2 (en) 2015-01-13
US8543392B2 (en) 2013-09-24
EP2747079A3 (en) 2014-08-13
CN102394066A (zh) 2012-03-28
CA2679192A1 (en) 2008-10-09
US20130332150A1 (en) 2013-12-12
CN102385866B (zh) 2013-05-08
ES2473277T3 (es) 2014-07-04
EP2747079B1 (en) 2018-04-04
KR101363793B1 (ko) 2014-02-14
JP4708446B2 (ja) 2011-06-22
EP2128860B1 (en) 2014-06-04
US20100017200A1 (en) 2010-01-21
CA2679192C (en) 2016-01-19
WO2008120437A1 (ja) 2008-10-09

Similar Documents

Publication Publication Date Title
BRPI0808705A2 (pt) Dispositivo de codificação, dispositivo de decodificação e seu método
BRPI0808428A2 (pt) Dispostivo de codificação e método de codificação
ES2460893T3 (es) Sistemas, procedimientos y aparato para limitar el factor de ganancia
US8515767B2 (en) Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
ES2644967T3 (es) Extensión adaptativa del ancho de banda y aparato para la misma
RU2459282C2 (ru) Масштабируемое кодирование речи и аудио с использованием комбинаторного кодирования mdct-спектра
ES2432625T3 (es) Cálculo de máscara de escalamiento selectiva basado en detección de picos
ES2844231T3 (es) Modelado de señales de banda alta
BRPI0609530A2 (pt) método e equipamento para encodificar e decodificar uma porção de banda alta de um sinal de fala
JPWO2008072737A1 (ja) 符号化装置、復号装置およびこれらの方法
ES2965741T3 (es) Aparato para codificar o decodificar una señal multicanal codificada mediante una señal de relleno generada por un filtro de banda ancha
KR20120061826A (ko) 디지털 오디오 신호들의 계층적 코딩/디코딩을 개선하기 위한 향상 코딩/ 디코딩에서의 비트들의 할당
KR20120032025A (ko) 디지털 오디오 신호들의 개선된 코딩/디코딩
RU2644135C2 (ru) Устройство и способ декодирования кодированного аудиосигнала с низкими вычислительными ресурсами
JP5236033B2 (ja) 音声符号化装置、音声復号装置およびそれらの方法
RU2459283C2 (ru) Кодирующее устройство, декодирующее устройство и способ

Legal Events

Date Code Title Description
B25A Requested transfer of rights approved

Owner name: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AME

B15K Others concerning applications: alteration of classification

Ipc: G10L 19/00 (2013.01), G10L 19/005 (2013.01), G10L

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 19/00 , G10L 19/005 , G10L 19/02 , G10L 19/24

Ipc: G10L 19/02 (2000.01), G10L 19/005 (2013.01), G10L

B11B Dismissal acc. art. 36, par 1 of ipl - no reply within 90 days to fullfil the necessary requirements