BR122012021665B1 - dispositivos e métodos de decodificação de voz - Google Patents

dispositivos e métodos de decodificação de voz Download PDF

Info

Publication number
BR122012021665B1
BR122012021665B1 BR122012021665-8A BR122012021665A BR122012021665B1 BR 122012021665 B1 BR122012021665 B1 BR 122012021665B1 BR 122012021665 A BR122012021665 A BR 122012021665A BR 122012021665 B1 BR122012021665 B1 BR 122012021665B1
Authority
BR
Brazil
Prior art keywords
unit
voice
high frequency
bit stream
signal
Prior art date
Application number
BR122012021665-8A
Other languages
English (en)
Other versions
BR122012021665A2 (pt
Inventor
Kei Kikuiri
Nobuhiko Naka
Kosuke Tsujino
Original Assignee
Ntt Docomo, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2010004419A external-priority patent/JP4932917B2/ja
Application filed by Ntt Docomo, Inc. filed Critical Ntt Docomo, Inc.
Publication of BR122012021665A2 publication Critical patent/BR122012021665A2/pt
Publication of BR122012021665B1 publication Critical patent/BR122012021665B1/pt

Links

Images

Abstract

DISPOSITIVO DE CODIFICAÇÃO DE VOZ, DISPOSITIVO DE DECODIFICAÇÃO DE VOZ, MÉTODO DE CODIFICAÇÃO DE VOZ, MÉTODO DE DECODIFICAÇÃO DE VOZ, PROGRAMA DE CODIFICAÇÃO DE VOZ E PROGRAMA DE DECODIFICAÇÃO DE VOZ. Um coeficiente de previsão linear de um sinal representado em um domínio de frequência é representado realizando-se a análise de previsão linear in a direção de frequência com uso de um método de covariância ou um método de auto-correlação. Após a resistência de filtro do coeficiente de previsão linear obtido ser ajustada, a filtragem é realizada na direção de frequência no sinal com uso do coeficiente ajustado, assim o envelope temporal do sinal é transformado. Isto reduz a ocorrência de pré-eco e pós-eco e melhora a qualidade subjetiva do sinal decodificado, sem aumentar significantemente a taxa de bit em uma técnica de extensão de banda no domínio de frequência representado por SBR.

Description

Pedido dividido do PI1015049-8, depositado em 02.04.2010.
Campo técnico
A presente invenção se refere a um dispositivo de codificação de voz, um dispositivo de decodificação de voz, um método de codificação de voz, um método de decodificação de voz, um programa de codificação de voz e um programa de decodificação de voz.
Técnica anterior
As técnicas de codificação de áudio de voz para compactar a quantidade de dados de sinais em poucos décimos removendo as informa- ções não necessárias para percepção humana com uso de psicologia auditi- va são extremamente importantes na transmissão e armazenamento de si- nais. Os exemplos de técnicas de codificação de áudio perceptuais ampla- mente usadas incluem "MPEG4 AAC" padronizado por "ISO/IEC MPEG". Uma técnica de extensão de banda para gerar componentes de alta frequência com uso de componentes de baixa frequência de voz tem sido amplamente usada recentemente para aumentar o desempenho da co- dificação de e obter uma alta qualidade em uma baixa taxa de bit. Os exem- plos típicos da técnica de extensão de banda incluem a técnica SBR (Repli- cação de Banda Espectral) usada em "MPEG4 AAC". Na SBR, um compo- nente de alta frequência é gerado convertendo-se um sinal em uma região espectral com uso de um banco de filtro QMF (Filtro em Espelho de Quadra- tura) e copiando-se os coeficientes espectrais da uma banda de baixa fre- quência para uma banda de alta frequência com relação ao sinal convertido, e o componente de alta frequência é ajustado ajustando-se o envelope es- pectral e a tonalidade dos coeficientes copiados. Devido ao fato de que um método de codificação de voz com uso da técnica de extensão de banda pode reproduzir os componentes de alta frequência de um sinal com uso 2/105 somente de uma pequena quantidade de informações suplementares, este é efetivo na redução da taxa de bit da codificação de voz.
Na técnica de extensão de banda no domínio de frequência re- presentado pela SBR, a tonalidade e envelope espectral do coeficiente es- 5 pectral representado no domínio de frequência são ajustados realizando-se novamente o ajuste, realizando-se a filtragem inversa de previsão linear em uma direção temporal, e sobrepondo-se o ruído no coeficiente espectral. Como resultado deste processo de ajuste, mediante a codificação de um sinal que tem uma grande variação no envelope temporal tal como um sinal 10 de voz, aplausos ou castanholas, um ruído de reverberação chamado de um pré-eco ou um pós-eco pode ser percebido no sinal decodificado. Este pro- blema é causado devido ao fato de que o envelope temporal do componente de alta frequência é transformado durante o processo de ajuste, e em muitos casos, o envelope temporal é mais suave depois do processo de ajuste do 15 que antes do processo de ajuste. O envelope temporal do componente de alta frequência após o processo de ajuste não combina com o envelope temporal do componente de alta frequência de um sinal original antes de ser codificado, assim causando o pré-eco e o pós-eco.
Um problema similar àquele do pré-eco e pós-eco também ocor- 20 re na codificação de áudio de múltiplos canais com uso de um processo pa- ramétrico representado pelo "MPEG Surround"e um estéreo paramétrico. Um decodificador usado na codificação de áudio de múltiplos canais inclui um meio para realizar a decorrelação em um sinal decodificado com uso de um filtro de reverberação. No entanto, o envelope temporal do sinal é trans- 25 formado durante a decorrelação, assim causando degradação de um sinal de reprodução similar àquele do pré-eco e pós-eco. As soluções para o pro- blema incluem uma técnica de TES (Formatação de Envelope Temporal) (Li- teratura de Patente 1). Na técnica de TES, uma análise de previsão linear é realizada em uma direção de frequência em um sinal representado em um 30 domínio de QMF em que a decorrelação não foi ainda realizada para se ob- ter um coeficiente de previsão linear, e, com uso do coeficiente de previsão linear, a filtragem de síntese de previsão linear é realizada na direção de fre- quência no sinal em que a decorrelação foi realizada. Este processo permite que a técnica de TES extraia o envelope temporal de um sinal em que a de- correlação ainda não foi realizada, e em concordância com o envelope tem- poral extraído, ajustar o envelope temporal do sinal em que a decorrelação foi realizada. Devido ao fato de que o sinal em que a decorrelação não foi ainda realizada tem um envelope temporal menos distorcido, o envelope temporal do sinal em que a decorrelação foi realizada é ajustado para um formato menos distorcido, assim obtendo-se um sinal de reprodução em que o pré-eco e o pós-eco são melhorados.
Lista de Citação Literatura de Patente
Literatura de Patente 1: Publicação de Pedido de Patente dos Estados Unidos N° 2006/0239473
Sumário da Invenção Problema Técnico
A técnica de TES descrita acima é uma técnica que utiliza o fato de que um sinal em que a decorrelação não foi realizada ainda tem um en- velope temporal menos distorcido. No entanto, em um decodificador de SBR, o componente de alta frequência de um sinal é copiado do componente de baixa frequência do sinal. Da mesma forma, não é possível se obter um en- velope temporal menos distorcido com relação ao componente de alta fre- quência. Uma das soluções para este problema é um método para analisar o componente de alta frequência de um sinal de entrada em um codificado de SBR, quantizar o coeficiente de previsão linear obtido como resultado da análise, e multiplexá-los em um fluxo de bit a ser transmitido. Este método permite que o decodificador de SBR para se obter um coeficiente de previ- são linear que inclui informações com envelope temporal menos distorcido do componente de alta frequência. No entanto, neste caso, uma grande quantidade de informações é necessária para transmitir o coeficiente de pre- visão linear quantizado, assim aumentando significantemente a taxa de bit de todo o fluxo de bit codificado. Assim, a presente invenção pretende redu- zir a ocorrência de pré-eco e pós-eco e melhorar a qualidade subjetiva do sinal decodificado, sem aumentar significantemente a taxa de bit na técnica de extensão de banda no domínio de frequência representado pela SBR.
Solução do Problema
Um dispositivo de codificação de voz da presente invenção é um dispositivo de codificação de voz para codificar um sinal de voz e inclui: meio de codificação central para codificar um componente de baixa frequência do sinal de voz; meio de cálculo de informações suplementares de envelope temporal para calcular as informações suplementares de envelope temporal para se obter uma aproximação de um envelope temporal de um componen- te de alta frequência do sinal de voz com uso de um envelope temporal do componente de baixa frequência do sinal de voz; e meio de multiplexação de fluxo de bit para gerar um fluxo de bit em que ao menos o componente de baixa frequência codificado pelo meio de codificação central e as informa- ções suplementares de envelope temporal calculadas pelo meio de cálculo de informações suplementares de envelope temporal são multiplexados.
No dispositivo de codificação de voz da presente invenção, as informações suplementares de envelope temporal preferencialmente repre- sentam um parâmetro que indica uma sutileza de variação no envelope tem- poral do componente de alta frequência do sinal de voz em uma seção de análise predeterminada.
É preferível que o dispositivo de codificação de voz da presente invenção ainda inclua um meio de conversão de frequência para converter o sinal de voz em um domínio de frequência, e o meio de cálculo de informa- ções suplementares de envelope temporal calcule as informações suplemen- tares de envelope temporal com base em um coeficiente de previsão linear de alta frequência obtido realizando-se a análise de previsão linear em uma direção de frequência em um coeficiente de lado de frequência do sinal de voz convertido no domínio de frequência pelo meio de conversão de fre- quência.
No dispositivo de codificação de voz da presente invenção, o meio de cálculo de informações suplementares de envelope temporal prefe- rencialmente realiza a análise de previsão linear em uma direção de fre- quência em um coeficiente de lado de baixa frequência do sinal de voz con- vertido no domínio de frequência pelo meio de conversão de frequência para se obter um coeficiente de previsão linear de baixa frequência, e calcula as informações suplementares de envelope temporal com base no coeficiente de previsão linear de baixa frequência e no coeficiente de previsão linear de alta frequência.
No dispositivo de codificação de voz da presente invenção, o meio de cálculo de informações suplementares de envelope temporal prefe- rencialmente obtém um ganho de previsão a partir de cada um dos coefici- entes de previsão linear de baixa frequência e dos coeficientes de previsão linear de alta frequência, e calcula as informações suplementares de envelo- pe temporal com base nas magnitudes dos dois ganhos de previsão.
No dispositivo de codificação de voz da presente invenção, o meio de cálculo de informações suplementares de envelope temporal prefe- rencialmente separa o componente de alta frequência do sinal de voz, obtém as informações de envelope temporal representadas em um domínio de tempo do componente de alta frequência, e calcula as informações suple- mentares de envelope temporal com base na magnitude da variação tempo- ral das informações de envelope temporal.
No dispositivo de codificação de voz da presente invenção, as informações suplementares de envelope temporal preferencialmente incluem informações diferenciais para obter um coeficiente de previsão linear de alta frequência com uso de um coeficiente de previsão linear de baixa frequência obtido realizando-se a análise de previsão linear em uma direção de fre- quência no componente de baixa frequência do sinal de voz.
É preferível que o dispositivo de codificação de voz da presente invenção ainda inclua um meio de conversão de frequência para converter o sinal de voz em um domínio de frequência, e o meio de cálculo de informa- ções suplementares de envelope temporal realize análise de previsão linear em uma direção de frequência em cada um dentre o componente de baixa frequência e o componente de alta frequência do sinal de voz convertido no domínio de frequência pelo meio de conversão de frequência para obter um coeficiente de previsão linear de baixa frequência e um coeficiente de previ- são linear de alta frequência, e obter as informações diferenciais obtendo-se uma diferença entre o coeficiente de previsão linear de baixa frequência e o coeficiente de previsão linear de alta frequência.
No dispositivo de codificação de voz da presente invenção, as informações diferenciais preferencialmente representam uma diferença entre coeficientes de previsão linear em ao menos qualquer domínio dentre LSP (Par de Espectros Lineares), ISP (Par de Espectros de Imitância), LSF (Fre- quência de Espectro Linear), ISF (Frequência de Espectro de Imitância) e coeficiente PARCOR.
Um dispositivo de codificação de voz da presente invenção é um dispositivo de codificação de voz para codificar um sinal de voz e inclui: meio de codificação central para codificar um componente de baixa frequência do sinal de voz; meio de conversão de frequência para converter o sinal de voz em um domínio de frequência; meio de análise de previsão linear para reali- zar análise de previsão linear em uma direção de frequência em um coefici- ente de lado de alta frequência do sinal de voz convertido no domínio de fre- quência pelo meio de conversão de frequência para obter um coeficiente de previsão linear de alta frequência; meio de decimação de coeficiente de pre- visão para decimar o coeficiente de previsão linear de alta frequência obtido pelo meio análise de previsão linear em uma direção temporal; meio de quantização de coeficiente de previsão para quantizer o coeficiente de previ- são linear de alta frequência decimado pelo meio de decimação de coeficien- te de previsão; e meio de multiplexação de fluxo de bit para gerar um fluxo de bit em que ao menos o componente de baixa frequência codificado pelo meio de codificação central e o coeficiente de previsão linear de alta fre- quência quantizado pelo meio de quantização de coeficiente de previsão são multiplexados.
Um dispositivo de decodificação de voz da presente invenção é um dispositivo de decodificação de voz para decodificar um sinal de voz co- dificado e inclui: meio de separação de fluxo de bit para separar um fluxo de bit recebido de fora do dispositivo de decodificação de voz que inclui o sinal de voz codificado em um fluxo de bit codificado e informações suplementa- res de envelope temporal; meio de decodificação central para decodificar o fluxo de bit codificado separado pelo meio de separação de fluxo de bit para obter um componente de baixa frequência; meio de conversão de frequência para converter o componente de baixa frequência obtido pelo meio de deco- dificação central para um domínio de frequência; meio de geração de alta frequência para gerar um componente de alta frequência copiando o compo- nente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência de uma banda de baixa frequência em uma banda de alta frequência; meio de análise de envelope temporal de baixa frequên- cia para analisar o componente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência para obter as informa- ções de envelope temporal; meio de ajuste de envelope temporal para ajus- tar as informações de envelope temporal obtidas pelo meio de análise de envelope temporal de baixa frequência com uso das informações suplemen- tares de envelope temporal, e meio de transformação de envelope temporal para transformar um envelope temporal do componente de alta frequência gerado pelo meio de geração de alta frequência com uso das informações de envelope temporal ajustadas pelo meio de ajuste de envelope temporal.
É preferível que o dispositivo de decodificação de voz da presen- te invenção ainda inclua meio de ajuste de alta frequência para ajustar o componente de alta frequência, e o meio de conversão de frequência pode ser um banco de filtro QMF de 64 divisões com um coeficiente real ou com- plexo, e o meio de conversão de frequência, o meio de geração de alta fre- quência e o meio de ajuste de alta frequência operam com base em um de- codificador de Replicação de Banda Espectral (SBR) para o "MPEG4 AAC" definido em "ISO/IEC 14496-3".
No dispositivo de decodificação de voz da presente invenção, é preferível que o meio de análise de envelope temporal de baixa frequência realize a análise de previsão linear em uma direção de frequência no com- ponente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência para obter um coeficiente de previsão linear de baixa frequência, o meio de ajuste de envelope temporal pode ajustar o coe- ficiente de previsão linear de baixa frequência com uso das informações su- plementares de envelope temporal, e o meio de transformação de envelope temporal pode realizar filtragem de previsão linear em uma direção de fre- quência no componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência, com uso de um coeficiente de pre- visão linear ajustado pelo meio de ajuste de envelope temporal, para trans- formar um envelope temporal de um sinal de voz.
No dispositivo de decodificação de voz da presente invenção, é preferível que o meio de análise de envelope temporal de baixa frequência obtenha as informações de envelope temporal de um sinal de voz obtendo força de cada abertura de tempo do componente de baixa frequência con- vertido no domínio de frequência pelo meio de conversão de frequência, o meio de ajuste de envelope temporal ajuste as informações de envelope temporal com uso das informações suplementares de envelope temporal, e o meio de transformação de envelope temporal sobreponha as informações de envelope temporal ajustadas no componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência para trans- formar um envelope temporal de um componente de alta frequência.
No dispositivo de decodificação de voz da presente invenção, é preferível que o meio de análise de envelope temporal de baixa frequência obtenha informações de envelope temporal de um sinal de voz obtendo força de cada amostra de sub-banda QMF do componente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência, o meio de ajuste de envelope temporal ajuste as informações de envelope temporal com uso das informações suplementares de envelope temporal, e o meio de transformação de envelope temporal transforme um envelope tem- poral de um componente de alta frequência multiplicando as informações de envelope temporal ajustadas pelo componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência.
No dispositivo de decodificação de voz da presente invenção, as informações suplementares de envelope temporal preferencialmente repre- sentam um parâmetro de resistência de filtro a usado para ajustar a resistên- cia de um coeficiente de previsão linear.
No dispositivo de decodificação de voz da presente invenção, as informações suplementares de envelope temporal preferencialmente repre- sentam um parâmetro que indica a magnitude da variação temporal das in- formações de envelope temporal.
No dispositivo de decodificação de voz da presente invenção, as informações suplementares de envelope temporal preferencialmente inclu- des informações diferenciais de um coeficiente de previsão linear com rela- ção ao coeficiente de previsão linear de baixa frequência.
No dispositivo de decodificação de voz da presente invenção, as informações diferenciais preferencialmente representam uma diferença entre os coeficientes de previsão linear em ao menos qualquer domínio dentre LSP (Par de Espectros Lineares), ISP (Par de Espectros de Imitância), LSF (Frequência de Espectro Linear), ISF (Frequência de Espectro de Imitância), e coeficiente PARCOR.
No dispositivo de decodificação de voz da presente invenção, é preferível que o meio de análise de envelope temporal de baixa frequência realize a análise de previsão linear em uma direção de frequência no com- ponente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência para obter o coeficiente de previsão linear de baixa frequência, e obter força de cada abertura de tempo do componente de baixa frequência no domínio de frequência para obter as informações de envelope temporal de um sinal de voz, o meio de ajuste de envelope tempo- ral ajuste o coeficiente de previsão linear de baixa frequência com uso das informações suplementares de envelope temporal e ajuste as informações de envelope temporal com uso das informações suplementares de envelope temporal, e o meio de transformação de envelope temporal realize a filtra- gem de previsão linear em uma direção de frequência no componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência com uso do coeficiente de previsão linear ajustado pelo meio de ajuste de envelope temporal para transformar um envelope temporal de um sinal de voz, e transforme um envelope temporal do componente de alta frequência sobrepondo as informações de envelope temporal ajustadas pelo meio de ajuste de envelope temporal no componente de alta frequência no domínio de frequência.
No dispositivo de decodificação de voz da presente invenção, é preferível que o meio de análise de envelope temporal de baixa frequência realize a análise de previsão linear em uma direção de frequência no com- ponente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência para obter o coeficiente de previsão linear de baixa frequência, e obtenha informações de envelope temporal de um sinal de voz obtendo força de cada amostra de sub-banda QMF do componente de baixa frequência no domínio de frequência, o meio de ajuste de envelope temporal ajuste o coeficiente de previsão linear de baixa frequência com uso das informações suplementares de envelope temporal e ajuste as informa- ções de envelope temporal com uso das informações suplementares de en- velope temporal, e o meio de transformação de envelope temporal realize filtragem de previsão linear em uma direção de frequência em um compo- nente de alta frequência no domínio de frequência gerado pelo meio de ge- ração de alta frequência com uso de um coeficiente de previsão linear ajus- tado pelo meio de ajuste de envelope temporal para transformar um envelo- pe temporal de um sinal de voz, e transforme um envelope temporal do componente de alta frequência multiplicando as informações de envelope temporal ajustadas pelo meio de ajuste de envelope temporal pelo compo- nente de alta frequência no domínio de frequência.
No dispositivo de decodificação de voz da presente invenção, as informações suplementares de envelope temporal preferencialmente repre- sentam um parâmetro que indica tanto uma resistência de filtro de um coefi- ciente de previsão linear como uma magnitude de variação temporal das informações de envelope temporal.
Um dispositivo de decodificação de voz da presente invenção é um dispositivo de decodificação de voz para decodificar um sinal de voz co- dificado e inclui: meio de separação de fluxo de bit para separar um fluxo de bit recebido de fora do dispositivo de decodificação de voz que inclui o sinal de voz codificado em um fluxo de bit codificado e um coeficiente de previsão linear, coeficiente de previsão linear meio de interpolação/extrapolação para interpolar ou extrapolar o coeficiente de previsão linear em uma direção temporal, e meio de transformação de envelope temporal para realizar a fil- tragem de previsão linear em uma direção de frequência em um componente de alta frequência representado em um domínio de frequência com uso de um coeficiente de previsão linear interpolado ou extrapolado pelo meio de interpolação/extrapolação de coeficiente de previsão linear para transformar um envelope temporal de um sinal de voz.
Um método de codificação de voz da presente invenção é um método de codificação de voz que usa um dispositivo de codificação de voz para codificar um sinal de voz e inclui: uma etapa de codificação central em que o dispositivo de codificação de voz codificada um componente de baixa frequência do sinal de voz; uma etapa de conversão de frequência em que o dispositivo de codificação de voz converte o sinal de voz em um domínio de frequência; uma etapa de análise de previsão linear em que o dispositivo de codificação de voz obtém coeficientes de previsão linear de alta frequência realizando a análise de previsão linear em uma direção de frequência em coeficientes de lado de alta frequência do sinal de voz convertido no domínio de frequência na etapa de conversão de frequência; uma etapa de decima- ção de coeficiente de previsão em que o dispositivo de codificação de voz decima o coeficiente de previsão linear de alta frequência obtido na etapa de análise de previsão linear em uma direção temporal; uma etapa de quantiza- ção de coeficiente de previsão em que o dispositivo de codificação de voz quantiza os coeficientes de previsão linear de alta frequência decimado na etapa de decimação de coeficiente de previsão; e uma etapa de multiplexa- ção de fluxo de bit em que o dispositivo de codificação de voz gera um fluxo de bit em que ao menos o componente de baixa frequência codificado na etapa de codificação central e os coeficientes de previsão linear de alta fre- quência quantizados na etapa de quantização de coeficiente de previsão são multiplexados.
Um dispositivo de decodificação de voz da presente invenção é um dispositivo de decodificação de voz para decodificar um sinal de voz co- dificado e inclui: meio de separação de fluxo de bit para separar um fluxo de bit recebido de fora do dispositivo de decodificação de voz que inclui o sinal de voz codificado em um fluxo de bit codificado e informações suplementa- res de envelope temporal; meio de decodificação central para decodificar o fluxo de bit codificado separado pelo meio de separação de fluxo de bit para obter um componente de baixa frequência; meio de conversão de frequência para converter o componente de baixa frequência obtido pelo meio de deco- dificação central para um domínio de frequência; meio de geração de alta frequência para gerar um componente de alta frequência copiando o compo- nente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência de uma banda de baixa frequência em uma banda de alta frequência; meio de análise de envelope temporal de baixa frequên- cia para analisar o componente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência para obter as informa- ções de envelope temporal; meio de ajuste de envelope temporal para ajus- tar as informações de envelope temporal obtidas pelo meio de análise de envelope temporal de baixa frequência com uso das informações suplemen- tares de envelope temporal, e meio de transformação de envelope temporal para transformar um envelope temporal do componente de alta frequência gerado pelo meio de geração de alta frequência com uso das informações de envelope temporal ajustadas pelo meio de ajuste de envelope temporal.
É preferível que o dispositivo de decodificação de voz da presen- te invenção ainda inclua meio de ajuste de alta frequência para ajustar o componente de alta frequência, e o meio de conversão de frequência pode ser um banco de filtro QMF de 64 divisões com um coeficiente real ou com- plexo, e o meio de conversão de frequência, o meio de geração de alta fre- quência e o meio de ajuste de alta frequência operam com base em um de- codificador de Replicação de Banda Espectral (SBR) para o "MPEG4 AAC" definido em "ISO/IEC 14496-3".
No dispositivo de decodificação de voz da presente invenção, é preferível que o meio de análise de envelope temporal de baixa frequência realize a análise de previsão linear em uma direção de frequência no com- ponente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência para obter um coeficiente de previsão linear de baixa frequência, o meio de ajuste de envelope temporal pode ajustar o coe- ficiente de previsão linear de baixa frequência com uso das informações su- plementares de envelope temporal, e o meio de transformação de envelope temporal pode realizar filtragem de previsão linear em uma direção de fre- quência no componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência, com uso de um coeficiente de pre- visão linear ajustado pelo meio de ajuste de envelope temporal, para trans- formar um envelope temporal de um sinal de voz.
No dispositivo de decodificação de voz da presente invenção, é preferível que o meio de análise de envelope temporal de baixa frequência obtenha as informações de envelope temporal de um sinal de voz obtendo força de cada abertura de tempo do componente de baixa frequência con- vertido no domínio de frequência pelo meio de conversão de frequência, o meio de ajuste de envelope temporal ajuste as informações de envelope temporal com uso das informações suplementares de envelope temporal, e o meio de transformação de envelope temporal sobreponha as informações de envelope temporal ajustadas no componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência para trans- formar um envelope temporal de um componente de alta frequência.
No dispositivo de decodificação de voz da presente invenção, é preferível que o meio de análise de envelope temporal de baixa frequência obtenha informações de envelope temporal de um sinal de voz obtendo força de cada amostra de sub-banda QMF do componente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência, o meio de ajuste de envelope temporal ajuste as informações de envelope temporal com uso das informações suplementares de envelope temporal, e o meio de transformação de envelope temporal transforme um envelope tem- poral de um componente de alta frequência multiplicando as informações de envelope temporal ajustadas pelo componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência.
No dispositivo de decodificação de voz da presente invenção, as informações suplementares de envelope temporal preferencialmente repre- sentam um parâmetro de resistência de filtro a usado para ajustar a resistên- cia de um coeficiente de previsão linear.
No dispositivo de decodificação de voz da presente invenção, as informações suplementares de envelope temporal preferencialmente repre- sentam um parâmetro que indica a magnitude da variação temporal das in- formações de envelope temporal.
No dispositivo de decodificação de voz da presente invenção, as informações suplementares de envelope temporal preferencialmente inclu- des informações diferenciais de um coeficiente de previsão linear com rela- ção ao coeficiente de previsão linear de baixa frequência.
No dispositivo de decodificação de voz da presente invenção, as informações diferenciais preferencialmente representam uma diferença entre os coeficientes de previsão linear em ao menos qualquer domínio dentre LSP (Par de Espectros Lineares), ISP (Par de Espectros de Imitância), LSF (Frequência de Espectro Linear), ISF (Frequência de Espectro de Imitância), e coeficiente PARCOR.
No dispositivo de decodificação de voz da presente invenção, é preferível que o meio de análise de envelope temporal de baixa frequência realize a análise de previsão linear em uma direção de frequência no com- ponente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência para obter o coeficiente de previsão linear de baixa frequência, e obter força de cada abertura de tempo do componente de baixa frequência no domínio de frequência para obter as informações de envelope temporal de um sinal de voz, o meio de ajuste de envelope tempo- ral ajuste o coeficiente de previsão linear de baixa frequência com uso das informações suplementares de envelope temporal e ajuste as informações de envelope temporal com uso das informações suplementares de envelope temporal, e o meio de transformação de envelope temporal realize a filtra- gem de previsão linear em uma direção de frequência no componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência com uso do coeficiente de previsão linear ajustado pelo meio de ajuste de envelope temporal para transformar um envelope temporal de um sinal de voz, e transforme um envelope temporal do componente de alta frequência sobrepondo as informações de envelope temporal ajustadas pelo meio de ajuste de envelope temporal no componente de alta frequência no domínio de frequência.
No dispositivo de decodificação de voz da presente invenção, é preferível que o meio de análise de envelope temporal de baixa frequência realize a análise de previsão linear em uma direção de frequência no com- ponente de baixa frequência convertido no domínio de frequência pelo meio de conversão de frequência para obter o coeficiente de previsão linear de baixa frequência, e obtenha informações de envelope temporal de um sinal de voz obtendo força de cada amostra de sub-banda QMF do componente de baixa frequência no domínio de frequência, o meio de ajuste de envelope temporal ajuste o coeficiente de previsão linear de baixa frequência com uso das informações suplementares de envelope temporal e ajuste as informa- ções de envelope temporal com uso das informações suplementares de en- velope temporal, e o meio de transformação de envelope temporal realize filtragem de previsão linear em uma direção de frequência em um compo- nente de alta frequência no domínio de frequência gerado pelo meio de ge- ração de alta frequência com uso de um coeficiente de previsão linear ajus- tado pelo meio de ajuste de envelope temporal para transformar um envelo- pe temporal de um sinal de voz, e transforme um envelope temporal do componente de alta frequência multiplicando as informações de envelope temporal ajustadas pelo meio de ajuste de envelope temporal pelo compo- nente de alta frequência no domínio de frequência.
No dispositivo de decodificação de voz da presente invenção, as informações suplementares de envelope temporal preferencialmente repre- sentam um parâmetro que indica tanto uma resistência de filtro de um coefi- ciente de previsão linear como uma magnitude de variação temporal das informações de envelope temporal.
Um dispositivo de decodificação de voz da presente invenção é um dispositivo de decodificação de voz para decodificar um sinal de voz co- dificado e inclui: meio de separação de fluxo de bit para separar um fluxo de bit recebido de fora do dispositivo de decodificação de voz que inclui o sinal de voz codificado em um fluxo de bit codificado e um coeficiente de previsão linear, coeficiente de previsão linear meio de interpolação/extrapolação para interpolar ou extrapolar o coeficiente de previsão linear em uma direção temporal, e meio de transformação de envelope temporal para realizar a fil- tragem de previsão linear em uma direção de frequência em um componente de alta frequência representado em um domínio de frequência com uso de um coeficiente de previsão linear interpolado ou extrapolado pelo meio de interpolação/extrapolação de coeficiente de previsão linear para transformar um envelope temporal de um sinal de voz.
Um método de codificação de voz da presente invenção é um método de codificação de voz que usa um dispositivo de codificação de voz para codificar um sinal de voz e inclui: uma etapa de codificação núcleo em que o dispositivo de codificação de voz codificada um componente de baixa frequência do sinal de voz; uma etapa de cálculo de informações suplemen- tares de envelope temporal em que o dispositivo de codificação de voz cal- cula informações suplementares de envelope temporal para obter uma apro- ximação de um envelope temporal de um componente de alta frequência do sinal de voz com uso de um envelope temporal de um componente de baixa frequência do sinal de voz; e uma etapa de multiplexação de fluxo de bit em que o dispositivo de codificação de voz gera um fluxo de bit em que ao me- nos o componente de baixa frequência codificado na etapa de codificação central e as informações suplementares de envelope temporal calculadas na etapa de cálculo de informações suplementares de envelope temporal são multiplexados.
Um método de codificação de voz da presente invenção é um método de codificação de voz que usa um dispositivo de codificação de voz para codificar um sinal de voz e inclui: uma etapa de codificação central em que o dispositivo de codificação de voz codificada um componente de baixa frequência do sinal de voz; uma etapa de conversão de frequência em que o dispositivo de codificação de voz converte o sinal de voz em um domínio de frequência; uma etapa de análise de previsão linear em que o dispositivo de codificação de voz obtém coeficientes de previsão linear de alta frequência realizando a análise de previsão linear em uma direção de frequência em coeficientes de lado de alta frequência do sinal de voz convertido no domínio de frequência na etapa de conversão de frequência; uma etapa de decima- ção de coeficiente de previsão em que o dispositivo de codificação de voz decima o coeficiente de previsão linear de alta frequência obtido na etapa de meio de análise de previsão linear em uma direção temporal; uma etapa de quantização de coeficiente de previsão em que o dispositivo de codificação de voz quantiza os coeficientes de previsão linear de alta frequência deci- mados na etapa de meio de decimação de coeficiente de previsão; e uma etapa de multiplexação de fluxo de bit em que o dispositivo de codificação de voz gera um fluxo de bit em que ao menos o componente de baixa frequên- cia codificado na etapa de codificação central e os coeficientes de previsão linear de alta frequência quantizados na etapa de quantização de coeficiente de previsão são multiplexados.
Um método de decodificação de voz da presente invenção é um método de decodificação de voz que usa um dispositivo de decodificação de voz par decodificar um sinal de voz codificado e inclui: uma etapa de separa- ção de fluxo de bit em que o dispositivo de decodificação de voz separa um fluxo de bit recebido de fora do dispositivo de decodificação de voz que inclui o sinal de voz codificado em um fluxo de bit codificado e informações suple- mentares de envelope temporal; uma etapa de decodificação central em que o dispositivo de decodificação de voz obtém um componente de baixa fre- quência decodificando o fluxo de bit codificado separado na etapa de sepa- ração de fluxo de bit; uma etapa de conversão de frequência em que o dis- positivo de decodificação de voz converte o componente de baixa frequência obtido na etapa de decodificação central em um domínio de frequência; uma etapa de geração de alta frequência em que o dispositivo de decodificação de voz gera um componente de alta frequência copiando o componente de baixa frequência convertido no domínio de frequência na etapa de conversão de frequência de uma banda de baixa frequência para uma banda de alta frequência; uma etapa de análise de envelope temporal de baixa frequência em que o dispositivo de decodificação de voz obtém informações de envelo- pe temporal analisando o componente de baixa frequência convertido no domínio de frequência na etapa de conversão de frequência; uma etapa de ajuste de envelope temporal em que o dispositivo de decodificação de voz ajusta as informações de envelope temporal obtidas na etapa de análise de envelope temporal de baixa frequência com uso das informações suplemen- tares de envelope temporal; e uma etapa de transformação de envelope temporal em que o dispositivo de decodificação de voz transforma um enve- lope temporal do componente de alta frequência gerado na etapa de gera- ção de alta frequência com uso das informações de envelope temporal ajus- tadas na etapa de ajuste de envelope temporal.
Um método de decodificação de voz da presente invenção é um método de decodificação de voz que usa um dispositivo de decodificação de voz for que decodifica um sinal de voz codificado e inclui: uma etapa de se- paração de fluxo de bit em que o dispositivo de decodificação de voz separa um fluxo de bit recebido de fora do dispositivo de decodificação de voz que inclui o sinal de voz codificado em um fluxo de bit codificado e um coeficiente de previsão linear; uma etapa de interpolação/extrapolação de coeficiente de previsão linear em que o dispositivo de decodificação de voz interpola ou extrapola o coeficiente de previsão linear em uma direção temporal; e uma etapa de transformação de envelope temporal em que o dispositivo de deco- dificação de voz transforma um envelope temporal de um sinal de voz reali- zando a filtragem de previsão linear em uma direção de frequência em um componente de alta frequência representado em um domínio de frequência com uso do coeficiente de previsão linear interpolado ou extrapolado na eta- pa de interpolação/extrapolação de coeficiente de previsão linear.
Um programa de codificação de voz da presente invenção para codificar um sinal de voz faz com que um dispositivo de computador funcio- ne como: meio de codificação central para codificar um componente de bai- xa frequência do sinal de voz; meio de cálculo de informações suplementa- res de envelope temporal para calcular informações suplementares de enve- lope temporal para obter uma aproximação de um envelope temporal de um componente de alta frequência do sinal de voz com uso de um envelope temporal do componente de baixa frequência do sinal de voz; e meio de mul- tiplexação de fluxo de bit para gerar um fluxo de bit em que ao menos o componente de baixa frequência codificado pelo meio de codificação central e as informações suplementares de envelope temporal calculadas pelo meio de cálculo de informações suplementares de envelope temporal são multi- plexados.
Um programa de codificação de voz da presente invenção para codificar um sinal de voz que faz com que um dispositivo de computador funcione como: meio de codificação central para codificar um componente de baixa frequência do sinal de voz; meio de conversão de frequência para converter o sinal de voz em um domínio de frequência; meio de análise de previsão linear para realizar a análise de previsão linear em uma direção de frequência em coeficientes de lado de alta frequência do sinal de voz conver- tido no domínio de frequência pelo meio de conversão de frequência para obter coeficientes de previsão linear de alta frequência; meio de decimação de coeficiente de previsão para decimar coeficientes de previsão linear de alta frequência obtidos pelo meio de análise de previsão linear em uma dire- ção temporal; meio de quantização de coeficiente de previsão para quantizer o coeficiente de previsão linear de alta frequências decimado pelo meio de decimação de coeficiente de previsão; e meio de multiplexação de fluxo de bit para gerar um fluxo de bit em que ao menos o componente de baixa fre- quência codificado pelo meio de codificação central e coeficientes de previ- são linear de alta frequência quantizados pelo meio de quantização de coefi- ciente de previsão são multiplexados.
Um programa de decodificação de voz da presente invenção pa- ra decodificar um sinal de voz codificado faz com que um dispositivo de computador funcione como: meio de separação de fluxo de bit para separar um fluxo de bit recebido de fora do programa de decodificação de voz que inclui o sinal de voz codificado em um fluxo de bit codificado e informações suplementares de envelope temporal; meio de decodificação central para decodificar o fluxo de bit codificado separado pelo meio de separação de fluxo de bit para obter um componente de baixa frequência; meio de conver- são de frequência para converter o componente de baixa frequência obtido pelo meio de decodificação central em um domínio de frequência; meio de geração de alta frequência para gerar um componente de alta frequência copiando o componente de baixa frequência convertido no domínio de fre- quência pelo meio de conversão de frequência de uma banda de baixa fre- quência para uma banda de alta frequência; meio de análise de envelope temporal de baixa frequência para analisar o componente de baixa frequên- cia convertido no domínio de frequência pelo meio de conversão de frequên- cia para obter informações de envelope temporal; meio de ajuste de envelo- pe temporal para ajustar as informações de envelope temporal obtidas pelo meio de análise de envelope temporal de baixa frequência com uso das in- formações suplementares de envelope temporal; e meio de transformação de envelope temporal para transformar um envelope temporal do componen- te de alta frequência gerado pelo meio de geração de alta frequência com uso das informações de envelope temporal ajustadas pelo meio de ajuste de envelope temporal.
Um programa de decodificação de voz da presente invenção pa- ra decodificar um sinal de voz codificado faz com que um dispositivo de computador funcione como: meio de separação de fluxo de bit para separar um fluxo de bit que inclui o sinal de voz codificado em um fluxo de bit codifi- cado e um coeficiente de previsão linear. O fluxo de bit recebido de cora do programa de decodificação de voz. Em adição, o programa de decodificação de voz ainda faz com que um dispositivo de computador funcione como; meio de interpolação/extrapolação de coeficiente de previsão linear para in- terpolar ou extrapolar o coeficiente de previsão linear em uma direção tem- poral; e meio de transformação de envelope temporal para realizar a filtra- gem de previsão linear em uma direção de frequência em um componente de alta frequência representado em um domínio de frequência com uso de um coeficiente de previsão linear interpolado ou extrapolado pelo meio de interpolação/extrapolação de coeficiente de previsão linear parra transformar um envelope temporal de um sinal de voz.
No dispositivo de decodificação de voz da presente invenção, o meio de transformação de envelope temporal, após realizar a filtragem de previsão linear na direção de frequência no componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência, preferencialmente ajusta a força de um componente de alta frequência obti- do como resultado da filtragem de previsão linear em um valor equivalente àquele antes da filtragem de previsão linear.
No dispositivo de decodificação de voz da presente invenção, o meio de transformação de envelope temporal, após realizar a filtragem de previsão linear na direção de frequência no componente de alta frequência no domínio de frequência gerado pelo meio de geração de alta frequência, preferencialmente ajusta a força em uma certa faixa de frequência de um componente de alta frequência obtido como resultado da filtragem de previ- são linear em um valor equivalente àquele antes da filtragem de previsão linear.
No dispositivo de decodificação de voz da presente invenção, as informações suplementares de envelope temporal são preferencialmente uma razão de um valor mínimo para um valor médio das informações de en- velope temporal ajustadas.
No dispositivo de decodificação de voz da presente invenção, o meio de transformação de envelope temporal, após controlar o ganho do envelope temporal ajustado de forma que a força do componente de alta fre- quência no domínio de frequência em um segmento de tempo de envelope de SBR seja equivalente antes e depois da transformação do envelope tem- poral, preferencialmente transforma um envelope temporal do componente de alta frequência multiplicando o envelope temporal cujo ganho é controla- do pelo componente de alta frequência no domínio de frequência.
No dispositivo de decodificação de voz da presente invenção, o meio de análise de envelope temporal de baixa frequência preferencialmente obtém força de cada amostra de sub-banda de QMF do componente de bai- xa frequência convertido ao domínio de frequência pelo meio de conversão de frequência, e obtém as informações de envelope temporal representadas como um coeficiente de ganho a ser multiplicado por cada uma das amos- tras de sub-banda de QMF, normalizando a força de cada uma das amostras de sub-banda de QMF com uso de uma força média em um segmento de tempo de envelope de SBR.
Um dispositivo de decodificação de voz da presente invenção é um dispositivo de decodificação de voz para decodificar um sinal de voz co- dificado e inclui: meio de decodificação central para obter um componente de baixa frequência decodificando um fluxo de bit recebido de fora do dispo- sitivo de decodificação que inclui o sinal de voz codificado; meio de conver- são de frequência para converter o componente de baixa frequência obtido pelo meio de decodificação central em um domínio de frequência; meio de geração de alta frequência para gerar um componente de alta frequência copiando o componente de baixa frequência convertido no domínio de fre- quência pelo meio de conversão de frequência de uma banda de baixa fre- quência para uma banda de alta frequência; meio de análise de envelope temporal de baixa frequência para analisar o componente de baixa frequên- cia convertido no domínio de frequência pelo meio de conversão de frequên- cia para obter informações de envelope temporal; meio de geração de infor- mações suplementares de envelope temporal para analisar o fluxo de bit pa- ra gerar informações suplementares de envelope temporal; meio de ajuste de envelope temporal para ajustar as informações de envelope temporal ob- tidas pelo meio de análise de envelope temporal de baixa frequência com uso das informações suplementares de envelope temporal; e meio de trans- formação de envelope temporal para transformar um envelope temporal do componente de alta frequência gerado pelo meio de geração de alta fre- quência com uso das informações de envelope temporal ajustadas pelo meio de ajuste de envelope temporal.
É preferível que o dispositivo de decodificação de voz da presen- te invenção inclua um meio de ajuste de alta frequência primário e um meio de ajuste de alta frequência secundário, ambos correspondendo ao meio de ajuste de alta frequência, o meio de ajuste de alta frequência primário pode executar um processo que inclui uma parte de um processo que correspon- de ao meio de ajuste de alta frequência, o meio de transformação de enve- lope temporal pode transformar um envelope temporal de um sinal de sápida do meio de ajuste de alta frequência primário, o meio de ajuste de alta fre- quência secundário pode executar um processo não executado pelo meio de ajuste de alta frequência primário dentro os processos que correspondem ao meio de ajuste de alta frequência em um sinal de sápida do meio de trans- formação de envelope temporal, e o meio de ajuste de alta frequência se- cundário pode ser um processo de adição de uma onda de seno durante a decodificação de SBR.
Efeitos Vantajosos da Invenção
De acordo com a presente invenção, a ocorrência de pré-eco e pós-eco pode ser reduzida e a qualidade subjetiva de um sinal decodificado pode ser melhorada sem aumentar significantemente a taxa de bit na técnica de extensão de banda no domínio de frequência representado pela SBR. Breve Descrição dos Desenhos A figura 1 é um diagrama que ilustra um dispositivo de codifica- ção de voz de acordo com uma primeira modalidade; A figura 2 é um fluxograma para descrever uma operação do dispositivo de codificação de voz de acordo com a primeira modalidade; A figura 3 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com a primeira modalidade; A figura 4 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a primeira modalidade; A figura 5 é um diagrama que ilustra um dispositivo de codifica- ção de voz de acordo com uma primeira modificação da primeira modalida- de; A figura 6 é um diagrama que ilustra um dispositivo de codifica- ção de voz de acordo com uma segunda modalidade; A figura 7 é um fluxograma para descrever uma operação do dispositivo de codificação de voz de acordo com a segunda modalidade; A figura 8 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com a segunda modalidade; A figura 9 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a segunda modalidade; Afigura 10 é um diagrama que ilustra um dispositivo de codifica- ção de voz de acordo com uma terceira modalidade; A figura 11 é um fluxograma para descrever uma operação do dispositivo de codificação de voz de acordo com a terceira modalidade; Afigura 12 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com a terceira modalidade; A figura 13 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a terceira modalidade; Afigura 14 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com uma quarta modalidade; Afigura 15 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com uma modificação da quarta modalidade; Afigura 16 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da quarta modalidade; A figura 17 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da quarta modalidade; Afigura 18 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da primeira modalidade; A figura 19 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da primeira modalidade; A figura 20 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da primeira modalidade; A figura 21 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da primeira modalidade. Afigura 22 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com uma modificação da segunda modalidade; A figura 23 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da segunda modalidade; A figura 24 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da segunda modalidade; A figura 25 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da segunda modalidade; Afigura 26 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da quarta modalidade; A figura 27 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da quarta modalidade; Afigura 28 é um diagrama de um dispositivo de decodificação de voz de acordo com outra modificação da quarta modalidade; A figura 29 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da quarta modalidade; Afigura 30 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da quarta modalidade; Afigura 31 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da quarta modalidade; A figura 32 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da quarta modalidade; A figura 33 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da quarta modalidade; A figura 34 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da quarta modalidade; A figura 35 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da quarta modalidade; A figura 36 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da quarta modalidade; Afigura 37 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da quarta modalidade; A figura 38 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da quarta modalidade; A figura 39 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da quarta modalidade; Afigura 40 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da quarta modalidade; A figura 41 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da quarta modalidade; A figura 42 é um diagrama que ilustra um dispositivo de decodifi- cação de voz de acordo com outra modificação da quarta modalidade; A figura 43 é um fluxograma para descrever uma operação do dispositivo de decodificação de voz de acordo com a outra modificação da quarta modalidade; Afigura 44 é um diagrama que ilustra um dispositivo de codifica- ção de voz de acordo com outra modificação da primeira modalidade; Afigura 45 é um diagrama que ilustra um dispositivo de codifica- ção de voz de acordo com still outra modificação da primeira modalidade; A figura 46 é um diagrama que ilustra um dispositivo de codifica- ção de voz de acordo com uma modificação da segunda modalidade; A figura 47 é um diagrama que ilustra um dispositivo de codifica- ção de voz de acordo com outra modificação da segunda modalidade; A figura 48 é um diagrama que ilustra um dispositivo de codifica- ção de voz de acordo com a quarta modalidade; Afigura 49 é um diagrama que ilustra um dispositivo de codifica- ção de voz de acordo com uma modificação da quarta modalidade; e A figura 50 é um diagrama que ilustra um dispositivo de codifica- ção de voz de acordo com outra modificação da quarta modalidade.
Descrição das Modalidades
As modalidades preferenciais de acordo com a presente inven- ção são descritas abaixo em detalhe com referência aos desenhos anexos. Na descrição dos desenhos, os elementos que são os mesmos são indica- dos com os mesmos símbolos de referência e a descrição duplicada dos mesmos é omitida, se aplicável.
(Primeira modalidade)
A figura 1 é um diagrama que ilustra um dispositivo de codifica- ção de voz 11 de acordo com a primeira modalidade. O dispositivo de codifi- cação de voz 11 inclui fisicamente uma CPU, uma ROM, uma RAM, um dis- positivo de comunicação e similares, que não são ilustrados, e a CPU con- trola integralmente o dispositivo de codificação de voz 11 carregando e exe- cutando um programa de computador predeterminado (tal como um progra- ma de computador para realizar os processos ilustrados no fluxograma da figura 2) armazenado em uma memória interna do dispositivo de codificação de voz 11 tal como a ROM na RAM. O dispositivo de comunicação do dispo- sitivo de codificação de voz 11 recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz 11, e emite um fluxo de bit multiple- xado codificado para fora do dispositivo de codificação de voz 11.
O dispositivo de codificação de voz 11 funcionalmente inclui uma unidade de conversão de frequência 1a (meio de conversão de frequência), uma unidade de conversão inversa de frequência 1b, a unidade de codifica- ção de codec central 1c (meio de codificação central), uma unidade de codi- ficação de SBR 1 d, uma unidade de análise de previsão linear 1e (meio de cálculo de informações suplementares de envelope temporal), uma unidade de cálculo de parâmetro de resistência de filtro 1f (meio de cálculo de infor- mações suplementares de envelope temporal), e uma unidade de multiple- xação de fluxo de bit 1g (meio de multiplexação de fluxo de bit). A unidade de conversão de frequência 1a à unidade de multiplexação de fluxo de bit 1g do dispositivo de codificação de voz 11 ilustradas na figura 1 são funções realizadas quando a CPU do dispositivo de codificação de voz 11 executa o programa de computador armazenado na memória interna do dispositivo de codificação de voz 11. A CPU do dispositivo de codificação de voz 11 se- quencialmente executa processos (processos da Etapa Sa1 à Etapa Sa7) ilustrados no fluxograma da figura 2, executando o programa de computador (ou usando a unidade de conversão de frequência 1a à unidade de multiple- xação de fluxo de bit 1g ilustradas na figura 1). Vários tipos de dados neces- sários para executar o programa de computador e vários tipos de dados ge- rados para executar o programa de computador são todos armazenados na memória interna tal como a ROM e a RAM do dispositivo de codificação de voz 11.
A unidade de conversão de frequência 1a analisa um sinal de entrada recebido de fora do dispositivo de codificação de voz 11 por meio do dispositivo de comunicação do dispositivo de codificação de voz 11 com uso de um banco de filtro de QMF de múltiplas divisões para obter um sinal q (k, r) em um domínio de QMF (processo na Etapa Sa1). Nota-se que k (0<k<63) é um índice em uma direção de frequência, e r é um índice que indica uma abertura de tempo. A unidade de conversão inversa de frequência 1b sinteti- za uma metade dos coeficientes no lado de baixa frequência do domínio de QMF obtidos pela unidade de conversão de frequência 1a com uso do banco de filtro de QMF para obter um sinal de domínio de tempo de resolução re- duzida que inclui somente componentes de baixa frequência do sinal de en- trada (processo na Etapa Sa2). A unidade de codificação de codec central 1c codificada o sinal de domínio de resolução reduzida para obter um fluxo de bit codificado (processo na Etapa Sa3). A codificação realizada pela unidade de codificação de codec central 1c pode estar baseada em um método de codificação de voz representado por um método CELP ou pode estar basea- da em uma codificação de transformação representada por AAC ou uma co- dificação de som tal como um método de TCX (Excitação Codificada de Transformação).
A unidade de codificação de SBR 1d recebe o sinal no domínio de QMF a partir da unidade de conversão de frequência 1a, e realiza a codi- ficação de SBR com base na análise da força, alteração de sinal, tonalidade e similares dos componentes de alta frequência para obter informações su- plementares de SBR (processo na Etapa Sa4). O método de análise de QMF na unidade de conversão de frequência 1a e o método de codificação de SBR na unidade de codificação de SBR 1d são descritos em detalhe, por exemplo, em uma Literatura "3GPP TS 26.404: Enhanced aacPIus encoder SBR part".
A unidade de análise de previsão linear 1e recebe o sinal no domínio de QMF a partir da unidade de conversão de frequência 1a, e reali- za a análise de previsão linear na direção de frequência nos componentes de alta frequência do sinal para obter coeficientes de previsão linear de alta frequência an (n, r) (1<n<N) (processo na Etapa Sa5). Nota-se que N é uma ordem de previsão linear. O índice r é um índice em uma direção temporal para uma sub-amostra dos sinais no domínio de QMF. Um método de cova- riância ou um método de auto-correlação podem ser usados para a análise de previsão linear de sinal. A análise de previsão linear para obter aH (n, r) é realizada nos componentes de alta frequência que satisfazem kx<k<63 em q (k, r). Nota-se que kx é um índice de frequência que corresponde a uma fre- quência de limite superior da banda de frequência codificadada pela unidade de codificação de codec central 1c. A unidade de análise de previsão linear 1e pode também realizar a análise de previsão linear em componentes de baixa frequência diferentes daqueles analisados quando aH (n, r) são obtidos para obter coeficientes de previsão linear de baixa frequência at (n, r) dife- rentes de an (n, r) (coeficientes de previsão linear de acordo com tais com- ponentes de baixa frequência correspondem às informações de envelope temporal, e é o mesmo na primeira modalidade conforme abaixo). A análise de previsão linear para obter 3L (n, r) é realizada em componentes de baixa frequência que satisfazem 0<k<kx. A análise de previsão linear pode ser também realizada em uma parte banda de frequência incluída em uma se- ção de 0<k<kx.
A unidade de cálculo de parâmetro de resistência de filtro 1f, por exemplo, utiliza os coeficientes de previsão linear obtidos pela unidade de análise de previsão linear 1e para calcular um parâmetro de resistência de filtro (o parâmetro de resistência de filtro corresponde às informações su- plementares de envelope temporal e é o mesmo na primeira modalidade conforme mostrado abaixo) (processo na Etapa Sa6). Um ganho de previsão GH(0 é o primeiro calculado a partir de an (n, r). O método para calcular o ganho de previsão é, por exemplo, descrito em detalhe em "Speech Coding, Takehiro Moriya, The Institute of Electronics, Information and Communication Engineers". Se a[_(n, r) foi calculado, um ganho de previsão GL(r) é calculado similarmente. O parâmetro de resistência de filtro K(r) é um parâmetro que aumenta conforme GH(r) é aumentado, e, por exemplo, pode ser obtido de acordo com a seguinte expressão (1). Aqui, max (a, b) indica o valor máximo de a e b, e min (a, b) indica o valor mínimo de a e b.
Figure img0001
Se GL(r) foi calculado, K(r) pode ser obtido como um parâmetro que aumenta conforme GH(0 é aumentado, e diminui conforme Gi_(r) é au- mentado. Neste caso, por exemplo, K pode ser obtido de acordo com a se- guinte expressão (2).
Figure img0002
K(r) é um parâmetro que indica a resistência para ajustar o enve- lope temporal dos componentes de alta frequência durante a decodificação de SBR. Um valor do ganho de previsão com relação aos coeficientes de previsão linear na direção de frequência é aumentado conforme a variação do envelope temporal de um sinal na seção analisada se torna agudo. K(r) é um parâmetro para instruir um decodificador a reforçar o processo para alte- rar intensamente o envelope temporal dos componentes de alta frequência gerados por SBR, com o aumento de seu valor. K(r) pode ser também um parâmetro para instruir um decodificador (tal como um dispositivo de decodi- ficação de voz 21) a enfraquecer o processo para variar intensamente o en- velope temporal dos componentes de alta frequência gerados por SBR, com a diminuição de seu valor, ou pode incluir um valor para não executar o pro- cesso para variar intensamente o envelope temporal. Ao invés de transmitir K(r) para cada abertura de tempo, K(r) que represente uma pluralidade de aberturas de tempo pode ser transmitido. Para determinar as seções de a- bertura de tempo que compartilham o mesmo valor de K(r), é preferível usar as informações de limite de tempo de envelope de SBR incluídas nas infor- mações suplementares de SBR. K(r) é transmitido à unidade de multiplexação de fluxo de bit 1g após ser quantizado. É preferível calcular K(r) que representa a pluralidade de aberturas de tempo, por exemplo, tomando uma média de K(r) de uma pluralidade de aberturas de tempo r antes de a quantização ser realizada. Para transmitir K(r) que representa a pluralidade de aberturas de tempo, K(r) pode ser também obtido a partir do resultado da análise de todas as seções formadas da pluralidade de aberturas de tempo, ao invés de independente- mente calcular K(r) a partir do resultado da análise de cada abertura de tem- po tal como a expressão (2). Neste caso, K(r) pode ser calculado, por exem- plo, de acordo com a seguinte expressão (3). Aqui, mean (•) indica um valor médio nas seções de abertura de tempo representadas por K(r).
Figure img0003
K(r) pode ser exclusivamente transmitido com informações de modo de filtro inverso incluídas nas informações suplementares de SBR descritas em "ISO/IEC 14496-3 subpart 4 General Audio Coding". Em outras palavras, K(r) não é transmitido para a abertura de tempo para transmitir as informações de modo de filtro inverso nas informações suplementares de SBR, e as informações de modo de filtro inverso (bs#invf#mode em "ISO/IEC 14496-3 subpart 4 General Audio Coding") nas informações suplementares de SBR não precisam ser transmitidas para a abertura de tempo para trans- mitir K(r). As informações que indicam se tanto K(r) ou as informações de modo de filtro inverso incluídas nas informações suplementares de SBR são transmitidas podem ser também adicionadas. K(r) e as informações de modo de filtro inverso incluídas nas informações suplementares de SBR podem ser combinadas para funcionarem como informações de vetor, e realizarem codi- ficação de entropia no vetor. Neste caso, a combinação de K(r) e o valor das informações de modo de filtro inverso incluídas nas informações suplemen- tares de SBR podem ser restringidos.
A unidade de multiplexação de fluxo de bit 1g multiplexa o fluxo de bit codificado calculado pela unidade de codificação de codec central 1c, as informações suplementares de SBR calculadas pela unidade de codifica- ção de SBR 1d, e K(r) calculado pela unidade de cálculo de parâmetro de resistência de filtro 1f, e emite um fluxo de bit multiplexado (fluxo de bit mul- tiplexado codificado) através do dispositivo de comunicação do dispositivo de codificação de voz 11 (processo na Etapa Sa7).
A figura 3 é um diagrama que ilustra um dispositivo de decodifi- cação de voz 21 de acordo com a primeira modalidade. O dispositivo de de- codificação de voz 21 fisicamente inclui uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU integralmente controla o dispositivo de decodificação de voz 21 carregando e executando um programa de computador predeterminado (tal como um pro- grama de computador para realizar os processos ilustrados no fluxograma da figura 4) armazenado em uma memória interna do dispositivo de decodifi- cação de voz 21 tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de decodificação de voz 21 recebe a saída de fluxo de bit multi- plexado a partir do dispositivo de codificação de voz 11, um dispositivo de codificação de voz 11a de uma modificação 1, que será descrito adiante, ou um dispositivo de codificação de voz de uma modificação 2, que será descri- to adiante, e emite um sinal de voz decodificado para fora do dispositivo de decodificação de voz 21. O dispositivo de decodificação de voz 21, conforme ilustrado na figura 3, funcionalmente inclui uma unidade de separação de fluxo de bit 2a (meio de separação de fluxo de bit), uma unidade de decodifi- cação de codec central 2b (meio de decodificação central), uma unidade de conversão de frequência 2c (meio de conversão de frequência), uma unida- de de análise de previsão linear de baixa frequência 2d (meio de análise de envelope temporal de baixa frequência), uma unidade de detecção de sinal 2e, uma unidade de ajuste de resistência de filtro 2f (meio de ajuste de enve- lope temporal), uma unidade de geração de alta frequência 2g (meio de ge- ração de alta frequência), uma unidade de análise de previsão linear de alta frequência 2h, uma unidade de filtro inverso de previsão linear 2i, uma uni- dade de ajuste de alta frequência 2j (meio de ajuste de alta frequência), uma unidade de filtro de previsão linear 2k (meio de transformação de envelope temporal), uma unidade de adição de coeficiente 2m e uma unidade de con- versão inversa de frequência 2n. A unidade de separação de fluxo de bit 2a a uma unidade de transformação inversa de frequência 2n do dispositivo de decodificação de voz 21 ilustrado na figura 3 são funções realizadas quando a CPU do dispositivo de decodificação de voz 21 executa o programa de computador armazenado na memória interna do dispositivo de decodificação de voz 21. A CPU do dispositivo de decodificação de voz 21 sequencialmen- te executa os processos (processos da Etapa Sb1 à Etapa Sb11) ilustrados no fluxograma da figura 4, executando o programa de computador (ou com uso da unidade de separação de fluxo de bit 2a à unidade de transformação inversa de frequência 2n ilustrada na figura 3). Vários tipos de dados neces- sários para executar o programa de computador e vários tipos de dados ge- rados executando-se o programa de computador são todos armazenados na memória interna tal como a ROM e a RAM do dispositivo de decodificação de voz 21.
A unidade de separação de fluxo de bit 2a separa o fluxo de bit multiplexado fornecido através do dispositivo de comunicação do dispositivo de decodificação de voz 21 em um parâmetro de resistência de filtro, infor- mações suplementares de SBR e o fluxo de bit codificado. A unidade de de- codificação de codec central 2b decodifica o fluxo de bit codificado recebido a partir da unidade de separação de fluxo de bit 2a para obter um sinal de- codificado que inclui somente os componentes de baixa frequência (proces- so na Etapa Sb1). Neste momento, o método de decodificação pode ser ba- seado no método de codificação de voz representado pelo método CELP, ou pode ser baseado em decodificação de som tal como o método AAC ou o TCX (Excitação Codificada de Transformação).
A unidade de conversão de frequência 2c analisa o sinal decodi- ficado recebido a partir da unidade de decodificação de codec central 2b com uso do banco de filtro de QMF de múltiplas divisões para obter um sinal qdec (k, r) no domínio de QMF (processo na Etapa Sb2). Nota-se que k (0<k<63) é um índice na direção de frequência, e r é um índice que indica um índice para a sub-amostra do sinal no domínio de QMF na direção tem- poral.
A unidade de análise de previsão linear de baixa frequência 2d realiza a análise de previsão linear na direção de frequência em qdec (k, r) de cada abertura de tempo r, obtida a partir da unidade de conversão de fre- quência 2c, para obter coeficientes de previsão linear de baixa frequência adec (n, r) (processo na Etapa Sb3). A análise de previsão linear é realizada para um faixa de 0<k<kx que corresponde a uma banda de sinal do sinal de- codificado obtido a partir da unidade de decodificação de codec central 2b. A análise de previsão linear pode ser realizada em uma parte da banda de fre- quência incluída na seção de 0<k<kx.
A unidade de detecção de sinal 2e detecta a variação temporal do sinal no domínio de QMF recebido a partir da unidade de conversão de frequência 2c, e emite-o como um resultado de detecção T(r). A alteração de sinal pode ser detectada, por exemplo, com uso do método descrito abaixo. 1. A força de período curto p(r) de um sinal na abertura de tempo r é obtida de acordo com a seguinte expressão (4).
Figure img0004
2. Um envelope penv(r) obtido suavizando-se p(r) é obtido de a- cordo com a seguinte expressão (5). Note-se que α é uma constante que satisfaz 0<cc<1.
Figure img0005
3. T(r) é obtido de acordo com a seguinte expressão (6) com uso de p(r) e penv(r), em que β θ uma constante.
Figure img0006
Os métodos descritos acima são simples exemplos para detectar a alteração de sinal baseada na alteração na força, e a alteração de sinal pode ser detectada com uso de outros métodos mais sofisticados. Em adi- ção, a unidade de detecção de sinal 2e pode ser omitida.
A unidade de ajuste de resistência de filtro 2f ajusta a resistência de filtro com relação a adec (n, r) obtido a partir da unidade de análise de pre- visão linear de baixa frequência 2d para obter um coeficiente de previsão linear ajustado aacij (n, r), (processo na Etapa Sb4). A resistência de filtro é ajustada, por exemplo, de acordo com a seguinte expressão (7), com uso de um parâmetro de resistência de filtro K recebido através da unidade de sepa- ração de fluxo de bit 2a.
Figure img0007
Se uma saída T(r) é obtida a partir da unidade de detecção de sinal 2e, a resistência pode ser ajustada de acordo com a seguinte expres- são (8).
Figure img0008
A unidade de geração de alta frequência 2g copia o sinal no do- mínio de QMF obtido a partir da unidade de conversão de frequência 2c a partir da banda de baixa frequência para a banda de alta frequência para gerar um sinal qexp (k, 0 no domínio de QMF dos componentes de alta fre- quência (processo na Etapa Sb5). Os componentes de alta frequência são gerados de acordo com o método de geração HF em SBR em "MPEG4 A- AC" ("ISO/IEC 14496-3 subpart 4 General Audio Coding").
A unidade de análise de previsão linear de alta frequência 2h re- aliza a análise de previsão linear na direção de frequência em qexp (k, r) de cada uma das aberturas de tempo r geradas pela unidade de geração de alta frequência 2g para obter os coeficientes de previsão linear de alta fre- quência aexp (n, r) (processo na Etapa Sb6). A análise de previsão linear é realizada para uma faixa de kx<k<63 que corresponde aos componentes de alta frequência gerados pela unidade de geração de alta frequência 2g.
A unidade de filtro inverso de previsão linear 2i realiza a filtragem inversa de previsão linear na direção de frequência em um sinal no domínio de QMF da banda de alta frequência gerada pela unidade de geração de alta frequência 2g, com uso de aexp (n, r) como coeficientes (processo na Etapa Sb7). A função de transferência do filtro inverso de previsão linear pode ser θXp|"θ333 COrri<A° eom linfa QvnrocoÕn
Figure img0009
A filtragem inversa de previsão linear pode ser realizada a partir do coeficiente no lado de baixa frequência em direção ao coeficiente no lado de alta frequência, ou pode ser realizada na direção oposta. A filtragem in- versa de previsão linear é um processo para temporariamente suavizar o envelope temporal dos componentes de alta frequência, antes da transfor- mação do envelope temporal ser realizada no estágio subsequente, e a uni- dade de filtro inverso de previsão linear 2i pode ser omitida. É também pos- sível realizar a análise de previsão linear e filtragem inversa em saídas da unidade de ajuste de alta frequência 2j, que será descrita adiante, pela uni- dade de análise de previsão linear de alta frequência 2ha e pela unidade de filtro inverso de previsão linear 2i, ao invés de realizar a análise de previsão linear e filtragem inversa nos componentes de alta frequência das saídas da unidade de geração de alta frequência 2g. Os coeficientes de previsão linear usados para a filtragem inversa de previsão linear podem ser também adec (n, r) ou aadj (n, r), ao invés de aexp (n, r). Os coeficientes de previsão linear usa- dos para a filtragem inversa de previsão linear podem ser também coeficien- tes de previsão linear aexp,adj (n, r) obtidos realizando-se o ajuste de resistên- cia de filtro em aexp (n, r). O ajuste de resistência é realizado de acordo com a seguinte expressão (10), similar àquela em que aadj (n, r) é obtido.
Figure img0010
A unidade de ajuste de alta frequência 2j ajusta as característi- cas de frequência e tonalidade dos componentes de alta frequência de uma saída da unidade de filtro inverso de previsão linear 2i (processo na Etapa Sb8). O ajuste é realizado de acordo com as informações suplementares de SBR recebidas a partir da unidade de separação de fluxo de bit 2a. O pro- cessamento pela unidade de ajuste de alta frequência 2j é realizado de a- cordo com etapa de "ajuste HF"em SBR em "MPEG4 AAC", e é ajustado realizando-se a filtragem inversa de previsão linear na direção temporal, o ajuste de ganho, e a superposição de ruído no sinal do domínio de QMF da banda de alta frequência. Os detalhes dos processos nas etapas descritas acima são descritos em "ISO/IEC 14496-3 subpart 4 General Audio Coding". Conforme descrito acima, a unidade de conversão de frequência 2c, a uni- dade de geração de alta frequência 2g, e a unidade de ajuste de alta fre- quência 2j todas operam de acordo com o decodificador SBR em "MPEG4 AAC" definido em "ISO/IEC 14496-3".
A unidade de filtro de previsão linear 2k realiza filtragem de sín- tese de previsão linear na direção de frequência em componentes de alta frequência qadj (n, r) de um sinal na saída de domínio de QMF a partir da uni- dade de ajuste de alta frequência 2j, com uso de aadj (n, r) obtido a partir da unidade de ajuste de resistência de filtro 2f (processo na Etapa Sb9). A fun- ção de transferência na filtragem de síntese de previsão linear pode ser ex- pressa como a seguinte expressão (11).
Figure img0011
Realizando-se a filtragem de síntese de previsão linear, a unida- de de filtro de previsão linear 2k transforma o envelope temporal dos com- ponentes de alta frequência gerados com base em SBR.
A unidade de adição de coeficiente 2m adiciona um sinal no do- mínio de QMF que inclui a saída dos componentes de baixa frequência da unidade de conversão de frequência 2c e um sinal no domínio de QMF que inclui a sápida dos componentes de alta frequência da unidade de filtro de previsão linear 2k, e emite um sinal no domínio de QMF que inclui ambos os componentes de baixa frequência e os componentes de alta frequência (pro- cesso na Etapa Sb10).
A unidade de conversão inversa de frequência 2n processa o si- nal no domínio de QMF obtido a partir da unidade de adição de coeficiente 2m com uso de um banco de filtro de síntese de QMF. Desta forma, um do- mínio de tempo decodificou um sinal de voz que inclui ambos os componen- tes de baixa frequência obtidos sendo decodificados pelo codec central e os componentes de alta frequência gerados por SBR e cujo envelope temporal é transformado pelo filtro de previsão linear é obtido, e o sinal obtido de voz é emitido para fora do dispositivo de decodificação de voz 21 através do dis- positivo de comunicação interno (processo na Etapa Sb11). Se K(r) e as in- formações de modo de filtro inverso das informações suplementares de SBR descritas em "ISO/IEC 14496-3 subpart 4 General Audio Coding"forem ex- clusivamente transmitidas, as unidade de conversão inversa de frequência 2n pode gerar informações de modo de filtro inverso das informações su- plementares de SBR para uma abertura de tempo para a qual K(r) é transmi- tido, mas as informações de modo de filtro inverso das informações suple- mentares de SBR não são transmitidas, com uso das informações de modo de filtro inverso das informações suplementares de SBR com relação a ao menos uma abertura de tempo da abertura de tempos entre a abertura de tempos antes e após a abertura de tempo. É também possível definir as in- formações de modo de filtro inverso das informações suplementares de SBR da abertura de tempo em um modo predeterminado antecipadamente. A uni- dade de conversão inversa de frequência 2n pode gerar K(r) para uma aber- tura de tempo para a qual os dados de filtro inverso das informações suple- mentares de SBR são transmitidos, mas K(r) não é transmitido, com uso de K(r) para ao menos uma abertura de tempo entre a abertura de tempos an- tes e após a abertura de tempo. É também possível definir K(r) da abertura de tempo em um valor predeterminado antecipadamente. A unidade de con- versão inversa de frequência 2n pode determinar também se as informações transmitidas são K(r) ou as informações de modo de filtro inverso das infor- mações suplementares de SBR, com base nas informações que indicam se K(r) ou as informações de modo de filtro inverso das informações suplemen- tares de SBR são transmitidos.
(Modificação 1 da Primeira Modalidade)
A figura 5 é um diagrama que ilustra a modificação (dispositivo de codificação de voz 11a) do dispositivo de codificação de voz de acordo com a primeira modalidade. O dispositivo de codificação de voz 11a fisica- mente inclui uma CPU, uma ROM, uma RAM, um dispositivo de comunica- ção, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de codificação de voz 11a carregando e executando um progra- ma de computador predeterminado armazenado em uma memória interna do dispositivo de codificação de voz 11a tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de codificação de voz 11a recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz 11a, e emite um fluxo de bit multiplexado codificado para fora do dispositivo de codifica- ção de voz 11a.
O dispositivo de codificação de voz 11a, conforme ilustrado na figura 5, funcionalmente inclui uma unidade de conversão inversa de alta frequência 1 h, uma unidade de cálculo de força de período curto 1i (meio de cálculo de informações suplementares de envelope temporal), uma unidade de cálculo de parâmetro de resistência de filtro 1f1 (meio de cálculo de in- formações suplementares de envelope temporal), e uma unidade de multi- plexação de fluxo de bit 1 g1 (meio de multiplexação de fluxo de bit), ao invés da unidade de análise de previsão linear 1e, da unidade de cálculo de parâ- metro de resistência de filtro 1f, e da unidade de multiplexação de fluxo de bit 1g do dispositivo de codificação de voz 11. A unidade de multiplexação de fluxo de bit 1 g1 tem a mesma função que a da unidade de multiplexação de fluxo de bit 1g. A unidade de conversão de frequência 1a à unidade de codi- ficação de SBR 1d, a unidade de conversão inversa de alta frequência 1 h, a unidade de cálculo de força de período curto 1 i, a unidade de cálculo de pa- râmetro de resistência de filtro 1f1, e a unidade de multiplexação de fluxo de bit 1g1 do dispositivo de codificação de voz 11a ilustradas na figura 5 são 5 funções realizadas quando a CPU do dispositivo de codificação de voz 11a executa o programa de computador armazenado na memória interna do dis- positivo de codificação de voz 11a. Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados execu- tando-se o programa de computador são todos armazenados na memória 10 interna tal como a ROM e a RAM do dispositivo de codificação de voz 11a.
A unidade de conversão inversa de alta frequência 1h converte, no sinal no domínio de QMF obtido a partir da unidade de conversão de fre- quência 1a, coeficientes que correspondem aos componentes de baixa fre- quência codificado pela unidade de codificação de codec central 1c para "0", 15 para obter um sinal de domínio de tempo que inclui somente os componen- tes de alta frequência, e processar o sinal convertido com uso do banco de filtro de síntese de QMF. A unidade de cálculo de força de período curto 1i divide os componentes de alta frequência no domínio de tempo obtido a par- tir da unidade de conversão inversa de alta frequência 1h em seções curtas, 20 calcula a força, e calcula p(r). Como um método alternativo, a força de perí- odo curto pode ser também calculada de acordo com a seguinte expressão (12) com uso do sinal no domínio de QMF.
Figure img0012
A unidade de cálculo de parâmetro de resistência de filtro 1 f 1 de- tecta a porção alterada de p(r), e determina um valor de K(r), de forma que 25 K(r) seja aumentado com a alteração grande. O valor de K(r), por exemplo, pode ser também calculado pelo mesmo método que aquele para calcular T(r) pela unidade de detecção de sinal 2e do dispositivo de decodificação de voz 21. A alteração de sinal pode ser também detectada com uso de outros métodos mais sofisticados. A unidade de cálculo de parâmetro de resistência 30 de filtro 1 f 1 pode também obter força de período curto de cada um dos com- ponentes de baixa frequência e dos componentes de alta frequência, obter alterações de sinal Tr(r) e Th(r) de cada um dos componentes de baixa fre- quência e dos componentes de alta frequência com uso do mesmo método que aquele para calcular T(r) pela unidade de detecção de sinal 2e do dispo- sitivo de decodificação de voz 21, e determina o valor de K(r) com uso do mesmo. Neste caso, por exemplo, K(r) pode ser obtido de acordo com a se- guinte expressão (13), em que ε é uma constante tal como 3,0.
Figure img0013
(Modificação 2 da Primeira Modalidade)
Um dispositivo de codificação de voz (não ilustrado) de uma mo- dificação 2 da primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo de codificação de voz da modificação 2 carregando e executando um programa de computador prede- terminado armazenado em uma memória interna do dispositivo de codifica- ção de voz da modificação 2 tal como a ROM na RAM. O dispositivo de co- municação do dispositivo de codificação de voz da modificação 2 recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz, e emite um fluxo de bit multiplexado codificado para fora do dispositivo de co- dificação de voz.
O dispositivo de codificação de voz da modificação 2 funcional- mente inclui uma unidade diferencial de codificação de coeficiente de previ- são linear (meio de cálculo de informações suplementares de envelope tem- poral) e uma unidade de multiplexação de fluxo de bit (meio de multiplexa- ção de fluxo de bit) que recebe uma saída a partir da unidade de codificação diferencial de coeficiente de previsão linear, que não são ilustradas, ao invés da unidade de cálculo de parâmetro de resistência de filtro 1f e da unidade de multiplexação de fluxo de bit 1g do dispositivo de codificação de voz 11. A unidade de conversão de frequência 1a à unidade de análise de previsão linear 1e, a unidade de codificação diferencial de coeficiente de previsão li- near, e a unidade de multiplexação de fluxo de bit do dispositivo de codifica- ção de voz da modificação 2 são funções realizadas quando a CPU do dis- positivo de codificação de voz da modificação 2 executa o programa de computador armazenado na memória interna do dispositivo de codificação de voz da modificação 2. Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados executando-se o 5 programa de computador são todos armazenados na memória interna tal como a ROM e a RAM do dispositivo de codificação de voz da modificação 2.
A unidade de codificação diferencial de coeficiente de previsão linear calcula valores diferenciais ao (n, r) do coeficiente de previsão linear 10 de acordo com a seguinte expressão (14), com uso de 3H (n, r) do sinal de entrada e ai_(n, r) do sinal de entrada.
Figure img0014
A unidade de codificação diferencial de coeficiente de previsão linear quando quantiza ao (n, r), e transmite-os para a unidade de multiplexa- ção de fluxo de bit (estrutura que corresponde à unidade de multiplexação 15 de fluxo de bit 1g). A unidade de multiplexação de fluxo de bit multiplexa ao (n, r) no fluxo de bit ao invés de K(r), e emite o fluxo de bit multiplexado para fora do dispositivo de codificação de voz através do dispositivo de comuni- cação interno.
Um dispositivo de decodificação de voz (não ilustrado) da modi- 20 ficação 2 da primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo de decodificação de voz da modificação 2 carregando e executando um programa de computador predeterminado armazenado em uma memória interna do dispositivo de de- 25 codificação de voz da modificação 2 tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de decodificação de voz da modificação 2 recebe o fluxo de bit multiplexado codificado emitido a partir do dispositivo de codificação de voz 11, o dispositivo de codificação de voz 11a de acordo com a modificação 1, ou o dispositivo de codificação de voz de acordo com a 30 modificação 2, e emite um sinal de voz decodificado para fora do dispositivo de decodificação de voz.
O dispositivo de decodificação de voz da modificação 2 funcio- nalmente inclui uma unidade de decodificação diferencial de coeficiente de previsão linear, que não é ilustrada, ao invés da unidade de ajuste de resis- tência de filtro 2f do dispositivo de decodificação de voz 21. A unidade de separação de fluxo de bit 2a à unidade de detecção de sinal 2e, a unidade de decodificação diferencial de coeficiente de previsão linear, e a unidade de geração de alta frequência 2g à unidade de conversão inversa de frequência 2n do dispositivo de decodificação de voz da modificação 2 são funções rea- lizadas quando a CPU do dispositivo de decodificação de voz da modifica- ção 2 executa o programa de computador armazenado na memória interna do dispositivo de decodificação de voz da modificação 2. Vários tipos de da- dos necessários para executar o programa de computador e vários tipos de dados gerados executando-se o programa de computador são todos arma- zenados na memória interna tal como a ROM e a RAM do dispositivo de de- codificação de voz da modificação 2.
A unidade de decodificação diferencial de coeficiente de previ- são linear obtém aacij (n, r) diferencialmente decodificado de acordo com a seguinte expressão (15), com uso de at (n, r) obtido a partir da unidade de análise de previsão linear de baixa frequência 2d e ao (n, r) recebido a partir da unidade de separação de fluxo de bit 2a.
Figure img0015
A unidade de decodificação diferencial de coeficiente de previ- são linear transmite aadj (n, r) diferencialmente decodificado desta maneira para a unidade de filtro de previsão linear 2k. ao (n, r) pode ser um valor dife- rencial no domínio de coeficientes de previsão conforme ilustrado na expres- são (14), mas pode ser um valor que toma uma diferença após converter um coeficiente de previsão à outra forma de expressão tal como LSP (Par de Espectros Lineares), ISP (Par de Espectros de Imitância), LSF (Frequência de Espectro Linear), ISF (Frequência de Espectro de Imitância), e coeficiente PARCOR. Neste caso, a decodificação diferencial também tem a mesma forma de expressão.
(Segunda modalidade)
A figura 6 é um diagrama que ilustra um dispositivo de codifica- ção de voz 12 de acordo com a segunda modalidade. O dispositivo de codi- ficação de voz 12 inclui fisicamente uma CPU, uma ROM, uma RAM, um 5 dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de codificação de voz 12 carregando e executando um programa de computador predeterminado (tal como um pro- grama de computador para realizar os processos ilustrados no fluxograma da figura 7) armazenado em uma memória interna do dispositivo de codifica- 10 ção de voz 12 tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de codificação de voz 12 recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz 12, e emite um fluxo de bit mul- tiplexado codificado para fora do dispositivo de codificação de voz 12.
O dispositivo de codificação de voz 12 funcionalmente inclui uma 15 unidade de decimação de coeficiente de previsão linear 1j (meio de decima- ção de coeficiente de previsão), uma unidade de quantização de coeficiente de previsão 1k (meio de quantização de coeficiente de previsão), e a unida- de de multiplexação de fluxo de bit 1g2 (meio de multiplexação de fluxo de bit), ao invés da unidade de cálculo de parâmetro de resistência de filtro 1f e 20 da unidade de multiplexação de fluxo de bit 1g do dispositivo de codificação de voz 11. A unidade de conversão de frequência 1a à unidade de análise de previsão linear 1e (meio de análise de previsão linear), a unidade de deci- mação de coeficiente de previsão linear 1 j, a unidade de quantização de coeficiente de previsão 1 k, e a unidade de multiplexação de fluxo de bit 1g2 25 do dispositivo de codificação de voz 12 ilustradas na figura 6 são funções realizadas quando a CPU do dispositivo de codificação de voz 12 executa o programa de computador armazenado na memória interna do dispositivo de codificação de voz 12. A CPU do dispositivo de codificação de voz 12 se- quencialmente executa processos (processos da Etapa Sa1 à Etapa Sa5, e 30 processos da Etapa Sc1 à Etapa Sc3) ilustrados no fluxograma da figura 7, executando-se o programa de computador (ou com uso da unidade de con- versão de frequência 1a à unidade de análise de previsão linear 1e, a unida- de de decimação de coeficiente de previsão linear 1 j, a unidade de quantiza- ção de coeficiente de previsão 1k, e a unidade de multiplexação de fluxo de bit 1g2 do dispositivo de codificação de voz 12 ilustrado na figura 6). Vários tipos de dados necessários para executar o programa de computador e vá- rios tipos de dados gerados executando-se o programa de computador são todos armazenados na memória interna tal como a ROM e a RAM do dispo- sitivo de codificação de voz 12.
A unidade de decimação de coeficiente de previsão linear 1j de- cima an (n, r) obtido a partir da unidade de análise de previsão linear 1e na direção temporal, e transmite um valor para uma parte da abertura de tempo n e um valor que corresponde a n, em 3H (n, r) para a unidade de quantiza- ção de coeficiente de previsão 1k (processo na Etapa Sc1). Nota-se que 0<i<Nts, e Nts é o número de aberturas de tempo às quais 3H (n, r) é transmi- tido em um quadro. A decimação dos coeficientes de previsão linear pode ser realizada em um intervalo de tempo predeterminado, ou pode ser reali- zada em um intervalo de tempo irregular baseado nas características de an (n, r). Por exemplo, um método é possível em que GH(0de an (n, r) é compa- rado em um quadro que tem um certo comprimento, e aH (n, r) é quantizado, se Gn(r) exceder um certo valor. Se o intervalo de decimação do coeficiente de previsão linear for um intervalo predeterminado ao invés de usar as ca- racterísticas de an (n, r), an (n, r) não precisa ser calculado para a abertura de tempo para a qual a transmissão não é realizada.
A unidade de quantização de coeficiente de previsão 1 k quantiza o coeficiente de previsão linear de alta frequência decimado aH (n, n) recebi- do a partir da unidade de decimação de coeficiente de previsão linear 1j e um índice n da abertura de tempo correspondente, e transmite para a unida- de de multiplexação de fluxo de bit 1g2 (processo na Etapa Sc2). Como uma estrutura alternativa, ao invés de quantizar aH (n, n), um valor diferencial aD (n, n) dos coeficientes de previsão linear pode ser quantizado como o dispo- sitivo de codificação de voz de acordo com a modificação 2 da primeira mo- dalidade.
A unidade de multiplexação de fluxo de bit 1g2 multiplexa o fluxo de bit codificado calculado pela unidade de codificação de codec central 1c, as informações suplementares de SBR calculadas pela unidade de codifica- ção de SBR 1 d, e um índice {π} de uma abertura de tempo que corresponde a an (n, n) que é quantizado e recebido a partir da unidade de quantização de coeficiente de previsão 1k em um fluxo de bit, e emite o fluxo de bit multi- plexado através do dispositivo de comunicação do dispositivo de codificação de voz 12 (processo na Etapa Sc3).
A figura 8 é um diagrama que ilustra o dispositivo de decodifica- ção de voz 22 de acordo com a segunda modalidade. O dispositivo de deco- dificação de voz 22 inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de decodificação de voz 22 carregando e executando um programa de computador predeterminado (tal como um pro- grama de computador para realizar os processos ilustrados no fluxograma da figura 9) armazenado em uma memória interna do dispositivo de decodifi- cação de voz 22 tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de decodificação de voz 22 recebe o fluxo de bit multiplexado codificado emitido a partir do dispositivo de codificação de voz 12, e emite um sinal de voz decodificado para fora do dispositivo de codificação de voz 12.
O dispositivo de decodificação de voz 22 funcionalmente inclui uma unidade de separação de fluxo de bit 2a1 (meio de separação de fluxo de bit), uma unidade de interpolação/extrapolação de coeficiente de previsão linear 2p (meio de interpolação/extrapolação de coeficiente de previsão line- ar), e uma unidade de filtro de previsão linear 2k1 (meio de transformação de envelope temporal) ao invés da unidade de separação de fluxo de bit 2a, da unidade de análise de previsão linear de baixa frequência 2d, da unidade de detecção de sinal 2e, da unidade de ajuste de resistência de filtro 2f, e da unidade de filtro de previsão linear 2k do dispositivo de decodificação de voz 21. A unidade de separação de fluxo de bit 2a1, a unidade de decodificação de codec central 2b, a unidade de conversão de frequência 2c, a unidade de geração de alta frequência 2g à unidade de ajuste de alta frequência 2j, a unidade de filtro de previsão linear 2k1, a unidade de adição de coeficiente 2m, a unidade de conversão inversa de frequência 2n, e a unidade de inter- polação/extrapolação de coeficiente de previsão linear 2p do dispositivo de decodificação de voz 22 ilustrado na figura 8 são funções realizadas quando a CPU do dispositivo de codificação de voz 22 executa o programa de com- putador armazenado na memória interna do dispositivo de codificação de voz 22. A CPU do dispositivo de decodificação de voz 22 sequencialmente executa os processos (processos da Etapa Sb1 à Etapa Sd2, Etapa Sd1, da Etapa Sb5 á Etapa Sb8, Etapa Sd2, e da Etapa Sb10 à Etapa Sb11) ilustra- dos no fluxograma da figura 9, executando o programa de computador (ou com uso da unidade de separação de fluxo de bit 2a1, da unidade de decodi- ficação de codec central 2b, da unidade de conversão de frequência 2c, da unidade de geração de alta frequência 2g à unidade de ajuste de alta fre- quência 2j, da unidade de filtro de previsão linear 2k1, da unidade de adição de coeficiente 2m, da unidade de conversão inversa de frequência 2n, e da unidade de interpolação/extrapolação de coeficiente de previsão linear 2p ilustrado na figura 8). Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados executando-se o programa de computador são todos armazenados na memória interna tal como a ROM e a RAM do dispositivo de decodificação de voz 22.
O dispositivo de decodificação de voz 22 inclui a unidade de se- paração de fluxo de bit 2a1, a unidade de interpolação/extrapolação de coe- ficiente de previsão linear 2p, e a unidade de filtro de previsão linear 2k1, ao invés da unidade de separação de fluxo de bit 2a, da unidade de análise de previsão linear de baixa frequência 2d, da unidade de detecção de sinal 2e, da unidade de ajuste de resistência de filtro 2f, e da unidade de filtro de pre- visão linear 2k do dispositivo de decodificação de voz 22.
A unidade de separação de fluxo de bit 2a 1 separa o fluxo de bit multiplexado fornecido através do dispositivo de comunicação do dispositivo de decodificação de voz 22 no índice n da abertura de tempo que corres- ponde a an (n, π) que é quantizado, as informações suplementares de SBR, e o fluxo de bit codificado.
A unidade de interpolação/extrapolação de coeficiente de previ- são linear 2p recebe o índice π da abertura de tempo que corresponde a an (n, π) que é quantizada a partir da unidade de separação de fluxo de bit 2a1, e obtém an (n, r) que corresponde à abertura de tempo para a qual o coefici- ente de previsão linear não é transmitido, por interpolação ou extrapolação (processos na Etapa Sd1). A unidade de interpolação/extrapolação de coefi- ciente de previsão linear 2p pode extrapolar o coeficiente de previsão linear, por exemplo, de acordo com a seguinte expressão (16).
Figure img0016
em que no é o valor mais próximo de r na abertura de tempo {n} para a qual o coeficiente de previsão linear é transmitido, δ é uma constante que satisfaz 0<δ<1.
A unidade de interpolação/extrapolação de coeficiente de previ- são linear 2p pode interpolar o coeficiente de previsão linear, por exemplo, de acordo com a seguinte expressão (17), em que nocrcrjo+i é satisfeito.
Figure img0017
A unidade de interpolação/extrapolação de coeficiente de previ- são linear 2p pode converter o coeficiente de previsão linear em outras for- mas de expressão tal como LSP (Par de Espectros Lineares), ISP (Par de Espectros de Imitância), LSF (Frequência de Espectro Linear), ISF (Fre- quência de Espectro de Imitância), e coeficiente PARCOR, interpolar ou ex- trapolar este, e converter o valor obtido no coeficiente de previsão linear a ser usado, an (n, r) que é interpolado ou extrapolado é transmitido para a unidade de filtro de previsão linear 2k1 e usado como um coeficiente de pre- visão linear para a filtragem de síntese de previsão linear, mas pode ser também usado como um coeficiente de previsão linear na unidade de filtro inverso de previsão linear 2i. Se ao (n, r>) for multiplexado em um fluxo de bit ao invés de an (n, r), a unidade de interpolação/extrapolação de coeficiente de previsão linear 2p realiza a decodificação diferencial similar àquela do dispositivo de decodificação de voz de acordo com a modificação 2 da pri- meira modalidade, antes de realizar o processo de interpolação ou extrapo- lação descrito acima.
A unidade de filtro de previsão linear 2k1 realiza a filtragem de síntese de previsão linear na direção de frequência em qadj (n, r) emitido a partir da unidade de ajuste de alta frequência 2j, com uso de an (n, r) que é interpolado ou extrapolado obtido a partir da unidade de interpola- ção/extrapolação de coeficiente de previsão linear 2p (processo na Etapa Sd2). Uma função de transferência da unidade de filtro de previsão linear 2k1 pode ser expressa como a seguinte expressão (18). A unidade de filtro de previsão linear 2k1 transforma o envelope temporal dos componentes de alta frequência gerados pela SBR realizando a filtragem de síntese de previ- são linear, como a unidade de filtro de previsão linear 2k do dispositivo de decodificação de voz 21.
Figure img0018
(Terceira modalidade)
Afigura 10 é um diagrama que ilustra um dispositivo de codifica- ção de voz 13 de acordo com a terceira modalidade. O dispositivo de codifi- cação de voz 13 inclui fisicamente uma CPU, uma ROM, uma RAM, um dis- positivo de comunicação, e similares, que não são ilustrados, e a CPU con- trola integralmente o dispositivo de codificação de voz 13 carregando e exe- cutando um programa de computador predeterminado (tal como um progra- ma de computador para realizar os processos ilustrados no fluxograma da figura 11) armazenado em uma memória interna do dispositivo de codifica- ção de voz 13 tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de codificação de voz 13 recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz 13, e outputs um fluxo de bit multiplexado codificado para fora do dispositivo de codificação de voz 13.
O dispositivo de codificação de voz 13 funcionalmente inclui uma unidade de cálculo de envelope temporal 1m (meio de cálculo de informa- ções suplementares de envelope temporal), uma unidade de cálculo de pa- râmetro de formato de envelope 1n (meio de cálculo de informações suple- mentares de envelope temporal), e uma unidade de multiplexação de fluxo de bit 1g3 (meio de multiplexação de fluxo de bit), ao invés da unidade de análise de previsão linear 1e, da unidade de cálculo de parâmetro de resis- tência de filtro 1f, e da unidade de multiplexação de fluxo de bit 1g do dispo- sitivo de codificação de voz 11. A unidade de conversão de frequência 1a à unidade de codificação de SBR 1 d, a unidade de cálculo de envelope tempo- ral 1m, a unidade de cálculo de parâmetro de formato de envelope 1n, e a unidade de multiplexação de fluxo de bit 1g3 do dispositivo de codificação de voz 13 ilustrado na figura 10 são funções realizadas quando a CPU do dis- positivo de codificação de voz 13 executa o programa de computador arma- zenado na memória interna do dispositivo de codificação de voz 13. A CPU do dispositivo de codificação de voz 13 sequencialmente executa os proces- sos (processos da Etapa Sa1 à Etapa Sa 4 e da Etapa Se1 à Etapa Se3) ilustrados no fluxograma da figura 11, executando o programa de computa- dor (ou com uso da unidade de conversão de frequência 1a à unidade de codificação de SBR 1d, a unidade de cálculo de envelope temporal 1m, a unidade de cálculo de parâmetro de formato de envelope 1n, e a unidade de multiplexação de fluxo de bit 1g3 do dispositivo de codificação de voz 13 i- lustrado na figura 10). Vários tipos de dados necessários para executar o programa de computador e vários tipos de dados gerados executando-se o programa de computador são todos armazenados na memória interna tal como a ROM e a RAM do dispositivo de codificação de voz 13.
A unidade de cálculo de envelope temporal 1m recebe q (k, r), e, por exemplo, obtém informações de envelope temporal e(r) dos componen- tes de alta frequência de um sinal, obtendo a força de cada abertura de tem- po de q (k, r) (processo na Etapa Se1). Neste caso, e(r) é obtido de acordo com a seguinte expressão (19).
Figure img0019
A unidade de cálculo de parâmetro de formato de envelope 1n recebe e(r) a partir da unidade de cálculo de envelope temporal 1m e recebe uma borda de tempo de envelope de SBR {bj} a partir da unidade de codifi- cação de SBR 1d. Nota-se que 0<i<Ne, e Ne é o número de envelopes de SBR no quadro codificado. A unidade de cálculo de parâmetro de formato de envelope 1n obtém um parâmetro de formato de envelope s(i) (0<i<Ne) de cada urn dos envelopes de SBR no quadro codificado de acordo com a se- guinte expressão (20) (processo na Etapa Se2). O parâmetro de formato de envelope s(i) corresponde às informações suplementares de envelope tem- poral, e é similar na terceira modalidade.
Figure img0020
Nota-se que:
Figure img0021
em que s(i) na expressão acima é um parâmetro que indica a magnitude da variação de e(r) no i° envelope de SBR que satisfaz bj<r<bi+i, e e(r) toma um número maior conforme a variação do envelope temporal é aumentado. As expressões (20) e (21) descritas acima são exemplos de mé- todo para calcular s(i), e, por exemplo, s(i) pode ser também obtido com uso de, por exemplo, SMF (Medida de Planeza Espectral) de e(r), uma razão do valor máximo para p valor mínimo, e similares. s(i) é então quantizado e transmitido para a unidade de multiplexação de fluxo de bit 1g3.
A unidade de multiplexação de fluxo de bit 1g3 multiplexa o fluxo de bit codificado calculado pela unidade de codificação de codec central 1c, as informações suplementares de SBR calculadas peça unidade de codifica- ção de SBR 1 d, e s(i) em um fluxo de bit, e emite o fluxo de bit multiplexado através do dispositivo de comunicação do dispositivo de codificação de voz 13 (processo na Etapa Se3).
A figura 12 é um diagrama que ilustra um dispositivo de decodifi- cação de voz 23 de acordo com a terceira modalidade. O dispositivo de de- codificação de voz 23 inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de decodificação de voz 23 carregando e executando um programa de computador predeterminado (tal como um pro- grama de computador para realizar os processos ilustrados no fluxograma da figura 13) armazenado em uma memória interna do dispositivo de decodi- ficação de voz 23 tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de decodificação de voz 23 recebe o fluxo de bit multiplexado codificado emitido a partir do dispositivo de codificação de voz 13, e emite um sinal de voz decodificado para fora do dispositivo de decodificação de voz 13.
O dispositivo de decodificação de voz 23 funcionalmente inclui uma unidade de separação de fluxo de bit 2a2 (meio de separação de fluxo de bit), uma unidade de cálculo de envelope temporal de baixa frequência 2r (meio de análise de envelope temporal de baixa frequência), uma unidade de ajuste de formato de envelope 2s (meio de ajuste de envelope temporal), uma unidade de cálculo de envelope temporal de alta frequência 2t, uma unidade de suavização de envelope temporal 2u, e uma unidade de trans- formação de envelope temporal 2v (meio de transformação de envelope temporal), ao invés da unidade de separação de fluxo de bit 2a, da unidade de análise de previsão linear de baixa frequência 2d, da unidade de detec- ção de sinal 2e, da unidade de ajuste de resistência de filtro 2f, a unidade de análise de previsão linear de alta frequência 2h, da unidade de filtro inverso de previsão linear 2i, e a unidade de filtro de previsão linear 2k do dispositivo de decodificação de voz 21. A unidade de separação de fluxo de bit 2a2, a unidade de decodificação de codec central 2b à unidade de conversão de frequência 2c, a unidade de geração de alta frequência 2g, a unidade de a- juste de alta frequência 2j, a unidade de adição de coeficiente 2m, a unidade de conversão inversa de frequência 2n, e a unidade de cálculo de envelope temporal de baixa frequência 2r à unidade de transformação de envelope temporal 2v do dispositivo de decodificação de voz 23 ilustradas na figura 12 são funções realizadas quando a CPU do dispositivo de codificação de voz 23 executa o programa de computador armazenado na memória interna do dispositivo de codificação de voz 23. A CPU do dispositivo de decodificação de voz 23 sequencialmente executa os processos (processos da Etapa Sb1 à Etapa Sb2, da Etapa Sf1 à Etapa Sf2, Etapa Sb5, da Etapa Sf3 à Etapa Sf4, Etapa Sb8, Etapa Sf5, e da Etapa Sb10 à Etapa Sb11) ilustrados no flu- xograma da figura 13, executando o programa de computador (ou com uso da unidade de separação de fluxo de bit 2a2, da unidade de decodificação de codec central 2b à unidade de conversão de frequência 2c, da unidade de geração de alta frequência 2g, da unidade de ajuste de alta frequência 2j, da unidade de adição de coeficiente 2m, da unidade de conversão inversa de frequência 2n, e da unidade de cálculo de envelope temporal de baixa fre- quência 2r à unidade de transformação de envelope temporal 2v do disposi- tivo de decodificação de voz 23 ilustradas na figura 12). Vários tipos de da- dos necessários para executar o programa de computador e vários tipos de dados gerados executando-se o programa de computador são todos arma- zenados na memória interna tal como a ROM e a RAM do dispositivo de de- codificação de voz 23.
A unidade de separação de fluxo de bit 2a2 separa o fluxo de bit multiplexado fornecido através do dispositivo de comunicação do dispositivo de decodificação de voz 23 em s(i), as informações suplementares de SBR e o fluxo de bit codificado. A unidade de cálculo de envelope temporal de baixa frequência 2r recebe qdec (k, r) que inclui os componentes de baixa frequên- cia a partir da unidade de conversão de frequência 2c, e obtém e(r) de acor- do com a seguinte expressão (22) (processo na Etapa Sf1).
Figure img0022
A unidade de ajuste de formato de envelope 2s ajusta e(r) com uso de s(i), e obtém as informações de envelope temporal ajustadas eacij(r) (processo na Etapa Sf2). e(r) pode ser ajustado, por exemplo, de acordo com as seguintes expressões (23) a (25).
Figure img0023
Nota-se que:
Figure img0024
As expressões (23) a (25) descritas acima são um exemplo de um método de ajuste, e o outro método de ajuste para o qual o formato de eadj(r) se torna similar ao formato ilustrado por(i) pode ser também usado.
A unidade de cálculo de envelope temporal de alta frequência 2t calcula um envelope temporal eexp(r) com uso de qexp (k, r) obtido a partir da unidade de geração de alta frequência 2g, de acordo com a seguinte ex- pressão (26) (processo na Etapa Sf3).
Figure img0025
A unidade de suavização de envelope temporal 2u suaviza o en- velope temporal de qexp (k, r) obtido a partir da unidade de geração de alta frequência 2g de acordo com a seguinte expressão (27), e transmite o sinal obtido qflat (k, r) no domínio de QMF para a unidade de ajuste de alta fre- quência 2j (processo na Etapa Sf4).
Figure img0026
A suavização do envelope temporal pela unidade de suavização de envelope temporal 2u pode ser também omitida. Ao invés de calcular o envelope temporal dos componentes de alta frequência da saída a partir da unidade de geração de alta frequência 2g e suavizar o envelope temporal da mesma, o envelope temporal dos componentes de alta frequência de uma saída a partir da unidade de ajuste de alta frequência 2j pode ser calculado, e o envelope temporal dos mesmos podem ser suavizados. O envelope temporal usado na unidade de suavização de envelope temporal 2u pode ser também eacij(r) obtido a partir da unidade de ajuste de formato de envelope 2s, ao invés de eexp(r) obtido a partir da unidade de cálculo de envelope tem- poral de alta frequência 2t.
A unidade de transformação de envelope temporal 2v transforma o qadj (k, r) obtido a partir da unidade de ajuste de alta frequência 2j com uso de eadj(r) obtido a partir da unidade de transformação de envelope temporal 2v, e obtém um sinal qenvadj (k, r) no domínio de QMF em que o envelope temporal é transformado (processo na Etapa Sf5). A transformação é reali- zada de acordo com a seguinte expressão (28). qenvadj (k, r) é transmitido pa- ra a unidade de adição de coeficiente 2m como um sinal no domínio de QMF que corresponde aos componentes de alta frequência.
Figure img0027
(Quarta modalidade)
A figura 14 é um diagrama que ilustra um dispositivo de decodifi- cação de voz 24 de acordo com a quarta modalidade. O dispositivo de deco- dificação de voz 24 inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de decodificação de voz 24 carregando e executando a programa de computador predeterminado armazenado em uma memória interna do dispositivo de decodificação de voz 24 tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de decodificação de voz 24 recebe o fluxo de bit multiplexado codificado emitido a partir do dispositivo de codificação de voz 11 ou do dispositivo de codificação de voz 13, e emite um sinal de voz decodificado para fora do dispositivo de decodi- ficação de voz 24.
O dispositivo de decodificação de voz 24 funcionalmente inclui a estrutura do dispositivo de decodificação de voz 21 (a unidade de decodifi- cação de codec central 2b, a unidade de conversão de frequência 2c, a uni- dade de análise de previsão linear de baixa frequência 2d, a unidade de de- tecção de sinal 2e, a unidade de ajuste de resistência de filtro 2f, a unidade de geração de alta frequência 2g, a unidade de análise de previsão linear de alta frequência 2h, a unidade de filtro inverso de previsão linear 2i, a unidade de ajuste de alta frequência 2j, a unidade de filtro de previsão linear 2k, a unidade de adição de coeficiente 2m, e a unidade de conversão inversa de frequência 2n) e a estrutura do dispositivo de decodificação de voz 23 (a u- nidade de cálculo de envelope temporal de baixa frequência 2r, a unidade de ajuste de formato de envelope 2s, e a unidade de transformação de envelo- pe temporal 2v). O dispositivo de decodificação de voz 24 também inclui uma unidade de separação de fluxo de bit 2a3 (meio de separação de fluxo de bit) e uma unidade de conversão de informações suplementares 2w. A ordem da unidade de filtro de previsão linear 2k e da unidade de transforma- ção de envelope temporal 2v pode ser oposta àquela ilustrada na figura 14. O dispositivo de decodificação de voz 24 preferencialmente recebe o fluxo de bit codificado pelo dispositivo de codificação de voz 11 ou pelo dispositivo de codificação de voz 13. A estrutura do dispositivo de decodificação de voz 24 ilustrada na figura 14 é uma função realizada quando a CPU do dispositi- vo de decodificação de voz 24 executa o programa de computador armaze- nado na memória interna do dispositivo de decodificação de voz 24. Vários tipos de dados necessários para executar o programa de computador e vá- rios tipos de dados gerados executando-se o programa de computador são todos armazenados na memória interna tal como a ROM e a RAM do dispo- sitivo de decodificação de voz 24.
A unidade de separação de fluxo de bit 2a3 separa o fluxo de bit multiplexado fornecido através do dispositivo de comunicação do dispositivo de decodificação de voz 24 nas informações suplementares de envelope temporal, nas informações suplementares de SBR, e o fluxo de bit codifica- do. As informações suplementares de envelope temporal pode ser também K(r) descrito na primeira modalidade ou s(i) descrito na terceira modalidade. As informações suplementares de envelope temporal podem ser também outro parâmetro X(r) que não é nem K(r) nem s(i).
A unidade de conversão de informações suplementares 2w con- verte as informações suplementares de envelope temporal fornecidas para obter K(r) e s(i). Se as informações suplementares de envelope temporal for K(r), a unidade de conversão de informações suplementares 2w converte K(r) em s(i). A unidade de conversão de informações suplementares 2w pode também obter, por exemplo, um valor médio de K(r) em uma seção de bi<r<bi+i
Figure img0028
e converter o valor médio representado na expressão (29) em s(i) com uso de uma tabela predeterminada. Se as informações suplementa- res de envelope temporal forem s(i), a unidade de conversão de informações suplementares 2w converte s(i) em K(r). A unidade de conversão de informa- ções suplementares 2w pode também realizar a conversão convertendo s(i) em K(r), por exemplo, com uso de uma tabela predeterminada. Nota-se que i e r estão associados entre si assim como para satisfazer a relação de bj<r<bi+1.
Se as informações suplementares de envelope temporal forem um parâmetro X(r) que não é nem s(i) nem K(r), a unidade de conversão de informações suplementares 2w converte X(r) em K(r) e s(i). É preferível que a unidade de conversão de informações suplementares 2w converta X(r) em K(r) e s(i), por exemplo, com uso de uma tabela predeterminada. É também preferível que a unidade de conversão de informações suplementares 2w transmita X(r) para cada envelope de SBR como um valor representativo. As tabelas para converter X(r) em K(r) e s(i) podem ser diferentes uma da outra.
(Modificação 3 da Primeira modalidade)
No dispositivo de decodificação de voz 21 da primeira modalida- de, a unidade de filtro de previsão linear 2k do dispositivo de decodificação de voz 21 pode incluir um processo de controle de ganho automático. O pro- cesso de controle de ganho automático é um processo para ajustar a força do sinal no domínio de QMF emitido a partir da unidade de filtro de previsão linear 2k para a força do sinal no domínio de QMF que é fornecido. Em geral, um sinal qsyn,pow (n, r) no domínio de QMF cujo ganho foi controlado é reali- zado pela seguinte expressão.
Figure img0029
Aqui, Po(r) e Pi(r) são expressos pela seguinte expressão (31) e a expressão (32).
Figure img0030
Executando o processo de controle de ganho automático, a força dos componentes de alta frequência do sinal emitido a partir da unidade de filtro de previsão linear 2k é ajustada em um valor equivalente àquele antes da filtragem de previsão linear. Como resultado, no sinal emitido da unidade de filtro de previsão linear 2k em que o envelope temporal dos componentes de alta frequência gerados com base em SBR é transformado, o efeito do ajuste da força do sinal de alta frequência realizado pela unidade de ajuste de alta frequência 2j pode ser mantido. O processo de controle de ganho automático pode ser também realizado individualmente em uma certa faixa de frequência do sinal no domínio de QMF. O processo realizado na faixa de frequência individual pode ser realizado limitando-se n na expressão (30), a expressão (31), e a expressão (32) dentro de uma certa faixa de frequência. Por exemplo, a i° faixa de frequência pode ser expressa como Fi<n<Fi+i (neste caso, i é um índice que indica o número de uma certa faixa de fre- quência do sinal no domínio de QMF). Fi indica o limite da faixa de frequên- cia, e é preferível que Fi seja uma tabela de limite de frequência de um fator de escala de envelope definido em SBR em "MPEG4 AAC". A tabela de limi- te de frequência é definida pela unidade de geração de alta frequência 2g com base na definição de SBR em "MPEG4 AAC". Realizando-se o proces- so de controle de ganho automático, a força do sinal emitido a partir da uni- dade de filtro de previsão linear 2k em uma certa faixa de frequência dos componentes de alta frequência é ajustada em um valor equivalente àquele antes da filtragem de previsão linear. Como resultado, o efeito para ajustar a força do sinal de alta frequência realizado pela unidade de ajuste de alta fre- quência 2j no sinal emitido a partir da unidade de filtro de previsão linear 2k em que o envelope temporal dos componentes de alta frequência gerados com base em SBR é transformado, é mantido por unidade de faixa de fre- quência. As alterações feitas na presente modificação 3 da primeira modali- dade podem também ser feitas na unidade de filtro de previsão linear 2k da quarta modalidade.
[Modificação 1 da Terceira modalidade]
A unidade de cálculo de parâmetro de formato de envelope 1n no dispositivo de codificação de voz 13 da terceira modalidade pode ser também realizada pelos seguintes processos. A unidade de cálculo de parâ- metro de formato de envelope 1 n obtém um parâmetro de formato de enve- lope s(i) (0<i<Ne) de acordo com a seguinte expressão (33) para cada enve- lope de SBR no quadro codificado.
Figure img0031
Nota-se que:
Figure img0032
é um valor médio de e(r) no envelope de SBR, e o método de cálculo é baseado na expressão (21). Nota-se que o envelope de SBR indica a faixa de tempo que satisfaz bj<r<bj+i. {bj} é a borda de tempo de envelope de SBR incluída nas informações suplementares de SBR como as informa- ções, e é o limite da faixa de tempo para a qual o fator de escala de envelo- pe de SBR que representa a energia de sinal média em uma certa faixa de tempo e uma certa faixa de frequência é dada, min (•) representa o valor mí- nimo dentro da faixa de bj<r<bj+i. Desta forma, neste caso, o parâmetro de formato de envelope s(i) é um parâmetro para indicar uma razão do valor mínimo para o valor médio no envelope de SBR das informações de envelo- pe temporal ajustadas. A unidade de ajuste de formato de envelope 2s no dispositivo de decodificação de voz 23 da terceira modalidade pode ser tam- bém realizada pelo seguinte processo. A unidade de ajuste de formato de envelope 2s ajusta e(r) com uso de s(i) para obter as informações de enve- lope temporal ajustadas eadj(r). O método de ajuste é baseado na seguinte expressão (35) ou expressão (36).
Figure img0033
A expressão 35 ajusta o formato do envelope de forma que a ra- zão do valor mínimo para o valor médio no envelope de envelope de SBR das informações de envelope temporal ajustadas eacij(r) se torne equivalente ao valor do parâmetro de formato de envelope s(i). As alterações feitas na modificação 1 da terceira modalidade descritas acima podem ser também feitas na quarta modalidade.
[Modificação 2 da Terceira modalidade]
A unidade de transformação de envelope temporal 2v pode tam- bém usar a seguinte expressão ao invés da expressão (28). Conforme indi- cado na expressão (37), eadj, Scaied(r) é obtido controlando-se o ganho das informações de envelope temporal ajustadas eadj(r), de forma que a força de qadj (k, r) e qenvadj (k,r) sejam equivalentes entre si no envelope de SBR. Con- forme indicado na expressão (38), na presente modificação 2 da terceira modalidade, qθnvadj (k, r) é obtido multiplicando-se eadj, scaied(r) ao invés de eadj(r) pelo sinal qadj (k, r) no domínio de QMF. Da mesma forma, a unidade de transformação de envelope temporal 2v pode transformar o envelope temporal do sinal qadj (k, r) no domínio de QMF, de forma que a força do sinal no envelope de SBR se torne equivalente antes e após a transformação do envelope temporal. Nota-se que o envelope de SBR indica a faixa de tempo que satisfaz bj<r<bj+i. {b} é a borda de tempo de envelope de SBR incluída nas informações suplementares de SBR como as informações, e é o limite da faixa de tempo para a qual o fator de escala de envelope de SBR que representa a energia de sinal média de uma certa faixa de tempo e uma cer- ta faixa de frequência é dada. A terminologia "envelope de SBR" nas modali- dades da presente invenção corresponde à terminologia "segmento de tem- po de envelope de SBR" em "MPEG4 AAC" definido em "ISO/IEC 14496-3", e o "envelope de SBR" tem os mesmo conteúdos que o "segmento de tempo de envelope de SBR" por todas as modalidades.
Figure img0034
As alterações feitas na presente modificação 2 a terceira moda- lidade descritas acima podem ser também feitas na quarta modalidade. (Modificação 3 da Terceira modalidade)
Figure img0035
Quando a expressão (39) e a expressão (40) são usadas, as in- formações de envelope temporal e(r) são informações em que a força de 10 cada amostra de sub-banda de QMF é normalizada pela força média no en- velope de SBR, e a raiz quadrada é extraída. No entanto, a amostra de sub- banda de QMF é um vetor de sinal que corresponde ao índice de tempo "r" que é o mesmo no domínio de QMF sinal, e é uma sub-amostra no domínio de QMF. Em todas as modalidades da presente invenção, a terminologia "abertura de tempo" tem os mesmos conteúdos que a "amostra de sub- banda de QMF". Neste caso, as informações de envelope temporal e(r) são um coeficiente de ganho que deve ser multiplicado por cada amostra de sub- banda de QMF, e o mesmo se aplica às informações de envelope temporal ajustadas eacij(r).
(Modificação 1 da Quarta modalidade)
Um dispositivo de decodificação de voz 24a (não ilustrado) de uma modificação 1 da quarta modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de decodificação de voz 24a carregando e executando um programa de computador predetermi- nado armazenado em uma memória interna do dispositivo de decodificação de voz 24a tal como a ROM na RAM. O dispositivo de comunicação do dis- positivo de decodificação de voz 24a recebe o fluxo de bit multiplexado codi- ficado emitido a partir do dispositivo de codificação de voz 11 ou do disposi- tivo de codificação de voz 13, e emite um sinal de voz decodificado para fora do dispositivo de decodificação de voz 24a. O dispositivo de decodificação de voz 24a funcionalmente inclui uma unidade de separação de fluxo de bit 2a4 (não ilustrado) ao invés da unidade de separação de fluxo de bit 2a3 do dispositivo de decodificação de voz 24, e também inclui a unidade de gera- ção de informações suplementares de envelope temporal 2y (não ilustrado), ao invés da unidade de conversão de informações suplementares 2w. A uni- dade de separação de fluxo de bit 2a4 separa o fluxo de bit multiplexado nas informações de SBR e o fluxo de bit codificado. A unidade de geração de informações suplementares de envelope temporal 2y gera informações su- plementares de envelope temporal com base nas informações incluídas no fluxo de bit codificado e as informações suplementares de SBR.
Para gerar as informações suplementares de envelope temporal em um certo envelope de SBR, por exemplo, a largura de tempo (bj+1—bj) do envelope de SBR, uma classe de quadro, um parâmetro de resistência do filtro inverso, a base de ruído, a amplitude da força de alta frequência, uma razão da força de alta frequência para a força de baixa frequência, um coefi- ciente de auto-correlação ou um ganho de previsão obtido como resultado de realizar a análise de previsão linear na direção de frequência em um sinal 5 de baixa frequência representado no domínio de QMF, e similares podem ser usados. As informações suplementares de envelope temporal podem ser geradas determinando K(r) ou s(i) com base em um ou uma pluralidade de valores dos parâmetros. Por exemplo, as informações suplementares de en- velope temporal podem ser geradas determinando K(r) ou s(i) com base em 10 (bi+i-bi) de forma que K(r) ou s(i) seja reduzido conforme a largura de tempo (bj+i-bj) do envelope de SBR é aumentada, ou K(r) ou s(i) seja aumentado conforme a largura de tempo (bj+i-bj) do envelope de SBR é aumentada. As alterações similares podem ser também feitas na primeira modalidade e na terceira modalidade. 15 (Modificação 2 da Quarta modalidade)
Um dispositivo de decodificação de voz 24b (vide a figura 15) de uma modificação 2 da quarta modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de decodificação de 20 voz 24b carregando e executando um programa de computador predetermi- nado armazenado em uma memória interna do dispositivo de decodificação de voz 24b tal como a ROM na RAM. O dispositivo de comunicação do dis- positivo de decodificação de voz 24b recebe o fluxo de bit multiplexado codi- ficado emitido a partir do dispositivo de codificação de voz 11 ou do disposi- 25 tivo de codificação de voz 13, e emite um sinal de voz decodificado para fora do dispositivo de decodificação de voz 24b. O dispositivo de decodificação de voz 24b, conforme ilustrado na figura 15, inclui uma unidade de ajuste de alta frequência primária 2j1 e uma unidade de ajuste de alta frequência se- cundária 2j2 ao invés da unidade de ajuste de alta frequência 2j. 30 Aqui, a unidade de ajuste de alta frequência primária 2j1 ajusta um sinal no domínio de QMF a banda de alta frequência realizando o ajuste, e a superposição de ruído, descrito na etapa de "ajuste de HF" em SBR em
"MPEG4 AAC". Neste momento, o sinal emitido da unidade de ajuste de alta frequência primária 2j1 corresponde a um sinal W2 na descrição em "ferra- menta de SBR" em "ISO/IEC 14496-3:2005", cláusulas 4.6.18.7.6 de "Sinais de HF de montagem". A unidade de filtro de previsão linear 2k (ou a unidade 5 de filtro de previsão linear 2k1) e a unidade de transformação de envelope temporal 2v transformam o envelope temporal do sinal emitido a partir da unidade de ajuste de alta frequência primária. A unidade de ajuste de alta frequência secundária 2j2 realiza um processo de adição de onda de seno na etapa de "ajuste de HF"em SBR em "MPEG4 AAC". O processo da uni- 10 dade de ajuste de alta frequência secundária corresponde a um processo para substituir o sinal W2 por um sinal emitido da unidade de transformação de envelope temporal 2v, em um processo para gerar um sinal Y a partir do sinal W2 na descrição em "ferramenta de SBR" em "ISO/IEC 14496-3:2005", cláusulas 4.6.18.7.6 de "Sinais de HF de montagem". 15 Na descrição acima, somente o processo para adicionar ondas de seno é realizado pela unidade de ajuste de alta frequência secundária 2j2. No entanto, qualquer um dos processos na etapa de “ajuste de HF” po- de ser realizado pela unidade de ajuste de alta frequência secundária 2j2. Modificações similares podem ser também feitas na primeira modalidade, na 20 segunda modalidade e na terceira modalidade. Neste momento, a unidade de filtro de previsão linear (unidades de filtro de previsão linear 2k e 2k1) é incluída na primeira modalidade e na segunda modalidade, mas a unidade de transformação de envelope temporal não é incluída. Da mesma forma, um sinal emitido a partir da unidade de ajuste de alta frequência primária 2j 1 25 é processado pela unidade de filtro de previsão linear, e então um sinal emi- tido a partir da unidade de filtro de previsão linear é processado pela unidade de ajuste de alta frequência secundária 2j2.
Na terceira modalidade, a unidade de transformação de envelo- pe temporal 2v está incluída, mas a unidade de filtro de previsão linear não 30 está incluída. Da mesma forma, um sinal emitido a partir da unidade de ajus- te de alta frequência primária 2j1 é processado pela unidade de transforma- ção de envelope temporal 2v, e então um sinal emitido a partir da unidade de transformação de envelope temporal 2v é processado pela unidade de ajuste de alta frequência secundária.
No dispositivo de decodificação de voz (dispositivo de decodifi- cação de voz 24, 24a, ou 24b) da quarta modalidade, a ordem de processa- mento da unidade de filtro de previsão linear 2k e da unidade de transforma- ção de envelope temporal 2v pode ser revertida. Em outras palavras, um sinal emitido a partir da unidade de ajuste de alta frequência 2j ou da unida- de de ajuste de alta frequência primária 2j1 pode ser processado primeiro pela unidade de transformação de envelope temporal 2v, e então um sinal emitido a partir da unidade de transformação de envelope temporal 2v pode ser processado pela unidade de filtro de previsão linear 2k.
Em adição, somente se as informações suplementares de enve- lope temporal incluir informações de controle binário para indicar se o pro- cesso é realizado pela unidade de filtro de previsão linear 2k ou pela unidade de transformação de envelope temporal 2v, e as informações de controle indicam para realizar o processo pela unidade de filtro de previsão linear 2k ou pela unidade de transformação de envelope temporal 2v, as informações suplementares de envelope temporal podem empregar uma forma que inclui ao menos um dentre o parâmetro de resistência de filtro K(r), o parâmetro de formato de envelope s(i), ou X(r) que é um parâmetro para determinar am- bos K(r) e s(i) como informações.
(Modificação 3 da Quarta modalidade)
Um dispositivo de decodificação de voz 24c (vide a figura 16) de uma modificação 3 da quarta modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de decodificação de voz 24c carregando e executando um programa de computador predetermi- nado (tal como um programa de computador para realizar os processos ilus- trados no fluxograma da figura 17) armazenado em uma memória interna do dispositivo de decodificação de voz 24c tal como a ROM na RAM. O disposi- tivo de comunicação do dispositivo de decodificação de voz 24c recebe o fluxo de bit multiplexado codificado e emite um sinal de voz decodificado pa- ra fora do dispositivo de decodificação de voz 24c. Conforme ilustrado na figura 16, o dispositivo de decodificação de voz 24c inclui uma unidade de ajuste de alta frequência primária 2j3 e uma unidade de ajuste de alta fre- quência secundária 2j4 ao invés da unidade de ajuste de alta frequência 2j, e também inclui unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 ao invés da unidade de filtro de previsão linear 2k e da unidade de transformação de envelope temporal 2v (as unidades de ajuste de com- ponente de sinal individual correspondem ao meio de transformação de en- velope temporal).
A unidade de ajuste de alta frequência primária 2j3 emite um si- nal no domínio de QMF da banda de alta frequência como um componente de sinal copiado. A unidade de ajuste de alta frequência primária 2j3 pode emitir um sinal em que ao menos um dentre a filtragem inversa de previsão linear na direção temporal e o ajuste de ganho (ajuste de características de frequência) é realizado no sinal no domínio de QMF da banda de alta fre- quência, com uso das informações suplementares de SBR recebidas a partir da unidade de separação de fluxo de bit 2a3, como um componente de sinal copiado. A unidade de ajuste de alta frequência primária 2j3 também gera um componente de sinal de ruído e um componente de sinal de onda de se- no com uso das informações suplementares de SBR fornecidas a partir da unidade de separação de fluxo de bit 2a3, e emite cada um dentre o compo- nente de sinal copiado, o componente de sinal de ruído, e o componente de sinal de onda de seno em uma forma separada (processo na Etapa Sg1). O componente de sinal de ruído e o componente de sinal de onda de seno po- dem não ser gerados, dependendo dos conteúdos das informações suple- mentares de SBR.
As unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 realizam o processamento em cada um na pluralidade de compo- nentes de sinal incluídos na saída da unidade de ajuste de alta frequência primária (processo na Etapa Sg2). O processo com as unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 pode ser filtragem de síntese de previsão linear na direção de frequência obtida a partir da unidade de a- juste de resistência de filtro 2f com uso do coeficiente de previsão linear, si- milar àquele da unidade de filtro de previsão linear 2k (processo 1). O pro- cesso com as unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 pode ser também um processo para multiplicar um coeficiente de ganho por cada amostra de sub-banda de QMF com uso do envelope tem- poral obtido a partir da unidade de ajuste de formato de envelope 2s, similar àquele da unidade de transformação de envelope temporal 2v (processo 2). O processo com as unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 podem ser também um processo para realizar a filtragem de síntese de previsão linear na direção de frequência no sinal de entrada com uso do coeficiente de previsão linear obtido a partir da unidade de ajuste de resistência de filtro 2f similar àquele da unidade de filtro de previsão linear 2k, e então multiplicar um coeficiente de ganho por cada amostra de sub- banda de QMF com uso do envelope temporal obtido a partir da unidade de ajuste de formato de envelope 2s, similar àquele da unidade de transforma- ção de envelope temporal 2v (processo 3). O processo com as unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 pode ser também um processo para multiplicar um coeficiente de ganho por cada amostra de sub-banda de QMF com relação ao sinal de entrada com uso do envelope temporal obtido a partir da unidade de ajuste de formato de envelope 2s, similar àquele da unidade de transformação de envelope temporal 2v, e en- tão realizar a filtragem de síntese de previsão linear na direção de frequência no sinal emitido com uso do coeficiente de previsão linear obtido a partir da unidade de ajuste de resistência de filtro 2f, similar àquele da unidade de filtro de previsão linear 2k (processo 4). As unidades de ajuste de componen- te de sinal individual 2z1, 2z2, e 2z3 podem não realizar o processo de transformação de envelope temporal no sinal de entrada, mas pode emitir o sinal de entrada como é (processo 5). O processo com as unidades de ajus- te de componente de sinal individual 2z1, 2z2, e 2z3 pode incluir qualquer processo para transformar o envelope temporal do sinal de entrada com uso de um método outro que os processos 1 a 5 (processo 6). O processo com as unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 po- de ser também um processo em que uma pluralidade de processos entre os processos 1 a 6 são combinados em uma ordem arbitrária (processo 7).
Os processos com as unidades de ajuste de componente de si- nal individual 2z1, 2z2, e 2z3 podem ser os mesmos, mas as unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 podem transformar o envelope temporal de cada componente da pluralidade de componentes de sinal incluídos na saída da unidade de ajuste de alta frequência primária por diferentes métodos. Por exemplo, diferentes processos podem ser reali- zados no sinal copiado, no sinal de ruído, e no sinal de onda de seno, de tal maneira que a unidade de ajuste de componente de sinal individual 2z1 rea- lize o processo 2 no sinal copiado fornecido, a unidade de ajuste de compo- nente de sinal individual 2z2 realize o processo 3 no componente de sinal de ruído fornecido, e a unidade de ajuste de componente de sinal individual 2z3 realize o processo 5 no sinal de onda de seno fornecido. Neste momento, a unidade de ajuste de resistência de filtro 2f e a unidade de ajuste de formato de envelope 2s podem transmitir o mesmo coeficiente de previsão linear e o envelope temporal para as unidades de ajuste de componente de sinal indi- vidual 2z1, 2z2, e 2z3, mas podem também transmitir diferentes coeficientes de previsão linear e os envelopes temporais. É também possível transmitir o mesmo coeficiente de previsão linear e o envelope temporal para ao menos duas as unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3. Devido ao fato de que ao menos um das unidades de ajuste de compo- nente de sinal individual 2z1, 2z2, e 2z3 podem não realizar o processo de transformação de envelope temporal, mas emitirem o sinal de entrada como este é (processo 5), as unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 realizam o processo de envelope temporal em ao menos um componente da pluralidade de componentes de sinal emitidos a partir da unidade de ajuste de alta frequência primária 2j3 como um todo (se todas as unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 reali- zarem o processo 5, o processo de transformação de envelope temporal não é realizado em qualquer um dos componentes de sinal, e os efeitos da pre- sente invenção não são exibidos).
Os processos realizados por cada uma das unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 podem ser fixados em um dentre o processo 1 ao processo 7, mas podem ser dinamicamente determi- nado para realizar um dentre o processo 1 ao processo 7 com base nas in- formações de controle recebidas de fora do dispositivo de decodificação de voz 24c. Neste momento, é preferível que as informações de controle este- jam incluídas no fluxo de bit multiplexado. As informações de controle podem ser uma instrução para realizar qualquer um dentre o processo 1 ao proces- so 7 em um segmento de tempo de envelope de SBR específico, o quadro codificado, ou na outra faixa de tempo, ou podem ser uma instrução para realizar qualquer um dentre o processo 1 ao processo 7 sem especificar a faixa de tempo de controle.
A unidade de ajuste de alta frequência secundária 2j4 adiciona os componentes de sinal processados emitidos a partir das unidades de a- juste de componente de sinal individual 2z1, 2z2, e 2z3, e emite o resultado para a unidade de adição de coeficiente (processo na Etapa Sg3). A unidade de ajuste de alta frequência secundária 2j4 pode realizar ao menos um den- tre a filtragem inversa de previsão linear na direção temporal e ajuste de ga- nho (ajuste de característica de frequência) no componente de sinal copiado, com uso das informações suplementares de SBR recebidas a partir da uni- dade de separação de fluxo de bit 2a3.
As unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 podem operar em cooperação entre si, e gerar um sinal omitido em um estágio intermediário adicionando ao menos dois componentes de sinal em que qualquer um dos processos 1 a 7 é realizado, e ainda realizar qualquer um dos processos 1 a 7 no sinal adicionado. Neste momento, a unidade de ajuste de alta frequência secundária 2j4 adiciona o sinal emitido no estágio intermediário e um componente de sinal que não foi ainda adicio- nado ao sinal emitido no estágio intermediário, e emite o resultado para a unidade de adição de coeficiente. Mais especificamente, é preferível gerar um sinal emitido no estágio intermediário realizando o processo 5 no com- ponente de sinal copiado, aplicando o processo 1 no componente de ruído, adicionando dois componentes de sinal, e ainda aplicando o processo 2 no sinal adicionado. Neste momento, a unidade de ajuste de alta frequência secundária 2j4 adiciona o componente de sinal de onda de seno ao sinal emitido no estágio intermediário, e emite o resultado para a unidade de adi- ção de coeficiente.
A unidade de ajuste de alta frequência primária 2j3 pode emitir qualquer um de uma pluralidade de componentes de sinal em uma forma separada entre si em adição aos três componentes de sinal do componente de sinal copiado, do componente de sinal de ruído, e do componente de si- nal de onda de seno. Neste caso, o componente de sinal pode ser obtido adicionando-se ao menos dois dentre o componente de sinal copiado, o componente de sinal de ruído, e o componente de sinal de onda de seno. O componente de sinal pode ser também um sinal obtido dividindo-se a banda de um dentre o componente de sinal copiado, o componente de sinal de ruí- do, e o sinal de onda de seno. O número de componentes de sinal pode ser outro que não três, e neste caso, o número das unidades de ajuste de com- ponente de sinal individual pode ser outro que não três.
O sinal de alta frequência gerado por SBR é formado de três e- lementos do componente de sinal copiado obtido copiando da banda de bai- xa frequência para a banda de alta frequência, o sinal de ruído, e o sinal de onda de seno. Devido ao fato de que o sinal copiado, o sinal de ruído, e o sinal de onda de seno têm os envelopes temporais diferentes entre si, se o envelope temporal de cada um dos componentes de sinal for transformado com uso dos métodos diferentes como as unidades de ajuste de componen- te de sinal individual da presente modificação, é possível melhorar ainda mais a qualidade subjetiva do sinal decodificado comparado com as outras modalidades da presente invenção. Em particular, devido ao fato de que o sinal de ruído de forma geral tem um envelope temporal suave, e o sinal co- piado tem um envelope temporal próximo àquele do sinal na banda de baixa frequência, os envelopes temporais do sinal copiado e o sinal de ruído po- dem ser independentemente controlados, tratando-os separadamente e apli- cando diferentes processos a estes. Da mesma forma, é efetivo em melhorar a qualidade subjetiva do sinal decodificado. Mais especificamente, é preferí- vel realizar um processo para transformar o envelope temporal no sinal de ruído (processo 3 ou processo 4), realizar um processo diferente daquele para o sinal de ruído no sinal copiado (processo 1 ou processo 2), e realizar o processo 5 no sinal de onda de seno (em outras palavras, o processo de transformação de envelope temporal não é realizado). É também preferível realizar um processo de transformação (processo 3 ou processo 4) do enve- lope temporal no sinal de ruído, e realizar o processo 5 no sinal copiado e o sinal de onda de seno (em outras palavras, o processo de transformação de envelope temporal não é realizado).
(Modificação 4 da Primeira modalidade)
Um dispositivo de codificação de voz 11b (figura 44) de uma modificação 4 da primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de codificação de voz 11b carregando e executando um programa de computador predetermi- nado armazenado em uma memória interna do dispositivo de codificação de voz 11b tal como a ROM na RAM. O dispositivo de comunicação do disposi- tivo de codificação de voz 11b recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz 11b, e emite um fluxo de bit multi- plexado codificado para fora do dispositivo de codificação de voz 11b. The dispositivo de codificação de voz 11b includes a unidade de análise de previ- são linear 1e1 ao invés da unidade de análise de previsão linear 1e do dis- positivo de codificação de voz 11, e ainda inclui uma unidade de seleção de abertura de tempo 1p.
A unidade de seleção de abertura de tempo 1p recebe um sinal no domínio de QMF a partir da unidade de conversão de frequência 1a e seleciona uma abertura de tempo na qual a análise de previsão linear pela unidade de análise de previsão linear 1e1 é realizada. A unidade de análise de previsão linear 1e1 realiza a análise de previsão linear no sinal de domí- nio de QMF na abertura de tempo selecionada como a unidade de análise de previsão linear 1e, com base no resultado de seleção transmitido a partir da unidade de seleção de abertura de tempo 1 p, para obter ao menos um dentre o coeficiente de previsão linear de alta frequência e o coeficiente de previsão linear de baixa frequência. A unidade de cálculo de parâmetro de resistência de filtro 1f calcula um parâmetro de resistência de filtro com uso de um coeficiente de previsão linear da abertura de tempo selecionado pela unidade de seleção de abertura de tempo 1 p, obtido pela unidade de análise de previsão linear 1e1. Para selecionar uma abertura de tempo pela unidade de seleção de abertura de tempo 1 p, por exemplo, ao menos um dos méto- dos de seleção com uso da força de sinal do sinal de domínio de QMF dos componentes de alta frequência, similares àqueles de uma unidade de sele- ção de abertura de tempo 3a em um dispositivo de decodificação 21a da presente modificação, que será descrito a diante, pode ser usado. Neste momento, é preferível que o sinal de domínio de QMF dos componentes de alta frequência na unidade de seleção de abertura de tempo 1p seja um componente de frequência codificado pela unidade de codificação de SBR 1d, entre os sinais no domínio de QMF recebido a partir da unidade de con- versão de frequência 1a. O método de seleção de abertura de tempo pode ser ao menos um dos métodos descritos acima, pode incluir ao menos um método diferente aqueles descritos acima, ou pode ser a combinação dos mesmos.
Um dispositivo de decodificação de voz 21a (vide a figura 18) da modificação 4 da primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de decodificação de voz 21a carregando e executando um programa de computador predetermi- nado (tal como um programa de computador para realizar os processos ilus- trados no fluxograma da figura 19) armazenado em uma memória interna do dispositivo de decodificação de voz 21a tal como a ROM na RAM. O disposi- tivo de comunicação do dispositivo de decodificação de voz 21a recebe o fluxo de bit multiplexado codificado e emite um sinal de voz decodificado pa- ra fora do dispositivo de decodificação de voz 21a. O dispositivo de decodifi- cação de voz 21a, conforme ilustrado na figura 18, inclui uma unidade de análise de previsão linear de baixa frequência 2d1, uma unidade de detec- ção de sinal 2e1, uma unidade de análise de previsão linear de alta frequên- cia 2h1, uma unidade de filtro inverso de previsão linear 2i1, e uma unidade de filtro de previsão linear 2k3 ao invés da unidade de análise de previsão linear de baixa frequência 2d, da unidade de detecção de sinal 2e, da unida- de de análise de previsão linear de alta frequência 2h, da unidade de filtro inverso de previsão linear 2i, e a unidade de filtro de previsão linear 2k do dispositivo de decodificação de voz 21, e ainda inclui a unidade de seleção de abertura de tempo 3a.
A unidade de seleção de abertura de tempo 3a determina se a filtragem de síntese de previsão linear na unidade de filtro de previsão linear 2k deve ser realizada no sinal qeXp (k, r) no domínio de QMF dos componen- tes de alta frequência da abertura de tempo r gerados pela unidade de gera- ção de alta frequência 2g, e seleciona uma abertura de tempo em que a fil- tragem de síntese de previsão linear é realizada (processo na Etapa Sh1). A unidade de seleção de abertura de tempo 3a notifica, do resultado de sele- ção da abertura de tempo, a unidade de análise de previsão linear de baixa frequência 2d1, a unidade de detecção de sinal 2e1, a unidade de análise de previsão linear de alta frequência 2h 1, a unidade de filtro inverso de previsão linear 2i1, e a unidade de filtro de previsão linear 2k3. A unidade de análise de previsão linear de baixa frequência 2d1 realiza a análise de previsão line- ar no sinal de domínio de QMF na abertura de tempo selecionada r1, da mesma maneira que a unidade de análise de previsão linear de baixa fre- quência 2d, com base no resultado de seleção transmitido a partir da unida- de de seleção de abertura de tempo 3a, para obter um coeficiente de previ- são linear de baixa frequência (processo na Etapa Sh2). A unidade de detec- ção de sinal 2e1 detecta a variação temporal no sinal de domínio de QMF na abertura de tempo selecionada, como a unidade de detecção de sinal 2e, com base no resultado de seleção transmitido a partir da unidade de seleção de abertura de tempo 3a, e emite um resultado de detecção T (r1).
A unidade de ajuste de resistência de filtro 2f realiza o ajuste de resistência de filtro no coeficiente de previsão linear de baixa frequência da abertura de tempo selecionada pela unidade de seleção de abertura de tem- po 3a obtida pela unidade de análise de previsão linear de baixa frequência 2d1, para obter um coeficiente de previsão linear ajustado adec(n, r1). A uni- dade de análise de previsão linear de alta frequência 2h1 realiza a análise de previsão linear na direção de frequência no sinal de domínio de QMF dos componentes de alta frequência gerados pela unidade de geração de alta frequência 2g para a abertura de tempo selecionada r1, com base no resul- tado de seleção transmitido a partir da unidade de seleção de abertura de tempo 3a, como a unidade de análise de previsão linear de alta frequência 2h, para obter um coeficiente de previsão linear de alta frequência aexp (n, r1) (processo na Etapa Sh3). A unidade de filtro inverso de previsão linear 2i1 realiza a filtragem inversa de previsão linear, em que aexp (n, r1) é um coefi- ciente, na direção de frequência no sinal qexp (k, r) no domínio de QMF dos componentes de alta frequência da abertura de tempo selecionada r1, como a unidade de filtro inverso de previsão linear 2i, com base no resultado de seleção transmitido a partir da unidade de seleção de abertura de tempo 3a (processo na Etapa Sh4).
A unidade de filtro de previsão linear 2k3 realiza a filtragem de síntese de previsão linear na direção de frequência em um sinal qadj(k, r1) no domínio de QMF dos componentes de alta frequência emitidos a partir da unidade de ajuste de alta frequência 2j na abertura de tempo selecionada r1 com uso de aacij (n, r1) obtido a partir da unidade de ajuste de resistência de filtro 2f, como a unidade de filtro de previsão linear 2k, com base no resulta- do de seleção transmitido a partir da unidade de seleção de abertura de tempo 3a (processo na Etapa Sh5). As alterações feitas na unidade de filtro de previsão linear 2k descrita na modificação 3 podem ser também feitas na unidade de filtro de previsão linear 2k3. Para selecionar uma abertura de tempo em que a filtragem de síntese de previsão linear é realizada, por e- xemplo, a unidade de seleção de abertura de tempo 3a pode selecionar ao menos uma abertura de tempo r em que a força de sinal do sinal de domínio de QMF qexp (k, r) dos componentes de alta frequência é maior que um valor predeterminado Pexp,Th. E preferível calcular a força de sinal de qexp(k,r) de acordo com a seguinte expressão.
Figure img0036
em que M é um valor que representa uma faixa de frequência mais alta que uma frequência limite inferior kx dos componentes de alta frequência gerados pela unidade de geração de alta frequência 2g, e a faixa de frequência dos componentes de alta frequência gerados pela unidade de geração de alta frequência 2g pode ser representada como kx<k<kx+M. O valor predetermi- nado Pexp,Th pode ser também um valor médio de uma largura de tempo pre- determinada Pexp(r) incluindo a abertura de tempo r. A largura de tempo pre- determinada pode ser também o envelope de SBR.
A seleção pode ser também feita de forma a incluir uma abertura de tempo em que a força de sinal do sinal de domínio de QMF dos compo- nentes de alta frequência alcance seu pico. A força de sinal de pico pode ser calculada, por exemplo, com uso de um valor de média em movimento:
Figure img0037
da força de sinal, e a força de sinal de pico pode ser a força de sinal no do- mínio de QMF dos componentes de alta frequência da abertura de tempo r em que o resultado de:
Figure img0038
altera do valor positivo para o valor negativo. O valor de média em movimen- to da força de sinal,
Figure img0039
por exemplo, pode ser calculada pela seguinte expressão.
Figure img0040
em que c é um valor predeterminado para definir uma faixa para calcular o valor médio. A força de sinal de pico pode ser calculada pelo mé- todo descrito acima, ou pode ser calculada por um método diferente.
Ao menos uma abertura de tempo pode ser selecionada a partir das aberturas de tempo incluídas em uma largura de tempo t durante a qual a força de sinal do sinal de domínio de QMF dos componentes de alta fre- quência é alterada de um estado estável com uma pequena variação para um estado transiente com uma grande variação, e que são menores que um valor predeterminado tth. Ao menos uma abertura de tempo pode ser tam- bém selecionada de aberturas de tempo incluídas em uma largura de tempo t durante a qual a força de sinal do sinal de domínio de QMF dos componen- tes de alta frequência é alterada de um estado transiente com uma grande variação para um estado estável com uma pequena variação, e que são maiores que o valor predeterminado tth. A abertura de tempo r em que |Pexp(r+1)-Pexp(r)| é menor que um valor predeterminado (ou igual ou menor que um valor predeterminado) pode ser o estado estável, e a abertura de tempo r em que |Pexp(r+1)-PeXp(r)l θ igual ou maior que um valor predetermi- nado (ou maior que um valor predeterminado) pode ser o estado transiente. A abertura de tempo r em que |Pexp,iviA(r+1)-Pexp,MA(r)| é menor que um valor predeterminado (ou igual ou menor que um valor predeterminado) pode ser o estado estável, e a abertura de tempo r em que |Pexp,MA(r+1)-Pexp,MA(r)| θ igual ou maior que um valor predeterminado (ou maior que um valor prede- terminado) pode ser o estado transiente. O estado transiente e o estado es- tável podem ser definidos com uso do método descrito acima, ou podem ser definidos com uso de diferentes métodos. O método de seleção de abertura de tempo pode ser ao menos um dos métodos descritos acima, pode incluir ao menos um método diferente daqueles descritos acima, ou pode ser a combinação dos mesmos.
(Modificação 5 da Primeira modalidade)
Um dispositivo de codificação de voz 11c (figura 45) de uma mo- dificação 5 da primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo de codificação de voz 11c carregando e executando um programa de computador predeterminado ar- mazenado em uma memória interna do dispositivo de codificação de voz 11c tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de codificação de voz 11c recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz 11c, e emite um fluxo de bit multiplexado codificado para fora do dispositivo de codificação de voz 11c. O dispositivo de codificação de voz 11c inclui uma unidade de seleção de abertura de tempo 1 p1 e uma unidade de multiplexação de fluxo de bit 1g4, ao invés da unidade de seleção de abertura de tempo 1p e da unidade de multiplexação de fluxo de bit 1g do dispositivo de codificação de voz 11b da modificação 4.
A unidade de seleção de abertura de tempo 1 p1 seleciona uma abertura de tempo como a unidade de seleção de abertura de tempo 1p descrita na modificação 4 da primeira modalidade, e transmite informações de seleção de tempo de abertura para a unidade de multiplexação de fluxo de bit 1g4. A unidade de multiplexação de fluxo de bit 1g4 multiplexa o fluxo de bit codificado calculado pela unidade de codificação de codec central 1c, as informações suplementares de SBR calculadas pela unidade de codifica- ção de SBR 1 d, e o parâmetro de resistência de filtro calculado pela unidade de cálculo de parâmetro de resistência de filtro 1f como a unidade de multi- plexação de fluxo de bit 1g, também multiplexa as informações de seleção de tempo de abertura recebidas a partir da unidade de seleção de abertura de tempo 1p1, e emite o fluxo de bit multiplexado através do dispositivo de comunicação do dispositivo de codificação de voz 11c. As informações de seleção de tempo de abertura são informações de seleção de tempo de a- bertura recebidas por uma unidade de seleção de abertura de tempo 3a1 em um dispositivo de decodificação de voz 21b, que será descrito adiante, e, por exemplo, um índice r1 de uma abertura de tempo a ser selecionada pode ser incluído. As informações de seleção de tempo de abertura podem ser tam- bém um método de seleção de parâmetro usado na abertura de tempo da unidade de seleção de abertura de tempo 3a1. O dispositivo de decodifica- ção de voz 21b (vide a figura 20) da modificação 5 da primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comu- nicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de decodificação de voz 21b carregando e executando um pro- grama de computador predeterminado (tal como um programa de computa- dor para realizar os processos ilustrados no fluxograma a figura 21) armaze- nado em uma memória interna do dispositivo de decodificação de voz 21b tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de de- codificação de voz 21b recebe o fluxo de bit multiplexado codificado e emite um sinal de voz decodificado para fora do dispositivo de decodificação de voz 21b.
O dispositivo de decodificação de voz 21b, conforme ilustrado na figura 20, inclui uma unidade de separação de fluxo de bit 2a5 e a unidade de seleção de abertura de tempo 3a1 ao invés da unidade de separação de fluxo de bit 2a e da unidade de seleção de abertura de tempo 3a do disposi- tivo de decodificação de voz 21a da modificação 4, e as informações de se- leção de tempo de abertura são fornecidas para a unidade de seleção de abertura de tempo 3a1. A unidade de separação de fluxo de bit 2a5 separa o fluxo de bit multiplexado no parâmetro de resistência de filtro, as informa- ções suplementares de SBR, e o fluxo de bit codificado como a unidade de separação de fluxo de bit 2a, e ainda separa as informações de seleção de tempo de abertura. A unidade de seleção de abertura de tempo 3a1 selecio- na uma abertura de tempo com base nas informações de seleção de tempo de abertura transmitidas a partir da unidade de separação de fluxo de bit 2a5 (processo na Etapa Si1). As informações de seleção de tempo de abertura são informações usadas para selecionar uma abertura de tempo, e, por e- xemplo, pode incluir o índice r1 da abertura de tempo a ser selecionada. As informações de seleção de tempo de abertura podem ser também um parâ- metro, por exemplo, usado no método de seleção de abertura de tempo na modificação 4. Neste caso, embora não ilustrado, o sinal de domínio de QMF dos componentes de alta frequência gerados pela unidade de geração de alta frequência 2g pode ser fornecido para a unidade de seleção de abertura de tempo 3a1, em adição às informações de seleção de tempo de abertura. O parâmetro pode ser também um valor predeterminado (tal como PeXpiTh θ tTh) usado para selecionar a abertura de tempo.
(Modificação 6 da Primeira modalidade)
Um dispositivo de codificação de voz 11d (não ilustrado) de uma modificação 6 da primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de codificação de voz 11 d carregando e executando um programa de computador predetermi- nado armazenado em uma memória interna do dispositivo de codificação de voz 11 d tal como a ROM na RAM. O dispositivo de comunicação do disposi- tivo de codificação de voz 11 d recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz 11d, e emite um fluxo de bit multi- plexado codificado para fora do dispositivo de codificação de voz 11 d. O dis- positivo de codificação de voz 11 d inclui uma unidade de cálculo de força de período curto 1 i1, que não é ilustrada, ao invés da unidade de cálculo de força de período curto 1i do dispositivo de codificação de voz 11a da modifi- cação 1, e ainda inclui uma unidade de seleção de abertura de tempo 1p2.
A unidade de seleção de abertura de tempo 1p2 recebe um sinal no domínio de QMF a partir da unidade de conversão de frequência 1a, e seleciona uma abertura de tempo que corresponde à seção de tempo em que o processo de cálculo de força de período curto é realizado pela unidade de cálculo de força de período curto 1i. A unidade de cálculo de força de pe- ríodo curto 1 i1 calcula a força de período curto de uma seção de tempo que corresponde à abertura de tempo selecionada com base no resultado de seleção transmitido a partir da unidade de seleção de abertura de tempo 1p2, como a unidade de cálculo de força de período curto 1i do dispositivo de codificação de voz 11a da modificação 1.
(Modificação 7 da Primeira modalidade)
Um dispositivo de codificação de voz 11e (não ilustrado) de uma modificação 7 a primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, u a dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo de codificação de voz 11e carregando e executando um programa de computador predeterminado ar- mazenado em uma memória interna do dispositivo de codificação de voz 11e tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de codificação de voz 11e recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz 11e, e emite um fluxo de bit multiplexado codificado para fora do dispositivo de codificação de voz 11e. O dispositivo de codificação de voz 11 e inclui uma unidade de seleção de abertura de tempo 1 p3, que não é ilustrada, ao invés da unidade de seleção de abertura de tempo 1p2 do dispositivo de codificação de voz 11d da modificação 6. O dispositivo de codificação de voz 11e também inclui uma unidade de multi- plexação de fluxo de bit que ainda recebe uma saída da unidade de seleção de abertura de tempo 1 p3, ao invés da unidade de multiplexação de fluxo de bit 1 g 1. A unidade de seleção de abertura de tempo 1p3 seleciona uma aber- tura de tempo como a unidade de seleção de abertura de tempo 1p2 descrita na modificação 6 da primeira modalidade, e transmite as informações de seleção de tempo de abertura para a unidade de multiplexação de fluxo de bit.
(Modificação 8 da Primeira modalidade)
Um dispositivo de codificação de voz (não ilustrado) de uma mo- dificação 8 da primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo de codificação de voz da modificação 8 carregando e executando um programa de computador prede- terminado armazenado em uma memória interna do dispositivo de codifica- ção de voz da modificação 8 tal como a ROM na RAM. O dispositivo de co- municação do dispositivo de codificação de voz da modificação 8 recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz, e emite um fluxo de bit multiplexado codificado para fora do dispositivo de co- dificação de voz. O dispositivo de codificação de voz da modificação 8 ainda inclui a unidade de seleção de abertura de tempo 1p em adição àquelas do dispositivo de codificação de voz descrito na modificação 2.
Um dispositivo de decodificação de voz (não ilustrado) da modi- ficação 8 da primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo de decodificação de voz da modificação 8 carregando e executando um programa de computador predeterminado armazenado em uma memória interna do dispositivo de de- codificação de voz da modificação 8 tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de decodificação de voz da modificação 8 recebe o fluxo de bit multiplexado codificado, e emite um sinal de voz deco- dificado para fora do dispositivo de decodificação de voz. O dispositivo de decodificação de voz da modificação 8 ainda inclui a unidade de análise de previsão linear de baixa frequência 2d1, a unidade de detecção de sinal 2e1, a unidade de análise de previsão linear de alta frequência 2h1, a unidade de filtro inverso de previsão linear 2i1, e a unidade de filtro de previsão linear 2k3, ao invés da unidade de análise de previsão linear de baixa frequência 2d, da unidade de detecção de sinal 2e, da unidade de análise de previsão linear de alta frequência 2h, da unidade de filtro inverso de previsão linear 2i, e da unidade de filtro de previsão linear 2k do dispositivo de decodificação de voz descrito na modificação 2, e ainda inclui a unidade de seleção de a- bertura de tempo 3a.
(Modificação 9 da Primeira modalidade)
Um dispositivo de codificação de voz (não ilustrado) de uma mo- dificação 9 da primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo de codificação de voz da modificação 9 carregando e executando um programa de computador prede- terminado armazenado em uma memória interna do dispositivo de codifica- ção de voz da modificação 9 tal como a ROM na RAM. O dispositivo de co- municação do dispositivo de codificação de voz da modificação 9 recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz, e emite um fluxo de bit multiplexado codificado para fora do dispositivo de co- dificação de voz. O dispositivo de codificação de voz da modificação 9 inclui a unidade de seleção de abertura de tempo 1 p1 ao invés da unidade de se- leção de abertura de tempo 1p do dispositivo de codificação de voz descrito na modificação 8. O dispositivo de codificação de voz da modificação 9 ain- da inclui uma unidade de multiplexação de fluxo de bit que recebe uma saída da unidade de seleção de abertura de tempo 1p1 em adição para entrada fornecida para a unidade de multiplexação de fluxo de bit descrita na modifi- cação 8, ao invés da unidade de multiplexação de fluxo de bit descrita na modificação 8.
Um dispositivo de decodificação de voz (não ilustrado) da modi- ficação 9 da primeira modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo de decodificação de voz da modificação 9 carregando e executando um programa de computador predeterminado armazenado em uma memória interna do dispositivo de de- codificação de voz da modificação 9 tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de decodificação de voz da modificação 9 recebe o fluxo de bit multiplexado codificado, e emite um sinal de voz deco- dificado para fora do dispositivo de decodificação de voz. O dispositivo de decodificação de voz da modificação 9 inclui a unidade de seleção de aber- tura de tempo 3a1 ao invés da unidade de seleção de abertura de tempo 3a do dispositivo de decodificação de voz descrito na modificação 8. O disposi- tivo de decodificação de voz da modificação 9 ainda inclui uma unidade de separação de fluxo de bit que separa ao (n, r) descrito na modificação 2 ao invés do parâmetro de resistência de filtro da unidade de separação de fluxo de bit 2a5, ao invés da unidade de separação de fluxo de bit 2a.
(Modificação 1 da Segunda modalidade)
Um dispositivo de codificação de voz 12a (figura 46) de uma modificação 1 da segunda modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de codificação de voz 12a carregando e executando um programa de computador predetermi- nado armazenado em uma memória interna do dispositivo de codificação de voz 12a tal como a ROM na RAM. O dispositivo de comunicação do disposi- tivo de codificação de voz 12a recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz 12a, e emite um fluxo de bit multi- plexado codificado para fora do dispositivo de codificação de voz 12a.. O dispositivo de codificação de voz 12a inclui a unidade de análise de previsão linear 1e1 ao invés da unidade de análise de previsão linear 1e do dispositi- vo de codificação de voz 12, e ainda inclui a unidade de seleção de abertura de tempo 1p.
Um dispositivo de decodificação de voz 22a (vide a figura 22) da modificação 1 da segunda modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de decodificação de voz 22a carregando e executando um programa de computador predetermi- nado (tal como um programa de computador para realizar os processos ilus- trados no fluxograma da figura 23) armazenado em uma memória interna do dispositivo de decodificação de voz 22a tal como a ROM na RAM. O disposi- tivo de comunicação do dispositivo de decodificação de voz 22a recebe o fluxo de bit multiplexado codificado, e emite um sinal de voz decodificado para fora do dispositivo de decodificação de voz 22a. O dispositivo de deco- dificação de voz 22a, conforme ilustrado na figura 22, inclui a unidade de análise de previsão linear de alta frequência 2h1, a unidade de filtro inverso de previsão linear 2i1, uma unidade de filtro de previsão linear 2k2, e uma unidade de interpolação/extrapolação de previsão linear 2p1, ao invés da unidade de análise de previsão linear de alta frequência 2h, a unidade de filtro inverso de previsão linear 2i, a unidade de filtro de previsão linear 2k1, e a unidade de interpolação/extrapolação de previsão linear 2p do dispositivo de decodificação de voz 22 da segunda modalidade, e ainda inclui a unidade de seleção de abertura de tempo 3a.
A unidade de seleção de abertura de tempo 3a notifica, do resul- tado de seleção da abertura de tempo, a unidade de análise de previsão li- near de alta frequência 2h1a a unidade de filtro inverso de previsão linear 2i1, a unidade de filtro de previsão linear 2k2, e a unidade de interpola- ção/extrapolação de coeficiente de previsão linear 2p1. A unidade de interpo- lação/extrapolação de coeficiente de previsão linear 2p1 obtém an (n, r) que corresponde à abertura de tempo r1 que é a abertura de tempo selecionada e para a qual um coeficiente de previsão linear não é transmitido por interpo- lação ou extrapolação, como a unidade de interpolação/extrapolação de coe- ficiente de previsão linear 2p, com base no resultado de seleção transmitido a partir da unidade de seleção de abertura de tempo 3a (processo na Etapa Sj1). A unidade de filtro de previsão linear 2k2 realiza a filtragem de síntese de previsão linear na direção de frequência em qadJ (n, r1) emitido a partir da unidade de ajuste de alta frequência 2j para a abertura de tempo seleciona- da r1 com uso de an (n, r1) que é interpolado ou extrapolado e obtido a partir da unidade de interpolação/extrapolação de coeficiente de previsão linear 2p1, como a unidade de filtro de previsão linear 2k1 (processo na Etapa Sj2), com base no resultado de seleção transmitido a partir da unidade de seleção de abertura de tempo 3a. As alterações feitas na unidade de filtro de previ- são linear 2k descrita na modificação 3 da primeira modalidade podem ser também feitas na unidade de filtro de previsão linear 2k2.
(Modificação 2 da Segunda modalidade)
Um dispositivo de codificação de voz 12b (figura 47) de uma modificação 2 da segunda modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de codificação de voz 11b carregando e executando um programa de computador predetermi- nado armazenado em uma memória interna do dispositivo de codificação de voz 12b tal como a ROM na RAM. O dispositivo de comunicação do disposi- tivo de codificação de voz 12b recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz 12b, e emite um fluxo de bit multi- plexado codificado para fora do dispositivo de codificação de voz 12b. O dis- positivo de codificação de voz 12b inclui a unidade de seleção de abertura de tempo 1 p1 e uma unidade de multiplexação de fluxo de bit 1g5 ao invés da unidade de seleção de abertura de tempo 1p e da unidade de multiplexa- ção de fluxo de bit 1g2 do dispositivo de codificação de voz 12a da modifica- ção 1. A unidade de multiplexação de fluxo de bit 1g5 multiplexa o fluxo de bit codificado calculado pela unidade de codificação de codec central 1c, as informações suplementares de SBR calculadas pela unidade de codificação de SBR 1 d, e um índice da abertura de tempo que corresponde ao coeficien- te de previsão linear quantizado recebido a partir da unidade de quantização de coeficiente de previsão 1k como a unidade de multiplexação de fluxo de bit 1g2, ainda multiplexa as informações de seleção de tempo de abertura recebidas a partir da unidade de seleção de abertura de tempo 1p1, e emite o fluxo de bit multiplexado através do dispositivo de comunicação do disposi- tivo de codificação de voz 12b.
Um dispositivo de decodificação de voz 22b (vide a figura 24) da modificação 2 da segunda modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de decodificação de voz 22b carregando e executando um programa de computador predetermi- nado (tal como um programa de computador para realizar os processos ilus- trados no fluxograma da figura 25) armazenado em uma memória interna do dispositivo de decodificação de voz 22b tal como a ROM na RAM. O disposi- tivo de comunicação do dispositivo de decodificação de voz 22b recebe o fluxo de bit multiplexado codificado, e emite um sinal de voz decodificado para fora do dispositivo de decodificação de voz 22b. O dispositivo de deco- dificação de voz 22b, conforme ilustrado na figura 24, inclui uma unidade de separação de fluxo de bit 2a6 e a unidade de seleção de abertura de tempo 3a1 ao invés da unidade de separação de fluxo de bit 2a1 e da unidade de seleção de abertura de tempo 3a do dispositivo de decodificação de voz 22a descrito na modificação 1, e as informações de seleção de tempo de abertu- ra são fornecidas para a unidade de seleção de abertura de tempo 3a1. A unidade de separação de fluxo de bit 2a6 separa o fluxo de bit multiplexado em aH (n, n) que é quantizado, o índice n da abertura de tempo correspon- dente, as informações suplementares de SBR, e o fluxo de bit codificado como a unidade de separação de fluxo de bit 2a1, e ainda separa as infor- mações de seleção de tempo de abertura. (Modificação 4 da Terceira modalidade)
Figure img0041
descrita na modificação 1 da terceira modalidade pode ser um valor médio de e (r) no envelope de SBR, ou pode ser um valor definido de alguma outra maneira.
(Modificação 5 da Terceira modalidade)
Conforme descrito na modificação 3 da terceira modalidade, é preferível que a unidade de ajuste de formato de envelope 2s controle eadj(r) com uso de um valor predeterminado eaCij,Th(r), considerando-se que o enve- lope temporal ajustado eacij(r) é um coeficiente de ganho multiplicado pela amostra de sub-banda de QMF, por exemplo, como a expressão (28) e as expressões (37) e (38).
Figure img0042
(Quarta modalidade)
Um dispositivo de codificação de voz 14 (FIGURA 48) da quarta modalidade inclui fisicamente uma CPU, uma ROM, uma RAM, um dispositi- vo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo de codificação de voz 14 carregando e executan- do um programa de computador predeterminado armazenado em uma me- mória interna do dispositivo de codificação de voz 14 tal como a ROM na RAM. O dispositivo de comunicação do dispositivo de codificação de voz 14 recebe um sinal de voz a ser codificado de fora do dispositivo de codificação de voz 14, e emite um fluxo de bit multiplexado codificado para fora do dis- positivo de codificação de voz 14. O dispositivo de codificação de voz 14 inclui uma unidade de multiplexação de fluxo de bit 1g7 ao invés da unidade de multiplexação de fluxo de bit 1g do dispositivo de codificação de voz 11b da modificação 4 da primeira modalidade, e ainda inclui a unidade de cálculo de envelope temporal 1m e a unidade de cálculo de formato de envelope 1n do dispositivo de codificação de voz 13.
A unidade de multiplexação de fluxo de bit 1g7 multiplexa o fluxo de bit codificado calculado pela unidade de codificação de codec central 1c e as informações suplementares de SBR calculadas pela unidade de codifica- ção de SBR 1d como a unidade de multiplexação de fluxo de bit 1 g, converte o parâmetro de resistência de filtro calculado pela unidade de cálculo de pa- râmetro de resistência de filtro e o parâmetro de formato de envelope calcu- lado pela unidade de cálculo de parâmetro de formato de envelope 1 n nas informações suplementares de envelope temporal, multiplexa-os, e emite o fluxo de bit multiplexado (fluxo de bit multiplexado codificado) através do dis- positivo de comunicação do dispositivo de codificação de voz 14.
(Modificação 4 da Quarta modalidade)
Um dispositivo codificador de voz 14a (figura 49) de uma modifi- cação 4 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e o CPU controla integralmente o dispositivo codificador de voz 14a ao carre- gar e executar um programa de computador predeterminado armazenado em uma memória embutida do dispositivo codificador de voz 14a como o ROM no RAM. O dispositivo de comunicação do dispositivo codificador de voz 14a recebe um sinal de voz a ser codificado a partir do lado de fora do dispositivo codificador de voz 14a, e emite um fluxo de bit multiplexado codi- ficado para o lado de fora do dispositivo codificador de voz 14a. O dispositivo codificador de voz 14a inclui a unidade de análise de predição linear 1e1 ao invés da unidade de análise de predição linear 1e do dispositivo codificador de voz 14 da quarta modalidade, e adicionalmente inclui a unidade de sele- ção de abertura de tempo 1p.
Um dispositivo decodificador de voz 24d (ver figura 26) da modi- ficação 4 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e o CPU controla integralmente o dispositivo decodificador de voz 24d ao car- regar e executar um programa de computador predeterminado (como um programa de computador para desempenhar processos ilustrados no fluxo- grama da figura 27) armazenado em uma memória embutida do dispositivo decodificador de voz 24d como o ROM no RAM. O dispositivo de comunica- ção do dispositivo decodificador de voz 24d recebe o fluxo de bit multiplexa- do codificado, e emite um sinal de voz decodificado para o lado de fora do dispositivo decodificador de voz 24d. O dispositivo decodificador de voz 24d, conforme ilustrado na figura 26, inclui a unidade de análise de predição line- ar de baixa frequência 2d1, a unidade de detecção de mudança de sinal 2e1, a unidade de análise de predição linear de alta frequência 2h1, a unidade de filtro inverso de predição linear 2i1, e a unidade de filtro de predição linear 2k3 ao invés de unidade de análise de predição linear de baixa frequência 2d, a unidade de detecção de mudança de sinal 2e, a unidade de análise de predição linear de alta frequência 2h, a unidade de filtro inverso de predição linear 2i, e a unidade de filtro de predição linear 2k do dispositivo decodifica- dor de voz 24, e adicionalmente inclui a unidade de seleção de abertura de tempo 3a. A unidade de transformação de envelope temporal 2v transforma o sinal no domínio QMF obtido a partir da unidade de filtro de predição linear 2k3 através do uso de informação de envelope temporal obtida a partir da unidade de ajuste do formato de envelope 2s, conforme a unidade de trans- formação de envelope temporal 2v da terceira modalidade, da quarta moda- lidade, e das modificações do presente documento (processo na Etapa Sk1).
(Modificação 5 da Quarta modalidade)
Um dispositivo decodificador de voz 24e (ver figura 28) de uma modificação 5 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo decodificador de voz 24e ao carregar e executar um programa de computador predeterminado (como um programa de computador para desempenhar processos ilustrados no fluxograma da figura 29) armazenado em uma memória embutida do disposi- tivo decodificador de voz 24e como o ROM no RAM. O dispositivo de comu- nicação do dispositivo decodificador de voz 24e recebe o fluxo de bit multi- plexado codificado, e emite um sinal de voz decodificado para o lado de fora do dispositivo decodificador de voz 24e. Na modificação 5, conforme ilustra- do na figura 28, o dispositivo decodificador de voz 24e omite a unidade de análise de predição linear de alta frequência 2h1 e a unidade de filtro inverso de predição linear 2i1 do dispositivo decodificador de voz 24d descritos na modificação 4 que podem ser omitidos durante toda a quarta modalidade conforme a primeira modalidade, e inclui uma unidade de seleção de abertu- ra de tempo 3a2 e uma unidade de transformação de envelope temporal 2v1 ao inves de unidade de seleção de abertura de tempo 3a e a unidade de transformação de envelope temporal 2v do dispositivo decodificador de voz 24d. O dispositivo decodificador de voz 24e também muda a ordem da filtra- gem de síntese de predição linear desempenhada através da unidade de filtro de predição linear 2k3 e do processo de transformação de envelope temporal desempenhado através da unidade de transformação de envelope temporal 2v1 cuja ordem de processamento é intercambiável através da quarta modalidade.
A unidade de transformação de envelope temporal 2v1 transfor- ma qadj (k, 0 obtido a partir da unidade de ajuste de alta frequência 2j através do uso de eacij(r) obtido a partir da unidade de ajuste do formato de envelope 2s, conforme a unidade de transformação de envelope temporal 2v, e obtém um sinal qenvadj (k, r) no domínio QMF no qual o envelope temporal é trans- formado. A unidade de transformação de envelope temporal 2v1 também notifica a unidade de seleção de abertura de tempo 3a2 de um parâmetro obtido quando o envelope temporal está sendo transformado, ou um parâ- metro calculado ao pelo menos usar o parâmetro obtido quando o envelope temporal está sendo transformado como informação de seleção de abertura de tempo. A informação de seleção de abertura de tempo pode ser e(r) da expressão (22) ou a expressão (40), ou |e(r)|2 para o qual a operação de raiz quadrada não é aplicada durante o processo de cálculo. Uma pluralidade de seções de abertura de tempo (como envelopes SBR)
Figure img0043
pode também ser usado, e a expressão (24) que é o valor médio do presen- te documento
Figure img0044
podem também ser usados como a informação de seleção de abertura de tempo. Note-se que:
Figure img0045
A informação de seleção de abertura de tempo pode também ser θexp(r) da expressão (26) e a expressão (41), ou ]eexp(r)|2para o qual a ope- ração de raiz quadrada não é aplicada durante o processo de cálculo. Uma pluralidade de seções de abertura de tempo (como envelopes SBR)
Figure img0046
5 e o valor médio do presente documento
Figure img0047
podem também ser usados como a informação de seleção de abertura de tempo. Note-se que:
Figure img0048
A informação de seleção de abertura de tempo pode também ser eaCjj(r) da expressão (23), da expressão (35) ou da expressão (36), ou pode ser |eadj(r)|2 para o qual a operação de raiz quadrada não é aplicada durante o processo de cálculo. Uma pluralidade de seções de abertura de tempo (como envelopes SBR)
Figure img0049
e o valor médio do presente documento
Figure img0050
podem também ser usados como a informação de seleção de abertura de tempo. Note-se que:
Figure img0051
A informação de seleção de abertura de tempo pode também ser θadj.scaied(r) da expressão (37), ou pode ser |eadj, scaied(r)|2 para o qual a opera- ção de raiz quadrada não é aplicada durante o processo de cálculo. Em uma pluralidade de seções de abertura de tempo (como envelopes SBR) -(60)
Figure img0052
e o valor médio do presente documento ê
Figure img0053
podem também ser usados como a informação de seleção de abertura de tempo. Note-se que:
Figure img0054
A informação de seleção de abertura de tempo pode também ser uma força de sinal Penvadj(0 da abertura de tempo r do sinal de domínio QMF que corresponde aos componentes de alta frequência nos quais o envelope temporal é transformado ou um valor de amplitude de sinal do presente do- cumento para o qual a operação de raiz quadrada é aplicada
Figure img0055
Em uma pluralidade de seções de abertura de tempo (como en- velopes SBR)
Figure img0056
e o valor médio do presente documento - -(66)
Figure img0057
podem também ser usados como a informação de seleção de abertura de tempo. Note-se que:
Figure img0058
Figure img0059
M é um valor que representa uma faixa de frequência mais alta do que aquela da frequência de limite baixo kx dos componentes de alta fre- quência gerados através da unidade de geração de alta frequência 2g, e a faixa de frequência dos componentes de alta frequência gerada através da unidade de geração de alta frequência 2g pode também ser representada como kx<k<kx+M.
A unidade de seleção de abertura de tempo 3a2 seleciona uma abertura de tempo na qual a filtragem de síntese de predição linear através da qual a unidade de filtro de predição linear 2k é desempenhada, ao deter- minar se a filtragem de síntese de predição linear é desempenhada no sinal qenvadj (k, r) no domínio QMF dos componentes de alta frequência da abertu- ra de tempo r na qual o envelope temporal é transformado através da unida- de de transformação de envelope temporal 2v1, com base na informação de seleção de abertura de tempo transmitida a partir da unidade de transforma- ção de envelope temporal 2v1 (processo na Etapa Sp1).
Para selecionar uma abertura de tempo na qual a filtragem de síntese de predição linear é desempenhada através da unidade de seleção de abertura de tempo 3a2 na presente modificação, pelo menos uma abertu- ra de tempo r na qual um parâmetro u(r) incluído na informação de seleção de abertura de tempo transmitida a partir da unidade de transformação de envelope temporal 2v1 é maior do que um valor predeterminado u-m pode ser selecionado, ou pelo menos uma abertura de tempo r na qual u(r) é igual a ou maior do que um valor predeterminado u-m pode ser selecionada. u(r) po- de incluir pelo menos um de e(r), |e(r)]2, eexp(r), |eexp(r)|2, eacij(r), |eadj(r)|2, e- adj,scaled(O>|θadj,scaled(O| , θ Penvadj(0>deSChtO acima,
Figure img0060
e u-m pode incluir pelo menos um de;
Figure img0061
UTh pode também ser um valor médio de u(r) de uma largura temporal predeterminada (como envelope SBR) incluindo a abertura de tem- po r. A seleção pode também ser feita de forma que uma abertura de tempo na qual u(r) alcança seu pico seja incluída. O pico de u(r) pode ser calculado conforme o cálculo do pico da força de sinal no sinal de domínio QMF dos componentes de alta frequência na modificação 4 da primeira modalidade. O estado estável e o estado transitório na modificação 4 da primeira modalida- de podem ser determinados de modo similar àqueles da modificação 4 da primeira modalidade através do uso de u(r), e uma abertura de tempo pode ser selecionada com base no mesmo. O método de seleção de abertura de tempo pode ser pelo menos um dos métodos descritos acima, pode incluir pelo menos um método diferente dos descritos acima, ou pode ser a combi- nação dos mesmos.
(Modificação 6 da Quarta modalidade)
Um dispositivo decodificador de voz 24f (ver figura 30) de uma modificação 6 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo decodificador de voz 24f ao carregar e executar um programa de computador predeterminado (como um programa de computador para desempenhar processos ilustrados no fluxograma da figura 29) armazenado em uma memória embutida do disposi- tivo decodificador de voz 24f como o ROM no RAM. O dispositivo de comu- nicação do dispositivo decodificador de voz 24f recebe o fluxo de bit multi- plexado codificado e emite um sinal de voz decodificado para fora do dispo- sitivo decodificador de voz 24f. Na modificação 6, conforme ilustrado na figu- ra 30, o dispositivo decodificador de voz 24f omite a unidade de detecção de mudança de sinal 2e1, a unidade de análise de predição linear de alta fre- quência 2h1, e a unidade de filtro inverso de predição linear 2i1 do dispositi- vo decodificador de voz 24d descrito na modificação 4 que pode ser omitida através da quarta modalidade conforme a primeira modalidade, e inclui a unidade de seleção de abertura de tempo 3a2 e a unidade de transformação de envelope temporal 2v1 ao invés de unidade de seleção de abertura de tempo 3a e a unidade de transformação de envelope temporal 2v do disposi- tivo decodificador de voz 24d. O dispositivo decodificador de voz 24f também muda a ordem da filtragem de síntese de predição linear desempenhada através da unidade de filtro de predição linear 2k3 e o processo de transfor- mação de envelope temporal desempenhado através da unidade de trans- formação de envelope temporal 2v1 cuja ordem de processamento é inter- cambiável durante toda a quarta modalidade.
A unidade de seleção de abertura de tempo 3a2 determina se a filtragem de síntese de predição linear é desempenhada através da unidade de filtro de predição linear 2k3, no sinal qenvadj (k, r) no domínio QMF dos componentes de alta frequência da abertura de tempo r na qual o envelope temporal é transformado através da unidade de transformação de envelope temporal 2v1, com base na informação de seleção de abertura de tempo transmitida a partir da unidade de transformação de envelope temporal 2v1, seleciona a abertura de tempo na qual a filtragem de síntese de predição linear é desempenhada, e notifica, da abertura de tempo selecionada, a uni- dade de análise de predição linear de baixa frequência 2d1 e a unidade de filtro de predição linear 2k3.
(Modificação 7 da Quarta modalidade)
Um dispositivo codificador de voz 14b (figura 50) de uma modifi- cação 7 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo codificador de voz 14b ao carre- gar e executar um programa de computador predeterminado armazenado na memória embutida do dispositivo codificador de voz 14b como o ROM no
RAM. O dispositivo de comunicação do dispositivo codificador de voz 14b recebe um sinal de voz a ser codificado a partir do lado de fora o dispositivo codificador de voz 14b, e emite um fluxo de bit multiplexado codificado para o lado de fora do dispositivo codificador de voz 14b. O dispositivo codificador de voz 14b inclui uma unidade de multiplexação de fluxo de bit 1g6 e a uni- dade de seleção de abertura de tempo 1 p1 ao invés de unidade de multiple- xação de fluxo de bit 1g7 e da unidade de seleção de abertura de tempo 1p do dispositivo codificador de voz 14a da modificação 4.
A unidade de multiplexação de fluxo de bit 1g6 multiplexa o fluxo de bit codificado calculado através da unidade de codificação do codec cen- tral 1c, a Informação suplementar SBR calculada através da Unidade de co- dificação SBR 1 d, e a informação suplementar de envelope temporal na qual o parâmetro de resistência de filtro calculado através da unidade de cálculo de parâmetro de resistência de filtro e o parâmetro de formato de envelope calculado através da unidade de cálculo de parâmetro de formato de envelo- pe 1n são convertidos, também multiplexa a informação de seleção de aber- tura de tempo recebida a partir da unidade de seleção de abertura de tempo 1p1, e emite o fluxo de bit multiplexado (fluxo de bit multiplexado codificado) através do dispositivo de comunicação do dispositivo codificador de voz 14b.
Um dispositivo decodificador de voz 24g (ver figura 31) da modi- ficação 7 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo decodificador de voz 24g ao car- regar e executar um programa de computador predeterminado (como um programa de computador para desempenhar processos ilustrados no fluxo- grama da figura 32) armazenado na memória embutida do dispositivo deco- dificador de voz 24g como o ROM no RAM. O dispositivo de comunicação do dispositivo decodificador de voz 24g recebe o fluxo de bit multiplexado codi- ficado e emite um sinal de voz decodificado para fora do dispositivo decodifi- cador de voz 24g. O dispositivo decodificador de voz 24g inclui uma unidade de separação de fluxo de bit 2a7 e a unidade de seleção de abertura de tempo 3a1 ao invés de unidade de separação de fluxo de bit 2a3 e a unidade de seleção de abertura de tempo 3a do dispositivo decodificador de voz 24d descrito na modificação 4.
A unidade de separação de fluxo de bit 2a7 separa o fluxo de bit multiplexado abastecido através do dispositivo de comunicação do dispositi- vo decodificador de voz 24g para a informação suplementar de envelope temporal, a Informação suplementar SBR, e o fluxo de bit codificado, con- forme a unidade de separação de fluxo de bit 2a3, e adicionalmente separa a informação de seleção de abertura de tempo.
(Modificação 8 de Quarta modalidade)
Um dispositivo decodificador de voz 24h (ver figura 33) de uma modificação 8 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo decodificador de voz 24h ao carregar e executar um programa de computador predeterminado (como um programa de computador para desempenhar processos ilustrados no fluxograma da figura 34) armazenado na memória embutida do dispositivo decodificador de voz 24h como o ROM no RAM. O dispositivo de comunica- ção do dispositivo decodificador de voz 24h recebe o fluxo de bit multiplexa- do codificado e emite um sinal de voz decodificado para fora do dispositivo decodificador de voz 24h. O dispositivo decodificador de voz 24h, conforme ilustrado na figura 33, inclui a unidade de análise de predição linear de baixa frequência 2d1, a unidade de detecção de mudança de sinal 2e1, a unidade de análise de predição linear de alta frequência 2h1, a unidade de filtro in- verso de predição linear 2i1, e a unidade de filtro de predição linear 2k3 ao invés de unidade de análise de predição linear de baixa frequência 2d, a u- nidade de detecção de mudança de sinal 2e, a unidade de análise de predi- ção linear de alta frequência 2h, a unidade de filtro inverso de predição linear 2i, e a unidade de filtro de predição linear 2k do dispositivo decodificador de voz 24b da modificação 2, e adicionalmente inclui a unidade de seleção de abertura de tempo 3a. A unidade de ajuste de alta frequência primária 2j1 desempenha pelo menos um dos processos na etapa “Ajuste HF” em SBR em "MPEG-4 AAC", conforme a unidade de ajuste de alta frequência primá- ria 2j1 da modificação 2 da quarta modalidade (processo na Etapa Sm1). A unidade de ajuste de alta frequência secundária 2j2 desempenha pelo me- nos um dos processos na etapa “Ajuste HF” em SBR em "MPEG-4 AAC", conforme a unidade de ajuste de alta frequência secundária 2j2 da modifica- ção 2 da quarta modalidade (processo na Etapa Sm2). É preferível que o processo desempenhado através da unidade de ajuste de alta frequência secundária 2j2 seja um processo não desempenhado pela unidade de ajuste de alta frequência primária 2j1 entre os processos na etapa “Ajuste HF” em SBR em "MPEG-4 AAC".
(Modificação 9 da Quarta modalidade)
Um dispositivo decodificador de voz 24i (ver figura 35) da modifi- cação 9 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustrados, e a CPU controla integralmente o dispositivo decodificador de voz 24i ao car- regar e executar um programa de computador predeterminado (como um programa de computador para desempenhar processos ilustrados no fluxo- grama da figura 36) armazenado na memória embutida do dispositivo deco- dificador de voz 24i como o ROM no RAM. O dispositivo de comunicação do dispositivo decodificador de voz 24i recebe o fluxo de bit multiplexado codifi- cado e emite um sinal de voz decodificado para fora do dispositivo decodifi- cador de voz 24i. O dispositivo decodificador de voz 24i, conforme ilustrado na figura 35, omite a unidade de análise de predição linear de alta frequência 2h1 e a unidade de filtro inverso de predição linear 2i1 do dispositivo decodi- ficador de voz 24h da modificação 8 que pode ser omitido durante toda a quarta modalidade conforme a primeira modalidade, e inclui a unidade de transformação de envelope temporal 2v1 e a unidade de seleção de abertura de tempo 3a2 ao invés de unidade de transformação de envelope temporal 2v e a unidade de seleção de abertura de tempo 3a do dispositivo decodifi- cador de voz 24h da modificação 8. O dispositivo decodificador de voz 24i também muda a ordem da filtragem de síntese de predição linear desempe- nhada através da unidade de filtro de predição linear 2k3 e o processo de transformação de envelope temporal desempenhada através da unidade de transformação de envelope temporal 2v1 cuja ordem de processamento é intercambiável durante toda a quarta modalidade.
(Modificação 10 da Quarta modalidade)
Um dispositivo decodificador de voz 24j (ver figura 37) de uma modificação 10 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo decodificador de voz 24j ao carregar e executar um programa de computador predeterminado (como um programa de computador para desempenhar processos ilustrados no fluxograma da figura 36) armazenado na memória embutida do dispositivo decodificador de voz 24j como o ROM no RAM. O dispositivo de comunica- ção do dispositivo decodificador de voz 24j recebe o fluxo de bit multiplexado codificado e emite um sinal de voz decodificado para fora do dispositivo de- codificador de voz 24j. O dispositivo decodificador de voz 24j, conforme ilus- trado na figura 37, omite a unidade de detecção de mudança de sinal 2e1, a unidade de análise de predição linear de alta frequência 2h1, e a unidade de filtro inverso de predição linear 2i1 do dispositivo decodificador de voz 24h da modificação 8 que pode ser omitida durante toda a quarta modalidade conforme a primeira modalidade, e inclui a unidade de transformação de en- velope temporal 2v1 e a unidade de seleção de abertura de tempo 3a2 ao invés de unidade de transformação de envelope temporal 2v e a unidade de seleção de abertura de tempo 3a do dispositivo decodificador de voz 24h da modificação 8. O dispositivo decodificador de voz 24j também muda a ordem da filtragem de síntese de predição linear desempenhada pela unidade de filtro de predição linear 2k3 e o processo de transformação de envelope temporal desempenhada através da unidade de transformação de envelope temporal 2v1 cuja ordem de processamento é intercambiável durante toda a quarta modalidade.
(Modificação 11 da Quarta modalidade)
Um dispositivo decodificador de voz 24k (ver figura 38) de uma modificação 11 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo decodificador de voz 24k ao carregar e executar um programa de computador predeterminado (como um programa de computador para desempenhar processos ilustrados no fluxograma da figura 39) armazenado na memória embutida do dispositivo decodificador de voz 24k como o ROM no RAM. O dispositivo de comunica- ção do dispositivo decodificador de voz 24k recebe o fluxo de bit multiplexa- do codificado e emite um sinal de voz decodificado para fora do dispositivo decodificador de voz 24k. O dispositivo decodificador de voz 24k, conforme ilustrado na figura 38, inclui a unidade de separação de fluxo de bit 2a7 e a unidade de seleção de abertura de tempo 3a1 ao invés de unidade de sepa- ração de fluxo de bit 2a3 e a unidade de seleção de abertura de tempo 3a do dispositivo decodificador de voz 24h da modificação 8.
(Modificação 12 da Quarta modalidade)
Um dispositivo decodificador de voz 24q (ver figura 40) de uma modificação 12 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo decodificador de voz 24q ao carregar e executar um programa de computador predeterminado (como um programa de computador para desempenhar processos ilustrados no fluxograma da figura 41) armazenado na memória embutida do dispositivo decodificador de voz 24q como o ROM no RAM. O dispositivo de comunica- ção do dispositivo decodificador de voz 24q recebe o fluxo de bit multiplexa- do codificado e emite um sinal de voz decodificado para fora do dispositivo decodificador de voz 24q. O dispositivo decodificador de voz 24q, conforme ilustrado na figura 40, inclui a unidade de análise de predição linear de baixa frequência 2d1, a unidade de detecção de mudança de sinal 2e1, a unidade de análise de predição linear de alta frequência 2h1, a unidade de filtro in- verso de predição linear 2i1, e unidades de ajuste de componente de sinal individual 2z4, 2z5, e 2z6 (unidades de ajuste de componente de sinal indivi- dual correspondem aos meios de transformação de envelope temporal) ao invés de unidade de análise de predição linear de baixa frequência 2d, a u- nidade de detecção de mudança de sinal 2e, a unidade de análise de predi- ção linear de alta frequência 2h, a unidade de filtro inverso de predição linear 2i, e as unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3 do dispositivo decodificador de voz 24c da modificação 3, e adicional- mente inclui a unidade de seleção de abertura de tempo 3a.
Pelo menos uma das unidades de ajuste de componente de si- nal individual 2z4, 2z5, e 2z6 desempenham processamento no sinal de do- mínio QMF da abertura de tempo selecionada, para o componente de sinal incluso na saída da unidade de ajuste de alta frequência primária, conforme as unidades de ajuste de componente de sinal individual 2z1, 2z2, e 2z3, com base no resultado da seleção transmitida a partir da unidade de seleção de abertura de tempo 3a (processo na Etapa Sn1). É preferível que o pro- cesso que usa a informação de seleção de abertura de tempo inclua pelo menos um processo que inclui a filtragem de síntese de predição linear na direção de frequência, entre os processos das unidades de ajuste de com- ponente de sinal individual 2z1, 2z2, e 2z3 descritas na modificação 3 da quarta modalidade.
Os processos desempenhados através das unidades de ajuste de componente de sinal individual 2z4, 2z5, e 2z6 podem ser os mesmos que os processos desempenhados através das unidades de ajuste de com- ponente de sinal individual 2z1, 2z2, e 2z3 descritas na modificação 3 da quarta modalidade, mas as unidades de ajuste de componente de sinal indi- vidual 2z4, 2z5, e 2z6 podem transformar o envelope temporal de cada um de uma pluralidade de componentes de sinal inclusos na saída da unidade de ajuste de alta frequência primária através de diferentes métodos (se to- das as unidades de ajuste de componente de sinal individual 2z4, 2z5, e 2z6 não desempenham processamento com base no resultado da seleção transmitida a partir da unidade de seleção de abertura de tempo 3a, será o mesmo que a modificação 3 da quarta modalidade da presente invenção).
Todos os resultados da seleção da abertura de tempo transmiti- da para as unidades de ajuste de componente de sinal individual 2z4, 2z5, e 2z6 a partir da unidade de seleção de abertura de tempo 3a não precisam ser os mesmos, e todo ou uma parte do presente documento pode ser dife- rente.
Na figura 40, o resultado da seleção da abertura de tempo é transmitida para as unidades de ajuste de componente de sinal individual 2z4, 2z5, e 2z6 a partir de uma unidade de seleção de abertura de tempo 3a. Entretanto, é possível incluir uma pluralidade de unidades de seleção de a- bertura de tempo para notificar, dos diferentes resultados da seleção da a- bertura de tempo, cada ou uma parte das unidades de ajuste de componente de sinal individual 2z4, 2z5, e 2z6. Neste momento, a unidade de seleção de abertura de tempo em relação à unidade de ajuste de componente de sinal individual entre as unidades de ajuste de componente de sinal individual 2z4, 2z5, e 2z6 que desempenham o processo 4 (o processo de multiplicar o coe- ficiente de ganho através de cada resolução de sub-banda QMF é desem- penhada no sinal de entrada através do uso do envelope temporal obtido a partir da unidade de ajuste do formato de envelope 2s conforme a unidade de transformação de envelope temporal 2v, e então a filtragem de síntese de predição linear na direção de frequência é também desempenhada no sinal de saída através do uso do coeficiente de predição linear recebido a partir da unidade de ajuste de resistência de filtro 2f conforme a unidade de filtro de predição linear 2k) descrito na modificação 3 da quarta modalidade pode selecionar a abertura de tempo através do uso da informação de seleção de abertura de tempo abastecido a partir da unidade de transformação de enve- lope temporal.
(Modificação 13 da Quarta modalidade)
Um dispositivo decodificador de voz 24m (ver figura 42) de uma modificação 13 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo decodificador de voz 24m ao carregar e executar um programa de computador predeterminado (como um programa de computador para desempenhar processos ilustrados no fluxograma da figura 43) armazenado na memória embutida do dispositivo decodificador de voz 24m como o ROM no RAM. O dispositivo de comunica- ção do dispositivo decodificador de voz 24m recebe o fluxo de bit multiplexa- do codificado e emite um sinal de voz decodificado para fora do dispositivo decodificador de voz 24m. O dispositivo decodificador de voz 24m, conforme ilustrado na figura 42, inclui a unidade de separação de fluxo de bit 2a7 e a unidade de seleção de abertura de tempo 3a1 ao invés de unidade de sepa- ração de fluxo de bit 2a3 e a unidade de seleção de abertura de tempo 3a do dispositivo decodificador de voz 24q da modificação 12.
(Modificação 14 da Quarta modalidade)
Um dispositivo decodificador de voz 24n (não ilustrado) de uma modificação 14 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo decodificador de voz 24n ao carregar e executar um programa de computador predeterminado arma- zenado na memória embutida do dispositivo decodificador de voz 24n como o ROM no RAM. O dispositivo de comunicação do dispositivo decodificador de voz 24n recebe o fluxo de bit multiplexado codificado e emite um sinal de voz decodificado para fora do dispositivo decodificador de voz 24n. O dispo- sitivo decodificador de voz 24n inclui funcionalmente a unidade de análise de predição linear de baixa frequência 2d1, a unidade de detecção de mudança de sinal 2e1, a unidade de análise de predição linear de alta frequência 2h1, a unidade de filtro inverso de predição linear 2i1, e a unidade de filtro de predição linear 2k3 ao invés de unidade de análise de predição linear de bai- xa frequência 2d, a unidade de detecção de mudança de sinal 2e, a unidade de análise de predição linear de alta frequência 2h, a unidade de filtro inver- so de predição linear 2i, e a unidade de filtro de predição linear 2k do dispo- sitivo decodificador de voz 24a da modificação 1, e adicionalmente inclui a unidade de seleção de abertura de tempo 3a.
(Modificação 15 da Quarta modalidade)
Um dispositivo decodificador de voz 24p (não ilustrado) de uma modificação 15 da quarta modalidade inclui fisicamente um CPU, um ROM, um RAM, um dispositivo de comunicação, e similares, que não são ilustra- dos, e a CPU controla integralmente o dispositivo decodificador de voz 24p ao carregar e executar um programa de computador predeterminado arma- zenado na memória embutida do dispositivo decodificador de voz 24p como o ROM no RAM. O dispositivo de comunicação do dispositivo decodificador de voz 24p recebe o fluxo de bit multiplexado codificado e emite um sinal de voz decodificado para fora do dispositivo decodificador de voz 24p. O dispo- sitivo decodificador de voz 24p funcionalmente inclui a unidade de seleção de abertura de tempo 3a1 ao invés de unidade de seleção de abertura de tempo 3a do dispositivo decodificador de voz 24n da modificação 14. O dis- positivo decodificador de voz 24p também inclui uma unidade de separação de fluxo de bit 2a8 (não ilustrado) ao invés de unidade de separação de fluxo de bit 2a4.
A unidade de separação de fluxo de bit 2a8 separa o fluxo de bit multiplexado na informação suplementar SBR e o fluxo de bit codificado con- forme a unidade de separação de fluxo de bit 2a4, e adicionalmente na in- formação de seleção de abertura de tempo.
Aplicabilidade Industrial
A presente invenção fornece uma técnica aplicável à técnica de extensão de banda no domínio de frequência representado por SBR, e para reduzir a ocorrência de pré-eco e pós-eco e melhora a qualidade subjetiva do sinal decodificado sem aumentar significativamente a taxa de bit. Lista de Signos de Referência 11, 11a, 11b, 11c, 12, 12a, 12b, 13, 14, 14a, 14b dispositivo de codificação de voz 1 a unidade de conversão de frequência 2 b unidade de conversão inversa de frequência 1 c unidade de codificação de codec central 1d unidade de codificação de SBR 1e, 1e1 unidade de análise de previsão linear 1f unidade de cálculo de parâmetro de resistência de filtro 1f1 unidade de cálculo de parâmetro de resistência de filtro 1g, 1g1, 1g2, 1g3, 1g4, 1g5, 1g6, 1g7 1h 1i unidade de multiplexação de fluxo de bit unidade de conversão inversa de alta frequência unidade de cálculo de força de período curto 1j unidade de decimação de coeficiente de previsão linear 1k unidade de quantização de coeficiente de previsão 1m unidade de cálculo de envelope temporal 1n velope 1p, 1p1 unidade de cálculo de parâmetro de formato de en- unidade de seleção de abertura de tempo 21, 22, 23, 24, 24b, 24c 2a, 2a1,2a2, 2a3, 2a5, 2a6, 2a7 2b dispositivo de decodificação de voz unidade de separação de fluxo de bit unidade de decodificação de codec central 2c unidade de conversão de frequência 2d,2d1 unidade de análise de previsão linear de baixa fre- quência 2e, 2e1 2f unidade de detecção de sinal unidade de ajuste de resistência de filtro 2g 2h, 2h1 quência 2i, 2i1 2j, 2j1, 2j2, 2j3, 2j4 2k, 2k1, 2k2, 2k3 2m unidade de geração de alta frequência unidade de análise de previsão linear de alta fre- unidade de filtro inverso de previsão linear unidade de ajuste de alta frequência unidade de filtro de previsão linear unidade de adição de coeficiente 2n unidade de conversão inversa de frequência 2p, 2p1 unidade de interpolação/extrapolação de coeficiente de previsão linear ÍHÜÉIL_. 105/105 2r unidade de cálculo de envelope temporal de baixa frequência 2s unidade de ajuste de formato de envelope 2t 5 quência 2u unidade de cálculo de envelope temporal de alta fre- unidade de suavização de envelope temporal 2v, 2v1 2w unidade de transformação de envelope temporal unidade de conversão de informações suplementa- res 10 2z1,2z2, 2z3, 2z4, 2z5, 2z6 unidade de ajuste de componente de sinal individual 3a, 3a1, 3a2 unidade de seleção de abertura de tempo

Claims (4)

1. Dispositivo de decodificação de voz para decodificar um sinal de voz codificado, o dispositivo de decodificação de voz caracterizado pelo fato de que compreende: meios de separação de fluxo de bit (2a3) para separar um fluxo de bit que inclui o sinal de voz codificado em um fluxo de bit codificado e informações suplementares de envelope temporal, o fluxo de bit recebido de fora do dispositivo de decodificação de voz; meios de decodificação central (2b) para decodificar o fluxo de bit codificado separado pelos meios de separação de fluxo de bit (2a3) para obter um componente de baixa frequência; meios de transformada de frequência (2c) para transformar o componente de baixa frequência obtido pelos meios de decodificação central (2b) para o domínio de frequência; meios de geração de alta frequência (2g) para gerar um componente de alta frequência copiando o componente de baixa frequência transformado para o domínio de frequência pelos meios de transformada de frequência (2c) a partir de uma banda de baixa frequência para uma banda de alta frequência; meios de ajuste de alta frequência (2j) para ajustar o componente de alta frequência gerado pelos meios de geração de alta frequência (2g) para gerar um componente de alta frequência ajustado; meios de análise de envelope temporal de baixa frequência (2r) para analisar o componente de baixa frequência transformado para o domínio de frequência pelos meios de transformada de frequência (2c) para obter informação de envelope temporal; meios de conversão de informação suplementar (2w) para converter a informação suplementar de envelope temporal em um parâmetro para ajustar a informação de envelope temporal; meios de ajuste de envelope temporal (2s) para ajustar as informações de envelope temporal obtidas pelos meios de análise de envelope temporal de baixa frequência (2r) para gerar informação de envelope temporal ajustada, os meios de ajuste de envelope temporal (2s) usando o parâmetro no ajuste da informação de envelope temporal; e meios de formatação de envelope temporal (2v) para formatar um envelope temporal do componente de alta frequência ajustado através da multiplicação do componente de alta frequência ajustado pelas informações de envelope temporal ajustadas.
2. Dispositivo de decodificação de voz para decodificar um sinal de voz codificado, o dispositivo de decodificação de voz caracterizado pelo fato de que compreende: meios de decodificação central (2b) para decodificar um fluxo de bit que inclui o sinal de voz codificado para obter um componente de baixa frequência, o fluxo de bit recebido de fora do dispositivo de decodificação de voz; meios de transformada de frequência (2c) para transformar o componente de baixa frequência obtido pelo meio de decodificação central (2b) para o domínio de frequência; meios de geração de alta frequência (2g) para gerar um componente de alta frequência copiando o componente de baixa frequência transformado para o domínio de frequência pelos meios de transformada de frequência (2c) a partir de uma banda de baixa frequência para uma banda de alta frequência; meios de ajuste de alta frequência (2j) para ajustar o componente de alta frequência gerado pelos meios de geração de alta frequência (2g) para gerar um componente de alta frequência ajustado; meios de análise de envelope temporal de baixa frequência (2r) para analisar o componente de baixa frequência transformado para o domínio de frequência pelos meios de transformada de frequência (2c) para obter as informações de envelope temporal; unidades de geração de informações suplementares de envelope temporal para analisar o fluxo de bit para gerar um parâmetro para ajustar a informação de envelope temporal; meios de ajuste de envelope temporal (2s) para ajustar as informações de envelope temporal obtidas pelos meios de análise de envelope temporal de baixa frequência (2r) para gerar informação de envelope temporal ajustada, os meios de ajuste de envelope temporal (2s) usando o parâmetro no ajuste da informação de envelope temporal; e meios de formatação de envelope temporal (2v) para formatar um envelope temporal do componente de alta frequência ajustado através da multiplicação do componente de alta frequência ajustado pelas informações de envelope temporal ajustadas.
3. Método de decodificação de voz que usa um dispositivo de decodificação de voz para decodificar um sinal de voz codificado, o método de decodificação de voz caracterizado pelo fato de que compreende: uma etapa de separação de fluxo de bit em que o dispositivo de decodificação de voz separa um fluxo de bit que inclui o sinal de voz codificado em um fluxo de bit codificado e informações suplementares de envelope temporal, o fluxo de bit recebido de fora do dispositivo de decodificação de voz; uma etapa de decodificação central em que o dispositivo de decodificação de voz obtém um componente de baixa frequência decodificando o fluxo de bit codificado separado na etapa de separação de fluxo de bit; uma etapa de transformada de frequência em que o dispositivo de decodificação de voz transforma o componente de baixa frequência obtido na etapa de decodificação central para o domínio de frequência; uma etapa de geração de alta frequência em que o dispositivo de decodificação de voz gera um componente de alta frequência copiando o componente de baixa frequência transformado para o domínio de frequência na etapa de transformada de frequência a partir de uma banda de baixa frequência para uma banda de alta frequência; uma etapa de ajuste de alta frequência na qual o dispositivo de decodificação de voz ajusta o componente de alta frequência gerado na etapa de geração de alta frequência para gerar um componente de alta frequência ajustado; uma etapa de análise de envelope temporal de baixa frequência em que o dispositivo de decodificação de voz obtém informações de envelope temporal analisando o componente de baixa frequência transformado para o domínio de frequência na etapa de transformada de frequência; uma etapa de conversão de informação suplementar na qual o dispositivo de decodificação de voz converte a informação de envelope temporal suplementar em um parâmetro para ajustar a informação de envelope temporal; uma etapa de ajuste de envelope temporal em que o dispositivo de decodificação de voz ajusta as informações de envelope temporal obtidas na etapa de análise de envelope temporal de baixa frequência para gerar informação de envelope temporal ajustada em que o parâmetro é utilizado no ajuste da informação de envelope temporal; uma etapa de formatação de envelope temporal em que o dispositivo de decodificação de voz formata um envelope temporal do componente de alta frequência ajustado através da multiplicação do componente de alta frequência ajustado pelas informações de envelope temporal ajustadas.
4. Método de decodificação de voz que usa um dispositivo de decodificação de voz para decodificar um sinal de voz codificado, o método de decodificação de voz caracterizado pelo fato de que compreende: uma etapa de decodificação central na qual o dispositivo de decodificação de voz decodifica um fluxo de bits que inclui o sinal de voz codificado para obter um componente de baixa frequência, o fluxo de bit recebido a partir do lado de fora do dispositivo de decodificação de voz; uma etapa de transformada de frequência na qual o dispositivo de decodificação de voz transforma o componente de baixa frequência obtido na etapa de decodificação central para o domínio da frequência; uma etapa de geração de alta frequência na qual o dispositivo de codificação de voz gera um componente de alta frequência pela cópia do componente de baixa frequência transformado para o domínio da frequência na etapa de transformada de frequência a partir de uma banda de baixa frequência para uma banda de alta frequência; uma etapa de ajuste de alta frequência na qual o dispositivo de decodificação de voz ajusta o componente de alta frequência gerado na etapa de geração de alta frequência para gerar um componente de alta frequência ajustado; uma etapa de análise de envelope temporal de baixa frequência na qual o dispositivo de decodificação de voz obtém uma informação de envelope temporal pela análise do componente de baixa frequência transformado para o domínio da frequência na etapa de transformada de frequência; uma etapa de geração de informação suplementar de envelope temporal na qual o dispositivo de decodificação de voz analisa o fluxo de bit para gerar um parâmetro para ajustar a informação de envelope temporal; uma etapa de ajuste de envelope temporal na qual o dispositivo de decodificação de voz ajusta a informação de envelope temporal obtida na etapa de análise de envelope temporal de baixa frequência para gerar uma informação de envelope temporal ajustada, em que o parâmetro é utilizado no ajuste da informação de envelope temporal; uma etapa de formatação de envelope temporal na qual o dispositivo de decodificação de voz formata um envelope temporal do componente de alta frequência ajustado através da multiplicação do componente de alta frequência ajustado pelas informações de envelope temporal ajustadas.
BR122012021665-8A 2009-04-03 2010-04-02 dispositivos e métodos de decodificação de voz BR122012021665B1 (pt)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
JP2009-091396 2009-04-03
JP2009091396 2009-04-03
JP2009146831 2009-06-19
JP2009-146831 2009-06-19
JP2009162238 2009-07-08
JP2009-162238 2009-07-08
JP2010004419A JP4932917B2 (ja) 2009-04-03 2010-01-12 音声復号装置、音声復号方法、及び音声復号プログラム
JP2010-004419 2010-01-12
BRPI1015049-8A BRPI1015049B1 (pt) 2009-04-03 2010-04-02 dispositivos e métodos de decodificação de voz
PCT/JP2010/056077 WO2010114123A1 (ja) 2009-04-03 2010-04-02 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、音声符号化プログラム及び音声復号プログラム

Publications (2)

Publication Number Publication Date
BR122012021665A2 BR122012021665A2 (pt) 2019-07-30
BR122012021665B1 true BR122012021665B1 (pt) 2020-12-22

Family

ID=67432450

Family Applications (4)

Application Number Title Priority Date Filing Date
BR122012021669-0A BR122012021669B1 (pt) 2009-04-03 2010-04-02 dispositivos e métodos de decodificação de voz e memórias capazes de serem lidas por computador
BR122012021668-2A BR122012021668B1 (pt) 2009-04-03 2010-04-02 Dispositivos e métodos de decodificação de voz
BR122012021665-8A BR122012021665B1 (pt) 2009-04-03 2010-04-02 dispositivos e métodos de decodificação de voz
BR122012021663-1A BR122012021663B1 (pt) 2009-04-03 2010-04-02 dispositivos e métodos de decodificação de voz

Family Applications Before (2)

Application Number Title Priority Date Filing Date
BR122012021669-0A BR122012021669B1 (pt) 2009-04-03 2010-04-02 dispositivos e métodos de decodificação de voz e memórias capazes de serem lidas por computador
BR122012021668-2A BR122012021668B1 (pt) 2009-04-03 2010-04-02 Dispositivos e métodos de decodificação de voz

Family Applications After (1)

Application Number Title Priority Date Filing Date
BR122012021663-1A BR122012021663B1 (pt) 2009-04-03 2010-04-02 dispositivos e métodos de decodificação de voz

Country Status (1)

Country Link
BR (4) BR122012021669B1 (pt)

Also Published As

Publication number Publication date
BR122012021668A2 (pt) 2019-07-30
BR122012021663A2 (pt) 2019-07-30
BR122012021668B1 (pt) 2020-12-15
BR122012021663B1 (pt) 2020-12-22
BR122012021669A2 (pt) 2019-07-30
BR122012021665A2 (pt) 2019-07-30
BR122012021669B1 (pt) 2021-01-12

Similar Documents

Publication Publication Date Title
BRPI1015049B1 (pt) dispositivos e métodos de decodificação de voz
JP5588547B2 (ja) 音声復号装置、音声復号方法、及び音声復号プログラム
BR122012021665B1 (pt) dispositivos e métodos de decodificação de voz

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according art. 34 industrial property law
B03A Publication of an application: publication of a patent application or of a certificate of addition of invention
B06U Preliminary requirement: requests with searches performed by other patent offices: suspension of the patent application procedure
B06A Notification to applicant to reply to the report for non-patentability or inadequacy of the application according art. 36 industrial patent law
B09A Decision: intention to grant
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 22/12/2020, OBSERVADAS AS CONDICOES LEGAIS.