BR9906706B1

BR9906706B1 - Aparelho e método de codificação de voz de modo múltiplo

Info

Publication number: BR9906706B1
Application number: BRPI9906706-4A
Authority: BR
Inventors: Hiroyuki Ehara
Original assignee: Panasonic Corp
Priority date: 1998-08-21
Filing date: 1999-08-20
Publication date: 2015-02-10
Also published as: AU5442899A; JP4308345B2; EP1024477A1; SG101517A1; CN1236420C; CA2306098A1; KR100367267B1; CN1275228A; US6334105B1; EP1024477A4; AU748597B2; BR9906706A; KR20010031251A; CA2306098C; JP2002023800A; EP1024477B1; WO2000011646A1

Description

Relatório Descritivo da Patente de Invenção para "APARELHO E MÉTODO DE CODIFICAÇÃO DE VOZ DE MODO MÚLTIPLO".

Campo Técnico A presente invenção refere-se a um aparelho de codificação de voz de taxa de bit baixa, o qual realiza a codificação de um sinal de voz para transmitir, por exemplo, em um sistema de comunicação móvel e, mais particularmente, a um aparelho de codificação de voz do tipo CELP (Previsão Linear Excitada de Código), o qual separa o sinal de voz para uma informação de trato vocal e informação de excitação a representar. Técnica Anterior São usados nos campos de comunicações móveis digitais e de armazenamento de voz aparelhos de codificação, os quais comprimem a informação de voz para codificar com alta eficiência para utilização de sinais de rádio e de mídia de gravação. Dentre eles, o sistema baseado em um sistema de CELP (Previsão Linear Excitada por Código) é realizado na prática amplamente para os aparelhos operando em taxas de bit de médias a baixas. A tecnologia da CELP é descrita em "Code-Excited Linear Prediction (CELP): High-quality Speech at Very Low Bit Rates" de M. R. Schroeder e B. S. Atai, Proc. ICASSP-85, 24.1.1., pp. 937-940, 1985.

No sistema de codificação de voz tipo CELP, sinais de voz são divididos em comprimentos de quadro predeterminados (cerca de 5 ms a 50 ms), a previsão linear dos sinais de voz é realizada para cada quadro, a previsão residual (sinal de vetor de excitação) obtida pela previsão linear de cada quadro é codificada usando-se um vetor de código adaptativo e um vetor de código randômico compreendidos por formas de onda conhecidas. O vetor de código adaptativo e o vetor de código randômico são selecionados para uso respectivamente a partir de um livro de código adaptativo armazenando vetores de excitação previamente gerados e de um livro de código randômico armazenando o número predeterminado de vetores pré-preparados com formatos predeterminados. São usados como os vetores de código randômico armazenados no livro de código randômico, por exemplo, vetores de seqüência de ruído randômico e vetores gerados pelo arranjo de alguns pulsos em posições diferentes. O aparelho de codificação de CELP realiza a síntese de LPC e a quantificação, busca de passo, busca de livro de código randômico, e uma busca de livro de código de ganho usando-se sinais digitais de entrada, e transmite o LPC quantificado (L), o período de passo (P), um índice de livro de código randômico (S) e um índice de livro de código de ganho (G) para um decodificador.

Contudo, o aparelho de codificação de voz convencional mencionado acima precisa fazer frente a diálogos vocais, diálogos não vocais e ruídos de fundo usando um único tipo de livro de código randômico, e, portanto, é difícil codificar todos os sinais de entrada com uma alta qualidade. Descrição da Invenção Um objeto da presente invenção é prover um aparelho de codificação de voz de modo múltiplo e um aparelho de decodificação de voz de provisão de codificação de excitação com modo múltiplo sem uma informação de modo de transmissão recente, em particular, realizando um julgamento de região de fala/região de silêncio além do julgamento da região de fala/região de silêncio, e, ainda, aumentando a melhoria da performance de codificação/decodificação realizada com o modo múltiplo.

Na presente invenção, a determinação de modo é realizada usando-se características estáticas/dinâmicas de um parâmetro quantificado representando características espectrais, modos de vários livros de código para uso em vetores de excitação de codificação são alternados baseado na determinação de modo indicando a região de fala/região de silêncio ou região de fala/região de silêncio. Ainda, na presente invenção, os modos de vários livros de código para uso na decodificação são alternados usando-se a informação de modo usada na codificação na decodificação.

Breve Descrição dos desenhos A FIG. 1 é um diagrama de blocos ilustrando um aparelho de codificação de voz em uma primeira realização da presente invenção; A FIG. 2 é um diagrama de blocos ilustrando um aparelho de decodificação de voz em uma segunda realização da presente invenção; A FIG. 3 é um fluxograma para processamento de codificação de voz na primeira realização da presente invenção; A FIG. 4 é um fluxograma para processamento da decodificação de voz na segunda realização da presente invenção; A FIG. 5A é um diagrama de blocos ilustrando uma configuração de um aparelho de transmissão de sinal de voz em uma terceira realização da presente invenção; A FIG. 5B é um diagrama de blocos ilustrando uma configuração de um aparelho de recepção de sinal de voz na terceira realização da presente invenção; A Fig. 6 é um diagrama de blocos que ilustra uma configuração de um seletor de um modo em uma quarta realização da presente invenção; A FIG. 7 é um diagrama de blocos que ilustra uma configuração de uma seção de pós-processamento de modo múltiplo em uma quinta realização da presente invenção; A FIG. 8 é um fluxograma para a parte anterior de pós-processamento de modo múltiplo na quarta realização da presente invenção; A FIG. 9 é um fluxograma para a parte posterior do pós-pro-cessamento de modo múltiplo na quarta realização da presente invenção; A FIG. 10 é um fluxograma para toda a parte de pós-processamento de modo múltiplo na quarta realização da presente invenção; A FIG. 11 é um fluxograma para a parte anterior do pós-processamento de modo múltiplo na quinta realização da presente invenção; e A FIG. 12 é um fluxograma para a parte posterior do pós-processamento de modo múltiplo na quinta realização da presente invenção. Melhor Modo de Realização da Invenção Aparelhos de codificação de voz e outros nas realizações da presente invenção são explicados abaixo usando-se a FIG. 1 até a FIG. 9. (Primeira Realização) A FIG. 1 é um diagrama de blocos que ilustra uma configuração de um aparelho de codificação de voz, de acordo com a primeira realização da presente invenção.

Dados de entrada compreendidos, por exemplo, por sinais de voz digitais, são introduzidos para a seção de pré-processamento 101. A seção de pré-processamento 101 realiza um processamento tal como o corte de um componente de corrente contínua e uma limitação de largura de banda dos dados de entrada usando um filtro passa-banda e um filtro de passagem baixa para extrair para um analisador de LPC 102 e um adiciona-dor 106. Além disso, embora seja possível realizar um processamento de codificação sucessivo em realizar qualquer processamento na seção de pré-processamento 101, a performance de codificação é melhorada realizando-se o processamento mencionado acima. O analisador de LPC 102 realiza uma análise de previsão linear, e calcula coeficientes de previsão linear (LPC) para extrair para um quantifi-cador de LPC 103. O quantificador de LPC 103 quantifica o LPC de entrada, extrai o LPC quantificado para um filtro de síntese 104 e um seletor de modo 105, e ainda extrai um código L que representa o LPC quantificado para um de-codificador. Além disso, a quantificação de LPC é realizada usualmente após o LPC ser convertido em LSP (Par de Espectro de Linha), o qual tem melhores características de interpolação.

Como o filtro de síntese 104, um filtro de síntese de LPC é construído usando-se a entrada de LPC quantificado do quantificador de LPC 103. Com o filtro de síntese construído, o processamento de filtragem é realizado em um sinal de vetor de excitação introduzido a partir do adicionador 114, e o sinal resultante é extraído para o adicionador 106. O seletor de modo 105 determina um modo de livro de código randômico usando o LPC quantificado introduzido a partir do quantificador de LPC 103.

Neste momento, o seletor de modo 105 armazena a informação previamente introduzida no LPC quantificado, e realiza a seleção de modo usando ambas as características de uma evolução de LPC quantificado entre quadros e do LPC quantificado em um quadro atual. Há pelo menos dois tipos dos modos, dos quais os exemplos são um modo correspondente a um segmento de voz de voz e um modo correspondente a um segmento de diálogo de silêncio e um segmento de ruído estacionário. Ainda, como informação para uso na seleção de um modo, não é necessário usar os LPC quantificados em si, e é mais efetivo usar parâmetros convertidos tais como o LSP quantificado, coeficientes reflexivos e potência residual de previsão linear. O adicionador 106 calcula um erro entre o dado de entrada pré-processado introduzido a partir da seção de pré-processamento 101 e o sinal sintetizado para extração para um filtro de ponderação perceptiva 107. O filtro de ponderação perceptiva 107 realiza uma ponderação perceptiva sobre o erro calculado no adicionador 106 para extração para um minimizador de erro 108. O minimizador de erro 108 ajusta um índice de livro de código randômico Si, um índice de livro de código adaptativo (período de passo) Pi, e um índice de livro de código de ganho Gi respectivamente extraído para o livro de código randômico 109, o livro de código adaptativo 110 e um livro de código de ganho 111, determina um vetor de código randômico, um vetor de código adaptativo e um ganho de livro de código randômico e um ganho de livro de código adaptativo respectivamente a serem gerados no livro de código randômico 109, no livro de código adaptativo 110 e no livro de código de ganho 111, de modo a minimizar o erro ponderado perceptivo introduzido a partir do filtro de ponderação perceptiva 107, e extrai um código S representando o vetor de código randômico, um código P representando um vetor de código adaptativo e um código G representando uma informação de ganho para um decodificador. O livro de código randômico 109 armazena o número predeterminado de vetores de código randômico com formatos diferentes, e extrai o vetor de código randômico designado pelo índice Si do vetor de código randômico introduzido a partir do minimizador de erro 108. O livro de código randômico 109 tem pelo menos dois tipos de modos. Por exemplo, o livro de código randômico 109 é configurado para gerar um vetor de código randômico como de pulso no modo correspondente a um segmento de diálogo de voz, e ainda gerar um vetor de código randômico como ruído no modo cor- respondente a um segmento de diálogo de silêncio e um segmento de ruído estacionário. O vetor de código randômico extraído do livro de código ran-dômico 109 é gerado com um modo único selecionado no seletor de modo 105 dentre pelo menos dois tipos de modos descritos acima, e multiplicado pelo ganho de livro de código randômico Gs no multiplicador 112 a ser extraído para o adicionador 114. O livro de código adaptativo 110 realiza um armazenamento temporário, enquanto atualiza o sinal de vetor de excitação previamente gerado seqüencialmente, e gera um vetor de código adaptativo usando o índice de livro de código adaptativo (período de passo (intervalo de passo)) introduzido a partir do minimizador de erro 108. O vetor de código adaptativo gerado no livro de código adaptativo 110 é multiplicado pelo ganho de livro de código adaptativo Ga no multiplicador 113 e, então, extraído para o adicionador 114. O livro de código de ganho 111 armazena o número predeterminado de conjuntos de ganho de livro de código adaptativo Ga e de ganho de livro de código randômico Gs (vetor de ganho) e extrai o componente de ganho de livro de código adaptativo Ga e o componente de ganho de livro de código randômico Gs do vetor de ganho designado pelo índice de livro de código de ganho Gi introduzido a partir do minimizador de erro 108 respectivamente para os multiplicadores 113 e 112. Além disso, se o livro de código de ganho for construído com uma pluralidade de estágios, é possível reduzir uma quantidade de memória requerida para o livro de código de ganho e uma quantidade de computação requerida para a pesquisa do livro de código de ganho. Ainda, se o número de bits atribuídos para o livro de código de ganho for suficiente, é possível quantificar como escalar o ganho de livro de código adaptativo e o ganho de livro de código randômico independentemente um do outro. O adicionador 114 adiciona o vetor de código randômico e o vetor de código adaptativo respectivamente introduzidos a partir dos multiplicadores e extrai o sinal de vetor de excitação gerado para o filtro de síntese 104 e para o livro de código adaptativo 110.

Além disso, nesta realização, embora apenas o livro de código randômico 109 seja provido com modo múltiplo, é possível prover o livro de código adaptativo 110 e o livro de código de ganho 111 com o modo múltiplo e, desse modo, melhorar a qualidade. O fluxo de processamento do método de codificação de voz na realização mencionada acima é, em seguida, descrito com referência à FIG. 3. Esta explicação descreve o caso em que, no processamento de codificação de voz, o processamento é realizado para cada processamento de unidade com um comprimento de tempo predeterminado (quadro com o comprimento de tempo de umas poucas dezenas de milissegundos) e, ainda, o processamento é realizado para cada processamento de unidade mais curto (subquadro) obtido pela divisão de um quadro no número inteiro de comprimentos.

Na etapa (a partir deste ponto, abreviada para ST) 301, todas as memórias tais como o conteúdo do livro de código adaptativo, a memória do filtro de síntese e o armazenador temporário de entrada são limpas.

Em seguida, na ST302, dados de entrada, tais como um sinal de voz digital correspondente a um quadro, são introduzidos, e filtros tais como um filtro passa-banda e um filtro de passagem de banda são aplicados aos dados de entrada para realização de um cancelamento de desvio e limitação de largura de banda dos dados de entrada. O dado de entrada pré-processado é armazenado temporariamente em um armazenador temporário de entrada a ser usado no processamento de codificação seguinte.

Em seguida, na ST303, a análise de LPC (coeficientes de previsão linear) é realizada e os coeficientes de LP (previsão linear) são calculados.

Em seguida, na ST304, a quantificação dos coeficientes de LP calculados em ST303 é realizada. Embora vários métodos de quantificação dos LPC sejam propostos, a quantificação pode ser realizada efetivamente convertendo-se os LPC em parâmetros de LSP com boas características de interpolação para aplicar a quantificação de previsão utilizando a quantificação de vetor de estágio múltiplo e uma correlação entre quadros. Ainda, por exemplo, no caso de um quadro ser dividido em dois subquadros, é comum quantificar os LPC do segundo subquadro, e determinar os LPC do primeiro subquadro pelo processamento de interpolação do último quadro e os LPC quantificados do segundo subquadro do presente quadro.

Em seguida, na ST305, o filtro de ponderação perceptiva que realiza a ponderação perceptiva nos dados de entrada pré-processados é construído.

Em seguida, na ST306, um filtro de síntese de ponderação perceptiva que gera um sinal sintetizado de um domínio de ponderação perceptiva a partir do sinal de vetor de excitação é construído. Este filtro é compreendido por um filtro de síntese e um filtro de ponderação perceptiva em uma conexão de subordinação. O filtro de síntese é construído com o LPC quantificado na ST304, e o filtro de ponderação perceptiva é construído com o LPC calculado na ST303.

Em seguida, na ST307, a seleção de modo é realizada. A seleção de modo é realizada usando-se características estáticas e dinâmicas do LPC quantificado na ST304. Os exemplos de características especificamente usadas são uma evolução do LSP quantificado, coeficientes refletivos calculados a partir do LPC quantificado, e uma potência residual de previsão. A busca de livro de código randômico é realizada de acordo com o modo selecionado nesta etapa. Há pelo menos dois tipos de modos a serem selecionados nesta etapa. Um exemplo considerado é uma estrutura de dois modos de um modo de diálogo de voz e um modo de diálogo de silêncio e de ruído estacionário.

Em seguida, em ST 308, uma busca de livro de código adaptati-vo é realizada. A busca de livro de código adaptativo é para buscar um vetor de código adaptativo de modo que uma forma de onda sintetizada ponderada perceptiva seja gerada que seja a mais próxima de uma forma de onda obtida na realização da ponderação perceptiva nos dados de entrada pré-processados. Uma posição a partir da qual o vetor de código adaptativo é buscado é determinada de modo a minimizar um erro entre um sinal obtido da filtragem dos dados de entrada pré-processados com o filtro de pondera- ção perceptiva construído na ST305, e um sinal obtido pela filtragem do vetor de código adaptativo buscado a partir do livro de código adaptativo como um sinal de vetor de excitação com o filtro de síntese de ponderação perceptiva construído em ST306.

Em seguida, na ST309, a busca de livro de código randômico é realizada. A busca de livro de código randômico é para selecionar um vetor de código randômico para gerar um sinal de vetor de excitação de modo que uma forma de onda sintetizada de ponderação perceptiva seja gerada, que seja a mais próxima de uma forma de onda obtida pela realização da ponderação perceptiva sobre os dados de entrada pré-processados. A busca é realizada considerando-se que o sinal de vetor de excitação é gerado adi-cionando-se o vetor de código adaptativo e o vetor de código randômico. Assim sendo, o sinal de vetor de excitação é gerado adicionando-se o vetor de código adaptativo determinado na ST308 e o vetor de código randômico armazenado no livro de código randômico. O vetor de código randômico é selecionado a partir do livro de código randômico de modo a minimizar um erro entre um sinal obtido pela filtragem do sinal de vetor de excitação gerado com o filtro de síntese de ponderação perceptiva construído na ST306, e o sinal obtido pela filtragem dos dados de entrada pré-processados com o filtro de ponderação perceptiva construído na ST305. Além disso, no caso de um processamento tal como um processamento de período de passo ser realizado no vetor de código randômico, a busca é realizada também consi-derando-se um processamento como esse. Ainda, este livro de código randômico tem pelo menos dois tipos de modos. Por exemplo, a busca é realizada usando-se o livro de código randômico armazenando vetores de código randômico tipo de pulso no modo correspondente ao segmento de diálogo de voz, e usando-se um livro de código randômico armazenando vetores de código randômico tipo de ruído no modo correspondente ao segmento de diálogo de silêncio e ao segmento de ruído estacionário. O livro de código randômico, cujo modo é usado na pesquisa é selecionado na ST307.

Em seguida, na ST310, uma busca de livro de código de ganho é realizada. A busca de livro de código de ganho é para selecionar a partir do livro de código de ganho um par de ganho de livro de código adaptativo e de ganho de livro de código randômico respectivamente a serem multiplicados pelo vetor de código adaptativo determinado em ST308 e no vetor de código randômico determinado em ST309. O sinal de vetor de excitação é gerado pela adição do vetor de código adaptativo multiplicado pelo ganho de livro de código adaptativo e do vetor de código randômico multiplicado pelo ganho de livro de código randômico. O par de ganho de livro de código adaptativo e de ganho de livro de código randômico é selecionado a partir do livro de código de ganho, de modo a minimizar um erro entre um sinal obtido pela filtragem do sinal de vetor de excitação gerado com o filtro de síntese de ponderação perceptiva construído em ST306, e o sinal obtido pela filtragem dos dados de entrada pré-processados com o filtro de ponderação perceptiva construído em ST305.

Em seguida, na ST311, o sinal de vetor de excitação é gerado. O sinal de vetor de excitação é gerado pela adição de um vetor obtido mul-tiplicando-se o vetor de código adaptativo selecionado em ST308 pelo ganho de livro de código adaptativo selecionado em ST310 e um vetor obtido pela multiplicação do vetor de código randômico selecionado em ST309 pelo ganho de livro de código randômico selecionado em ST310.

Em seguida, na ST312, a atualização da memória usada em um laço do processamento de subquadro é realizada. Os exemplos especificamente realizados são a atualização do livro de código adaptativo e a atualização de estados do filtro de ponderação perceptiva e do filtro de síntese de ponderação perceptiva.

De ST305 a ST312, o processamento é realizado em uma base de subquadro por subquadro.

Em seguida, em ST313, a atualização de memória é usada em um laço do processamento de quadro. Os exemplos especificamente realizados são a atualização de estados do filtro usado na seção de pré-pro-cessamento, a atualização do armazenador temporário de LPC quantificado (no caso de a quantidade de previsão entre quadros de LPC ser realizada), e a atualização do armazenador temporário de dados de entrada.

Em seguida, em ST314, um dado codificado é extraído. O dado codificado é extraído para uma trajetória de transmissão, enquanto é submetido a um processamento de fluxo de bit e a um processamento de multi-plexação correspondente à forma da transmissão.

De ST302 a 304 e de ST313 a 314, o processamento é realizado em uma base de quadro por quadro. Ainda, o processamento em uma base de quadro por quadro e de subquadro por subquadro é iterado até que o dado de entrada seja consumido. (Segunda Realização) A FIG. 2 é um diagrama de blocos que ilustra uma configuração de um aparelho de decodificação de voz de acordo com a segunda realização da presente invenção. O código L representando o LPC quantificado, o código S representando um vetor de código randômico, o código P representando um vetor de código adaptativo, e o código G representando uma informação de ganho, cada um transmitido a partir de um codificador, são, respectivamente, introduzidos no decodificador de LPC 201, no livro de código randômico 203, no livro de código adaptativo 204 e no livro de código de ganho 205. O decodificador de LPC 201 decodifica o LPC quantificado a partir do código L para extração para um seletor de modo 202 e um filtro de síntese 209. O seletor de modo 202 determina um modo para o livro de código randômico 203 e para a seção de pós-processamento 211 usando o LPC quantificado introduzido a partir do decodificador de LPC 201, e extrai uma informação de modo M para o livro de código randômico 203 e a seção de pós-processamento 211. Além disso, o seletor de modo 202 também armazena informação previamente introduzida no LPC quantificado, e realiza a seleção de modo usando as características de uma evolução do LPC quantificado entre quadros e do LPC quantificado em um quadro atual. Há pelo menos dois tipos de modos, dos quais os exemplos são um modo correspondente a um segmento de diálogo de voz, um modo correspondente a um segmento de diálogo de silêncio e um modo correspondente a um segmento de ruído estacionário. Ainda, como informação para uso na seleção de um modo, não é necessário usar os LPC quantificados em si, e é mais efetivo usar parâmetros convertidos, tais como os LSP quantificados, coeficientes refletivos e potência residual de previsão linear. O livro de código randômico 203 armazena o número predeterminado de vetores de código randômico com formatos diferentes, e extrai um vetor de código randômico designado pelo índice de livro de código randômico obtido pela decodificação do código de entrada S. Este livro de código randômico 203 tem pelo menos dois tipos de modos. Por exemplo, o livro de código randômico 203 é configurado para gerar um vetor de código randômico tipo pulso no modo correspondente a um segmento de diálogo de voz, e ainda gerar um vetor de código randômico como ruído nos modos correspondentes a um segmento de diálogo de silêncio e a um segmento de ruído permanente. O vetor de código randômico extraído do livro de código randômico 203 é gerado com um modo único selecionado no seletor de modo 202 dentre pelo menos dois tipos de modos descritos acima, e multiplicado pelo ganho de livro de código randômico Gs no multiplicador 206 para ser extraído para o adicionador 208. O livro de código adaptativo 204 realiza um armazenamento temporário, enquanto atualiza o sinal de vetor de excitação previamente gerado seqüencialmente, e gera um vetor de código adaptativo usando o índice de livro de código adaptativo (período de passo (intervalo de passo)) obtido pela decodificação do código de entrada P. O vetor de código adaptativo gerado no livro de código adaptativo 204 é multiplicado pelo ganho de livro de código adaptativo Ga no multiplicador 207 e, então, extraído para o adicionador 208.

O livro de código de ganho 205 armazena o número predeterminado de conjuntos de ganho de livro de código adaptativo Ga e de ganho de livro de código randômico Gs (vetor de ganho) e extrai o componente de ganho de livro de código adaptativo Ga e o componente de ganho de livro de código randômico Gs do vetor de ganho designado pelo índice de livro de código de ganho Gi obtido pela decodificação do código de entrada G respectivamente para os multiplicadores 207 e 206. O adicionador 208 adiciona o vetor de código randômico e o vetor de código adaptativo respectivamente introduzidos a partir dos multiplicadores 206 e 207 para gerar o sinal de vetor de excitação, e extrai o sinal de vetor de excitação gerado para o filtro de síntese 209 e para o livro de código adaptativo 204.

Como o filtro de síntese 209, um filtro de síntese de LPC é construído usando-se o LPC quantificado introduzido a partir do decodificador de LPC 201. Com o filtro de síntese construído, o processamento de filtragem é realizado sobre o sinal de vetor de excitação introduzido a partir do adicionador 208 e o sinal resultante é extraído para o pós-filtro 210. O pós-filtro 210 realiza o processamento para melhorar as qualidades subjetivas de sinais de voz, tais como ênfase no passo, ênfase de uma formação, compensação de inclinação espectral e ajuste de ganho no sinal sintetizado introduzido a partir do filtro de síntese 209 para extração para uma seção de pós-processamento 211. A seção de pós-processamento 211 adaptativamente realiza sobre o sinal introduzido do pós-filtro 210 o processamento para melhorar as qualidades subjetivas do segmento de ruído estacionado, tais como um processamento de suavização entre quadro da amplitude espectral e um processamento de randomização da fase espectral usando a informação de modo M introduzida a partir do seletor de modo 202. Por exemplo, o processamento de suavização e o processamento de randomização raramente são realizados nos modos correspondentes a um segmento de diálogo de voz e a um segmento de diálogo de silêncio, e esse processamento é adaptativamente realizado no modo correspondente, por exemplo, ao segmento de ruído estacionário. O sinal pós-processado é extraído como um dado de saída tal como um sinal de voz decodificado digital.

Além disso, embora nesta realização a informação de modo M extraída do seletor de modo 202 seja usada na seleção de modo para o livro de código randômico 203 na seleção de modo para a seção de pós-processamento 211, o uso da informação de modo M para as seleções de modo também é efetivo. Neste caso, o correspondente realiza o processamento de modo múltiplo. O fluxo do processamento do método de decodificação de voz na realização mencionada acima é, em seguida, descrito com referência à FIG. 4. Esta explicação descreve o caso de, no processamento de codificação de voz, o processamento ser realizado para cada processamento de unidade com um comprimento de tempo predeterminado (quadro com o comprimento de tempo de umas poucas dezenas de milissegundos), e, ainda, o processamento é realizado para cada processamento de unidade mais curto (subquadro) obtido pela divisão do quadro no número inteiro de comprimentos.

Em ST401, todas as memórias tais como o conteúdo do livro de código adaptativo, a memória do filtro de síntese e o armazenador temporário são limpos.

Em seguida, na ST402, o dado codificado é decodificado. Especificamente, os sinais multiplexados recebidos são demultiplexados, e os sinais recebidos construídos em fluxos de bit são convertidos em códigos respectivamente representando o LPC quantificado, o vetor de código adaptativo, o vetor de código randômico e a informação de ganho.

Em seguida, em ST403, os LPC são decodificados. Os LPC são decodificados a partir do código representando o LPC quantificado obtido em ST402 com o procedimento inverso da quantificação dos LPC descrito na primeira realização.

Em seguida, em ST404, o filtro de síntese é construído com os LPC decodificados em ST403.

Em seguida, em ST405, a seleção de modo para o livro de código randômico e o pós-processamento é realizada usando-se as características estáticas e dinâmicas dos LPC decodificados em ST403. Os exemplos de características especificamente usadas são uma evolução dos LSP quantificados, coeficientes refletivos calculados a partir dos LPC quantificados e potência residual de previsão. A decodificação do vetor de código randômico e o pós-processamento são realizados de acordo com o modo selecionado nesta etapa. Há pelo menos dois tipos de modo, os quais, por exemplo, são compreendidos por um modo correspondente a um segmento de diálogo de voz, um modo correspondente a um segmento de diálogo de silêncio e um modo correspondente a um segmento de ruído estacionário.

Em seguida, na ST406, o vetor de código adaptativo é decodificado. O vetor de código adaptativo é decodificado pela decodificação de uma posição a partir da qual o vetor de código adaptativo é buscado a partir do livro de código adaptativo usando-se o código representando o vetor de código adaptativo e buscando-se o vetor de código adaptativo a partir da posição obtida.

Em seguida, em ST407, o vetor de código randômico é decodificado. O vetor de código randômico é decodificado pela decodificação do índice de livro de código randômico do código representando o vetor de código randômico, e recuperando-se o vetor de código randômico correspondente ao índice obtido a partir do livro de código randômico. Quando um outro processamento, tal como um processamento de período de passo do vetor de código randômico, é aplicado, um vetor de código randômico decodificado é obtido após ainda ser submetido ao processamento de período de passo. Este livro de código randômico tem pelo menos dois tipos de modos. Por exemplo, este livro de código randômico é configurado para gerar um vetor de código randômico tipo pulso no modo correspondente a um segmento de diálogo de voz, e ainda gerar um vetor de código randômico tipo ruído nos modos correspondentes a um segmento de diálogo de silêncio e a um segmento de ruído estacionário.

Em seguida, em ST408, o ganho de livro de código adaptativo e o ganho de livro de código randômico são decodificados. A informação de ganho é decodificada pela decodificação do índice de livro de código de ganho a partir do código representando a informação de ganho, e recuperando-se um par de ganho de livro de código adaptativo e de ganho de livro de código randômico com o índice obtido a partir do livro de código de ganho.

Em seguida, na ST409, o sinal de vetor de excitação é gerado. O sinal de vetor de excitação é gerado adicionando-se um vetor obtido pela multiplicação do vetor de código randômico selecionado em ST406 pelo ganho de livro de código adaptativo selecionado em ST408 e um vetor obtido pela multiplicação do vetor de código randômico selecionado em ST407 pelo ganho de livro de código randômico selecionado em ST408.

Em seguida, na ST410, um sinal decodificado é sintetizado. O sinal de vetor de excitação gerado em ST409 é filtrado com o filtro de síntese construído em ST404, e, desse modo, o sinal decodificado é sintetizado.

Em seguida, em ST411, o processamento pós-filtragem é realizado no sinal decodificado. O processamento de pós-filtragem é compreendido pelo processamento para melhorar as qualidades subjetivas de sinais decodificados, em particular, os sinais de voz decodificados, tais como o processamento de ênfase de passo, o processamento de ênfase de uma formação, o processamento de compensação de inclinação espectral e o processamento de ajuste de ganho.

Em seguida, em ST412, o pós-processamento final é realizado sobre o sinal decodificado sujeito a um processamento de pós-filtragem. O pós-processamento é compreendido pelo processamento das qualidades subjetivas melhoradas do segmento de ruído estacionário no sinal decodificado, tal como um processamento de suavização entre (sub)quadro da amplitude espectral e um processamento de randomização da fase espectral, e o processamento correspondente ao modo selecionado em ST405 é realizado. Por exemplo, o processamento de suavização e o processamento de randomização raramente são realizados nos modos correspondentes ao segmento de diálogo de voz e ao segmento de diálogo de silêncio, e esse processamento é realizado no modo correspondente ao segmento de ruído estacionário. O sinal gerado nesta etapa se torna o dado de saída.

Em seguida, em ST413, a atualização da memória usada em um laço do processamento de subquadro é realizada. Especificamente, são realizadas a atualização do livro de código adaptativo e a atualização de estados de filtros usados no processamento de pós-filtragem.

Da ST404 até a ST413, o processamento é realizado em uma base de subquadro por subquadro.

Em seguida, na ST414, a atualização de memória usada em um laço do processamento de quadro é realizada. Especificamente, são realizadas a atualização do armazenador temporário de LPC quantificado (decodificado) (no caso de ser realizada uma quantificação de previsão entre quadro do LPC) e a atualização do armazenador temporário de dado de saída.

Da ST402 a ST403 e na ST414, o processamento é realizado em uma base de quadro por quadro. Ainda, o processamento em uma base quadro por quadro é iterado até que o dado codificado seja consumido. (Terceira Realização) A FIG. 5 é um diagrama de blocos que ilustra um aparelho de transmissão de sinal de voz e um aparelho de recepção, respectivamente, providos com o aparelho de codificação de voz da primeira realização 1 e com o aparelho de decodificação de voz da segunda realização 2. A FIG. 5A ilustra o aparelho de transmissão e a FIG. 5B ilustra o aparelho de recepção.

No aparelho de transmissão de sinal de voz na FIG. 5A, o aparelho de entrada de voz 501 converte um diálogo em um sinal analógico elétrico para extração para um conversor A/D 501. O conversor A/D 502 converte o sinal de voz analógico em um sinal de voz digital para extração para um codificador de voz 503. O codificador de voz 503 realiza um processamento de codificação de voz no sinal de entrada, e extrai informação codificada para um modulador de RF 504. O modulador de RF 504 realiza a modulação, a amplificação e a difusão de código na informação de sinal de voz codificada para transmitir como um sinal de rádio, e extrai o sinal resultante para uma antena de transmissão 505. Finalmente, o sinal de rádio (sinal de RF) 506 é transmitido a partir da antena de transmissão 505.

Por outro lado, o aparelho de recepção na FIG. 5B recebe o sinal de rádio (sinal de RF) 506 com a antena de recepção 507, e extrai o sinal recebido para o demodulador de RF 508. O demodulador de RF 508 realiza o processamento tal como a concentração de código e a demodula-ção para converter o sinal de rádio em informação codificada, e extrai a in- formação codificada para o decodificador de voz 509. O decodificador de voz 509 realiza o processamento de decodificação sobre a informação codificada e extrai um sinal de voz decodificado digital para um conversor D/A 510. O conversor D/A 510 converte o sinal de voz decodificado digital extraído do decodificador de voz 509 para um sinal de voz decodificado analógico para extração para o aparelho de saída de voz 511. Finalmente, o aparelho de saída de voz 511 converte o sinal de voz decodificado analógico elétrico em um voz decodificado para extração. É possível usar o aparelho de transmissão e o aparelho de recepção mencionados acima como um aparelho de estação móvel e um aparelho de estação de base em aparelhos de comunicação móvel, tal como telefones portáteis. Além disso, o meio que transmite a informação não é limitado ao sinal de rádio descrito nesta realização, e pode ser possível usar opto-sinais e ainda é possível usar trajetórias de transmissão por cabo.

Ainda, pode ser possível obter o aparelho de codificação de voz descrito na primeira realização, o aparelho de decodificação de voz descrito na segunda realização, e o aparelho de transmissão e o aparelho de recepção descritos na terceira realização pela gravação de um programa correspondente em um meio de gravação, tal como um disco magnético, um disco opto-magnético e um cartucho ROM para uso como software. O uso deste meio de gravação assim obtido permite um computador pessoal usando um meio de gravação para obter um aparelho de codificação/decodificação de voz e um parelho de transmissão/recepção. (Quarta Realização) A quarta realização descreve exemplos de configurações de se-letores de modo 105 e 202 nas primeira e segunda realizações mencionadas acima. A FIG. 6 ilustra um seletor de modo de acordo com a quarta realização. O seletor de modo de acordo com esta realização é provido com a seção de extração de característica dinâmica 601 que extrai a característica dinâmica de parâmetros de LSP quantificados, e uma primeira e segunda seções de extração de característica estática 602 e 603 que extraem a característica estática dos parâmetros de LSP quantificados. A seção de extração de característica dinâmica 601 recebe um parâmetro de LSP quantificado de entrada na seção de suavização de tipo AR 604, para realizar um processamento de suavização. A seção de suavização de tipo AR 604 realiza o processamento de suavização expresso com a equação (1) a seguir em cada parâmetro de LSP quantificador de ordem que é introduzido para cada tempo de processamento de unidade, como um dado de seqüência de tempo: Ls[i] = (1 - a) x Ls[i] + ax L[i], i = 1,2.M, 0 < a < 1 ...(1) Ls[i]: parâmetro de LSP quantificado suavizado de iésima ordem L[i]: parâmetro de LSP quantificado de iésima ordem a: coeficiente de suavização M: ordem de análise de LSP

Além disso, na equação (1), o valor de α é regulado a cerca de 0,7, para evitar uma suavização muito forte. O parâmetro quantificado suavizado obtido com a equação (1) acima é ramificado para ser introduzido no adicionador 606 através da seção de atraso 605 e para ser diretamente introduzido no adicionador 606. A seção de atraso 605 retarda o parâmetro quantificado suavizado introduzido por um tempo de processamento de unidade para extração para o adicionador 606. O adicionador 606 recebe o parâmetro de LSP quantificado suavizado no tempo de processamento de unidade atual, e o parâmetro de LSP quantificado suavizado no último tempo de processamento de unidade. O adicionador 606 calcula uma evolução entre o parâmetro de LSP quantificado suavizado no tempo de processamento de unidade atual e o parâmetro de LSP quantificado suavizado no último tempo de processamento de unidade. A evolução é extraída para cada ordem do parâmetro de LSP. O resultado calculado pelo adicionador 606 é extraído para a seção de cálculo de soma ao quadrado 607. A seção de cálculo de soma ao quadrado 607 calcula a soma ao quadrado da evolução para cada ordem entre o parâmetro de LSP quantificado suavizado no tempo de processamento de unidade atual, e o parâmetro de LSP quantificado suavizado no último tempo de processamento de unidade. A seção de extração de característica dinâmica 601 recebe o parâmetro de LSP suavizado na seção de atraso 608 em paralelo com a seção de suavização de tipo AR 604. A seção de atraso 608 retarda o parâmetro de LSP quantificado introduzido por um tempo de processamento de unidade para extração para a seção de cálculo de média do tipo AR 611 através da chave 609. A chave 609 é conectada quando a informação de modo extraída da seção de atraso 610 é o modo de ruído para operar para introduzir o parâmetro de LSP quantificado extraído da seção de atraso 608 para a seção de cálculo de média do tipo AR 611. A seção de atraso 610 recebe a informação de modo extraída da seção de determinação de modo 621, e atrasa a informação de modo introduzida por um tempo de processamento de unidade para extração para a chave 609. A seção de cálculo de média do tipo AR 611 calcula o parâmetro de LSP médio pela região de ruído, baseado na equação (1) da mesma forma que a seção de suavização de tipo AR 604 para extração para o adicio-nador 612. Além disso, o valor de α na equação (1) é regulado para cerca de 0,05 para se realizar um processamento de suavização extremamente alto, e, desse modo, a média de longo tempo do parâmetro de LSP é calculada. O adicionador 612 calcula uma evolução para cada ordem entre o parâmetro de LSP quantificado no tempo de processamento de unidade atual, e o parâmetro de LSP quantificado médio na região de ruído calculado pela seção de cálculo de média do tipo AR 611. A seção de cálculo de soma ao quadrado 613 recebe a informação de diferença dos parâmetros de LSP quantificados extraída do adicionador 612, e calcula a soma ao quadrado para cada ordem para extração para a seção de detecção de região de fala 619. A extração de característica dinâmica 601 para o parâmetro de LSP quantificado é compreendida pelos componentes 604 a 613, como descrito acima. A primeira seção de extração de característica estática 602 calcula a potência residual de previsão linear a partir do parâmetro de LSP quantificado na seção de cálculo de potência residual de previsão linear 614, e ainda calcula uma região entre ordens vizinhas dos parâmetros de LSP quantificados como expresso pela equação (2) a seguir na seção de cálculo de região de LSP vizinha 615: Ld[i] = L[i + 1] - L[i], i = 1,2.M-1 ...(2) L[i]: parâmetro de LSP quantificado de iésima ordem O valor calculado na seção de cálculo de região de LSP vizinha 615 é provido para a seção de cálculo de variância 616. A seção de cálculo de variância 616 calcula a variância das regiões de parâmetro de LSP quantificado extraídas da seção de cálculo de região de LSP vizinha 615. No momento em que a variância é calculada, é possível refletir as características de pico e de vale, exceto pelo pico na freqüência mais baixa, eliminando-se os dados da freqüência mais baixa (Ld[1 ]) sem usar todos os dados das regiões de parâmetro de LSP. Em relação a um ruído estacionário com característica tal que os níveis na banda de freqüência baixa sejam elevados, quando um ruído como esse é passado através do filtro passa-banda, uma vez que um pico do espectro sempre aparece em torno da freqüência de corte do filtro, é efetivo cancelar a informação de um pico do espectro como esse. Em outras palavras, é possível extrair as características de pico e vale da envoltória espectral de um sinal de entrada e, portanto, para extrair as características estáticas para detectar uma região com alta possibilidade de a região ser uma região de fala. Ainda, de acordo com esta constituição, é possível separar a região de fala e a região de ruído estacionário com alta precisão. A primeira seção de extração de característica estática 602 para o parâmetro de LSP quantificado é compreendida pelos componentes 614, 615 e 616, como descrito acima.

Na segunda seção de extração de característica estática 603, a seção de cálculo de coeficiente refletivo 617 converte o parâmetro de LSP quantificado em um coeficiente refletivo para extração para uma seção de julgamento de fala/silêncio 620. Concorrentemente com o processamento acima, a seção de previsão de cálculo de potência residual de previsão linear 618 calcula a potência residual de previsão linear a partir do parâmetro de LSP quantificado para extração para a seção de julgamento de fala/silêncio 620.

Além disso, uma vez que a seção de previsão de cálculo de potência residual de previsão linear 618 é a mesma que a seção de cálculo de potência residual de previsão linear 614, é possível compartilhar um componente como as seções 614 e 618. A segunda seção de extração de característica estática 603 para o parâmetro de LSP quantificado é compreendida pelos componentes 617 e 618, como descrito acima.

As extrações da seção de extração de característica dinâmica 601 e da primeira seção de extração de característica estática 602 são providas para a seção de detecção de região de fala 619. A seção de detecção de região de fala 619 recebe uma quantidade de evolução do parâmetro de LSP quantificado suavizado introduzido a partir da seção de cálculo de soma ao quadrado 607, uma distância entre o parâmetro de LSP quantificado médio do segmento de ruído e o parâmetro de LSP quantificado atual introduzido a partir da seção de cálculo de soma ao quadrado 613, a potência residual de previsão linear quantificada introduzida a partir da seção de cálculo de potência residual de previsão linear 614, e a informação de variân-cia dos dados de região de LSP vizinha introduzidos a partir da seção de cálculo de variância 616. Então, usando esta informação, a seção de detecção de região de fala 619 julga se um sinal de entrada (ou um sinal decodificado) no tempo de processamento de unidade atual é ou não uma região de sinal, e extrai o resultado julgado para a seção de determinação de modo 621. O método mais específico para julgar se o sinal de entrada é uma regi- ão de fala é descrito mais tarde usando-se a FIG. 8.

Por outro lado, uma saída da segunda seção de extração de característica estática 603 é provida para a seção de julgamento de fa-la/silêncio 620. A seção de julgamento de fala/silêncio 620 recebe o coeficiente refletivo introduzido a partir da seção de cálculo de coeficiente refletivo 617, e a potência residual de previsão linear quantificada introduzida a partir da seção de previsão de cálculo de potência residual de previsão linear 618. Então, usando esta informação, a seção de julgamento de fala/silêncio 620 julga se o sinal de entrada (sinal decodificado) no tempo de processamento de unidade atual é uma região de fala ou uma região de silêncio, e extrai o resultado julgado para a seção de determinação de modo 621. O método de julgamento de fala/silêncio mais específico é descrito mais tarde usando-se a FIG. 9. A seção de determinação de modo 621 recebe o resultado julgado a partir da seção de detecção de região de fala 619 e o resultado julgado extraído da seção de julgamento de fala/silêncio 620, e usando esta informação, determina um modo do sinal de entrada (ou sinal decodificado) no tempo de processamento de unidade atual para extração. O método de classificação de modo mais específico é descrito mais tarde usando-se a FIG. 10.

Além disso, embora as seções de tipo AR sejam usadas como a seção de suavização e a seção de cálculo de média nesta realização, pode ser possível realizar a suavização e o cálculo de média usando-se outros métodos. O detalhe do método de julgamento de região de fala na realização mencionada acima é, em seguida, explicado com referência à FIG. 8.

Em primeiro lugar, em ST801, o primeiro parâmetro dinâmico (Paral) é calculado. O conteúdo específico do primeiro parâmetro dinâmico é uma quantidade de evolução do parâmetro de LSP quantificado para cada tempo de processamento de unidade, e expresso com a equação (3) a seguir: °(f) = E1“(í5Í'(í)-£S''(f-1))2 (3) LSi(t): LSP quantificado suavizado no tempo t Em seguida, em ST802, é verificado se o primeiro parâmetro dinâmico é ou não maior do que um limite predeterminado Th1. Quando o parâmetro excede o limite Th1, uma vez que a quantidade de evolução do parâmetro de LSP quantificado é grande, é julgado que o sinal de entrada é uma região de fala. Por outro lado, quando o parâmetro é igual ou menor do que o limite Th1, uma vez que a quantidade de evolução do parâmetro de LSP quantificado é pequena, o processamento prossegue para ST803, e ainda prossegue para as etapas para um processamento de julgamento com um outro parâmetro.

Na ST802, quando o primeiro parâmetro dinâmico é igual ou menor do que o limite Th1, o processamento prossegue para a ST803, onde o número de um contador indicativo do número de vezes que a região de ruído estacionário é julgada previamente. O valor inicial do contador é 0, e é incrementado por 1 para cada tempo de processamento de unidade julgado como a região de ruído estacionário com o método de determinação de modo. Na ST803, quando o número do contador se igualar ou for menor do que um limite predeterminado ThC, o processamento prossegue para a ST804, onde é julgado se o sinal de entrada é ou não uma região de fala usando-se o parâmetro estático. Por outro lado, quando o número do contador exceder ao limite ThC, o processamento prossegue para ST806, onde é julgado se o sinal de entrada é ou não uma região de fala usando-se o segundo parâmetro dinâmico.

Dois tipos de parâmetro são calculados em ST804. Um é a potência residual de previsão linear (Para3) calculada a partir dos parâmetros de LSP quantificados, e o outro é a variância da informação de diferença de ordens vizinhas de parâmetros de LSP quantificados (Para4). A potência residual de previsão linear é obtida pela conversão dos parâmetros de LSP quantificados em coeficientes de previsão linear e usando-se a equação de relação no algoritmo de Levinson-Durbin. Sabe-se que a potência residual de previsão linear tende a ser mais alta em um segmento de silêncio do que em um segmento de voz, e, portanto, a potência residual de previsão linear é usada como um critério do julgamento de fala/silêncio. A informação de diferença de ordens vizinhas dos parâmetros de LSP quantificados é expressa com a equação (2), e a variância desses dados é obtida. Contudo, há alguns casos, os quais dependem dos tipos de ruídos e de limitação de largura de banda da existência do pico espectral na banda de freqüência mais baixa. Portanto, é preferível obter a variância usando-se os dados de i = 2 a M - 1 (Méa ordem de análise) na equação (2), sem usar a informação de diferença das ordens vizinhas na borda de freqüência baixa (i = 1 na equação (2)). No sinal de voz, uma vez que há cerca de três vogais em uma banda de telefone (200 Hz a 3,4 kHz), as regiões de LSP têm porções largas e porções estreitas e, portanto, a variância dos dados de região tende a ser aumentada. Por outro lado, no ruído estacionário, uma vez que não há nenhuma estrutura de formação, as regiões de LSP usualmente têm regiões relativamente iguais, e, portanto, uma variação como essa tende a ser diminuída. Pelo uso dessas características, é possível julgar se o sinal de entrada é ou não uma região de ruído. Contudo, há o caso de algum tipo de ruído ter o pico espectral a uma banda de freqüência baixa, como descrito previamente. Neste caso, a região de LSP na banda de freqüência mais baixa se torna estreita e, portanto, a variância obtida usando-se todos os dados de evolução de LSP vizinhos diminui a diferença causada pela presença ou pela ausência da estrutura de formação, desse modo diminuindo a precisão do julgamento. Assim sendo, a obtenção da variância com a informação de diferença de LSP vizinho na borda de freqüência baixa eliminada impede uma deterioração como essa da precisão. Contudo, uma vez que um parâmetro estático como esse tem uma capacidade de julgamento menor do que a do parâmetro dinâmico, é preferível usar o parâmetro estático como uma informação suplementar. Dois tipos de parâmetros calculados em ST804 são usados em ST805.

Em seguida, em ST805, dois tipos de parâmetros calculados em ST804 são processados com um limite. Especificamente, no caso de a potência residual de previsão linear (Para3) ser igual ou menor do que um limite Th3, e a variância (Para4) do dado de região de LSP vizinha ser igual ou maior do que um limite Th4, é julgado que o sinal de entrada é uma região de fala. Em outros casos, é julgado que o sinal de entrada é uma região de ruído estacionário (região de silêncio). Quando a região de ruído estacionário é julgada, o valor do contador é incrementado por 1.

Na ST806, o segundo parâmetro dinâmico (Para2) é calculado. O segundo parâmetro dinâmico é um parâmetro indicativo de um grau de similaridade entre o parâmetro de LSP quantificado médio em uma região de ruído estacionário anterior e o parâmetro de LSP quantificado no tempo de processamento de unidade atual e, especificamente, como expresso na equação (4), é obtido como a soma ao quadrado de valores diferentes obtidos para cada ordem usando-se os dois tipos mencionados acima de parâmetros de LSP quantificados: Li(t): LSP quantificado no tempo t LAi: LSP quantificado médio de uma região de ruído O segundo parâmetro dinâmico obtido é processado com o limite em ST807.

Em seguida, na etapa ST807, é determinado se o segundo parâmetro dinâmico excede ou não o limite Th2. Quando o segundo parâmetro dinâmico excede o limite Th2, uma vez que o grau de similaridade para o parâmetro de LSP quantificado médio na região de ruído estacionário anterior é baixo, é julgado que o sinal de entrado é uma região de fala. Quando o segundo parâmetro dinâmico é igual ou menor que o limite Th2, uma vez que o grau de similaridade com o parâmetro de LSP quantificado médio na região de ruído estacionário anterior é alto, é julgado que o sinal de entrada é a região de ruído estacionário. O valor do contador é incrementado de 1 quando o sinal de entrada for julgado como a região de ruído estacionário. O método de julgamento de região de fala/região de silêncio na realização mencionada acima é, em seguida, explicado com referência à FIG. 9.

Em primeiro lugar, na ST901, um coeficiente refletivo de primeira ordem é calculado a partir do parâmetro de LSP quantificado no tempo de processamento de unidade atual. O coeficiente refletivo é calculado após o parâmetro de LSP ser convertido no coeficiente de previsão linear.

Em seguida, na ST902, é determinado se o coeficiente refletivo mencionado acima excede ou não ao primeiro limite Th1. Quando o coeficiente exceder ao limite Th1, é julgado que o tempo de processamento de unidade atual é a região de silêncio, e o processamento de julgamento de fala/silêncio é terminado. Quando o coeficiente for igual ou menor do que o limite Th1, o processamento de julgamento de fala/silêncio é mais continuado.

Quando a região não é julgada como a região de silêncio em ST902, em ST903, é determinado se o coeficiente refletivo mencionado acima excede ou não ao segundo limite Th2. Quando o coeficiente exceder o limite Th2, o processamento prossegue para ST905, e quando o coeficiente é igual ou menor que o limite Th2, o processamento prossegue para ST904.

Quando o coeficiente refletivo mencionado acima for igual ou menor ao segundo limite Th2 em ST903, em ST904, é determinado se o coeficiente refletivo mencionado acima excede ou não ao terceiro limite Th3. Quando o coeficiente exceder ao limite Th3, o processamento prossegue para ST907, e quando o coeficiente for igual ou menor ao limite Th3, a região é julgada como a região de fala, e o processamento de julgamento de fala/silêncio é terminado.

Quando o coeficiente refletivo mencionado acima excede ao segundo limite Th2 em ST903, a potência residual de previsão linear é calculada em ST905. A potência residual de previsão linear é calculada após o LSP quantificado ser convertido no coeficiente de previsão linear.

Em ST906, seguindo-se à ST905, é determinado se a potência residual de previsão linear mencionada acima excede ou não ao limite Th4. Quando a potência exceder ao limite Th4, é julgado que a região é a região de silêncio, e o processamento de julgamento de fala/silêncio é terminado. Quando a potência for igual ou menor do que o limite Th4, é julgado que a região é a região de fala, e o processamento de julgamento de fala/silêncio é terminado.

Quando o coeficiente refletivo mencionado acima exceder ao terceiro limite Th3 em ST904, a potência residual de previsão linear é calculada em ST907.

Em ST908, seguindo-se à ST907, é determinado se a potência residual de previsão linear mencionada acima excede ou não ao limite Th5. Quando a potência exceder ao limite Th5, é julgado que a região é a região de silêncio, e o processamento de julgamento de fala/silêncio é terminado. Quando a potência for igual ou menor do que o limite Th5, é julgado que a região é a região de fala, e o processamento de julgamento de fala/silêncio é terminado. O método de determinação de modo usado na seção de determinação de modo 621 é, em seguida, explicado com referência à FIG. 10.

Em primeiro lugar, em ST1001, o resultado de detecção de região de fala é introduzido. Esta etapa pode ser um bloco em si que realize o processamento de detecção de região de fala.

Em seguida, em ST1002, é determinado se determina-se que um modo é o modo de ruído estacionário, baseado no resultado de julgamento de a região ser ou não a região de fala. Quando a região é a região de fala, o processamento prossegue para ST1003. Quando a região não é a região de fala (região de ruído estacionário), o resultado de determinação de modo indicativo do modo de ruído estacionário é extraído, e o processamento de determinação de modo é acabado.

Quando for determinado que a região não é o modo de ruído estacionário em ST1002, o resultado do julgamento de fala/silêncio é introduzido em ST1003. Esta etapa pode ser um bloco em si que realize o processamento de determinação de fala/silêncio.

Seguindo-se à ST1003, a determinação de modo é realizada para determinar se o modo é o modo de região de fala ou o modo de região de silêncio, baseado no resultado do julgamento de fala/silêncio. Quando o resultado do julgamento indicativo do modo de região de fala é extraído, e o processamento de determinação de modo é terminado. Quando o resultado do julgamento de fala/silêncio é indicativo da região de silêncio, o resultado da determinação de modo indicativo do modo de região de silêncio é extraído, e o processamento de determinação de modo é terminado. Como descrito acima, usando-se o resultado da detecção de região de fala e o julgamento de fala/silêncio, os modos dos sinais introduzidos (ou sinais decodificados) em um bloco de processamento de unidade atual são classificados em três modos. (Quinta Realização) A FIG. 7 é um diagrama de blocos que ilustra uma configuração de uma seção de pós-processamento de acordo com a quinta realização da presente invenção. A seção de pós-processamento é usada no aparelho de decodificação de sinal de voz descrito na segunda realização com o seletor de modo descrito na quarta realização combinados. A seção de pós-processamento ilustrada na FIG. 7 é provida com chaves de seleção de modo 705, 708, 707 e 711, uma seção de suavização de amplitude espectral 706, seções de randomização de fase espectral 709 e 710, e seções de re-gulagem de limite 703 e 716. O filtro de síntese de ponderação 701 recebe o LPC decodificado extraído do decodificador de LPC 201 no aparelho de decodificação de voz previamente descrito para construir o filtro de síntese de ponderação perceptiva, realiza um processamento de filtragem de ponderação no sinal de voz sintetizado extraído do filtro de síntese 209 ou do pós-filtro 210 no aparelho de decodificação de voz, para extração para a seção de processamento de FFT 702. A seção de processamento de FFT 702 realiza o processamento de FFT no sinal decodificado processado ponderado extraído do filtro de síntese de ponderação 701, e extrai uma amplitude de sinal WSAi para a primeira seção de regulagem de limite 703, para a primeira seção de suavi-zação de amplitude espectral 706 e para a primeira seção de randomização de fase espectral 709. A primeira seção de regulagem de limite 703 calcula a média da amplitude espectral calculada na seção de processamento de FFT 702 usando todos os componentes de sinal de freqüência, e usando a média calculada como uma referência, extrai o limite Th1 para a primeira seção de suavização de amplitude espectral 706 e para a primeira seção de randomização de fase espectral 709. A seção de processamento de FFT 704 realiza o processamento de FFT no sinal de voz sintetizado extraído do filtro de síntese 209 e do pós-filtro 210 no aparelho de decodificação de voz, extrai a amplitude espectral para as chaves de seleção de modo 705 e 712, para o adicionador 715 e para a segunda seção de randomização de fase espectral 710, e ainda extrai a fase espectral para a chave de seleção de modo 708. A chave de seleção de modo 705 recebe a informação de modo (Mode) extraída do seletor de modo 202 no aparelho de decodificação de voz e a informação de diferença (Diff) extraída do adicionador 715, e julga se o sinal decodificado no tempo de processamento de unidade atual é a região de fala ou a região de ruído estacionário. A chave de seleção de modo 705 conecta-se à chave de seleção de modo 707 quando julga que o sinal decodificado é a região de fala, enquanto se conecta à primeira seção de suavização de amplitude espectral 706 quando julga que o sinal decodificado é a região de ruído estacionário. A primeira seção de suavização de amplitude espectral 706 recebe a amplitude espectral SAi extraída da seção de processamento de FFT 704 através da chave de seleção de modo 705, e realiza um processamento de suavização sobre uma componente de sinal com uma freqüência determinada pelo primeiro limite Th1 introduzido e pela amplitude espectral ponderada WSAi para extração para a chave de seleção de modo 707. A determinação da componente de sinal com a freqüência a ser processada para suavização é realizada determinando-se se a amplitude espectral pondera- da WSAi é menor ou igual ao primeiro limite Th1. Em outras palavras, o processamento de suavização da amplitude espectral SAi é realizado sobre a componente de sinal com a freqüência i, de modo que WSAi seja igual ou menor do que Th1. O processamento de suavização reduz a descontinuida-de no tempo da amplitude espectral causada pela distorção de codificação. No caso de o processamento de suavização ser realizado com o tipo AR expresso com a equação (1), o coeficiente α pode ser regulado a cerca de 0,1 quando o número de pontos de FFT for 128, e o tempo de processamento de unidade for de 10 ms.

Como a chave de seleção de modo 705, a chave de seleção de modo 707 recebe a informação de modo (Mode) extraída do seletor de modo 202 no aparelho de decodificação de voz, e a informação de diferença (Diff) extraída do adicionador 715, e julga se o sinal decodificado no tempo de processamento de unidade atual é a região de fala ou a região de ruído estacionário. A chave de seleção de modo 707 se conecta à chave de seleção de modo 705 quando julga que o sinal decodificado é a região de fala, enquanto se conecta à primeira seção de suavização de amplitude espectral 706 quando julga que o sinal decodificado é a região de ruído estacionário. O resultado do julgamento é o mesmo que aquele pela chave de seleção de modo 705. Uma saída da chave de seleção de modo 707 é conectada à seção de processamento de IFFT 720. A chave de seleção de modo 708 é uma chave da qual a saída é chaveada de modo síncrono com a chave de seleção de modo 705. A chave de seleção de modo 708 recebe a informação de modo (Mode) extraída do seletor de modo 202 no aparelho de decodificação de voz e a informação de diferença (Diff) extraída do adicionador 715, e julga se o sinal decodificado no tempo de processamento de unidade atual é a região de fala ou a região de ruído estacionário. A chave de seleção de modo 708 se conecta à segunda seção de randomização de fase espectral 710 quando julga que o sinal decodificado é a região de fala, enquanto se conecta à primeira seção de randomização de fase espectral 709 quando julga que o sinal decodificado é a região de ruído estacionário. O resultado de julgamento é o mesmo que aquele pela chave de seleção de modo 705. Em outras palavras, a chave de seleção de modo 708 é conectada à primeira seção de randomização de fase espectral 709 quando a chave de seleção de modo 705 está conectada à primeira seção de suavização de amplitude espectral 706, e a chave de seleção de modo 708 é conectada à segunda seção de randomização de fase espectral 710 quando a chave de seleção de modo 705 estiver conectada à chave de seleção de modo 707. A primeira seção de randomização de fase espectral 709 recebe a fase espectral SPi extraída da seção de processamento de FFT 704 através da chave de seleção de modo 708, e realiza um processamento de randomização sobre uma componente de sinal com uma freqüência determinada pelo primeiro limite introduzido Th1 e pela amplitude espectral ponderada WSAi para extração para a chave de seleção de modo 711. O método para determinação da componente de sinal na freqüência a ser processada para randomização é da mesma forma que para a determinação da componente de sinal na freqüência a ser processada para suavização na primeira seção de suavização de amplitude espectral 706. Em outras palavras, o processamento de randomização de fase espectral SPi é realizado sobre a componente de sinal com a freqüência i, de modo que WSAi seja igual ou menor do que Th1. A segunda seção de randomização de fase espectral 710 recebe a fase espectral SPi extraída da seção de processamento de FFT 704 através da chave de seleção de modo 708, e realiza o processamento de randomização sobre uma componente de sinal com uma freqüência determinada pelo segundo limite introduzido Th2i e pela amplitude espectral SAi para extração para a chave de seleção de modo 711. O método para determinação da componente de sinal na freqüência a ser processada para randomização é similar àquele na primeira seção de randomização de fase espectral 709. Em outras palavras, o processamento de randomização de fase espectral SPi é realizado sobre a componente de sinal com a freqüência i de modo que SAi seja igual ou menor do que Th2i. A chave de seleção de modo 711 opera de modo síncrono com a chave de seleção de modo 707. Como a chave de seleção de modo 707, a chave de seleção de modo 710 recebe a informação de modo (Mode) extraída da seletor de modo 202 no aparelho de decodificação de voz e a informação de diferença (Diff) extraída do adicionador 715, e julga se o sinal decodificado no tempo de processamento de unidade atual é a região de fala ou a região de ruído estacionário. A chave de seleção de modo 711 se conecta à segunda seção de randomização de fase espectral 710 quando julga que o sinal decodificado é a região de fala, enquanto se conecta à primeira seção de randomização de fase espectral 709 quando julga que o sinal decodificado é a região de ruído estacionário. O resultado de julgamento é o mesmo que aquele pela chave de seleção de modo 708. Uma saída da chave de seleção de modo 711 é conectada à seção de processamento de IFFT 720.

Como a chave de seleção de modo 705, a chave de seleção de modo 712 recebe a informação de modo (Mode) extraída do seletor de modo 202 no aparelho de decodificação de voz e a informação de diferença (Diff) extraída do adicionador 715, e julga se o sinal decodificado no tempo de processamento de unidade atual é a região de fala ou a região de ruído estacionário. Quando for julgado que o sinal decodificado não é a região de fala (é a região de ruído estacionário), a chave de seleção de modo 712 é conectada para extrair a amplitude espectral SAi extraída da seção de processamento de FFT 704 para a segunda seção de suavização de amplitude espectral 713. Quando for determinado que o sinal decodificado é a região de fala, a chave de seleção de modo 712 é desconectada e, portanto, a amplitude espectral SAi não é extraída para a segunda seção de suavização de amplitude espectral 713. A segunda seção de suavização de amplitude espectral 713 recebe a amplitude espectral SAi extraída da seção de processamento de FFT 704 através da chave de seleção de modo 712, e realiza o processamento de suavização sobre as componentes de sinal em todas as bandas de fre-qüência. A amplitude espectral média na região de ruído estacionário pode ser obtida por meio deste processamento de suavização. O processamento de suavização é o mesmo que na primeira seção de suavização de amplitude espectral 706. Além disso, quando a chave de seleção de modo 712 é desconectada, a seção 713 não realiza o processamento, e uma amplitude espectral suavizada SSAi da região de ruído estacionário, a qual é processada por último, é extraída. A amplitude espectral suavizada SSAi processada na segunda seção de suavização de amplitude espectral 713 é extraída para a seção de atraso 714, para a segunda seção de regulagem de limite 716 e para uma chave de seleção de modo 718. A seção de atraso 714 atrasa a SSAi introduzida, extraída da segunda seção de suavização de amplitude espectral 713 por um tempo de processamento de unidade para extração para o adicionador 715. O adicionador 715 calcula uma diferença entre a amplitude espectral suavizada SSAi da região de ruído estacionário no último tempo de processamento de unidade e a amplitude espectral SAi no tempo de processamento de unidade atual para extração para as chaves de modo 705, 707, 708, 711, 712, 718 e 719. A segunda seção de regulagem de limite 716 regula o limite Th2i usando como referência a amplitude espectral suavizada SSAi da região de ruído estacionário extraída da segunda seção de suavização de amplitude espectral 713 para extração para a segunda seção de randomiza-ção de fase espectral 710. A seção de geração de fase espectral randômica 717 extrai uma fase espectral gerada randomicamente para a chave de seleção de modo 719.

Como a chave de seleção de modo 712, a chave de seleção de modo 718 recebe a informação de modo (Mode) extraída do seletor de modo 202 no aparelho de decodificação de voz e a informação de diferença (Diff) extraída do adicionador 715, e julga se o sinal decodificado no tempo de processamento de unidade atual é a região de fala ou a região de ruído estacionário. Quando for julgado que o sinal decodificado é a região de fala, a chave de seleção de modo 718 é conectada para extração de uma saída da segunda seção de suavização de amplitude espectral 713 para a seção de processamento de IFFT 720. Quando for determinado que o sinal decodificado não é a região de fala (região de ruído estacionário), a chave de seleção de modo 718 é desconectada e, portanto, a saída da segunda seção de suavização de amplitude espectral 713 não é extraída para a seção de processamento de IFFT 720. A chave de seleção de modo 719 é chaveada de modo síncrono com a chave de seleção de modo 718. Como a chave de seleção de modo 718, a chave de seleção de modo 719 recebe a informação de modo (Mode) extraída do seletor de modo 202 no aparelho de decodificação de voz e a informação de diferença (Diff) extraída do adicionador 715, e julga se o sinal decodificado no tempo de processamento de unidade atual é a região de fala ou a região de ruído estacionário. Quando for julgado que o sinal decodificado é a região de fala, a chave de seleção de modo 719 é conectada para extração de uma saída da seção de geração de fase espectral randô-mica 717 para a seção de processamento de IFFT 720. Quando for julgado que o sinal decodificado não é a região de fala (é a região de ruído estacionário), a chave de seleção de modo 719 é desconectada e, portanto, a saída da seção de geração de fase espectral randômica 717 não é extraída para a seção de processamento de IFFT 720. A seção de processamento de IFFT 720 recebe a amplitude espectral extraída da chave de seleção de modo 707, a fase espectral extraída da chave de seleção de modo 711, a amplitude espectral extraída da chave de seleção de modo 718, e a fase espectral extraída da seção de seleção de modo 719 para realização do processamento de IFFT, e extrai o sinal processado. Quando as chaves de seleção de modo 718 e 719 são desco-nectadas, a seção de processamento de IFFT 720 transforma a amplitude espectral introduzida da seleção de modo 707 e a fase espectral introduzida a partir da chave de seleção de modo 711 em um espectro de parte real e um espectro de parte imaginária de FFT, então realiza o processamento de IFFT, e extrai a parte real da resultante como um sinal de tempo. Por outro lado, quando as chaves de seleção de modo 718 e 719 são conectadas, a seção de processamento de IFFT 720 transforma a amplitude espectral in- traduzida da seleção de modo 707 e a fase espectral introduzida da chave de seleção de modo 711 em um primeiro espectro de parte real e em um primeiro espectro de parte imaginária, e ainda transforma a amplitude espectral introduzida da seleção de modo 718 e a fase espectral introduzida da chave de seleção de modo 719 em um segundo espectro de parte real e em um segundo espectro de parte imaginária para adição, e, então, realiza o processamento de IFFT. Em outras palavras, assumindo que uma terceira parte real seja obtida pela adição do primeiro espectro de parte real ao segundo espectro de parte real, e que uma terceira parte imaginária seja obtida pela adição do primeiro espectro de parte imaginária ao segundo espectro de parte imaginária, o processamento de IFFT é realizado usando-se o terceiro espectro de parte real e o terceiro espectro de parte imaginária. No momento da adição dos espectros mencionados acima, o segundo espectro de parte real e o segundo espectro de parte imaginária são atenuados por tempos constantes ou por uma variável controlada adaptativamente. Por exemplo, no momento da adição dos espectros mencionados acima, o segundo espectro de parte real é multiplicado por 0,25 e então adicionado ao primeiro espectro de parte real, e o segundo espectro de parte imaginária é multiplicado por 0,25 e então adicionado ao primeiro espectro de parte imaginária, desse modo obtendo-se o terceiro espectro de parte real e o terceiro espectro de parte imaginária. O método de pós-processamento previamente descrito é, em seguida, explicado usando-se as FIG. 11 e 12. A FIG. 11 é um fluxograma que ilustra o processamento específico do método de pós-processamento nesta realização.

Em primeiro lugar, em ST1101, a amplitude espectral logarítmi-ca de FFT (WSAi) de um sinal de entrada ponderado perceptivo (sinal de voz decodificado) é calculado.

Em seguida, em ST1102, o primeiro limite Th1 é calculado. Th1 é obtido adicionando-se uma constante k1 à média de WSAi. O valor de k1 é determinado empiricamente, e, por exemplo, é cerca de 0,4 na região lo-garítmica comum. Assumindo que o número de pontos de FFT é N, e que a amplitude espectral de FFT é WSAi (i = 1, 2, N), a média de WSAi é ob- tida calculando-se o valor médio de um número N/2 de WSAi, porque WSAi é simétrica em relação à fronteira de i = N/2 e i = N/2 + 1.

Em seguida, em ST1103, a amplitude espectral logarítmica de FFT (SAi) e a fase espectral de FFT (SPi) de um sinal de entrada (sinal de voz decodificado) que não é ponderado perceptivo são calculadas.

Em seguida, em ST1104, a diferença espectral (Diff) é calculada. A diferença espectral é o total de espectros residuais, cada um obtido pela subtração da amplitude espectral logarítmica de FFT média (SSAi) na região previamente julgada como a região de ruído estacionário da amplitude espectral logarítmica de FFT atual (SAi). A diferença de espectros Diff obtida nesta etapa é um parâmetro para julgar se a potência atual é maior ou não do que a potência média da região de ruído estacionário. Quando a potência atual for maior do que a potência média da região de ruído estacionário, a região tem um sinal diferente de uma componente de ruído estacionário e, portanto, a região é julgada como não sendo a região de ruído estacionário.

Em seguida, em ST1105, o contador é verificado. O contador é indicativo do número de vezes que o sinal decodificado é julgado como a região de ruído estacionário previamente. No caso de o número do contador ser maior do que um valor predeterminado, em outras palavras, quando for julgado que o sinal decodificado é a região de ruído estacionário previamente com algum grau de estabilidade, o processamento prossegue para a ST1107. No outro caso, em outras palavras, quando for pouco julgado que o sinal decodificado é a região de ruído estacionário preferencialmente, o processamento prossegue para a ST1106. A diferença entre a ST1106 e a ST1107 é que a diferença espectral (Diff) é usada ou não como um critério de julgamento. A diferença espectral (Diff) é calculada usando-se a amplitude espectral logarítmica de FFT média (SSAi) na região previamente julgada como a região de ruído estacionário. Para obter uma amplitude espectral logarítmica de FFT média (SSAi), é necessário usar uma região de ruído estacionário prévia com um comprimento de tempo suficiente de certo grau e, portanto, a ST1105 é provida. Quando não houver nenhuma região de ruído estacionário prévia com um comprimento de tempo suficiente, uma vez que é considerado que a amplitude espectral logarítmica de FFT média (SSAi) não foi ponderada suficientemente, pretende-se que o processamento prossiga para a ST1106 na qual a diferença espectral (Diff) não é usada. O valor inicial do contador é 0.

Em seguida, na ST1106 ou na ST1107, é julgado se o sinal decodificado é ou não a região de ruído estacionário. Na ST1106, é julgado que o sinal decodificado é a região de ruído estacionário, no caso de um modo de excitação que já foi determinado no aparelho de decodificação de voz ser o modo de região de ruído estacionário. Na ST1107, é julgado que o sinal decodificado é a região de ruído estacionário no caso de um modo de excitação que já foi determinado no aparelho de decodificação de voz ser o modo de região de ruído estacionário, e a diferença espectral (Diff) calculada em ST1104 é igual ou menor que o limite K3. Na ST1106 ou na ST1107, o processamento prossegue para ST1108, quando for julgado que o sinal decodificado é a região de ruído estacionário, enquanto o processamento prossegue para ST1113 quando for julgado que o sinal decodificado não é a região de ruído estacionário, em outras palavras, que o sinal decodificado é a região de fala.

Quando for julgado que o sinal decodificado é a região de ruído estacionário, o processamento de suavização é, em seguida, realizado na ST1108, para obter o espectro logarítmico de FFT médio (SSAi) da região de ruído estacionário. Na equação em ST1108, β é uma constante indicativa de uma intensidade de suavização na faixa de 0,0 a 0,1. β pode ser cerca de 0,1 quando o número de pontos de FFT for 128, e um tempo de processamento de unidade for de 10 ms (80 pontos em uma amostragem de 8 kHz). O processamento de suavização é realizado em todas as amplitudes espectrais logarítmicas (SAi, i = 1.N, N sendo o número de pontos de FFT).

Em seguida, em ST1109, o processamento de suavização da amplitude espectral logarítmica de FFT é realizado para se realizar a suavização na diferença de ar da região de ruído estacionário. O processamento de suavização é o mesmo que na ST1108. Contudo, o processamento de suavização na ST1109 não é realizado em todas as amplitudes espectrais logarítmicas (SAi), mas é realizado em uma componente de sinal com uma freqüência i, de modo que a amplitude espectral logarítmica ponderada per-ceptiva (WSAi) seja igual ou menor do que o limite Th1. γ na equação em ST1109 é a mesma que β na ST1108, e pode ter o mesmo valor de β. A amplitude espectral logarítmica parcialmente suavizada SSA2i é obtida na ST1109.

Em seguida, na ST1110, o processamento de randomização é realizado na fase espectral de FFT. O processamento de randomização é realizado em uma componente de sinal com uma freqüência selecionada da mesma forma que no processamento de suavização na ST1109. Em outras palavras, como na ST1109, o processamento de randomização é realizado na componente de sinal com freqüência i, de modo que a amplitude espectral logarítmica ponderada perceptiva (WSAi) seja igual ou menor do que o limite Th1. Neste ponto, pode ser possível regular Th1 para o mesmo valor que na ST1109, e também ser possível regular Th1 em um valor diferente ajustado para se obter uma qualidade subjetiva mais alta. Além disso, o random (i) na ST1110 é um valor numérico que varia de -2π a +2π gerado randomicamente. Para gerar o random (i), pode ser possível gerar um número randômico novo a cada tempo. Para poupar uma quantidade de computação, também pode ser possível manter números randômicos pré-gerados em uma tabela para uso enquanto se calcula o conteúdo da tabela para cada tempo de processamento de unidade. Quando a tabela for usada, dois casos são considerados, de o conteúdo da tabela ser usado sem modificação e de o conteúdo da tabela ser adicionado à fase espectral de FFT para uso.

Em seguida, na ST 1111, um espectro de FFT complexo é gerado a partir da amplitude espectral logarítmica de FFT e da fase espectral de FFT. A parte real é obtida pelo retorno da amplitude espectral logarítmica de FFT SSA2i da região logarítmica para a região linear e, então, multiplicando-se por um cosseno de uma fase espectral RSP2i. A parte imaginária é obtida retornando-se a amplitude espectral logarítmica de FFT SSA2i da região logarítmica para a região linear e, então, multiplicando-se por um seno de uma fase espectral RSP2i.

Em seguida, na ST1112, o número do contador indicativo da região julgada como a região de ruído estacionário é incrementado de 1.

Por outro lado, quando for julgado que o sinal decodificado é a região de fala (não a região de ruído estacionário) na ST1106 ou na ST1107, em seguida em ST1113, a amplitude espectral logarítmica de FFT SAi é copiada como a amplitude espectral logarítmica suavizada SSA2i. Em outras palavras, o processamento de suavização da amplitude espectral logarítmica não é realizado.

Em seguida, o processamento de randomização da fase espectral de FFT é realizado. O processamento de randomização é realizado sobre uma componente de sinal com uma freqüência selecionada como na ST1110. Contudo, o limite para uso na seleção da freqüência não é Th1, mas um valor obtido pela adição de uma constante k4 à SSAi previamente obtida na ST1108. Este limite equivale ao segundo limite Th2i na FIG. 6. Em outras palavras, a randomização da fase espectral é realizada sobre uma componente de sinal com uma freqüência tal que a amplitude espectral seja menor que a amplitude espectral média da região de ruído estacionário.

Em seguida, na ST1115, um espectro de FFT complexo é gerado a partir da amplitude espectral logarítmica de FFT e da fase espectral de FFT. A parte real é obtida pela adição do valor obtido pelo retorno da amplitude espectral logarítmica de FFT SSA2i da região logarítmica para a região linear, e, então, multiplicando-se pelo cosseno da fase espectral RSP2i, e um valor obtido pela multiplicação de um valor obtido pelo retorno da amplitude espectral logarítmica de FFT SSAi da região logarítmica para a região linear por um cosseno de um random2(i) de fase espectral, e, ainda, multi-plicando-se a resultante pela constante k5. A parte imaginária é obtida adi-cionando-se o valor obtido pelo retorno da amplitude espectral logarítmica de FFT SSA2i da região logarítmica para a região linear e, então, multipli-cando-se pelo seno da fase espectral RSP2i, e um valor obtido pela multi- plicação de um valor obtido retornando-se a amplitude espectral logarítmica de FFT SSAi da região logarítmica para a região linear por um seno do ran-dom2(i) de fase espectral, e ainda, multiplicando-se a resultante pela constante k5. A constante k5 está na faixa de 0,0 a 1,0, e especificamente é regulada para cerca de 0,25. Em adição, k5 pode ser uma variável adaptati-vamente controlada. É possível melhorar as qualidades subjetivas do ruído estacionário de fundo na região de fala multiplexando-se o ruído estacionário médio multiplicado por k. O random2(i) é o mesmo número randômico que o random(i).

Em seguida, na ST1116, o IFFT é realizado sobre o espectro complexo de FFT (Re(S2)i, lm(S2)i) gerado na ST 1111 ou na ST1115 para se obter um complexo (Re(s2)i, Im(s2)i).

Finalmente, na ST1117, a parte real Re(s2)i do complexo obtido pelo IFFT é extraída.

De acordo com o aparelho de codificação de voz de modo múltiplo da presente invenção, uma vez que o modo de codificação da segunda seção de codificação é determinado usando-se o resultado codificado na primeira seção de codificação, é possível prover a segunda seção de codificação com o modo múltiplo sem adicionar qualquer informação nova indicativa de um modo e, desse modo, melhorar a performance da codificação.

Nesta constituição, a seção de chaveamento de modo chaveia o modo da segunda seção de codificação que codifica o vetor de excitação usando o parâmetro quantificado indicativo da característica espectral de voz, onde no aparelho de codificação de voz que codifica parâmetros indicativos de características espectrais e parâmetros indicativos do vetor de excitação independentemente uns dos outros, é possível prover a codificação do vetor de excitação com o modo múltiplo sem aumentar a nova informação de transmissão, e, portanto, melhorar a performance de codificação.

Neste caso, uma vez que é possível detectar o segmento de ruído estacionário usando-se as características dinâmicas para a seleção de modo, a codificação de vetor de excitação provida com o modo múltiplo melhora a performance de codificação para o segmento de ruído estacionário.

Ainda, neste caso, a seção de chaveamento de modo chaveia o modo da seção de processamento que codifica o vetor de excitação usando os parâmetros de LSP quantificados e, portanto, é possível aplicar a presente invenção simplesmente a um sistema CELP que usa os parâmetros de LSP como parâmetros indicativos de características espectrais. Mais ainda, uma vez que os parâmetros de LSP que são parâmetros em uma região de freqüência são usados, é possível realizar o julgamento da estacionaridade do espectro, e, portanto, melhorar a performance de codificação para ruídos estacionários.

Mais ainda, neste caso, a seção de chaveamento de modo julga a estacionaridade do LSP quantificado usando os parâmetros de LSP quantificados prévios e atuais, julga as características de voz usando o LSP quantificado atual, e, baseado nos resultados do julgamento, realiza a seleção de modo da seção de processamento que codifica o vetor de excitação, onde é possível realizar a codificação do vetor de excitação enquanto se alterna entre o segmento de ruído estacionário, o segmento de diálogo de silêncio e o segmento de diálogo de voz, e, portanto, melhorar a performance de codificação preparando-se o modo de codificação do vetor de excitação correspondente a cada segmento.

No aparelho de decodificação de voz da presente invenção, uma vez que é possível detectar o caso de a potência de um sinal decodificado ser subitamente aumentada, é possível lidar com o caso de um erro de detecção ser causado pela seção de processamento mencionada acima, que detecta a região de fala.

Ainda, no aparelho de decodificação de voz da presente invenção, uma vez que é possível detectar o segmento de ruído estacionário usando-se características dinâmicas, a codificação de vetor de excitação provida com o modo múltiplo melhora a performance de codificação para o segmento de ruído estacionário.

Como descrito acima, de acordo com a presente invenção, uma vez que a seleção de modo de codificação de voz e/ou de pós-proces-samento de decodificação é realizada usando-se as características estáti- cas e dinâmicas nos dados quantificados de parâmetros indicativos de características espectrais, é possível prover a codificação de voz com o modo múltiplo sem novamente transmitir a informação de modo. Em particular, uma vez que é possível realizar o julgamento da região de fala/região de silêncio em adição ao julgamento da região de fala/região de silêncio, é possível prover o aparelho de codificação de voz e o aparelho de decodificação de voz permitindo um melhoramento aumentado da performance de codificação pelo modo múltiplo.

Este pedido é baseado nos Pedidos de Patente Japonesa No. HEI10-236147, depositado em 21 de agosto de 1988, e no No. HEI10-266883, depositado em 21 de setembro de 1988, cujo conteúdo total é expressamente incorporado aqui como referência.

Aplicabilidade Industrial A presente invenção é efetivamente aplicável a um aparelho de terminal de comunicação e a um aparelho de estação de base em um sistema de comunicação por rádio digital.

Claims

1. Aparelho de codificação de voz de modo múltiplo compreendendo: um primeiro meio de codificação (102,103) adaptado para codificar pelo menos um tipo de parâmetro indicativo de informação de trato vocal contida em um sinal de voz; um segundo meio de codificação (109,110,111) adaptado para ser capaz de codificar pelo menos um tipo de parâmetro indicativo de informação de sinal de excitação contido no sinal de voz com uma pluralidade de modos; um meio de chaveamento de modo (105,621) adaptado para chavear um modo de codificação do segundo meio de codificação (109,110,111) baseado em uma determinação de modo indicando uma região de fala ou uma região de silêncio; e um meio de síntese (104) adaptado para sintetizar um sinal de voz de entrada usando uma pluralidade de tipos de informação de parâmetro codificada no primeiro meio de codificação (102,103) e no segundo meio de codificação (109,110,111); caracterizado pelo fato de que ainda compreende: um extrator (601) de parâmetros adaptado para extrair características de parâmetros indicativos da informação de trato vocal, e um detector de região de voz (619) adaptado para detectar uma região de fala ou uma região de silêncio, em que o extrator (601) compreende: um meio (604,605,606,607) adaptado para calcular uma evolução de um parâmetro de LSP quantizado suavizado entre um quadro atual e um último quadro; um meio (608,609,610,611) adaptado para calcular um parâmetro de LSP quantizado médio em um quadro no qual um parâmetro de LSP quantizado é estacionário; e um meio (612,613) adaptado para calcular uma diferença entre o parâmetro de LSP quantizado médio e um parâmetro de LSP quantizado atual, e em que o detector de região de voz (619) é adaptado para detectar se o sinal de entrada é uma região de fala ou uma região de silêncio, e para julgar se o sinal de entrada é uma região de fala, quando a evolução calculada de um parâmetro de LSP quantizado suavizado (primeiro parâmetro dinâmico: Paral) é maior do que um primeiro limiar predeterminado (Th1) ou o parâmetro de LSP quantizado calculado (segundo parâmetro dinâmico: Para2) é maior do que um segundo limiar predeterminado (Th2).

2. Método de codificação de voz de modo múltiplo compreendendo a etapas de: codificar pelo menos um tipo de parâmetro indicativo de informação de trato vocal contida em um sinal de voz; codificar pelo menos um tipo de parâmetro indicativo de informação de sinal de excitação contido no sinal de voz com uma pluralidade de modos; chavear um modo de codificação do segundo meio de codificação (109,110,111) baseado em uma determinação de modo indicando uma região de fala ou uma região de silêncio; e sintetizar um sinal de voz de entrada usando uma pluralidade de tipos de informação de parâmetro codificada no primeiro meio de codificação (102,103) e no segundo meio de codificação (109,110,111); caracterizado pelo fato de que ainda compreende as etapas de: calcular uma evolução de um parâmetro de LSP quantizado suavizado entre um quadro atual e um último quadro; calcular um parâmetro de LSP quantizado médio em um quadro no qual um parâmetro de LSP quantizado é estacionário; calcular uma diferença entre o parâmetro de LSP quantizado médio e um parâmetro de LSP quantizado atual, e detectar se o sinal de entrada é uma região de fala ou uma região de silêncio, e julgar se o sinal de entrada é uma região de fala, quando a evolução calculada do parâmetro de LSP quantizado suavizado (primeiro parâmetro dinâmico: Paral) é maior do que um primeiro limiar predeterminado (Th1) ou o parâmetro de LSP quantizado calculado (segundo parâmetro dinâmico: Para2) é maior do que um segundo limiar predeterminado (Th2).