BRPI0808198A2 - Dispositivo de codificação e método de codificação - Google Patents

Dispositivo de codificação e método de codificação Download PDF

Info

Publication number
BRPI0808198A2
BRPI0808198A2 BRPI0808198-0A BRPI0808198A BRPI0808198A2 BR PI0808198 A2 BRPI0808198 A2 BR PI0808198A2 BR PI0808198 A BRPI0808198 A BR PI0808198A BR PI0808198 A2 BRPI0808198 A2 BR PI0808198A2
Authority
BR
Brazil
Prior art keywords
section
search
coding
gain
format
Prior art date
Application number
BRPI0808198-0A
Other languages
English (en)
Inventor
Toshiyuki Morii
Masahiro Oshikiri
Tomofumi Yamanashi
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Publication of BRPI0808198A2 publication Critical patent/BRPI0808198A2/pt
Publication of BRPI0808198A8 publication Critical patent/BRPI0808198A8/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Relatório Descritivo da Patente de Invenção para "DISPOSITIVO DE CODIFICAÇÃO E MÉTODO DE CODIFICAÇÃO".
Campo Técnico
A presente invenção refere-se a um aparelho de codificação e a 5 um método de codificação para a codificação de sinais de fala e de sinais de áudio.
Antecedentes da Técnica
Em comunicações móveis, é necessário comprimir e codificar uma informação digital, tal como fala e imagens para uso eficiente de uma capacidade de canal de rádio e meios de armazenamento para ondas de rádio, e muitos esquemas de codificação e de decodificação foram desenvolvidos até agora.
Dentre estes, a performance de uma tecnologia de codificação de fala tem sido melhorada significativamente pelo esquema fundamental de 15 "CELP (predição linear excitada por código)", a qual adota de forma hábil uma quantificação de vetor pela modelagem do sistema de trato vocal de fala. Ainda, a performance de uma tecnologia de codificação de som, tal como uma codificação de áudio foi melhorada significativamente por técnicas de codificação de transformada (tais como ACC de padrão MPEG e MP3).
Por outro lado, em um codificador - decodificador escalonável,
cuja padronização está em andamento pela ITU-T (União de Telecomunicação Internacional - Setor de Padronização de Telecomunicação) e outros, é projetado para cobrir da banda de fala convencional (300 Hz a 3,4 kHz) até uma banda larga (de até 7 kHz), com sua taxa de bit regulada tão alta quan25 to até aproximadamente 32 kbps. Isto é, um codificador - decodificador de banda larga tem que aplicar uniformemente um certo grau de codificação a um áudio e, portanto, não pode ser suportado apenas por métodos convencionais de codificação de fala de taxa de bit baixa, com base no modelo de voz humana, tal como CELP. Agora, a norma da ITU-T G.729.1, declarada 30 anteriormente como uma recomendação, usa um esquema de codificação de codificador - decodificador de áudio de codificação de transformada, para a codificação da fala de uma banda larga e acima. O Documento de Patente 1 descreve um esquema de codificação que utiliza parâmetros espectrais e parâmetros de passo, por meio do que uma transformada ortogonal e uma codificação de um sinal adquirido por uma filtração inversa de um sinal de fala são realizadas com base em 5 parâmetros espectrais, e mostra, mais ainda, como um exemplo de codificação, um método de codificação com base em livros de código de estrutura algébricas.
O Documento de Patente 2 descreve um esquema de codificação de divisão de um sinal nos parâmetros de predição linear e componen10 tes residuais, realizando uma transformada em quadratura dos componentes residuais e normalizando a forma de onda residual pela potência, e, então, quantificando o ganho e o resíduo normalizado. Ainda, o Documento de Patente 2 descreve uma quantificação de vetor como um método de quantificação para um resíduo normalizado.
O Documento de Não-Patente 1 mostra um método de codifica
ção com base em um livro de código algébrico formado com espectros de excitação melhorados em TCX (isto é, um esquema de codificação fundamental modelado com uma excitação sujeito a uma codificação de transformada e a filtração dos parâmetros espectrais), e este método de codificação é adotado na norma da ITU-T G.729.1.
O Documento de Não-Patente 2 mostra uma descrição do esquema de padrão MPEG, "TC-WVQ". Este esquema também é usado para a transformação de um resíduo de predição linear em um espectro e para a realização de uma quantificação de vetor do espectro, usando-se uma DCT 25 (Transformada de Cosseno Discreta) como o método de transformada ortogonal.
Por meio das quatro técnicas anteriores acima, é possível aplicar, a uma codificação, uma quantificação de parâmetros espectrais, tais como parâmetros de predição linear, o que é parte de uma técnica de codificação útil de sinais de fala, desse modo permitindo-se que a eficiência e a taxa baixa de codificação de áudio sejam realizadas.
Documento de Patente 1: Pedido de Patente Japonesa Aberta N0 HEM 0-260698.
Documento de Patente 2: Pedido de Patente Japonesa Aberta N0 HEI07-261800.
Documento de Não-Patente 1: Xie1 Adoul, "EMBEDDED ALGEBRAIC VECTOR QUANTIZERS (EAVQ) WITH APPLICATION TO WIDEBAND SPEECH CODING" ICASSP’96.
Documento de Não-Patente 12: Moriya, Honda, "Transform Coding of Speech Using a Weighted Vector Quantizer" IEEE journal on selected areas in Communications, Vol.6, No.2, fevereiro de 1988.
Descrição da Invenção
Problemas a Serem Resolvidos pela Invenção
Contudo, o número de bits a serem atribuídos por um codificador - decodificador escalonável é pequeno, especialmente em uma camada relativamente mais baixa, e, consequentemente, a performance da codificação 15 de transformada de excitação não é suficiente. Por exemplo, na norma da ITU-T G.729.1, embora uma taxa de bit seja de 12 kbps na segunda camada ou mais baixa suportando a banda de telefonia (de 300 Hz a 3,4 kHz), apenas uma taxa de bit de 2 kbps é atribuída à próxima terceira camada que suporta uma banda larga (de 50 Hz a 7 kHz). Assim, quando há poucos bits 20 de informação, não é possível obter uma performance perceptiva suficiente pelo uso de um método de codificação de um espectro, o que é adquirido por uma transformada ortogonal, com uma quantificação de vetor usando um livro de código.
Portanto, é um objetivo da presente invenção prover um apareIho de codificação e um método de codificação que possam obter uma boa qualidade perceptiva, mesmo se houver poucos bits de informação.
Meios para Resolução do Problema
O aparelho de codificação da presente invenção emprega uma configuração que tem: uma seção de quantificação de formato que codifica um formato de um espectro de frequência; e uma seção de quantificação de ganho que codifica um ganho do espectro de frequência, e no qual a seção de quantificação de formato inclui: uma seção de busca de intervalo que busca por uma primeira forma de onda fixa em cada uma de uma pluralidade de bandas dividindo um intervalo de busca predeterminado; e uma seção de busca completa que busca segundas formas de onda fixas por uma totalidade do intervalo de busca predeterminado.
O método de codificação da presente invenção inclui as etapas
de: uma etapa de quantificação de formato de codificação de um formato de um espectro de frequência; e uma etapa de quantificação de ganho de codificação de um ganho do espectro de frequência, e no qual a etapa de quantificação de formato inclui: uma etapa de busca de intervalo de busca por uma 10 primeira forma de onda fixa em uma pluralidade de bandas dividindo um intervalo de busca predeterminado; e uma etapa de busca completa de busca por segundas formas de onda fixas por uma totalidade do intervalo de busca predeterminado.
Efeitos Vantajosos da Invenção De acordo com a presente invenção, é possível codificar de for
ma acurada as frequências (posições) em que energia esteja presente, de modo que seja possível melhorar a performance qualitativa, o que é único para a codificação de espectro, e produzir uma boa qualidade de som, mesmo a taxas de bit baixas.
Breve Descrição dos Desenhos
A figura 1 é um diagrama de blocos que mostra a configuração de um aparelho de codificação de fala de acordo com uma modalidade da presente invenção;
a figura 2 é um diagrama de blocos que mostra a configuração de um aparelho de decodificação de fala de acordo com uma modalidade da presente invenção;
a figura 3 é um fluxograma que mostra o algoritmo de busca em uma seção de busca de intervalo de acordo com uma modalidade da presente invenção;
a figura 4 é um diagrama que mostra um exemplo de um espec
tro representado por pulsos buscados em uma seção de busca de intervalo de acordo com uma modalidade da presente invenção; a figura 5 é um fluxograma que mostra o algoritmo de busca em uma seção de busca completa de acordo com uma modalidade da presente invenção;
a figura 6 é um fluxograma que mostra o algoritmo de busca em uma seção de busca completa de acordo com uma modalidade da presente invenção;
a figura 7 é um diagrama que mostra um exemplo de um espectro representado por pulsos buscados em uma seção de busca de intervalo e uma seção de busca completa de acordo com uma modalidade da presente invenção;
a figura 8 é um fluxograma que mostra o algoritmo de decodificação em uma seção de decodificação de espectro de acordo com uma modalidade da presente invenção.
Melhor Modo para Realização da Invenção Em uma codificação de sinal de fala com base no esquema de
CELP e outros, um sinal de fala frequentemente é representado por uma excitação e um filtro de síntese. Se um vetor tendo um formato similar a um sinal de excitação, o qual é uma seqüência de vetor de domínio de tempo, puder ser decodificado, será possível produzir uma forma de onda similar a 20 uma fala introduzida através de um filtro de síntese, e obter uma boa qualidade perceptiva. Isto é a característica qualitativa que levou ao sucesso do livro de código algébrico usado em CELP.
Por outro lado, no caso de uma codificação de espectro de frequência (vetor), um filtro de síntese tem ganhos espectrais como seus com25 ponentes e, portanto, a distorção das frequências (isto é, posições de componentes de potência grande é mais significativa do que a distorção destes ganhos. Isto é, pela busca por posições de energia alta e pela decodificação dos pulsos nas posições de energia alta, ao invés de uma decodificação de um vetor tendo um formato similar para um espectro de entrada, é mais pro30 vável de obter uma boa qualidade perceptiva.
Os presentes inventores concentraram-se neste ponto e chegaram à presente invenção. Isto é, com base em um modelo de codificação de um espectro de frequência por um número pequeno de pulsos, a presente invenção transforma um sinal de fala a codificar (isto é, uma seqüência de vetor de domínio de tempo) em um sinal de domínio de frequência por uma transformada ortogonal, divide o intervalo de frequência do alvo de codifica5 ção em uma pluralidade de bandas, e busca por um pulso em cada banda, e, além disso, busca por vários pulsos pelo intervalo de frequência inteiro do alvo de codificação.
Ainda, a presente invenção separa uma quantificação de formato (forma) e uma quantificação de ganho (quantidade) e, na quantificação de 10 formato, assume um ganho ideal e busca pulsos tendo uma amplitude "1" e uma polaridade "+" ou em um laço aberto. Aqui, especialmente mediante uma busca pelo intervalo de frequência inteiro do alvo de codificação, a presente invenção não permite que dois pulsos ocorram na mesma posição, e permite que combinações das posições de uma pluralidade de pulsos sejam 15 codificadas como uma informação de transmissão sobre posições de pulsos.
Uma modalidade da presente invenção será explicada abaixo, usando-se os desenhos associados.
A figura 1 é um diagrama de blocos que mostra a configuração do aparelho de codificação de fala de acordo com a presente modalidade. O 20 aparelho de codificação de fala mostrado na figura 1 é provido com uma seção de análise de LPC 101, uma seção de quantificação de LPC 102, um filtro inverso 103, uma seção de transformada ortogonal 104, uma seção de codificação de espectro 105 e uma seção de multiplexação 106. A seção de codificação de espectro 105 é provida com uma seção de quantificação de 25 formato 111 e uma seção de quantificação de ganho 112.
A seção de análise de LPC 101 realiza uma análise de predição linear de um sinal de fala de entrada e extrai um parâmetro de envoltória espectral para a seção de quantificação de LPC 102 como um resultado de análise. A seção de quantificação de LPC 102 realiza um processamento de 30 quantificação do parâmetro de envoltória espectral (LPC: coeficiente de predição linear) extraído a partir da seção de análise de LPC 101, e extrai um código que representa o LPC de quantificação para a seção de multiplexação 106. Ainda, a seção de quantificação de LPC 102 extrai parâmetros decodificados adquiridos pela decodificação do código que representa o LPC quantificação para o filtro inverso 103. Aqui, a quantificação de parâmetro pode empregar uma quantificação de vetor ("VQ"), uma quantificação de predição, uma VQ de estágio múltiplo, uma VQ dividida e outros modos.
O filtro inverso 103 filtra ao inverso uma fala de entrada usando os parâmetros decodificados e extrai a componente residual resultante para a seção de transformada ortogonal 104.
A seção de transformada ortogonal 104 aplica uma janela de 10 combinação, tal como uma janela seno, à componente residual, realiza uma transformada ortogonal usando MDCT, e extrai um espectro transformado em um espectro de domínio de frequência (a partir deste ponto, um "espectro de entrada") para a seção de codificação de espectro 105. Aqui, a transformada ortogonal pode empregar outras transformadas, tais como FFT, KLT 15 e transformada de ondulação, e, embora seu uso varie, é possível transformar a componente residual em um espectro de entrada usando-se qualquer uma destas.
Aqui, a ordem de processamento entre o filtro inverso 103 e a seção de transformada ortogonal 104 pode ser revertida. Isto é, pela divisão da fala de entrada submetida a uma transformada ortogonal pelo espectro de frequência de um filtro inverso (isto é, uma subtração no eixo logarítmico), é possível produzir o mesmo espectro de entrada.
A seção de codificação de espectro 105 divide o espectro de entrada pela quantificação do formato e do ganho do espectro separada25 mente, e extrai os códigos de quantificação resultantes para a seção de multiplexação 106. A seção de quantificação de formato 111 quantifica o formato do espectro de entrada usando um número pequeno de posições de pulso e polaridades, e a seção de quantificação de ganho 112 calcula e quantifica os ganhos dos pulsos buscados pela seção de quantificação de formato 111, 30 em uma base por banda. A seção de quantificação de formato 111 e a seção de quantificação de ganho 112 serão descritas mais tarde em detalhes.
A seção de multiplexação 106 recebe como uma entrada um código que representa o LPC de quantificação da seção de quantificação de LPC 102 e um código que representa o espectro de entrada quantificado da seção de codificação de espectro 105, multiplexa esta informação e extrai o resultado para o canal de transmissão como uma informação de codificação.
A figura 2 é um diagrama de blocos que mostra a configuração
do aparelho de decodificação de fala de acordo com a presente modalidade. O aparelho de decodificação de fala mostrado na figura 2 é provido com a seção de demultiplexação 201, a seção de decodificação de parâmetro 202, a seção de decodificação de espectro 203, a seção de transformada ortogonal 204 e o filtro de síntese 205.
Na figura 2, uma informação de codificação é demultiplexada em códigos individuais na seção de demultiplexação 201. O código que representa o LPC quantificado é extraído para a seção de decodificação de parâmetro 202, e o código do espectro de entrada é extraído para a seção de decodificação de espectro 203.
A seção de decodificação de parâmetro 202 decodifica o parâmetro de espectro de entrada e extrai o parâmetro decodificado resultante para o filtro de síntese 205.
A seção de decodificação de espectro 203 decodifica o vetor de 20 formato e o ganho pelo método que suporta o método de codificação na seção de codificação de espectro 105 mostrada na figura 1, adquire um espectro decodificado pela multiplicação do vetor de formato decodificado pelo ganho decodificado, e extrai o espectro decodificado para a seção de transformada ortogonal 204.
A seção de transformada ortogonal 204 realiza uma transforma
da inversa do espectro decodificado extraído a partir da seção de decodificação de espectro 203 comparada com a seção de transformada ortogonal 104 mostrada na figura 1, e extrai o sinal residual decodificado de série no tempo resultante para o filtro de síntese 205.
O filtro de síntese 205 produz uma fala de saída pela aplicação
de uma filtração de síntese ao sinal residual decodificado extraído a partir da seção de transformada ortogonal 204, usando-se o parâmetro decodificado extraído a partir da seção de decodificação de parâmetro 202.
Aqui, para se reverter a ordem de processamento entre o filtro inverso 103 e a seção de transformada ortogonal 104 mostrados na Flg. 1, o aparelho de decodificação de fala na figura 2 multiplica o espectro decodifi5 cado por um espectro de frequência do parâmetro decodificado (isto é, uma adição no eixo logarítmico) e realiza uma transformada ortogonal do espectro resultante.
Em seguida, a seção de quantificação de formato 111 e a seção de quantificação de ganho 112 serão explicadas em detalhes. A seção de 10 quantificação de formato 111 é provida com uma seção de busca de intervalo 121 que busca por pulsos em cada uma de uma pluralidade de bandas em que um intervalo de busca predeterminado é dividido, e a seção de busca completa 122 que busca por pulsos pelo intervalo de busca no tempo inteiro.
A equação 1 a seguir provê uma referência para a busca. Aqui, na equação 1, E é a distorção de codificação, s, é o espectro de entrada, g é o ganho ótimo, δ é a função delta e p é a posição de pulso.
[1]
E = Yj [Si-gô(i-p)}2 ...(Equação 1)
i
A partir da equação 1 acima, a posição de pulso para minimização da função de custo é a posição na qual o valor absoluto |sp| do espectro de entrada em cada banda é máximo, e sua polaridade é a polaridade do valor do valor de espectro de entrada na posição daquele pulso.
Um caso de exemplo será explicado abaixo, onde o comprimento de vetor de um espectro de entrada é de oitenta amostras, o número de bandas é cinco e o espectro é codificado usando-se oito pulsos, um pulso de 25 cada banda e três pulsos da banda inteira. Neste caso, o comprimento de cada banda é de dezesseis amostras. Ainda, a amplitude de pulsos para se buscar é fixada para Ί", e sua polaridade é "+" ou
A seção de busca de intervalo 121 busca pela posição da energia máxima e a polaridade (+/-) em cada banda, e permite que um pulso ocorra por banda. Neste exemplo, o número de bandas é cinco e cada banda requer quatro bits para mostrar a posição de pulso (entradas de posições: 16) e um bit para mostrar a polaridade (+/-), requerendo vinte e cinco bits de informação no total.
O fluxo do algoritmo de busca de seção de busca de intervalo 121 é mostrado na figura 3. Aqui, os símbolos usados no fluxograma da figura 3 significam os conteúdos a seguir: i: posição
b: número de banda
max: valor máximo c: contador
pos[b]: resultado de busca (posição) pol[b]: resultado de busca (polaridade) s[i]: espectro de frequência
Conforme mostrado na figura 3, a seção de busca de intervalo
121 calcula o espectro de entrada s[i] de cada amostra (0^c<15) por banda (0<b£4), e calcula o valor máximo "max".
A figura 4 ilustra um exemplo de um espectro representado por pulsos buscados pela seção de busca de intervalo 121. Conforme mostrado na figura 4, um pulso tendo uma amplitude de "1" e uma polaridade de "+" ou ocorre em cada uma das cinco bandas tendo uma largura de banda de dezesseis amostras.
A seção de busca completa 122 busca pelas posições subindo três pulsos, pelo intervalo de busca inteiro, e codifica as posições e as polaridades dos pulsos. Na seção de busca completa 122, uma busca é realizada de acordo com as quatro condições a seguir para uma codificação de 25 posição acurada com uma quantidade pequena de bits de informação e uma quantidade pequena de cálculos:
(1) Dois ou mais pulsos não devem ocorrer na mesma posição. Neste exemplo, os pulsos não devem ocorrer nas posições nas quais o pulso de cada banda é elevado na seção de busca de intervalo 121. Com esta 30 ingenuidade, os bits de informação não são usados para representação da componente de amplitude, de modo que é possível usar os bits de informação eficientemente. (2) Os pulsos são buscados em ordem, em uma base um a um, em um laço aberto. Durante uma busca, de acordo com a regra (1), as posições de pulso tendo sido determinadas não são submetidas a uma busca.
(3) Em uma busca de posição, uma posição na qual era melhor que um pulso não ocorresse também é codificada como um pedaço de informação (posição).
(4) Dado que ganhos são codificados em uma base por banda, os pulsos são buscados pela avaliação de uma distorção de codificação com respeito ao ganho ideal de cada banda.
A seção de busca completa 122 realiza a avaliação de custo em
duas etapas a seguir para buscar um pulso único pelo espectro de entrada inteiro. Em primeiro lugar, na primeira etapa, a seção de busca completa 122 avalia o custo em cada banda e encontra a posição e a polaridade para a minimização da função de custo. Então, no segundo estágio, a seção de 15 busca completa 122 avalia o custo total em cada tempo em que a busca acima é terminada em uma banda, e armazena a posição e a polaridade do pulso para minimização do custo, como um resultado final. Esta busca é realizada por banda, em ordem. Ainda, esta busca é realizada para se encontrarem as condições acima (1) a (4). Então, quando uma busca de um pulso é 20 terminada, assumindo-se a presença daquele pulso na posição buscada, uma busca do próximo pulso é realizada. Esta busca é realizada até um número predeterminado de pulsos (três pulsos neste exemplo) serem encontrados, pela repetição do processamento acima.
O fluxo do algoritmo de busca de seção de busca completa 122 é mostrado na figura 5. A figura 5 é um fluxograma de pré-processamento de uma busca, e a figura 6 é um fluxograma da busca. Ainda, as partes correspondentes às condições acima (1), (2) e (4) são mostradas no fluxograma da figura 6.
Os símbolos usados no fluxograma da figura 5 têm os conteúdos
a seguir.
c: contador
pf[*]: existência de pulso / inexistência de flag 10
15
20
25
30
b: número de banda
pos[*]: resultado de busca (posição)
n_s[*]: valor de correlação
n_max[*]: valor de correlação máximo
n2_s[*]: valor de correlação ao quadrado
n2_max[*]: valor de correlação ao quadrado máximo
d_s[*]: valor de potência
d_max[*]: valor de potência máximo
s[*]: espectro de entrada
Os símbolos usados no fluxograma da figura 6 têm os conteúdos
a seguir, i:
iO:
cmax:
pf[*]:
tência)
iiO:
nom:
nom2:
den:
n_s[*]:
d_s[*]:
s[*]:
n2_s[*]:
número de pulso posição de pulso valor máximo de função de custo
existência de pulso / inexistência de flag (0: inexistência, 1: exis
posição relativa de pulso em uma banda amplitude espectral
termo de numerador (potência espectral) termo de denominador valor relativo valor de potência espectro de entrada valor de correlação ao quadrado n_max[*]: valor de correlação máximo n2_max[*]: valor de correlação ao quadrado máximo
idx_max[*]: resultado de busca de cada pulso (posição) (aqui, idx_max[*] de 0 a 4 é equivalente à pos[b] da figura3)
fdO, fd1, fd2: bufferde armazenamento temporário (tipo de número real) idO, id1: buffer de armazenamento temporário (tipo de número inteiro) id0_s, id1_s: bufferde armazenamento temporário (tipo de número inteiro) »: deslocamento de bit (para a direita) &: "e" como uma seqüência de bit.
Aqui, na busca na figura 5 e na figura 6, o caso em que idx_max[*] é "-1," corresponde ao caso acima da condição (3), onde era melhor que um pulso não ocorresse. O exemplo detalhado disto é que, uma vez 5 que um espectro seja suficientemente aproximado apenas pelo pulso buscado por banda e pulsos buscados no intervalo inteiro, se um pulso da mesma amplitude fosse elevado em adição, um aumento proporcional da distorção de codificação seria causado.
As polaridades dos pulsos buscados correspondem às polaridades do espectro de entrada nestas posições, e a seção de busca completa
122 codifica estas polaridades com 3 (três) pulsos χ 1 = 3 bits. Aqui, quando a posição é "-V, isto é, quando um pulso não corre, não faz nenhuma diferença se a polaridade é "+" ou Contudo, a polaridade pode ser usada para a detecção de erros de bit e, geralmente, é fixada em "+" ou Ainda, a seção de busca completa 122 codifica a informação de
posição de pulso com base no número de combinações de posições de pulso. Neste exemplo, uma vez que o espectro de entrada contém oitenta amostras e cinco pulsos já são encontrados nas cinco bandas individuais, se casos em que pulsos não são elevados também forem levados em conside20 ração, as variações de posições poderão ser representadas usando-se dezessete bits, de acordo com o cálculo da equação 2 a seguir.
[2]
75 + 1C3 = (7 5 + 1) * (7 4+ 1) * (73 + 1) /3/2/1
= Ύ O 3 O O
<13X0 7-2.
= 2 x 7 ...(Equação 2)
Aqui, de acordo com a regra de permitir que dois ou mais pulsos não ocorram na mesma posição, é possível reduzir o número de combinações, de modo que o efeito desta regra se torne maior quando o número de pulsos a buscar no intervalo inteiro aumentar.
O método de codificação com base nas posições dos pulsos buscados na seção de busca completa 122 será descrito em detalhes abaixo. (1) Três posições de pulso são classificadas com base em sua magnitude e dispostas em ordem a partir do valor numérico mais baixo para o valor numérico mais alto. Aqui, "-1" é deixado como está.
(2) Os números de pulso são alinhados à esquerda pelo número de pulsos tendo ocorrido nas bandas individuais, para redução dos valores
numéricos dos números de pulso. Os valores numéricos calculados desta forma são referidos como "números de posição". Aqui, "-1" é deixado como está. Por exemplo, com referência à posição de pulso de "66", quando um pulso cada é provido entre O e 15, entre 16 e 31, entre 32 e 47 e entre 48 e
64, o número de posição é mudado para "66-4=62".
(3) "1" é regulado como o número de posição representado pelo "valor máximo de um pulso +1". Neste caso, a ordem de valores é ajustada e determinada de modo que o número de posição regulado não seja confundido com um número de posição no qual um pulso está realmente presente.
Por meio disto, o número de posição de pulso N0 O é limitado à faixa entre O e 73, o número de posição de pulso N0 1 é limitado à faixa entre N0 O e 74, e o número de posição de pulso N0 2 é limitado à faixa entre N0 1 e 75, isto é, o número de posição de um pulso mais baixo é designado para não exceder ao número de posição de um pulso mais alto.
(4) Então, de acordo com o processamento de integração mos
trado na equação 3 a seguir para o cálculo de um código de combinação, os números de posição (iO, i1, i2) são integrados para a produção do código (c). Este processamento de integração é o processamento de cálculo da integração de todas as combinações quando há a ordem de magnitude.
[3]
C = ((76- O) =K (77— O) *(153-2* O)/3 + (74- O) * (75- O) )/4
((76-iO)*(77-iO)*(153-2*iO)/3 + (74-iO)*(75-iO))/4;
C= C + (76-iO)*(77-iO)/2 - (76-i1)*(77-i1)/2;
0 = 0 + 75-12; (Equação3)
(5) Então, combinando-se os 17 bits deste c e 3 bits para polaridade, um código de 20 bits é produzido.
Aqui, nos números de posição citados acima, o pulso N0 O de "73", o pulso N0 1 de "74" e o pulso N0 2 de "75" são números de posição nos quais os pulsos não ocorrem. Por exemplo, se houver três números de posição (73, -1, -1) de acordo com a relação citada acima entre um número de posição e o número de posição no qual um pulso não ocorre, estes números de posição serão reordenados para "-1, 73, -V e tornados (73, 73, 75).
Assim, no modelo em que um espectro de entrada é representado por uma seqüência de 8 pulsos (cinco pulsos em bandas individuais e três pulsos no intervalo inteiro), conforme mostrado neste exemplo, é possível realizar uma codificação por 45 bits de informação.
A figura 7 ilustra um exemplo de um espectro representado pe
los pulsos buscados na seção de busca de intervalo 121 e na seção de busca completa 122. Também, na figura 7, os pulsos representados por linhas em negrito são pulsos buscados na seção de busca completa 122.
A seção de quantificação de ganho 112 quantifica o ganho de cada banda. Oito pulsos são alocados nas bandas, e a seção de quantificação de ganho 112 calcula os ganhos pela análise da correlação entre estes pulsos e o espectro de entrada.
Se a seção de quantificação de ganho 112 calcular os ganhos ideais e, então, realizar uma codificação por uma quantificação de escalar ou 20 uma quantificação de vetor, primeiramente, a seção de quantificação de ganho 112 calculará os ganhos ideais de acordo com a equação 4 a seguir. Aqui, na equação 4, gn é o ganho ideal de banda "n," s(i+16n) é o espectro de entrada de banda "n," vn(i) é o vetor adquirido pela decodificação do formato de banda "n."
[4]
+16«) x vn (i)
en =-^-...(Equação 4)
Σν"(0χν-(0
i
Ainda, a seção de quantificação de ganho 112 realiza uma codificação pela realização de uma quantificação de escalar ("SQ") dos ganhos ideais ou realiza uma quantificação de vetor destes cinco ganhos em conjunto. No caso da realização de uma quantificação de vetor, é possível realizar uma codificação eficiente por uma quantificação de predição, uma VQ de estágio múltiplo, uma VQ dividida e assim por diante. Aqui, o ganho pode ser ouvido de forma perceptiva com base em uma escala logarítmica e, consequentemente, pela realização de uma SQ ou de uma VQ após a realização 5 da transformada logarítmica de ganho, é possível produzir um som de síntese perceptivamente bom.
Ainda, ao invés de se calcularem ganhos ideais, há um método de avaliação direta de distorção de codificação. Por exemplo, no caso de realização de VQ de cinco ganhos, uma distorção de codificação é calculada 10 para minimização da equação 5 a seguir. Aqui, na equação 5, Ek é a distorção do k-ésimo vetor de ganho, s(i+16n) é o espectro de entrada de banda "n," gn(k) é o enésimo elemento do k-ésimo vetor de ganho, e vn(i) é o vetor de formato adquirido pela decodificação do formato da banda "n".
[5]
Ek =ΣΣί s(i + \6n)-gf)vn{i) }...(Equação 5)
n i
Em seguida, o método de decodificação de três pulsos na seção
de decodificação de espectro 203, os quais são buscados pela busca completa, será explicado.
Na seção de busca completa 122 da seção de codificação de espectro 105, os números de posição (iO, i1, i2) são integrados em um códi20 go usando-se a equação 3 descrita acima. Na seção de decodificação de espectro 203, um processamento reverso é realizado. Isto é, a seção de decodificação de espectro 203 seqüencialmente calcula o valor da equação de integração enquanto muda cada número de posição, fixa o número de posição quando o número de posição é mais baixo do que o valor de integração, 25 e realiza este processamento a partir do número de posição de ordem mais baixa para o número de posição de ordem mais alta um a um, desse modo realizando uma decodificação. A figura 8 é um fluxograma que mostra o algoritmo de decodificação da seção de decodificação de espectro 203.
Ainda, na figura 8, quando o código de entrada "k" da posição integrada envolve um erro devido a um erro de bit, o fluxo prossegue para a etapa de processamento de erro. Portanto, neste caso, a posição deve ser encontrada pelo processamento de erro predeterminado.
Ainda, uma vez que o decodificador tem um processamento de laço, a quantidade de cálculos no decodificador é maior do que no codificador. Aqui. Cada laço é um laço aberto, e, consequentemente, visto a partir 5 da quantidade geral de processamento no codificador - decodificador, a quantidade de cálculos no decodificador não é bastante grande.
Assim, a presente modalidade pode codificar de forma acurada frequências (posições) nas quais a energia está presente, de modo que seja possível melhorar a performance qualitativa, a qual é única para a codificação de espectro, e produzir uma boa qualidade de som, mesmo a taxas de bit baixas.
Ainda, embora tenha sido descrito acima um caso com a presente modalidade em que uma codificação de ganho é realizada após uma codificação de formato, a presente invenção pode prover a mesma performance 15 se uma codificação de formato for realizada após uma codificação de ganho. Ainda, pode ser possível empregar um método de realização de uma codificação de ganho em uma base por banda e, então, uma normalização do espectro pelos ganhos decodificados, e realizar uma codificação de formato da presente invenção.
Ainda, embora tenha sido descrito acima um caso com a presen
te modalidade em que, na quantificação do formato de um espectro, o comprimento do espectro é de oitenta, o número de bandas é cinco, o número de pulsos a buscar em uma base por banda é um e o número de pulsos a buscar no intervalo inteiro é três, a presente invenção não depende dos valores 25 acima de forma alguma, e pode produzir os mesmos efeitos com valores numéricos diferentes.
Ainda, se a largura de banda for suficientemente curta, relativamente muitos ganhos poderão ser codificados e o número de bits de informação será suficientemente grande, a presente invenção pode obter a per30 formance descrita acima apenas pela realização de uma busca de pulso em uma base por banda ou pela realização de uma busca de pulso em um intervalo largo por uma pluralidade de bandas. Ainda, embora a condição de não elevação de dois pulsos na mesma posição seja regulada na modalidade descrita acima, a presente invenção pode relaxar parcialmente esta condição. Por exemplo, se o pulso a buscar em uma base por banda e os pulsos a buscar em um intervalo largo 5 pela pluralidade de bandas forem admitidos como ocorrendo nas mesmas posições, é possível eliminar os pulsos de bandas individuais ou permitir que pulsos de amplitude dupla ocorram. Para relaxação dessa condição, a exigência essencial é não armazenar o flag de existência / inexistência de pulso pf[*] com respeito ao pulso por banda. Isto é, "pf[pos[b]]=1" na última etapa 10 na figura 5 precisa ser omitido. Alternativamente, um outro método de relaxação daquela condição é não armazenar um indicador de existência / inexistência de pulso em um intervalo largo. Isto é, "pf[idx_max[i+5]]=1" na última etapa na figura 6 precisa ser omitido. Neste caso, variações de posições aumentam. As combinações não são tão simples conforme mostrado na pre15 sente modalidade e, portanto, é necessário classificar casos e codificar as combinações de acordo com os casos classificados.
Ainda, embora uma codificação por pulsos seja realizada para um espectro submetido a uma transformada ortogonal na presente modalidade, a presente invenção não está limitada a isto, e também é aplicável a outros vetores. Por exemplo, a presente invenção pode ser aplicada a vetores de número complexo na FFT ou DCT complexa, e pode ser aplicada a uma seqüência de vetor de domínio de tempo na transformada de ondulação, ou similar. Ainda, a presente invenção também é aplicável a uma seqüência de vetor de domínio de tempo como formas de onda de excitação de CELP. Como formas de onda de excitação de CELP, um filtro de síntese está envolvido e, portanto, uma função de custo envolve um cálculo de matriz. Aqui, a performance não é suficiente por uma busca em um laço aberto, quando um filtro estiver envolvido e, portanto, uma busca de laço fechado precisará ser realizada em algum grau. Quando há muitos pulsos, é efetivo usar uma busca de feixe ou similar, para redução dos cálculos.
Ainda, de acordo com a presente invenção, uma forma de onda para busca não está limitada a um pulso (impulso), e é igualmente possível buscar mesmo outras formas de onda fixas (tal como um pulso duplo, uma onda triangular, uma onda finita de resposta de impulso, um coeficiente de filtro e formas de onda fixas que mudam o formato de forma adaptativa) e produzir o mesmo efeito.
Ainda, embora tenha sido descrito um caso como a presente
modalidade em que a presente invenção é aplicada a CELP, a presente invenção não está limitada a isto, mas é efetiva com outros codificadores decodificadores.
Ainda, não apenas um sinal de fala, mas também um sinal de áudio pode ser usado como o sinal de acordo com a presente invenção. Também é possível empregar uma configuração na qual a presente invenção é aplicada um sinal residual de predição de LPC, ao invés de um sinal de entrada.
O aparelho de codificação e o aparelho de decodificação de a15 cordo com a presente invenção podem ser montados em um aparelho de terminal de comunicação e um aparelho de estação base em um sistema de comunicação móvel, de modo que seja possível prover um aparelho de terminal de comunicação, um aparelho de estação base e um sistema de comunicação móvel tendo o mesmo efeito operacional que acima.
Embora tenha sido descrito um caso com a modalidade acima
como um exemplo em que a presente invenção é implementada com hardware, a presente invenção pode ser implementada com software. Por exemplo, pela descrição do algoritmo de acordo com a presente invenção em uma linguagem de programação, pelo armazenamento deste programa em uma 25 memória e se fazendo com que a seção de processamento de informação execute este programa, é possível implementar a mesma função como no aparelho de codificação de acordo com a presente invenção.
Mais ainda, cada bloco de função empregado na descrição de cada uma das modalidades mencionadas anteriormente tipicamente pode ser implementado como um LSI constituído por um circuito integrado. Estes podem ser chips individuais ou contidos parcial ou totalmente em um chip único. "LSI" é adotado aqui, mas também pode ser referido como "IC", "LSI de sistema", "super-LSI" ou "ultra-LSI", dependendo de extensões diferentes de integração.
Ainda, o método de integração de circuito não está limitado aos 5 LSIs e uma implementação usando um circuito dedicado ou processadores de finalidade geral também é possível. Após uma fabricação de LSI, a utilização de um FPGA (arranjo de porta programável de campo) ou de um processador reconfigurável em que conexões e regulagens de células de circuito em um LSI podem ser reconfiguradas também é possível.
Ainda, se uma tecnologia de circuito integrado vier a substituir os
LSIs como resultado do avanço na tecnologia de semicondutor ou um derivado de outra tecnologia, naturalmente também é possível realizar a integração de bloco de função usando esta tecnologia. Uma aplicação em biotecnologia também é possível.
A exposição do Pedido de Patente Japonesa N0 2007-053497,
depositado em 2 de março de 2007, incluindo o relatório descritivo, os desenhos e o resumo, é incorporada aqui como referência em sua totalidade. Aplicabilidade Industrial
A presente invenção é adequada para um aparelho de codificação que codifica sinais de fala e sinais de áudio, e um aparelho de decodificação que decodifica estes sinais codificados.

Claims (6)

1. Aparelho de codificação, que compreende: uma seção de quantificação de formato que codifica um formato de um espectro de frequência; e uma seção de quantificação de ganho que codifica um ganho do espectro de frequência, em que a seção de quantificação de formato compreende: uma seção de busca de intervalo que busca por uma primeira forma de onda fixa em cada uma de uma pluralidade de bandas dividindo um intervalo de busca predeterminado; e uma seção de busca completa que busca segundas formas de onda fixas por uma totalidade do intervalo de busca predeterminado.
2. Aparelho de codificação de acordo com a reivindicação 1, em que a seção de busca completa busca pelas segundas formas de onda fixas pela avaliação de uma distorção de codificação por um ganho ideal por banda.
3. Aparelho de codificação de acordo com a reivindicação 1, em que a seção de busca completa codifica uma informação de posição das segundas formas de onda fixas com base em um número de combinações de posições das segundas formas de onda fixas.
4. Aparelho de codificação de acordo com a reivindicação 1, em que a seção de quantificação de ganho calcula ganhos da primeira forma de onda fixa e das segundas formas de onda fixas em uma base por banda.
5. Aparelho de codificação, que compreende: uma seção de quantificação de formato que codifica um formato de um espectro de frequência; e uma seção de quantificação de ganho que codifica um ganho do espectro de frequência, em que a seção de quantificação de formato busca por formas de onda fixas pela avaliação da distorção de codificação por um ganho ideal em cada uma de uma pluralidade de bandas dividindo um intervalo de busca predeterminado.
6. Método de codificação, que compreende: uma etapa de quantificação de formato de codificação de um formato de um espectro de frequência; e uma etapa de quantificação de ganho de codificação de um ganho do espectro de frequência, em que a etapa de quantificação de formato compreende: uma etapa de busca de intervalo de busca por uma primeira forma de onda fixa em uma pluralidade de bandas dividindo um intervalo de busca predeterminado; e a etapa de busca completa de busca por segundas formas de onda fixas por uma totalidade do intervalo de busca predeterminado.
BRPI0808198A 2007-03-02 2008-02-29 Dispositivo de codificação e método de codificação BRPI0808198A8 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007053497 2007-03-02
JP2007-053497 2007-03-02
PCT/JP2008/000397 WO2008108076A1 (ja) 2007-03-02 2008-02-29 符号化装置および符号化方法

Publications (2)

Publication Number Publication Date
BRPI0808198A2 true BRPI0808198A2 (pt) 2014-07-08
BRPI0808198A8 BRPI0808198A8 (pt) 2017-09-12

Family

ID=39737974

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0808198A BRPI0808198A8 (pt) 2007-03-02 2008-02-29 Dispositivo de codificação e método de codificação

Country Status (11)

Country Link
US (1) US8719011B2 (pt)
EP (1) EP2128858B1 (pt)
JP (1) JP5190445B2 (pt)
KR (1) KR101414359B1 (pt)
CN (1) CN101622663B (pt)
BR (1) BRPI0808198A8 (pt)
DK (1) DK2128858T3 (pt)
ES (1) ES2404408T3 (pt)
MX (1) MX2009009229A (pt)
RU (1) RU2463674C2 (pt)
WO (1) WO2008108076A1 (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035214A1 (en) * 2008-04-09 2011-02-10 Panasonic Corporation Encoding device and encoding method
CN102396024A (zh) * 2009-02-16 2012-03-28 韩国电子通信研究院 使用自适应正弦波脉冲编码的用于音频信号的编码/解码方法及其设备
US8660851B2 (en) 2009-05-26 2014-02-25 Panasonic Corporation Stereo signal decoding device and stereo signal decoding method
CN102656629B (zh) * 2009-12-10 2014-11-26 Lg电子株式会社 编码语音信号的方法和设备
KR101696632B1 (ko) 2010-07-02 2017-01-16 돌비 인터네셔널 에이비 선택적인 베이스 포스트 필터
EP2610866B1 (en) * 2010-08-24 2015-04-22 LG Electronics Inc. Method and device for processing audio signals
US9558752B2 (en) * 2011-10-07 2017-01-31 Panasonic Intellectual Property Corporation Of America Encoding device and encoding method
US9336788B2 (en) * 2014-08-15 2016-05-10 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
EP3332557B1 (en) 2015-08-07 2019-06-19 Dolby Laboratories Licensing Corporation Processing object-based audio signals
JP7016660B2 (ja) * 2017-10-05 2022-02-07 キヤノン株式会社 符号化装置、その制御方法、および制御プログラム、並びに撮像装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5701392A (en) * 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
JP3264679B2 (ja) * 1991-08-30 2002-03-11 沖電気工業株式会社 コード励振線形予測符号化装置及び復号化装置
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
JP3186007B2 (ja) 1994-03-17 2001-07-11 日本電信電話株式会社 変換符号化方法、復号化方法
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
TW321810B (pt) * 1995-10-26 1997-12-01 Sony Co Ltd
US6408268B1 (en) * 1997-03-12 2002-06-18 Mitsubishi Denki Kabushiki Kaisha Voice encoder, voice decoder, voice encoder/decoder, voice encoding method, voice decoding method and voice encoding/decoding method
JP3147807B2 (ja) 1997-03-21 2001-03-19 日本電気株式会社 信号符号化装置
JP3063668B2 (ja) * 1997-04-04 2000-07-12 日本電気株式会社 音声符号化装置及び復号装置
CA2233896C (en) * 1997-04-09 2002-11-19 Kazunori Ozawa Signal coding system
JP3185748B2 (ja) * 1997-04-09 2001-07-11 日本電気株式会社 信号符号化装置
JP3954716B2 (ja) * 1998-02-19 2007-08-08 松下電器産業株式会社 音源信号符号化装置、音源信号復号化装置及びそれらの方法、並びに記録媒体
JP3199020B2 (ja) 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US20020016161A1 (en) * 2000-02-10 2002-02-07 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for compression of speech encoded parameters
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
EP1691344B1 (en) * 2003-11-12 2009-06-24 HONDA MOTOR CO., Ltd. Speech recognition system
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CN101099199A (zh) * 2004-06-22 2008-01-02 皇家飞利浦电子股份有限公司 音频编码和解码
WO2006080358A1 (ja) 2005-01-26 2006-08-03 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
US8433581B2 (en) 2005-04-28 2013-04-30 Panasonic Corporation Audio encoding device and audio encoding method
EP1876586B1 (en) * 2005-04-28 2010-01-06 Panasonic Corporation Audio encoding device and audio encoding method
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
ATE490454T1 (de) * 2005-07-22 2010-12-15 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
JP2007053497A (ja) 2005-08-16 2007-03-01 Canon Inc 映像表示装置及び映像表示方法
JP5025485B2 (ja) 2005-10-31 2012-09-12 パナソニック株式会社 ステレオ符号化装置およびステレオ信号予測方法
JP5173795B2 (ja) * 2006-03-17 2013-04-03 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
JP5113799B2 (ja) 2009-04-22 2013-01-09 株式会社ニフコ 回転ダンパー

Also Published As

Publication number Publication date
US8719011B2 (en) 2014-05-06
DK2128858T3 (da) 2013-07-01
WO2008108076A1 (ja) 2008-09-12
EP2128858A1 (en) 2009-12-02
JP5190445B2 (ja) 2013-04-24
ES2404408T3 (es) 2013-05-27
CN101622663A (zh) 2010-01-06
BRPI0808198A8 (pt) 2017-09-12
JPWO2008108076A1 (ja) 2010-06-10
KR20090117877A (ko) 2009-11-13
KR101414359B1 (ko) 2014-07-22
EP2128858A4 (en) 2012-03-14
US20100057446A1 (en) 2010-03-04
MX2009009229A (es) 2009-09-08
CN101622663B (zh) 2012-06-20
RU2463674C2 (ru) 2012-10-10
EP2128858B1 (en) 2013-04-10
RU2009132936A (ru) 2011-03-10

Similar Documents

Publication Publication Date Title
BRPI0808198A2 (pt) Dispositivo de codificação e método de codificação
BRPI0808202A2 (pt) Dispositivo de codificação e método de codificação.
US8271270B2 (en) Method, apparatus and system for encoding and decoding broadband voice signal
BRPI0808428A2 (pt) Dispostivo de codificação e método de codificação
JPWO2008047795A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
ES2952973T3 (es) Dispositivo de determinación de la función de ponderación y procedimiento para cuantificar el coeficiente de codificación de predicción lineal
US20110035214A1 (en) Encoding device and encoding method
WO2012035781A1 (ja) 量子化装置及び量子化方法
WO2010098130A1 (ja) トーン判定装置およびトーン判定方法
US20100049508A1 (en) Audio encoding device and audio encoding method
US10176816B2 (en) Vector quantization of algebraic codebook with high-pass characteristic for polarity selection
WO2008114075A1 (en) An encoder
US9230553B2 (en) Fixed codebook searching by closed-loop search using multiplexed loop
Ramabadran et al. An iterative interpolative transform method for modeling harmonic magnitudes
WO2012053149A1 (ja) 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法
JP2013068847A (ja) 符号化方法及び符号化装置
KR20160007681A (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
B25A Requested transfer of rights approved

Owner name: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AME

B25A Requested transfer of rights approved

Owner name: III HOLDINGS 12, LLC (US)

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B11B Dismissal acc. art. 36, par 1 of ipl - no reply within 90 days to fullfil the necessary requirements