BRPI0910517B1 - Um aparelho e um método para calcular um número de envelopes espectrais a serem obtidos por um codificador de replicação de banda espectral (sbr) - Google Patents

Um aparelho e um método para calcular um número de envelopes espectrais a serem obtidos por um codificador de replicação de banda espectral (sbr) Download PDF

Info

Publication number
BRPI0910517B1
BRPI0910517B1 BRPI0910517-4A BRPI0910517A BRPI0910517B1 BR PI0910517 B1 BRPI0910517 B1 BR PI0910517B1 BR PI0910517 A BRPI0910517 A BR PI0910517A BR PI0910517 B1 BRPI0910517 B1 BR PI0910517B1
Authority
BR
Brazil
Prior art keywords
time
envelope
boundary
envelopes
spectral
Prior art date
Application number
BRPI0910517-4A
Other languages
English (en)
Inventor
Max Neuendorf
Harald Popp
Nikolaus Rettelbach
Frederik Nagel
Markus Lohwasser
Marc Gayer
Manuel Jander
Virgilio Bacigalupo
Bernhard Grill
Ulrich Kraemer
Markus Multrus
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Publication of BRPI0910517A2 publication Critical patent/BRPI0910517A2/pt
Publication of BRPI0910517B1 publication Critical patent/BRPI0910517B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Dental Tools And Instruments Or Auxiliary Dental Instruments (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

UM APARELHO E UM MÉTODO PARA CALCULAR UM NÚMERO DE ENVELOPES ESPECTRAIS A presente invenção se refere a um aparelho e a um método para calcular um número de envelopes espectrais, um codificador de áudio e um método para codificar sinais de áudio.

Description

[0001] ESPECIFICAÇÃO
[0002] A presente invenção se refere a um aparelho e a um método para calcular um número de envelopes espectrais, um codificador de áudio e um método para codificar sinais de áudio.
[0003] A codificação de áudio natural e codificação de fala são duas tarefas principais dos codecs para sinais de áudio. A codificação natural de áudio é comumente usada para a música ou sinais arbitrários em taxas médias de bits e geralmente oferece amplas larguras de banda de áudio.Por outro lado, os codificadores de voz são basicamente limitados à reprodução da fala, mas também podem ser usados em uma taxa de bits bastante baixa. A banda larga de voz oferece uma grande melhoria da qualidade subjetiva sobre a banda estreita de voz. Aumentar a largura de banda melhora não só a inteligibilidade e naturalidade da fala, mas também o reconhecimento do falante. A codificação de banda larga de voz é, portanto, uma questão importante para a próxima geração de sistemas de telefonia. Além disso, devido ao enorme crescimento da área de multimídia, a transmissão de música e outros sinais de não-fala em alta qualidade nos sistemas telefônicos é uma característica desejável.
[0004] Para reduzir drasticamente a taxa de bits, a codificação de fonte pode ser realizada utilizando codecs de áudio de faixa dividida de percepção. Esses codecs naturais de áudio exploram a irrelevância de percepção e redundância estatística no sinal. Além disso, é comum reduzir a taxa de amostragem e, portanto, a largura da banda de áudio. Também é comum diminuir o número de níveis de composição, permitindo ocasionalmente a distorção de quantização audível e empregar a degradação do campo estéreo através de codificação de intensidade. O uso excessivo desses métodos resulta na degradação perturbadora de percepção. A 5 fim de melhorar o desempenho de codificação, a replicação de banda espectral é utilizada como um método eficiente para gerar sinais de alta frequência em um codec baseado em uma reconstrução de alta frequência (HFR). u
A replicação da banda espectral (SBR) compreende ô 10 uma técnica que ganhou popularidade como uma adição para codificadores de áudio de percepção populares, como MP3 e a codificação avançada de áudio (AAC) . A SBR compreende um método de extensão de largura de banda no qual a banda baixa (banda base ou banda principal) do espectro é codificada usando um codec de 15 última geração, enquanto a banda superior’ (ou banda 'alta) é padronizada de forma grosseira usando poucos parâmetros. A SBR faz . uso de uma correlação entre a banda baixa e banda alta, prevendo o maior sinal de banda a partir da banda inferior utilizando recursos extraídos de banda alta. Isso geralmente é suficiente, 20 uma vez que o ouvido humano é menos sensível a distorções na banda superior em comparação com a banda inferior. Os novos codificadores de áudio, portanto, codificam o espectro mais baixo utilizando, por exemplo, MP3 ou AAC, enquanto a banda superior é codificada usando SBR. A chave para o algoritmo SBR é a informação 25 usada para descrever a porção mais alta da frequência do sinal. O principal objetivo do projeto deste algoritmo é reconstruir o espectro de banda sem introduzir quaisquer artefatos e fornecer boa resolução espectral e temporal. Por exemplo, um banco de filtros polifásico de 64 bandas de valor complexo é usado na porção de análises e no codificador; o banco de filtros é usado para obter, por exemplo, amostras de energia de banda alta do sinal de entrada original. Estas amostras de energia podem, então, 5 ser usadas como valores de referência para um esquema de ajuste de envelope utilizado no decodificador.
Envelopes Espectrais referem-se a uma distribuição espectral grosseira do sinal em um sentido geral e u compreendem, por exemplo, os coeficientes do filtro em um 5 10 codificador preditivo linear ou um conjunto de médias de tempo- frequência das amostras de sub-banda em um codificador de subbanda. Os dados de envelope referem-se, por sua vez, ao envelope espectral quantizado e codificado. Especialmente se a banda de O baixa frequência é codificada com uma baixa taxa de bits, os dados 15 “do envelope constituem uma parte" maior do fluxo de bits.
Por isso, é importante representar o envelope . espectral de forma compacta quando do uso de taxas menores de bits.
A replicação de banda espectral faz uso de 20 ferramentas, que são baseadas em uma replicação de, por exemplo, sequências de harmônicas, truncadas durante a codificação. Além disso, ela ajusta o envelope espectral da banda alta gerada e aplica filtragem inversa e adiciona componentes de ruido e harmônicos, a fim de recriar as características espectrais do 25 sinal original. Portanto, a entrada da ferramenta SBR compreende, por exemplo, os dados quantizados de envelope, dados de controle diversos, um sinal do domínio do tempo a partir do codificador principal (por exemplo, AAC ou MP3) . A saída da ferramenta SBR ou é um sinal de domínio de tempo ou um domínio QMF (QMF = Filtro espelho de quadratura), representação de um sinal como, por exemplo, no caso do uso da ferramenta surround de MPEG. A descrição dos elementos do fluxo de bits para a carga SBR pode ser encontrada no padrão ISO / IEC 14496-3:2005, sub-cláusula 4.5.2.8 e compreende, entre outros dados de extensão SBR, um cabeçalho de SBR, e indica o número de envelopes SBR dentro de uma estrutura SBR. u
Para a implementação de um SBR ao lado do codificador, é realizada uma análise do sinal de entrada. As informações obtidas a partir dessa análise são usadas para escolher a resolução apropriada de tempo / frequência da estrutura SBR atual. O algoritmo calcula as fronteiras de início e fim dos envelopes SBR na estrutura SBR atual, o número de envelopes SBR bem’ como‘a sua~resolúção dê "frequência. As" diferentes resoluções de frequências são calculadas conforme descrito, por exemplo, no padrão ISO / IEC 14496 3 na sub-cláusula 4.6.18.3. O algoritmo também calcula o número de patamares de ruído para a estrutura SBR » e as fronteiras de tempo de início e parada da mesma. As fronteiras de início e parada das fronteiras de tempo dos patamares de ruído devem ser um sub-conjunto das fronteiras de tempo de início e parada dos envelopes espectrais. O algoritmo divide a estrutura SBR atual em quatro classes: FIXFIX - Ambas as fronteiras de tempo de liderança e delimitação se igualam aos limites da estrutura SBR. Todas as fronteiras de tempo do envelope SBR na estrutura estão uniformemente distribuídas no tempo, o número de envelopes é uma potência inteira de dois (1,2,4,8, . . . ) . FIXVAR - A fronteira de tempo de liderança se iguala ao limite de liderança nominal da estrutura. A fronteira de tempo de delimitação é variável e pode ser definida por elementos de fluxo de bit. Todas as fronteiras de tempo de envelope SBR 5 entre a fronteira de tempo de liderança e de delimitação podem ser especificadas como distância relativa em intervalos de tempo para a fronteira anterior, a partir da fronteira de tempo de delimitação. VARFIX - A fronteira de tempo de liderança é 10 variável e será definida por elementos de fluxo de bit. A fronteira do tempo de delimitação é igual ao limite nominal da estrutura de delimitação. Todas as fronteiras de tempo de envelope SBR entre as fronteiras de tempo de liderança e delimitação estão especificadas no fluxo de bit como a distância relativa em 15 intervalos dê tempo- pa'rã ~a fronteira ãnteriorT' a partir da fronteira de tempo de liderança. VARVAR - Ambas as fronteiras de tempo de liderança e delimitação são variáveis e podem ser definidas no fluxo de bit. Todas as fronteiras de tempo de envelope SBR entre 20 as fronteiras de tempo de liderança e delimitação também são especificadas. As fronteiras de tempo relativas a partir da fronteira de tempo de liderança são especificadas como a distância relativa à fronteira de tempo anterior. As fronteiras de tempo relativas a partir da fronteira de tempo de delimitação são 25 especificadas como a distância relativa à fronteira de tempo anterior.
Não há restrições quanto às transições de classe da estrutura SBR, ou seja, qualquer sequência de classes é permitida no Padrão. No entanto, de acordo com este Padrão, o número máximo de envelopes SBR por estrutura SBR está limitado a 4 para classe FIXFIX e 5 para classe VARVAR. As classes FIXVAR e VARFIX são sintaticamente limitadas a quatro envelopes SBR.
Os envelopes espectrais da estrutura SBR são estimados ao longo do segmento de tempo e com a resolução de frequência dada pela rede de tempo / frequência, O envelope SBR é estimado por meio da média de amostras de sub-banda complexas ao quadrado sobre as regiões dadas de tempo/frequência.
Os transitórios recebem em SBR, geralmente, um tratamento especifico, empregando envelopes específicos de duração variável. Os transitórios podem ser definidos pelas porções dentro de sinais convencionais, onde um forte aumento da energia aparece dentro de um curto periodo de tempo, que pode ou não pode ser limitado *em uma refiâõ dê frequência ""específica.- Exemplos de transitórios são batidas de castanholas e instrumentos de •- percussão, mas também certos sons da voz humana, como, por exemplo, as letras: P, T, K, ... . A detecção deste tipo de transitório é implementada, até agora, sempre da mesma forma ou 20 com o mesmo algoritmo (utilizando um limite de transitório), que é independente do sinal, seja ele classificado como fala ou classificado como música. Além disso, uma possível distinção entre fala vozeada e não vozeada não influencia o mecanismo clássico de detecção convencional ou transitória.
Assim, no caso de um transitório ser detectado, os dados SBR devem ser ajustados para que o decodificador possa reproduzir os transitórios detectados adequadamente. Em WO 01/26095, um aparelho e um método são divulgados para codificação de envelope espectral, que leva em conta um transitório detectado no sinal de áudio. Neste método conventional, uma amostra de tempo e frequência não uniforme do envelope espectral é alcançada por amostras de sub-banda de agrupamento adaptativo de um banco de 5 filtros de tamanho fixo em faixas de frequência e segmentos de tempo, e cada um deles gera uma amostra de envelope. Os sistemas correspondentes voltam ao padrão de segmentos de longo prazo e de resolução de alta frequência, mas nos arredores de um transitório, segmentos menores de tempo são usados, pelos quais os passos de 10 maior frequência podem ser usados para manter o tamanho dos dados dentro dos limites. No caso de um transitório ser detectado, o sistema alterna de estrutura FIXFIX para estrutura FIXVAR seguida por uma estrutura VARFIX tal que uma fronteira de envelope é fixa perante o transitório detectado. Esse procedimento se repete 15' "sempre' quê o transitório é “debêctado. " ' " ~ Caso a flutuação de energia mude apenas de forma devagar, o detector de transitórios não detectará a alteração. Estas mudanças podem, no entanto, ser fortes o suficiente para gerar artefatos perceptíveis se não tratadas de forma adequada.
Uma solução simples seria a redução do limiar no detector de transitórios. Isso, no entanto, pode resultar em uma mudança frequente entre estruturas diferentes (FIXFIX para FIXVAR + VARFIX) . Como consequência, uma quantidade significativa de dados adicionais tem que ser transmitida, o que implica em uma escassa 25 eficiência da codificação — especialmente se o crescimento lento durar um tempo mais longo (por exemplo, várias estruturas). Isso não é aceitável, uma vez que o sinal não compreende a complexidade, o que justificaria uma maior taxa de dados; assim, esta não é uma opção para resolver o problema.
Um objetivo da presente invenção é, portanto, fornecer um aparelho, que permite uma codificação eficiente sem artefatos perceptíveis, especialmente para os sinais que 5 compreendem uma energia com lenta variação, que é muito baixa para ser detectada pelos detectores de transitórios.
Este objetivo é alcançado por meio do aparelho de acordo com a reivindicação 1, o codificador de acordo com a reivindicação 11, um método para calcular o número de envelopes 10 espectrais de acordo com a reivindicação de 13 ou um método para gerar um fluxo de dados de acordo com a reivindicação 14.
A presente invenção baseia-se na constatação de que a percepção de qualidade de um sinal de áudio transmitido pode ser aumentada por meio do ajuste de forma flexível do número de 15 cnvelopes‘’espèctrai s dentro’de uma éstruturá "SBR, de acordo’ com um determinado sinal. Isto é alcançado por meio da comparação do - sinal de áudio de porções de tempo vizinhas dentro da estrutura SBR.
A comparação é feita por meio da determinação das 20 distribuições de energia para o sinal de áudio dentro das porções de tempo, e um valor de decisão mede um desvio das distribuições de energia de duas porções de tempo vizinhas. Dependendo se o valor decisão viola um limite, uma fronteira de envelope está localizada entre as porções de tempo vizinhas. A outra fronteira do envelope pode ser no inicio ou no final da estrutura SBR ou, alternativamente, também entre as duas novas porções de tempo vizinhas dentro da estrutura SBR.
Como resultado, a estrutura SBR não está adaptada ou alterada como, por exemplo, em um aparelho convencional onde uma mudança de uma estrutura FIXFIX para uma estrutura FIXVAR ou para uma estrutura VARFIX é realizada a fim de tratar transitórios. Em vez disso, materializações usam um número 5 variável de envelopes, por exemplo, dentro da estrutura FIXFIX, a fim de levar em conta as diversas variações do sinal de áudio para que mesmo os sinais com variação lenta possam resultar em um número de mudança de envelopes e, com isso, permitir uma melhor qualidade de áudio a ser produzida pela ferramenta SBR em um ‘ 10 decodificador. Os envelopes determinados podem, por exemplo, cobrir porções de tempo de comprimento igual dentro da estrutura SBR. Por exemplo, a estrutura SBR pode ser dividida em um número pré-determinado de porções de tempo (que pode, por exemplo, compreender 4, 8 ou outras potências inteiras de 2) .
A distribuição “espectfra∑ 'de 'energia de cada porção de tempo só pode cobrir a faixa de frequência superior, que L é replicada pela SBR. Por outro lado, a distribuição espectral de energia também pode estar relacionada com a faixa de frequência «► integral (superior e inferior), onde a banda de frequência 20 superior pode ou não ser ponderada mais do que a faixa de frequência mais baixa. Por meio deste procedimento, uma violação do valor-limite pode ser suficiente para aumentar o número de envelopes ou para usar o número máximo de envelopes dentro da estrutura SBR.
Outras materializações também podem incluir uma ferramenta de classificação de sinais, que analisa o sinal de entrada original e gera informações de controle, o que desencadeia a seleção de diferentes modos de codificação. Os modos diferentes de codificação, por exemplo, incluem um codificador de voz e um codificador de áudio geral. A análise do sinal de entrada é dependente da implementação, com o objetivo de escolher o modo de codificação principal ideal para uma determinada estrutura de sinal de entrada. O ideal refere-se a um equilíbrio de uma qualidade perceptiva elevada, ao usar apenas a taxa baixa de bits para a codificação. A entrada para a ferramenta de classificação de sinal pode ser o sinal de entrada original sem modificações e / u ou outros parâmetros dependentes de implementação. A saida da ferramenta de classificação de sinais pode, por exemplo, ser um sinal de controle para controlar a seleção do codec principal.
Se, por exemplo, o sinal está identificado ou classificado como fala, a resolução como tempo da extensão de largura de banda (BWE) pode ser aumentada (por exemplo, por mais 15- envelopes)- para que - a-flutuação de energia como“ tempo" (flutuação devagar ou forte) possa ser levada em conta.
Essa aproximação leva em consideração que sinais diferentes com características diferentes de tempo/frequência têm necessidades diferentes nas características de largura de banda. Por exemplo, sinais transitórios (que aparecem, por exemplo, em sinais de fala) precisam de uma excelente resolução temporal da BWE, a frequência de transição (ou seja, a fronteira superior de frequência do codificador principal) deve ser a mais alta possível. Especialmente na fala com som, uma estrutura temporal distorcida pode diminuir a qualidade percebida. Por outro lado, os sinais de tom muitas vezes precisam de uma reprodução estável de componentes espectrais e uma correspondência padrão harmônica das porções de alta frequência reproduzidas. A reprodução estável de partes de tom limita a largura de banda do codificador principal - não precisa de um BWE com tempo bom, e sim uma melhor resolução espectral. Em um design de codificador principal de áudio/fala alternado, é ainda possível utilizar a decisão do codificador 5 principal para adaptar tanto as características temporais quanto espectrais da BWE, bem como adaptar a largura de banda do codificador principal às características do sinal.
Se todos os envelopes compõem a mesma duração no tempo, dependendo da violação detectada (em qual tempo), o número 10 de envelopes pode variar de estrutura para estrutura. As materializações determinam o número de envelopes para uma estrutura SBR, por exemplo, da seguinte maneira. É possível começar com uma partição de um possível número máximo de envelopes (por exemplo, 8) e reduzir o número de envelopes passo a passo, de 15 _ modo _que, dependendo-do- si-nal- de- entrada,” não ' são usados mãis envelopes do que o necessário para permitir a reprodução do sinal de alta qualidade de forma perceptível. Por exemplo, uma violação detectada já na primeira fronteira das porções de tempo dentro da estrutura pode 20 resultar em um número máximo de envelopes, e uma única violação detectada somente na segunda fronteira pode resultar em metade do número máximo de envelopes. A fim de reduzir os dados a serem transmitidos, em outras materializações o valor de limite pode depender do instante de tempo (ou seja, dependendo de qual fronteira está em fase de análise) . Por exemplo, entre a primeira e segunda porção de tempo (primeira fronteira) e entre a terceira e quarta porções de tempo (terceira fronteira) o limite em ambos os casos pode ser maior do que entre a segunda e terceira porção (segunda fronteira). Assim, estatisticamente haverá mais violações na segunda fronteira do que na primeira ou terceira fronteira e menos envelopes são prováveis, o que seria preferível (obtenha mais detalhes abaixo).
Em materializações seguintes, a duração de tempo de uma porção de tempo do número pré-determinado de porções de tempo subsequentes é igual a uma duração mínima de tempo, para qual um único envelope é determinado, e na qual a calculadora do valor de decisão é adaptada para calcular um valor de decisão para 10 duas porções de tempo vizinhas tendo a duração mínima de tempo.
No entanto, as materializações compreendem um processador de informações para fornecer informações laterais adiciõnãis, às’ informações laterais adicionais compreendem a primeira fronteira do envelope e a segunda fronteira do envelope 15 dentro da sequência de tempo- do sinal- -de -áudio." Env ‘ oútrãs materializações, o detector é adaptado para investigar em uma ordem temporal cada uma das fronteiras entre as porções de tempo vizinhas.
As materializações também usam o aparelho para calcular o número de envelopes dentro de um codificador. O codificador compreende o aparelho para calcular o número do envelope espectral e uma calculadora de envelope usa esse número para calcular os dados do envelope espectral para uma estrutura SBR. As manifestações também compreendem um método para calcular o 25 número de envelopes e um método para codificar um sinal de áudio. Portanto, o uso de envelopes dentro de estruturas FIXFIX tem por objetivo uma melhor modelagem da flutuação de energia, que não é abrangida pelo referido tratamento de transitórios, uma vez que são muito lentos para ser detectados como transitórios ou para serem classificados como transitórios. Por outro lado, eles são rápidos o suficiente para causar artefatos se não forem tratados adequadamente, devido à resolução temporal insuficiente. Portanto, o tratamento do envelope de acordo com a presente invenção levará em conta a lenta variação de flutuações de energia e não somente as flutuações de energia fortes ou rápidas, que são características para transitórios. Assim, as materializações da presente invenção permitem uma codificação mais eficiente em uma melhor qualidade, especialmente para os sinais com uma energia de variação lenta, cuja intensidade de flutuação é muito baixa para ser detectada pelos detectores de transitórios convencionais.
BREVE DESCRIÇÃO DOS DESENHOS
A presente invenção sera agora descriTã por meio de exemplos ilustrados. As características da invenção serão mais facilmente apreciadas e melhor compreendidas pela referência á seguinte descrição detalhada, que deve ser considerada com referência aos desenhos que acompanham, em que:
Fig. 1 mostra um diagrama de blocos de um aparelho para calcular um número de envelopes espectrais de acordo com as materializações da presente invenção;
Fig. 2 mostra um diagrama de bloco do módulo SBR compreendendo uma calculadora de número de envelope;
Figs. 3a e 3b mostram diagramas de bloco de um codificador compreendendo uma calculadora de número de envelope;
Fig. 4 ilustra a partição de uma estrutura SBR em um número pré-determinado de porções de tempo;
Figs. 5a a 5c mostram outras partições para uma estrutura SBR compreendendo três envelopes cobrindo números diferentes de porções de tempo;
Figs. 6a e 6b ilustram a distribuição espectral de energia para sinais dentro de porções de tempo vizinhas; e
Figs.7a a 7c mostram um codificador compreendendo um interruptor de áudio/fala opcional resultando em resolução temporal diferente para um sinal de áudio.
DESCRIÇÃO DETALHADA DA INVENÇÃO
As materializações descritas abaixo são meramente ilustrativas para o principio da presente invenção para a melhoria da replicação de banda _ espectral, _por «exemplo, usada- em- um- codificador de áudio. Entende-se que as modificações e variações dos ajustes e detalhes descritos neste documento serão aparentes * - cs — ~ ~ para os outros qualificados na arte. É a intenção, portanto, não se limitar pelos detalhes específicos apresentados por meio da descrição e explicação das materializações aqui contidas.
A Fig. 1 mostra um aparelho 100 para cálculo de um número 102 de envelopes espectrais 104. Os envelopes espectrais 20 104 são obtidos por um codificador de replicação de banda espectral, em que o codificador é adaptado para codificar um sinal de áudio 105 usando uma pluralidade de valores de amostra dentro de um número pré-determinado de porções de tempo subsequentes 110 em uma estrutura de replicação espectral de banda (estrutura SBR) , se estendendo de um tempo inicial t0 para o tempo final tn. O número pré-determinado de porções de tempo subsequente 110 é organizado em uma sequência de tempo dada pelo sinal de áudio 105.
O aparelho 100 compreende uma calculadora de valor de decisão 120 para determinar um valor de decisão 125, onde o valor de decisão 125 mede um desvio na distribuição espectral de energia de um par de porções de tempo vizinhas. O aparelho 100 também compreende um detector de violação 130 para detectar a 5 violação 135 de um limite pelo valor de decisão 125. Além disso, o aparelho 100 inclui um processador 140 (processador de determinação da primeira fronteira) para determinar uma fronteira do primeiro envelope 145 entre o par de porções de tempo vizinhas quando uma violação 135 do limite é detectada. O aparelho 100 10 também compreende um processador 150 (processador de determinação da segunda fronteira) para determinar uma segunda fronteira do envelope 155 entre um par diferente _de porções^ de= tempo = «vizinhas tanto em um tempo inicial t0 quanto em um tempo final tn para um envelope 104 tendo a primeira fronteira 145 do envelope com base 15 em uma violação 135 do limite para o outro par ou com base em uma posição temporal do par ou o outro par na estrutura SBR. Finalmente, o aparelho 100 compreende um processador 160 (processador de número do envelope) para estabelecer o número 102 dos envelopes espectrais 104 tendo a primeira fronteira do 20 envelope 145 e a segunda fronteira do envelope 155.
Outras materializações compreendem um aparelho 100, em que um periodo de tempo de uma porção de tempo do número pré-determinado de uma porção de tempo subsequente 110 é igual a um período mínimo de tempo durante o qual um único envelope 104 é 25 determinado. Além disso, a calculadora do valor de decisão 120 é adaptada para calcular o valor de decisão 125 para duas porções de tempo vizinhas tendo o período mínimo no tempo. ferramenta SBR compreendendo a calculadora do número de envelope 100 (mostrado na Figura 1.), que determina o número 102 de envelopes espectrais 104 processando o sinal de áudio 105. O número 102 é inserido em uma calculadora de envelope 210, que 5 calcula os dados de envelope 205 do sinal de áudio 105. Usando o número 102, a calculadora de envelope 210 dividirá a estrutura SBR em porções cobertas por um envelope espectral 104 e para cada envelope espectral 104 a calculadora de envelope 210 calcula os dados de envelope 205. Os dados de envelope compreendem, por 10 exemplo, o envelope espectral quantizado e codificado, e esses dados sâo necessários ao lado do codificador para gerar o sinal de banda alta e aplicando a filtragem _inversa, . acrescentando componentes ruidosos e harmônicos, a fim de reproduzir as características espectrais do sinal original.
A Fig. 3a mostra uma materialização para um codificador 300; o codificador 300 é composto por módulos relacionados a SBR 310, um banco QMF de análise 320, estabelece um downsampler 330, um codificador principal AAC 340 e um formatador de carga de fluxo de bit 350. Além disso, o codificador 300 compreende a calculadora de dados de envelope 210. O codificador 300 inclui uma entrada para amostras PCM (sinal de áudio 105; PCM = Modulação de código de pulso), que está conectada ao banco QMF de análise 320, e para os módulos relacionados a SBR 310 e ao downsampler 330. O banco QMF de análise 320, por sua vez, está conectado à calculadora de dados de envelope 210, que, por sua vez, está conectada ao formatador de carga de fluxo de bit 350. O downsampler 330 está conectado ao codificador principal AAC 340, que, por sua vez, é conectado ao formatador de carga de fluxo de bit 350. Finalmente, o módulo relacionado à SBR 310 está conectado à calculadora de dados de envelope 210 e ao codificador principal AAC 340.
Portanto, o codificador 300 diminui a taxa de 5 amostragem do sinal de áudio 105 para gerar componentes na banda principal de frequência (no sampler de redução de amostragem 330), que são inseridos no codificador principal AAC 340, que codifica o sinal de áudio na banda de frequência e encaminha o sinal codificado para o formatador de carga de fluxo de bit 350 no qual 10 o sinal de áudio codificado da faixa principal de frequência é adicionado ao fluxo de áudio codificado 355. Por outro lado, o sinal de áudio 105 é analisado pelo banco QMF de análise 320,. que extrai componentes de frequência de banda alta de frequência e insere esses sinais na calculadora de dados de envelope 210. Por 15 exemplo, um banco QMF de análise de 64 sub-bandas 320 executa a filtragem de sub-banda do sinal de entrada. A saida do banco de filtro (ou seja, as amostras de sub-banda) são valores complexos e, portanto, aumenta a taxa de amostragem pelo fator de dois comparados com um banco QMF regular.
Os módulos relacionados à SBR 310 controlam a calculadora de dados envelope 210, fornecendo, por exemplo, o número 102 de envelopes 104 para a calculadora de dados de envelope 210. Usando o número 102 e os componentes de áudio gerados pelo banco QMF de análise 320, a calculadora de dados de 25 envelope 210 calcula os dados do envelope 205 e encaminha os dados do envelope 205 para o formatador de carga de fluxo de bit 350, que combina os dados do envelope 205 com os componentes codificados pelo codificador principal 340 no fluxo de audio codificado 355.
A Fig. 3a mostra, portanto, a parte do codificador da ferramenta SBR estimando vários parâmetros usados pelo método de reconstrução de alta frequência no decodificador.
A Fig. 3b mostra um exemplo para o módulo relacionado à SBR 310, que compreende a calculadora de número do envelope 100 (mostrado na Figura 1.) e, opcionalmente, outros módulos SBR 360. Os módulos relacionados à SBR 310 recebem o sinal de áudio 105 e emite a saida de número 102 dos envelopes 104, mas 10 também outros dados gerados pelos módulos SBR 360.
Os outros módulos SBR 360 podem, por exemplo, compreender um detector transitório convencional ^adaptado para detectar transitórios no sinal de áudio 105 e também podem obter o número e/ou posições dos envelopes para que os módulos SBR 15 possam ou não calcular parte dos parâmetros utilizados pelo método de reconstrução de alta frequência no decodificador (parâmetro SBR) .
Como dito antes, dentro do SBR uma unidade de tempo SBR (uma estrutura SBR) pode ser dividida em vários blocos 20 de dados, os chamados envelopes. Se essa divisão ou partição é uniforme, ou seja, se todos os envelopes 104 têm o mesmo tamanho e o primeiro envelope começa e o último envelope termina com uma fronteira de estrutura, a estrutura SBR é definida como a estrutura FIXFIX.
A Fig. 4 ilustra essa partição para uma estrutura SBR em um número 102 de envelopes espectrais 104. A estrutura SBR cobre um periodo de tempo entre o tempo inicial t0 e o tempo final tn e é, na materialização mostrada na figura 4, porções de tempo, uma primeira porção de tempo 111, uma segunda porção de tempo 112, . . uma sétima porção de tempo 117 e uma oitava porção de tempo 118. As 8 porções de tempo 110 são separadas por 7 fronteiras, o que significa que uma fronteira 1 está entre a primeira e segunda porção de tempo 111, 112, uma fronteira 2 está localizada entre a segunda porção 112 e uma terceira porção 113, e em diante até que uma fronteira 7 esteja entre a sétima porção 117 e a oitava porção 118. u Na Norma ISO / IEC 14496-3, o número máximo de envelopes 104 em uma estrutura FIXFIX está limitado a quatro (ver sub-parte 4, n.° 4.6.18.3.6). Em geral, o número dos envelopes 104 na estrutura FIXFIX poderia ser uma potência de dois (por exemplo, 1, 2, 4), onde as estruturas FIXFIX são apenas utilizadas se, na mesma estrutura, nenhum transitório foi detectado. Nas materializações convencionais de codificadores AAC de alta eficiência, por outro lado, o número máximo de envelopes 104 é - limitado a dois, mesmo se a especificação do padrão, teoricamente, permitir até quatro envelopes. Este número de envelopes 104 por u. estrutura pode ser aumentado, por exemplo, para oito (ver Fig. 4.), de modo que uma estrutura FIXFIX pode incluir 1, 2, 4 ou 8 envelopes (ou de outra potência de 2) . Naturalmente, qualquer outro número 102 de envelopes 104 também é possível, para que o número máximo de envelopes 104 (número pré-determinado) possa ser limitado pela resolução de tempo do banco de filtros QMF que tem 32 intervalos de tempo QMF por estrutura SBR.
O número 102 de envelopes 104 pode, por exemplo, ser calculado da seguinte forma. A calculadora de valor de decisão 120 mede desvios nas distribuições espectrais de energia de pares de porções de tempo vizinhas 110. Por exemplo, isso significa que a calculadora de valor de decisão 120 calcula uma distribuição espectral de energia para a primeira porção de tempo 111, calcula a segunda distribuição espectral de energia a partir dos dados 5 espectrais dentro da segunda porção de tempo 112, e assim por diante. Então, a primeira distribuição espectral de energia e a segunda distribuição espectral de energia são comparadas e, a partir desta comparação, o valor de decisão 125 é resultante, a que o valor de decisão 125 se refere, neste exemplo, a uma 10 fronteira 1 entre a primeira porção de tempo 111 e a segunda porção de tempo 112. O mesmo procedimento pode ser aplicado á segunda porção de tempo 112 e a terceira porção _de Jcempo 113 de forma que essas duas porções de tempo vizinhas e também duas distribuições espectrais de energia sejam obtidas, e estas duas 15 distribuições espectrais de energia são, por sua vez, comparadas com a calculadora de valor de decisão 120 para obter um outro valor de decisão 125. Como próximo passo, o detector 130 irá comparar os valores de decisão 125 obtidos com um valor limite e, se o 20 valor limite é violado, o detector 130 irá detectar uma violação 135. Se o detector 130 detectar uma violação 135, o processador 140 determina uma primeira fronteira de envelope 145. Por exemplo, se o detector 130 detecta uma violação na fronteira entre a primeira porção de tempo 111 e a segunda porção de tempo 112, a 25 primeira fronteira de envelope 145a está localizada no tempo da fronteira 1.
Na materialização da fig. 4, em que apenas várias possibilidades de grânulos / fronteiras são permitidas, isso significa que todo o processo está terminado, e todas as fronteiras sâo definidas como indicadas pelos pequenos envelopes indicados em 104a, 104b. Neste caso, as fronteiras seriam em todos os tempos 0, 1, 2, ..., n.
Quando, porém, a primeira fronteira está para ser definida, por exemplo, no instante de tempo 4, então a busca pela segunda fronteira tem que ser feita. Como indicado na figura. 4, a segunda fronteira poderia estar em 3, 2, 0. No caso da fronteira estar em 3, todo o processo é concluído, já que os envelopes menores 104a, 104b são definidos. No caso de a fronteira estar em 2, a busca tem de ser continua, já que não há certeza que os envelopes médios (indicado por 145a) poderiam _ser _usados Mesmo no caso da fronteira estar em 0, ainda não está determinado que na segunda metade, ou seja, entre 4 e n, não há uma fronteira. Se não há uma fronteira na segunda metade, então os mais amplos envelopes podem ser definidos. Se há uma fronteira, por exemplo, aos 5, - então os menores envelopes têm de ser utilizados. Se há uma fronteira apenas em 6, então, os envelopes médios são utilizados.
Quando, no entanto, um padrão completamente flexível ou mais flexível para os envelopes é permitido, o processo continua quando a primeira fronteira em 1 foi determinada. Em seguida, o processador 150 determina uma segunda fronteira de envelope 155, que está tanto entre um outro par de porções de tempo vizinhas ou coincide com o momento inicial t0 ou o tempo final tn. Nas materializações, como mostrado na Fig. 4, a segunda fronteira do envelope 155a coincide com o tempo inicial t0 (rendendo um primeiro envelope 104a) e outra segunda fronteira de envelope 155b coincide com a fronteira 2 entre a segunda porção de tempo 112 e a terceira porção de tempo 113 (produzindo um segundo envelope 104b) . Se não há violação detectada na fronteira 1 entre a primeira porção de tempo 111 e a segunda porção de tempo 112, o detector 130 continuará a investigar a fronteira entre a segunda porção de tempo 112 e a terceira porção de tempo 113. Se houver uma violação, um outro envelope 104c se estende a partir do tempo de inicio t0 para a fronteira 2.
De acordo com as materializações da invenção, para um par de envelopes vizinhos, tal valor de decisão 125 mede o 10 desvio de distribuições espectrais de energia, onde cada distribuição espectral de energia refere-se a uma parte do sinal de áudio dentro de uma porção de tempo. No exemplo de 8 envelopes, há um total de 7 medidas (= 7 fronteiras entre porções de tempo vizinhas) ou, em geral, se houver n envelopes, existem n-1 medidas (valores de decisão 125) . Cada um desses valores de decisão 125 pode ser comparado com um limite e, se o valor da decisão 125 (medida) viola o limite, uma fronteira de envelope estará localizada entre os dois envelopes vizinhos. Dependendo da definição do valor de decisão 125 e do limite, a violação pode ser um valor de decisão 125 tanto acima quanto abaixo do limite. No caso de o valor de decisão 125 ser inferior ao limite, a distribuição espectral não pode variar fortemente de envelope para envelope. Então, nenhuma fronteira de envelope pode ser necessária nesta posição (= momento no tempo).
Em uma materialização preferida, o número 102 de envelopes 104 compreende uma potência de dois e, além disso, cada envelope compreende um periodo de tempo igual. Isso significa que existem quatro possibilidades: uma primeira possibilidade é que a estrutura SBR inteira está coberta por um único envelope (não mostrado na Figura 4); a segunda possibilidade é que a estrutura SBR está coberta por dois envelopes; a terceira possibilidade é que a estrutura SBR está coberta por 4 envelopes, e a última 5 possibilidade é que a estrutura SBR está coberta por oito envelopes (mostrados na Figura 4 a partir da base até o topo).
Pode ser uma vantagem para investigar as fronteiras dentro de uma ordem especifica, porque se há uma violação em uma fronteira impar (fronteira 1, fronteira 3, 10 fronteira 5, fronteira 7), o número de envelopes será sempre oito (sob a hipótese de envelopes de igual tamanho). Por outro lado, se há uma violação da fronteira de 2 e fronteira^ 6,_ há quatro envelopes e, finalmente, se existe uma única violação da fronteira 4, dois envelopes serão codificados e, se não houver violação em 15 qüalquer-uma das 7 fronteiras, a estrutura SBR inteira é coberta por um único envelope. Assim, o aparelho 100 pode investigar primeiro as fronteiras 1, 3, 5, 7 e, se uma violação for detectada em uma dessas fronteiras, o aparelho 100 pode investigar a estrutura SBR seguinte, uma vez que, neste caso, a estrutura SBR será codificada pelo número máximo de envelopes. Depois de investigar essas fronteiras impares e se não forem detectadas violações nas fronteiras impares, o detector 130 pode investigar, como próxima etapa, a fronteira 2 e fronteira 6, de modo que, se uma violação for detectada em uma dessas duas fronteiras, o número 25 dos envelopes será quatro, e o aparelho 100 pode novamente voltar para a estrutura SBR seguinte. Como último passo, se não houver violações detectadas até agora nas fronteiras 1, 2, 3, 5, 6, 7, o detector 130 pode investigar a fronteira 4 e, se a violação for detectada na fronteira 4, o número de envelopes é fixado em dois, Para o caso geral (de n porções de tempo, onde n é um número par), este procedimento também pode ser reformulado da seguinte maneira. Se, por exemplo, nas fronteiras impares nenhuma 5 violação for detectada e, portanto, o valor de decisão 125 puder ser inferior ao limite, o que significa que os envelopes vizinhos (que são separados por essas fronteiras) não comportara quaisquer diferenças com relação à distribuição espectral da energia, não há necessidade de dividir a estrutura SBR em n envelopes e, ao invés 10 disso, n / 2 envelopes podem ser suficientes. Se, além disso, o detector 130 não detectar violações nas fronteiras, que são duas vezes um número impar (por exemplo, nas fronteiras 2,_ 6, =10,= . . ..) , também não há necessidade de colocar um envelope na fronteira dessas posições e, portanto, o número de envelopes pode ser 15 reduzido por um fator de dois, ou seja, n / 4. Este procedimento é continuado, passo a passo (o próximo passo seria a fronteira, que é 4 vezes um número impar, ou seja, 4, 12, ...). Se em todas essas fronteiras nenhuma violação for detectada, um único envelope para toda estrutura SBR é suficiente. Se, no entanto, um dos valores de decisão 125 nas fronteiras ímpares estiver acima do limite, n envelopes devem ser considerados, pois só assim uma fronteira de envelope será posicionada na posição correspondente (uma vez que todos os envelopes sejam considerados como tendo o mesmo comprimento).
Neste caso, os n envelopes serão calculados mesmo se todos os outros valores de decisão 125 estiverem abaixo do limite. O detector 130 pode, no entanto, considerar fronteiras e considerar todos os valores de decisão 125 para todas as porções de tempo 110, a fim de calcular o número de envelopes 104.
Uma vez que um aumento no número de envelopes 102 implica também em um aumento da quantidade de dados a serem 5 transmitidos, o limite de decisão para a fronteira do envelope correspondente implica que um elevado número de envelopes 104 pode ser aumentado. Isso significa que o limite de fronteira de 1, 3, 5 e 7 pode ser, opcionalmente, superior ao limite das fronteiras 2 e 6, que, por sua vez, pode ser maior do que o limite na fronteira 10 4. Limites inferiores ou superiores referem-se aqui ao caso de uma violação do limite que é mais ou menos provável. Por exemplo, um limite mais elevado implica que o desvio na_ distribuição^ de_ energia espectral entre duas porções de tempo vizinhas pode ser mais tolerável do que com um limite mais baixo e, portanto, para 15 um limite mais alto, desvios mais severos na distribuição espectral da energia são necessários para a demanda de envelopes adicionais.
O limite escolhido pode depender também do sinal para saber se o sinal é classificado como um sinal de voz ou 20 um sinal de áudio em geral. Esse, no entanto, não é o caso em que o limite de decisão será sempre reduzido (ou aumentado), se o sinal é classificado como fala. Dependendo da aplicação, pode, no entanto, ser de grande vantagem se, por um sinal de áudio em geral, o limite for tão alto que, neste caso, o número de 25 envelopes é genericamente menor do que para um sinal de fala.
A Fig. 5 ilustra materializações subsequentes em que o comprimento dos envelopes varia de acordo com a estrutura SBR. Na fig. 5, é mostrado um exemplo com três envelopes 104, um primeiro envelope 104a, um segundo envelope 104b e um terceiro envelope 104c. O primeiro envelope 104a se estende a partir do tempo inicial para a fronteira 2 no tempo t2, o segundo envelope 104b se estende da fronteira 2 no tempo t2 para a fronteira 5 no 5 momento t5 e o terceiro envelope 104c se estende da fronteira 5 no momento t5 para o tempo final tn. Se todas as porções de tempo são, novamente, da mesma duração e, se a estrutura SBR é, novamente, dividida em oito porções de tempo, o primeiro envelope 104a cobre a. primeira e segunda porções de tempo 111, 112, o 10 segundo envelope 104b abrange a terceira, a quarta e a quinta porções de tempo 113 a 115 e o terceiro envelope 104c cobre a sexta, a sétima e a oitava porções de tempo ._ Portanto, o_primeiro, envelope 104a é menor do que os segundo e terceiro envelopes, 104b e 104c.
A Fig. 5b mostra outra materialização com apenas dois envelopes, um envelope 104a que se estende do tempo inicial - t0 à primeira porção de tempo tl e um segundo envelope 104b que se estende do primeiro tempo tl para o tempo final tn. Portanto, o V segundo envelope 104b se estende ao longo de sete porções de tempo, enquanto o primeiro envelope 104a se estende apenas sobre uma única porção de tempo (a primeira porção de tempo 111) .
A Fig. 5c mostra, novamente, uma materialização com três envelopes 104, onde o primeiro envelope 104a se estende desde o tempo inicial até o segundo tempo t2, o segundo envelope 104b partindo do segundo tempo t2 para o quarto tempo t4 e o terceiro envelope 104c se estende do quarto tempo t4 ao tempo final tn.
Estas materializações podem, por exemplo utilizadas caso as fronteiras dos envelopes 104 sejam apenas colocadas entre porções de tempo entre vizinhas nas quais uma violação do limite é detectada ou para o tempo inicial e final t0, tn. Isso significa que, na fig. 5a, uma violação é detectada no 5 tempo t2 e uma violação é detectada em um tempo t5, enquanto não são detectadas violações nos tempos restantes tl, t3, t4, t6 e t7. Da mesma forma, na fig. 5b, uma violação é detectada apenas no tempo tl, resultando em uma fronteira para o primeiro envelope 104a e para o segundo envelope 104b e na fig. 5c, uma violação é 10 detectada apenas no segundo tempo t2 e no quarto tempo t4.
Para que um decodificador seja capaz de utilizar os dados do envelope e replicar em conformidade com a maior _ban_da espectral, o decodificador precisa da posição dos envelopes 104 e das fronteiras de envelope correspondentes. Nas materializações, 15 como mostrado antes, que se baseiam na referida norma, todos os envelopes 104 têm o mesmo comprimento e, portanto, são suficientes para transmitir o número de envelopes de modo que o decodificador possa decidir onde uma fronteira de envelope tem de estar. Nessas materializações, como mostrado na figura 5, no entanto, o 20 decodificador necessita de informações sobre o tempo em que uma fronteira de envelope é posicionada e, portanto, informações adicionais podem ser inseridas no fluxo de dados para que, usando essas informações, o decodificador possa reter os momentos de tempo onde uma fronteira é posicionada e um envelope começa e 25 termina. Estas informações adicionais incluem o tempo t2 e t5 (no caso da fig. 5), o tempo tl (no caso da fig. 5b) e os tempos t2 e t4 (no caso da fig. 5c).
As Figs. 6a e 6b mostram uma materialização para a calculadora do valor de decisão 120 por meio da distribuição de energia espectral em um sinal de áudio 105.
A Fig. 6a mostra um primeiro conjunto de valores da amostra 610 para o sinal de áudio em uma porção de tempo dada, 5 por exemplo, a primeira porção de tempo 111, e compara esse sinal de áudio mostrado com um segundo conjunto de amostras do sinal de áudio 620 na segunda porção de tempo 112. O sinal de áudio foi transformado no dominio da frequência, para que os conjuntos de valores da amostragem 610, 620 ou seus niveis de P sejam mostrados 10 como uma função da frequência f. As maiores e menores faixas de frequência são separadas pela frequência de transição f0, supondo que para frequências maiores que ,o valor de amostra f0,_ não serão transmitidas. O decodificador deve replicar então esses valores usando os dados de SBR. Por outro lado, as amostras abaixo da 15 frequência de transição f0 são codificadas, por exemplo, pelo codificador AAC e transmitidos para o decodificador.
O decodificador pode usar esses valores de amostra da faixa de baixa frequência para replicar os componentes de alta frequência. Portanto, a fim de encontrar uma medida para o 20 desvio do primeiro conjunto de amostras 610 na primeira porção de tempo 111 e um segundo conjunto de amostras 620 na segunda porção de tempo 112, pode não ser suficiente considerar apenas os valores da amostra em uma faixa de alta frequência (para f > fO) , mas também ter em conta os componentes de frequência na faixa de baixa 25 frequência. Em geral, uma réplica de boa qualidade é de se esperar, se existe uma correlação entre os componentes de frequência na faixa de alta frequência em relação aos componentes de frequência na faixa de baixa frequência. Numa primeira fase, pode ser suficiente considerar os valores da amostra apenas na faixa de alta frequência (acima da frequência de transição fO) e calcular a correlação entre o primeiro conjunto de valores da amostra 610 com o segundo conjunto de valores da amostra 620.
A correlação pode ser calculada usando métodos estatísticos padrão e pode incluir, por exemplo, o cálculo da função de correlação chamada função de correlação em cruz ou outras medidas estatísticas para a semelhança dos dois sinais. Há também o coeficiente de correlação de tempo do produto de Pearson, 10 que pode ser usado para estimar a correlação de dois sinais. Os coeficientes de Pearson também são conhecidos como coeficientes de correlação da amostra. Em geral, uma correlação indicaa força e a_ direção de uma relação linear entre duas variáveis aleatórias - neste caso, as duas distribuições de amostra 610 e 620. Portanto, 15 a correlação refere-se à partida de duas variáveis aleatórias de independência. Neste sentido amplo, existem vários coeficientes medindo o grau de correlação adaptados à natureza dos dados de forma que diferentes coeficientes são usados para diferentes situações.
A Fig. 6b mostra um terceiro conjunto de valores de amostra 630 e um quarto conjunto de valores da amostra 64 0, que podem, por exemplo, estar relacionados com os valores da amostra na terceira porção de tempo 113 e quarta porção de tempo 114. Novamente, a fim de comparar os dois conjuntos de amostras (ou 25 sinais), duas porções de tempo vizinhas são consideradas. Em contraste ao caso, como mostrado na figura 6a, na fig 6b um limite T é introduzido para que somente os valores da amostra sejam considerados, cujo nivel P está acima de (ou geralmente viola) o limite T (para o qual detém T > P) .
Nesta materialização, o desvio na distribuição de energia espectral pode ser medido simplesmente pela contagem do número de valores da amostra com a violação deste limite T e o 5 resultado pode fixar o valor de decisão 125. Este método simples renderá uma correlação entre os dois sinais, sem realizar uma análise estatistica detalhada dos vários conjuntos de valores da amostra nas diferentes porções de tempo 110. Alternativamente, uma análise estatistica, por exemplo, como mencionado acima, pode ser 10 aplicada às amostras que violam somente o limite T.
As Figs. 7a a 7c mostram uma materialização onde o codificador 300 compreende uma unidade de decisão de ^comutação =4 - * - 370 e uma unidade de codificação estéreo 380. Além disso, o codificador 300 também inclui as ferramentas de extensão de banda 15 ~ como/ por 'exemplo, a calculadora de envelope de dados 210 e os módulos de relacionados à SBR 310. A unidade de decisão de comutação 370 fornece um sinal de decisão de comutação 371, que transita entre um codificador de áudio 372 e um codificador de voz 373. Cada um desses códigos pode codificar o sinal de áudio na 20 faixa de frequência do núcleo com diferentes números de valores da amostra (por exemplo, 1024 para uma resolução mais alta ou 256 para uma resolução mais baixa) . 0 sinal de decisão de comutação 371 também é fornecido para a ferramenta de extensão de largura de banda (BWE) 210, 310. A ferramenta BWE 210, 310 usará então a 25 decisão de comutação 371 para, por exemplo, ajustar os limites para determinar o número 102 de envelopes espectrais 104 e para ligar / desligar o detector opcional de transitório. O sinal de áudio 105 é inserido na unidade de decisão de comutação 370 e na codificação estéreo 380 de modo que o som de codificação 380 pode produzir os valores da amostra, que são inseridos na extensão da unidade de largura de banda 210, 310. Dependendo da decisão 371 gerada pela unidade de decisão de comutação 370, a ferramenta de 5 extensão de largura de banda 210, 310 irá gerar dados de replicação de banda espectral, que são, por sua vez, transmitidos para um codificador de áudio 372, ou um codificador de voz 373. 0 sinal de decisão de comutação 371 é um sinal t- dependente e pode ser obtido pela unidade de decisão de comutação 370 por meio da análise do sinal de áudio, por exemplo, usando um detector de transitórios ou outros detectores, que podem ou não incluir um limite variável. De forma alternativa, o sinal de decisão de comutação 371 também pode ser manualmente ajustado ou ser obtido a partir de um fluxo de dados (incluso no sinal de áudio) A saída do codificador de áudio 372 e do . codificador de voz 373 pode ser novamente inserida no formatador de fluxo de bits 350 (ver fig. 3a).
A Fig. 7b mostra um exemplo para o sinal de decisão de comutação 371, que detecta um sinal de áudio para um período de tempo inferior a um primeiro tempo ta e superior a um segundo tempo tb. Entre o primeiro tempo ta e o segundo tempo tb, a unidade de decisão de comutação 370 detecta um sinal de fala que implica em diferentes valores discretos para o sinal de decisão de comutação 371.
Como resultado, como mostrado na figura. 7c, durante o tempo, o sinal de áudio é detectado, o que significa para os tempos antes de ta que a resolução temporal da codificação é baixa, enquanto que durante o periodo em que um sinal de fala é detectado (entre o primeiro tempo ta e o segundo tempo tb) , a resolução temporal é aumentada. Um aumento na resolução temporal implica em uma menor janela de análise no domínio do tempo. A 5 maior resolução temporal implica também no número mencionado acima sobre o aumento dos envelopes espectrais (ver descrição a Fig. 4.) .
Para os sinais de fala que precisam de uma representação temporal exata das altas frequências, o limite de decisão (por exemplo, utilizado na Fig. 4.) para transmitir um maior número de conjuntos de parâmetros é controlado pela unidade de decisão de comutação 370. Para sinais de voz e fala, que j>ão codificados com a fala ou com a parte de codificação de tempo- domínio 373 do codificador principal comutado, o limite de decisão para usar mãis conjuntos de parâmetros pode, por exemplo, ser reduzido e, portanto, a resolução temporal é aumentada. Isso, no u entanto, nem sempre é o caso, como mencionado acima. A adaptação da resolução temporal para o sinal é independente da estrutura do codificador subjacente (que não foi utilizado na fig. 4). Isso significa que o método descrito também pode ser usado dentro de um sistema no qual o módulo SBR compreende apenas um único codificador principal.
Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos constituem também uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa de método ou uma característica de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item correspondente ou um recurso de um aparelho correspondente.
O sinal de áudio codificado inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser 5 transmitido em um meio de transmissão, como um meio de transmissão sem fio ou um meio de transmissão com fio, como a Internet.
Dependendo dos requisitos de implementação, certas materializações da invenção pode ser implementadas em hardware ou software. A aplicação pode ser realizada utilizando um 10 meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, um ROM, um PROM, uma EPROM, uma EEPROM ou memória flash, tendo sinais de controle eletrônico de leitura armazenadosu que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de tal forma que o método em questão é realizado.
Algumas materializações, de acordo com a invenção, compreendem um armazenador de dados tendo sinais de . controle de leitura eletrônica, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui é realizado.
Geralmente, as materializações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, estando o código do programa em funcionamento para realizar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em um transportador de leitura eletrônica.
Outras materializações incluem um programa de computador para a realização de um dos métodos descritos neste documento, armazenado em um transportador de leitura eletrônica. Em outras palavras, uma materialização do método inventivo é, portanto, um programa de computador com um código de programa para executar um dos métodos aqui descritos, quando o programa de 5 computador é executado em um computador.
Uma materialização mais completa dos métodos inventivos é, portanto, um portador de dados (ou um meio de armazenamento digital, ou um meio de leitura eletrônica), que inclui, nele gravado, o programa de computador para a realização "10 de um dos métodos descritos neste documento.
Uma materialização adicional do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais ^gue representam o programa de computador para a realização de um dos métodos descritos neste documento. O fluxo de dados ou a sequência 15 de sinais p'odem, por exemplo, ser configurados para serem transferidos por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.
Uma materialização compreende ainda um meio de processamento, por exemplo, um computador ou um dispositivo de 20 lógica programável, configurado ou adaptado para executar um dos métodos descritos neste documento.
Uma materialização compreende ainda um computador que tenha instalado nele o programa de computador para a realização de um dos métodos descritos neste documento.
Em algumas materializações, um dispositivo lógico programável (por exemplo um campo gate array programável) pode ser usado para executar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas materializações, um campo gate array programável pode cooperar com um microprocessador para executar um dos métodos descritos neste documento. Geralmente, os métodos são preferencialmente realizados por qualquer aparelho de hardware.
As materializações descritas acima são meramente ilustrações dos princípios da presente invenção. Entende-se que as modificações e variações dos arranjos e os detalhes descritos neste documento serão aparentes para os outros qualificados. É a intenção, portanto, se limitar ao escopo das reivindicações iminentes da patente e não aos detalhes específicos, apresentados por meio de descrição e explicação das materializações aqui presentes.

Claims (11)

1. Um aparelho (100) para calcular um número (102) de envelopes espectrais (104) a serem obtidos por um codificador de replicação de banda espectral (SBR), onde o codificador SBR é adaptado para codificar um sinal de áudio (105) usando uma pluralidade de valores de amostras dentro de um número pré-determinado de porções de tempo subsequentes (110) em uma estrutura SBR estendendo-se a partir um tempo inicial (t0) para um tempo final (tn), o número pré-determinado de porções de tempo subsequentes (110) sendo dispostos em uma sequência de tempo dada pelo sinal de áudio (105), o aparelho (100) compreendendo: uma calculadora de valor de decisão (120) para determinar um valor de decisão (125), o valor da decisão (125) medindo um desvio na distribuição de energia espectral de um par de porções de tempo vizinhas; um detector (130) para detectar uma violação (135) de um limite pelo valor de decisão (125); um processador (140) para determinar uma primeira fronteira de envelope (145) entre o par de porções de tempo vizinhas em que a violação (135) do limite é detectada; um processador (150) para determinar uma segunda fronteira de envelope (155) entre um outro par de porções de tempo vizinhas ou no momento inicial (t0) ou no tempo final (tn) para um envelope tendo a primeira fronteira de envelope (145) com base na violação (135) do limite para o outro par tanto com base em uma posição temporal do par quanto o par diferente na estrutura SBR; e um processador de número (160) para estabelecer o número (102) de envelopes espectrais (104) tendo a primeira fronteira de envelope (145) e a segunda fronteira de envelope (155), caracterizado por o número pré-determinado de porções de tempo (110) é igual a n com n-1 fronteiras entre as porções de tempo vizinhas (110), que são numeradas e ordenadas em relação ao tempo, para que as fronteiras compreendam fronteiras pares e ímpares, e onde o processador de número (160) é adaptado para estabelecer n como o número (102) de envelopes espectrais (104) se o detector (130) detectar a violação (135) em uma fronteira ímpar ou em que o detector (150) é adaptado para determinar a segunda fronteira (155) de tal forma que os envelopes espectrais (104) compreendam uma mesma duração temporal e o número (102) de envelopes espectrais (104) seja uma potência de dois ou em que O aparelho (100) ainda compreende uma unidade de decisão de comutação (370) configurada para fornecer um sinal de decisão de comutação (371), o sinal de decisão de comutação (371) sinaliza um sinal de áudio como fala, e um sinal de áudio como áudio em geral, em que o detector (130) é adaptado para reduzir o limite para os sinais de áudio como fala.
2. O aparelho (100) de acordo com a reivindicação 1, caracterizado por uma duração no tempo de uma porção de tempo do número pré-determinado de porções de tempo subsequentes (110) é igual a uma duração mínima no tempo, para os quais um único envelope é determinado, e em que a calculadora de valor de decisão (120) é adaptada para calcular um valor de decisão (125) para duas porções de tempo vizinhas tendo a duração mínima no tempo.
3. O aparelho (100) de acordo com a reivindicação 1 e 2, caracterizado por em que o processador (140) é adaptado para consertar a primeira fronteira (145) em uma primeira violação detectada (135), e no qual o processador (150) é adaptado para consertar a segunda fronteira de envelope (155) após a comparação de pelo menos outro valor de decisão (125) com o limite.
4. O aparelho (100) de acordo com a reivindicação 3, caracterizado por compreender ainda um processador de informação para fornecer informações adicionais; as informações adicionais compreendem uma primeira fronteira de envelope (145) e a segunda fronteira de envelope (155) dentro da sequência de tempo do sinal de áudio (105).
5. O aparelho (100) de acordo com as reivindicações anteriores, caracterizado por o detector (130) é adaptado para investigar, em uma ordem temporal, cada uma das fronteiras entre as porções de tempo vizinhas (110).
6. O aparelho (100) de acordo com a reivindicação 5, caracterizado por o detector (130) é adaptado para detectar a primeira violação (135) em uma fronteira ímpar.
7. O aparelho (100) de acordo com a reivindicação 6, caracterizado por o número pré-determinado é igual a 8, e no qual o processador de número (160) é adaptado para estabelecer o número (102) de envelopes espectrais (104) para 1, 2, 4 ou 8 tal que cada um dos envelopes espectrais (104) compreenda uma mesma duração temporal.
8. O aparelho (100) de acordo com a reivindicação 6 e 7, caracterizado por o detector (130) é adaptado para usar um limite, que depende de uma posição temporal da violação (135), de tal forma que em uma posição temporal rendendo um número maior de envelopes espectrais (104), um limite mais elevado é usado para uma posição temporal produzindo um menor número de envelopes espectrais (104).
9. O aparelho (100) de acordo com as reivindicações anteriores, caracterizado por que compreende ainda um detector de transitórios, com um limite transitório, o limite transitório sendo maior do que o limite e / ou compreendendo ainda uma calculadora de dados de envelope (210), a calculadora de dados de envelope (210) sendo adaptada para calcular os dados do envelope espectral para um envelope espectral (104) que se estende desde a primeira fronteira de envelope (145) para a segunda fronteira de envelope (155).
10. Um codificador (300) para codificar um sinal de áudio (105) caracterizado por compreender: um codificador principal (340) para codificar o sinal de áudio (105) dentro de uma faixa de frequência do núcleo; um aparelho (100) para calcular um número (102) dos envelopes espectrais (104) de acordo com uma das reivindicações 1 a 9; e uma calculadora de dados de envelope (210) para o cálculo de dados de envelope com base no sinal de áudio (105) e o número (102).
11. Um método para calcular um número (102) de envelopes espectrais (104) a serem obtidos por um codificador de replicação de banda espectral (SBR), em que o codificador SBR é adaptado para codificar um sinal de áudio (105) usando um pluralidade de valores de amostra dentro de um determinado número de porções de tempo subsequentes (110) em uma estrutura SBR que se estende a partir de um tempo inicial (t0) a um tempo final (tn), o número pré-determinado de porções de tempo subsequentes (110) sendo dispostos em uma seqüência de tempo determinada pelo sinal de áudio (105), o método compreendendo: determinar um valor de decisão (125), o valor da decisão (125) medindo um desvio na distribuição de energia espectral de um par de porções de tempo vizinhas; detectar uma violação (135) de um limite pelo valor de decisão (125); determinar uma primeira fronteira de envelope (145) entre o par de porções de tempo vizinhas em que a violação (135) do limite é detectada; determinar uma segunda fronteira de envelope (155) entre um par diferente de porções de tempo vizinhas tanto no tempo inicial (to) quanto no tempo final (tn) de um envelope com a primeira fronteira de envelope (145) com base na violação (135) do limite para o outro par ou com base em uma posição temporal do par ou o par diferente na estrutura SBR; e estabelecer o número (102) dos envelopes espectrais (104) tendo a primeira fronteira de envelope (145) e a segunda fronteira de envelope (155), caracterizado por o número pré-determinado de porções de tempo (110) é igual a n com n-1 fronteiras entre as porções de tempo vizinhas (110), que são numeradas e ordenadas em relação ao tempo, para que as fronteiras compreendam fronteiras pares e ímpares, e onde o processador de número (160) é adaptado para estabelecer n como o número (102) de envelopes espectrais (104) se o detector (130) detectar a violação (135) em uma fronteira ímpar ou em que o detector (150) é adaptado para determinar a segunda fronteira (155) de tal forma que os envelopes espectrais (104) compreendam uma mesma duração temporal e o número (102) de envelopes espectrais (104) seja uma potência de dois ou em que O aparelho (100) ainda compreende uma unidade de decisão de comutação (370) configurada para fornecer um sinal de decisão de comutação (371), o sinal de decisão de comutação (371) sinaliza um sinal de áudio como fala, e um sinal de áudio como áudio em geral, em que o detector (130) é adaptado para reduzir o limite para os sinais de áudio como fala.
BRPI0910517-4A 2008-07-11 2009-06-23 Um aparelho e um método para calcular um número de envelopes espectrais a serem obtidos por um codificador de replicação de banda espectral (sbr) BRPI0910517B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US7984108P 2008-07-11 2008-07-11
US61/079,841 2008-07-11
PCT/EP2009/004523 WO2010003546A2 (en) 2008-07-11 2009-06-23 An apparatus and a method for calculating a number of spectral envelopes

Publications (2)

Publication Number Publication Date
BRPI0910517A2 BRPI0910517A2 (pt) 2016-07-26
BRPI0910517B1 true BRPI0910517B1 (pt) 2022-08-23

Family

ID=40902067

Family Applications (2)

Application Number Title Priority Date Filing Date
BRPI0910523-9A BRPI0910523B1 (pt) 2008-07-11 2009-06-23 Aparelho e método para gerar dados de saída de extensão de largura de banda
BRPI0910517-4A BRPI0910517B1 (pt) 2008-07-11 2009-06-23 Um aparelho e um método para calcular um número de envelopes espectrais a serem obtidos por um codificador de replicação de banda espectral (sbr)

Family Applications Before (1)

Application Number Title Priority Date Filing Date
BRPI0910523-9A BRPI0910523B1 (pt) 2008-07-11 2009-06-23 Aparelho e método para gerar dados de saída de extensão de largura de banda

Country Status (20)

Country Link
US (2) US8296159B2 (pt)
EP (2) EP2301028B1 (pt)
JP (2) JP5551694B2 (pt)
KR (5) KR101345695B1 (pt)
CN (2) CN102089817B (pt)
AR (3) AR072480A1 (pt)
AU (2) AU2009267530A1 (pt)
BR (2) BRPI0910523B1 (pt)
CA (2) CA2729971C (pt)
CO (2) CO6341676A2 (pt)
ES (2) ES2539304T3 (pt)
HK (2) HK1156141A1 (pt)
IL (2) IL210196A (pt)
MX (2) MX2011000361A (pt)
MY (2) MY155538A (pt)
PL (2) PL2301027T3 (pt)
RU (2) RU2494477C2 (pt)
TW (2) TWI415114B (pt)
WO (2) WO2010003546A2 (pt)
ZA (2) ZA201009207B (pt)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9177569B2 (en) 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
AU2011226211B2 (en) 2010-03-09 2014-01-09 Dolby International Ab Apparatus and method for processing an audio signal using patch border alignment
WO2011110494A1 (en) 2010-03-09 2011-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Improved magnitude response and temporal alignment in phase vocoder based bandwidth extension for audio signals
ES2449476T3 (es) 2010-03-09 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, procedimiento y programa de ordenador para procesar una señal de audio
KR101364685B1 (ko) * 2010-04-13 2014-02-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호의 샘플 정밀 표현을 위한 방법 및 인코더와 디코더
CN102947882B (zh) * 2010-04-16 2015-06-17 弗劳恩霍夫应用研究促进协会 使用制导带宽扩展和盲带宽扩展生成宽带信号的装置、方法
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5743137B2 (ja) * 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
WO2012158333A1 (en) 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Forensic detection of parametric audio coding schemes
US9633654B2 (en) 2011-12-06 2017-04-25 Intel Corporation Low power voice detection
JP5997592B2 (ja) 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
WO2014034697A1 (ja) * 2012-08-29 2014-03-06 日本電信電話株式会社 復号方法、復号装置、プログラム、及びその記録媒体
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
EP2717263B1 (en) * 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
MX346945B (es) * 2013-01-29 2017-04-06 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de refuerzo de frecuencia mediante una operacion de limitacion de energia.
WO2014118179A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates
PL3121813T3 (pl) 2013-01-29 2020-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wypełnianie szumem bez informacji pomocniczych dla koderów typu celp
EP2981959B1 (en) 2013-04-05 2018-07-25 Dolby International AB Audio encoder and decoder for interleaved waveform coding
EP2981956B1 (en) 2013-04-05 2022-11-30 Dolby International AB Audio processing system
JP6224233B2 (ja) 2013-06-10 2017-11-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 分配量子化及び符号化を使用したオーディオ信号包絡の分割によるオーディオ信号包絡符号化、処理及び復号化の装置と方法
WO2014198726A1 (en) 2013-06-10 2014-12-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding
MX358362B (es) * 2013-06-21 2018-08-15 Fraunhofer Ges Forschung Decodificador de audio que tiene un modulo de extension de ancho de banda con un modulo de ajuste de energia.
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
JP6242489B2 (ja) * 2013-07-29 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
KR101913241B1 (ko) 2013-12-02 2019-01-14 후아웨이 테크놀러지 컴퍼니 리미티드 인코딩 방법 및 장치
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US10120067B2 (en) 2014-08-29 2018-11-06 Leica Geosystems Ag Range data compression
TWI771266B (zh) 2015-03-13 2022-07-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
CN117238300A (zh) 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
CN105513601A (zh) * 2016-01-27 2016-04-20 武汉大学 一种音频编码带宽扩展中频带复制的方法及装置
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US10084493B1 (en) * 2017-07-06 2018-09-25 Gogo Llc Systems and methods for facilitating predictive noise mitigation
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
US11811686B2 (en) 2020-12-08 2023-11-07 Mediatek Inc. Packet reordering method of sound bar

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
RU2128396C1 (ru) * 1997-07-25 1999-03-27 Гриценко Владимир Васильевич Способ передачи и приема информации и устройство для его осуществления
DE69926821T2 (de) * 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
EP1550108A2 (en) 2002-10-11 2005-07-06 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
JP2004350077A (ja) * 2003-05-23 2004-12-09 Matsushita Electric Ind Co Ltd アナログオーディオ信号送信装置および受信装置並びにアナログオーディオ信号伝送方法
SE0301901L (sv) 2003-06-26 2004-12-27 Abb Research Ltd Metod för att diagnostisera utrustningsstatus
EP1672618B1 (en) * 2003-10-07 2010-12-15 Panasonic Corporation Method for deciding time boundary for encoding spectrum envelope and frequency resolution
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
JP2007524124A (ja) * 2004-02-16 2007-08-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ トランスコーダ及びそのための符号変換方法
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US8314694B2 (en) 2004-06-28 2012-11-20 Abb Research Ltd System and method for suppressing redundant alarms
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
US7715573B1 (en) * 2005-02-28 2010-05-11 Texas Instruments Incorporated Audio bandwidth expansion
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
WO2007037361A1 (ja) * 2005-09-30 2007-04-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
KR100647336B1 (ko) 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
WO2007093726A2 (fr) * 2006-02-14 2007-08-23 France Telecom Dispositif de ponderation perceptuelle en codage/decodage audio
EP1852849A1 (en) 2006-05-05 2007-11-07 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
US20070282803A1 (en) * 2006-06-02 2007-12-06 International Business Machines Corporation Methods and systems for inventory policy generation using structured query language
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
EP2062255B1 (en) 2006-09-13 2010-03-31 Telefonaktiebolaget LM Ericsson (PUBL) Methods and arrangements for a speech/audio sender and receiver
US8417532B2 (en) * 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
JP4918841B2 (ja) * 2006-10-23 2012-04-18 富士通株式会社 符号化システム
US8639500B2 (en) 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
WO2008151408A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
WO2009081315A1 (en) 2007-12-18 2009-07-02 Koninklijke Philips Electronics N.V. Encoding and decoding audio or speech
DE602008005250D1 (de) * 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing

Also Published As

Publication number Publication date
RU2011103999A (ru) 2012-08-20
EP2301027B1 (en) 2015-04-08
MY153594A (en) 2015-02-27
KR20110040820A (ko) 2011-04-20
HK1156141A1 (en) 2012-06-01
CN102144259B (zh) 2015-01-07
JP5551694B2 (ja) 2014-07-16
CN102089817B (zh) 2013-01-09
US8296159B2 (en) 2012-10-23
TWI415114B (zh) 2013-11-11
AU2009267532B2 (en) 2013-04-04
CA2729971A1 (en) 2010-01-14
CO6341676A2 (es) 2011-11-21
WO2010003546A3 (en) 2010-03-04
PL2301028T3 (pl) 2013-05-31
BRPI0910523A2 (pt) 2020-10-20
KR20130033468A (ko) 2013-04-03
WO2010003546A2 (en) 2010-01-14
KR101395257B1 (ko) 2014-05-15
EP2301027A1 (en) 2011-03-30
KR20130095840A (ko) 2013-08-28
ZA201100086B (en) 2011-08-31
EP2301028A2 (en) 2011-03-30
PL2301027T3 (pl) 2015-09-30
WO2010003544A1 (en) 2010-01-14
IL210196A0 (en) 2011-03-31
MX2011000367A (es) 2011-03-02
AU2009267532A1 (en) 2010-01-14
EP2301028B1 (en) 2012-12-05
ES2539304T3 (es) 2015-06-29
US8612214B2 (en) 2013-12-17
JP5628163B2 (ja) 2014-11-19
CN102089817A (zh) 2011-06-08
CA2730200C (en) 2016-09-27
RU2011101617A (ru) 2012-07-27
RU2487428C2 (ru) 2013-07-10
TWI415115B (zh) 2013-11-11
KR20130095841A (ko) 2013-08-28
AR072480A1 (es) 2010-09-01
BRPI0910517A2 (pt) 2016-07-26
AU2009267530A1 (en) 2010-01-14
AR097473A2 (es) 2016-03-16
MY155538A (en) 2015-10-30
TW201007701A (en) 2010-02-16
KR101395250B1 (ko) 2014-05-15
BRPI0910523B1 (pt) 2021-11-09
IL210196A (en) 2015-10-29
KR101345695B1 (ko) 2013-12-30
CO6341677A2 (es) 2011-11-21
JP2011527448A (ja) 2011-10-27
CA2729971C (en) 2014-11-04
ES2398627T3 (es) 2013-03-20
AU2009267532A8 (en) 2011-03-17
IL210330A0 (en) 2011-03-31
US20110202358A1 (en) 2011-08-18
KR20110038029A (ko) 2011-04-13
AR072552A1 (es) 2010-09-08
HK1156140A1 (en) 2012-06-01
TW201007700A (en) 2010-02-16
KR101278546B1 (ko) 2013-06-24
CA2730200A1 (en) 2010-01-14
MX2011000361A (es) 2011-02-25
CN102144259A (zh) 2011-08-03
JP2011527450A (ja) 2011-10-27
KR101395252B1 (ko) 2014-05-15
RU2494477C2 (ru) 2013-09-27
ZA201009207B (en) 2011-09-28
US20110202352A1 (en) 2011-08-18

Similar Documents

Publication Publication Date Title
BRPI0910517B1 (pt) Um aparelho e um método para calcular um número de envelopes espectrais a serem obtidos por um codificador de replicação de banda espectral (sbr)
US8938387B2 (en) Audio encoder and decoder
RU2641461C2 (ru) Аудиокодер, аудиодекодер, способ обеспечения кодированной аудиоинформации, способ обеспечения декодированной аудиоинформации, компьютерная программа и кодированное представление с использованием сигнально-адаптивного расширения полосы пропускания
US9280980B2 (en) Efficient encoding/decoding of audio signals
BRPI0904958B1 (pt) Aparelho e método para calcular dados de extensão de largura de banda usando um quadro controlado por inclinação espectral
BR112013020592B1 (pt) Codec de áudio utilizando síntese de ruído durante fases inativas
BR112013008463B1 (pt) Aparelho e método para processar um sinal de áudio e para prover uma granularidade temporal maior para um codec de fala e áudio unificado combinado (usac)
BR112014021054A2 (pt) controle de coerência de fase para sinais harmônicos nos codecs de áudio perceptuais
BR112015017868B1 (pt) Aparelho e método para gerar um sinal de melhoria de frequência utilizando uma operação de limitação de energia
BR112019014125B1 (pt) Método e decodificador para decodificar um fluxo de bits de áudio codificado e mídia legível por computador não transitória
AU2013257391B2 (en) An apparatus and a method for generating bandwidth extension output data

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Ipc: G10L 21/038 (2013.01), G10L 19/02 (2013.01), G10L

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B11B Dismissal acc. art. 36, par 1 of ipl - no reply within 90 days to fullfil the necessary requirements
B350 Update of information on the portal [chapter 15.35 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B15Z Prolongation of time limit refused
B12F Other appeals [chapter 12.6 patent gazette]

Free format text: RECURSO: 870220011443 - 9/02/2022

B11N Dismissal: publication cancelled [chapter 11.14 patent gazette]

Free format text: ANULADA A PUBLICACAO CODIGO 11.2 NA RPI NO 2586 DE 28/07/2020, CONFORME DECISAO RECURSAL QUE CONCEDEU A DEVOLUCAO DE PRAZO PARA PROSSEGUIMENTO DO EXAME EM CONSIDERACAO DA PETICAO 870210067292.

B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 23/06/2009, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF, QUE DETERMINA A ALTERACAO DO PRAZO DE CONCESSAO.