BR112012005014B1 - Método de codificação de sinal de áudio no domínio do tempo e dispositivo eletrônico - Google Patents

Método de codificação de sinal de áudio no domínio do tempo e dispositivo eletrônico Download PDF

Info

Publication number
BR112012005014B1
BR112012005014B1 BR112012005014-1A BR112012005014A BR112012005014B1 BR 112012005014 B1 BR112012005014 B1 BR 112012005014B1 BR 112012005014 A BR112012005014 A BR 112012005014A BR 112012005014 B1 BR112012005014 B1 BR 112012005014B1
Authority
BR
Brazil
Prior art keywords
sample block
frequency band
block
energy
audio signal
Prior art date
Application number
BR112012005014-1A
Other languages
English (en)
Other versions
BR112012005014A2 (pt
Inventor
Nandury V. Kishore
Original Assignee
Sling Media Pvt Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sling Media Pvt Ltd filed Critical Sling Media Pvt Ltd
Publication of BR112012005014A2 publication Critical patent/BR112012005014A2/pt
Publication of BR112012005014B1 publication Critical patent/BR112012005014B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

métodos de codificação de sinal de áudio no domínio do tempo e de ajuste de fator de escala para banda de frequência de sinal de áudio no domínio da frequência para a produção de sinal de saída quantificado e dispositivo eletrônico um método de codificação de um sinal de áudio no domínio do tempo é apresentado. um dispositivo transforma o sinal no domínio do tempo em um sinal do domínio da frequência, incluindo uma sequência de blocos de amostra, em que cada bloco inclui um coeficiente para cada uma das múltiplas frequências. os coeficientes de cada bloco são agrupados em bandas de frequência. para cada banda de frequência de cada bloco, um fator de escala é estimado para a banda e a energia da banda para o bloco é comparada com a energia da banda de um bloco de amostra adjacente, em que os blocos podem ser adjacentes uns aos outros em um ou ambos de um intercanal e um sentido temporal. se a razão da energia da banda para o primeiro bloco para a energia da banda para o bloco adjacente é menor que determinado valor, o fator de escala da banda para o primeiro bloco é aumentado. os coeficientes da banda para cada bloco são quantificados com base no fator de escala resultante. o sinal de áudio codificado é gerado com base nos coeficientes quantificados e nos fatores de escala.

Description

RELATÓRIO DESCRITIVO FUNDAMENTOS
[001] A compressão eficaz de informações de áudio reduz tanto os requisitos da capacidade de memória para armazenar as informações de áudio, quanto a largura de banda de comunicação necessária para a transmissão da informação. Para possibilitar esta compressão, vários esquemas de codificação de áudio, como o formato o Motion Picture Experts Group 1 (MPEG-1) onipresente (Grupo de Especialistas em Imagens com Movimento) em 3 camadas de áudio (MP3) e o padrão de Áudio Advanced Coding (AAC) (codificação avançada de áudio), empregam pelo menos um modelo psicoacústico (PAM), que descreve essencialmente as limitações do ouvido humano em receber e processar informações de áudio. Por exemplo, o sistema humano de áudio exibe um princípio de mascaramento acústico, tanto no domínio da frequência (em que o áudio a uma frequência particular mascara o áudio nas frequências próximas abaixo de certos níveis de volume) quanto no domínio do tempo (em que um tom de áudio de uma frequência particular mascara o mesmo tom por algum período de tempo após a remoção). Esquemas de codificação de áudio que fornecem compressão tiram vantagem destes princípios de mascaramento acústico, removendo as partes das informações do áudio original que seriam mascaradas pelo sistema humano de áudio.
[002] Para determinar quais partes do sinal de áudio original remover, o sistema de codificação de áudio tipicamente processa o sinal original para gerar um limiar de mascaramento, de modo que os sinais de áudio beirando sob esse limiar podem ser eliminados sem uma perda notável de fidelidade de áudio. O referido processamento é bastante intensivo do ponto de vista computacional, fazendo a codificação em tempo real de sinais de áudio difíceis. Além disso, a realização de tais computações é tipicamente trabalhosa e demorada para dispositivos eletrônicos de consumo, muitos dos quais empregam processadores de sinal digital de ponto fixo (DSP) não concebidos especificamente para esse processamento intenso.
BREVE DESCRIÇÃO DOS DESENHOS
[003] Muitos aspectos da presente divulgação podem ser mais bem compreendidos com referência aos desenhos que se seguem. Os componentes nos desenhos não estão necessariamente representados em escala, uma vez que a ênfase é colocada sobre clara ilustração dos princípios da divulgação. Além disso, nos desenhos, os números de referência semelhantes designam partes correspondentes ao longo das várias vistas. Além disso, embora várias modalidades sejam descritas em conexão com estes desenhos, a divulgação não se limita às modalidades divulgadas neste documento. Pelo contrário, a intenção é a de cobrir todas as alternativas, modificações e equivalentes.
[004] A FIG. 1 é um diagrama de blocos simplificado de um dispositivo eletrônico configurado para codificar um sinal de áudio no domínio do tempo de acordo com uma modalidade da invenção.
[005] A FIG. 2 é um diagrama de fluxo de um método de operação do dispositivo eletrônico da Fig. 1 para codificar um sinal de áudio no domínio do tempo de acordo com uma modalidade da invenção.
[006] A FIG. 3 é um diagrama de blocos de um dispositivo eletrônico de acordo com outra modalidade da invenção.
[007] A FIG. 4 é um diagrama de blocos de um sistema de codificação de áudio de acordo com uma modalidade da invenção.
[008] A FIG. 5 é uma representação gráfica de um bloco de amostra de um sinal no domínio da frequência possuindo bandas de frequência de acordo com uma modalidade da invenção.
[009] A FIG. 6 é uma representação gráfica de blocos de amostras de dois canais de áudio de um sinal no domínio da frequência de acordo com uma modalidade da invenção.
[0010] A FIG. 7 é uma tabela de aprimoramento de fator de escala que lista um número de razões e valores de aprimoramento associados de acordo com uma modalidade da invenção.
DESCRIÇÃO DETALHADA
[0011] Os desenhos anexos e a descrição seguinte descrevem modalidades específicas da invenção para ensinar aqueles versados na técnica como fazer e usar o melhor modo da presente invenção. Para a finalidade de ensinar princípios inventivos, alguns aspectos convencionais foram simplificados ou omitidos. As pessoas versadas na técnica apreciarão variações destas modalidades que caem dentro do escopo da invenção. As pessoas versadas na técnica também apreciarão que as características descritas abaixo podem ser combinadas de várias maneiras para formarem múltiplas modalidades da invenção. Como resultado, a invenção não está limitada às modalidades específicas descritas abaixo, mas apenas pelas Reivindicações e seus equivalentes.
[0012] A Fig. 1 fornece um diagrama de blocos simplificado de um dispositivo eletrônico 100 configurado para codificar um sinal de áudio no domínio do tempo 110 como um sinal de áudio codificado 120 de acordo com uma modalidade da invenção. Em uma implementação, a codificação é realizada de acordo com os padrões de Advanced Áudio Coding (AAC), apesar de outros esquemas de codificação que envolvem a transformação de um sinal no domínio do tempo em um sinal de áudio codificado poderem usar os conceitos discutidos abaixo com vantagem. Além disso, o dispositivo eletrônico 100 pode ser qualquer dispositivo capaz de realizar a codificação, incluindo, mas sem limitação, computador pessoal e computadores portáteis, os sistemas de codificação de áudio/vídeo, o disco compacto (CD) e reprodutores tipo disco de vídeo digital (DVD), televisão set-top boxes, receptores de áudio, telefones celulares, assistentes digitais pessoais (PDAs) e dispositivos de mudança de lugar de áudio/vídeo, tais como os vários modelos da Slingbox® fornecidos por Sling Media, Inc.
[0013] A Fig. 2 apresenta um diagrama de fluxo de um método 200 para operar o dispositivo eletrônico 100 da Fig. 1 para codificar o sinal de áudio no domínio do tempo 110 para produzir o sinal de áudio codificado 120. No método 200, o dispositivo eletrônico 100 recebe o sinal de áudio no domínio do tempo 110 (operação 202). O dispositivo 100, em seguida, transforma o sinal de áudio no domínio do tempo 110 em um sinal no domínio da frequência tendo uma sequência de blocos de amostra para cada um de pelo menos um canal de áudio (operação 204). Cada bloco de amostra compreende um coeficiente para cada uma das múltiplas frequências. Os coeficientes de cada bloco de amostras são agrupados ou organizados em bandas de frequência (operação 206). Para cada banda de frequência de cada bloco de amostra (operação 208), o dispositivo eletrônico 100 determina ou estima um fator de escala para a banda (operação 210), determina uma energia da banda de frequência (operação 212), e compara a energia da banda para o bloco de amostra com a energia de banda de um bloco de amostra adjacente (operação 214). Exemplos de um bloco de amostra adjacente podem incluir o bloco imediatamente precedente do mesmo canal de áudio, ou o bloco de amostra de outro canal de áudio que é identificado com o mesmo período de tempo como o bloco de amostra original. Se a razão da energia da banda de frequência para o bloco de amostra para a energia de banda de frequência para o bloco de amostra adjacente é inferior a um valor predeterminado, o dispositivo 100 aumenta o fator de escala da banda de frequência do bloco de amostra (operação 216). Para cada banda de frequência de cada bloco, o dispositivo 100 quantifica os coeficientes da banda de frequência com base no fator de escala associado com a banda (operação 218). O dispositivo 100 gera o sinal de áudio codificado 120 com base nos coeficientes quantificados e fatores de escala (operação 220).
[0014] Embora as operações da Fig. 2 sejam descritas como sendo executadas em uma ordem particular, outras ordens de execução, incluindo a execução simultânea de duas ou mais operações, podem ser possíveis. Por exemplo, as operações da Fig. 2 podem ser executadas como um tipo de “tubo” de execução, em que cada operação é executada em uma parte diferente ou bloco de amostra do sinal de áudio no domínio do tempo 110 que entra no tubo. Em outra modalidade, um meio de armazenamento legível por computador pode ter codificado instruções no mesmo para pelo menos um processador ou outro circuito de controle do dispositivo eletrônico 100 da Fig. 1 para implementar o método 200.
[0015] Como resultado de pelo menos algumas modalidades do método 200, os fatores de escala utilizados para cada banda de frequência para quantificar os coeficientes da banda são ajustados com base nas diferenças de energia de áudio em uma banda de frequência entre blocos de amostra de frequências consecutivos no mesmo canal de áudio, e entre os blocos simultâneos de diferentes canais. Tais determinações são tipicamente muito menos computacionalmente intensivas do que um cálculo de um limiar de mascaramento completo, como é tipicamente realizado na maioria das implementações de AAC. Como resultado, a codificação de áudio em tempo real por qualquer classe de dispositivo eletrônico, incluindo pequenos dispositivos que utilizam componentes de processamento de sinal digital baratos, pode ser possível. Outras vantagens podem ser reconhecidas a partir das várias implementações da invenção discutidas em maior detalhe abaixo.
[0016] A Fig. 3 é um diagrama de blocos de um dispositivo eletrônico 300 de acordo com outra modalidade da invenção. O dispositivo 300 inclui um circuito de controle 302 e de armazenamento de dados 304. Em algumas implementações, o dispositivo 300 pode também incluir uma ou ambas de uma interface de comunicação 306 e uma interface de usuário 308. Outros componentes, incluindo, mas sem limitação, uma fonte de energia e um invólucro de dispositivo, também podem ser incluídos no dispositivo eletrônico 300, mas tais componentes não são explicitamente mostrados na Fig. 3, nem discutidos abaixo para simplificar a discussão a seguir.
[0017] O circuito de controle 302 está configurado para controlar vários aspectos do dispositivo eletrônico 300 para codificar um sinal de áudio no domínio do tempo 310 como um sinal de áudio codificado 320. Em uma modalidade, o circuito de controle 302 inclui pelo menos um processador, tal como um microprocessador, microcontrolador ou processador de sinal digital (DSP), configurado para executar as instruções que dirigem o processador para realizar as várias operações discutidas em maior detalhe abaixo. Em outro exemplo, o circuito de controle 302 pode incluir um ou mais componentes de hardware configurados para realizar uma ou mais das tarefas ou operações descritas a seguir, ou incorporar alguma combinação de elementos de processamento de hardware e software.
[0018] O armazenamento de dados 304 está configurado para armazenar algum ou a totalidade do sinal de áudio no domínio do tempo 310 para ser codificado e o sinal de áudio codificado resultante 320. O armazenamento de dados 304 pode também armazenar dados intermediários, informações de controle, e semelhantes envolvidos no processo de codificação. O armazenamento de dados 304 pode também incluir instruções para serem executadas por um processador do circuito de controle 302, bem como de quaisquer dados de programa ou informação de controle sobre a execução das instruções. O armazenamento de dados 304 pode incluir quaisquer componentes de memórias voláteis (tais como memória de acesso aleatório dinâmico (DRAM) e memória estática de acesso aleatório (SRAM)), dispositivos de memória não voláteis (como memória flash, drives de discos magnéticos e drives de discos ópticos, tanto removíveis quanto cativos) e suas combinações.
[0019] O dispositivo eletrônico 300 pode também incluir uma interface de comunicação 306 configurada para receber o sinal de áudio no domínio do tempo 310, e/ou transmitir o sinal de áudio codificado 320 através de um link de comunicação. Exemplos da interface de comunicação 306 podem ser uma interface de rede de área ampla (WAN), como uma linha de assinante digital (DSL) ou cabo de interface para a Internet, uma rede de área local (LAN), tais como Wi-Fi ou Ethernet, ou qualquer outra interface de comunicação adaptada para se comunicar através de um link de comunicação ou de conexão em um modo com fio, sem fio ou óptico.
[0020] Em outros exemplos, a interface de comunicação 306 pode ser configurada para enviar os sinais de áudio 310, 320, como parte de programação de áudio/vídeo para um dispositivo de saída (não mostrado na Fig. 3), tal como uma televisão, monitor de vídeo, ou receptor de áudio/vídeo. Por exemplo, a parte de vídeo da programação de áudio/vídeo pode ser distribuída por meio de uma conexão de cabo de vídeo modulado, uma conexão tipo-RCA (Radio Corporation of America) de componente de vídeo ou compósito e uma Digital Video Interface (DVI) ou conexão de Interface de Multimedia de alta Definição (HDMI). A parte de áudio de programação pode ser transportada através de uma conexão tipo RCA de um áudio mono ou estéreo, uma conexão TOSLINK, ou através de uma conexão HDMI. Outros formatos de áudio/vídeo e conexões relacionadas podem ser empregados em outras modalidades.
[0021] Além disso, o dispositivo eletrônico 300 pode incluir uma interface de usuário 308 configurada para receber sinais acústicos 311 representados pelo sinal de áudio no domínio do tempo 310 a partir de um ou mais usuários, tais como por meio de um microfone de áudio e um circuito relacionado, incluindo um amplificador, um conversor analógico-digital (ADC) e semelhantes. Da mesma forma, a interface de usuário 308 pode incluir um circuito de amplificador e um ou mais alto- falantes de áudio para apresentar ao usuário os sinais acústicos 321 representados pelo sinal de áudio codificado 320. Dependendo da implementação, a interface de usuário 308 pode também incluir meios para permitir que um usuário controle o dispositivo eletrônico 300, tal como por meio de um teclado, keypad, touchpad, mouse, joystick ou outro dispositivo de entrada do usuário. Do mesmo modo, a interface de usuário 308 pode fornecer um meio de saída visual, tais como um monitor ou outro dispositivo de exibição visual, permitindo que o usuário receba informações visuais do dispositivo eletrônico 300.
[0022] A Fig. 4 fornece um exemplo de um sistema de codificação de áudio 400 fornecido pelo dispositivo eletrônico 300 para codificar o sinal de áudio no domínio do tempo 310 como o sinal de áudio codificado 320 da Fig. 3. O circuito de controle 302 da FIG. 3 pode implementar cada parte do sistema de codificação de áudio 400 por meio de circuitos de hardware, um processador de instruções de execução de software ou firmware, ou alguma combinação dos mesmos.
[0023] O sistema específico 400 da Fig. 4 representa uma implementação particular de AAC, embora outros esquemas de codificação de áudio possam ser utilizados em outras modalidades. Geralmente, AAC representa uma abordagem modular para codificação de áudio, na qual cada bloco funcional 450-472 da Fig. 4, bem como aqueles não descritos especificamente no mesmo, pode ser implementado em um módulo ou “ferramenta” em separado de hardware, software, ou firmware, permitindo assim que os módulos provenientes de fontes de desenvolvimento diferentes sejam integrados em um sistema de codificação única 400 para realizar a desejada codificação de áudio. Como resultado, o uso de diferentes números e tipos de módulos pode resultar na formação de qualquer número de “perfis” de codificador, cada um capaz de abordar restrições específicas associadas com um ambiente de codificação particular. Tais restrições podem incluir a capacidade computacional do dispositivo 300, a complexidade do sinal de áudio no domínio do tempo 310, e as características desejadas do sinal de áudio codificado 320, tais como a taxa de bits de saída e nível de distorção. O padrão AAC geralmente oferece quatro perfis padrões, incluindo o perfil de baixa complexidade (LC), o perfil (MAIN) principal, o perfil escalável de taxa de amostragem (SRS), e o perfil de previsão em longo prazo (LTP). O sistema 400 da Fig. 4 corresponde essencialmente ao perfil principal sem um módulo de intensidade/acoplamento, embora outros perfis possam incorporar os aprimoramentos discutidos abaixo, incluindo um bloco de função de ajuste de fator de escala temporal/intercanal 466 descrito em maior detalhe a seguir.
[0024] A Fig. 4 mostra o fluxo geral dos dados de áudio por meio de setas com linhas com sólidas, enquanto alguns dos caminhos de controle possíveis são ilustrados através de setas com linhas tracejadas. Outras possibilidades em relação à passagem de informação de controle entre os módulos 450-472 não especificamente mostradas na Fig. 4 podem ser possíveis em outras modalidades.
[0025] Na Fig. 4, o sinal de áudio no domínio do tempo 310 é recebido como uma entrada para o sistema 400. Geralmente, o sinal de áudio no domínio do tempo 310 inclui um ou mais canais de informações de áudio formatados como uma série de blocos de amostras digitais de um sinal de áudio variando no tempo. Em algumas modalidades, o sinal de áudio no domínio do tempo 310 pode tomar originalmente a forma de um sinal de áudio analógico, que é subsequentemente digitalizado a uma taxa prescrita, tal como por meio de um ADC da interface de usuário 308, antes de ser transmitido para o sistema de codificação 400, como implementado pelo circuito de controle 302.
[0026] Tal como ilustrado na Fig. 4, os módulos do sistema de codificação de áudio 400 podem incluir um bloco de controle de ganho 452, um banco de filtros 454, um bloco de moldagem de ruído temporal (TNS) 456, uma ferramenta de predição de retorno 458 e um bloco de estéreo meio/ lateral 460, configurado como parte de um tubo de processamento que recebe o sinal de áudio no domínio do tempo 310 como entrada. Estes blocos de função 452-460 podem corresponder aos mesmos blocos funcionais frequentemente vistos em outras implementações de AAC. O sinal de áudio no domínio do tempo 310 é também transmitido a um modelo perceptivo 450, que pode proporcionar informações de controle a qualquer um dos blocos funcionais 452-460 mencionados acima. Em um sistema típico de AAC, esta informação de controle indica que partes do sinal de áudio no domínio do tempo 310 são supérfluas, sob um modelo psicoacústico (PAM), permitindo assim que as partes de informações de áudio no sinal de áudio no domínio do tempo 310 sejam descartadas para facilitar a compressão como realizado no sinal de áudio codificado 320.
[0027] Para este fim, em sistemas de AAC típicos, o modelo perceptivo 450 calcula um limiar de mascaramento a partir de um resultado de uma Transformada Rápida de Fourier (FFT) do sinal de áudio no domínio do tempo 310 para indicar quais partes do sinal de áudio 310 podem ser descartadas. No exemplo da Fig. 4, no entanto, o modelo perceptivo 450 recebe a saída do banco de filtros 454, que fornece um sinal no domínio da frequência 474. Em um exemplo particular, o banco de filtros 454 é um bloco de funções de transformada discreta de cosseno modificada (MDCT), como é normalmente fornecido em sistemas AAC.
[0028] O sinal no domínio da frequência 474 produzido pela função MDCT 454 inclui uma série de blocos de amostra, tal como o bloco representado graficamente na Fig. 5, com cada bloco incluindo um número de frequências 502 para cada canal de informações de áudio a ser codificado. Além disso, cada frequência 502 é representada por um coeficiente indicando a magnitude ou intensidade da frequência 502 no bloco do sinal no domínio de frequência 474. Na Fig. 5, cada frequência 502 é descrita como um vetor vertical cuja altura representa o valor do coeficiente associado com aquela frequência 502.
[0029] Além disso, as frequências 502 estão logicamente organizadas em grupos de frequência contíguos ou “bandas” 504A-504E, como é feito nos esquemas de AAC típicos. Embora a Fig. 4 indique que cada banda de frequência 504 (isto é, cada uma das bandas de frequências 504A-504E) utiliza a mesma banda de frequências, e inclui o mesmo número de frequências discretas 502 produzido pelo banco de filtros 454, os variados números de frequências 502 e faixas de tamanhos de frequências 502 podem ser empregados entre as bandas 504, como é frequentemente o caso nos sistemas de AAC.
[0030] As bandas de frequência 504 são formadas para permitir que o coeficiente de cada frequência 502 de uma banda 504 de frequências 502 seja dimensionado ou dividido por meio de um fator de escala gerado pelo gerador de fator de escala 464 da Fig. 4. Esse dimensionamento reduz a quantidade de dados que representam os coeficientes de frequências 502 no sinal de áudio codificado 320, comprimindo, assim, os dados, resultando em uma menor taxa de transmissão de bits para o sinal de áudio codificado 320. Esta escala também resulta na quantificação de informações de áudio, em que os coeficientes 502 de frequência são forçados em discretos valores predeterminados, assim, possivelmente introduzindo alguma distorção no sinal de áudio codificado 320 após a decodificação. De um modo geral, os fatores de escala mais elevados causam quantificação grosseira, resultando em elevados níveis de distorção de áudio e menores taxas de bits de sinal de áudio codificado 320.
[0031] Para atender os níveis de distorção predeterminados e taxas de bits para o sinal de áudio codificado 320 em sistemas tipo AAC anteriores, o modelo perceptivo 450 calcula o limiar de mascaramento mencionado acima para permitir que o gerador de fator de escala 464 determine um fator de escala aceitável para cada bloco de amostra do sinal de áudio codificado 320. Tal geração de um limiar de mascaramento pode também ser empregada neste documento para permitir que o gerador de fator de escala 464 determine um fator de escala inicial para cada banda de frequência de cada bloco de amostra do sinal no domínio da frequência 474. No entanto, em outras implementações, o modelo perceptivo 450, em vez disso, determina a energia associada com as frequências 502 de cada banda de frequência 504, e que pode então ser utilizada pelo gerador de fator de escala 464 para calcular um fator de escala desejado para cada banda 504 com aquela energia. Em um exemplo, a energia das frequências 502 em uma banda de frequências 504 é calculada pela “soma absoluta”, ou a soma do valor absoluto, dos coeficientes de MDCT das frequências 502 na banda 504, por vezes referida como a soma dos coeficientes espectrais absolutos (SASC).
[0032] Uma vez que a energia para a banda 504 é determinada, o fator de escala associado com a banda 504 para cada bloco de amostra pode ser calculado tomando um logaritmo, tal como um logaritmo de base 10, da energia da banda 504, adicionando um valor constante e, em seguida, multiplicando este termo por um multiplicador predeterminado para produzir, pelo menos, um fator de escala inicial para a banda 504. A experimentação na codificação de áudio de acordo com os modelos psicoacústicos anteriormente conhecidos indica que uma constante de cerca de 1,75 e um multiplicador de 10 produz fatores de escala comparáveis aos gerados como uma resultado dos cálculos de limiares de mascaramento extensivo. Assim, para este exemplo particular, a seguinte equação para um fator de escala é produzida.
[0033] escala _ fator = (logio(∑| banda_coeficientes|) + 1,75) * 10
[0034] Outros valores para constantes diferentes de 1,75 podem ser empregados em outras configurações.
[0035] Para codificar o sinal de áudio no domínio do tempo 310, o banco de filtro de MDCT 454 produz uma série de blocos de amostras de frequência para o sinal no domínio da frequência 474, com cada bloco sendo associado com um determinado período de tempo do sinal de áudio no domínio do tempo 310. Assim, os cálculos de fator de escala observados acima podem ser realizados para cada bloco de cada canal de amostras de frequência produzido no sinal no domínio da frequência 474, assim fornecendo potencialmente um diferente fator de escala para cada bloco de cada banda de frequência 504. Dada a quantidade de dados envolvidos, o uso do cálculo acima para cada fator de escala reduz significativamente a quantidade de processamento necessária para determinar os fatores de escala em comparação com a estimativa de um limiar de mascaramento para os mesmos blocos de amostras de frequência. Outros métodos pelos quais os fatores de escala iniciais podem ser estimados no gerador de fator de escala 464, com ou sem o cálculo de um limiar de mascaramento, podem ser utilizados em outras implementações.
[0036] Um exemplo de um sinal no domínio da frequência 474 inclui dois canais de áudio A e B separados (602A e 602B) está ilustrado graficamente na Fig. 6. O áudio de cada canal de áudio 602 está representado como uma sequência de blocos 601 de amostras de frequência, com cada bloco 601 associado com um determinado período de tempo do sinal de áudio no domínio de tempo 310 original. Em algumas modalidades, os períodos de tempo associados com dois blocos de amostras consecutivos do mesmo canal de áudio podem sobrepor-se. Por exemplo, usando o MDCT para o banco de filtros 454, o período de tempo associado com cada bloco sobrepõe o período de tempo do bloco seguinte por 50%.
[0037] Em implementações discutidas neste documento, um fator de escala gerado anteriormente ou estimado para cada banda de frequência 504 de cada bloco de amostra 601 fornecido pelo gerador de fator de escala 464 pode ser ainda aumentado em função das redundâncias temporais e/ou intercanais presentes em “adjacências” dos blocos de amostra 601. Como mostrado na Fig. 6, dois blocos 606 do mesmo canal 602 podem ser adjacentes em um sentido temporal se um segue imediatamente o outro na sequência. Os blocos intercanal podem estar adjacentes se eles estão associados com o mesmo período de tempo, como mostrado pelo exemplo de blocos intercanal adjacentes 604 mostrado na Fig. 6.
[0038] Em ambos os casos, algumas informações de áudio em um bloco de um par de blocos adjacentes dos blocos de amostras 601 podem ser descartadas, se a energia no bloco adjacente for suficientemente elevada em comparação com a do primeiro bloco. Usando os blocos adjacentes temporais 606 da Fig. 6 como um exemplo, se a energia de uma banda de frequência 504 do bloco de k- lst do par 606 é maior do que a da mesma banda 504 do bloco de kth por certa quantidade ou a percentagem, o fator de escala previamente determinado a partir do gerador de fator de escala 464 para a banda de frequências 504 pode ser aumentado, reduzindo assim o número de níveis de quantificação para a banda de frequência 504 daquele bloco 601, e reduzindo assim a quantidade de dados necessários para representar o bloco 601 no sinal de áudio codificado 320. O aumento do fator de escala dessa maneira resulta em pouca ou nenhuma distorção perceptível adicionada no sinal de áudio codificado 320 uma vez que o áudio associado é mascarado por algum grau de maior energia associada com a banda de frequência 504 do bloco anterior 601.
[0039] Similarmente, se a energia de uma banda de frequência 504 de um dos dois blocos adjacentes intercanal 604 é suficientemente mais elevada do que a da banda 504 correspondente do outro bloco, então o fator de escala para a banda 504 do outro bloco pode ser aumentado de alguma porcentagem ou quantidade sem perda significativa da fidelidade de áudio. Em ambos os casos temporais e intercanais, cada banda de frequência 504 de cada bloco de amostra 601 de cada canal 602 do sinal no domínio da frequência 474 pode ser verificado de modo a determinar se um aumento do fator de escala é possível.
[0040] O circuito de controle 466 da Fig. 4 fornece tal funcionalidade no sistema 400 da Fig. 4 no bloco de funções de ajuste de fator de escala 466. Em uma implementação, a energia de cada banda de frequência 504 de cada bloco de amostra 601 pode ser calculada por meio da soma do valor absoluto de todos os coeficientes de frequência de banda de frequências 504, ou pelo cálculo da SASC para a banda 504, como descrito acima. Outras medidas de energia podem ser empregadas em outros exemplos.
[0041] Em um arranjo, os valores de energia dos dois blocos de amostra adjacentes 601 são comparados por meio de uma razão. Por exemplo, para tratar a redundância temporal nos blocos temporais adjacentes 606, o circuito de controle 302 do dispositivo 300 pode calcular a razão entre a energia de uma banda 504 do último bloco 601 do bloco temporal adjacente 606 (por exemplo, o k-ésimo bloco de um canal de áudio 602) para a energia da banda 504 do bloco imediatamente precedente 601 (por exemplo, o bloco de k-lth do canal de áudio 602). Esta razão pode então ser comparada com um valor predeterminado ou percentagem, tais como 0,5 ou 50%. Se a razão é menor que o valor predeterminado, o fator de escala associado com a banda 504 do último bloco 601 pode ser aumentado. O aumento pode ser incremental (tal como por um), por certa quantidade predeterminada (por exemplo, por um, dois ou três), por uma percentagem (tal como 10%), ou por algoutra quantidade. Este processo pode ser realizado para cada banda de frequência 504 de cada bloco de amostra 601 de cada canal de áudio 602.
[0042] Para a redundância intercanal, o circuito de controle 302 do dispositivo 300 pode calcular a razão da energia de uma banda 504 de um dos blocos intercanais adjacentes 604 (tal como o k-ésimo bloco do canal de áudio A 602A) para a energia da mesma banda 504 do outro bloco dos blocos intercanais adjacentes 604 (isto é, o k-ésimo bloco de canal de áudio B 602B). Tal como acontece com a comparação de redundância temporal, esta razão pode então ser comparada com um valor predeterminado ou percentagem. Se a razão é menor que o valor predeterminado, o fator de escala para a banda 504 do primeiro bloco 601 (isto é, o k-ésimo bloco de canal de áudio A 602A) pode ser aumentado por certa quantidade, tal como um valor ou percentagem. Da mesma forma, o recíproco desta razão, a colocação, assim, da energia da mesma banda 504 do segundo bloco 601 (isto é, o k-ésimo bloco de áudio do canal B 602B) acima daquela banda 504 do primeiro bloco 601 (isto é, do k-ésimo bloco de canal de áudio A 602A) pode ser comparada com o mesmo valor ou percentagem predeterminada. Se esta razão é menor que o valor ou a percentagem, o fator de escala para a banda 504 no segundo bloco 601 (isto é, o k-ésimo bloco de áudio do canal B 602B) pode ser aumentado de um modo semelhante ao descrito acima. Este processo pode ser realizado para cada banda 504 de cada bloco de amostra 601 de cada um dos canais de áudio 602.
[0043] Em algum ambiente, mais do que dois canais de áudio 602 são fornecidos, como em sistemas estéreos 5.1 e 7.1. A redundância Intercanal pode ser tratada em tais sistemas de modo a que cada banda 504 de cada bloco de amostra 502 possa ser comparada com sua contraparte em mais do que outro canal de áudio 602. Em outros sistemas 400, determinados canais de áudio 602 podem ser emparelhados em conjunto com base no seu papel no esquema de áudio. Por exemplo, em áudio estéreo 5.1, que inclui um canal central frontal, dois canais laterais frontais, dois canais laterais traseiros e um canal de subwoofer, os blocos contemporâneos 601 dos dois canais laterais frontais podem ser comparados entre si, tal como podem os blocos 601 dos dois canais laterais traseiros. Em outro exemplo, os blocos 601 de cada um dos canais frontais (os canais de esquerda, direita, do centro) podem ser comparados uns com os outros para explorar quaisquer redundâncias intercanais.
[0044] Em cada um dos exemplos acima discutidos, uma razão de energias relacionada com uma banda de frequência 604 é comparada com um único valor ou percentagem predeterminada. Em outra implementação, o circuito de controle 302 pode comparar cada razão calculada para mais do que um limiar predeterminado. Dependendo de onde a razão situa-se entre os valores de comparação, o fator de escala associado pode ser ajustado por meio de uma percentagem ou valor diferente. Para este fim, a Fig. 7 fornece um exemplo possível de uma tabela de aprimoramento de fator de escala 700 contendo várias diferentes razões de valores de comparação 702 contra os quais as razões calculadas descritas acima devem ser comparadas. Na tabela 700, a razão de Rl é maior do que a razão de R2, que é maior do que a razão de R3, e assim por diante, continuando a razão de RN. Associado com cada razão 700 está um valor de aprimoramento 704, listado como Fl, F2, F3, ... FN, com Fl maior do que F2, F2 maior do que F3, e assim por diante. Na operação, se uma razão calculada é maior do que R1, o fator de escala associado não é ajustado. Se a razão é menor que Rl, mas maior do que ou igual a R2, o fator de escala é aumentado pelo valor Fl de aprimoramento. Do mesmo modo, se a razão calculada é menor que R2, mas pelo menos tão grande quanto R3, o valor F2 de aprimoramento é aplicado. Continuando dessa maneira, as razões menores que RN fazem com que o fator de escala seja ajustado ou aumentado por aumento valor FN. Outros métodos para empregar múltiplos valores de razões predeterminados 702 e os valores de aprimoramento de fator de escala correspondentes 704 podem ser empregados em outras modalidades.
[0045] Ambos os valores de comparação predeterminados, tais como os valores de comparação de razão 702, e os ajustes de fator de escala, tais como os valores de aprimoramento de fator de escala 704 da tabela 700, podem ser dependentes de uma variedade de fatores específicos do sistema. Portanto, para obter os melhores resultados em termos de taxa de redução de bits do sinal de áudio codificado 320 sem comprometer indevidamente os níveis de distorção aceitáveis para uma aplicação particular, os vários valores de comparação e fatores de ajuste são mais bem determinados experimentalmente para esse sistema particular 400.
[0046] Embora o bloco de funções de ajuste de fator de escala 466 forneça a funcionalidade acima da Fig. 4, outras implementações podem incorporar a funcionalidade em outras partes do sistema 400. Por exemplo, ou o modelo de percepção 450 ou o gerador de fator de escala 464 pode receber tanto as informações MDCT da banda filtro 454 quanto as estimativas iniciais dos fatores de escala do gerador de fator de escala 464 para realizar o cálculo da razão, comparação de valor e ajuste do fator de escala discutido anteriormente.
[0047] Um quantificador 468 após a função de ajuste de fator de escala 466 no tubo emprega o fator de escala ajustado para cada banda de frequência 504, conforme gerado pelo gerador de fator de escala 466 (e, eventualmente, ajustado novamente por um bloco de controle de taxa/distorção 462, como descrito abaixo), para dividir os coeficientes das várias frequências 502 naquela banda 504. Ao dividir os coeficientes, os coeficientes são reduzidos ou comprimidos em tamanho, reduzindo assim a taxa de bits total do sinal de áudio codificado 320. Os resultados de tal divisão nos coeficientes sendo quantificados em um de algum número definido de valores discretos.
[0048] Após a quantificação, um bloco de codificação sem ruído 470 codifica os coeficientes quantificados resultantes de acordo com um esquema de codificação sem ruído. Em uma modalidade, o esquema de codificação pode ser o esquema de codificação de Huffman sem perdas, empregado em AAC.
[0049] O bloco de controle taxa/distorção 462, como representado na Fig. 4, pode reajustar um ou mais dos fatores de escala sendo gerados no gerador de fator de escala 466 e ajustados no módulo de ajuste de fator de escala 466 para atender a taxa de bits predeterminada e os requisitos de nível de distorção para o sinal de áudio codificado 320. Por exemplo, o bloco de controle da taxa/distorção 464 pode determinar que o fator de escala calculado possa resultar em uma taxa de bits de saída para o sinal de áudio de codificado 320 que é significativamente elevado em comparação com a taxa de bits média para ser atingida e, assim, aumentar o fator de escala em conformidade.
[0050] Após os fatores de escala e os coeficientes serem codificados no bloco de codificação 470, os dados resultantes são transmitidos para um multiplexador de fluxo de bits 472, que gera o sinal de áudio codificado 320, o qual inclui os coeficientes e fatores de escala. Estes dados podem ser ainda intermisturados com outras informações de controle e metadados, tais como os dados textuais (incluindo um título e informações relacionadas associadas com o sinal de áudio codificado 320) e informações sobre o esquema de codificação particular a ser usado de modo que um descodificador de recebimento de sinal de áudio 320 possa decodificar o sinal 320 com precisão.
[0051] Pelo menos algumas modalidades tal como descritas neste documento fornecem um método de codificação de áudio em que a energia exibida por frequências de áudio no interior de cada banda de frequência de um bloco de amostra de um sinal de áudio pode ser comparada contra a energia de um bloco adjacente para determinar se o bloco está transportando as informações de áudio que podem ser grosseiramente quantificadas sem perda significativa de fidelidade de áudio. Os blocos de amostra adjacentes podem ser blocos consecutivos de um canal de áudio único, ou blocos que ocorrem ao mesmo tempo em diferentes canais de áudio. Ao comparar a energia das frequências em uma banda de frequência particular em diferentes blocos, a capacidade computacional requerida é mínima em comparação com os sistemas típicos de AAC em que um limiar de mascaramento é calculado. Assim, o uso dos métodos e dispositivos citados neste documento pode permitir que a codificação de áudio em tempo real seja realizada em ambientes mais diversos com circuitos de processamento menos dispendiosos do que, de outro modo, seria possível.
[0052] Embora várias modalidades da invenção tenham sido discutidas neste documento, outras implementações englobadas pelo escopo da invenção são possíveis. Por exemplo, embora pelo menos uma modalidade descrita neste documento tenha sido descrita no contexto de um dispositivo de mudança de lugar, outros dispositivos de processamento digital, tais como sistemas de uso geral de computação, receptores de televisão ou set-top-boxes (incluindo os que estão associados com transmissão de sinal de televisão via satélite, cabo e terrestre), satélite e receptores de áudio terrestres, consoles de jogos, DVRs e reprodutores de CD e DVD, podem beneficiar a aplicação dos conceitos explicados acima. Além disso, os aspectos de uma modalidade divulgada neste documento podem ser combinados com os de modalidades alternativas para criar implementações adicionais da presente invenção. Assim, embora a presente invenção tenha sido descrita no contexto das modalidades específicas, tais descrições são fornecidas para ilustração e não limitação. Por conseguinte, o escopo apropriado da presente invenção é delimitado apenas pelas Reivindicações que se seguem e os seus equivalentes.

Claims (19)

1. Método de Codificação de Sinal de Áudio no Domínio do Tempo, o método compreendendo: num dispositivo eletrônico, receber o sinal de áudio no domínio do tempo compreendendo pelo menos um canal de áudio; transformar o sinal de áudio no domínio do tempo para um sinal no domínio da frequência, compreendendo uma sequência de blocos de amostra para cada um dos pelo menos um canal de áudio, em que cada bloco de amostra compreende um coeficiente para cada um de uma da pluralidade de frequências; agrupar os coeficientes de cada bloco de amostras em bandas de frequência; caracterizado por que: para cada banda de frequência de cada bloco de amostras, determinar um fator de escala para a banda de frequência; para cada banda de frequência de cada bloco de amostra, determinar uma energia da banda de frequência; para cada banda de frequência de cada bloco de amostra, comparar a energia da banda de frequência para o bloco de amostra com a energia da banda de frequência de um bloco de amostra adjacente, em que o bloco de amostra adjacente é definido como: (a) um bloco imediatamente precedente ao bloco de amostra de um mesmo canal de áudio ou (b) um bloco de amostra de outro canal de áudio que é identificado com o mesmo período de tempo do bloco de amostra; para cada banda de frequência de cada bloco de amostra, reduzir a quantidade de dados necessários para representar o bloco de amostra aumentando o fator de escala para a banda de frequência para o bloco de amostra se uma razão da energia da banda de frequência do bloco de amostra para a energia da banda de frequência do bloco de amostra adjacente é menor que um valor predeterminado; para cada banda de frequência de cada bloco de amostra, quantificar os coeficientes da banda de frequência com base no fator de escala da banda de frequência e gerar um sinal de áudio codificado com base nos coeficientes quantificados e nos fatores de escala.
2. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 1, caracterizado por que: a geração do sinal codificado compreende a codificação dos coeficientes quantificados, em que o sinal de áudio codificado é baseado nos coeficientes codificados e nos fatores de escala.
3. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 1, caracterizado por que: a transformação do sinal de áudio no domínio do tempo para o sinal no domínio da frequência compreende a realização de uma função da transformada discreta de cosseno modificada no sinal de áudio no domínio do tempo.
4. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 1, caracterizado por que a determinação da energia da banda de frequência compreende: calcular uma soma absoluta de cada um dos coeficientes da banda de frequência do bloco de amostra.
5. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 1, caracterizado por que: o bloco de amostra adjacente de um primeiro bloco de amostra compreende o bloco de amostra do mesmo canal de áudio como o primeiro bloco de amostra que precede imediatamente o primeiro bloco de amostra no tempo.
6. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 5, caracterizado por que: um período de tempo representado pelos blocos de amostra adjacentes sobrepõe um período de tempo representado pelo primeiro bloco de amostra.
7. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 1, caracterizado por que: o bloco de amostra adjacente de um primeiro bloco de amostra compreende um bloco de amostra de um diferente canal de áudio identificado com o mesmo período de tempo associado com o primeiro bloco de amostra.
8. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 7, caracterizado por que compreende ainda: para cada banda de frequência de cada bloco de amostra, comparar a energia da banda de frequência para o bloco de amostra com a energia da banda de frequência de um segundo bloco de amostra adjacente; e para cada banda de frequência de cada bloco de amostra, aumentar do fator de escala para a banda de frequência para o bloco de amostra se uma razão da energia da banda de frequência do bloco de amostra para a energia da banda de frequência do segundo bloco de amostra adjacente é menor que o valor predeterminado; em que o segundo bloco de amostra adjacente de um primeiro bloco de amostra compreende um bloco de amostra de um segundo canal de áudio diferente identificado com o mesmo período de tempo associado com o primeiro bloco de amostra.
9. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 1, caracterizado por que compreende ainda: para cada banda de frequência de cada bloco de amostra, aumentar do fator de escala para a banda de frequência para o bloco de amostra, se a razão da energia da banda de frequência do bloco de amostra para a energia da banda de frequência do bloco de amostra adjacente é menor que um segundo valor predeterminado, em que o segundo valor predeterminado é menor que o primeiro valor predeterminado, e em que o aumento do fator de escala envolvido com o segundo valor predeterminado é maior do que o aumento do fator de escala envolvido com o primeiro valor predeterminado.
10. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 1, caracterizado por que: os coeficientes compreendem coeficientes de uma transformada discreta de cosseno modificada.
11. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 1, caracterizado por que a determinação da energia da banda de frequência compreende: calcular uma soma absoluta dos coeficientes da banda de frequência do bloco de amostra.
12. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 1, caracterizado por que: o bloco de amostra adjacente de um primeiro bloco de amostra compreende o bloco de amostra imediatamente precedente do mesmo canal de áudio como o bloco de amostra.
13. Método de Codificação de Sinal de Áudio no Domínio do Tempo, de acordo com a Reivindicação 1, caracterizado por que: o bloco de amostra adjacente de um primeiro bloco de amostra compreende um bloco de amostra de um canal de áudio diferente identificado com o mesmo período de tempo como o primeiro bloco de amostra.
14. Dispositivo Eletrônico, compreendendo: armazenamento de dados configurado para armazenar um sinal de áudio no domínio do tempo e circuitos de controle configurados para: recuperar o sinal de áudio no domínio do tempo a partir do armazenamento de dados, em que o sinal de áudio no domínio do tempo compreende pelo menos um canal de áudio; transformar o sinal de áudio no domínio do tempo para um sinal no domínio da frequência, compreendendo uma sequência de blocos de amostra para cada um de pelo menos um canal de áudio, em que cada bloco de amostra compreende um coeficiente para cada uma das múltiplas frequências; organizar os coeficientes de cada bloco de amostras em bandas de frequência; caracterizado por que: para cada banda de frequência de cada bloco de amostra, estimar um fator de escala para a banda de frequência; para cada banda de frequência de cada bloco de amostra, determinar uma energia da banda de frequência; para cada banda de frequência de cada bloco de amostra, comparar a energia da banda de frequência para o bloco de amostra com a energia da banda de frequência de um bloco de amostra adjacente, em que o bloco de amostra adjacente é definido como: (a) um bloco imediatamente precedente ao bloco de amostra de um mesmo canal de áudio ou (b) um bloco de amostra de outro canal de áudio que é identificado com o mesmo período de tempo do bloco de amostra; para cada banda de frequência de cada bloco de amostra, reduzir a quantidade de dados necessários para representar o bloco de amostra aumentando o fator de escala para a banda de frequência para o bloco de amostra se uma razão da energia da banda de frequência do bloco de amostra para a energia da banda de frequência do bloco de amostra adjacente é menor que um valor predeterminado; para cada banda de frequência de cada bloco de amostra, quantificar os coeficientes da banda de frequência com base no fator de escala para a banda de frequência e gerar um sinal de áudio codificado com base nos coeficientes quantificados e nos fatores de escala.
15. Dispositivo Eletrônico, de acordo com a Reivindicação 14, caracterizado por que, para determinar a energia da banda de frequência, o circuito de controle é configurado para: somar o valor absoluto de cada um dos coeficientes da banda de frequência do bloco de amostra.
16. Dispositivo Eletrônico, de acordo com a Reivindicação 14, caracterizado por que: o bloco de amostra adjacente de um primeiro bloco de amostra compreende o bloco de amostra do mesmo canal de áudio como o primeiro bloco de amostra que precede imediatamente o primeiro bloco de amostra.
17. Dispositivo Eletrônico, de acordo com a Reivindicação 14, caracterizado por que: o bloco de amostra adjacente de um primeiro bloco de amostra compreende um bloco de amostra de um diferente canal de áudio que representa o mesmo período de tempo como o primeiro bloco de amostra.
18. Dispositivo Eletrônico, de acordo com a Reivindicação 14, caracterizado por que o circuito de controle é configurado para: para cada banda de frequência de cada bloco de amostra, comparar a energia da banda de frequência para o bloco de amostra com a energia da banda de frequência de um segundo bloco de amostra adjacente; e para cada banda de frequência de cada bloco de amostra, aumentar o fator de escala para a banda de frequência para o bloco de amostra se uma razão da energia da banda de frequência do bloco de amostra para a energia da banda de frequência do segundo bloco de amostra adjacente é menor que o valor predeterminado; em que o segundo bloco de amostra adjacente de um primeiro bloco de amostra compreende um bloco de amostra de um segundo canal de áudio diferente que representa o mesmo período de tempo como o primeiro bloco de amostra.
19. Dispositivo Eletrônico, de acordo com a Reivindicação 14, caracterizado por que o circuito de controle é configurado para: para cada banda de frequência de cada bloco de amostra, aumentar o fator de escala para a banda de frequência para o bloco de amostra se a razão da energia da banda de frequência do bloco de amostra para a energia da banda de frequência do bloco de amostra adjacente é menor que um segundo valor predeterminado, em que o segundo valor predeterminado é menor que o primeiro valor predeterminado, e em que o aumento do fator de escala envolvido com o segundo valor predeterminado é maior do que o aumento do fator de escala envolvido com o primeiro valor predeterminado.
BR112012005014-1A 2009-09-11 2010-09-07 Método de codificação de sinal de áudio no domínio do tempo e dispositivo eletrônico BR112012005014B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/558,048 2009-09-11
US12/558,048 US8498874B2 (en) 2009-09-11 2009-09-11 Audio signal encoding employing interchannel and temporal redundancy reduction
PCT/IN2010/000595 WO2011030354A2 (en) 2009-09-11 2010-09-07 Audio signal encoding employing interchannel and temporal redundancy reduction

Publications (2)

Publication Number Publication Date
BR112012005014A2 BR112012005014A2 (pt) 2016-05-03
BR112012005014B1 true BR112012005014B1 (pt) 2021-04-13

Family

ID=43568372

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112012005014-1A BR112012005014B1 (pt) 2009-09-11 2010-09-07 Método de codificação de sinal de áudio no domínio do tempo e dispositivo eletrônico

Country Status (13)

Country Link
US (2) US8498874B2 (pt)
EP (1) EP2476114B1 (pt)
JP (1) JP5201375B2 (pt)
KR (1) KR101363206B1 (pt)
CN (1) CN102483924B (pt)
AU (1) AU2010293792B2 (pt)
BR (1) BR112012005014B1 (pt)
CA (1) CA2771886C (pt)
IL (1) IL218409A (pt)
MX (1) MX2012002741A (pt)
SG (1) SG178851A1 (pt)
TW (1) TWI438770B (pt)
WO (1) WO2011030354A2 (pt)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
GB2487399B (en) * 2011-01-20 2014-06-11 Canon Kk Acoustical synthesis
EP2709106A1 (en) 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
CN105074818B (zh) 2013-02-21 2019-08-13 杜比国际公司 音频编码系统、用于产生比特流的方法以及音频解码器
AU2014360038B2 (en) 2013-12-02 2017-11-02 Huawei Technologies Co., Ltd. Encoding method and apparatus
CN105096957B (zh) 2014-04-29 2016-09-14 华为技术有限公司 处理信号的方法及设备
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388181A (en) 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
KR100368854B1 (ko) * 1993-06-30 2003-05-17 소니 가부시끼 가이샤 디지털신호의부호화장치,그의복호화장치및기록매체
WO1995012920A1 (fr) * 1993-11-04 1995-05-11 Sony Corporation Codeur de signaux, decodeur de signaux, support d'enregistrement et procede de codage de signaux
JP3186412B2 (ja) * 1994-04-01 2001-07-11 ソニー株式会社 情報符号化方法、情報復号化方法、及び情報伝送方法
JP4152192B2 (ja) 2001-04-13 2008-09-17 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の高品質タイムスケーリング及びピッチスケーリング
US8019598B2 (en) * 2002-11-15 2011-09-13 Texas Instruments Incorporated Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
WO2007026821A1 (ja) 2005-09-02 2007-03-08 Matsushita Electric Industrial Co., Ltd. エネルギー整形装置及びエネルギー整形方法
CN100459436C (zh) * 2005-09-16 2009-02-04 北京中星微电子有限公司 一种音频编码中比特分配的方法
JPWO2007088853A1 (ja) 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
JP4649351B2 (ja) * 2006-03-09 2011-03-09 シャープ株式会社 デジタルデータ復号化装置
ES2375192T3 (es) 2007-08-27 2012-02-27 Telefonaktiebolaget L M Ericsson (Publ) Codificación por transformación mejorada de habla y señales de audio.
AU2008344134B2 (en) * 2007-12-31 2011-08-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction

Also Published As

Publication number Publication date
BR112012005014A2 (pt) 2016-05-03
JP5201375B2 (ja) 2013-06-05
US8498874B2 (en) 2013-07-30
US9646615B2 (en) 2017-05-09
TWI438770B (zh) 2014-05-21
AU2010293792B2 (en) 2014-03-06
KR20120070578A (ko) 2012-06-29
EP2476114A2 (en) 2012-07-18
CA2771886A1 (en) 2011-03-17
AU2010293792A1 (en) 2012-03-29
EP2476114B1 (en) 2013-06-19
CN102483924A (zh) 2012-05-30
WO2011030354A3 (en) 2011-05-05
CA2771886C (en) 2015-07-07
CN102483924B (zh) 2014-05-28
IL218409A (en) 2016-08-31
IL218409A0 (en) 2012-04-30
JP2013504781A (ja) 2013-02-07
US20130318010A1 (en) 2013-11-28
SG178851A1 (en) 2012-04-27
WO2011030354A2 (en) 2011-03-17
MX2012002741A (es) 2012-05-08
TW201137863A (en) 2011-11-01
US20110066440A1 (en) 2011-03-17
KR101363206B1 (ko) 2014-02-12

Similar Documents

Publication Publication Date Title
TWI779381B (zh) 用於解碼高階保真立體音響表示之方法、裝置及非暫態電腦可讀取儲存媒體
BR112012005014B1 (pt) Método de codificação de sinal de áudio no domínio do tempo e dispositivo eletrônico
US8838442B2 (en) Method and system for two-step spreading for tonal artifact avoidance in audio coding
CA2770622C (en) Frequency band scale factor determination in audio encoding based upon frequency band signal energy
WO2010037427A1 (en) Apparatus for binaural audio coding
TWI689916B (zh) 用以判定用於描述將振幅變化對應為2之指數之非差分增益值之表示之最低整數位元數以用於hoa資料框表示壓縮之方法及裝置以及用於執行其的電腦程式產品、編碼之hoa資料框表示以及用於儲存其的儲存媒體,以及解碼聲音或聲場之壓縮高階保真立體音響(hoa)聲音表示之方法及裝置
US20120163608A1 (en) Encoder, encoding method, and computer-readable recording medium storing encoding program

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 13/04/2021, OBSERVADAS AS CONDICOES LEGAIS.