BR112016015695B1 - Sistema, mídia e método para tratamento de sinais de áudio comprimidos - Google Patents

Sistema, mídia e método para tratamento de sinais de áudio comprimidos Download PDF

Info

Publication number
BR112016015695B1
BR112016015695B1 BR112016015695-1A BR112016015695A BR112016015695B1 BR 112016015695 B1 BR112016015695 B1 BR 112016015695B1 BR 112016015695 A BR112016015695 A BR 112016015695A BR 112016015695 B1 BR112016015695 B1 BR 112016015695B1
Authority
BR
Brazil
Prior art keywords
signal
frequency
audio signal
brick wall
audio
Prior art date
Application number
BR112016015695-1A
Other languages
English (en)
Other versions
BR112016015695A2 (pt
Inventor
Kevin Eric Heber
Gilbert Arthur Joseph Soulodre
Original Assignee
Harman International Industries, Incorporated
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries, Incorporated filed Critical Harman International Industries, Incorporated
Publication of BR112016015695A2 publication Critical patent/BR112016015695A2/pt
Publication of BR112016015695B1 publication Critical patent/BR112016015695B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

POTENCIALIZAÇÃO DE SINAL COM BASE NA QUALIDADE E COMPENSAÇÃO DE SINAIS DE ÁUDIO COMPRIMIDOS. A presente invenção refere-se a um módulo de amostra que pode dividir um sinal de áudio numa série de amostras sequenciais. Um módulo de detector de qualidade do sinal pode identificar uma frequência banda de guarda consistente do sinal de áudio que abrange uma pluralidade de amostras sequenciais a um início do sinal de áudio e determinar uma indicação de tratamento de sinal proporcional à frequência banda de guarda. Um módulo de potencializador de sinal pode sequencialmente receber e analisar um ou mais compo-nentes da amostra do sinal de áudio para identificar partes perdidas do sinal de áudio em um ou mais componentes da amostra de respectivas amostras sequenciais e gerar, de acordo com a indicação da qualidade do sinal, um tratamento de sinal correspondente para cada um dos um ou mais componentes da amostra de respectivas amostras sequen-ciais que têm uma correspondente parte perdida identificada.

Description

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
[0001] Este pedido reivindica o benefício do Pedido Provisório U.S. N° de Série 61/924.641, depositado em 07 de janeiro de 2014, cuja descrição é incorporada a este documento na sua totalidade por referência.
CAMPO TÉCNICO
[0002] A presente invenção refere-se ao processamento de sinal de áudio e, mais particularmente, à potencialização e restauração do sinal de áudio.
ANTECEDENTES
[0003] Sinais de áudio comprimidos são sinais que tenham sofrido alguma forma de compressão de dados por um codec de áudio perceptual. Codecs de áudio perceptual reduzem a quantidade de dados usados para armazenar, transferir ou transmitir um sinal de áudio, descartando componentes do sinal de áudio que são percebidos como menos audíveis ou perceptivelmente menos importantes. O processo de compressão de dados introduz muitas vezes indesejáveis diferenças audíveis entre o sinal de áudio original (sem compressão) e o sinal de áudio comprimido. Diferentes codecs de áudio perceptuais podem empregar diferentes estratégias para descartar porções do sinal de áudio original, mas as características percebidas das diferenças audíveis são geralmente semelhantes.
SUMÁRIO
[0004] Um módulo de amostra pode dividir um sinal de áudio numa série de amostras sequenciais. Um módulo de detector de qualidade do sinal pode identificar uma frequência brick wall consistente do sinal de áudio que abrange uma pluralidade de amostras sequenciais a um início do sinal de áudio e determinar uma indicação de tratamento de sinal proporcional à frequência brick wall. Um módulo de potencializa- dor de sinal pode sequencialmente receber e analisar um ou mais componentes da amostra do sinal de áudio para identificar partes perdidas do sinal de áudio em um ou mais componentes da amostra de respectivas amostras sequenciais e gerar, de acordo com a indicação da qualidade do sinal, um tratamento de sinal correspondentes para cada um dos um ou mais componentes da amostra de respectivas amostras sequenciais que têm uma correspondente parte perdida identificada.
BREVE DESCRIÇÃO DAS FIGURAS
[0005] O sistema pode ser melhor compreendido com referência às seguintes figuras e descrição. Os componentes nas figuras não estão necessariamente em escala, a ênfase, em vez disso, deve estar em ilustrar os princípios da invenção. Além disso, nas figuras, os numerais de referência semelhantes designam partes correspondentes ao longo das várias vistas.
[0006] A Figura 1 é um diagrama de bloco, que inclui um exemplo de Sistema Potencializador de Sinal, usado em conjunto com um codificador e decodificador de áudio perceptual.
[0007] A Figura 2 é um diagrama de bloco que inclui um exemplo de um decodificador de áudio perceptual integrado no Sistema Poten- cializador de sinal.
[0008] A Figura 3 é um diagrama de blocos de um exemplo do Sis tema Potencializador de sinal.
[0009] Figura 4 é um diagrama de blocos de um exemplo do Sis tema Potencializador de sinal operando em porções Mid-Side de um sinal estéreo.
[00010] A Figura 5 é um diagrama de blocos de um exemplo de Módulos Potencializadores de sinal separados, operando em parcelas espaciais individuais de um sinal de áudio.
[00011] A Figura 6 ilustra os componentes de uma resposta de impulso exemplar com representação de decomposição baseada em blocos.
[00012] A Figura 7 é um diagrama de bloco exemplar do módulo de preenchimento de Reverbe ilustrado na figura 3.
[00013] A Figura 8 é uma estimativa do exemplo de componentes de amostra de uma série de reverberação de entrada de amostras em uma determinada frequência.
[00014] A Figura 9a é um diagrama de bloco exemplar do analisador de qualidade de sinais, do ajustador de nível de tratamento e do módulo de exposição.
[00015] A Figura 9B é um diagrama de bloco exemplar de um processo de detecção de um algoritmo de compressão e tratamento que reajusta automaticamente a quantidade de ganho de tratamento por corrente ou por pista.
[00016] A Figura 10 é uma exibição exemplar de um sinal de saída com tratamento de sinal de potencialização de largura de banda.
[00017] As Figuras 11a e 11b ilustram vistas espectrais exemplares (domínio da frequência) para ilustrar compressão pelo sistema Poten- cializador de sinal.
[00018] As Figuras 12a e 12b ilustram vistas espectrais exemplares para ilustrar a potencialização transiente pelo Sistema Potencializador de sinal.
[00019] A Figura 13 é um exemplo de sistema de computação.
DESCRIÇÃO DETALHADA
[00020] Conforme necessário, várias modalidades detalhadas da presente invenção são divulgadas neste documento, no entanto, deve ser entendido que as modalidades divulgadas são meramente exemplares da invenção, que pode possuir modalidades alternativas em vá- rias formas. As figuras não estão necessariamente em escala; alguns recursos podem ser exagerados ou minimizados para mostrar detalhes de componentes específicos. Portanto, detalhes estruturais e funcionais específicos divulgados neste documento não deverão ser interpretados como limitantes, mas meramente como uma base representativa para ensinar aqueles versados na técnica a empregar a presente invenção em uma variedade de maneiras.
[00021] Sinais de áudio comprimidos são sinais que contém conteúdo de áudio, os quais tenham sofrido alguma forma de compressão de dados, tal como por um codec de áudio perceptual. Tipos comuns de codecs de áudio perceptuais incluem MP3, AAC, Dolby Digital e DTS. Estes codecs de áudio perceptuais reduzem o tamanho de um sinal de áudio, descartando uma porção significativa do sinal de áudio. Codecs de áudio perceptuais podem ser usados para reduzir a quantidade de espaço (memória) necessário para armazenar um sinal de áudio ou para reduzir a quantidade de largura de banda necessária para transmitir ou transferir sinais de áudio. Não é incomum comprimir um sinal de áudio em 90% ou mais. Codecs de áudio perceptuais podem empregar um modelo de como o sistema auditivo humano percebe sons. Desta forma, um codec de áudio perceptual pode descartar aquelas porções do sinal de áudio as quais são consideradas veis ou menos relevantes para a percepção do som por um ouvinte. Como resultado, os codecs de áudio perceptuais são capazes de reduzir o tamanho de um sinal de áudio, enquanto mantém ainda uma relativamente boa qualidade de áudio percebida com o sinal restante. Em geral, a qualidade percebida de um sinal de áudio compactado pode ser dependente da taxa de bits do sinal comprimido. Taxas de bits mais baixas podem indicar que uma porção maior do sinal de áudio original foi descartada e, portanto,, em geral, a qualidade percebida do sinal de áudio comprimido pode ser mais pobre.
[00022] Há vários tipos de codecs de áudio perceptuais e cada tipo pode usar um conjunto diferente de critérios para determinar quais porções do sinal de áudio original serão descartadas no processo de compressão. Codecs de áudio perceptuais podem incluir um processo de codificação e decodificação. O codificador recebe o sinal de áudio original e pode determinar quais porções do sinal serão descartadas. O codificador pode, em seguida, colocar o sinal restante em um formato adequado para o armazenamento comprimido e/ou transmissão. O decodificador pode receber o sinal de áudio comprimido, decodificá-lo e pode então converter o sinal de áudio decodificado para um formato que é adequado para reprodução de áudio. Em codecs de áudio mais perceptivos, o processo de codificação, o qual inclui uso de um modelo perceptivo, pode determinar a qualidade resultante do sinal de áudio comprimido. Nestes casos o decodificador pode servir como um conversor de formatos que converte o sinal do formato comprimido (geralmente alguma forma de representação do domínio de frequência) para um formato adequado para reprodução de áudio.
[00023] Um sistema Potencializador de sinal pode modificar um sinal de áudio comprimido que foi processado por um codec de áudio perceptual tal que componentes e características de sinal os quais podem ter sido descartados ou alterados no processo de compressão são percebidos por serem restaurados no sinal de saída processado. Como usado neste documento, o termo sinal de áudio pode se referir ou a um representante de sinal elétrico do conteúdo de áudio ou a um som audível, a menos que descrito de outra forma.
[00024] Quando os sinais de áudio são comprimidos usando um codec de áudio perceptual é impossível recuperar os componentes de sinal descartados. No entanto, o Sistema Potencializador de sinal pode analisar os componentes de sinal restantes em um sinal de áudio comprimido e gerar novos componentes de sinal para perceptivelmen- te substituir os componentes descartados.
[00025] Em alguns casos, a qualidade de uma fonte de sinais de áudio comprimidos pode ser explicitamente especificada pela fonte de áudio ou pode ser inferida com base na fonte de áudio. Em um exemplo, o conteúdo de rádio por satélite pode ser conhecido por ser codificado em uma qualidade e velocidade em particular. Em outro exemplo, metadados, como a taxa de bits atual e informações de codec para a fonte de áudio, podem ser especificados através de uma mensagem de barramento ou através de informações de cabeçalho de um arquivo de áudio a ser decodificado. Em tais casos, o potencializador de sinal pode ser configurado para aplicar um nível de tratamento com base na qualidade especificada pela fonte de áudio. Em outros casos, uma qualidade de fonte pode ser desconhecida ou não é facilmente previsível. Alguns exemplos de tais fontes de áudio podem incluir um leitor de música como um iPod, uma unidade USB, áudio recebido através de uma conexão Bluetooth, áudio recebido através de uma ligação auxiliar, ou streaming de áudio a partir de um aplicativo de streaming de música desconhecido. Em tais casos, o potencializador de sinal pode ser configurado para detectar automaticamente um nível de tratamento que é adequado para a fonte de áudio com base em características de conteúdo do próprio áudio de entrada.
[00026] A detecção automática pode ser configurada para aplicar uma quantidade proporcional de tratamento com base em uma medida de qualidade do início do sinal de entrada. Por exemplo, se uma inclinação brick wall é detectada (por exemplo, corte bruto de frequências superiores a 12 kHz), então a fonte de áudio pode ser considerada para ser comprimida e o tratamento pode ser aplicado. Se nenhuma inclinação brick wall é detectada, então a fonte de áudio pode ser considerada como sendo não comprimida e o tratamento pode ser considerado desnecessário e não ser aplicado. A quantidade particular de tra- tamento a ser aplicada pode ser baseada no ponto de corte de frequência do brick wall. Por exemplo, uma frequência de corte mais baixa pode indicar uma sequência de áudio relativamente mais comprimida que requer uma maior quantidade de tratamento, enquanto que uma frequência de corte superior pode indicar um fluxo de áudio comprimido relativamente menor, exigindo uma menor quantidade de tratamento. Em alguns casos, se a frequência de corte é inferior a um limiar mínimo, então o Potencializador de Sinal pode determinar que a fonte de áudio é de demasiada baixa qualidade para ser processada e pode-se não aplicar nenhum tratamento. Como outra possibilidade, se a frequência de corte é acima de um limite máximo, o Potencializador de Sinal pode determinar que a fonte de áudio é de qualidade suficiente para não necessitar de tratamento.
[00027] Se uma faixa de áudio não tem conteúdo de alta frequência suficiente, então o Potencializador de Sinal pode determinar que nenhum tratamento deve ser aplicado, apesar de uma qualidade de áudio baixa ou baixa taxa de bits do áudio. Em um exemplo, uma faixa de áudio de um piano pode não ter o conteúdo de alta frequência, de modo que um brick wall não seja facilmente detectável. Ou, se uma faixa for demasiada baixa no nível indicado, o Potencializador de Sinal, em seguida, pode também determinar que o tratamento não deve ser aplicado.
[00028] Quando inicializado, ou quando é detectada uma lacuna (por exemplo, silêncio ou mudança de faixa), o Potencializador de Sinal pode redefinir uma trava e definir um nível de tratamento detectado como nenhum. Quando o áudio inicia ou reinicia, o mecanismo de detecção automática pode procurar por compressão (por exemplo, através da realização de detecção de frequência de corte brick wall). Quando uma faixa é identificada como comprimida, o nível de tratamento pode ser ajustado (ou seja, travado) de modo a que o nível de tratamento possa permanecer dentro de um intervalo estreito até a próxima faixa. Esta trava pode, consequentemente, impedir de bom- beamento, som variável ou outros artefatos sonoros de mudanças de taxas de tratamento.
[00029] Adicionalmente ou alternativamente, após a detecção de uma diferença, um temporizador de contagem pode começar. Se nenhuma compressão é detectada dentro de um período pré- determinado de tempo ou de um número de amostras (por exemplo, cinco segundos), em seguida, o Potencializador de Sinal pode optar por não aplicar o tratamento até que seja detectada a lacuna seguinte. Isso pode evitar mudanças espectrais inesperadas no meio de uma faixa devido ao súbito aparecimento de altas frequências e posterior ajuste do nível de tratamento.
[00030] Figura 1 é um diagrama de blocos que inclui de um exemplo de um Sistema Potencializador de sinal 110. O sistema Potenciali- zador de sinal 110 pode operar no domínio de frequência ou no domínio de tempo. O Sistema Potencializador de sinal 110 pode incluir um Módulo Amostrador 112. O Módulo Amostrador 112 pode receber o sinal de entrada (X) em tempo real e dividir o sinal de entrada (X) em amostras. Durante a operação no domínio da frequência, o Módulo Amostrador 112 pode coletar amostras sequenciais do domínio de tempo, uma função de janelamento apropriada é aplicada (tal como a janela de raiz-Hann) e as amostras em janelas são convertidas em bins sequenciais no domínio de frequência, como o uso de um FFT (Fast Fourier Transform). Em um exemplo, o Módulo Amostrador 112 pode utilizar uma FFT 1024 e ponto de taxa de amostragem de 44,1 kHz. Da mesma forma, como um passo final no sistema do Potenciali- zador de Sinal 110, os bins da frequência-domínio potencializados podem ser convertidos pelo Módulo Amostrador 112 no domínio do tempo utilizando uma FFT inverso- (Transformada de Fourier Rápida in- versa), e uma janela complementar adequada é aplicada (por exemplo, uma janela de raiz-Hann), para produzir um bloco de amostras de domínio de tempo potencializadas. Uma sobreposição de uma quantidade pré-determinada, como pelo menos 50%, pode ser usada para adicionar e janela de amostras de domínio de tempo antes de convertê-las para o domínio de frequência. Em uma saída em uma linha de saída 105 do Sistema Potencializador de sinal 110, uma sobreposição predeterminada semelhante, tal como, pelo menos 50%, pode ser usada ao construir as amostras de domínio de tempo potencializadas após conversão de domínio de frequência para domínio de tempo. Alternativamente, o Sistema Potencializador de sinal 110 pode operar no domínio de tempo utilizando os blocos sequenciais de amostras de domínio de tempo, e os conversores podem ser eliminados a partir do Módulo Amostrador 112. Para simplificar a discussão e figuras, discussão e ilustração adicional do Módulo Amostrador 112, bem como a conversão de tempo-para-frequência e de frequência-para-tempo é omitida. Assim, conforme descrito neste documento, amostras sequenciais ou uma sequência de amostras pode permutavelmente referir-se a uma sequência de séries de tempo de amostras de domínio de tempo, ou uma sequência de séries de tempo dos bins de domínio de frequência correspondentes ao recebimento de série de tempo de um sinal de entrada (X) que foi amostrado pelo Módulo de Amostra 112.
[00031] Na figura 1, o Potencializador de Sinal 110 é ilustrado como sendo usado em conjunto com um codificador de áudio perceptual 101 e um decodificador de áudio perceptual 103. Um sinal de áudio original (Z) pode ser provido para o codificador de áudio perceptual 101 numa linha de entrada de sinal de áudio 100. O codificador de áudio percep-tual 101 pode descartar componentes de sinal de áudio, para produzir um fluxo de bits de áudio comprimido (Q) em uma linha de fluxo de bits comprimido 102. O decodificador de áudio perceptual 103 pode deco- dificar o fluxo de bits de áudio comprimido (Q) para produzir um sinal de entrada (X) em uma linha de sinal de entrada 104 (ao qual, às vezes, refere-se neste documento como sinal de entrada (X) 104). O sinal de entrada (X) pode ser um sinal de áudio em um formato adequado para reprodução de áudio. O Sistema Potencializador de sinal 110 pode operar para dividir o sinal de entrada (X) em uma sequência de amostras a fim de melhorar o sinal de entrada (X) para produzir um sinal de saída (Y) em uma linha de sinal de saída 105. Dados de cadeia lateral podem conter informação relacionada com o processamento do sinal de entrada (X) tal como, indicação de: o tipo de codec de áudio utilizado, o fabricante do codec, a taxa de bits, codificação estéreo vs codificação joint estéreo, a taxa de amostragem, o número de canais de entrada originais, o tamanho do bloco de codificação e um identificador música/faixa. Em outros exemplos, qualquer outra informação relacionada com o sinal de áudio (X) ou o processo de codifi- cação/decodificação pode ser incluída como parte dos dados de cadeia lateral. Os dados de cadeia lateral podem ser providos para o Sis-tema Potencializador de sinal 110 a partir do decodificador de áudio perceptual 103 em uma linha de dados de cadeia lateral 106. Como alternativa, ou, além disso, os dados de cadeia lateral podem ser incluídos como parte do sinal de entrada (X).
[00032] Figura 2 é um diagrama de bloco de um exemplo do Sistema Potencializador de Sinal 110 usado em conjunto com um codificador e decodificador de áudio perceptual. Neste caso, o decodificador de áudio perceptual 103 pode ser incorporado como parte do Sistema Potencializador de sinal 110. Como resultado, o Sistema Potencializa- dor de sinal 110 pode operar diretamente sobre o fluxo de bits de áudio comprimido (Q) recebido na linha de fluxo de bits comprimido 102. Alternativamente, em outros exemplos, o Sistema Potencializador de sinal 110 pode ser incluído no decodificador de áudio perceptual 103. Nesta configuração, o sistema Potencializador de sinal 110 pode ter acesso aos detalhes de fluxo de bits de áudio comprimido (Q) 102.
[00033] Figura 3 é um diagrama de blocos de um exemplo do Sistema Potencializador de sinal 110. Na figura 3, o sistema Potencializador de sinal 110 inclui um Módulo de Tratamento de Sinal 300 que pode receber o sinal de entrada (X) na linha de sinal de entrada 104. Os Módulos de Tratamento de Sinal 300 pode produzir um número de trata-mentos de sinal individuais e únicos (ST1, ST2, ST3, ST4, ST5, ST6 e ST7) nas linhas de tratamento de sinal correspondentes 310. Embora sete tratamentos de sinal sejam ilustrados, menos ou mais números (n) de tratamentos de sinal são possíveis em outros exemplos. Os níveis de energia relativos de cada um dos tratamentos sinal (STn) podem ser individualmente ajustados pelos ganhos de tratamento (g1, g2, g3, g4, g5, g6 e g7) 315 antes sendo adicionados juntos em um primeiro bloco de resumo 321 para produzir um tratamento de sinal total (STT) 323. O nível de tratamento de sinal total (STT) 323 pode ser ajustado pelo ganho de tratamento total (gT) 320 antes de ser adicionado ao sinal de entrada (X) 104 em um segundo bloco somador 322.
[00034] O Módulo de Tratamento de Sinal 300 pode incluir um ou mais módulos de tratamento 301, 302, 303, 304, 305, 306 e 307, os quais operam em componentes de amostra individual de amostras sequenciais do sinal de entrada (X) para produzir os tratamentos de sinal 310 sequencialmente em uma base de amostra-por-amostra para cada um dos respectivos componentes. O componente de amostra individual das amostras sequenciais pode dizer respeito a características diferentes do sinal de áudio. Como alternativa, ou, além disso, o Módulo de tratamento de sinal 300 pode incluir menos módulos de tratamento ou adicionais 300. Os módulos ilustrados podem ser independentes, ou podem ser submódulos que se formam em qualquer uma das várias combinações para criar módulos.
[00035] Figura 4 é um exemplo do Sistema Potencializador de Sinal 110 operando nos componentes Mid-Side do sinal de entrada (X), tais como extraídos por um módulo de componente Mid-Side 400. O termo "Mid-Side" refere-se à informação de áudio em um sinal de áudio estéreo no qual as informações de áudio que são comuns a ambos um canal estéreo esquerdo e direito são consideradas componentes de sinal "Mid" da informação áudio e os componentes do sinal "Side" da informação de áudio são informações de áudio que são diferentes entre os canais estéreos esquerdos e direitos. Codecs de áudio perceptuais pode operar sobre os componentes Mid-Side de um sinal de áudio para melhorar desempenho dos codecs de áudio perceptuais. Nesta situação, o codificador pode descartar mais do componente de sinal Lateral, mantendo mais do componente de sinal Médio. Como tal, nesta situação, otimização de operação do sistema Potencializador de sinal 110 pode ser melhorada se o sistema Potencializador de sinal 110 opera sobre os componentes de sinal Mid-Side de um sinal de entrada estéreo (X), em vez de diretamente nos canais esquerdo e direito do sinal estéreo.
[00036] Na figura 4 um estéreo a módulo Mid-Side 400 pode converter o sinal de entrada estéreo X para uma configuração de sinal Mid-Side Xms, o qual por sua vez pode ser provido para o sistema Po- tencializador de sinal 110 para processamento de uma linha de sinal Mid-Side 401. O sistema Potencializador de Sinal 110 pode operar no sinal Mid-Side Xms para produzir um sinal Mid-Side Potencializado (Yms). O sinal Mid-Side Potencializado (Yms) pode ser fornecido para um Mid-Side para módulo estéreo 403 sobre uma linha de sinal MidSide potencializada 402. O módulo deMid-Side para estéreo 403 pode converter o sinal de Mid-Side Potencializado (Yms) para um sinal de saída estéreo (canais esquerdo e direito) (Y) fornecido na linha de saída 105.
[00037] Figura 5 é um exemplo de um conjunto de "n" sistemas Po- tencializadores de Sinal 110 operando em um conjunto de "n" fluxos de parcelas espaciais (XSS1, XSS2, XSS3,..., XSSn) em uma linha de fluxo de parcela espacial 501, a qual pode ser derivada de um módulo de decomposição de parcela espacial 500. O módulo de decomposição de parcela espacial 500 pode receber um sinal de entrada de áudio estéreo ou multicanal (X) na linha de sinal de entrada 104 e produzir um conjunto de fluxos de parcelas espaciais. Os fluxos de parcelas espaciais podem conter as saídas de um banco de filtros espacial o qual decompõe o sinal de entrada baseado na localização espacial das fontes de sinal de áudio dentro de um ambiente sonoro percebido estéreo ou multicanal. Um método possível para a decomposição de um sinal de entrada em parcelas espaciais para produzir fluxos de parcela espacial 501 é descrito em U.S. Pedido de Patente No. 12/897.709, intitulada "SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS", que é incorporado neste documento por referência em sua totalidade.
[00038] Na figura 5 cada um dos "n" Potencializadores de Sinal 110 produz um fluxo de saída potencializado (YSS1, YSS2, YSS3,..., YSSn) em uma linha de fluxo de saída potencializada 502. Os "n" fluxos de saída são combinados em um módulo de soma 503 para produzir o sinal de saída (Y) na linha de saída, 105. Desempenho melhorado do sistema pode ser obtido quando operando sistemas Potencia- lizadores de Sinal separados 110 em fluxos de parcela espaciais individuais, uma vez que cada sistema Potencializador de sinal 110 pode operar em componentes de amostra mais isolados do sinal de entrada de áudio 104 e, portanto, podem ser melhor capazes de derivar tratamentos de sinal adequados (ST1, ST2, ST3, ST4, ST5, ST6 e ST7) para cada fluxo de parcela espaciais (XSSn). Qualquer número de tratamentos de sinal diferentes (ST1, ST2, ST3, ST4, ST5, ST6 e ST7) pode ser derivado independentemente para componentes de amostra diferentes incluídos nas amostras de cada um dos fluxos de parcelas espaciais respectivos (XSSn).
[00039] Na figura 3, o Módulo de Tratamento de Sinal 300 pode incluir um ou mais módulos de tratamento (301, 302, 303, 304, 305, 306 e 307) para derivar Tratamentos de Sinal (ST1, ST2, ST3, ST4, ST5, ST6 e ST7) para componentes de amostra individual de respectivas amostras sequenciais de um sinal de áudio ou um fluxo de parcela espacial produzido a partir de um sinal de áudio. Cada um dos módulos de tratamento (301, 302, 303, 304, 305, 306 e 307) pode derivar tratamentos de sinal (ST1, ST2, ST3, ST4, ST5, ST6 e ST7) para diferentes características relacionadas com o sinal de áudio ou fluxo espacial. Exemplos de características do sinal de áudio incluem alinhamento de fase de harmônica, largura de banda, transientes, expansão, reverberação, mascaramento e harmônicos. Em outros exemplos, tratamentos de sinal podem ser derivados para características adicionais ou menos relacionadas com um sinal de áudio. Tratamentos de sinal podem ser derivados para peças faltando do sinal de áudio que correspondem à característica do módulo de tratamento respectivo. Nesse sentido, os tratamentos de sinal podem efetivamente fornecer porções de substituição de várias características diferentes do sinal de áudio que são identificadas como componentes de amostra individual faltando em uma série de amostras. Assim, alguns dos componentes de amostra em uma série onde identifica-se partes perdidas de uma característica respectiva são podem ter tratamentos de sinal aplicados, enquanto outros componentes da amostra na sequência onde identifica-se que não há partes faltando da característica respectiva podem não ter nenhum tratamento de sinal aplicado.
[00040] No que se refere à característica de largura de banda ser a parte que falta de um sinal de áudio, alguns codecs de áudio percep- tuais, incluindo aqueles operando em taxas de bits relativamente baixas, é que eles podem limitar a largura de banda de um sinal comprimido, descartando componentes do sinal acima de um limite predeterminado. Por exemplo, um codec de áudio perceptual pode considerar todos os componentes de frequência acima de uma frequência pré- determinada, como acima de 12kHz, como sendo menos perceptivel- mente importantes e, portanto, descartá-las. O módulo de extensão de largura de banda 301 pode operar no sinal de entrada (X) para gerar componentes de sinal, ou tratamentos de sinal (ST1), acima de tal frequência de corte predeterminada (Fx). O módulo de extensão de largura de banda 301 pode analisar o sinal de entrada (X) para determinar a frequência de corte (Fx) do sinal de entrada, se houver. Conhecimento sobre a frequência de corte (Fx) pode ser usado para guiar a geração de um fluxo de tratamento de sinal (ST1) com novos componentes de sinal acima da frequência de corte predeterminada (Fx) para compensar a ausência desta característica nos componentes de amostra correspondentes do sinal de áudio.
[00041] Como alternativa, ou, além disso, nos casos onde informações de cadeia lateral 106 estão disponíveis a partir do decodificador de áudio perceptual 103, conforme mostrado na figura 1, a frequência de corte (Fx) pode ser provida para o módulo de extensão de largura de banda, 301. Em outros casos, onde o decodificador de áudio perceptual 103 e o sistema Potencializador de sinal 110 estão integrados, como no exemplo da figura 2, a frequência de corte (Fx) pode ser provida pelo decodificador de áudio perceptual 103 diretamente para o módulo de extensão de largura de banda 301
[00042] No que se refere à característica de harmônicas, estando uma parte de um sinal de áudio faltando ou perdida, alguns codecs de áudio perceptuais, incluindo aqueles que operam em taxas de bits relativamente baixas, pode descartar certas "harmônicas médias" dentro do sinal comprimido em um determinado ponto no tempo dentro do sinal. Por exemplo, em algum momento, um codec de áudio perceptual pode reter o componente de frequência fundamental de uma determinada fonte de som juntamente com várias harmônicas de ordem inferior. O codec de áudio perceptual também pode preservar algumas ou todas as harmônicas de ordem mais elevadas do sinal, ao descartar um ou mais dos harmônicos médios da fonte de som. O módulo pre- enchedor de harmônica de integração de banda 302 pode analisar o sinal de entrada (X) 104 para procurar eventos onde o codec de áudio perceptual descartou uma ou mais características de harmônicos médios do sinal de áudio. O módulo de preenchimento de harmônica de integração de banda 302 pode operar para gerar um fluxo de tratamento de sinal (ST2) com novos harmônicos médios para aplicar ao sinal de áudio em resposta a essa característica que falta nos componentes de amostra do sinal de áudio.
[00043] No que se refere à característica de transientes sendo uma parte que falta de um sinal de áudio, alguns codecs de áudio percep- tuais, incluindo aqueles operando em taxas de bits relativamente baixas, podem causar uma "mancha" de sinais transientes. Este tipo de artefato de codificação pode ser descrito como "pre-eco" e pode ser ouvido mais facilmente quando o sinal transiente tem um ataque afiado e é relativamente alto em relação aos outros componentes de sinal no momento do evento transiente. Pre-eco tende a causar um embota-mento percebido dos componentes de sinal transiente. O módulo de Potencialização Transiente 303 pode procurar identificar esta característica como faltando de amostras de componentes do sinal de áudio e derivar de um tratamento de sinal para restaurar o ataque acentuado de percepção dos componentes de sinal transiente. O módulo de Po- tencializador de Transiente 303 pode analisar o sinal de entrada (X) e pode identificar eventos transientes e componentes de sinal transiente para identificar a característica faltando. O módulo de Potencializador de Transiente 303 pode operar para gerar um fluxo de tratamento de sinal (ST3), contendo novos componentes de sinal transiente para aplicação ao sinal de áudio a fim de potencializar a percepção das la- tências de componentes de sinal transiente existentes.
[00044] Um método de exemplo para detectar transientes em um sinal de áudio pode incluir as seguintes atividades. As magnitudes dos bins FFT para o bloqueio de corrente de amostras de sinal de entrada de domínio de tempo são calculadas e são armazenadas em um tampão de histórico. As magnitudes do conjunto atual de bins FFT são comparadas com as magnitudes de um conjunto anterior de bins FFT em uma base bin-por-bin, onde o conjunto atual e o conjunto passado representam uma série de componentes de amostra de uma série respectiva de amostras. As magnitudes do conjunto anterior de bins FFT foram anteriormente armazenadas no buffer de histórico e são recuperadas para comparação. O número de bins para o qual a magnitude do bin FFT atual excede a magnitude do bin FFT anterior por um limite predeterminado, como um limite de Magnitude, é contada. Se a contagem excede um determinado limite de contagem, então é determinado que o bloco atual de amostras de tempo-domínio contém um evento transiente. Um valor pré-determinado, como 20dB, pode ser adequado para o Limite de Magnitude para a detecção de transientes. Os bins FFT anteriores podem ser tomados de um ou dois blocos anteriores ao bloco atual de amostras. Ou seja, o buffer de história pode representar um atraso de um ou dois blocos de processamento em processamento sequencial dos componentes de amostra de uma amostra.
[00045] No que se refere à característica de expansão, sendo uma parte faltando ou perdida de um sinal de áudio, alguns codecs de áudio perceptuais, incluindo aqueles operando em taxas de bits relativamente baixas, podem causar um estreitamento percebido do ambiente de som estéreo percebido por um ouvinte quando o sinal de áudio é produzido como um som audível. Ou seja, sons os quais são percebidos por serem localizados à extrema esquerda ou direita no sinal de áudio não comprimido original podem ser atenuados em relação a ou-tros sons durante o processo de compressão. Como resultado, o sinal de áudio resultante pode ser percebido como mais "monofônico" e menos "estereofônico". O módulo de potencialização de ambiente de som 304 pode identificar partes faltando ou perdidas do sinal de áudio relacionado com esta característica em uma série de componentes da amostra e amplificar componentes de sinal os quais são percebidos como sendo localizados na extrema esquerda ou direita no sinal de entrada (X) como tratamentos de sinal gerado. Por exemplo, o módulo de Potencialização de Ambiente de som 304 pode operar para extrair componentes de sinal de extrema esquerda ou direita e gerar um fluxo de tratamento de sinal (ST4) que contém versões amplificadas desses componentes do sinal. Um método possível para a extração de componentes de sinal esquerda ou de extrema direita é descrito US Pedido de Patente No. 12/897.709, intitulada "SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS", que é incorporado neste documento por referência em sua totalidade.
[00046] No que se refere à característica de reverberação, sendo uma parte faltando ou perdida de um sinal de áudio, alguns codecs de áudio perceptuais, incluindo aqueles operando em taxas de bits relativamente baixas, é que eles podem causar uma redução percebida nas características de "ambiente" ou "reverberação" no sinal de áudio. Esta redução de característica de reverberação pode resultar em uma percepção de "embotamento" do som geral, bem como uma perda percebida de detalhe no som devido a parte perdida do sinal de áudio. A redução da reverberação também pode reduzir a percepção de tamanho e largura do campo de som geral. O módulo de preenchimento de Re- verbe 305 pode operar para decompor o sinal de entrada (X) em componentes de sinal seco e reverberante. O módulo de preenchimento de Reverbe 305, então, pode operar para identificar a parte faltando do sinal de áudio em um componente de amostra correspondente, aumentar o nível de percepção da reverberação no componente de amostra e gerar um fluxo de tratamento de sinal (ST5) que pode conter componentes novos de sinal reverberante e pode conter componentes de sinal reverberante amplificado para aplicação somente àqueles componentes de amostra de uma sequência de amostras na qual a parte do sinal de áudio está determinada a estar faltando.
[00047] Um método possível para decompor o sinal de entrada (X) em componentes de sinal seco e reverberantes é descrito em US n° 8.180.067, intitulada "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL e US n° 8036767 ""SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL,", ambos os quais são incorporadas neste documento por referência em sua totalidade.
[00048] No que se refere à característica de sinais de máscara sendo uma parte faltante ou perdida de um sinal de áudio, alguns codecs de áudio perceptuais, incluindo aqueles operando em taxas de bits relativamente baixas, podem causar uma redução percebida na clareza dos detalhes de baixo nível no sinal. Isto pode ser causado pelo codec de áudio perceptual quando descarta componentes de sinal os quais, de acordo com, por exemplo, um modelo perceptual, são percebidos como sendo inaudíveis para a maioria dos ouvintes. Normalmente o modelo perceptual identificará certos primeiros componentes de sinal como inaudíveis se houver outros componentes de sinal dominante que possam mascarar os primeiros componentes de sinal. Ou seja, devido às propriedades de mascaramento do sistema auditivo humano, os componentes de sinal dominante podem (mascarar) fazer com que os primeiros componentes de sinal sejam inaudíveis. No entanto, propriedades de mascaramento de cada ouvinte são um pouco diferentes e o modelo perceptual no codec de áudio perceptual só pode se aproximar das propriedades de mascaramento de um ouvinte. Como resultado, o codec de áudio perceptual pode descartar determinados componentes de sinal os quais são audíveis para alguns ouvintes.
[00049] O Módulo de Preenchimento de Sinal Mascarado 306 pode operar para identificar as partes que faltam dos componentes de amostra correspondentes de um sinal de áudio e amplificar os componentes de sinal de baixo nível para que eles estejam apenas no limiar de serem mascarados. O módulo de preenchimento de sinal mascarado 306 pode receber o sinal de entrada (X) e aplicar um modelo perceptual para determinar o "limiar de mascaramento simultâneo" para cada frequência. O limiar de mascaramento simultâneo indica o nível no qual o modelo perceptual determina que o componente de sinal com uma certa frequência é mascarado pelos componentes de sinal em outras frequências. Por exemplo, um componente de sinal a 1100 Hz pode ser inaudível se há um componente de sinal suficientemente alto a 1000 Hz. Neste exemplo, o limiar de mascaramento simultâneo indica o nível no qual componentes de sinal em outras frequências (tais como a 1100 Hz) serão mascarados pelo componente de sinal a 1000 Hz. Portanto, se o nível do componente de sinal a 1100 Hz cai abaixo do limiar de mascaramento simultâneo, então o modelo perceptual determina que este componente de sinal será mascarado (inaudível).
[00050] Continuando com este exemplo, se o módulo de preenchimento de sinal mascarado 306 determina que o componente de sinal a 1100 Hz cai abaixo do limiar de mascaramento simultâneo e, assim, identifica partes perdidas dos componentes de amostra correspondentes do sinal de áudio, o módulo de preenchimento de sinal mascarado 306 pode gerar um fluxo de tratamento de sinal (ST6) que pode conter uma versão ampliada do componente de sinal a 1100 Hz, tal que o componente de sinal a 1100 Hz atinge o limite de mascaramento simultâneo. Da mesma forma, o módulo de preenchimento de sinal mascarado 306 pode executar esta operação para componentes de sinal em todas as frequências para identificar partes faltando dos componentes de amostra correspondente, tal que pode gerar um fluxo de tratamento de sinal (ST6) contendo componentes de sinal amplificados em várias frequências para que os componentes de sinal em todas as frequências possam atingir o limiar de mascaramento simultâneo.
[00051] Um exemplo de um modelo perceptual para a determinação do limiar de mascaramento simultânea é descrito em US n° 8.180.067, intitulada "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL e US n° 8036767 ""SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL,", ambos os quais são incorporadas neste documento por referência em sua totalidade. Em geral, o modelo perceptual pode executar suavização com base em pelo menos uma dentre estimativas de mascaramento auditivo com base em tempo e estimativa de mascaramento auditivo baseada em frequência durante a geração de amostras de componentes ao longo do tempo (tal como ao longo de um número de instantâneos de uma amostra de componente para uma série de amostras).
[00052] As fases dos componentes fundamentais e harmônicos de um sinal harmonicamente rico podem tender a acompanhar umas às outras ao longo do tempo. Ou seja, os componentes fundamentais e harmônicos de um sinal harmonicamente ricos podem tender a serem alinhados de alguma forma. No que se refere às características de alinhamento de fase de harmônicos, estando uma parte faltando ou perdida de um sinal de áudio, alguns codecs de áudio perceptuais, inclu- indo aqueles operando em taxas de bits relativamente baixas, podem causar as fases dos harmônicos de uma determinada fonte sonora a perder o seu alinhamento em relação à fase. Esta perda de alinhamento de fase como parte faltando de componentes de amostra pode ocorrer em pelo menos os harmônicos de ordem superior de um sinal. Esta perda de alinhamento de fase pode ser percebida pelo ouvinte de maneiras diferentes. Um resultado comum de uma perda de alinhamento de fase é som de "zumbido" o qual é normalmente audível nas frequências mais altas. O módulo de alinhamento de fase harmônica 307 pode operar para forçar componentes de sinal harmonicamente relacionados a serem alinhados por fase ao longo do tempo. O módulo de alinhamento de fase harmônica 307 pode analisar o sinal de entrada (X) e procurar por componentes de sinal tonais (em oposição a componentes de sinal transientes ou semelhantes a ruído) e determinar se os componentes tonais são harmonicamente relacionados. Além disso, o módulo de alinhamento de fase harmônica 307 pode determinar se as fases de quaisquer componentes tonais harmonicamente relacionados são alinhadas ao longo do tempo. Onde as características dos componentes de amostra correspondentes são identificadas como parte faltante do sinal de áudio, ou seja, fase de alinhamento de componentes tonais harmonicamente relacionados, as fases de quaisquer harmônicos as quais não estão alinhadas podem ser ajustadas. O módulo de alinhamento de fase harmônica 307 pode gerar um fluxo de tratamento de sinal (ST7) que pode conter uma versão alinhada por fase destes componentes tonais desalinhados. Como alternativa, ou, além disso, o módulo de alinhamento de fase harmônica 307 pode prover alguma outra forma de alinhamento dos componentes tonais.
[00053] Se o sinal de entrada (X) 104 é estéreo ou multicanal, então ele pode ser decomposto em parcelas espaciais 501 antes de ser processado pelo Potencializador de sinal 110, conforme descrito com re- ferência a figura 5. Um sistema e método para a decomposição de um sinal em fatias espaciais é descrito em US Pedido de Patente No. 12/897.709, intitulada "SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS", que é incorporado neste documento por referência em sua totalidade. Decomposição do sinal de entrada em parcelas espaciais pode permitir uma aplicação mais precisa dos vários tratamentos (301, 302, 303, 304, 304, 305, 306, 307 e) aos componentes de sinal contidos em cada uma das parcelas espaciais (XSS1, XSS2, XSS3,..., XSSn) 501. Por exemplo, se um sinal transiente está localizado dentro de uma determinada parcela espacial, então o tratamento de potencialização transiente 303 pode apenas ser aplicado àquela parcela espacial, ao mesmo tempo em que não afeta os componentes de sinal não transientes em outras parcelas espaciais.
[00054] Uma vez que foram aplicados os tratamentos adequados a cada uma das parcelas espaciais, os fluxos de saída potencializados (YSS1, YSS2, YSS3,..., YSSn) 502 de cada uma das parcelas espaciais podem ser combinados em um módulo de soma 503 para produzir o sinal de saída composto (Y) na linha de saída 105.
[00055] Os vários tratamentos aplicados aos componentes de sinal em uma determinada parcela espacial podem variar ao longo do tempo como o conteúdo das mudanças de sinal de entrada (X). Usando o exemplo acima, o tratamento de Potencializador de Transiente 303 pode apenas ser aplicado a alguns dos componentes de amostra em uma determinada parcela espacial durante tempos quando um componente de sinal transiente foi detectado nessa parcela espacial.
[00056] Sinais de áudio, tais como música ou discurso, normalmente contêm alguma quantidade de reverberação. Essa reverberação pode ser devido à sala (por exemplo, uma sala de concertos) na qual o sinal de áudio foi gravado ou pode ser adicionada eletronicamente. A fonte da reverberação é referida como um sistema reverberante. As características da reverberação são determinadas pela resposta de impulso do sistema reverberante. A resposta de impulso do sistema reverberante pode ser dividida em um conjunto de blocos. O Estimador de resposta de Impulso 910 opera sobre o sinal de entrada para produzir uma estimativa perceptivelmente relevante da representação de domínio da frequência da resposta de impulso. Geralmente, o estima- dor de resposta de impulso pode operar no sinal de entrada para produzir uma estimativa baseada em blocos da resposta de impulso. A estimativa baseada em blocos da resposta de impulso consiste em uma pluralidade de estimativas de bloco as quais correspondem a estimativas de domínio de frequência da resposta de impulso.
[00057] Figura 6 é um exemplo de uma resposta de impulso. A primeira linha vertical representa um componente de som direto 602, enquanto as linhas restantes representam reflexões. A altura de cada uma das linhas indica a sua amplitude e sua localização no eixo tempo (t) indica a sua hora de chegada em um dispositivo de medição sonora, como um microfone. Conforme o tempo passa, o número de reflexões aumenta ao ponto onde já não é possível identificar reflexões individuais. Eventualmente, as reflexões evoluiriam para um sistema difuso exponencialmente decadente. Isto é normalmente referido como a cauda reverberante 604 da resposta de impulso.
[00058] As também chamadas reflexões iniciais 606 chegam logo após o componente de som direto 602 e têm um efeito de perceptual diferente do que a cauda reverberante. Estas reflexões iniciais proveem indícios perceptuais sobre o tamanho do espaço acústico e a dis-tância entre a fonte do sinal de áudio e o microfone. As primeiras reflexões 606 são igualmente importantes pelo fato de que podem prover maior clareza e inteligibilidade de um som. A cauda reverberante também provê indícios perceptuais sobre o espaço acústico.
[00059] Uma resposta de impulso também pode ser vista no domí- nio de frequência, calculando sua transformada de Fourier (ou alguma outra transformada), e, então, um sistema reverberante pode ser descrito completamente em termos de sua representação do domínio de frequência. H(a) A variável a indica frequência. A representação de Fourier da resposta de impulso provê uma resposta de magnitude e uma resposta de fase. De um modo geral, a resposta de magnitude provê informações sobre os níveis relativos dos componentes de fre-quência diferentes em resposta a impulso, enquanto a resposta de fase provê informações relacionadas com os aspectos temporais dos componentes de frequência.
[00060] Módulo de Preenchimento de Reverbe 305 pode produzir uma estimativa do domínio de frequência da estimativa da magnitude da energia reverberante no sinal de entrada. Esta estimativa da magnitude da energia reverberante é subtraída do sinal de entrada, provendo assim uma estimativa da magnitude do componente de sinal de áudio seco do sinal de entrada. A fase do sinal de entrada reverberante é usada para aproximar a fase de um sinal seco original. Como usados neste documento, os termos "sinal seco", "componente de sinal seco", "componente de sinal de áudio seco", ou "componente de sinal direto" referem-se a um sinal de áudio ou uma porção de um sinal de áudio que não tem quase nenhuma energia reverberante presente no sinal de áudio. Assim, o sinal seco original pode não ter quase nenhuma energia reverberante, uma vez que consiste quase inteiramente no impulso de som direto 602. Como usados neste documento, os termos "energia reverberante," "sinal de entrada reverberante", "componente reverberante", "componente de sinal reverberantes", "componente de reverberação", ou "componente de sinal de reverberação" referem-se às reflexões iniciais e à cauda reverberante de um sinal de áudio. Além disso, em relação a sinais de áudio, como usado neste documento, o termo "componente" ou "componentes" refere-se a um ou mais componentes.
[00061] Se a fase do sinal de entrada reverberante é usada para aproximar a fase de um sinal seco original usando a resposta de impulso inteira como um todo, então é provável que artefatos de domínio de tempo severos seriam audíveis no sinal processado. Portanto, o Módulo de Preenchimento de Reverbe 305 pode dividir a estimativa da resposta de impulso geral em blocos 608 e processamento pode ser executado em uma forma baseada em blocos. O comprimento pré- determinado dos blocos 608 pode ser curto o suficiente para que o ou-vido humano não perceba quaisquer artefatos de domínio do tempo, devido a erros na fase dos sinais de saída processados.
[00062] Dois fatores combinam-se para determinar a taxa na qual um sinal de entrada reverberante decompõe-se em uma determinada frequência. O primeiro fator é a taxa de decomposição da fonte de som seco (ou seja, não-reverberante) e o segundo é a taxa de decomposição do sistema reverberante. Enquanto a taxa de decomposição do sistema reverberante em uma determinada frequência reverberante é relativamente constante ao longo do tempo, a taxa de decomposição da fonte de som seco varia continuamente. A mais rápida taxa de decomposição que é possível para o sinal de entrada (X) ocorre quando a fonte de som seco pára em uma determinada frequência e a decomposição do sinal é devida inteiramente à decomposição do sistema re- verberante. No exemplo da figura 6, a fonte de som seco pode parar no momento das primeiras reflexões 606, por exemplo. A taxa de de-composição do sistema reverberante em uma determinada frequência pode ser determinada diretamente pela resposta de impulso do sistema reverberante com essa frequência. Portanto, o sinal de entrada (X) não deve se decompor a uma taxa mais rápida do que a taxa ditada pela resposta de impulso do sistema reverberante.
[00063] Figura 7 mostra uma visão mais detalhada do módulo de preenchimento de reverbe 305. O módulo de Preenchimento de Re- verbe 305 recebe o sinal de entrada (X) 104 e pode prover um tratamento de sinal 310 ST5 como uma saída. Um Estimador de Resposta de Impulso 710, um módulo de Detector de Pausa de Transmissão de Reverbe 711 e um Módulo de preenchimento de Pausa de Transmissão de Reverbe 712 e um Módulo Processador de Decomposição 713 podem ser incluídos no Módulo Preenchedor de Reverbe 305. Em outros exemplos, menor ou maior número de módulos pode ser descrito para realizar a funcionalidade discutida.
[00064] O Estimador de Resposta de Impulso 710 pode ser usado para derivar uma estimativa de resposta de impulso do sistema rever- berante do sinal de entrada (X). Um método possível para estimar a resposta de impulso de um sistema reverberante de um sinal de entrada (X) é descrito em U.S. n° 8.180.067, intitulada "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL e US n° 8036767 ""SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL,", ambos os quais são incorporadas neste documento por referência em sua totalidade.
[00065] Figura 8 é um exemplo de uma estimativa de um componente de reverberação de um sinal de áudio que pode ser estimado pelo módulo de preenchimento de Reverbe 305. O módulo de Processador de Decomposição 713 pode operar no sinal de entrada (X) para derivar um Componente de Reverbe de Entrada 802, que é um dos componentes de amostra, discutidos anteriormente, do sinal de entrada. O componente de Reverbe de entrada 802 pode consistir de uma estimativa do componente reverberante (reverberação) ou característica do sinal de entrada. Um método possível para derivar o Componente de Reverbe de Entrada 802 de um sinal de entrada (X) é descrito em US n° 8.180.067, intitulada "SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUT SIGNAL e US n° 8036767 ""SYSTEM FOR EXTRACTING AND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL,", ambos os quais são incorporadas neste documento por referência em sua totalidade. Uma Taxa de Decomposição Esperada 806 pode ser deter-minada diretamente para cada amostra sequencial da resposta de impulso pelo módulo de Processador de Decomposição 713. Na figura 8, o Componente de Reverbe de Entrada 802 é ilustrado como uma sequência de componentes da amostra em uma dada frequência ao longo de um período de tempo (t). Pode ser visto que o Componente de Reverbe de Entrada 802 cresce (aumenta) em alguns pontos no tempo e declina em outros pontos no tempo.
[00066] Referindo-se às Figura. 7 e 8, o Detector de Pausa de Transferência de Reverbe 711 pode comparar a taxa de decomposição do Componente de Reverbe de Entrada 802 com a Taxa de Decomposição Esperada 806 em pontos diferentes no tempo. O Detector de Pausa de Transferência de Reverbe 711 pode identificar nos componentes de amostra individuais uma ou mais pausas de transferência de Reverbe 804 como partes ausentes ou perdidas do sinal de áudio, em que o Componente de Reverbe de Entrada 802 cai abaixo da Taxa de Decomposição Esperada 806. O Módulo de Preenchimento de Pausa de Transferência de Reverbe 712 pode operar para produzir um tratamento de preenchimento de Reverbe, como um tratamento de sinal para compensar a energia perdida devido a Pausa de Transferência de Reverbe 804. Como ilustrado na figura 8, o tratamento de sinal só é aplicado àqueles componentes de amostra em que parte do sinal de áudio está ausente. Consequentemente, na medida em que uma sequência de componentes de amostra está sendo processada se-quencialmente, o tratamento de sinal pode ser aplicado seletivamente apenas àqueles componentes de amostra identificados como tendo partes ausentes ou perdidas do sinal de entrada.
[00067] Figura 9a é um exemplo de diagrama de bloco do módulo de Potencializador de Sinal 110 juntamente com um Módulo Controlador de Potencializador 900. O módulo controlador de potencializador 900 pode incluir um módulo ajustador de nível de tratamento 901, um módulo analisador de qualidade de sinal 902 e um módulo de exibição 906. Durante operação, o módulo de tratamento de sinal 300 pode prover indicadores de exigência de tratamento para o analisador de qualidade de sinal 902. Os indicadores de exigência de tratamento podem prover informações relevantes a partir de vários módulos de tratamento (301, 302, 303, 304, 305, 306 e 307) com relação à quantidade de tratamento de sinal que é exigido devido às partes ausentes identificadas do sinal de entrada (X).
[00068] Como um exemplo de um possível indicador de exigência de tratamento, o módulo de extensão de largura de banda 301 (figura 3) pode prover uma estimativa da frequência de corte (Fx) do sinal de entrada (X). A frequência de corte pode, por vezes, ser referida como um brick wall ou frequência brick wall devido à sua aparência em um gráfico do espectro de frequências. O brick wall pode indicar uma frequência de corte íngreme e abrupto introduzido por compressão, normalmente na região de 10-19kHz. Acima do ponto de frequência de corte não há, substancialmente, qualquer informação no sinal de entrada (X). Dependendo do tipo de compressão utilizada, ou diferenças na compressão utilizada, a frequência do brick wall pode variar por faixa ou mesmo desaparecer temporariamente durante uma faixa. Valores mais baixos para a frequência de corte podem sugerir que o codificador de áudio perceptivo 101 agiu mais agressivamente no sinal de áudio original (Z) 100 (figura 1), e, portanto, do sinal de entrada (X) pode estar faltando uma porção significativa da parte de frequência alta do sinal, resultando em qualidade percebida de maneira mais po- bre por um ouvinte se o sinal de áudio foi reproduzido. Como alternativa, ou em adição, o módulo de tratamento de extensão de largura de banda 301 pode prover uma estimativa da razão da energia faltante do sinal acima da frequência de corte que foi descartada pelo Codificador de Áudio Perceptual 101 versus a energia do sinal que foi retida. Valores maiores para esta proporção podem sugerir que uma porção mais significativa do sinal de áudio original (Z) 100 está faltante (foi descartada) e, portanto, o sinal de entrada (X) pode ter qualidade percebida mais pobre por um ouvinte se o sinal de áudio foi reproduzido.
[00069] Como outro exemplo, o módulo de preenchimento harmônico de integração de banda 302 (figura 3) pode prover uma indicação de com que frequência (de integração de banda) harmônicos médios foram descartadas e estão faltantes no sinal de áudio. Consequentemente, ou em adição, o módulo de preenchimento harmônico de integração de banda 302 pode prover uma estimativa da energia de harmônicas descartadas. Níveis maiores de energia harmônica de integração de banda faltantes (ou descartados) pode indicar que o sinal de entrada (X) tem qualidade percebida por um ouvinte mais pobre, se o sinal de áudio foi reproduzido.
[00070] Como outro exemplo, o módulo de Preenchimento de Re- verbe 305 pode prover uma medida da energia reverberante no sinal de entrada (X), bem como uma estimativa da energia reverberante perdida que foi descartada pelo codificador de áudio perceptivo 101. Níveis maiores de energia reverberante faltante podem indicar que o sinal de entrada (X) tem qualidade percebida mais pobre por um ouvinte, se o sinal de áudio foi reproduzido.
[00071] Como outro exemplo, o módulo de Expansão de Ambiente de som 304 (figura. 3) pode prover uma estimativa da quantidade de energia de lado (esquerda menos direita) ou energia de meio (esquerda mais direita) perdida ou faltante que foi descartada pelo Codificador de Áudio Perceptual 101. Como alternativa, ou em adição, o módulo de expansão de ambiente de som 304 pode prover uma medida da energia dos componentes de sinal de extrema esquerda ou direita em relação a energia total do sinal de entrada (X). Níveis mais baixos de energia de sinal de extrema esquerda ou direita podem indicar que partes estão faltando a partir do sinal de entrada 104 resultando em qualidade percebida mais pobre por um ouvinte se o sinal de áudio foi reproduzido.
[00072] Como outro exemplo, o módulo de Potencializador de Transiente 303 pode prover uma indicação de partes faltantes do sinal de áudio ao indicar com que frequência transientes ocorrem no sinal de entrada (X) 104. Como outro exemplo, o módulo de Preenchimento de Sinal Mascarado 306 pode examinar o sinal de entrada (X) e prover uma indicação de com que frequência componentes de sinal que caíram abaixo do limiar de mascaramento simultâneo foram descartados e, portanto, estão faltantes no sinal de áudio. Se componentes de sinal são frequentemente faltantes (descartados), então isso pode indicar que o sinal de entrada (X) pode ter qualidade percebida mais pobre por um ouvinte se o sinal de áudio foi reproduzido.
[00073] Como outro exemplo, o módulo de alinhamento de fase de harmônica 307 (figura 3) pode examinar o sinal de entrada (X) e prover uma indicação de com que frequência componentes de sinal harmoni- camente relacionados não são alinhados por fase. De maneira alternativa, ou em adição, o módulo de alinhamento de fase de harmônica 307 pode prover uma medida da energia dos componentes harmônicos que não são alinhados por fase. Níveis maiores de componentes harmônicos que não estão alinhados por fase podem sugerir que partes do sinal de entrada (X) 104 estão perdidas, que podem ter qualidade mais pobre percebida por um ouvinte se o sinal de áudio foi reproduzido.
[00074] O Analisador de Qualidade de Sinal 902 pode receber os indicadores de exigência de tratamento e derivar indicadores de qualidade de sinal. De maneira alternativa, ou em adição, o Analisador de Qualidade de Sinal 902 pode receber metadados de uma memória intermediária de metadados 905. Os metadados podem prover uma indicação direta da qualidade percebida do sinal de entrada (X). Os metadados incluídos na memória intermediária de metadados 905 podem ser providos pelo Decodificador de Áudio Perceptual 103, o sinal de áudio ou alguma outra fonte. De maneira alternativa, os metadados podem ser providos diretamente para o Analisador de Qualidade de Sinal 902 e a memória intermediária de metadados 905 pode ser omitida. Os metadados podem prover informação com relação às origem e características do sinal de entrada incluindo, mas não limitado a, frequência de corte (Fx), o comprimento do bloco de processamento atual usado pelo Codificador de Áudio Perceptual 101, a taxa de bits do sinal de entrada (X), e/ou a taxa de amostragem do sinal de entrada (X).
[00075] Usando um ou mais dos Indicadores de Exigência de Tratamento recebidos e/ou metadados, o Analisador de Qualidade de Sinal 902 pode derivar uma estimativa da qualidade geral percebida do sinal de entrada (X). De maneira alternativa, ou em adição, o analisador de qualidade de sinal 902 pode derivar estimativas da qualidade percebida do sinal de entrada em relação aos tratamentos de sinal individuais.
[00076] Os níveis de energia relativos dos Tratamentos de Sinal 310 que o modulo de potencializador de sinal 110 aplica ao sinal de entrada (X) podem ser variados dependendo da qualidade relativa do sinal de entrada e/ou os componentes da amostra do sinal de entrada. Por exemplo, em situações em que a qualidade do sinal de entrada (X) é relativamente boa, então, os níveis de energia relativos aos trata- mentos de sinal 310 podem ser reduzidos. De maneira similar, em situações em que a qualidade do sinal de entrada (X) é relativamente pobre, então os níveis de energia relativos aos tratamentos de sinal 310 podem ser aumentados de maneira correspondente. O ajustador de nível de tratamento 901 pode, independentemente, alterar os níveis de energia relativos dos tratamentos de sinal 310 ao aumentar ou diminuir um ou mais dos ganhos de tratamento (g1, g2, g3, g4, g5, g6 e g7) 315. De maneira alternativa, ou em adição, o ajustador de nível de tratamento 901 pode alterar o nível de energia relativo total dos tratamentos de sinal 310 ao aumentar ou diminuir o ganho de tratamento total (gT) 320.
[00077] O ajustador de nível de tratamento 901 pode receber como parâmetros um ou mais indicadores de qualidade de sinal a partir do analisador de qualidade de sinal 902. O ajustador de nível de tratamento 901 pode usar um ou mais dos indicadores de qualidade de sinal 903 disponíveis para, independentemente, determinar os valores apropriados para cada um dos ganhos individuais de tratamento (g1, g2, g3, g4, g5, g6 e g7) 315, bem como o valor apropriado para o ganho de tratamento total (gT) 320. De maneira alternativa, ou em adição, o analisador de qualidade de sinal 1002 pode usar metadados que podem prover uma indicação direta da qualidade percebida do sinal de entrada (X) para determinar os valores apropriados para cada um dos ganhos individuais de tratamento (g1, g2, g3, g4, g5, g6 e g7) 315, bem como o valor apropriado para o ganho de tratamento total (gT) 320. Desta forma, os níveis dos vários tratamentos de sinal 310 podem ser ajustados automaticamente para corresponder às exigências do sinal de entrada (X).
[00078] Em alguns casos, os metadados sobre o sinal de entrada (X) podem estar indisponíveis. Assim, o Analisador de qualidade do sinal 902 pode utilizar um algoritmo de detecção de compressão e tra- tamento que reajusta automaticamente os níveis de tratamento por fluxo ou por faixa. O algoritmo de tratamento pode incluir um Detector de Lacunas 907, uma trava 908 e um autotemporizador 909. O Detector de Lacunas 907 pode ser configurado para identificar lacunas de silêncio entre as faixas, bem como o início de novas faixas ou sinais de áudio. A Trava 908 pode ser configurada para travar seletivamente os ganhos individuais de tratamento (g1, g2, g3, g4, g5, g6 e g7) 315 e o ganho total do tratamento (gT) 320, se forem satisfeitas determinadas condições. Quando uma faixa é identificada como sendo "comprimida", os níveis dos vários tratamentos de sinal 310 são fixados (isto é, travados) e permanecem dentro de um intervalo estreito até a próxima faixa. Isto impede som com bombeamento ou variável. Se o Detector de Lacunas 907 detecta uma lacuna (por exemplo, silêncio ou mudança de faixa), o Analisador de Qualidade do Sinal 902 irá redefinir a Trava 908 e definir os níveis dos vários Tratamentos de Sinal 310 para nenhum. Quando áudio recomeça dentro do sinal de entrada (X), o mecanismo de detecção de compressão irá novamente procurar compressão (brick wall).
[00079] O Autotemporizador 909 pode ser configurado para rearmar quando um novo fluxo ou faixa é detectado pelo Detector de Lacuna 907 e realiza uma contagem regressiva por uma quantidade predeterminada de tempo no início do áudio, durante a qual os ganhos de tratamento podem ser ajustados. Por conseguinte, a Autotemporizador 909 pode ser configurado para evitar mudanças audíveis em um nível de tratamento aplicado no meio de um fluxo de áudio ou faixa. Em alguns exemplos, quando nenhuma compressão é detectada dentro de um período de tempo predeterminado (por exemplo, 5 segundos), os níveis dos vários tratamentos de sinal 310 podem permanecer em zero até que a lacuna seguinte seja detectada. Isto evita alteração espectral inesperada no meio de uma faixa devido ao aparecimento súbito de altas frequências.
[00080] O módulo de Ajustador de Nível de Tratamento 901 também pode considerar outros parâmetros ao determinar os ganhos de tratamento individual e o ganho de tratamento total. Assim, por exemplo, alguns dos ganhos de tratamento individual podem ser diminuídos e alguns outros dos ganhos de tratamento individual podem ser aumentados pelo módulo de Ajustador de Nível de tratamento 901 com base nos parâmetros. Tais parâmetros podem incluir metadados do sinal de entrada, tais como um gênero do sinal de áudio a ser produzido, tal que, por exemplo, para um gênero de música de rock o ganho de nível de tratamento de transiente pode ser aumentado para enfatizar a bateria e, para o gênero de música clássica, o ganho de nível de tratamento de reverberação pode ser aumentado para enfatizar o efeito de salão de música. Em outro exemplo, os ganhos de tratamento podem ser ajustados quando o sinal de entrada é fala versus música. Qualquer número de ganhos de nível de tratamento e parâmetros pode ser usado em outros exemplos. Os ajustes de ganho pelo módulo de ajustador de nível de tratamento 901 também pode ser baseado em regras, tal como quando há tratamento da característica de reverberação acima de um limiar predeterminado, ganho para a característica de Potencializador de Transiente pode ser reduzido de maneira correspondente com base, por exemplo, em uma proporção. Ajustes de usuário também podem ser aplicados ao módulo de Ajustador de Nível de Tratamento 901 para efetuar a quantidade de ganhos de tratamento que são seletivamente aplicados sob certas condições ou modos de operação.
[00081] Figura 9B é um diagrama de bloco exemplar de um processo de detecção de um algoritmo de compressão e tratamento que reajusta automaticamente a quantidade de ganho de tratamento por corrente ou por pista. O processo 950 pode ser realizado, por exemplo, pelo Analisador de Qualidade de Sinal 902 do módulo de Potencializa- dor de Sinal 110 do Módulo Controlador de Potencializador 900. O processo 950 pode ser usado para permitir que o Analisador de Qualidade do sinal 902 defina automaticamente os ganhos individuais de tratamento (g1, g2, g3, g4, g5, g6 e g7) 315 e o ganho de tratamento total (GT) 320 a níveis adequados para o grau de compressão do sinal de entrada (X), mesmo se nenhuma informação de metadados sobre a qualidade do sinal de entrada (X) estiver disponível. Em um exemplo, para realizar a detecção de compressão, o Analisador de Qualidade do Sinal 902 pode operar sobre bins de frequência depois de uma FFT de 512 ou 1024 pontos. Os exemplos abaixo pressupõem uma FFT de 1024 pontos e de taxa de amostragem de 44,1 kHz, mas deve notar-se que FFTs de outros pontos e taxas de amostragem podem ser utiliza-dos também.
[00082] Geralmente, o processo 950 pode provar uma ampla coleção de bins arbitrárias por parte da entrada FFT direta, de modo que a informação monitorada seja rápida e atualizada e pode comparar esta informação a um limiar de lacuna constante. Se a energia média é menor do que o limiar pré-determinado, o processo 950 pode determinar o sinal de entrada (X) para uma mudança de silêncio ou faixa. Caso contrário, o processo 950 prossegue, olhando para trás a partir da frequência de Nyquist na energia de bin para ver se há um aumento significativo de energia a uma frequência candidata. O processo 950 pode tentar localizar o topo da ascensão e usar esse ponto para várias medições. Acima deste ponto é considerado o Andar de Ruído e abaixo é o Piso de Sinal. O processo 950 pode executar várias ações de verificação da frequência de corte candidata para ver se esta se parece o suficiente como um brick wall, não há informações significativas acontecendo acima dela, e não é apenas um harmônico acaso aleatório ou um pico nas frequências altas. Se a frequência de corte candida- ta sobrevive a todos os testes, ela deve passar todos eles, pelo menos, um número predeterminado de quadros sem parar (por exemplo, 20 quadros consecutivos em um exemplo). Neste ponto, o tratamento do sinal de entrada (X) podem começar a se intensificar. O tratamento pode ser proporcional à frequência de corte, de tal modo que um ponto de corte mais baixo signifique que uma quantidade maior de tratamento é aplicada ao sinal de entrada (X). O nível de tratamento pode persistir até que a faixa termine (ou seja silenciada). A nova frequência de corte pode substituir uma frequência de corte previamente determinada sob várias condições, como se a nova frequência de corte é determinada para ser maior do que uma percentagem predeterminada diferente (por exemplo, pelo menos 5 por cento diferente) e com uma maior altura de brick wall. Essas condições podem, consequentemente, impedir artefatos indesejáveis de serem constantemente expostos a variados níveis de tratamento.
[00083] Mais especificamente, na operação 952 o Analisador de Qualidade do Sinal902 inicializa o algoritmo de detecção e tratamento de compressão. Por exemplo, Analisador de Qualidade do Sinal902 pode restabelecer a Trava 908, pode definir os ganhos de tratamento individual 315 e ganhos de tratamento totais 320 como zero e também pode redefinir o Auto temporizador 909. O Analisador de Qualidade do Sinal 902 pode ainda esperar por uma Moldura de áudio válido. Esta monitorização pode ser executada, por exemplo, olhando para o valor instantâneo de um conjunto de bins arbitrários nos 200 Hz - região 4 kHz do sinal de entrada (X). O Analisador de Qualidade de Sinal 902 pode confirmar que uma soma alisada destes bins excede um nível constante pré-determinado de energia para determinar que uma nova faixa ou fluxo começou. Se o áudio começou, o controle passa para a operação 954.
[00084] Na operação 954, o Analisador de Qualidade de sinal 902 incrementa o Autotemporizador 909. Em um exemplo, o autotempori- zador 909 pode especificar uma quantidade de tempo no início da faixa de áudio ou durante o qual ajustes automáticos para os ganhos de tratamento 315, 320 podem ser realizados. Quando o autotemporiza- dor 909 expirar, ajustes automáticos não podem mais realizados até a próxima lacuna detectada. O Analisador de Qualidade de Sinal 902 pode incrementar o Autotemporizador 909 (se habilitado) na operação 954 para cada quadro de áudio válido após a lacuna detectada.
[00085] Na operação 956, o Analisador de qualidade de Sinal 902 detecta uma frequência de corte candidata para o sinal de entrada (X). Em um exemplo, o Analisador de qualidade do Sinal faz varreduras de bins de frequência de 19 kHz a 8 kHz para localizar um aumento significativo na energia do sinal (por exemplo, pelo menos um aumento de 4x em energia no espaço de 1 bin de frequência FFT). Se um aumento na energia do sinal é encontrado, Analisador de Qualidade de Sinal 902 pode localizar ainda mais o bin em que a energia para de crescer (por exemplo, onde a energia para de crescer a uma taxa maior do que 10% por bin). Este bin onde a energia para de crescer pode ser referido como o binX candidato ou a frequência de corte.
[00086] Na operação 958, o Analisador de Qualidade de Sinal 902 determina se as frequências do sinal de entrada (X) acima da frequência de corte confirmam o corte. Em um exemplo usando um FFT 1024 pontos, o Analisador de Qualidade de Sinal 902 faz uma varredura dos bins frequência a partir de 11 bins acima da frequência de corte binX até 19 kHz para determinar se o nível de ruído mantém qualquer informação. Se o ruído de fundo contém informações, então isto pode indicar que o corte não é um brick wall induzido por compressão verdadeiro. Como um exemplo mais específico, se o ruído de fundo sobe mais do que 5% dentro de 2 bins consecutivos, o candidato a frequência de corte binX falha. Se o candidato passa, o controle passa para a operação 968 para continuar a avaliar a frequência brick wall candidata. Se o candidato falhar, o controle passa para a operação 960.
[00087] Na operação 960, o Analisador de Qualidade de Sinal 902 redefine o número de quadros correspondentes à frequência de corte candidata para nenhum. Na operação 962, o Analisador de Qualidade do Sinal 902 determina se o Autotemporizador 909 expirou e ajustes automáticos não podem mais ser realizados. Se o autotemporizador 909 não tiver expirado, controle passa para a operação 964, para processar um próximo quadro do sinal de entrada (X). Após a operação 964, o controle passa para a operação 954 para continuar a processar o áudio. Se o Autotemporizador 909 expirar, o controle passa para a operação 966 para esperar por uma lacuna que identifica a próxima faixa de áudio ou som. Detecção de lacuna pode ser realizada de forma semelhante à detecção de áudio acima descrita com respeito à operação 952, de tal modo que quando certos bins não excedem um nível constante pré-determinado de energia, o Analisador de Qualidade de Sinal 902 pode identificar uma lacuna. Quando a lacuna é detectada, o controle passa da operação 966 para a operação 952 para reiniciar o processo de determinação de nível automático de tratamento.
[00088] Na operação 968, o Analisador de Qualidade de Sinal 902 determina se as frequências do sinal de entrada (X) abaixo da frequência de corte confirmam o corte. Em um exemplo usando um ponto FFT 1024, o Analisador de Qualidade do Sinal 902 faz varreduras de bins de frequência a partir de Binx-1 até Binx-100 para localizar uma queda de energia de mais de cinco vezes. Se tal queda de energia es-tá localizada e encontrada, então o BinX candidato pode, provavelmente, ser apenas um ponto harmônico estreito e não um brick wall verdadeiro e o candidato falha. Se o candidato passa sem detecção da queda de energia abaixo da frequência candidata, o controle passa para a operação 970. Se o candidato falhar, o controle passa para a operação 960.
[00089] Na operação 970, o Analisador de Qualidade de Sinal 902 determina que o sinal de entrada (X) contém áudio válido. Isto pode ser realizado, por exemplo, para assegurar que a energia total do sinal está acima de um limiar pré-determinado suficiente para que a detecção de brick wall seja significativa. Em muitos exemplos, a detecção de energia suficiente pode ser semelhante ou idêntica à da determinação realizada na operação 952 para identificar áudio no sinal de entrada (X) indicativa de um fim de uma lacuna detectada. Se o sinal de entrada (X) passou no teste de validade, o controle passa para a operação 972. Caso contrário, o controle passa para a operação 960.
[00090] Na operação 972, o Analisador de Qualidade de Sinal 902 determina se a altura e grau de inclinação do brick wall candidato está acima de um limiar pré-determinado. Em um exemplo, o Analisador de Qualidade de Sinal 902 pode confirmar a inclinação, garantindo que o brick wall candidato tenha pelo menos 2,5 vezes mais energia do que o próximo bin. O Analisador de Qualidade de Sinal 902 pode confirmar altura, assegurando que o presente brick wall candidato é pelo menos tão alto como quaisquer brick walls candidatos confirmados anteriormente para a mesma faixa de áudio. Se a candidata passa, o controle passa para a operação 974. Se a candidata falha, o controle passa para a operação 960.
[00091] Na operação 974, o Analisador de Qualidade de Sinal 902 incrementa a contagem de quadros de correspondência. A contagem de quadros de correspondência pode, consequentemente, indicar o número de quadros que tenham cumprido com sucesso todos os critérios para o presente brick wall em BinX.
[00092] Na operação 976, o Analisador de Qualidade de Sinal 902 determina se a contagem de quadros de correspondência atingiu uma contagem limite predeterminada. Em um exemplo, a contagem de limi- ar predeterminado pode ser de 20 quadros consecutivos. Se a contagem de quadro de correspondência atingiu a contagem de limiar predeterminado, então o candidato pode ser considerado como correto e o controlo pode passar para a operação 978. Caso contrário, o controle passa para a operação 962.
[00093] Na operação 978, o Analisador de Qualidade do sinal 902 determina se a Trava 908 foi definida. A trava 908 pode ter sido previamente definida, por exemplo, por determinação de sucesso anterior de um brick wall candidato anterior. Se a trava 908 é definida, o controle passa para a operação 980. Se a Trava 908 já está definida, o controle passa para a operação 984.
[00094] Na operação 980, o Analisador de Qualidade de Sinal 902 define a Trava 908, e na operação 982, o Analisador de Qualidade de Sinal 902 define os ganhos de tratamento 315 e o ganho total de tratamento 320 de acordo com a frequência do BinX de brick wall. Em um exemplo, o nível de tratamento é uma percentagem com base na frequência brick wall (ou seja, em que uma frequência de corte inferior fornece um nível mais elevado de tratamento). Os ganhos de tratamento 315 podem definir de tal modo que o tratamento pode ser misturado com o fluxo de áudio original com uma força igual a esta percentagem e o ganho de tratamento total 320 para a saída combinada pode ser dimensionado em relação ao nível de tratamento; ou seja, os valores mais elevados do tratamento recebem mais dimensionamento do que os valores de tratamento mais baixos e áudio que não é compri-mido não é dimensionado. Assim, quando a Trava 908 é definida, os ganhos de tratamento 315, 320 são fixados em níveis determinados de acordo com a frequência brick wall. Após a operação 982, o controle passa para a operação 960 para continuar detecção de brick wall para o áudio.
[00095] Na operação 984, o Analisador de Qualidade de Sinal 902 determina se o brick wall candidato é de uma altura maior do que uma frequência de corte previamente estabelecida para a faixa ou também se o brick wall candidato está dentro de um limite predeterminado de frequência da frequência de corte previamente estabelecida. Em um exemplo, o processo 950 continua enquanto o autotemporizador 909 não tiver expirado, de forma que se um brick wall melhor for detectado antes de o autotemporizador 909 expirar, este brick wall melhor pode ser usado para travamento dos ganhos de tratamento 315, 320. Em um exemplo, o brick wall melhor pode ser necessário que tenha uma altura de brick wall maior do que a frequência de corte anterior e ser mais do que 5% diferente da frequência para suplantar a frequência de corte anterior.
[00096] O módulo de exibição 906 pode prover uma representação visual da qualidade do sinal de entrada (X), o sinal de saída (Y), bem como diferentes aspectos de desempenho e/ou operação do módulo de Potencializador de Sinal 110. Como mostrado na figura 9, um módulo de exibição 906 pode receber e exibir um ou mais dos tratamentos de sinal (ST1, ST2, ST3, ST4, ST5, ST6 e ST7) 310. Por exemplo, o módulo de exibição 906 pode exibir o tratamento de sinal ST1 devido ao módulo de extensão de largura de banda, 301. Neste caso, o módulo de exibição 906 pode produzir uma exibição visual de uma representação espectral dos novos componentes de sinal acima da frequência de corte (Fx) que foram gerados pelo módulo de extensão de largura de banda, 301. De maneira alternativa, ou em adição, um módulo de exibição 906 pode exibir uma representação de domínio de tempo ou espectral do sinal de saída (Y) que inclui todos os tratamentos de sinal aplicados 310. De maneira alternativa, ou em adição, o módulo de exibição 906 pode receber um ou mais indicadores de qualidade de sinal 902 do analisador de qualidade de sinal. O módulo de exibição 906, por sua vez, pode produzir uma representação visual da qualidade do sinal de entrada (X). O módulo de exibição 906 também pode produzir uma representação visual do nível geral dos tratamentos de sinal 310 sendo aplicados ao sinal de entrada (X). O módulo de exibição 906 também pode produzir uma representação visual da qualidade do sinal de saída (Y). Assim, um usuário que visualiza o exibidor pode ser provido de uma indicação visual da qualidade do sinal de entrada (X) e também a extensão ou nível ao qual os sinais de tratamento estão sendo aplicados.
[00097] Figura 10 é uma exibição de exemplo de um sinal de saída (Y) em que o tratamento de sinal de potencialização de largura de banda é indicado. Na figura 10, acima de uma frequência de corte de cerca de 12kHz, uma porção de um sinal de entrada (X) 1002foi des-cartada durante codificação prévia, como indicado pela porção do sinal de entrada (X) 1002 que está em uma faixa de -120 a -150 dB. O módulo de extensão de largura de banda 301 pode identificar partes do sinal de áudio que estão faltando ou perdidos e prover um tratamento de sinal 1004 sobre a mesma faixa de frequências. O tratamento de sinal 1004 pode ser aplicado à parte não tratada do sinal de entrada (X) 1002. Nesse sentido, um usuário pode ver um exibidor e ser provido com uma indicação não apenas de como seria a qualidade do sinal de saída não tratado, mas também o nível e a extensão do tratamento que foi fornecido pelo sistema de potencializador de sinal 110. Em outros exemplos, outras formas de exposições podem ser criadas para indicar qualquer um dos tratamentos sendo aplicados.
[00098] Figura 11a e 11b ilustram os resultados exemplares da operação do módulo de extensão de largura de banda 301. Figura 11a mostra uma vista espectral (domínio de frequência) de um bloco curto de um sinal de áudio antes e depois de ter sido comprimido por um codec de áudio perceptual. A curva do sinal original é mostrada, onde pode ser visto que energia de sinal significativo continua até a fre- quência de Nyquist. A curva de sinal de áudio comprimido mostra este mesmo sinal depois que foi comprimido por um codec de áudio perceptual. Na figura 11a, pode ser visto que, acima de uma certa frequência de corte (Fx), os componentes de sinal foram descartados e o que resta é simplesmente ruído de baixo nível.
[00099] Figura 11b mostra uma vista espectral de um exemplo de um bloco curto de um sinal de áudio comprimido antes e depois de ter sido processado pelo módulo de extensão de largura de banda 301. Aqui o sinal de áudio comprimido é ilustrado com os componentes de sinal acima da frequência de corte (Fx) descartados. A curva do mesmo sinal de áudio comprimido depois que tiver sido processado pelo módulo de extensão de largura de banda 301 está incluída na figura 11b. Pode ser visto que novos componentes de sinal foram gerados acima da frequência de corte (Fx). Esses novos componentes de sinal foram gerados com base em, e/ou usando pelo menos alguns dos componentes de sinal abaixo do corte (Fx).
[000100] As figuras. 12a e 12b ilustram operação de exemplo do módulo de Potencializador de Transiente 303. Figura 12a mostra uma vista de domínio de tempo de um componente de sinal transiente. O painel superior da figura 12a mostra o sinal original. Pode ser visto que o sinal de partida é quase silencioso e é seguido por um sinal transiente agudo, que declina ao longo do tempo. O painel inferior da figura 12a mostra um componente de sinal de transiente similar após ter sido comprimido por um codec de áudio perceptivo. Pode ser visto que o transiente não é mais definido de maneira aguda. Além disso, o sinal de áudio comprimido agora tem energia chegando antes do transiente atual. Este é um exemplo do chamado "pré-eco", que foi descrito anteriormente.
[000101] Figura 12b mostra uma vista de domínio de tempo de um componente de sinal de transiente exemplar antes e depois que foi processado pelo módulo de Potencializador de Transiente 303. O painel superior da figura 12b mostra um sinal de áudio comprimido que tem inúmeros transientes ao longo do tempo. Pode ser visto que os transientes não são muito pronunciados no sinal. O painel inferior da figura 12b mostra o mesmo sinal de transiente após de ter sido processada pelo módulo de Potencializador de Transiente 303, em que os aparecimentos de transientes individuais agora são definidos agudamente e facilmente visíveis.
[000102] Figura 13 é um sistema de computação exemplar 1300. O sistema de computador 1300 pode incluir um conjunto de instruções que podem ser executadas para fazer com que o sistema de computador 1300 execute qualquer um ou mais dos métodos ou funções com base em computador descritos. O sistema de computador 1300 pode operar como um dispositivo autônomo, pode ser parte de um outro dispositivo ou pode ser conectado, usando uma rede, a outros sistemas de computador ou dispositivos periféricos.
[000103] Em uma implantação em rede, o sistema de computador 1300 pode operar na capacidade de um servidor ou como um computador de usuário de cliente em um ambiente de rede de usuário de servidor-cliente, como um sistema de computador de par em um ambi-ente de rede par-a-par (ou distribuída), ou de várias outras formas. O sistema de computador 1300 também pode ser implementado ou incorporado em vários dispositivos, tal como um sistema de telemática, por exemplo, em um veículo. Em outros exemplos, qualquer outra má-quina capaz de executar um conjunto de instruções (sequenciais ou não) que especificam ações a serem tomadas por aquela máquina a ser usada. O sistema de computador 1300 pode ser implementado usando dispositivos eletrônicos que provêm comunicação de dados, vídeo, áudio ou voz. Uma vez que um sistema de computador único 1300 é ilustrado, o termo "sistema" pode incluir qualquer coleção de sistemas ou subsistemas que executem um conjunto, ou múltiplos conjuntos, individualmente ou em conjunto, de instruções para executar uma ou mais funções de computador.
[000104] O sistema de computador 1300 pode incluir um processador 1302, tal como uma unidade de processamento central (CPU), uma unidade de processamento de gráficos (GPU), um processador de sinal digital (DSP), ou alguma combinação de processadores diferentes ou iguais. O processador 1302 pode ser um componente em uma variedade de sistemas. Por exemplo, o processador 1302 pode ser parte de uma unidade principal ou o amplificador em um veículo. O processador 1302 pode ser um ou mais processadores gerais, processadores de sinal digital, circuitos integrados específicos de aplicação, matriz de portas de campo programáveis, circuitos digitais, circuitos analógicos, combinações dos mesmos, ou outros dispositivos desenvolvidos posteriormente ou conhecidos agora para analisar e processar dados. O processador 1302 pode implementar um programa de software, tal como o código gerado manualmente ou programado.
[000105] O processador 1302 pode operar e controlar pelo menos uma porção do sistema. O termo "módulo" pode ser definido para incluir um ou mais módulos executáveis. Os módulos podem incluir software, hardware, firmware ou alguma combinação executável dos mesmos por um processador, tal como o processador 1302. Módulos de software podem incluir instruções armazenadas na memória, como memória 1304, ou outro dispositivo de memória, que pode ser executável pelo processador 1302 ou outro processador. Módulos de hardware podem incluir vários dispositivos, componentes, circuitos, portas, placas de circuito e afins que sejam executáveis, direcionados ou controlados por desempenho pelo processador 1302.
[000106] O sistema de computador 1300 pode incluir uma memória 1304, como uma memória 1304 que pode se comunicar por meio de um barramento 1308. A memória 1304 pode ser uma memória principal, uma memória estática ou uma memória dinâmica. A memória 1304 pode incluir, mas não se limita a meio de armazenamento legível por computador, tal como vários tipos de meios de armazenamento volátil e não volátil, incluindo, mas não limitado a, memória de acesso aleatório, memória somente de leitura, memória somente leitura programável, memória somente leitura programável eletricamente, memória somente de leitura apagável eletricamente, memória flash, disco ou fita magnética, meio ótico e similares. Em um exemplo, a memória 1304 inclui uma memória de acesso aleatório ou cache para o proces-sador 1302. Nos exemplos alternativos, a memória 1304 pode ser separada do processador 1302, como uma memória cache de um processador, a memória de sistema ou outra memória. A memória 1304 pode incluir um dispositivo de armazenamento externo ou banco de dados para armazenar dados. Exemplos incluem um disco rígido, disco compacto ("CD"), disco de vídeo digital ("DVD"), cartão de memória, pen-drive, disquete, dispositivo de memória de barramento serial universal ("USB") ou qualquer outro dispositivo operacional para armazenar dados.
[000107] O sistema de computador 1300 pode ou não incluir adicionalmente uma unidade de exibição 1310, tal como um exibidor de cristal líquido (LCD), um diodo de emissão de luz orgânico (OLED), um exibi- dor de tela plana, um exibidor de estado sólido, um tubo de raios catódicos (CRT), um projetor, ou outros dispositivos de exibição agora conhecidos ou desenvolvidos posteriormente para saída de determinada informação. A exibição 1310 pode agir como uma interface para o usuário controlar o funcionamento do processador 1302, ou especificamente como uma interface com o software armazenado na memória 1304.
[000108] O sistema de computador 1300 pode incluir um dispositivo de entrada 1312 configurado para permitir que um usuário interaja com qualquer um dos componentes do sistema de computador. O dispositivo de entrada 1312 pode ser um microfone para receber comandos de voz, um teclado auxiliar, um teclado ou um dispositivo de controle de cursor, como um mouse ou um joystick, exibidor de toque de tela, controle remoto ou qualquer outro dispositivo operativo para interagir com o sistema de computador 1300. Um usuário do sistema pode, por exemplo, dar entrada em critérios ou condições a serem consideradas pelo sistema e/ou o sistema de telemática.
[000109] O sistema de computador 1300 pode incluir meio legível por computador que inclui instruções ou recebe e executa instruções res- ponsivas a um sinal propagado, de modo que um dispositivo conectado a uma rede 1326 possa comunicar voz, vídeo, áudio, imagens ou quaisquer outros dados sobre a rede 1326. As instruções podem ser transmitidas ou recebidas pela rede 1326, por meio de uma porta de comunicação ou interface 1320, ou usando um barramento 1308. A porta de comunicação ou interface 1320 pode ser uma parte do processador 1302 ou pode ser um componente separado. A porta de comunicação 1320 pode ser criada no software ou pode ser uma conexão física no hardware. A porta de comunicação 1320 pode ser configurada para se conectar a uma rede 1326, meio externo, o exibidor 1310 ou quaisquer outros componentes no sistema de computador 1300, ou combinações dos mesmos. A conexão com a rede 1326 pode ser uma conexão física, como uma conexão de Ethernet com fio ou pode ser estabelecida sem fio. As conexões adicionais com outros componentes do sistema de computador 1300 podem ser conexões físicas ou podem ser estabelecidas sem fio. A rede 1326 pode, de maneira alternativa, ser conectada diretamente ao barramento 1308.
[000110] A rede 1326 pode incluir redes cabeadas, redes sem fio, redes de Ethernet AVB ou combinações dos mesmos. A rede sem fio pode ser uma rede de telefone celular, uma rede 802.11, 802.16, 802.20, 802.1Q ou WiMax. Além disso, a rede 1326 pode ser uma rede pública, como a Internet, uma rede privada, como uma intranet, ou combinações das mesmas, e pode usar uma variedade de protocolos de rede disponíveis agora ou desenvolvidos posteriormente incluindo, mas não limitado a, protocolos de rede de base TCP/IP. Um ou mais componentes do sistema podem se comunicar entre si por ou através da rede 1326.
[000111] Embora modalidades exemplares sejam descritas acima, não se pretende que estas modalidades descrevam todas as formas possíveis da invenção. Em vez disso, as palavras utilizadas no relatório descritivo são palavras de descrição em vez de limitação, e entende-se que várias alterações podem ser feitas sem se afastar do espírito e escopo da invenção. Além disso, as características de várias modalidades de execução podem ser combinadas para formar outras modalidades da invenção.

Claims (31)

1. Sistema para tratamento de sinais de áudio comprimidos caracterizado pelo fato de que compreende: um processador (1302); um módulo de amostra executável pelo processador (1302) para dividir um sinal de áudio em uma série de amostras sequenciais; um módulo detector de qualidade de sinal executável pelo processador (1302) para identificar uma frequência brick wall consistente do sinal de áudio que abrange uma pluralidade das amostras sequenciais em um início do sinal de áudio e determinar uma indicação de tratamento de sinal proporcional à frequência brick wall; e um módulo potencializador de sinal (110) executável pelo processador (1302) para receber e analisar sequencialmente um ou mais componentes de amostra do sinal de áudio para identificar partes perdidas do sinal de áudio no um ou mais componentes de amostra das respectivas amostras sequenciais; e aplicar no sinal de áudio, em um nível de acordo com a indicação de tratamento de sinal, um tratamento de sinal correspondente para cada um dentre o um ou mais componentes de amostra das respectivas amostras sequenciais que possuem uma parte perdida identificada correspondente.
2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que as séries de amostras sequenciais incluem bins sequenciais em um domínio de frequência que são determinados usando uma Transformada Rápida de Fourier e em que o módulo de detector de qualidade de sinal é ainda executável para identificar a frequência brick wall consistente por meio da identificação de um dos bins sequenciais como um bin candidato incluindo a frequência brick wall.
3. Sistema, de acordo com a reivindicação 2, caracterizado pelo fato de que identificar a frequência brick wall consistente ainda inclui um ou mais dentre os seguintes: uma confirmação de que existe energia espectral abaixo da frequência brick wall; uma confirmação da altura da frequência brick wall acima de um limite predeterminado, além daquela de um próximo bin sequencial de maior frequência; e uma confirmação da inclinação de um corte da frequência brick wall acima de um limite pré-determinado, além daquela de um próximo bin sequencial de maior frequência.
4. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que a indicação de tratamento de sinal é ajustada para um dentre os seguintes: (i) ausência de tratamento de sinal quando a frequência brick wall não excede um limite mínimo de frequência; (ii) ausência de tratamento de sinal quando a frequência brick wall excede um limite máximo de frequência; e (iii) um nível de tratamento de sinal que diminui à medida que aumenta a frequência brick wall quando a frequência brick wall está entre o limite mínimo de frequência e o limite máximo de frequência.
5. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o módulo detector de qualidade de sinal é ainda executável para: definir a indicação de tratamento de sinal para não aplicar qualquer tratamento de sinal antes da detecção da frequência brick wall consistente do sinal de áudio; e travar a indicação de tratamento de sinal para aplicar o tratamento no sinal de áudio mediante identificação de um número prede- finido de amostras consecutivas indicativas da frequência brick wall consistente do sinal de áudio.
6. Sistema, de acordo com a reivindicação 5, caracterizado pelo fato de que o número consecutivo predefinido de amostras é vinte.
7. Sistema, de acordo com a reivindicação 5, caracterizado pelo fato de que o número predefinido de amostras consecutivas representa um período de tempo de entre cerca de um décimo de segundo a uma metade de um segundo do sinal de áudio.
8. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o módulo detector de qualidade de sinal é ainda executável para: reiniciar um autotemporizador em resposta à detecção do início do sinal de áudio; avaliar a pluralidade das amostras sequenciais para identificar a frequência brick wall consistente do sinal de áudio até que o au- totemporizador expire; e descontinuar avaliação da pluralidade das amostras sequenciais uma vez que o autotemporizador expire.
9. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o módulo detector de qualidade de sinal é ainda executável para reiniciar a indicação de tratamento de sinal mediante identificação de um período de intensidade de sinal de áudio abaixo de um limiar predeterminado por um período de tempo predeterminado.
10. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que um ou mais dos seguintes: os componentes de amostra são componentes de frequência e os tratamentos de sinal correspondentes são componentes de frequência aplicados a componentes de amostra com componentes de frequência faltando acima de um limite de frequência de corte; os componentes de amostra são componentes transientes e os tratamentos de sinal correspondentes são componentes transientes aplicados aos componentes de amostra com transientes faltando para potencializar o aparecimento de um transiente existente presente no sinal de áudio; e os componentes de amostra são componentes de reverberação e os tratamentos de sinal correspondentes são aplicados aos componentes de amostra com reverberação faltando para reduzir uma taxa de decomposição do sinal de áudio.
11. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o tratamento de sinal correspondente é uma pluralidade de tratamentos de sinal que compreendem um tratamento de extensão de largura de banda, um tratamento potencializador de transiente e um tratamento de preenchimento de reverberação.
12. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o módulo potencializador de sinal (110) inclui uma pluralidade de módulos potencializadores de sinal, e em que cada um dos módulos potencializadores de sinal é executado pelo processador (1302) para operar independentemente sobre uma parcela es-pacial de um estágio de som percebido por ouvinte para adicionar, pelo menos um tratamento de sinal, no estágio de som percebido por ouvinte durante a reprodução do sinal de áudio.
13. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o módulo potencializador de sinal (110) é configurado para gerar uma pluralidade de tratamentos de sinal correspondentes, os tratamentos de sinal correspondentes sendo adicionados no sinal de áudio.
14. Mídia caracterizada por conter o método que realiza as etapas de: criar uma sequência de amostras sequenciais de um sinal de áudio; identificar uma frequência brick wall consistente do sinal de áudio que abrange uma pluralidade das amostras sequenciais em um início do sinal de áudio e determinar uma indicação de tratamento de sinal proporcional à frequência brick wall; receber e analisar sequencialmente um ou mais componentes de amostra do sinal de áudio para identificar partes perdidas do sinal de áudio no um ou mais componentes de amostra das respectivas amostras sequenciais; e aplicar no sinal de áudio, em um nível de acordo com a indicação de tratamento de sinal, um tratamento de sinal correspondente para cada um do um ou mais componentes de amostra das respectivas amostras sequenciais que possuem uma parte perdida identificada correspondente.
15. Mídia, de acordo com a reivindicação 14, caracterizada pelo fato de que a sequência de amostras sequenciais inclui bins sequencial em um domínio de frequência determinado utilizando uma Transformada Rápida de Fourier, e em que o método compreende ainda identificar a frequência brick wall consistente por identificação de um dos bins sequenciais como bin candidato, incluindo a frequência brick wall.
16. Mídia, de acordo com a reivindicação 14, caracterizada pelo fato de que o método compreende ainda um ou mais das seguintes etapas: confirmar que a energia espectral existe abaixo da frequência brick wall; confirmar a altura da frequência brick wall acima de um limite predeterminado, além daquela de um próximo bin sequencial de frequência; e confirmar a inclinação de um corte da frequência brick wall acima de um limite predeterminado, além daquela de um próximo bin sequencial de frequência.
17. Mídia, de acordo com a reivindicação 14, caracterizada pelo fato de que a indicação de tratamento de sinal é ajustada para um dos seguintes: (i) ausência de tratamento de sinal quando a frequência brick wall não excede um limite mínimo de frequência; (ii) ausência de tratamento de sinal quando a frequência brick wall excede um limite máximo de frequência; e (iii) um nível de tratamento de sinal que diminui à medida que aumenta a frequência brick wall quando a frequência brick wall está entre o limite mínimo de frequência e o limite máximo de frequência.
18. Mídia, de acordo com a reivindicação 14, caracterizada pelo fato de que o método ainda inclui as etapas de: definir a indicação de tratamento de sinal para não aplicar qualquer tratamento de sinal antes da detecção da frequência brick wall consistente do sinal de áudio; e travar a indicação do tratamento de sinal para aplicar o tratamento no o sinal de áudio mediante identificação de um número pre- definido de amostras consecutivas indicativas da frequência brick wall consistente do sinal de áudio.
19. Mídia, de acordo com a reivindicação 18, caracterizada pelo fato de que o número predefinido consecutivo de amostras é um ou mais dentre (i) vinte amostras consecutivas e (ii) um número de amostras consecutivas que representa um período de tempo de entre cerca de um décimo de segundo a uma metade de segundo do sinal de áudio.
20. Mídia, de acordo com a reivindicação 14, caracterizada pelo fato de que o método ainda inclui as etapas de: reiniciar um autotemporizador em resposta à detecção do início do sinal de áudio; avaliar a pluralidade das amostras sequenciais para identificar a frequência brick wall consistente do sinal de áudio até que o au- totemporizador expire; e interromper a avaliação da pluralidade de amostras sequenciais uma vez que o autotemporizador expire.
21. Mídia, de acordo com a reivindicação 14, caracterizada pelo fato de que o método ainda inclui a etapa de reiniciar a indicação de tratamento de sinal mediante identificação de um período de intensidade do sinal de áudio abaixo de um limiar predeterminado para um período de tempo predeterminado.
22. Mídia, de acordo com a reivindicação 14, caracterizada pelo fato de que um ou mais dos seguintes: os componentes de amostra são componentes de frequência e os tratamentos de sinal correspondentes são componentes de frequência aplicados a componentes de amostra com componentes de frequência faltando acima de um limite de frequência de corte; os componentes de amostra são componentes transientes e os tratamentos de sinal correspondentes são componentes transientes aplicados aos componentes de amostra com transientes faltando para potencializar o aparecimento de um transiente existente presente no sinal de áudio; e os componentes da amostra são componentes de reverberação e os tratamentos de sinal correspondentes são aplicados aos componentes de amostra com reverberação faltando para reduzir uma taxa de decomposição do sinal de áudio.
23. Método de tratamento dos sinais de áudio comprimidos caracterizado pelo fato de que compreende: separar um sinal de áudio em amostras sequenciais usando um processador (1302); identificar, usando o processador (1302), uma frequência brick wall consistente do sinal de áudio que abrange uma pluralidade das amostras sequenciais em um início do sinal de áudio e determinar uma indicação de tratamento de sinal proporcional à frequência brick wall; analisar sequencialmente, usando o processador (1302), um ou mais componentes de amostra do sinal de áudio para identificar partes perdidas do sinal de áudio no um ou mais componentes de amostra das respectivas amostras sequenciais; e aplicar no sinal de áudio usando o processador (1302), em um nível de acordo com a indicação de tratamento de sinal, um tratamento de sinal correspondente para cada um do um ou mais componentes da amostra das respectivas amostras sequenciais que possu-em uma parte perdida identificada correspondente.
24. Método, de acordo com a reivindicação 23, caracterizado pelo fato de que as amostras sequenciais incluem bins sequenciais em um domínio de frequência determinados utilizando um Transformada Rápida de Fourier e para identificar que a frequência brick wall consistente inclui a identificação de um dos bins sequenciais como um bin candidato incluindo a frequência brick wall.
25. Método, de acordo com a reivindicação 23, caracterizado pelo fato de que ainda compreende um ou mais dos seguintes: confirmar que existe energia espectral abaixo da frequência brick wall; confirmar a altura da frequência brick wall acima de um limite predeterminado, além daquela de um próximo bin sequencial de maior frequência; e confirmar a inclinação de um corte da frequência brick wall acima de um limite pré-determinado, além daquela de um próximo bin sequencial de maior frequência.
26. Método, de acordo com a reivindicação 23, caracterizado pelo fato de que a indicação de tratamento de sinal é ajustada para um dos seguintes: (i) ausência de tratamento de sinal quando a frequência brick wall não excede um limite mínimo de frequência; (ii) ausência de tratamento de sinal quando a frequência brick wall excede um limite máximo de frequência; e (iii) um nível de tratamento de sinal que diminui à medida que aumenta a frequência brick wall quando a frequência brick wall está entre o limite mínimo de frequência e o limite máximo de frequência.
27. Método, de acordo com a reivindicação 23, caracterizado pelo fato de que ainda compreende: definir indicação de tratamento de sinal para não aplicar qualquer tratamento de sinal antes da detecção da frequência brick wall consistente do sinal de áudio; e travar a indicação de tratamento de sinal para aplicar o tratamento no sinal de áudio mediante identificação de um número prede- finido de amostras consecutivas indicativas da frequência brick wall consistente do sinal de áudio.
28. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que o número predefinido consecutivo de amostras é um ou mais dentre (i) vinte amostras consecutivas e (ii) um número de amostras consecutivas que representa um período de tempo de entre cerca de um décimo de segundo a uma metade de segundo do sinal de áudio.
29. Método, de acordo com a reivindicação 23, caracterizado pelo fato de que ainda compreende: reiniciar um autotemporizador em resposta à detecção do início do sinal de áudio; avaliar a pluralidade das amostras sequenciais para identificar a frequência brick wall consistente do sinal de áudio até que o au- totemporizador expire; e descontinuar avaliação da pluralidade das amostras sequenciais uma vez que o autotemporizador expire.
30. Método, de acordo com a reivindicação 23, caracterizado pelo fato de que ainda compreende reiniciar a indicação de tratamento de sinal mediante identificação de um período de intensidade de sinal de áudio abaixo de um limiar predeterminado por um período de tempo predeterminado.
31. Método, de acordo com a reivindicação 23, caracterizado pelo fato de que um ou mais dos seguintes: os componentes de amostra são componentes de frequência e os tratamentos de sinal correspondentes são componentes de frequência aplicados nos componentes de amostra com componentes de frequência faltando acima de um limite de frequência de corte; os componentes de amostra são componentes transientes e os tratamentos de sinal correspondentes são componentes transientes aplicados nos componentes de amostra com transientes faltando para potencializar o aparecimento de um transiente existente presente no sinal de áudio; e os componentes da amostra são componentes de reverberação e os tratamentos de sinal correspondentes são aplicados aos componentes de amostra com reverberação faltando para reduzir uma taxa de decomposição do sinal de áudio.
BR112016015695-1A 2014-01-07 2015-01-06 Sistema, mídia e método para tratamento de sinais de áudio comprimidos BR112016015695B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461924641P 2014-01-07 2014-01-07
US61/924,641 2014-01-07
PCT/US2015/010266 WO2015105775A1 (en) 2014-01-07 2015-01-06 Signal quality-based enhancement and compensation of compressed audio signals

Publications (2)

Publication Number Publication Date
BR112016015695A2 BR112016015695A2 (pt) 2017-08-08
BR112016015695B1 true BR112016015695B1 (pt) 2022-11-16

Family

ID=53524279

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016015695-1A BR112016015695B1 (pt) 2014-01-07 2015-01-06 Sistema, mídia e método para tratamento de sinais de áudio comprimidos

Country Status (7)

Country Link
US (1) US10192564B2 (pt)
EP (1) EP3092640B1 (pt)
JP (1) JP6576934B2 (pt)
KR (1) KR102340151B1 (pt)
CN (1) CN105900170B (pt)
BR (1) BR112016015695B1 (pt)
WO (1) WO2015105775A1 (pt)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9736588B2 (en) * 2015-07-23 2017-08-15 Automotive Data Solutions, Inc. Digital signal router for vehicle replacement sound system
EP3182406B1 (en) * 2015-12-16 2020-04-01 Harman Becker Automotive Systems GmbH Sound reproduction with active noise control in a helmet
WO2017157427A1 (en) * 2016-03-16 2017-09-21 Huawei Technologies Co., Ltd. An audio signal processing apparatus and method for processing an input audio signal
US10741196B2 (en) * 2016-03-24 2020-08-11 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
EP3382704A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
CN107644649B (zh) * 2017-09-13 2022-06-03 黄河科技学院 一种信号处理方法
CN107863095A (zh) 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN108156561B (zh) 2017-12-26 2020-08-04 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN108156575B (zh) 2017-12-26 2019-09-27 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN109036457B (zh) 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
WO2020152264A1 (en) 2019-01-23 2020-07-30 Sony Corporation Electronic device, method and computer program
US11133017B2 (en) * 2019-06-07 2021-09-28 Harman Becker Automotive Systems Gmbh Enhancing artificial reverberation in a noisy environment via noise-dependent compression
CN110211610A (zh) * 2019-06-20 2019-09-06 平安科技(深圳)有限公司 评估音频信号损失的方法、装置及存储介质
WO2021200260A1 (ja) * 2020-04-01 2021-10-07 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
US11264017B2 (en) * 2020-06-12 2022-03-01 Synaptics Incorporated Robust speaker localization in presence of strong noise interference systems and methods
CN115184016A (zh) * 2022-09-06 2022-10-14 江苏东控自动化科技有限公司 一种升降机轴承故障检测方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5410632A (en) * 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
DE10225146A1 (de) * 2002-06-06 2003-12-18 Bosch Gmbh Robert Verfahren zum Einstellen von Filterparametern und zugeordnetes Wiedergabesystem
CA2525942C (en) * 2003-05-28 2015-04-07 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
JP4311541B2 (ja) * 2003-10-06 2009-08-12 アルパイン株式会社 オーディオ信号圧縮装置
EP1779385B1 (en) 2004-07-09 2010-09-22 Electronics and Telecommunications Research Institute Method and apparatus for encoding and decoding multi-channel audio signal using virtual source location information
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
JP4882383B2 (ja) * 2006-01-18 2012-02-22 ヤマハ株式会社 オーディオ信号の帯域拡張装置
JP4175376B2 (ja) * 2006-03-30 2008-11-05 ヤマハ株式会社 オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム
US9014377B2 (en) * 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
CN101868823B (zh) * 2007-10-23 2011-12-07 歌乐株式会社 高频插值装置和高频插值方法
JP5147851B2 (ja) * 2007-10-26 2013-02-20 株式会社ディーアンドエムホールディングス オーディオ信号補間装置及びオーディオ信号補間方法
DE102008015702B4 (de) * 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
JP5197278B2 (ja) * 2008-10-02 2013-05-15 クラリオン株式会社 高域補完装置
EP4231294B1 (en) * 2008-12-15 2023-11-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder
KR101387195B1 (ko) 2009-10-05 2014-04-21 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
JP2011186187A (ja) * 2010-03-09 2011-09-22 Jvc Kenwood Holdings Inc 音声処理装置、音声処理方法および音声処理プログラム
CN103004084B (zh) * 2011-01-14 2015-12-09 华为技术有限公司 用于语音质量增强的方法及设备
US9589576B2 (en) * 2011-11-03 2017-03-07 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension of audio signals
CN104221082B (zh) * 2012-03-29 2017-03-08 瑞典爱立信有限公司 谐波音频信号的带宽扩展
CN104170007B (zh) * 2012-06-19 2017-09-26 深圳广晟信源技术有限公司 对单声道或立体声进行编码的方法
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
US9258428B2 (en) * 2012-12-18 2016-02-09 Cisco Technology, Inc. Audio bandwidth extension for conferencing
CN103107863B (zh) * 2013-01-22 2016-01-20 深圳广晟信源技术有限公司 一种分段平均码率的数字音频信源编码方法及装置
ES2697474T3 (es) * 2013-06-21 2019-01-24 Fraunhofer Ges Forschung Decodificador de audio que tiene un módulo de extensión de ancho de banda con un módulo de ajuste de energía

Also Published As

Publication number Publication date
CN105900170A (zh) 2016-08-24
US20160329061A1 (en) 2016-11-10
CN105900170B (zh) 2020-03-10
US10192564B2 (en) 2019-01-29
JP6576934B2 (ja) 2019-09-18
BR112016015695A2 (pt) 2017-08-08
EP3092640B1 (en) 2018-06-27
JP2017507348A (ja) 2017-03-16
KR20160106586A (ko) 2016-09-12
EP3092640A4 (en) 2017-07-05
EP3092640A1 (en) 2016-11-16
WO2015105775A1 (en) 2015-07-16
KR102340151B1 (ko) 2021-12-17

Similar Documents

Publication Publication Date Title
BR112016015695B1 (pt) Sistema, mídia e método para tratamento de sinais de áudio comprimidos
US10311880B2 (en) System for perceived enhancement and restoration of compressed audio signals
US20200152210A1 (en) Determining the inter-channel time difference of a multi-channel audio signal
JP7091411B2 (ja) マルチチャネル信号の符号化方法およびエンコーダ
US9413322B2 (en) Audio loudness control system
JP5174027B2 (ja) ミックス信号処理装置及びミックス信号処理方法
KR101680953B1 (ko) 인지 오디오 코덱들에서의 고조파 신호들에 대한 위상 코히어런스 제어
JP2015531084A5 (pt)
CN113257273A (zh) 高效drc配置文件传输
US8996389B2 (en) Artifact reduction in time compression
US20210027793A1 (en) Method and apparatus for increasing stability of an inter-channel time difference parameter
US20090180531A1 (en) codec with plc capabilities
US10741196B2 (en) Signal quality-based enhancement and compensation of compressed audio signals
CN113196387A (zh) 高分辨率音频编解码
BR112012009127B1 (pt) Mecanismo para fornecer uma representação de sinal upmix com base em uma representação de sinal downmix, mecanismo para fornecer uma corrente de bit representando um sinal de áudio multicanal, métodos, programa de computador e corrente de bit usando uma sinalização de controle de distorção

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 06/01/2015, OBSERVADAS AS CONDICOES LEGAIS