BR112020024361A2 - avaliador de similaridade de áudio, codificador de áudio e métodos - Google Patents

avaliador de similaridade de áudio, codificador de áudio e métodos Download PDF

Info

Publication number
BR112020024361A2
BR112020024361A2 BR112020024361-2A BR112020024361A BR112020024361A2 BR 112020024361 A2 BR112020024361 A2 BR 112020024361A2 BR 112020024361 A BR112020024361 A BR 112020024361A BR 112020024361 A2 BR112020024361 A2 BR 112020024361A2
Authority
BR
Brazil
Prior art keywords
audio
audio signal
modulation
similarity
signal
Prior art date
Application number
BR112020024361-2A
Other languages
English (en)
Inventor
Sascha Disch
Steven Van Der Par
Andreas NIEDERMEIER
Elena Burdiel Pérez
Bernd Edler
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of BR112020024361A2 publication Critical patent/BR112020024361A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Toys (AREA)

Abstract

“avaliador de similaridade de áudio, codificador de áudioemétodos''. trata-se de um avaliador de similaridade de áudio que obtém sinais de envelope para uma pluralidade de faixas de frequência com base em um sinal de áudio de entrada. o avaliador de similaridade de áudio é configurado para obter informações de modulação associadas aos sinais de envelope para uma pluralidade de faixas de frequência de modulação, em que as informações de modulação descrevem a modulação dos sinais de envelope. o avaliador de similaridade de áudio é configurado para comparar as informações de modulação obtidas com informações de modulação de referência associadas a um sinal de áudio de referência, de modo a obter informações acerca de uma similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência. um codificador de áudio usa tal avaliador de similaridade de áudio. outro avaliador de similaridade de áudio usa uma rede neural trainada com uso do avaliador de similaridade de áudio.

Description

Relatório Descritivo da Patente de Invenção para: “AVALIADOR DE SIMILARIDADE DE ÁUDIO, CODIFICADOR DE ÁUDIO E MÉTODOS”
CAMPO DA TÉCNICA
[001] As modalidades de acordo com a invenção estão relacionadas a avaliadores de similaridade de áudio.
[002] Outras modalidades de acordo com a invenção estão relacionadas a codificadores de áudio.
[003] Outras modalidades de acordo com a invenção estão relacionadas a métodos para avaliar uma similaridade entre sinais de áudio.
[004] Outras modalidades de acordo com a invenção estão relacionadas a métodos para codificar um sinal de áudio.
[005] Outras modalidades de acordo com a invenção estão relacionadas a um programa de computador para executar os ditos métodos.
[006] Geralmente, as modalidades de acordo com a invenção estão relacionadas a um modelo psicoacústico aprimorado para codecs de áudio perceptuais eficientes.
ANTECEDENTES DA INVENÇÃO
[007] A codificação de áudio é um campo técnico emergente, uma vez que a codificação e decodificação de conteúdos de áudio são importantes em muitos campos técnicos, como comunicação móvel, streaming de áudio, transmissão de áudio, televisão, etc.
[008] A seguir, será provida uma introdução à codificação perceptual. Deve-se notar que as definições e detalhes discutidos a seguir podem ser aplicados opcionalmente em conjunto com as modalidades aqui reveladas.
CODECS PERCEPTUAIS
[009] Codecs de áudio perceptuais como mp3 ou AAC são amplamente usados para codificar o áudio nas aplicações de multimídia atuais [1]. Os codecs mais populares são os chamados codificadores de forma de onda, ou seja, os mesmos preservam a forma de onda do domínio do tempo do áudio e geralmente adicionam ruído (inaudível) a isso devido à aplicação de quantização perceptualmente controlada. A quantização pode tipicamente acontecer em um domínio de tempo- frequência, mas também pode ser aplicada no domínio de tempo [2]. Para tornar o ruído adicionado inaudível, o mesmo é moldado sob o controle de um modelo psicoacústico, típico de um modelo de mascaramento perceptual.
[010] Nas aplicações de áudio de hoje, há uma solicitação constante por taxas de bits mais baixas. Os codecs de áudio perceptuais tradicionalmente limitam a largura de banda de áudio para ainda atingir uma qualidade perceptual decente com essas taxas de bits baixas. Técnicas semiparamétricas eficientes como Spectral Bandwidth Replication (SBR) [3] em High Efficiency Advanced Audio Coding (HE-AAC) [4] ou Intelligent Gap Filling (IGF) [5] em MPEG-H 3D Audio [6] e 3gpp Enhanced Voice Services (EVS) [7] são usadas para estender o áudio limitado por banda à largura de banda total no lado do decodificador. Essa técnica é chamada de Extensão de Largura de Banda (BWE). Essas técnicas inserem uma estimativa do conteúdo de alta frequência ausente, controlado por alguns parâmetros. Tipicamente, as informações secundárias mais importantes do BWE são os dados relacionados ao envelope. Normalmente, o processo de estimativa é orientado por heurísticas em vez de um modelo psicoacústico.
MODELOS PERCEPTUAIS
[011] Os modelos psicoacústicos usados na codificação de áudio baseiam-se principalmente na avaliação de se o sinal de erro é mascarado perceptivamente pelo sinal de áudio original a ser codificado. Essa abordagem funciona bem quando o sinal de erro é causado por um processo de quantização normalmente usado em codificadores de forma de onda. Para representações de sinais paramétricos, no entanto, como SBR ou IGF, o sinal de erro será grande mesmo quando os artefatos forem dificilmente audíveis.
[012] Isso é consequência do fato de que o sistema auditivo humano não processa a forma de onda exata de um sinal de áudio; em certas situações, o sistema auditivo é insensível à fase e o envelope temporal de uma banda espectral torna-se a principal informação auditiva avaliada. Por exemplo, diferentes fases iniciais de uma sinusoide (com início e compensações suaves) não têm efeito perceptível. Para um tom harmônico complexo, entretanto, as fases iniciais relativas podem ser perceptualmente importantes, especificamente quando vários harmônicos caem dentro de uma banda auditiva crítica [8]. As fases relativas desses harmônicos, bem como suas amplitudes, irão influenciar a forma do envelope temporal que é representado dentro de uma banda crítica auditiva que, em princípio, pode ser processada pelo sistema auditivo humano.
[013] Em vista dessa situação, há uma necessidade de um conceito para comparar os sinais de áudio e/ou decidir sobre os parâmetros de codificação que fornecem uma melhor compensação entre a complexidade computacional e a relevância perceptual e/ou que permite pela primeira vez o uso de técnicas paramétricas sob controle de um modelo psicoacústico.
SUMÁRIO DA INVENÇÃO
[014] Uma modalidade de acordo com a invenção cria um avaliador de similaridade de áudio.
[015] O avaliador de similaridade de áudio é configurado para obter sinais de envelope para uma pluralidade de (de preferência sobreposição) faixas de frequência (por exemplo, com o uso de um banco de filtros ou um banco de filtros Gammatone e uma retificação e uma filtração em passa-baixa temporal e um ou mais processos de adaptação que podem, por exemplo, modelar um pré-mascaramento e/ou um pós-mascaramento em um sistema auditivo) com base em um sinal de áudio de entrada (por exemplo, para realizar uma demodulação de envelope em sub-bandas espectrais).
[016] O avaliador de similaridade de áudio é configurado para obter uma informação de modulação (por exemplo, sinais de saída dos filtros de modulação) associada aos sinais de envelope para uma pluralidade de faixas de frequência de modulação (por exemplo, com o uso de um banco de filtros de modulação ou com o uso de filtros de modulação), em que as informações de modulação descrevem (por exemplo, na forma de sinais de saída do banco de filtros de modulação ou na forma de sinais de saída dos filtros de modulação) a modulação dos sinais de envelope (e podem, por exemplo, ser consideradas como uma representação interna). Por exemplo, o avaliador de similaridade de áudio pode ser configurado para realizar uma análise de modulação de envelope.
[017] O avaliador de similaridade de áudio é configurado para comparar as informações de modulação obtidas (por exemplo, uma representação interna) com uma informação de modulação de referência associada a um sinal de áudio de referência (por exemplo, com o uso de uma representação de diferença interna, em que a representação de diferença interna pode, por exemplo, descrever uma diferença entre as informações de modulação obtidas e as informações de modulação de referência, em que uma ou mais operações de ponderação ou operações de modificação podem ser aplicadas, como uma escala da representação de diferença interna com base em um grau de comodulação ou uma ponderação assimétrica de valores positivos e negativos da representação de diferença interna), a fim de obter uma informação sobre uma similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência (por exemplo, um único valor que descreve uma similaridade perceptual entre o sinal de áudio de entrada e o sinal de áudio de referência) .
[018] Essa modalidade de acordo com a invenção é baseada na constatação de que uma informação de modulação, que está associada a sinais de envelope para uma pluralidade de faixas de frequência de modulação, pode ser obtida com esforço moderado (por exemplo, com o uso de um primeiro banco de filtros para obter os sinais de envelope e com o uso de um segundo banco de filtros, que pode ser um banco de filtros de modulação, para obter as informações de modulação, em que algumas etapas de processamento adicionais menores também serão usadas para melhorar a precisão).
[019] Além disso, verificou-se que tal informação de modulação é bem adaptada à impressão auditiva humana em muitas situações, o que significa que uma similaridade das informações de modulação corresponde a uma percepção similar de um conteúdo de áudio, enquanto a principal diferença é das informações de modulação normalmente indicam que um conteúdo de áudio será percebido como diferente. Assim, ao comparar as informações de modulação de um sinal de áudio de entrada com as informações de modulação associadas a um sinal de áudio de referência, pode-se concluir se o sinal de áudio de entrada será percebido como sendo similar ao conteúdo de áudio do sinal de áudio de referência ou não. Em outras palavras, uma medida quantitativa que representa a similaridade ou diferença entre as informações de modulação associadas ao sinal de áudio de entrada e as informações de modulação associadas ao sinal de áudio de referência pode servir como uma informação de similaridade (quantitativa), representando a similaridade entre o conteúdo de áudio do sinal de áudio de entrada e o conteúdo de áudio do sinal de áudio de referência de uma maneira perceptualmente ponderada.
[020] Assim, as informações de similaridade obtidas pelo avaliador de similaridade de áudio (por exemplo, um único valor escalar associado a uma certa passagem (por exemplo, um quadro) do sinal de áudio de entrada (e/ou do sinal de áudio de referência) é bem adequada para determinar (por exemplo, de forma quantitativa) quanto o “sinal de áudio de entrada” está perceptualmente degradado em relação ao sinal de áudio de referência (por exemplo, se for assumido que o sinal de áudio de entrada é uma versão degradada do sinal de áudio de referência).
[021] Verificou-se que essa medida de similaridade pode, por exemplo, ser usada para determinar a qualidade de uma codificação de áudio com perdas e, em particular, de uma codificação de áudio com perdas sem preservação de forma de onda. Por exemplo, as informações de similaridade indicam um desvio comparativamente grande se a “modulação” (do sinal de envelope) em uma ou mais faixas de frequência for alterada significativamente, o que normalmente resultaria em uma impressão auditiva degradada. Por outro lado, as informações de similaridade fornecidas pelo avaliador de similaridade normalmente indicariam uma similaridade comparativamente alta (ou, equivalentemente, uma diferença ou desvio comparativamente pequeno) se a modulação em diferentes bandas de frequência for similar no sinal de áudio de entrada e no sinal de áudio de referência, mesmo se as formas de onda de sinal real forem substancialmente diferentes. Dessa forma, um resultado está de acordo com a constatação de que um ouvinte humano normalmente não é particularmente sensível à forma de onda real, mas mais sensível no que diz respeito às características de modulação de um conteúdo de áudio em diferentes bandas de frequência.
[022] Para concluir, o avaliador de similaridade descrito aqui fornece uma informação de similaridade bem adaptada à impressão auditiva humana.
[023] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para aplicar uma pluralidade de filtros ou operações de filtração (por exemplo, de um banco de filtros ou de um banco de filtros Gammatone) que têm características de filtro sobrepostas (por exemplo, bandas de passagem sobrepostas), a fim de obter os sinais de envelope (em que, de preferência, as larguras de banda dos filtros ou operações de filtração estão aumentando com o aumento das frequências centrais dos filtros). Por exemplo, os diferentes sinais de envelope podem ser associados a diferentes faixas de frequência acústica do sinal de áudio de entrada.
[024] Essa modalidade é baseada na constatação de que os sinais de envelope podem ser obtidos com esforço moderado com o uso de filtros ou operações de filtração com características de filtro sobrepostas, devido ao fato de que isso está de acordo com o sistema auditivo humano. Além disso, verificou-se que é vantajoso aumentar a largura de banda dos filtros ou operações de filtração com frequência crescente, devido ao fato de que isso está de acordo com o sistema auditivo humano e, além disso, ajuda a manter o número de filtros razoavelmente pequeno, proporcionando uma boa resolução de frequência na região de baixa frequência perceptualmente importante. Consequentemente, os diferentes sinais de envelope são tipicamente associados a diferentes faixas de frequência acústica do sinal de áudio de entrada, o que ajuda a obter uma informação de similaridade precisa com uma resolução de frequência razoável. Por exemplo, diferentes degradações de sinal (por exemplo, do sinal de áudio de entrada em relação ao sinal de áudio de referência)
em diferentes faixas de frequência podem ser consideradas dessa maneira.
[025] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para aplicar uma retificação (por exemplo, uma retificação de meia onda) aos sinais de saída dos filtros ou operação de filtração, para obter uma pluralidade de sinais retificados (por exemplo, para modelar células ciliadas internas).
[026] Mediante a aplicação de uma retificação aos sinais de saída dos filtros ou da operação de filtração, é possível assimilar um comportamento das células ciliadas internas. Além disso, a retificação em combinação com um filtro passa-baixa fornece sinais de envelope que refletem intensidades em diferentes faixas de frequência. Além disso, devido à retificação (e possivelmente a uma filtração em passa-baixa), uma representação de número é comparativamente fácil (por exemplo, uma vez que apenas valores positivos precisam ser representados). Além disso, o fenômeno de bloqueio de fase e a perda do mesmo para frequências mais altas é modelado pelo dito processamento.
[027] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para aplicar um filtro passa-baixa ou uma filtração em passa-baixa (por exemplo, que tem uma frequência de corte que é menor que 2.500 Hz ou que é menor que 1.500 Hz) ao sinais retificados de meia onda (por exemplo, para modelar células ciliadas internas).
[028] Ao usar um filtro passa-baixa ou uma filtração em passa-baixa (que pode, por exemplo, ser aplicado separadamente a cada sinal de envelope de uma pluralidade de sinais de envelope associados a diferentes faixas de frequência), uma inércia de células ciliadas internas pode ser modelada. Ademais, uma quantidade de amostras de dados é reduzida com a realização de uma filtração em passa-baixa, e um processamento adicional dos sinais de banda passante filtrados em passa-baixa (de preferência, retificados) é facilitado. Assim, o sinal de saída filtrado em passa- baixa e preferencialmente retificado de uma pluralidade de filtros ou operações de filtração pode servir como os sinais de envelope.
[029] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para aplicar um controle de ganho automático, a fim de obter os sinais de envelope.
[030] Mediante a aplicação de um controle de ganho automático para obter os sinais de envelope, uma faixa dinâmica dos sinais de envelope pode ser limitada, o que reduz os problemas numéricos. Além disso, verificou-se que o uso de um controle automático de ganho, que usa certas constantes de tempo para a adaptação do ganho, modela os efeitos de mascaramento que ocorrem em um aparelho auditivo, de forma que uma similaridade de informações obtida pelo avaliador de similaridade de áudio reflete uma impressão auditiva humana.
[031] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para variar um ganho aplicado para derivar os sinais de envelope com base em sinais retificados e filtrados em passa-baixa providos por uma pluralidade de filtros ou operações de filtro com base no sinal de áudio de entrada.
[032] Verificou-se que variar um ganho, que é aplicado para derivar os sinais de envelope com base em sinais retificados e filtrados em passa-baixa providos por uma pluralidade de filtros ou operações de filtro (com base no sinal de áudio de entrada) é um meio eficiente para implantar um controle de ganho automático. Verificou-se que o controle de ganho automático pode ser facilmente implantado após a retificação e filtração em passa-baixa de sinais providos por uma pluralidade de filtros ou operações de filtração. Em outras palavras, o controle automático de ganho é aplicado individualmente por faixa de frequência, e verificou-se que tal comportamento está de acordo com o sistema auditivo humano.
[033] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para processar versões retificadas e filtradas em passa-baixa de sinais providos por uma pluralidade de filtros ou operações de filtração (por exemplo, fornecidos pelo banco de filtros Gammatone) com base no sinal de áudio de entrada com o uso de uma série de dois ou mais circuitos de adaptação (de preferência, cinco circuitos de adaptação), que aplicam uma escala de variante de tempo na dependência de valores de ganho de variante de tempo (por exemplo, para efetuar um controle de ganho automático de múltiplos estágios, em que o valor de ganho é definido para um valor comparativamente pequeno para um sinal de entrada ou sinal de saída comparativamente grande de um respectivo estágio, e em que um valor de ganho é definido para um valor comparativamente maior para um valor de entrada ou valor de saída comparativamente menor do respectivo estágio). Opcionalmente, há uma limitação de um ou mais sinais de saída, por exemplo, para limitar ou evitar ultrapassagens (overshoots), por exemplo, um “Limitador”.
[034] O avaliador de similaridade de áudio é configurado para ajustar diferentes valores de ganho de variação de tempo (que estão associados a diferentes estágios dentro da série de circuitos de adaptação) com o uso de diferentes constantes de tempo (por exemplo, para modelar um pré-mascaramento no início de um sinal de áudio e/ou para modelar um pós-mascaramento após um deslocamento de um sinal de áudio).
[035] Foi reconhecido que o uso de uma série de dois ou mais circuitos de adaptação que aplicam uma escala de variação de tempo na dependência de valores de ganho de variação de tempo é bem adaptado para modelar constantes de tempo diferentes que ocorrem no sistema auditivo humano. Ao ajustar os diferentes valores de ganho de variante de tempo, que são usados em diferentes dos circuitos de adaptação em cascata, diferentes constantes de tempo de pré-mascaramento e pós-mascaramento podem ser consideradas. Além disso, processos adicionais de mascaramento de adaptação, que ocorrem no sistema auditivo humano, podem ser modelados de tal maneira com esforço computacional moderado. Por exemplo, as diferentes constantes de tempo, que são usadas para ajustar os diferentes valores de ganho da variante de tempo, podem ser adaptadas a diferentes constantes de tempo em um sistema auditivo humano.
[036] Para concluir com o uso de uma série (ou uma cascata) de dois ou mais circuitos de adaptação, que aplicam uma escala de variação de tempo na dependência de valores de escala de variação de tempo fornecem sinais de envelope que são adequados para o propósito de obter uma informação de similaridade que descreve um similaridade entre um sinal de áudio de entrada e um sinal de áudio de referência.
[037] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para aplicar uma pluralidade de filtros de modulação (por exemplo, de um banco de filtros de modulação) que têm bandas passantes diferentes (mas possivelmente sobrepostas) para os sinais de envelope (por exemplo, de modo que os componentes dos sinais de envelope com diferentes frequências de modulação sejam pelo menos parcialmente separados), para obter as informações de modulação (em que, por exemplo, uma pluralidade de filtros de modulação associados a diferentes faixas de frequência de modulação são aplicados a um primeiro sinal de envelope associado a uma primeira faixa de frequência acústica em que, por exemplo, uma pluralidade de filtros de modulação associados às diferentes faixas de frequência de modulação são aplicados a um segundo sinal de envelope associado a uma segunda faixa de frequência acústica que é diferente da primeira faixa de frequência acústica).
[038] Verificou-se que uma informação significativa que representa uma modulação de sinais de envelope (associada a diferentes faixas de frequência) pode ser obtida com pouco esforço com o uso de filtros de modulação que filtram os sinais de envelope. Por exemplo, a aplicação de um conjunto de filtros de modulação com bandas de passagem diferentes para um dos sinais de envelope resulta em um conjunto de sinais (ou valores) para o dado sinal de envelope (ou associado ao dado sinal de envelope, ou associado a uma faixa de frequência do sinal de áudio de entrada). Assim, uma pluralidade de sinais de modulação pode ser obtida com base em um único sinal de envelope, e diferentes conjuntos de sinais de modulação podem ser obtidos com base em uma pluralidade de sinais de envelope. Cada um dos sinais de modulação pode ser associado a uma frequência de modulação ou uma faixa de frequências de modulação. Consequentemente, os sinais de modulação (que podem ser emitidos pelos filtros de modulação) ou, mais precisamente, uma intensidade dos mesmos pode descrever como um sinal de envelope (associado a uma certa faixa de frequência) é modulado (por exemplo, modulado no tempo). Dessa forma, conjuntos separados de sinais de modulação podem ser obtidos para os diferentes sinais de envelope.
[039] Esses sinais de modulação podem ser usados para obter as informações de modulação, em que diferentes operações de pós-processamento podem ser usadas para derivar as informações de modulação (que são comparadas com as informações de modulação associadas ao sinal de áudio de referência) dos sinais de modulação providos pelos filtros de modulação .
[040] Para concluir, constatou-se que o uso de uma pluralidade de filtros de modulação é uma abordagem simples de implantar que pode ser usada na derivação do ganho de modulação para informações.
[041] Em uma modalidade preferencial, os filtros de modulação são configurados para, pelo menos parcialmente, separar componentes do sinal de envelope com diferentes frequências (por exemplo, frequências de modulação diferentes), em que uma frequência central de um primeiro filtro de modulação de frequência mais baixa é menor que 5 Hz, e em que uma frequência central de um filtro de modulação de frequência mais alta está em uma faixa entre 200 Hz e 300 Hz.
[042] Verificou-se que o uso de tais frequências centrais dos filtros de modulação cobre uma gama de frequências de modulação que é mais relevante para a percepção humana.
[043] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para remover componentes DC ao obter as informações de modulação (por exemplo, por filtração em passa-baixa de sinais de saída dos filtros de modulação, por exemplo, com uma frequência de corte de metade da frequência central do respectivo filtro de modulação e subtraindo os sinais resultantes da filtração em passa-baixa dos sinais de saída dos filtros de modulação).
[044] Verificou-se que a remoção de componentes DC ao obter a informação de modulação ajuda a evitar uma degradação das informações de modulação por componentes DC fortes que são tipicamente incluídos nos sinais de envelope. Além disso, com o uso de uma remoção de DC ao obter as informações de modulação com base nos sinais de envelope, uma inclinação dos filtros de modulação pode ser mantida razoavelmente pequena, o que facilita a implantação dos filtros de modulação.
[045] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para remover uma informação de fase ao obter as informações de modulação.
[046] Ao remover uma informação de fase, é possível negligenciar tal informação, que normalmente não é de relevância particularmente alta para um ouvinte humano em muitas circunstâncias, na comparação das informações de modulação associadas ao sinal de áudio de entrada com as informações de modulação associada ao sinal de áudio de referência. Verificou-se que as informações de fase dos sinais de saída dos filtros de modulação normalmente degradariam o resultado da comparação, em particular se a modificação sem preservação de forma de onda (como, por exemplo, uma operação de codificação e decodificação sem preservação de forma de onda) for aplicada ao sinal de áudio de entrada. Dessa forma, evita-se classificar um sinal de áudio de entrada e um sinal de áudio de referência como tendo um pequeno nível de similaridade, embora uma percepção humana classifique os sinais como sendo muito similares.
[047] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para derivar um valor escalar que representa uma diferença entre as informações de modulação obtidas (por exemplo, uma representação interna) e as informações de modulação de referência associadas a um sinal de áudio de referência (por exemplo, um valor que representa uma soma de diferenças quadradas entre as informações de modulação obtidas, que podem compreender valores de amostra para uma pluralidade de faixas de frequência acústica e para uma pluralidade de faixas de frequência de modulação por faixa de frequência acústica e as informações de modulação de referência, que também podem compreender valores de amostra para uma pluralidade de faixas de frequência acústica e para uma pluralidade de faixas de frequência de modulação por faixa de frequência acústica).
[048] Foi constatado que um (único) valor escalar pode representar diferenças entre as informações de modulação associadas ao sinal de áudio de entrada e as informações de modulação associadas ao sinal de áudio de referência. Por exemplo, as informações de modulação podem compreender sinais ou valores individuais para diferentes frequências de modulação e para uma pluralidade de faixas de frequência. Mediante a combinação das diferenças entre todos esses sinais ou valores em um único valor escalar (que pode assumir a forma de uma “medida de distância” ou uma “norma”), é possível ter uma avaliação compacta e significativa da similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência. Além disso, esse único valor escalar pode ser facilmente utilizável por um mecanismo para selecionar parâmetros de codificação (por exemplo, parâmetros de codificação e/ou parâmetros de decodificação) ou para decidir sobre quaisquer outros parâmetros de processamento de sinal de áudio que podem ser aplicados para um processamento do sinal de áudio de entrada.
[049] Verificou-se que a determinação de uma representação de diferença pode ser uma etapa intermediária eficiente para derivar a informação de similaridade. Por exemplo, a representação de diferença pode representar diferenças entre diferentes compartimentos de frequência de modulação (em que, por exemplo, um conjunto separado de compartimentos de frequência de modulação pode ser associado a diferentes sinais de envelope associados a diferentes faixas de frequência) ao comparar o sinal de áudio de entrada com o sinal de áudio de referência.
[050] Por exemplo, a representação da diferença pode ser um vetor, em que cada entrada do vetor pode ser associada a uma frequência de modulação e a uma faixa de frequência (do sinal de áudio de entrada ou do sinal de áudio de referência) em consideração. Essa representação de diferença é adequada para um pós-processamento e também permite uma derivação simples de um único valor escalar que representa as informações de similaridade.
[051] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para determinar uma representação de diferença (por exemplo, IDR) a fim de comparar as informações de modulação obtidas (por exemplo, uma representação interna) com as informações de modulação de referência associadas a um sinal de áudio de referência.
[052] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para ajustar uma ponderação de uma diferença entre as informações de modulação obtidas (por exemplo, uma representação interna) e as informações de modulação de referência associadas a um sinal de áudio de referência na dependência de uma comodulação entre sinais de envelope ou informações de modulação obtidas em duas ou mais faixas de frequência acústica adjacentes ou entre sinais de envelope associados ao sinal de referência ou entre as informações de modulação de referência em duas ou mais faixas de frequência acústica adjacentes (em que, por exemplo, um peso aumentado é dado à diferença entre as informações de modulação obtidas e as informações de modulação de referência no caso de um grau comparativamente alto de comodulação ser encontrado quando comparado a um caso em que um grau comparativamente baixo de comodulação é encontrado) (e em que o grau de comodulação é, por exemplo, encontrado por meio da determinação de uma covariância entre envelopes temporais associados a diferentes faixas de frequência acústica).
[053] Verificou-se que ajustar a ponderação da diferença entre as informações de modulação obtidas e as informações de modulação de referência (que podem, por exemplo, ser representadas pela “representação de diferença”) na dependência das informações de comodulação é vantajoso devido ao fato de que diferenças entre as informações de modulação podem ser percebidas como mais fortes por um ouvinte humano se houver uma comodulação nas faixas de frequência adjacentes. Por exemplo, ao associar um peso aumentado à diferença entre as informações de modulação obtidas e as informações de modulação de referência no caso em que um grau comparativamente alto de comodulação é encontrado quando comparado a um caso em que um grau ou quantidade de comodulação comparativamente baixo é encontrado, a determinação das informações de similaridade pode ser adaptada às características do sistema auditivo humano. Consequentemente, a qualidade das informações de similaridade pode ser melhorada.
[054] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para colocar um peso maior nas diferenças entre as informações de modulação obtidas (por exemplo, uma representação interna) e as informações de modulação de referência associadas a um sinal de áudio de referência indicando que o sinal de áudio de entrada compreende um componente de sinal adicional quando comparado às diferenças entre as informações de modulação obtidas (por exemplo, uma representação interna) e as informações de modulação de referência associadas a um sinal de áudio de referência indicando que o sinal de áudio de entrada carece de um componente de sinal ao determinar as informações sobre a similaridade entre sinal de áudio de entrada e o sinal de áudio de referência (por exemplo, um único valor escalar que descreve as informações sobre a similaridade).
[055] Colocar maior peso nas diferenças entre as informações de modulação obtidas e as informações de modulação de referência associadas a um sinal de referência indicando que o sinal de áudio compreende um componente de sinal adicional (quando comparado às diferenças que indicam que o sinal de áudio de entrada carece de um componente de sinal) enfatiza uma contribuição de sinais adicionados (ou componentes de sinal, ou portadoras) ao determinar uma informação sobre a diferença entre o sinal de áudio de entrada e o sinal de áudio de referência. Verificou-se que os sinais adicionados (ou componentes de sinal ou portadoras) são normalmente percebidos como sendo mais distorcivos quando comparados aos sinais ausentes (ou componentes de sinal ou portadoras). Esse fato pode ser considerado por tal ponderação “assimétrica” de diferenças positivas e negativas entre as informações de modulação associadas ao sinal de áudio de entrada e as informações de modulação associadas ao sinal de áudio de referência. Uma informação de similaridade pode ser adaptada às características do sistema auditivo humano dessa maneira.
[056] Em uma modalidade preferencial, o avaliador de similaridade de áudio é configurado para ponderar valores positivos e negativos de uma diferença entre as informações de modulação obtidas e as informações de modulação de referência (que normalmente compreende um grande número de valores) com o uso de pesos diferentes ao determinar as informações sobre a similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência.
[057] Ao aplicar ponderações diferentes a valores positivos e negativos da diferença entre as informações de modulação obtidas e as informações de modulação de referência (ou, mais precisamente, entre as entradas de um vetor como mencionado acima), o impacto diferente de sinais adicionados e ausentes ou componentes de sinal ou as portadoras podem ser consideradas com um esforço computacional muito pequeno.
[058] Outra modalidade de acordo com a invenção cria um codificador de áudio para codificar um sinal de áudio. O codificador de áudio é configurado para determinar um ou mais parâmetros de codificação (por exemplo, parâmetros de codificação ou parâmetros de decodificação, que são preferencialmente sinalizados para um decodificador de áudio pelo codificador de áudio) na dependência de uma avaliação de uma similaridade entre um sinal de áudio a ser codificado e um sinal de áudio codificado. O codificador de áudio é configurado para avaliar a similaridade entre o sinal de áudio a ser codificado e o sinal de áudio codificado (por exemplo, uma versão decodificada do mesmo) com o uso de um avaliador de similaridade de áudio como aqui discutido (em que o sinal de áudio a ser codificado é usado como o sinal de áudio de referência e em que uma versão decodificada de um sinal de áudio codificado com o uso de um ou mais parâmetros candidatos é usado como o sinal de áudio de entrada para o avaliador de similaridade de áudio).
[059] Esse codificador de áudio é baseado na constatação de que a determinação acima mencionada das informações de similaridade é adequada para uma avaliação de uma impressão auditiva obtida por uma codificação de áudio. Por exemplo, por meio da obtenção das informações de similaridade com o uso de um sinal de áudio a ser codificado como um sinal de referência e com o uso de uma versão codificada e subsequentemente decodificada do sinal de áudio a ser codificado como o sinal de áudio de entrada para a determinação das informações de similaridade, pode ser avaliado se o processo de codificação e decodificação é adequado para reconstruir o sinal de áudio a ser codificado com pequenas perdas perceptuais. No entanto, a determinação acima mencionada das informações de similaridade se concentra na impressão auditiva que pode ser obtida, ao invés de um acordo de formas de onda. Assim, pode-se constatar, com o uso das informações de similaridade obtidas, quais parâmetros de codificação (dentre uma certa escolha de parâmetros de codificação) fornecem uma melhor (ou pelo menos suficientemente boa) impressão auditiva. Dessa forma, a determinação acima mencionada das informações de similaridade pode ser usada para tomar uma decisão sobre o parâmetro de codificação sem exigir identidade (ou similaridade) de formas de onda.
[060] Por conseguinte, os parâmetros de codificação podem ser escolhidos de forma confiável, evitando restrições impraticáveis (como similaridade de forma de onda).
[061] Em uma modalidade preferencial, o codificador de áudio é configurado para codificar um ou mais parâmetros de extensão de largura de banda que definem uma regra de processamento a ser usada ao lado de um decodificador de áudio para derivar um conteúdo de áudio ausente (por exemplo, um conteúdo de alta frequência, que é não codificado de forma preservadora de forma de onda pelo codificador de áudio) com base em um conteúdo de áudio de uma faixa de frequência diferente codificada pelo codificador de áudio (por exemplo, o codificador de áudio é um codificador de áudio paramétrico ou semiparamétrico).
[062] Verificou-se que a determinação acima mencionada da informação de similaridade é adequada para a seleção de parâmetros de extensão de largura de banda. Deve-se observar que a extensão paramétrica da largura de banda,
que são parâmetros de extensão da largura de banda, normalmente não preserva a forma de onda. Além disso, verificou-se que a determinação acima mencionada da similaridade de sinais de áudio é muito adequada para avaliar similaridades ou diferenças em uma faixa de frequência de áudio mais alta, na qual a extensão da largura de banda está tipicamente ativa, e na qual o sistema auditivo humano é normalmente insensível à fase. Assim, o conceito permite julgar conceitos de extensão de largura de banda, que podem, por exemplo, derivar componentes de alta frequência com base em componentes de baixa frequência, de forma eficiente e perceptualmente precisa.
[063] Em uma modalidade preferencial, o codificador de áudio é configurado para usar um Preenchimento de Lacuna Inteligente (por exemplo, conforme definido no padrão MPEG-H 3D Audio, por exemplo, na versão disponível na data de depósito do presente pedido, ou em modificações do mesmo), e o codificador de áudio é configurado para determinar um ou mais parâmetros do Preenchimento de Lacuna Inteligente com o uso de uma avaliação da similaridade entre o sinal de áudio a ser codificado e o sinal de áudio codificado (em que, por exemplo, o sinal de áudio a ser codificado é usado como o sinal de áudio de referência e em que, por exemplo, uma versão decodificada de um sinal de áudio codificado com o uso de um ou mais parâmetros de preenchimento de lacuna inteligente candidato é usado como o sinal de áudio de entrada para a avaliação de similaridade de áudio).
[064] Verificou-se que o conceito acima mencionado para a avaliação de similaridades entre sinais de áudio é bem adequado para uso no contexto de um “preenchimento de lacuna inteligente”, devido ao fato de que a determinação da similaridade entre os sinais de áudio considera critérios, que são altamente importantes para a impressão auditiva.
[065] Em uma modalidade preferencial, o codificador de áudio é configurado para selecionar uma ou mais associações entre uma faixa de frequência de origem e uma faixa de frequência alvo para uma extensão de largura de banda (por exemplo, uma associação que determina com base em qual faixa de frequência de origem de uma pluralidade de faixas de frequência de origem selecionáveis, um conteúdo de áudio de uma faixa de frequência alvo deve ser determinado) e/ou um ou mais parâmetros de operação de processamento para uma extensão de largura de banda (que pode, por exemplo, determinar parâmetros de uma operação de processamento, como uma operação de branqueamento ou uma substituição de ruído, que é executada ao fornecer um conteúdo de áudio de uma faixa de frequência alvo com base em uma faixa de frequência de origem e/ou uma adaptação de propriedades tonais e/ou uma adaptação de um envelope espectral) na dependência da avaliação de um similaridade entre um sinal de áudio a ser codificado e um sinal de áudio codificado.
[066] Verificou-se que a seleção de uma ou mais associações entre uma faixa de frequência de origem e uma faixa de frequência alvo e/ou a seleção de um ou mais parâmetros de operação de processamento para uma extensão de largura de banda pode ser realizada com bons resultados com o uso da abordagem mencionada acima para a avaliação de uma similaridade entre os sinais de áudio. Mediante a comparação de um sinal de áudio “original” a ser codificado com uma versão codificada e decodificada (codificada e decodificada novamente com o uso de uma associação específica e/ou um processamento específico entre uma faixa de frequência de origem e uma faixa de frequência alvo, ou entre faixas de frequência de origem e faixas de frequência alvo), pode-se avaliar se a associação específica fornece uma impressão auditiva similar à original ou não.
[067] O mesmo também se aplica à escolha de outros parâmetros de operação de processamento. Dessa forma, mediante a verificação, para diferentes configurações da codificação de áudio (e da decodificação de áudio), de quão bem o sinal de áudio codificado e decodificado concorda com o sinal de áudio de entrada (original), pode-se constatar qual associação específica (entre uma frequência de origem faixa e uma faixa de frequência alvo, ou entre faixas de frequência de origem e faixas de frequência alvo) fornece a melhor similaridade (ou pelo menos uma similaridade suficientemente boa) ao comparar a versão codificada e decodificada do conteúdo de áudio com a versão original do conteúdo de áudio. Dessa forma, as configurações de codificação adequadas (por exemplo, uma associação adequada entre uma faixa de frequência de origem e uma faixa de frequência alvo) podem ser escolhidas. Além disso, parâmetros de operação de processamento adicionais também podem ser selecionados com o uso da mesma abordagem.
[068] Em uma modalidade preferencial, o codificador de áudio é configurado para selecionar uma ou mais associações entre uma faixa de frequência de origem e uma faixa de frequência alvo para uma extensão de largura de banda. O codificador de áudio é configurado para permitir ou proibir seletivamente uma mudança de uma associação entre uma faixa de frequência de origem e uma faixa de frequência alvo na dependência de uma avaliação de uma modulação de um envelope (por exemplo, de um sinal de áudio a ser codificado) em um antigo ou um novo intervalo de frequência alvo.
[069] Mediante o uso desse conceito, uma mudança de uma associação entre uma faixa de frequência de origem e uma faixa de frequência alvo pode ser proibida, se tal mudança na associação entre a faixa de frequência de origem e a faixa de frequência alvo trouxer artefatos perceptíveis. Assim, uma comutação entre deslocamentos de frequência do preenchimento de lacuna inteligente pode ser limitada. Por exemplo, uma mudança da associação entre a faixa de frequência de origem e a faixa de frequência alvo pode ser seletivamente permitida se for verificado que há uma modulação suficiente do envelope (por exemplo, mais alto que um certo limite) que (suficientemente) mascara a modulação ocasionada pela mudança da associação.
[070] Em uma modalidade preferencial, o codificador de áudio é configurado para determinar uma intensidade de modulação de um envelope em uma faixa de frequência alvo (antiga ou nova) em uma faixa de frequência de modulação correspondente a uma taxa de quadros do codificador e para determinar uma medida de sensibilidade na dependência da força de modulação determinada (por exemplo, de modo que a medida de similaridade seja inversamente proporcional à força de modulação).
[071] O codificador de áudio é configurado para decidir se é permitido ou proibido alterar uma associação entre uma faixa de frequência alvo e uma faixa de frequência de origem na dependência da medida de sensibilidade (por exemplo, apenas para permitir uma mudança de uma associação entre uma faixa de frequência alvo e uma faixa de frequência de origem quando a medida de sensibilidade é menor do que um valor de limite predeterminado, ou apenas para permitir uma mudança de uma associação entre uma faixa de frequência alvo e uma faixa de frequência de origem quando há uma força de modulação que é maior do que um nível de limite na faixa de frequência alvo).
[072] Consequentemente, pode ser alcançado que a mudança da associação entre uma faixa de frequência alvo e uma faixa de frequência de origem ocorre apenas se uma modulação (parasitária) ocasionada por tal mudança for suficientemente mascarada pela modulação (original) na faixa de frequência alvo (no qual a modulação parasitária seria introduzida). Assim, artefatos audíveis podem ser evitados de forma eficiente.
[073] Uma modalidade de acordo com a presente invenção cria um codificador de áudio para codificar um sinal de áudio, em que o codificador de áudio é configurado para determinar um ou mais parâmetros de codificação na dependência de um sinal de áudio a ser codificado com o uso de uma rede neural. A rede neural é treinada com o uso de um avaliador de similaridade de áudio conforme discutido neste documento.
[074] Ao usar uma rede neural, que é treinada com o uso do avaliador de valor de similaridade de áudio mencionado acima, para decidir sobre um ou mais parâmetros de codificação, uma complexidade computacional pode ser reduzida ainda mais. Em outras palavras, a avaliação de similaridade de áudio, conforme mencionado neste documento, pode ser usada para fornecer os dados de treinamento para uma rede neural, e a rede neural pode se adaptar (ou pode ser adaptada) para tomar decisões de parâmetro de codificação que são suficientemente similares às decisões de parâmetro de codificação que seriam obtidas por meio da avaliação da qualidade do áudio com o uso do avaliador de similaridade de áudio.
[075] Uma modalidade de acordo com a presente invenção cria um avaliador de similaridade de áudio.
[076] O avaliador de similaridade de áudio é configurado para obter sinais de envelope para uma pluralidade de (de preferência sobreposição) faixas de frequência (por exemplo, com o uso de um banco de filtros ou um banco de filtros Gammatone e uma retificação e uma filtração em passa-baixa temporal e um ou mais processos de adaptação que podem, por exemplo, modelar um pré-mascaramento e/ou um pós-mascaramento em um sistema auditivo) com base em um sinal de áudio de entrada (por exemplo, para realizar uma demodulação de envelope em sub-bandas espectrais).
[077] O avaliador de similaridade de áudio é configurado para comparar uma representação de análise do sinal de áudio de entrada (por exemplo, uma "representação interna”, como as informações de modulação obtidas ou uma representação de domínio de frequência de tempo) com uma representação de análise de referência associada a um sinal de áudio de referência (por exemplo, com o uso de uma representação de diferença interna, em que a representação de diferença interna pode, por exemplo, descrever uma diferença entre a representação de análise obtida e a representação de análise de referência, em que uma ou mais operações de ponderação ou operações de modificação podem ser aplicadas, como uma escala da representação de diferença interna com base em um grau de comodulação ou uma ponderação assimétrica de valores positivos e negativos da representação de diferença interna), a fim de obter uma informação sobre uma similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência (para exemplo, um único valor que descreve uma similaridade perceptual entre o sinal de áudio de entrada e o sinal de áudio de referência).
[078] O avaliador de similaridade de áudio é configurado para ajustar uma ponderação de uma diferença entre a representação de análise obtida (por exemplo, uma informação de modulação; por exemplo, uma representação interna) e a representação de análise de referência (por exemplo, uma informação de modulação de referência associada a um sinal de áudio de referência) na dependência de uma comodulação (por exemplo, entre os sinais de envelope obtidos ou uma informação de modulação obtida) em duas ou mais faixas de frequência acústica adjacentes do sinal de áudio de entrada ou na dependência de uma comodulação (por exemplo, entre os sinais de envelope associados ao sinal de referência ou entre a informação de modulação de referência) em duas ou mais faixas de frequência acústica adjacentes do sinal de áudio de referência (em que, por exemplo, um peso aumentado é dado à diferença no caso de um grau comparativamente alto de comodulação ser encontrado quando comparado a um caso em que um grau comparativamente baixo de comodulação é encontrado) (e em que o grau de comodulação é, por exemplo, encontrado por meio da determinação de uma covariância entre envelopes temporais associados a diferentes faixas de frequência acústica).
[079] Essa modalidade é baseada na constatação de que uma comodulação em duas ou mais faixas de frequência adjacentes normalmente tem o efeito de que as distorções em tais faixas de frequência comoduladas são percebidas mais fortes do que as distorções em faixas de frequência adjacentes não comoduladas (ou fracamente comoduladas). Consequentemente, ponderando os desvios entre os sinais de áudio a serem comparados (por exemplo, entre um sinal de áudio de entrada e um sinal de áudio de referência) relativamente mais forte em faixas de frequência fortemente comoduladas (quando comparado a uma ponderação em faixas de frequência não comoduladas ou mais fracamente comoduladas) , a avaliação da qualidade do áudio pode ser realizada de uma maneira bem adaptada à percepção humana. Normalmente, as diferenças entre as representações de análise obtidas, que podem ser baseadas em sinais de envelope para uma pluralidade de faixas de frequência, podem ser comparadas, e em tais representações de análise, faixas de frequência, que compreendem uma comodulação comparativamente mais alta,
podem ser ponderadas mais fortemente do que faixas de frequência que compreendem comodulação comparativamente menor. Consequentemente, a avaliação de similaridade pode ser bem adaptada a uma percepção humana.
[080] Uma modalidade de acordo com a invenção cria um método para avaliar uma similaridade entre sinais de áudio.
[081] O método compreende a obtenção de sinais de envelope para uma pluralidade de (de preferência sobreposição) faixas de frequência (por exemplo, com o uso de um banco de filtros ou um banco de filtros Gammatone e uma retificação e uma filtração em passa-baixa temporal e um ou mais processos de adaptação que podem, por exemplo, modelar um pré-mascaramento e/ou um pós-mascaramento em um sistema auditivo) com base em um sinal de áudio de entrada (por exemplo, para realizar uma demodulação de envelope em sub-bandas espectrais).
[082] O método compreende a obtenção de uma informação de modulação (por exemplo, sinais de saída dos filtros de modulação) associada aos sinais de envelope para uma pluralidade de faixas de frequência de modulação (por exemplo, com o uso de um banco de filtros de modulação ou com o uso de filtros de modulação). As informações de modulação descrevem (por exemplo, na forma de sinais de saída do banco de filtros de modulação ou na forma de sinais de saída dos filtros de modulação) a modulação dos sinais de envelope (por exemplo, sinais de envelope temporal ou sinais de envelope espectral). As informações de modulação podem, por exemplo, ser consideradas como uma representação interna e podem, por exemplo, ser usadas para realizar uma análise de modulação de envelope.
[083] O método compreende a comparação das informações de modulação obtidas (por exemplo, uma representação interna) com uma informação de modulação de referência associada a um sinal de áudio de referência (por exemplo, com o uso de uma representação de diferença interna, em que a representação de diferença interna pode, por exemplo, descrever uma diferença entre as informações de modulação obtidas e as informações de modulação de referência, em que uma ou mais operações de ponderação ou operações de modificação podem ser aplicadas,
como uma escala da representação de diferença interna com base em um grau de comodulação ou uma ponderação assimétrica de valores positivos e negativos da representação de diferença interna), a fim de obter uma informação sobre uma similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência (por exemplo, um único valor que descreve uma similaridade perceptual entre o sinal de áudio de entrada e o sinal de áudio de referência) .
[084] Uma modalidade de acordo com a invenção cria um método para codificar um sinal de áudio, em que o método compreende determinar um ou mais parâmetros de codificação na dependência de uma avaliação de uma similaridade entre um sinal de áudio a ser codificado e um sinal de áudio codificado, e em que o método compreende avaliar a similaridade entre o sinal de áudio a ser codificado e o sinal de áudio codificado como aqui discutido (em que, por exemplo, o sinal de áudio a ser codificado é usado como o sinal de áudio de referência e em que uma versão decodificada de um sinal de áudio codificado com o uso de um ou mais parâmetros candidatos são usados como o sinal de áudio de entrada para o avaliador de similaridade de áudio).
[085] Uma modalidade de acordo com a invenção cria um método para codificar um sinal de áudio.
[086] O método compreende determinar um ou mais parâmetros de codificação na dependência de um sinal de áudio a ser codificado com o uso de uma rede neural, em que a rede neural é treinada com o uso de um método para avaliar uma similaridade entre os sinais de áudio, como aqui discutido
[087] Uma modalidade de acordo com a invenção cria um método para avaliar uma similaridade entre sinais de áudio (por exemplo, entre um sinal de áudio de entrada e um sinal de áudio de referência).
[088] O método compreende a obtenção de sinais de envelope para uma pluralidade de (de preferência sobreposição) faixas de frequência (por exemplo, com o uso de um banco de filtros ou um banco de filtros Gammatone e uma retificação e uma filtração em passa-baixa temporal e um ou mais processos de adaptação que podem, por exemplo, modelar um pré-mascaramento e/ou um pós-mascaramento em um sistema auditivo) com base em um sinal de áudio de entrada (por exemplo, para realizar uma demodulação de envelope em sub-bandas espectrais).
[089] O método compreende a comparação de uma representação de análise do sinal de áudio de entrada (por exemplo, uma "representação interna”, como as informações de modulação obtidas ou uma representação de domínio de frequência de tempo) com uma representação de análise de referência associada a um sinal de áudio de referência (por exemplo, com o uso de uma representação de diferença interna, em que a representação de diferença interna pode, por exemplo, descrever uma diferença entre a representação de análise obtida e a representação de análise de referência, em que uma ou mais operações de ponderação ou operações de modificação podem ser aplicadas, como uma escala da representação de diferença interna com base em um grau de comodulação ou uma ponderação assimétrica de valores positivos e negativos da representação de diferença interna), a fim de obter uma informação sobre uma similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência (para exemplo, um único valor que descreve uma similaridade perceptual entre o sinal de áudio de entrada e o sinal de áudio de referência).
[090] O método compreende o ajuste de uma ponderação de uma diferença entre a representação de análise obtida (por exemplo, uma informação de modulação; por exemplo, uma representação interna) e a representação de análise de referência (por exemplo, uma informação de modulação de referência associada a um sinal de áudio de referência) na dependência de uma comodulação. Por exemplo, a ponderação é ajustada na dependência de uma comodulação (por exemplo, entre os sinais de envelope obtidos ou uma informação de modulação obtida) em duas ou mais faixas de frequência acústica adjacentes do sinal de áudio de entrada. Alternativamente, a ponderação é ajustada na dependência de uma comodulação (por exemplo, entre os sinais de envelope associados ao sinal de referência ou entre as informações de modulação de referência) em duas ou mais faixas de frequência acústica adjacentes do sinal de áudio de referência. Por exemplo, um peso maior é dado à diferença no caso em que um grau comparativamente alto de comodulação é encontrado quando comparado a um caso em que um grau comparativamente baixo de comodulação é encontrado. O grau de comodulação é, por exemplo, encontrado por meio da determinação de uma covariância entre envelopes temporais associados a diferentes faixas de frequência acústica.
[091] Esses métodos são baseados nas mesmas considerações dos avaliadores de similaridade de áudio mencionados acima e dos codificadores de áudio mencionados acima.
[092] Além disso, os métodos podem ser complementados por quaisquer recursos, funcionalidades e detalhes discutidos neste documento com relação aos avaliadores de similaridade de áudio e com relação aos codificadores de áudio. Os métodos podem ser complementados por tais recursos, funcionalidades e detalhes tanto individualmente quanto em combinação.
[093] Uma modalidade de acordo com a invenção cria um programa de computador para executar os métodos discutidos neste documento quando o programa de computador é executado em um computador.
[094] O programa de computador pode ser complementado por qualquer um dos recursos, funcionalidades e detalhes descritos neste documento em relação aos aparelhos e métodos correspondentes.
BREVE DESCRIÇÃO DAS FIGURAS
[095] As modalidades de acordo com a presente invenção serão subsequentemente descritas com referência às figuras anexas nas quais: A Figura 1 mostra um diagrama de blocos esquemático de um avaliador de similaridade de áudio, de acordo com uma modalidade da presente invenção; As Figuras 2a e 2b mostram um diagrama de blocos esquemático de um avaliador de similaridade de áudio, de acordo com uma modalidade da presente invenção; A Figura 3 mostra um diagrama de blocos esquemático de um codificador de áudio com seleção automática, de acordo com uma modalidade da presente invenção; A Figura 4 mostra um diagrama de blocos esquemático de um codificador de áudio com bloqueio de mudança, de acordo com uma modalidade da presente invenção; A Figura 5a mostra um diagrama de blocos esquemático de um codificador de áudio com uma rede neural em um modo de operação, de acordo com uma modalidade da presente invenção; A Figura 5b mostra um diagrama de blocos esquemático de uma rede neural para uso em um codificador de áudio em um modo de treinamento, de acordo com uma modalidade da presente invenção; A Figura 6 mostra um diagrama de blocos esquemático de um avaliador de similaridade de áudio, de acordo com uma modalidade da presente invenção; A Figura 7 mostra uma representação esquemática de um fluxo de sinal e de blocos de processamento de modelo de processamento auditivo Dau et al.; A Figura 8 mostra uma representação esquemática de respostas de impulso de banco de filtros gamma-tone; A Figura 9 mostra uma representação esquemática de um Órgão de Corti (modificado de [14]); A Figura 10 mostra um diagrama de blocos esquemático de um decodificador de áudio com o uso de IGF; A Figura 11 mostra uma representação esquemática de uma seleção de bloco de IGF; A Figura 12 mostra um diagrama de blocos esquemático de uma geração de itens de escolha automatizada de IGF; A Figura 13 mostra uma representação esquemática de uma escolha de blocos de IGF para a “trilogia” de trecho de áudio por meio de controle automatizado, em que para cada quadro (círculos), a opção de bloco de origem “sT” [0,1,2,3] é mostrada para cada um dos três blocos alvo como uma linha preta sobreposta no espectrograma; A Figura 14 mostra uma representação esquemática de uma escolha de níveis de clareamento de IGF para a “trilogia” de trecho de áudio por meio de controle automatizado, em que para cada quadro (círculos), a escolha de nível de clareamento [0,1,2] é mostrada para cada um dos três blocos alvo como uma linha preta sobreposta no espectrograma; A Tabela 1 mostra os itens de um teste de escuta; A Tabela 2 mostra as condições de um teste de escuta; A Figura 15 mostra uma representação gráfica de classificações MUSHRA absolutas de controles de IGF automatizados e fixos propostos; e A Figura 16 mostra uma representação gráfica das classificações MUSHRA de diferença comparando controle de IGF automatizado com fixo proposto.
DESCRIÇÃO DETALHADA DAS MODALIDADES
[096] A seguir, serão descritas modalidades de acordo com o presente pedido. No entanto, deve-se notar que as modalidades descritas a seguir podem ser usadas individualmente e também podem ser usadas em combinação.
[097] Além disso, deve-se notar que as características, funcionalidades e detalhes descritos em relação às seguintes modalidades podem ser opcionalmente introduzidos em qualquer uma das modalidades, conforme definido pelas reivindicações, tanto individualmente como em combinação.
[098] Além disso, deve-se notar que as modalidades descritas a seguir podem, opcionalmente, ser complementadas por qualquer uma das características, funcionalidades e detalhes conforme definido nas reivindicações.
1. AVALIADOR DE SIMILARIDADE DE ÁUDIO DE ACORDO COM A FIGURA 1
[099] A Figura 1 mostra um diagrama de blocos esquemático de um avaliador de similaridade de áudio, de acordo com uma modalidade da invenção.
[0100] O avaliador de similaridade de áudio 100 de acordo com a Figura 1 recebe um sinal de áudio de entrada 110 (por exemplo, um sinal de áudio de entrada do avaliador de similaridade de áudio) e fornece, com base no mesmo, uma informação de similaridade 112, que pode, por exemplo, assumir a forma de um valor escalar.
[0101] O avaliador de similaridade de áudio 100 compreende uma determinação de sinal de envelope (ou determinador de sinal de envelope) 120 que é configurada para obter sinais de envelope 122a, 122b, 122c para uma pluralidade de faixas de frequência com base no sinal de áudio de entrada. De preferência, as faixas de frequência para as quais os sinais de envelope 122a-122c são fornecidos, podem ser sobrepostas. Por exemplo, o determinador do sinal de envelope pode usar um banco de filtros ou um banco de filtros Gamma-tone e uma retificação e uma filtração em passa-baixa temporal e um ou mais processos de adaptação que podem, por exemplo, modelar um pré-mascaramento e/ou um pós-mascaramento em um sistema auditivo. Em outras palavras, a determinação do sinal de envelope 120 pode, por exemplo, realizar uma demodulação de envelope de sub-bandas espectrais do sinal de áudio de entrada.
[0102] Ademais, o avaliador de similaridade de áudio 100 compreende uma determinação de informação de modulação (ou determinador de informação de modulação) 160, que recebe os sinais de envelope 122a-122c e fornece, com base nos mesmos, informações de modulação 162a-162c. De um modo geral, a determinação de informações de modulação 160 é configurada para obter uma informação de modulação 162a-162c associada aos sinais de envelope 122a-122c para uma pluralidade de faixas de frequência de modulação. As informações de modulação descrevem a modulação (temporal) dos sinais de envelope.
[0103] As informações de modulação 162a-162c podem, por exemplo, ser fornecidas com base em sinais de saída de filtros de modulação ou com base em sinais de saída de um banco de filtros de modulação. Por exemplo, as informações de modulação 162a podem ser associadas a uma primeira faixa de frequência e pode, por exemplo, descrever a modulação de um primeiro sinal de envelope 122a (que está associado a essa primeira faixa de frequência) para uma pluralidade de faixas de frequência de modulação. Em outras palavras, as informações de modulação 162a podem não ser um valor escalar, mas podem compreender uma pluralidade de valores (ou mesmo uma pluralidade de sequências de valores) que estão associados a diferentes frequências de modulação que estão presentes no primeiro sinal de envelope 122a que é associado a uma primeira faixa de frequência do sinal de áudio de entrada. De modo similar, as segundas informações de modulação 162b podem não ser um valor escalar, mas podem compreender uma pluralidade de valores ou mesmo uma pluralidade de sequências de valores associados a diferentes faixas de frequência de modulação que estão presentes no segundo sinal de envelope 122b, que está associado a um segunda faixa de frequência do sinal de áudio de entrada
110. Dessa forma, para cada uma de uma pluralidade de faixas de frequência em consideração (para os quais sinais de envelope separados 122a-122c são providos pelo determinador de sinal de envelope 120), as informações de modulação podem ser fornecidas para uma pluralidade de faixas de frequência de modulação. Redigido ainda de forma diferente, para uma porção (por exemplo, um quadro) do sinal de áudio de entrada 110, uma pluralidade de conjuntos de valores de informações de modulação são fornecidos, em que os diferentes conjuntos estão associados a diferentes faixas de frequência do sinal de áudio de entrada, e em que cada dos conjuntos descreve uma pluralidade de faixas de frequência de modulação (ou seja, cada um dos conjuntos descreve a modulação de um sinal de envelope).
[0104] Ademais, o avaliador de similaridade de áudio compreende uma comparação ou comparador 180, que recebe as informações de modulação 162a- 162c e também uma informação de modulação de referência 182a-182c que está associada a um sinal de áudio de referência. Além disso, a comparação 180 é configurada para comparar as informações de modulação obtidas 162a-162c (obtidas com base no sinal de áudio de entrada 110) com as informações de modulação de referência 182a-182c associadas a um sinal de referência, a fim de obter uma informação sobre uma similaridade (avaliada perceptualmente) entre o sinal de áudio de entrada 110 e o sinal de áudio de referência.
[0105] Por exemplo, a comparação 180 pode obter um único valor que descreve uma similaridade perceptual entre o sinal de áudio de entrada e o sinal de áudio de referência como as informações de similaridade 112. Ademais, deve-se notar que a comparação 180 pode, por exemplo, usar uma representação de diferença interna, em que a representação de diferença interna pode, por exemplo, descrever uma diferença entre as informações de modulação obtidas e as informações de modulação de referência. Por exemplo, uma ou mais operações de ponderação ou operações de modificação podem ser aplicadas, como uma escala da representação de diferença interna com base em um grau de comodulação e/ou uma ponderação assimétrica de valores positivos e negativos da representação de diferença interna na derivação das informações de similaridade.
[0106] No entanto, deve-se notar que detalhes adicionais (opcionais) da determinação do sinal de envelope 120, da determinação da informação de modulação 160 e da comparação 180 são descritos abaixo e podem, opcionalmente, ser introduzidos no avaliador de similaridade de áudio 100 da Figura 1, tanto individualmente como tomados em combinação.
[0107] Opcionalmente, as informações de modulação de referência 182a-182c podem ser obtidas com o uso de uma determinação de informações de modulação de referência opcional 190 com base em um sinal de áudio de referência
192. A determinação de informações de modulação de referência pode, por exemplo, executar a mesma funcionalidade como a determinação de sinal de envelope 120 e a determinação de informações de modulação 160 com base no sinal de áudio de referência 192.
[0108] No entanto, deve-se notar que as informações de modulação de referência 182a-182c também podem ser obtidas de uma fonte diferente, por exemplo, de uma base de dados ou de uma memória ou de um dispositivo remoto que não faz parte do avaliador de similaridade de áudio.
[0109] Deve-se ainda notar que os blocos mostrados na Figura 1 podem ser considerados como blocos (funcionais) ou unidades (funcionais) de uma implantação de hardware ou de uma implantação de software, conforme será detalhado a seguir.
2. AVALIADOR DE SIMILARIDADE DE ÁUDIO DE ACORDO COM A FIGURA 2
[0110] As Figuras 2a e 2b mostram um diagrama de blocos esquemático de um avaliador de similaridade de áudio 200, de acordo com uma modalidade da presente invenção.
[0111] O avaliador de similaridade de áudio 200 é configurado para receber um sinal de áudio de entrada 210 e para fornecer, com base no mesmo, uma informação de similaridade 212. Além disso, o avaliador de similaridade de áudio 200 pode ser configurado para receber uma informação de modulação de referência 282 ou para calcular as informações de modulação de referência 282 por si só (por exemplo, da mesma maneira em que as informações de modulação são calculadas). As informações de modulação de referência 282 estão tipicamente associadas a um sinal de áudio de referência.
[0112] O avaliador de similaridade de áudio 200 compreende uma determinação de sinal de envelope 220, que pode, por exemplo, compreender a funcionalidade da determinação de sinal de envelope 120. O avaliador de similaridade de áudio também pode compreender uma determinação de informações de modulação 260 que pode, por exemplo, compreender a funcionalidade da determinação de informações de modulação 160. Ademais, o avaliador de similaridade de áudio pode compreender uma comparação 280 que pode, por exemplo, corresponder à comparação 180.
[0113] Ademais, o avaliador de similaridade de áudio 200 pode opcionalmente compreender uma determinação de comodulação, que pode operar com base em diferentes sinais de entrada e que pode ser implantada de diferentes formas. Exemplos para a determinação da comodulação também são mostrados no avaliador de similaridade de áudio.
[0114] A seguir, detalhes dos blocos funcionais individuais ou unidades funcionais do avaliador de similaridade de áudio 200 serão descritos.
[0115] A determinação do sinal de envelope 220 compreende uma filtração 230, que recebe o sinal de áudio de entrada 210 e que fornece, com base no mesmo, uma pluralidade de sinais filtrados (de preferência, com filtrados em banda passante) 232a-232e. A filtração 230 pode, por exemplo, ser implantada com o uso de um banco de filtros e pode, por exemplo, modelar uma filtração de membrana basilar. Por exemplo, os filtros podem ser considerados “filtros auditivos” e podem, por exemplo, ser implantados com o uso de um banco de filtros Gamma-tone. Em outras palavras, as larguras de banda dos filtros de banda passante que realizam a filtração podem aumentar com o aumento da frequência central dos filtros. Dessa forma, cada um dos sinais filtrados 232a-232e pode representar uma certa faixa de frequência do sinal de áudio de entrada, em que as faixas de frequência podem ser sobrepostas (ou podem ser não sobrepostas em algumas implantações).
[0116] Ademais, processamento similar pode ser aplicado a cada um dos sinais filtrados 232a, de modo que apenas um caminho de processamento para um dado sinal filtrado (representativo) 232c seja descrito a seguir. No entanto, as explicações fornecidas com relação ao processamento do sinal filtrado 232c podem ser assumidas para o processamento dos outros sinais filtrados 232a, 232b, 232d, 232e (em que, no presente exemplo, apenas cinco sinais filtrados são mostrados por questão de simplicidade, enquanto um número significativamente maior de sinais filtrados pode ser usado em implantações reais).
[0117] Uma cadeia de processamento, que processa o sinal filtrado 232c em consideração, pode, por exemplo, compreender uma retificação 236, uma filtração em passa-baixa 240 e uma adaptação 250.
[0118] Por exemplo, uma retificação de meia onda 236 (que pode, por exemplo, remover a meia onda negativa e criar meias ondas positivas pulsantes) pode ser aplicada ao sinal filtrado 232c, para assim obter um sinal retificado 238. Além disso, uma filtração em passa-baixa 240 é aplicada ao sinal retificado 238 para, assim, obter um sinal em passa-baixa suave 242. A filtração em passa-baixa pode, por exemplo, compreender uma frequência de corte de 1.000 Hz, mas diferentes frequências de corte (que podem ser preferencialmente menores que 1.500 Hz ou menores que 2.000 Hz) podem ser aplicadas.
[0119] O sinal filtrado em passa-baixa 242 é processado por uma adaptação 250, que pode, por exemplo, compreender uma pluralidade de estágios de “controle de ganho automático” em cascata e, opcionalmente, um ou mais estágios de limitação. Os estágios de controle de ganho automático também podem ser considerados “circuitos de adaptação”. Por exemplo, cada um dos estágios de controle automático de ganho (ou controle de ganho adaptativo) pode compreender uma estrutura de circuito. O sinal de entrada de um estágio de controle de ganho automático (ou circuito de adaptação) (por exemplo, para o primeiro estágio de controle de ganho automático, o sinal filtrado em passa-baixa 242, e para os estágios de controle de ganho automático subsequentes, o sinal de saída do estágio de controle de ganho automático anterior) pode ser dimensionado por um controle de ganho adaptativo 254. Um sinal de saída 259 do estágio de controle de ganho automático pode ser a versão em escala do sinal de entrada do respectivo estágio de controle de ganho automático ou uma versão limitada da versão em escala 255 (por exemplo, no caso de uma limitação opcional 256 ser usada, que limita uma gama de valores do sinal). Em particular, o ganho que é aplicado na escala 254 pode ser variante no tempo e pode ser ajustado, com uma constante de tempo associada ao estágio de controle de ganho automático individual, na dependência do sinal em escala 255 fornecido pelo estágio receptivo. Por exemplo, uma filtração em passa- baixa 257 pode ser aplicada para derivar uma informação de controle de ganho 258 que determina um ganho (ou fator de escala) do controle de ganho adaptativo 254. A constante de tempo da filtração em passa-baixa 257 pode variar de estágio para estágio, para assim modelar diferentes efeitos de mascaramento que ocorrem no sistema auditivo humano. Foi constatado que o uso de uma pluralidade de estágios de controle de ganho automático traz resultados particularmente bons, em que o uso de cinco estágios de controle de ganho automático em cascata é recomendado (mas não necessário).
[0120] Como uma alternativa (opcional) para a retificação e filtração em passa-baixa, um envelope de Hilbert pode ser obtido com base nos sinais de saída 232a-232e dos filtros ou operação de filtração 230, a fim de obter, por exemplo, o sinal
242.
[0121] De um modo geral, é (opcionalmente) possível demodular os sinais de saída 232a-232e dos filtros ou operação de filtração 230, a fim de obter, por exemplo, o sinal 242.
[0122] Para concluir, a adaptação 250 compreende uma sequência (ou cascata) de estágios de controle de ganho automático, em que cada um dos estágios de controle de ganho realiza um escalonamento de seu sinal de entrada (o sinal filtrado em passa-baixa 242 ou o sinal de saída do estágio anterior) e, opcionalmente, uma operação de limitação (para assim evitar sinais excessivamente grandes). O ganho ou fator de escalonamento aplicado em cada um dos estágios de controle de ganho automático é determinado com o uso de uma estrutura de circuito de retroalimentação na dependência de uma saída da respectiva operação de escalonamento, em que alguma inércia (ou atraso) é introduzida, por exemplo, com o uso de um filtro passa-baixa no caminho de retroalimentação.
[0123] Para obter mais detalhes sobre a adaptação, também é feita referência à descrição abaixo, em que qualquer um dos detalhes descritos abaixo pode ser opcionalmente introduzido na adaptação 250.
[0124] A adaptação 250 fornece um sinal adaptado 252, que pode ser um sinal de saída de um último estágio de controle de ganho automático da cascata (ou sequência) de estágios de controle de ganho automático. O sinal adaptado 252 pode, por exemplo, ser considerado como um sinal de envelope e pode, por exemplo, corresponder a um dos sinais de envelope 122a a 122c.
[0125] Alternativamente, uma transformação logarítmica pode ser opcionalmente aplicada a fim de obter os sinais de envelope (222a a 222e).
[0126] Como outra alternativa, outra modelagem de um mascaramento direto pode ser opcionalmente aplicada, a fim de obter os sinais de envelope (222a a 222e)
[0127] Como já mencionado, a determinação do sinal de envelope 220 pode fornecer sinais de envelope individuais associados a diferentes faixas de frequência. Por exemplo, um sinal de envelope pode ser provido por sinal filtrado (sinal de banda passante) 232a-232e.
[0128] A seguir, os detalhes da determinação das informações de modulação serão descritos.
[0129] A determinação de informações de modulação recebe uma pluralidade de sinais de envelope 222a-222e (por exemplo, um sinal de envelope por faixa de frequência do sinal de áudio de entrada em consideração). Ademais, a determinação de informações de modulação 260 fornece informações de modulação 262a-262e (por exemplo, para cada um dos sinais de envelope 222a-222e em consideração). A seguir, será descrito o processamento para um sinal de envelope representativo 222c, mas processamento similar ou idêntico pode ser realizado para todos os sinais de envelope considerados 222a-222e.
[0130] Por exemplo, uma filtração 264 é aplicada ao sinal de envelope 222c. Alternativamente, dentro da filtração 264, ou além da filtração 264, uma redução de amostragem pode ser aplicada. A filtração pode ser realizada por um banco de filtros de modulação ou por uma pluralidade de filtros de modulação. Em outras palavras, diferentes faixas de frequência do sinal de envelope 222c podem ser separadas pela ferramenta de filtração 264 (em que as ditas faixas de frequência podem, opcionalmente, ser sobrepostas). Assim, a filtração 264 fornece tipicamente uma pluralidade de sinais filtrados por modulação 266a-266e com base no sinal de envelope 222c. Uma (opcional) remoção de DC 270 e uma (opcional) remoção de informações de fase 274 podem ser aplicadas a cada um dos sinais filtrados por modulação 266a-266e, para assim derivar sinais filtrados por modulação pós- processados 276a-276e. Os sinais filtrados por modulação pós-processados 276a- 276e estão associados a diferentes frequências de modulação (ou faixas de frequência de modulação) dentro de uma faixa de frequência do sinal de áudio de entrada 210. Em outras palavras, os sinais filtrados de modulação pós-processados 276a-276e podem representar um conjunto de valores de modulação associados a uma faixa de frequência do sinal de áudio de entrada 210 no qual o sinal de envelope 222c é baseado. De modo similar, podem ser obtidos os sinais pós-processados e filtrados por modulação que estão associados a diferentes faixas de frequência dos sinais de áudio de entrada com base em diferentes sinais de envelope 222a, 222b, 222d, 222e, e podem representar outros conjuntos de valores de modulação associados com respectivas faixas de frequência do sinal de áudio de entrada.
[0131] Para concluir, a determinação da informação de modulação 260 fornece um conjunto de valores de modulação para cada faixa de frequência do sinal de áudio de entrada em consideração.
[0132] Por exemplo, uma quantidade de informação pode ser reduzida de tal maneira que apenas um valor de modulação é fornecido por frequência de modulação (ou por faixa de frequência de modulação) e por faixa de frequência em consideração (de modo que os sinais filtrados de modulação pós-processados 276a- 276e sejam efetivamente representados por um único valor cada (em que esse único valor pode ser considerado como um valor de modulação).
[0133] A seguir, serão descritos os detalhes sobre a comparação 280.
[0134] A comparação 280 recebe os conjuntos 262a-262e de valores de modulação, que são fornecidos pela determinação de informações de modulação 260 descrita anteriormente. Além disso, a comparação 280 normalmente recebe conjuntos 282a-282e de valores de modulação de referência, que são tipicamente associados ao sinal de áudio de referência e que são considerados uma informação de modulação de referência 282 em sua totalidade.
[0135] A comparação 280 aplica opcionalmente uma suavização temporal 284 aos valores de modulação individuais dos conjuntos 262a-262e de valores de modulação. Ademais, a comparação 280 forma (ou computa) diferenças entre os respectivos valores de modulação e seus valores de modulação de referência associados.
[0136] A seguir, será descrito o processamento para um valor de modulação individual (representativo) (que está associado a uma frequência de modulação ou faixa de frequência de modulação, e que também está associado a uma faixa de frequência do sinal de áudio de entrada 210). Deve-se notar aqui que o valor de modulação em consideração é designado com 276c e que seu valor de modulação de referência associado é designado como 283c. Como pode ser visto, uma suavização temporal 284c é opcionalmente aplicada ao valor de modulação 276c antes de uma formação de diferença 288c ser aplicada. A formação de diferença 288c determina a diferença entre o valor de modulação 276c e seu valor de modulação de referência associado 283c. Consequentemente, é obtido um valor de diferença 289c, em que, opcionalmente, a suavização temporal 290c pode ser aplicada ao valor de diferença 289c. Além disso, uma ponderação 292c é aplicada ao valor de diferença 289c ou a uma versão temporariamente suavizada 291c do mesmo. A ponderação 292c pode, por exemplo, ser dependente de uma informação de comodulação associada à faixa de frequência à qual o valor de diferença 289c está associado. Ademais, a ponderação 292c pode, opcionalmente, também ser dependente de sinal ou “assimétrica”.
[0137] Por exemplo, se a faixa de frequência associada ao valor de diferença 289c compreende uma comodulação comparativamente alta com uma ou mais faixas de frequência adjacentes, um peso comparativamente alto pode ser aplicado ao valor de diferença 289c, ou à versão temporariamente suavizada 291c do mesmo, e se a faixa de frequência à qual o valor de diferença 289c está associado compreende uma comodulação comparativamente pequena com uma ou mais faixas de frequência adjacentes, então uma ponderação comparativamente pequena pode ser aplicada ao valor de diferença 289c, ou à versão temporariamente suavizada 291c do mesmo. Ademais, um peso comparativamente mais alto pode ser aplicado a valores positivos do valor de diferença 289c ou à versão temporariamente suavizada 291c do mesmo, em comparação com valores negativos do valor de diferença 289c ou à versão temporariamente suavizada 291c do mesmo (ou vice-versa). Em outras palavras, de um modo geral, uma ponderação dependente do sinal pode ser aplicada ao valor de diferença 289c, ou à versão temporariamente suavizada 291 do mesmo. Consequentemente, é obtido o valor de diferença ponderada 294c.
[0138] No entanto, de modo geral, deve-se notar que os valores de diferença ponderada (ou valores de diferença não ponderados, no caso de a ponderação opcional ser omitida) são obtidos para cada frequência de modulação (ou faixa de frequência de modulação), considerando cada faixa de frequência do sinal de áudio de entrada sob consideração. Assim, um número comparativamente grande de valores de diferença ponderada é obtido, os quais são inseridos em um processamento de combinação ou processamento de avaliação 298.
[0139] O processamento de combinação ou processamento de avaliação 298 pode, por exemplo, formar um único valor escalar, que constitui as informações de similaridade 212, com base nos valores de diferença ponderada (que, juntos, formam uma “representação de diferença” ou “representação de diferença interna IDR”). Por exemplo, o processamento de combinação ou processamento de avaliação pode realizar uma combinação de soma de quadrados dos valores de diferença ponderada 294a a 294e, para assim derivar as informações de similaridade 212.
[0140] Para concluir, a determinação do sinal de envelope 220 fornece sinais de envelope 222a-222e, por exemplo, um para cada banda de frequência (do sinal de áudio de entrada) em consideração. Uma filtração ou banco de filtros, uma retificação, uma filtração em passa-baixa e uma adaptação podem ser usados nesse processamento. A determinação de informações de modulação determina, por exemplo, um valor de modulação por frequência de modulação (ou faixa de frequência de modulação) em consideração e por faixa de frequência (do sinal de áudio de entrada) em consideração. Desse modo, há um conjunto de valores de modulação por faixa de frequência (do sinal de áudio de entrada) em consideração. Uma filtração, uma remoção de DC e uma remoção de informação de fase podem ser usadas nesse processamento. Finalmente, a comparação 280 compara os valores de modulação obtidos com base no sinal de áudio de entrada com os valores de modulação de referência associados ao sinal de áudio de referência, em que, opcionalmente, uma ponderação dos valores de diferença é aplicada. Finalmente, os valores de diferença ponderada são combinados em uma informação de similaridade compacta, que pode assumir a forma de um único valor escalar. Efetivamente, a comparação pode determinar um valor (escalar) que representa a diferença entre os valores de modulação obtidos com base no sinal de áudio de entrada e os valores de modulação associados ao sinal de áudio de referência. A comparação pode, por exemplo, formar um “valor de distância” ou “norma”, em que diferentes tipos de ponderação podem ser aplicados opcionalmente.
[0141] A seguir, algumas opções para a determinação da comodulação (ou informações da comodulação) serão descritas, em que deve ser notado que a informação da comodulação pode, por exemplo, ser usada para ajustar a ponderação dos valores de diferença (por exemplo, do valor de diferença 289c) ou de versões temporariamente suavizadas dos mesmos (por exemplo, do valor de diferença temporariamente suavizado 291c).
[0142] Como exemplo, uma comodulação pode ser determinada com base nos sinais de envelope 222a-222e. Por exemplo, um determinador de comodulação 299a recebe os sinais de envelope 222a-222e e fornece, com base nos mesmos, uma informação de comodulação 299b. Por exemplo, o determinador de comodulação 299a pode (por exemplo, individualmente) aplicar uma filtração em passa-baixa aos diferentes sinais de envelope 222a-222e. Além disso, o determinador de comodulação 299a pode, por exemplo, determinar uma covariância de dois ou mais sinais de envelope adjacentes (filtrados em passa-baixa), para assim obter uma informação de comodulação associada a uma certa faixa de frequência. Por exemplo, o determinador de comodulação 299a pode determinar uma covariância entre um determinado sinal de envelope (filtro passa-baixa) 222c e dois, três, quatro ou mais sinais de envelope 222a, 222b, 222d, 222e associados a faixas de frequência adjacentes, para assim derivar as informações de comodulação associadas à faixa de frequência em consideração. No entanto, o determinador de comodulação 299 pode determinar informações de comodulação individual para uma pluralidade de faixas de frequência (ou, de forma equivalente, associada a uma pluralidade de sinais de envelope).
[0143] No entanto, alternativamente, um determinador de comodulação 299c pode ser usado, o qual determina as informações de comodulação 299d com base nas informações de modulação 262a-262e. Por exemplo, o determinador de comodulação 299c pode comparar as informações de modulação associadas a faixas de frequência adjacentes, para assim obter as informações de comodulação (por exemplo, para diferentes faixas de frequência). Por exemplo, se a modulação em uma, duas, três, quatro ou mais faixas de frequência adjacentes a uma determinada faixa de frequência for similar à modulação na faixa de frequência dada, um grau comparativamente alto de comodulação pode ser indicado pelas informações de comodulação (e vice versa). Dessa forma, de forma similar ao determinador de comodulação 299a, o determinador de comodulação 299c pode fornecer informações de comodulação individuais associadas a diferentes faixas de frequência.
[0144] Alternativamente, um determinador de comodulação 299e pode ser usado, o qual determina as informações de comodulação 299f com base em um sinal de áudio de referência. Por exemplo, o determinador de comodulação 299e pode determinar as informações de comodulação 299f com base nas informações de modulação de referência 282a-282e. Por exemplo, o determinador de comodulação 299e pode compreender a mesma funcionalidade que o determinador de comodulação 299c.
[0145] No entanto, o determinador de comodulação 299e também pode determinar as informações de comodulação 299f com base no sinal de áudio de referência com o uso da mesma abordagem que o determinador de comodulação 299a.
[0146] No entanto, é de notar que também podem ser úteis conceitos diferentes para a determinação das informações de comodulação. Além disso, deve-
se observar que a determinação das informações da comodulação deve ser considerada opcional na sua totalidade.
[0147] Opcionalmente, as informações de modulação de referência 282a-282e podem ser obtidas com o uso de uma determinação de informações de modulação de referência opcional 281a com base em um sinal de áudio de referência
281. A determinação de informações de modulação de referência 281a pode, por exemplo, executar a mesma funcionalidade como a determinação de sinal de envelope 220 e a determinação de informações de modulação 260 com base no sinal de áudio de referência 281.
[0148] No entanto, deve-se notar que as informações de modulação de referência 282a-282e também podem ser obtidas de uma fonte diferente, por exemplo, de uma base de dados ou de uma memória ou de um dispositivo remoto que não faz parte do avaliador de similaridade de áudio.
[0149] Para concluir, as Figuras 2a e 2b revelam a funcionalidade de um avaliador de similaridade de áudio, de acordo com uma modalidade da invenção. No entanto, deve-se notar que funcionalidades individuais podem ser omitidas ou modificadas substancialmente, sem se desviar dos conceitos fundamentais. Deve-se notar que qualquer um daqueles detalhes que vão além do conceito do avaliador de similaridade de áudio 100 devem ser considerados opcionais e podem ser omitidos ou modificados individualmente.
3. CODIFICADOR DE ÁUDIO DE ACORDO COM A FIGURA 3
[0150] A Figura 3 mostra um diagrama de blocos esquemático de um codificador de áudio 300, de acordo com uma modalidade da presente invenção.
[0151] O codificador 300 está configurado para receber um sinal de áudio de entrada 310 (que é um sinal de áudio a ser codificado, ou um “sinal de áudio original”) e para fornecer, com base nisso, um sinal de áudio codificado 312. O codificador 300 compreende uma codificação (ou codificador ou codificador de núcleo) 320, que é configurado para fornecer o sinal de áudio codificado 312 com base no sinal de áudio de entrada 310. Por exemplo, a codificação 320 pode realizar uma codificação de domínio de frequência do conteúdo de áudio, que pode ser baseada no conceito de codificação AAC, ou uma de suas extensões. No entanto, a codificação 320 pode, por exemplo, realizar a codificação do domínio de frequência apenas para uma parte do espectro e pode aplicar uma determinação de parâmetro de extensão de largura de banda paramétrica e/ou um preenchimento de lacuna paramétrico (como, por exemplo, o “preenchimento de lacuna inteligente” IGF) determinação do parâmetro, para assim fornecer o sinal de áudio codificado (que pode ser uma corrente de bits que compreende uma representação codificada dos valores espectrais e uma representação codificada de um ou mais parâmetros de codificação ou parâmetros de extensão de largura de banda).
[0152] Deve-se notar que a presente descrição se refere a parâmetros de codificação. No entanto, em vez de parâmetros de codificação, todas as modalidades geralmente podem usar “parâmetros de codificação”, que podem ser parâmetros de codificação (que são normalmente usados pelo codificador e pelo decodificador, ou apenas pelo codificador) ou parâmetros de decodificação (que são tipicamente usados apenas pelo decodificador, mas que normalmente são sinalizados para o decodificador pelo codificador).
[0153] Tipicamente, a codificação 320 pode ser ajustada às características do sinal e/ou a uma igualdade de codificação desejada, com o uso de um ou mais parâmetros de codificação 324. Os parâmetros de codificação podem, por exemplo, descrever a codificação dos valores espectrais e/ou podem descrever uma ou mais características da extensão de largura de banda (ou preenchimento de lacuna), como uma associação entre blocos de origem e blocos alvo, um parâmetro de clareamento, etc.
[0154] No entanto, deve-se notar que diferentes conceitos de codificação também podem ser usados, como uma codificação baseada em codificação preditiva linear.
[0155] Ademais, o codificador de áudio compreende uma determinação de parâmetro de codificação que é configurada para determinar um ou mais parâmetros de codificação na dependência de uma avaliação de uma semelhança entre um sinal de áudio a ser codificado e um sinal de áudio codificado. Em particular, a determinação do parâmetro de codificação 330 é configurada para avaliar a similaridade entre o sinal de áudio a ser codificado (isto é, o sinal de áudio de entrada 310) e o sinal de áudio codificado com o uso de um avaliador de similaridade de áudio
340. Por exemplo, o sinal de áudio a ser codificado (ou seja, o sinal de áudio de entrada 310) é usado como um sinal de áudio de referência 192, 281 para a avaliação de similaridade pelo avaliador de similaridade de áudio 340 e uma versão decodificada 362 de um sinal de áudio 352 codificado com o uso de um ou mais parâmetros de codificação em consideração são usados como o sinal de entrada (por exemplo, como o sinal 110, 210) para o avaliador de similaridade de áudio 340. Em outras palavras, uma versão codificada e subsequentemente decodificada 362 do sinal de áudio original 310 é usada como sinal de entrada 110, 210 para o avaliador de similaridade de áudio e o sinal de áudio original 310 é usado como um sinal de referência 192, 281 para o avaliador de similaridade de áudio.
[0156] Assim, a determinação do parâmetro de codificação 330 pode, por exemplo, compreender uma codificação 350 e uma decodificação 360, bem como uma seleção de parâmetro de codificação 370. Por exemplo, a seleção de parâmetro de codificação 370 pode ser acoplada com a codificação 350 (e opcionalmente também com a decodificação 360) para, assim, controlar os parâmetros de codificação usados pela codificação 350 (que normalmente correspondem aos parâmetros de decodificação usados pela decodificação 360). Consequentemente, uma versão codificada 352 do sinal de áudio de entrada 310 é obtida pela codificação 350 e uma versão codificada e decodificada 362 é obtida pela decodificação 360, em que a versão codificada e decodificada 362 do sinal de áudio de entrada 310 é usada como um sinal de entrada para a avaliação de similaridade. Um possível atraso de codec introduzido na via de caminho do sinal 350 e 360 deve, de preferência, ser compensado no caminho direto de 310 antes de entrar na avaliação de similaridade.
[0157] Consequentemente, a seleção de parâmetro de codificação 370 recebe uma informação de similaridade 342 do avaliador de similaridade de áudio 340. Tipicamente, a seleção de parâmetro de codificação 370 recebe as informações de similaridade 342 para diferentes parâmetros de codificação ou conjuntos de parâmetros de codificação e, em seguida, decide qual parâmetro de codificação ou qual conjunto de parâmetros de codificação deve ser usado para o fornecimento do sinal de áudio codificado 312, que é emitido pelo codificador de áudio (por exemplo, na forma de uma corrente de bits de áudio a ser enviada para um decodificador de áudio ou para ser armazenada).
[0158] Por exemplo, a seleção de parâmetro de codificação 370 pode comparar a informação de similaridade que é obtida para diferentes parâmetros de codificação (ou para diferentes conjuntos de parâmetros de codificação) e para selecionar aqueles parâmetros de codificação para o fornecimento do sinal de áudio codificado 312 que resulta nas melhores informações de similaridade ou, pelo menos, em uma informação de similaridade aceitavelmente boa.
[0159] Além disso, deve-se notar que a avaliação de similaridade 340 pode, por exemplo, ser implantada com o uso do avaliador de similaridade de áudio 100 de acordo com a Figura 1 ou com o uso do avaliador de similaridade de áudio 200 de acordo com a Figura 2 (ou com o uso de qualquer um dos outros avaliadores de similaridade de áudio discutidos aqui em). Além disso, deve-se notar que a codificação 320 pode, opcionalmente, ser omitida. Por exemplo, as informações de áudio codificada 352, que são fornecidas como uma informação intermediária ao selecionar o parâmetro de codificação ou parâmetros de codificação, podem ser mantidas (por exemplo, salvas como informações temporárias) e podem ser usadas no fornecimento do sinal de áudio codificado 312.
[0160] Deve-se notar que o codificador de áudio 300 de acordo com a Figura 3 pode ser complementado por qualquer um dos recursos, funcionalidades e detalhes descritos neste documento, tanto individualmente quanto em combinação. Em particular, qualquer um dos detalhes do avaliador de similaridade de áudio aqui descrito pode ser introduzido no avaliador de similaridade de áudio 340.
4. CODIFICADOR DE ÁUDIO 400 DE ACORDO COM A FIGURA 4
[0161] A Figura 4 mostra um diagrama de blocos esquemático de um codificador de áudio 400, de acordo com uma modalidade da presente invenção.
[0162] Deve-se notar que o codificador de áudio 400 é similar ao codificador de áudio 300, de modo que as explicações acima também se aplicam. Aqui, o codificador de áudio 400 é configurado para receber um sinal de áudio de entrada 410 e para fornecer, com base no mesmo, um sinal de áudio codificado ou uma informação de áudio codificada 412, que pode, por exemplo, assumir a forma de uma corrente de bits que compreende valores espectrais codificados e parâmetros de codificação codificados.
[0163] O codificador de áudio 400 compreende uma codificação 420, que pode, por exemplo, corresponder à codificação 320. No entanto, a codificação 420 pode, por exemplo, compreender uma provisão de parâmetro de extensão de largura de banda 422, que pode fornecer parâmetros de extensão de largura de banda (de preferência codificados) que podem ser usados, no lado de um decodificador de áudio, para uma extensão de largura de banda guiada por parâmetro (como, por exemplo, um preenchimento de lacunas). Dessa forma, a codificação pode, por exemplo, fornecer valores espectrais codificados (por exemplo, em uma faixa de baixa frequência) como, por exemplo, um espectro de MDCT quantizado codificado. Além disso, a codificação 420 pode, por exemplo, fornecer parâmetros de extensão de largura de banda (de preferência codificados) que podem, por exemplo, descrever uma associação entre um ou mais blocos de origem e um ou mais blocos alvo, opcionalmente, também um nível de clareamento. Por exemplo, os parâmetros de extensão de largura de banda podem assumir a forma de uma informação de lado de preenchimento de lacuna inteligente (IGF). No entanto, os parâmetros de extensão de largura de banda também podem corresponder a quaisquer outros conceitos de extensão de largura de banda. Dessa forma, tanto os valores espectrais codificados quanto os parâmetros de extensão de largura de banda podem ser colocados em uma representação de áudio codificado, que pode assumir a forma de uma corrente de bits.
[0164] Além disso, o codificador de áudio 400 também compreende uma determinação de parâmetro de codificação 430, que pode corresponder à determinação de parâmetro de codificação 330. Por exemplo, a determinação de parâmetro de codificação 430 pode ser usada para determinar um ou mais parâmetros de extensão de largura de banda, como um ou mais parâmetros que descrevem uma associação entre um ou mais blocos de origem e um ou mais blocos alvo na extensão de largura de banda e, opcionalmente, também um parâmetro que descreve um nível de clareamento.
[0165] Opcionalmente, a determinação do parâmetro de codificação 430 também compreende uma restrição de mudança de associação 480. A restrição de mudança de associação 480 é configurada para evitar mudanças de parâmetros de codificação, em particular uma mudança de uma associação entre um bloco de origem e um bloco alvo, se tal mudança do parâmetro pudesse ocasionar uma distorção audível. Por exemplo, a restrição de mudança de associação 480 pode compreender uma determinação de força de modulação 484 que pode, por exemplo, determinar uma força 485 de uma modulação nos sinais de envelope, em que a frequência de modulação considerada pela determinação de força de modulação 484 pode corresponder a uma taxa de quadros do sinal de áudio de entrada. Ademais, a restrição de mudança de associação 480 pode compreender uma determinação de medida de sensibilidade 486 que determina uma informação de sensibilidade com base na informação de força de modulação fornecida pela determinação de força de modulação 484. A medida de sensibilidade determinada pela determinação de medida de sensibilidade 486 pode, por exemplo, descrever em quanto uma impressão auditiva poderia ser degradada por uma mudança de uma associação entre um bloco de origem e um bloco alvo. Se a medida de sensibilidade fornecida pela determinação de medida de sensibilidade 486 indica que uma mudança na associação entre um bloco de origem e um bloco alvo teria um impacto forte (ou significativo ou perceptível) na impressão auditiva, uma mudança na associação entre o bloco de origem e o bloco alvo são impedidos pelo bloqueio de mudança de associação 488. Por exemplo, a avaliação da medida de sensibilidade pode ser realizada com o uso de uma comparação de limiar 489, que compara a medida de sensibilidade 487 com um valor limite, para decidir se uma mudança da associação deve ser permitida ou evitada.
[0166] Por conseguinte, a informação do parâmetro de codificação 424 é fornecida na forma de parâmetros de codificação “restritos”, em que uma restrição é imposta pela restrição de mudança de associação 480 em uma mudança de associação entre um bloco de origem e um bloco alvo.
[0167] Para concluir, a restrição opcional de alteração de associação 480 pode evitar uma alteração dos parâmetros de codificação nos momentos em que tal alteração dos parâmetros de codificação levaria a distorções audíveis. Em particular, a restrição de mudança de associação 480 pode evitar uma mudança de uma associação entre um bloco de origem e um bloco alvo em uma extensão de largura de banda se tal mudança da associação resultasse em uma degradação forte ou significativa ou perceptível de uma impressão auditiva. A avaliação se a degradação da impressão auditiva ocorreria é feita com base na avaliação de uma força de modulação, conforme descrito acima.
[0168] No entanto, o codificador de áudio 400 pode, opcionalmente, ser complementado por qualquer um dos recursos, funcionalidades e detalhes em relação a qualquer um dos outros codificadores de áudio, tanto individualmente como em combinação.
5. CODIFICADOR DE ÁUDIO DE ACORDO COM A FIGURA 5
[0169] A Figura 5a mostra um diagrama de blocos esquemático de um codificador de áudio 500, de acordo com uma modalidade da presente invenção.
[0170] O codificador de áudio 500 está configurado para receber um sinal de áudio de entrada 510 e para fornecer, com base no mesmo, um sinal de áudio codificado 512. O sinal de áudio de entrada 510 pode, por exemplo, corresponder ao sinal de áudio de entrada 310, e o sinal de áudio codificado 512 pode, por exemplo, corresponder substancialmente ao sinal de áudio codificado 312.
[0171] O codificador de áudio 500 também compreende uma codificação
520 que pode corresponder substancialmente à codificação 320 descrita acima. A codificação 520 recebe uma informação de parâmetro de codificação 524 de uma rede neural 530, que toma o lugar da determinação do parâmetro de codificação 330. A rede neural 530 recebe, por exemplo, o sinal de áudio de entrada 510 e fornece, com base no mesmo, as informações de parâmetro de codificação 524.
[0172] Deve-se notar que a rede neural 530 é treinada com o uso dos dados de treinamento 532 que são fornecidos com o uso de um avaliador de similaridade de áudio como aqui revelado ou com o uso de uma determinação de parâmetro de codificação 330, 430 como aqui revelado. Em outras palavras, os parâmetros de codificação, que são fornecidos para a rede neural 530 como parte dos dados de treinamento 532, são obtidos com o uso do avaliador de similaridade de áudio 100, 200, conforme descrito neste documento.
[0173] Por conseguinte, a rede neural 530 fornece tipicamente parâmetros de codificação 524, que são muito similares aos parâmetros de codificação que seriam obtidos com o uso de um codificador de áudio 300 ou um codificador de áudio 400, que realmente toma a decisão sobre os parâmetros de codificação com o uso de tal avaliador de similaridade de áudio 100, 200. Em outras palavras, a rede neural 530 é treinada para aproximar a funcionalidade da determinação de parâmetro de codificação 330, 430, que é alcançada com o uso de parâmetros de codificação obtidos com o uso de um avaliador de similaridade de áudio 100, 200 como parte dos dados de treinamento para treinar a rede neural 530.
[0174] Mais detalhes sobre o codificador de áudio 500 e, geralmente, sobre o uso de uma rede neural 530 em um codificador de áudio serão fornecidos abaixo.
[0175] Redigindo ainda de forma diferente, uma determinação de parâmetro de codificação 330 ou uma determinação de parâmetro de codificação 430 poderia ser usada para fornecer dados de treinamento para a rede neural 530 para treinar a rede neural para executar uma funcionalidade que é tão similar quanto possível à funcionalidade da determinação de parâmetro de codificação 330, 430.
[0176] Um treinamento da rede neural 530 em um modo de treinamento é mostrado na Figura 5b. Para o treinamento, de preferência, diferentes sinais de áudio de entrada de treinamento e parâmetros de codificação de treinamento associados aos diferentes sinais de áudio de entrada de treinamento são fornecidos à rede neural como dados de treinamento. Os sinais de áudio de entrada de treinamento servem como sinais de entrada para a rede neural e os parâmetros de codificação de treinamento são sinais de saída desejados da rede neural. Os parâmetros de codificação (treinamento) fornecidos para a rede neural como dados de treinamento são tipicamente obtidos de antemão com o uso de um avaliador de similaridade de áudio, como discutido neste documento, ou por uma determinação de parâmetro de codificação, como discutido neste documento (com base nos sinais de áudio de entrada de treinamento que são fornecidos à rede neural durante o modo de treinamento).
[0177] No entanto, deve-se notar que o codificador de áudio 500 pode, opcionalmente, ser complementado por qualquer um dos recursos, funcionalidades e os detalhes descritos neste documento, tanto individualmente quanto em combinação.
6. AVALIADOR DE SIMILARIDADE DE ÁUDIO DE ACORDO COM A FIGURA 6
[0178] A Figura 6 mostra um diagrama de blocos esquemático de um avaliador de similaridade de áudio 600, de acordo com uma modalidade da presente invenção; O avaliador de similaridade de áudio 600 é configurado para receber um sinal de áudio de entrada 610 e para fornecer, com base no mesmo, uma informação de similaridade 612.
[0179] O avaliador de similaridade de áudio 600 compreende uma determinação de sinal de envelope 620, que é configurada para obter sinais de envelope 622a-622c para uma pluralidade de faixas de frequência (de preferência sobrepostas) com base no sinal de áudio de entrada 610. Por exemplo, um banco de filtros ou um banco de filtros gamma-tone pode ser usado para fornecer os sinais de envelope 622a-622c. Opcionalmente, uma retificação e/ou uma filtração em passa-
baixa temporal e/ou um ou mais processos de adaptação (que podem, por exemplo, modelar um pré-mascaramento e/ou pós-mascaramento em um sistema auditivo) também podem ser usados para obter os sinais de envelope 622a-622c.
[0180] Além disso, o avaliador de similaridade de áudio é configurado para obter uma representação de análise 662a-662c. A representação de análise 662a-662c pode, por exemplo, corresponder aos sinais de envelope 622a-622c ou pode, por exemplo, ser baseada no sinal de envelope 622a-622c. A representação de análise 662a-662c pode, por exemplo, ser uma “representação interna”, como uma informação de modulação ou uma representação de domínio de tempo-frequência.
[0181] Ademais, o avaliador de similaridade de áudio 600 compreende uma comparação (ou um comparador) 680 e é, portanto, configurado para comparar a representação de análise 662a-662c do sinal de áudio de entrada com uma representação de análise de referência 682a-682c que está associada a um sinal de áudio de referência. Por exemplo, a comparação 680 pode compreender a formação de uma representação de diferença interna, em que a representação de diferença interna pode, por exemplo, descrever uma diferença entre a representação de análise obtida e a representação de análise de referência. Uma ou mais operações de ponderação ou operações de modificação podem ser aplicadas ao determinar a representação da diferença interna, como uma escala da representação da diferença interna com base em um grau de comodulação e/ou uma ponderação assimétrica de valores positivos e negativos da representação da diferença interna. Consequentemente, a informação de similaridade (que pode ser considerada como uma informação sobre a similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência) pode ser obtida. A informação de similaridade pode, por exemplo, assumir a forma de um único valor que descreve uma similaridade perceptual entre o sinal de áudio de entrada e o sinal de áudio de referência.
[0182] O avaliador de similaridade de áudio é configurado para ajustar uma ponderação de uma diferença entre a representação de análise obtida 662a-662c (por exemplo, uma informação de modulação ou, geralmente, uma “representação interna”) e as informações de análise de referência 682a-682c (por exemplo, uma informação de modulação de referência associada a um sinal de áudio de referência) na dependência de uma comodulação (por exemplo, entre os sinais de envelope obtidos 622a-622c ou uma informação de modulação obtida) em duas ou mais faixas de frequência acústica adjacentes do sinal de áudio de entrada ou na dependência em uma comodulação (por exemplo, entre sinais de envelope associados ao sinal de referência ou entre uma informação de modulação de referência associada ao sinal de referência) em duas ou mais faixas de frequência acústica do sinal de áudio de referência. Por exemplo, um peso maior pode ser dado a uma diferença no caso em que um grau comparativamente alto de comodulação é encontrado (para uma faixa de frequência em consideração) quando comparado a um caso em que um grau comparativamente baixo de comodulação é encontrado (para a faixa de frequência em consideração). O grau de comodulação pode, por exemplo, ser encontrado determinando uma covariância entre envelopes temporais associados a diferentes faixas de frequência acústica (ou por qualquer outro conceito).
[0183] Em outras palavras, no avaliador de similaridade de áudio 600, tais componentes de uma diferença entre a representação de análise 662a-662c (que tipicamente compreende uma pluralidade de valores para um único quadro do sinal de áudio de entrada) e a representação de análise de referência 682a-682c (que tipicamente também compreende uma pluralidade de valores individuais para um único quadro do sinal de áudio de entrada ou do sinal de áudio de referência) são enfatizados (ponderados de modo relativamente forte) que estão associados a bandas de frequência que têm uma comodulação comparativamente alta com outras bandas de frequência adjacentes.
[0184] Por conseguinte, na comparação 680, as diferenças entre a representação de análise 662a-662c e a representação de análise de referência 682a- 682c são enfatizadas, que ocorrem em faixas de frequência que compreendem uma comodulação comparativamente alta (enquanto as diferenças são ponderadas mais baixas se estiverem em faixas de frequência que compreendem uma comodulação comparativamente menor). Foi descoberto que tal avaliação de similaridade de áudio traz junto uma informação de similaridade 612 que tem uma boa confiabilidade (e concordância com uma impressão perceptual).
[0185] No entanto, deve-se notar que o avaliador de similaridade de áudio 600 pode, opcionalmente, ser complementado por qualquer um dos recursos, funcionalidades e detalhes aqui descritos, tanto individualmente quanto em combinação.
7. CONSIDERAÇÕES RELATIVAS À AVALIAÇÃO DA QUALIDADE DE
ÁUDIO E DA SIMILARIDADE DE ÁUDIO
7.1 MODELO DE DAU
[0186] Uma abordagem de modelagem que incorpora suposições específicas sobre o processamento perceptual de informações de envelope temporal presentes dentro de bandas críticas foi proposta por Dau et al. [9, 10]. Além de várias etapas de processamento que representam o processamento efetivo do sinal do sistema auditivo periférico (consulte [11]), esse modelo assume que a forma do envelope temporal vista dentro de cada banda crítica é processada por um banco de filtros de modulação. Esse banco de filtros de modulação representa a resolução espectral do sistema auditivo no domínio da modulação (consulte [12]).
[0187] Verificou-se que o modelo de Dau, ou um modelo derivado de (ou baseado no) modelo de Dau, pode ser usado com bom desempenho para a avaliação de similaridade de áudio (por exemplo, nos avaliadores de similaridade de áudio e codificadores de áudio aqui revelados).
7.2 BENEFÍCIO DO MODELO PARA CONTROLAR BWE
[0188] De acordo com um aspecto da invenção, o uso de tal abordagem de modelagem pode ser benéfico para representações de sinais paramétricos, como BWE. Mais especificamente, verificou-se que para sinais agudos que muitas vezes ocorrem na música, replicar uma porção de baixa frequência de um complexo de tons em frequências mais altas criará uma estrutura de envelope periódica que pode se assemelhar muito bem à estrutura de envelope do sinal original, mesmo quando a própria forma de onda representada parametricamente difere substancialmente daquela do sinal original.
[0189] De acordo com um aspecto da invenção, um modelo perceptual que pode avaliar a similaridade percebida dessas informações de envelope temporal pode ajudar a orientar as decisões de codificação que afetam o envelope temporal, como ajuste de ruído e tonalidade em BWE e técnicas similares.
[0190] Consequentemente, as modalidades de acordo com a invenção usam o modelo de Dau, ou um modelo derivado do mesmo, para a avaliação da similaridade de áudio e para a decisão de quais parâmetros de codificação devem ser usados.
8. MODELO PSICOACÚSTICO PROPOSTO
8.1 CONSIDERAÇÕES GERAIS
[0191] Nesta seção, será apresentado um modelo para o qual os primeiros estágios de processamento se assemelham principalmente ao modelo de Dau et al. [9] como apresentado na Figura 7. Nos estágios posteriores de processamento, o modelo é opcionalmente estendido para incluir alguns fenômenos perceptuais adicionais e para tornar o modelo adequado tanto para decisões de codificação que têm consequências perceptuais em uma escala temporal local e global. Em consonância com o modelo original de Dau et al. [9] uma entrada para o modelo é convertida na chamada Representação Interna (IR). Essa IR é uma transformação do sinal de entrada em um domínio perceptual que contém todas as informações disponíveis para processamento auditivo posterior. Devido ao ruído interno adicionado à IR, pequenas alterações na IR devido a alterações no sinal de entrada não serão detectáveis. Esse processo modela a detectabilidade perceptual de mudanças no sinal de entrada.
[0192] A Figura 7 mostra um diagrama esquemático de um fluxo de sinal e de blocos de processamento do modelo de processamento auditivo Dau et al. O modelo 700 compreende uma filtração de membrana basilar 720, que pode, por exemplo, aplicar uma filtração de membrana basilar a um sinal de áudio de entrada
710. A filtração de membrana basilar 720 fornece, por exemplo, uma pluralidade de sinais de passagem de banda que cobrem diferentes (possivelmente sobrepostos) faixas de frequência dos sinais de áudio de entrada 710. Os sinais de saída 732a- 732e da filtração de membrana basilar 720 podem, por exemplo, corresponder aos sinais 232a-232e fornecidos pela filtração 230.
[0193] O modelo 700 também compreende uma pluralidade de caminhos de sinal paralelos, que operam nos diferentes sinais de saída 732a-732e da filtração de membrana basilar 720. Por motivos de simplicidade, apenas um único caminho de processamento é mostrado, que compreende uma retificação de meia onda e filtração em passa-baixa 736 que pode, por exemplo, corresponder à retificação 236 e à filtração em passa-baixa 240 da determinação de sinal de envelope 220. Além disso, o modelo também compreende uma adaptação 750 que pode, por exemplo, corresponder à adaptação 250. Por conseguinte, na saída da adaptação, que recebe um resultado da retificação de meia onda e filtração em passa-baixa 736 (que é aplicada ao respectivo sinal de saída 732c da filtração de membrana basilar 720), um sinal de envelope 722c é fornecido, que pode corresponder ao sinal de envelope 222c. Ademais, o modelo 700 também compreende um banco de filtros de modulação 760, que está associado a uma faixa de frequência da filtração de membrana basilar 720 (por exemplo, com um sinal de saída 732c da filtração de membrana basilar 720). Em outras palavras, pode haver uma pluralidade de bancos de filtros de modulação (por exemplo, separados) associados a diferentes faixas de frequência da filtração de membrana basilar. O banco de filtros de modulação 760 fornece, em sua saída, sinais de modulação 766a-766e, que estão associados a diferentes frequências de modulação.
[0194] O modelo 700 opcionalmente compreende uma adição de ruído 768, que adiciona ruído aos sinais de saída do banco de filtros de modulação 760. O modelo 700 também compreende um “detector ideal” 780 que pode, por exemplo, corresponder à comparação 280.
[0195] Em outras palavras, os componentes do modelo 700 podem, por exemplo, ser usados nos avaliadores de similaridade de áudio revelados neste documento. Por conseguinte, os recursos, funcionalidades e detalhes descritos a seguir em relação aos componentes individuais do modelo 700 podem ser opcionalmente implantados individualmente e em combinação nos avaliadores de similaridade de áudio e codificadores de áudio revelados neste documento.
8.2 BANCO DE FILTROS GAMMATONE (DETALHES SÃO OPCIONAIS)
[0196] O modelo proposto, que pode, por exemplo, ser usado nos determinadores de sinal de envelope 120, 220 ou na filtração 230, começa com o processamento do sinal de entrada 110, 210, 710 com um banco de filtros gamma- tone de 4ª ordem consistindo, por exemplo, em 42 filtros espaçados uniformemente em uma escala perceptual em toda a faixa de frequência que abrange, por exemplo, 150 Hz até 16 kHz. Essa etapa representa a análise do sinal espectral dentro da cóclea auditiva. Um traço óbvio nas respostas ao impulso da membrana basilar é que as respostas ao impulso de alta frequência são muito mais curtas do que as de baixa frequência, como pode ser visto na Figura 8, que mostra uma representação esquemática das respostas ao impulso do banco de filtro Gamma-tone.
[0197] O comprimento da janela de análise temporal que é necessário para atingir uma resolução de frequência de cerca de 12% da frequência central em linha com estimativas comuns de largura de banda do filtro auditivo (consulte [13]) pode ser alcançado com janelas de tempo proporcionalmente mais curtas como o centro a frequência aumenta. Isso explica por que as respostas ao impulso das partes basais de alta frequência da membrana basilar são mais curtas do que as das partes apicais de baixa frequência. Uma resolução de frequência de 12% da frequência central significa que, em termos absolutos, a região de alta frequência da membrana basilar atinge apenas uma resolução espectral pobre, mas uma resolução temporal alta, enquanto para a região de baixa frequência, o reverso é verdade.
8.3 CÉLULAS CILIARES INTERNAS (DETALHES SÃO OPCIONAIS)
[0198] Cada saída de filtro gamma-tone é processada por um modelo simples das células ciliadas internas, que, por exemplo, consiste em uma retificação de meia onda seguida por um filtro passa-baixa com uma frequência de corte em 1.000 Hz (por exemplo, mostrado na referência numérica 736). A saída desse modelo de célula ciliada interna representa a taxa de potenciais de ação nas fibras do nervo auditivo que, aqui, supõe-se ter uma resolução temporal limitada.
[0199] A retificação de meia onda no modelo de célula ciliada simples está relacionada ao fato de que os estereocílios ('cabelos') apenas abrem seus canais iônicos quando empurrados para um lado, o que resulta em mudanças no potencial da célula (consulte a Figura 9 que mostra uma representação esquemática de um órgão de Corti). A taxa de variação do potencial resultante é limitada. Assim, a taxa de disparo no nervo auditivo pode ser sincronizada com a estrutura fina do movimento de membrana basilar apenas para frequências relativamente baixas. Esse comportamento geral é implantado pelo filtro passa-baixa (que é, por exemplo, também mostrado na referência numérica 736).
[0200] As funcionalidades do modelo de célula ciliada interna podem, por exemplo, ser implantadas nos blocos 236, 240 da determinação de sinal de envelope
220.
8.4 PROCESSOS DE ADAPTAÇÃO, MASCARAMENTO (DETALHES SÃO OPCIONAIS)
[0201] Após o processamento das células ciliadas internas, segue-se uma sequência de (por exemplo) cinco circuitos de adaptação (por exemplo, incluídos na adaptação 750). Os mesmos representam os processos de adaptação que ocorrem no sistema auditivo que se manifestam no fenômeno de mascaramento avançado (pós-mascaramento) observado após a compensação de um sinal de áudio. Por exemplo, cada circuito de adaptação consiste em (ou compreende) um controle de ganho adaptativo que é atenuado pela saída filtrada em passo-baixo do mesmo circuito de adaptação (ou seja, um circuito de retroalimentação). Para entender a função de tal circuito de adaptação, considere o início e o deslocamento de um sinal. No início do sinal, a atenuação inicial é pequena porque não havia entrada/saída anterior, resultando em uma grande saída de ‘ultrapassagem’ do circuito de adaptação. A saída filtrada em passa-baixa aumentará e começará a atenuar a saída do circuito de adaptação até que um equilíbrio seja alcançado.
[0202] Para sinais de entrada com um nível constante, a saída de estado estacionário de, por exemplo, cinco circuitos de adaptação pode, por exemplo, ser escalonada linearmente para ser muito similar a uma transformação de decibéis em linha com a atual percepção de volume. Nesse modelo, para evitar a ultrapassagem considerável no início de um sinal, um limite rígido é aplicado à saída dos circuitos de adaptação igual ao sinal de entrada transformado em decibéis. No deslocamento de um sinal, a atenuação irá persistir por algum tempo até que o efeito do filtro passa- baixa seja diminuído. Essa atenuação modela o efeito do mascaramento direto; isto é, a sensibilidade reduzida para detectar um sinal alvo devido a um sinal auditivo ‘mascarador’ precedente.
[0203] Tal adaptação pode, por exemplo, ser fornecida pela adaptação
250.
8.5 BANCO DE FILTROS DE MODULAÇÃO (DETALHES SÃO OPCIONAIS)
[0204] Os circuitos de adaptação são, por exemplo, seguidos por um banco de filtros de modulação 760. Consiste em uma faixa de, por exemplo, filtros largos de 5 Hz com frequências centrais, por exemplo, de 0 Hz a 20 Hz, seguidos por filtros, por exemplo, com Q=4 separados por etapas correspondentes à largura de banda do filtro de modulação até uma frequência central máxima de, por exemplo, 243 Hz ser atingida. Assim, a resolução espectral no domínio de modulação é maior nesse modelo do que em [9] e a frequência de modulação mais alta é limitada para estar mais alinhada às frequências de modulação máximas que podem ser processadas por humanos (consulte [15]). As saídas do filtro são, por exemplo, de valor complexo, representando apenas frequências positivas.
[0205] Uma modificação adicional é (opcionalmente) realizada nos filtros de modulação. Com um fator Q de apenas 4, pode-se esperar que cada filtro de modulação atenua o componente DC do envelope apenas em um grau limitado. Dado que os componentes DC no envelope têm uma alta amplitude em relação aos componentes modulados, o componente DC pode desempenhar um papel dominante na saída dos filtros de modulação, mesmo quando os mesmos estão sintonizados em altas frequências centrais.
[0206] Para remover o componente DC, a saída de cada filtro de modulação é, por exemplo, filtrada em passa-baixa com uma frequência de corte de metade da frequência central do filtro de modulação. Em seguida, os valores absolutos da saída do banco de filtros de modulação e do filtro passa-baixa são, por exemplo, subtraídos um do outro. Dessa forma, o componente DC é removido, bem como as informações de fase de modulação, que aqui se assume que não são processadas diretamente pelo sistema auditivo. Essa funcionalidade pode, por exemplo, ser realizada pela remoção de DC 270.
[0207] A implicação do processamento da informação de fase do envelope temporal seria que o tempo exato dos eventos auditivos seria perceptível. Um estudo por Vafin et al. [16] mostrou que os ouvintes são insensíveis a pequenas mudanças no tempo de início. A remoção de DC é especialmente relevante em um estágio de controle do codificador que é descrito neste documento (por exemplo, posteriormente (Seção 9.3)). Esse estágio opcionalmente requer (ou deveria ter preferencialmente) a força das modulações sem componentes DC como uma entrada para tomar decisões sobre se a troca de uma opção de codificação para outra é permitida.
[0208] A funcionalidade do banco de filtros de modulação pode, por exemplo, ser realizada pela filtração 264. A funcionalidade pode, por exemplo, ser complementada pela remoção de DC 270 e pela remoção de informações de fase
274.
8.6 REPRESENTAÇÃO INTERNA (IR) (DETALHES SÃO OPCIONAIS)
[0209] As saídas resultantes de todos os filtros de modulação em todos os filtros auditivos constituem, por exemplo, a Representação Interna (IR). Em princípio, as IRs do sinal original e codificado podem ser comparadas; por exemplo, a soma de todas as diferenças quadradas em toda a IR fornece uma métrica para a audibilidade das diferenças entre o sinal original e codificado (consulte [17]). Por exemplo, tal comparação pode ser realizada pelo bloco de comparação 280 (por exemplo, com o uso da combinação/avaliação 298).
[0210] Para incluir alguns aspectos de outros estágios do processamento auditivo, três modificações são (opcionalmente) realizadas nas diferenças entre as duas IRs (a serem denominadas Representação de Diferença Interna (IDR)).
[0211] A IDR resultante pode ser usada para tomar decisões sobre as opções de codificação disponíveis (ou, em outras palavras, decisões sobre os parâmetros de codificação). Cada opção de codificação envolve uma escolha específica de parâmetros com os quais a codificação é realizada. A IDR fornece uma métrica que prevê o nível de distorção perceptual criada pela opção de codificação correspondente. A opção de codificação que leva à distorção perceptual mínima prevista é, então, selecionada (por exemplo, com o uso de uma seleção de parâmetro de codificação 370).
8.7 LIBERAÇÃO DE MASCARAMENTO DE COMODULAÇÃO (CMR) (DETALHES SÃO OPCIONAIS)
[0212] A primeira modificação (opcional) da IDR está relacionada à comodulação de bandas espectrais. Foi revelado que para mascaradores que são temporariamente comodulados em bandas de frequência, tons adicionados podem ser detectados em níveis muito mais baixos (consulte [18]) do que para mascaradores não correlacionados temporalmente. Esse efeito é denominado Liberação de Mascaramento de Comodulação (CMR). Também em frequências altas, a comodulação das bandas de frequência leva a menos mascaramento [19].
[0213] Isso conduziu a inferir que, para sinais comodulados, também as diferenças nas IRs entre o sinal original e o codificado seriam detectadas mais facilmente (por exemplo, por um ouvinte humano).
[0214] Para compensar esse efeito, a IDR é opcionalmente escalonada com base no grau de comodulação (por exemplo, na ponderação 292a a 292e).
[0215] O grau de comodulação é determinado, por exemplo, medindo o grau de covariância entre os envoltórios temporais do filtro auditivo em consideração com os quatro filtros auditivos adjacentes (dois abaixo e dois acima do filtro considerado). Por exemplo, a saída dos circuitos de adaptação, seguida por um filtro passa-baixa opcional (com uma constante de tempo de 0,01 s) foi usada para representar os envelopes temporais das saídas do filtro auditivo.
[0216] Essa determinação do grau de comodulação pode, por exemplo, ser realizada pelo determinador de comodulação 299a.
[0217] Em comparações preliminares de previsões do modelo com classificações subjetivas, melhores previsões foram obtidas por meio da inclusão de efeitos CMR no modelo. Ainda assim, tanto quanto sabemos, CMR não foi levado em consideração no contexto da codificação de áudio perceptual até agora.
8.8 SUAVIZAÇÃO TEMPORAL (DETALHES SÃO OPCIONAIS)
[0218] Em segundo lugar, a representação interna é (opcionalmente) suavizada temporalmente ao longo de uma duração de cerca de 100 ms. Essa suavização temporal pode, por exemplo, ser realizada pela suavização temporal 290a a 290e.
[0219] A motivação para isso é que os ouvintes humanos, embora possam perceber bem a presença de flutuações temporais no ruído, são relativamente insensíveis aos detalhes dessas flutuações estocásticas. Em outras palavras, apenas a força da modulação como tal é percebida, não tanto os detalhes temporais da modulação. O trabalho de Hanna [20] mostrou que especificamente tokens de ruído mais longos gerados pelo mesmo gerador de ruído não podem ser distinguidos uns dos outros.
8.9 ASSIMETRIA PERCEPTUAL (DETALHES SÃO OPCIONAIS)
[0220] Em terceiro lugar, foi considerado opcionalmente que os componentes de sinal que são adicionados ao codificar um sinal levam a um efeito mais prejudicial em termos de qualidade de áudio do que os componentes que são removidos. A suposição subjacente é que os componentes adicionados muitas vezes não compartilham propriedades comuns com o sinal de áudio original e, por esse motivo, serão mais perceptíveis como artefatos.
[0221] Isso foi (opcionalmente) implantado por uma ponderação assimétrica de valores positivos e negativos da diferença nas IRs. A ponderação assimétrica pode, por exemplo, ser realizada pela ponderação 292a a 292e.
[0222] Em comparações preliminares de previsões do modelo com dados subjetivos, a ponderação assimétrica foi considerada para levar a melhores previsões.
9. CONTROLE DE IGF POR MODELO PSICOACÚSTICO
[0223] A seguir, será descrito como uma extensão de largura de banda (por exemplo, um Preenchimento de Lacuna Inteligente, IGF) (ou parâmetros da extensão de largura de banda) pode ser controlada com o uso do avaliador de similaridade de áudio aqui discutido (por exemplo, em um codificador de áudio como discutido aqui).
9.1 FERRAMENTA DE IGF (DETALHES SÃO OPCIONAIS)
[0224] O Preenchimento de Lacuna Inteligente (IGF) [5] é uma técnica de codificação de áudio semiparamétrica introduzida primeiro no processo de padronização de áudio MPEG-H 3D em 2013 [21] [6], que preenche lacunas espectrais em um sinal de áudio decodificado com estimativas do sinal ausente guiado por informações secundárias compactas. Como tal, a aplicação de IGF não preserva a forma de onda. IGF também pode atuar como um BWE tradicional e pode ser configurado para preencher uma região de alta frequência vazia inteira com um sinal estimado, mas também pode ser usado além da funcionalidade BWE tradicional para misturar conteúdo codificado por forma de onda com conteúdo estimado para preencher lacunas espectrais restantes. Dessa forma, o conteúdo conhecido como crítico para o BWE tradicional, por exemplo, sinais de varredura podem ser codificados fielmente.
[0225] Na Figura 10, um decodificador que usa IGF é representado. Após a desquantização dos coeficientes da Transformada Discreta de Cosseno Modificada
(MDCT) transmitidos (por exemplo, do espectro MDCT quantizado 1022 extraído de uma corrente de bits de entrada 1010 com o uso de um demultiplexador e decodificador de entropia 1020) (por exemplo, no desquantizador 1040), esses valores (por exemplo, valores espectrais desquantizados 1042) e as informações secundárias de IGF 1024 (que podem, por exemplo, ser derivadas da corrente de bits de entrada 1010 pelo demultiplexador e decodificador de entropia 1020) são passadas para o decodificador de IGF 1050. Com o uso das informações secundárias 1024, o decodificador de IGF 1050 seleciona coeficientes MDCT da banda baixa transmitida 1042 do espectro para montar a estimativa de banda alta 1052. Portanto, a banda baixa e a banda alta são organizadas nos chamados blocos de origem de IGF e blocos alvo, respectivamente.
[0226] Conforme representado na Figura 11, a faixa de origem de IGF, que se estende da frequência mínima de IGF na parte inferior do espectro até a frequência de início de IGF, é dividida em quatro blocos de fonte sobrepostos sT[i] (em que, por exemplo, pode assumir valores de 0 a 3). A faixa alvo de IGF, ou seja, as bandas espectrais de alta frequência a serem reconstruídas, é determinada pela frequência de início e parada de IGF. Novamente, isso é dividido em um máximo de quatro blocos alvo consecutivos (por exemplo, designados com bloco [0] a bloco [4]) de largura de banda crescente para frequências mais altas.
[0227] Durante o processo de decodificação de IGF, a faixa de IGF é reconstruída por meio de cópia de blocos de origem adequados em seus blocos alvo e uma adaptação das propriedades tonais [22] e do envelope espectral [23] para melhor corresponder ao sinal original com o uso das informações laterais transmitidas.
[0228] Deve-se notar que o processo de decodificação descrito nessa seção pode, por exemplo, ser controlado por um fornecimento adequado de parâmetros de codificação por um codificador de áudio. Por exemplo, os parâmetros de codificação podem descrever uma associação entre os blocos de origem de IGF (por exemplo, sT[0] a sT[3] e os blocos alvo de IGF (por exemplo, bloco [0] a bloco
[4]). Esses parâmetros de codificação podem, por exemplo, determinados nos codificadores de áudio 300 e 400.
9.2 CONTROLE DE IGF
[0229] Para ter a capacidade de preencher as lacunas espectrais com o conteúdo espectral de melhor correspondência perceptual, o IGF tem muitos graus de liberdade para criar tal conteúdo. Basicamente, o sinal para preencher a banda alta (HF) é composto de blocos de tempo-frequência (por exemplo, sT[0] a sT[3]) originados da banda baixa (LF). A faixa espectral de origem e destino (por exemplo, sT[0] a sT[3] e bloco [0] a bloco [4]) para o mapeamento real pode ser escolhida entre muitas possibilidades para cada período de tempo individualmente.
[0230] Para adaptar a tonalidade, o clareamento de IGF [22] pode ser usado para nivelar o espectro de um bloco de tempo-frequência obtido de uma região de origem tonal e para ser inserido em uma região alvo ruidosa. IGF oferece três níveis de clareamento: 'desligado', 'médio' e 'forte', clareamento 'forte' que consiste na substituição do conteúdo original do bloco por ruído aleatório.
[0231] Tomada apenas a escolha flexível de blocos e as opções de clareamento como combinações, resulta em um grande número de n=(44) (34)=20736 combinações individuais, em que (44) são as possibilidades de todas as diferentes opções de seleção de bloco de origem e (34 ) são todas opções de clareamento diferentes, que são independentemente selecionáveis para cada bloco. (Nesse exemplo, presume-se que haja 4 blocos alvo, que podem ser associados separadamente a 4 blocos de origem cada, e que podem ser associados separadamente a um de três modos de clareamento).
[0232] Propõe-se empregar o presente modelo perceptual conforme descrito acima para fazer a escolha perceptualmente mais próxima dessas combinações para estimar a banda alta. Em outras palavras, o modelo perceptual aqui descrito pode, por exemplo, ser usado nos codificadores de áudio 300, 400 para selecionar os parâmetros para o preenchimento de lacuna inteligente, por exemplo, parâmetros que descrevem uma associação entre os blocos de origem e os blocos alvo e parâmetros que descrevem os modos de clareamento.
[0233] Para isso, a IDR é, por exemplo, usada para derivar a soma da diferença quadrática (por exemplo, na comparação 180 ou na comparação 280) que serve como uma métrica para a audibilidade das distorções perceptuais introduzidas (por exemplo, como uma informação de similaridade 112, 212, 342, 424). Observe que essa soma é determinada opcionalmente, por exemplo, em um intervalo de tempo mais longo excedendo um único quadro de codificação. Isso evita mudanças frequentes entre as opções de codificação selecionadas.
[0234] A suavização temporal dentro do modelo (consulte a Subseção
8.8) evita efetivamente uma tendência potencial para uma estimativa de banda alta excessivamente tonal.
[0235] No entanto, as decisões de codificação realizadas com a estratégia acima são baseadas em critérios de decisão ainda essencialmente locais e, portanto, não consideram os efeitos de percepção que podem ocorrer devido à mera alternância entre duas opções de formação de bloco. Para remediar esse efeito, introduziu-se opcionalmente um critério que garante estabilidade quando perceptualmente necessário (que pode ser implantado, por exemplo, na restrição de mudança de associação 380).
9.3 CRITÉRIO DE ESTABILIZAÇÃO (OPCIONAL; DETALHES TAMBÉM SÃO OPCIONAIS)
[0236] Conforme explicado, o IGF permite muitas escolhas alternativas diferentes de formação de bloco de IGF para selecionar a fonte espectral e as faixas alvo para inserção de alta frequência. Quando o deslocamento preciso da inserção de frequência espectral varia ao longo do tempo quadro a quadro, pode ocorrer que um único componente tonal contínuo seja alternado entre diferentes altas frequências ao longo do tempo. Isso leva a artefatos muito perceptíveis e irritantes. Supõe-se que isso ocorra devido ao fato de que a mudança na frequência leva a modulações introduzidas no sinal codificado em frequências de modulação que correspondem aproximadamente à taxa de quadros do codificador. Para evitar esse tipo de artefato, que só existe em escalas de tempo mais longas, uma limitação na alternância entre mudanças de frequência de IGF foi opcionalmente incorporada. Essa limitação da comutação entre os deslocamentos de frequência de IGF (ou, de forma equivalente, entre diferentes associações entre blocos de origem e blocos alvo da extensão de largura de banda) é alcançada, por exemplo, pela restrição de alteração de associação 480.
[0237] Foi presumido que alterar a mudança de frequência de IGF (ou a associação entre blocos de origem e blocos alvo) só é permitida desde que o sinal original tenha (comparativamente) componentes de modulação fortes na faixa que corresponde às modulações que seriam introduzidas quando houver uma mudança de frequência de IGF (por exemplo, ocasionada por uma alteração da associação entre um bloco de origem e um bloco alvo) (ou seja, correspondendo à taxa de quadros do codificador). Por essa razão, uma medida de sensibilidade foi opcionalmente derivada (por exemplo, no bloco 486) que prevê o quão sensível um ouvinte seria à introdução de uma mudança de frequência induzida por uma mudança de lado a lado. Essa medida de sensibilidade é, por exemplo, simplesmente inversamente proporcional à força da modulação no filtro de modulação correspondente à taxa de quadros do codificador. Somente quando a sensibilidade está abaixo desse critério fixo, é permitida uma mudança na escolha do bloco de IGF. Isso pode, por exemplo, ser alcançado pela comparação limite 489 e pelo bloqueio de mudança de associação 480. 10 EXPERIMENTO (CONFIGURAÇÃO E DETALHES SÃO OPCIONAIS)
10.1 ESBOÇO
[0238] Para avaliar a capacidade do modelo psicoacústico proposto para fazer uma escolha de parâmetro perceptualmente otimizado de técnicas de codificação paramétrica, um teste de escuta Multi-Stimulus Test with Hidden Reference and Anchor (MUSHRA) [24] foi preparado. Os itens de teste de escuta foram gerados em um ambiente offline experimental de codec MPEG-H 3D Audio envolvendo a ferramenta IGF semiparamétrica em dois sabores, conforme descrito a seguir. Uma escolha de blocos fixos combinada com uma estimativa de nível de clareamento baseada em características foi comparada com uma escolha automatizada de ambos os parâmetros, estimulada pelo modelo psicoacústico proposto.
10.2 GERAÇÃO DE ITEM
[0239] Para o teste de escuta, cada item foi processado por meio de uma cadeia offline de codificador/decodificador de MPEG-H. A taxa de bits foi definida com um valor muito alto para excluir qualquer influência de efeitos perceptuais além dos introduzidos pelo IGF. Os parâmetros do codificador de áudio 3D de MPEG-H foram configurados de forma que qualquer estimativa abaixo do ideal para a banda de IGF teria um impacto claramente audível. Portanto, a frequência inicial do IGF foi definida para tão baixo quanto 4,2 kHz, a frequência de parada do IGF para 8,0 kHz. Consequentemente, os itens originais foram limitados em banda a 8,4 kHz para permitir uma melhor comparação com as versões processadas.
[0240] Com essas configurações, o mosaico de IGF é restrito a apenas 3 blocos alvo, reduzindo assim em grande parte o número de combinações de parâmetros de IGF possíveis a serem avaliadas a um número que pode ser tratado em termos de complexidade computacional em um experimento prático. Para reduzir ainda mais o número de combinações, combinações equivalentes que compreendem pelo menos uma configuração de branqueamento “forte” foram removidas do conjunto, devido ao fato de que o clareamento “forte” consiste em uma substituição aleatória de ruído do bloco individual (consulte a Subseção 3.2). Inicialmente, existem (2 3) (43) = 512 combinações diferentes de configuração de IGF sem clareamento ‘forte’. Se um, dois ou todos os três blocos alvo empregam um clareamento forte, isso resultará em 3(21)(41)+3(22)(42)+1 = 217 combinações adicionais. Resumindo, finalmente temos apenas 729 combinações restantes a considerar (em vez do número máximo de combinações n=(33)(43) = 1.728 de acordo com a Subseção 9.2).
[0241] Para gerar a condição de comparação, o codec foi operado com o uso de um bloco fixo de ‘1313’ (consulte a Subseção 10.2) e o clareamento foi essencialmente controlado pela avaliação de uma medida de planicidade espectral
(SFM). Isso corresponde diretamente ao que está sendo empregado, por exemplo, no SBR, onde nenhum ajuste adaptativo da cópia é suportado, e também para as implantações do codificador IGF atuais e, portanto, constitui uma condição de comparação justa.
[0242] A escolha automatizada foi gerada com o uso de uma ‘abordagem de força bruta’ implantada em três etapas de processamento consecutivas, conforme ilustrado na Figura 6, que mostra uma representação esquemática de uma geração de itens de escolha automatizada de IGF: Em uma primeira etapa, as saídas (por exemplo, sinais de áudio codificados e novamente decodificados 1230 para todos os conjuntos de parâmetros) para todas as combinações disponíveis de formação de bloco de IGF e clareamento IGF foram geradas dentro de um modo de parâmetro constante forçado (por exemplo, com base no sinal de entrada 1210 e com o uso de um codificador de áudio ou codificador de MPEG-H e um decodificador de áudio ou decodificador de MPEG-H 1224). Assim, o codificador 1220 não alterou os parâmetros forçados de bloco de IGF e de clareamento de IGF e os manteve constantes durante a codificação de uma versão. Dessa forma, todas as versões de formação de bloco de IGF e clareamento de IGF possíveis 1230 para o item processado foram geradas e armazenadas no formato WAV.
[0243] Em uma segunda etapa, a qualidade perceptual de cada resultado processado obtido na primeira etapa foi estimada pela análise desses arquivos wav por meio do modelo psicoacústico 1240 (que pode, por exemplo, corresponder ao avaliador de similaridade de áudio 100, 200 ou compreender uma funcionalidade similar ou idêntica quando comparada ao avaliador de similaridade de áudio 100, 200) quadro a quadro. Em suma, as estimativas de qualidade de n=729 resultados de processamento diferentes (que podem, por exemplo, corresponder a “informações de similaridade” 112, 212 para diferentes sinais de áudio de entrada) foram comparadas (por exemplo, pelo bloco de decisão 1250) para obter os dados de decisão 1252 e gravar os mesmos em um arquivo de texto.
[0244] As Figuras 13 e 14 exibem os dados de decisão 1252 (que podem, por exemplo, corresponder aos parâmetros de codificação selecionados 324, 424) obtidos a partir do modelo para o item ‘trilogia’. Pode-se observar que uma quantidade considerável de chaveamento e, portanto, adaptação dinâmica está acontecendo. Tais dados de decisão podem, por exemplo, ser fornecidos pela seleção do parâmetro de codificação 370 ou pela determinação do parâmetro de codificação 430. Com outras palavras, a Figura 13 mostra uma evolução temporal de quais blocos de origem estão associados aos três blocos alvo em consideração. A Figura 13 mostra uma evolução temporal de qual dos modos de clareamento (ou níveis de clareamento) são usados para os três blocos alvo.
[0245] Em uma terceira etapa de processamento, os dados de decisão (escolha de bloco de IGF e parâmetros de clareamento de IGF por quadro), foram alimentados a partir do arquivo de texto em uma cadeia de codificador/decodificador de MPEG-H 1260, 1270 configurada conforme detalhado acima, e usados para fazer as seleções dinâmicas disponíveis. O arquivo WAV resultante finalmente rendeu uma versão codificada e decodificada 1272 apresentando uma escolha automatizada por meio do modelo proposto.
[0246] A configuração de cálculo offline junto com a ‘abordagem de força bruta’ foi escolhida para demonstrar a adequação do nosso modelo proposto em princípio, e assim fornecer um limite de qualidade superior com o uso desse modelo. Em aplicações realistas, por exemplo (opcionalmente), uma Rede Neural Profunda (DNN) (por exemplo, a rede neural 530) pode aprender e praticamente substituir a saída do modelo (por exemplo, as informações de similaridade 112, 212, 342 ou as informações de parâmetro de codificação 324, 424) por uma fração de seus custos computacionais atuais. Em tal configuração, o modelo proposto pode anotar automaticamente uma grande quantidade de material de áudio para o treinamento adequado (por exemplo, para obter os dados de treinamento da rede neural 532).
[0247] Para concluir, a funcionalidade dos blocos 1220, 1224, 1240, 1250, 1260 pode, por exemplo, ser realizada nos codificadores de áudio 300, 400 (por exemplo, pelos blocos 350, 360, 340, 370, 320 ou pelos blocos 430, 420). Assim, os codificadores de áudio podem selecionar os parâmetros de codificação com o uso do modelo proposto, que é implantado (totalmente ou em parte) nos avaliadores de similaridade de áudio 100, 200, 340. No entanto, a implantação de um codificador de áudio pode ser mais eficiente ao usar uma rede neural, como mostrado na modalidade da Figura 5, em que os dados de treinamento para a rede neural são obtidos com o uso do modelo proposto (por exemplo, com o uso dos avaliadores de similaridade de áudio aqui descritos).
11. RESULTADOS
[0248] Um conjunto de 11 trechos musicais mostrados na Tabela 1 foi preparado como itens para um teste de escuta MUSHRA. O teste, no total, compreendeu 5 condições listadas na Tabela 2. A audição foi realizada por 15 ouvintes experientes em um ambiente similar a uma sala de estar, usando fones de ouvido e amplificadores STAX eletrostáticos. Em um teste MUSHRA, todos os itens em teste são comparados a um original. Observe que, uma vez que foram usados originais que foram limitados por banda a 8,4 kHz (por razões que foram explicadas na Subseção 10.2), os mesmos correspondem a uma classificação absoluta de ‘excelente’ em uma escala que varia de ‘excelente’, ‘bom’ , ‘razoável’, ‘insatisfatório’ a ‘ruim’.
[0249] A Figura 15 exibe as classificações absolutas dos ouvintes. Os níveis de qualidade perceptual dos itens codificados foram todos classificados na faixa de ‘razoável’ a ‘bom’, conforme observado nas classificações absolutas. A classificação da condição automatizada é ‘boa’ por toda parte
[0250] A Figura 16 mostra as pontuações de diferença da condição automatizada proposta e a condição de linha de base de bloco fixo. A partir dessas classificações de diferença, pode-se concluir que se observa uma melhora média significativa de mais de 5 pontos MUSHRA. Os itens ‘B’, ‘C’, ‘G’, ‘H’, ‘I’ e ‘J’ mostram melhorias individuais significativas de 18, 7, 7, 3, 9 e 10 pontos, respectivamente. Nenhum dos itens individuais é degradado significativamente.
12. DISCUSSÃO
[0251] Os resultados do teste de audição mostram uma melhora geral significativa da qualidade do áudio com o método de codificação proposto. Duas conclusões principais podem ser tiradas disso. Em primeiro lugar, os resultados mostram que, para a ferramenta de IGF semiparamétrica, alternar entre as diferentes configurações do codificador durante a codificação de um único trecho quadro a quadro pode levar a uma melhora da qualidade perceptual. Em segundo lugar, foi mostrado que, para essa finalidade, o modelo psicoacústico recentemente proposto (e, consequentemente, o avaliador de similaridade de áudio proposto 100, 200, 340) tem a capacidade de controlar os parâmetros de codificação do codificador paramétrico (por exemplo, da codificação 320, 420) de forma automatizada.
[0252] A codificação adaptativa (condição automatizada no teste de escuta) permitiu alternar potencialmente entre todas as combinações disponíveis de seleções de blocos (por exemplo, associação entre blocos de origem e blocos alvo) e níveis de clareamento. Na maioria dos trechos, isso levou a uma redução no caractere similar a ruído (grosso) em altas frequências sem a introdução de artefatos tonais.
[0253] Especificamente, o modelo psicoacústico foi aplicado de forma dupla.
[0254] Por um lado, forneceu previsões sobre a degradação perceptual associada às várias opções de codificação disponíveis em uma escala de tempo local. A partir disso, a melhor opção de codificação ‘local’ pode ser selecionada.
[0255] Experimentos anteriores mostraram, no entanto, que a aplicação direta desse ótimo de codificação com base local frequentemente leva a artefatos de comutação perceptíveis. Mais especificamente, quando componentes tonais de alta frequência estáveis estão presentes, uma mudança para uma opção diferente de formação de bloco levará a artefatos de modulação de frequência altamente perceptíveis.
[0256] Por outro lado, isso opcionalmente forneceu um critério de estabilidade para evitar artefatos induzidos pela mudança prematura de opções de codificação (em que tal mecanismo de estabilização pode ser implantado, por exemplo, com o uso da restrição de mudança de associação). Consequentemente, o modelo (ou a restrição de mudança de associação 480) foi usado para determinar em que momentos dentro do sinal de áudio era possível mudar de um para outro bloco. Como critério para isso, foi presumido que, quando o trecho de áudio original exibe regiões de alta frequência tonal, sem muita modulação, a comutação deve ser evitada.
[0257] Nessa implantação atual, é determinado qual conjunto de parâmetros de codificação atualizados levará à melhor qualidade localmente no caso de uma permissão de comutação (por exemplo, na determinação de parâmetro de codificação). Conforme o trecho de áudio avança, pode acontecer que outro conjunto específico de melhores parâmetros de codificação seja selecionado, mas a mudança para esse conjunto seria proibida por um tempo prolongado (por exemplo, pela restrição de alteração de associação). Se, portanto, os parâmetros de codificação iniciais devem se tornar muito abaixo do ideal, o codificador, no entanto, tem que manter esse conjunto globalmente abaixo do ideal por mais tempo. Uma abordagem opcional para resolver esse problema seria (opcionalmente) permitir que o modelo psicoacústico tenha uma previsão suficiente no tempo, para levar em consideração como as decisões de codificação presentes afetarão a qualidade para a parte futura do trecho.
[0258] Embora uma melhora geral decente seja vista para o método de codificação automatizado em comparação com uma codificação fixa, uma grande melhora foi observada para itens individuais ‘B’, e também melhoras consideráveis para os itens ‘C’, ‘G’, ‘I’ e ‘J’. Aqui, de acordo com as observações gerais, a versão automatizada soava muito menos barulhenta do que a versão fixa, apoiando a noção geral de que a abordagem orientada por modelo psicoacústico tem a capacidade de escolher uma combinação perceptualmente apropriada de seleção de bloco e nível de clareamento. 13 SUMÁRIO
[0259] Embora os modelos tradicionais de mascaramento auditivo tenham se mostrado muito bem-sucedidos no controle dos codecs de preservação da forma de onda, esses modelos foram considerados inadequados para orientar da mesma forma ferramentas de codificação paramétrica.
[0260] Neste documento, de acordo com um aspecto da invenção, propõe-se o emprego de um modelo psicoacústico baseado em excitação melhorado (que pode ser implantado, por exemplo, no avaliador de similaridade de áudio) para controlar a parametrização (por exemplo, os parâmetros de codificação) de técnicas de codificação perceptuais de preservação de forma de onda (por exemplo, da codificação 320 ou da codificação 420). A partir desse modelo, uma assim chamada Representação de Diferença Interna (IDR) (por exemplo, uma representação de diferença 294a a 294e) é obtida para cada uma das opções de codificação disponíveis em mãos. Mostra-se que a IDR fornece uma métrica que prevê o nível de distorção perceptual criada pela aplicação da opção de codificação correspondente. Para controlar o processo de codificação final, a opção de codificação que leva à distorção perceptual mínima prevista é selecionada (por exemplo, pela determinação do parâmetro de codificação 330, 430 ou pela seleção do parâmetro de codificação 370).
[0261] Foi demonstrado que, em contraste com os modelos perceptuais tradicionais, a abordagem baseada em excitação proposta pode orientar com sucesso a aplicação adaptativa de sinal de uma ferramenta de codificação paramétrica dentro de um codificador de áudio moderno no exemplo de MPEG-H 3D Audio e sua ferramenta de Preenchimento de Lacuna Inteligente (IGF) semiparamétrico. Com um teste de audição MUSHRA, comprovou-se a qualidade da presente escolha de parâmetros automatizados de IGF. Em média, a condição de ‘escolha de parâmetro automatizado’ marcou significativamente mais de 5 pontos MUSHRA a mais do que uma configuração simples com o uso de um esquema de formação de bloco de IGF fixo e clareamento baseado em tonalidade.
[0262] O experimento descrito neste documento é principalmente teórico para provar a aplicabilidade do princípio de tal modelo avançado para controlar a escolha do parâmetro de IGF adaptativo. Existe a consciência de que o uso da atual
‘abordagem de força bruta’ tem o preço de alta complexidade computacional.
[0263] Portanto, foi previsto, como uma modificação opcional, treinar uma Rede Neural Profunda (DNN) na saída do modelo e, assim, cortar drasticamente a complexidade em uma aplicação prática do modelo proposto.
14. EXTENSÕES OPCIONAIS
[0264] A seguir, extensões e modificações opcionais para o “Modelo Psicoacústico Aprimorado para Codecs de Áudio Perceptual Eficientes” serão descritas.
14.1 INTRODUÇÃO NA EXTENSÃO
[0265] A descrição principal da invenção apresentada acima detalha o modelo psicoacústico proposto e demonstra modalidades preferenciais com o uso do modelo proposto como um controlador para a estimativa de parâmetros de IGF dentro de um codificador de áudio MPEG-H 3D.
[0266] A configuração experimental esboça um experimento com o uso de uma abordagem exaustiva (“força bruta”), em que, por exemplo, todas as combinações possíveis de parâmetros a serem estimados são empregados para gerar uma infinidade de resultados que são subsequentemente comparados para selecionar o melhor.
[0267] Ao mesmo tempo, foi mencionado que tal abordagem é, sob o ponto de vista computacional, altamente complexa.
[0268] Assim, passamos a propor o uso de uma Rede Neural Profunda (DNN) na prática para substituir opcionalmente a aplicação repetida do cálculo analítico dispendioso do próprio modelo.
14.2 ABORDAGEM DE DNN
[0269] Deve-se notar que o uso da abordagem de DNN é opcional, utilizável como uma alternativa aos conceitos mencionados acima ou em combinação com os conceitos mencionados acima.
[0270] Tal abordagem baseada em DNN consiste em treinar a DNN (por exemplo, a rede neural 530) com uma quantidade suficiente de material de áudio que foi automaticamente anotado pela saída do modelo psicoacústico proposto (por exemplo, com o uso do avaliador de similaridade de áudio mencionado nesse documento) (em que o material de áudio anotado pela saída do modelo psicoacústico pode ser considerado como os dados de treinamento da rede neural 532).
[0271] Portanto, a complexidade computacional é deslocada para a fase de preparação (offline) do treinamento de DNN para produzir o material anotado automaticamente (por exemplo, como dados de treinamento de rede neural 532), e também para a fase de treinamento (por exemplo, da rede neural 530) para estimar os pesos apropriados dos nós de DNN nas camadas (por exemplo, da rede neural 530).
[0272] Na fase de aplicação, o DNN (por exemplo, a rede neural 530), que pode, por exemplo, ser usado em um codificador de áudio para determinar parâmetros de codificação, tem complexidade apenas moderada devido à sua arquitetura.
[0273] Para uso real, tal codificador (por exemplo, o codificador de áudio 500) é equipado com um DNN prontamente treinado (por exemplo, treinado com o uso de informações de parâmetro derivadas de informações de áudio de treinamento com o uso do avaliador de similaridade de áudio) que imita de perto a saída do modelo psicoacústico analítico descrito (por exemplo, a saída do avaliador de similaridade de áudio 100, 200, 340 ou, por exemplo, a saída da seleção de parâmetro de codificação 330, 430).
14.3 MODALIDADES (DETALHES SÃO OPCIONAIS)
[0274] Em uma implantação, a dita saída de modelo a ser aprendida (por exemplo, pela DNN) pode ser um único número como uma medida de qualidade por quadro de áudio (por exemplo, obtido pelo avaliador de similaridade de áudio), uma diferença de um único número obtida subtraindo a qualidade medida do original e uma versão codificada do mesmo, ou múltiplos números de uma Representação Interna ou suas diferenças escritas. (em relação a) àquelas do original.
[0275] Em outra implementação, uma DNN é treinada diretamente no sinal de entrada (possivelmente com o uso de diferentes representações conforme descrito abaixo) e os dados de decisão obtidos a partir da “etapa 2” na Figura 6 (formação de bloco e clareamento ideal) com o uso do modelo psicoacústico analítico descrito (ou com o uso do avaliador de similaridade de áudio). Então, a saída de DNN pode ser usada diretamente para controlar um codificador (por exemplo, codificador de MPEG-H) para adaptar os parâmetros de codificação de uma maneira perceptualmente ideal (em que, por exemplo, os parâmetros de codificação são emitidos pela rede neural). Assim, não há mais necessidade de codificar o sinal de entrada com várias configurações diferentes, conforme exigido na abordagem de força bruta apresentada acima.
[0276] DNNs podem ter diferentes topologias (Redes Neurais Convolutivas (CNN), Redes Neurais Recorrentes (RNN), ...). DNN pode ser treinado em diferentes entradas (dados PCM [quadros], dados espectrais (Espectro de Fourier, Transformada Q Constante, Banco de Filtros Gammatone, ...).
15. COMENTÁRIOS E OBSERVAÇÕES ADICIONAIS
[0277] Deve-se notar que os três níveis de clareamento IGF (desligado == sem processamento, médio == atenuação de picos tonais, forte == substituição de ruído) também incluem uma substituição de ruído; nesse caso, o conteúdo de um bloco é descartado e substituído por ruído não correlacionado. Esses modos podem, por exemplo, ser determinados no codificador de áudio. Em outras palavras, o nível de clareamento “forte” no IGF substitui tecnicamente o bloco de origem por ruído não correlacionado.
[0278] Ademais, em uma modalidade, opcionalmente, apenas certos componentes espectrais (por exemplo, predeterminados) de um sinal de áudio são analisados como descrito, por exemplo, apenas uma banda alta ou banda de alta frequência. Isso pode, por exemplo, ser útil para reduzir a complexidade, por exemplo, se apenas algumas partes do espectro são afetadas pelas decisões de codificação. Por exemplo, isso é útil no exemplo descrito que usa IGF, uma vez que nenhuma parte do espectro fora de uma faixa entre 4,2 kHz e 8,4 kHz é afetada pelos resultados da análise.
16. CONCLUSÕES
[0279] Para concluir, desde os primeiros codificadores de áudio perceptual, como o mp3, o modelo psicoacústico subjacente que controla o processo de codificação não sofreu muitas mudanças dramáticas. Enquanto isso, os codificadores de áudio modernos foram equipados com ferramentas de codificação semiparamétricas ou paramétricas, como extensão de largura de banda de áudio. Verificou-se que, assim, o modelo psicoacústico inicial usado em um codificador perceptual, apenas considerando o ruído de quantização adicionado, tornou-se parcialmente inadequado.
[0280] De um modo geral, as modalidades de acordo com a invenção propõem o uso de um modelo de excitação psicoacústica melhorado com base em um modelo existente desenvolvido por Dau et al. em 1997, por exemplo, para uma avaliação de similaridade de sinais de áudio, por exemplo, em um codificador de áudio. Esse modelo baseado em modulação é essencialmente independente da forma de onda de entrada precisa, calculando uma representação auditiva interna. Por meio do uso do exemplo de MPEG-H 3D Audio e sua ferramenta de Preenchimento de Lacuna Inteligente (IGF) semiparamétrica, demonstrou-se que é possível controlar com sucesso o processo de seleção de parâmetros IGF para obter uma qualidade perceptual melhorada geral.
[0281] No entanto, deve-se notar que o conceito revelado neste documento não está limitado ao uso de qualquer codificador de áudio específico ou conceito de extensão de largura de banda.
17. OBSERVAÇÕES ADICIONAIS
[0282] No presente documento, serão descritos diferentes modalidades e aspectos inventivos, por exemplo, nos capítulos “Modelo Psicoacústico Proposto” e “Controle de IGF por Modelo Psicoacústico”.
[0283] No entanto, as características, funcionalidades e detalhes descritos em quaisquer outros capítulos também podem, opcionalmente, ser introduzidos nas modalidades de acordo com a presente invenção.
[0284] Além disso, outras modalidades serão definidas pelas reivindicações anexas.
[0285] Deve-se notar que quaisquer modalidades definidas pelas reivindicações podem ser complementadas por qualquer um dos detalhes (recursos e funcionalidades) descritos nos capítulos mencionados acima.
[0286] Além disso, as modalidades descritas nos capítulos mencionados acima podem ser usadas individualmente e também podem ser complementadas por qualquer um dos recursos em outro capítulo, ou por qualquer recurso incluído nas reivindicações.
[0287] Além disso, deve-se notar que os aspectos individuais descritos neste documento podem ser usados individualmente ou em combinação. Dessa forma, detalhes podem ser adicionados a cada um dos ditos aspectos individuais sem adicionar detalhes a outro dos ditos aspectos.
[0288] Deve-se notar também que a presente revelação descreve, explícita ou implicitamente, recursos utilizáveis em um codificador de áudio (aparelho para fornecer uma representação codificada de um sinal de áudio de entrada). Assim, qualquer um dos recursos aqui descritos pode ser usado no contexto de um codificador de áudio.
[0289] Além disso, os recursos e funcionalidades revelados neste documento em relação a um método também podem ser usados em um aparelho (configurado para executar tal funcionalidade). Além disso, quaisquer recursos e funcionalidades reveladas neste documento em relação a um aparelho também podem ser usadas em um método correspondente. Em outras palavras, os métodos revelados neste documento podem ser complementados por qualquer um dos recursos e funcionalidades descritos em relação aos aparelhos.
[0290] Além disso, qualquer um dos recursos e funcionalidades aqui descritos podem ser implantados em hardware ou software, ou com o uso de uma combinação de hardware e software, conforme será descrito na seção “alternativas de implantação”.
18. ALTERNATIVAS DE IMPLEMENTAÇÃO:
[0291] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou um dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item correspondente ou um recurso de um aparelho correspondente. Algumas ou todas as etapas de método podem ser executadas por (ou com a utilização de) um aparelho de hardware como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, uma ou mais dentre as etapas mais importantes do método podem ser executadas por tal aparelho.
[0292] Dependendo de determinados requisitos de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada com o uso de um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória Flash, que tem sinais de controlar eletronicamente legíveis armazenados no mesmo, que cooperam (ou têm capacidade para cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível por computador.
[0293] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados que tem sinais de controle eletronicamente legíveis, que tem capacidade para cooperar com um sistema de computador programável, de modo que um dentre os métodos descritos no presente documento seja executado.
[0294] Em geral, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, em que o código de programa é operacional para realizar um dentre os métodos quando o produto de programa de computador opera em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[0295] Outras modalidades compreendem o programa de computador para desempenho de um dentre os métodos descritos no presente documento, armazenado em uma portadora legível por máquina.
[0296] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para desempenho de um dos métodos descritos no presente documento, quando o programa de computador é executado em um computador.
[0297] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, registrado no mesmo, o programa de computador para desempenho de um dentre os métodos descritos no presente documento. A portadora de dados, a mídia de armazenamento digital ou a mídia gravada são, tipicamente, tangíveis e/ou de não transição.
[0298] Uma modalidade adicionalmente do método inventivo é, portanto, uma corrente de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. A corrente de dados ou a sequência de sinais podem ser configuradas, por exemplo, para serem transferidas por meio de uma conexão de comunicação de dados, por exemplo, por meio da internet.
[0299] Uma modalidade adicional compreende meios de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurados ou adaptados para realizar um dentre os métodos descritos no presente documento.
[0300] Uma modalidade adicional compreende um computador que tem instalado em si o programa de computador para desempenho de um dos métodos descritos no presente documento.
[0301] Uma modalidade adicional, de acordo com a invenção,
compreende um aparelho e um sistema configurados para transferir (por exemplo, de modo eletrônico ou óptico) um programa de computador para desempenho de um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. O aparelho ou sistema podem compreender, por exemplo, um servidor de arquivo para transferir o programa de computador para o receptor.
[0302] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, uma matriz de portas programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, uma matriz de portas programável em campo pode cooperar com um microprocessador a fim de realizar um dentre os métodos descritos no presente documento. De modo geral, os métodos são realizados, de preferência, por meio de qualquer aparelho de hardware.
[0303] O aparelho descrito no presente documento pode ser implantado com o uso de um aparelho de hardware, ou com o uso de um computador, ou com o uso de uma combinação de um aparelho de hardware e um computador.
[0304] O aparelho descrito no presente documento, ou quaisquer componentes do aparelho descrito no presente documento, podem ser implantados pelo menos parcialmente em hardware e/ou em software.
[0305] Os métodos descritos no presente documento podem ser realizados com o uso de um aparelho de hardware, ou com o uso de um computador, ou com o uso de uma combinação de um aparelho de hardware e um computador.
[0306] Os métodos descritos no presente documento, ou quaisquer componentes do aparelho descrito no presente documento, podem ser realizados pelo menos parcialmente por hardware e/ou por software.
[0307] As modalidades descritas acima são apenas ilustrativas para os princípios da presente invenção. Entende-se que as modificações e as variações das disposições e os detalhes descritos no presente documento serão evidentes para outras pessoas versadas na técnica. Portanto, pretende-se que as mesmas sejam limitadas apenas pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento.
REFERÊNCIAS
[1] Herre, J. e Disch, S., Perceptual Audio Coding, páginas 757 a 799, Academic press, Elsevier Ltd., 2013.
[2] Schuller, G. e Härmä, A., “Low delay audio compression using predictive coding”, em 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, páginas 1.853 a 1.856, 2002.
[3] Dietz, M., Liljeryd, L., Kjorling, K. e Kunz, O., “Spectral Band Replication, a Novel Approach in Audio Coding”, em Audio Engineering Society Convention 112,
2002.
[4] Herre, J. e Dietz, M., “MPEG-4 high-efficiency AAC coding [Standards in a Nutshell]”, Signal Processing Magazine, IEEE, (Vol. 25, 2008), páginas 137 a 142,
2008.
[5] Disch, S., Niedermeier, A., Helmrich, C. R., Neukam, C., Schmidt, K., Geiger, R., Lecomte, J., Ghido, F., Nagel, F. e Edler, B., “Intelligent Gap Filling in Perceptual Transform Coding of Audio”, em Audio Engineering Society Convention 141, 2016.
[6] ISO/IEC (MPEG-H) 23008-3, “High efficiency coding and media delivery in heterogeneous environments – Parte 3: 3D audio”, 2015.
[7] 3GPP, TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12), 2014.
[8] Laitinen, M.-V., Disch, S. e Pulkki, V., “Sensitivity of Human Hearing to Changes in Phase Spectrum,” J. Audio Eng. Soc (Journal of the AES), (Vol. 61, n o 11, 2013), páginas 860 a 877, 2013.
[9] Dau, T., Kollmeier, B. e Kohlrausch, A., “Modelling auditory processing of amplitude modulation. I. Detection and masking with narrow-band carriers,” J. Acoust. Soc. Am., 102, páginas 2.892 a 2.905, 1997.
[10] Dau, T., Modeling auditory processing of amplitude modulation, Ph.D. thesis, 1996.
[11] Dau, T., Püschel, D. e Kohlrausch, A., “A quantization model of the ’effective’ signal processing in the auditory system. I. Model structure,” J. Acoust. Soc. Am., 99, páginas 3.615 a 3.622, 1996.
[12] Ewert, S., Verhey, J., and Dau, T., “Spectro-temporal processing in the envelope-frequency domain,” J. Acoust. Soc. Am., (112), páginas 2.921 a 2.931, 2003.
[13] Glasberg, B. e Moore, B., “Derivation of auditory filter shapes from notched-noise data,” Hearing Research, (47), páginas 103 a 138, 1990.
[14] https://commons.wikimedia.org/wiki/File:Cochlea crosssection.svg, Julho de 2018.
[15] Kohlrausch, A., Fassel, R. e Dau, T., “The influence of carrier level and frequency on modulation and beat detection thresholds for sinusoidal carriers,” J. Acoust. Soc. Am., 108, páginas 723 a 734, 2000.
[16] Vafin, R., Heusdens, R., van de Par, S. e Kleijn, W., “Improving modeling of audio signals by modifying transient locations”, em Proceedings of the IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, páginas 143 a 146, 2001.
[17] van de Par, S., Koppens, J., Oomen,W. e Kohlrausch, A., “A new perceptual model for audio coding based on spectro-temporal masking”, em 124a AES Convention, 2008.
[18] Hall, J., Haggard, M. e Fernandes, M., “Detection in noise by spectro- temporal pattern analysis,” J. Acoust. Soc. Am., (76), páginas 50 a 56, 1984.
[19] van de Par, S. e Kohlrausch, A., “Comparison of monaural (CMR) and binaural (BMLD) masking release,” J. Acoust. Soc. Am., 103, páginas 1.573 a 1.579,
1998.
[20] Hanna, T., “Discrimination of reproducible noise as a function of bandwidth and duration,” Percept. Psychophys., 36, páginas 409 a 416, 1984.
[21] Herre, J., Hilpert, J., Kuntz, A. e Plogsties, J., “MPEG-H Audio - The New Standard for UniversalSpatial / 3D Audio Coding,” 137a AES Convention, 2014.
[22] Schmidt, K. e Neukam, C., “Low complexity tonality control in the Intelligent Gap Filling tool”, em 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), páginas 644 a 648, 2016.
[23] Helmrich, C., Niedermeier, A., Disch, S. e Ghido, F., “Spectral Envelope Reconstruction via IGF for Audio Transform Coding”, em IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, Austrália, 2015.
[24] ITU-R, Recommendation BS.1534-1 Method for subjective assessment of intermediate sound quality(MUSHRA), Geneva, 2003.

Claims (29)

REIVINDICAÇÕES
1. Avaliador de similaridade de áudio (100;200;340), sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para obter sinais de envelope (122a a 122c; 222a a 222e) para uma pluralidade de faixas de frequência com base em um sinal de áudio de entrada (110;210;362), e em que o avaliador de similaridade de áudio é configurado para obter informações de modulação (162a a 162c; 262a a 262e) associadas aos sinais de envelope para uma pluralidade de faixas de frequência de modulação, em que as informações de modulação descrevem a modulação temporal dos sinais de envelope para uma pluralidade de faixas de frequência de modulação e compreendem uma pluralidade de valores que são associados a diferentes frequências de modulação que estão presentes em um respectivo sinal de envelope; e em que o avaliador de similaridade de áudio é configurado para comparar as informações de modulação obtidas com informações de modulação de referência (182a a 182c; 282a a 282e) associadas a um sinal de áudio de referência (310), de modo a obter informações (112;212;342) a cerca de uma similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência.
2. Avaliador de similaridade de áudio (100;200;340), de acordo com a reivindicação 1, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para aplicar uma pluralidade de filtros ou operações de filtração (230) que tem características de filtração sobreprojetantes, de modo a obter os sinais de envelope (122a a 122c; 222a a 222e).
3. Avaliador de similaridade de áudio (100;200;340), de acordo com a reivindicação 1 ou 2, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para aplicar uma retificação (236) aos sinais de saída (232a a 232e) dos filtros ou operação de filtração (230), para obter uma pluralidade de sinais retificados (238), ou em que o avaliador de similaridade de áudio é configurado para obter um envelope de Hilbert com base em sinais de saída (232a a 232e) dos filtros ou operação de filtração (230), ou em que o avaliador de similaridade de áudio é configurado para demodular os sinais de saída (232a a 232e) dos filtros ou operação de filtração (230).
4. Avaliador de similaridade de áudio (100;200;340), de acordo com a reivindicação 3, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para aplicar um filtro passa-baixa ou uma filtração em passa-baixa (240) aos sinais retificados (238).
5. Avaliador de similaridade de áudio (100;200;340), de acordo com qualquer uma das reivindicações 1 a 4, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para aplicar um controle de ganho automático (250), de modo a obter os sinais de envelope (222a a 222e), ou para aplicar um transformada logarítmica, de modo a obter os sinais de envelope (222a a 222e), ou para aplicar uma modelagem de uma mascaramento de encaminhamento, de modo a obter os sinais de envelope (222a a 222e).
6. Avaliador de similaridade de áudio (100;200;340), de acordo com a reivindicação 5, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para variar um ganho aplicado para derivar os sinais de envelope (222a a 222e) com base em sinais retificados e filtrados em passa-baixa (242) providos por uma pluralidade de filtros ou operações de filtração (240) com base no sinal de áudio de entrada.
7. Avaliador de similaridade de áudio (100;200;340), de acordo com qualquer uma das reivindicações 1 a 6, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para processar versões retificadas e filtradas em passa-baixa (242) de sinais (232a a 232e) providos por uma pluralidade de filtros ou operações de filtração (230) com base no sinal de áudio de entrada (210) com uso de uma série de dois ou mais circuitos de adaptação (254,256,257), que aplicam um escalonamento variante de tempo em dependência de valores de ganho variantes de tempo (258), em que o avaliador de similaridade de áudio é configurado para ajuste diferente dos valores de ganho variantes de tempo (258) com uso de diferentes constantes de tempo.
8. Avaliador de similaridade de áudio (100;200;340), de acordo com qualquer uma das reivindicações 1 a 7, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para aplicar uma pluralidade de filtros de modulação (264) que têm diferentes bandas passantes aos sinais de envelope (222a a 222e), para obter as informações de modulação (262a a 262e), e/ou em que o avaliador de similaridade de áudio é configurado para aplicar uma redução de taxa de amostragem aos sinais de envelope (222a a 222e), para obter as informações de modulação (262a a 262e).
9. Avaliador de similaridade de áudio (100;200;340), de acordo com a reivindicação 8, caracterizado por os filtros de modulação (264) serem configurados para separar pelo menos parcialmente componentes do sinal de envelope (222a a 222e) que tem diferentes frequências, em que uma frequência central de um primeiro filtro de modulação de frequência mais baixa é menor do que 5 Hz, e em que uma frequência central de um filtro de modulação mais alta de frequência está em uma faixa entre 200 Hz e 300 Hz.
10. Avaliador de similaridade de áudio (100;200;340), de acordo com a reivindicação 8 ou 9, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para remover componentes de CC ao obter as informações de modulação (262a a 262e).
11. Avaliador de similaridade de áudio (100;200;340), de acordo com qualquer uma das reivindicações 8 a 10, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para remover informações de fase ao obter as informações de modulação (262a a 262e).
12. Avaliador de similaridade de áudio (100;200;340), de acordo com qualquer uma das reivindicações 1 a 11, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para derivar um valor escalar (112;212;342) que representa uma diferença entre as informações de modulação obtidas (262a a 262e) e as informações de modulação de referência (282a a 282e) associadas a um sinal de áudio de referência (310).
13. Avaliador de similaridade de áudio (100;200;340), de acordo com qualquer uma das reivindicações 1 a 12, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para determinar uma representação de diferença (294a a 294e) de modo a comparar as informações de modulação obtidas (262a a 262e) com as informações de modulação de referência (282a a 282e) associadas a um sinal de áudio de referência.
14. Avaliador de similaridade de áudio (100;200;340), de acordo com qualquer uma das reivindicações 1 a 13, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para ajustar uma ponderação de uma diferença (289a a 289e) entre as informações de modulação obtidas (262a a 262e) e as informações de modulação de referência (282a a 282e) associadas a um sinal de áudio de referência em dependência de uma comodulação entre os sinais de envelope (222a a 222e) obtidos ou informações de modulação (262a a 262e) em duas ou mais faixas de frequência acústicas adjacentes ou entre sinais de envelope associadas ao sinal de referência ou entre as informações de modulação de referência (282a a 282e) em duas ou mais faixas de frequência acústicas adjacentes.
15. Avaliador de similaridade de áudio (100;200;340), de acordo com qualquer uma das reivindicações 1 a 14, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para inserir uma ponderação mais alta em diferenças (289a a 289e) entre as informações de modulação obtidas (262a a 262e) e as informações de modulação de referência (282a a 282e) associadas a um sinal de áudio de referência que indica que o sinal de áudio de entrada (210) compreende um componente de sinal adicional quando comparado às diferenças (289a a 289e) entre as informações de modulação obtidas (262a a 262e) e as informações de modulação de referência (282a a 282e)
associadas a um sinal de áudio de referência que indica que o sinal de áudio de entrada carece de um componente de sinal ao determinar as informações (212) acerca da similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência.
16. Avaliador de similaridade de áudio (100;200;340), de acordo com qualquer uma das reivindicações 1 a 15, sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para ponderar valores positivos e negativos de uma diferença (289a a 289e) entre as informações de modulação obtidas (262a a 262e) e as informações de modulação de referência (282a a 282e) com uso de diferentes pesos ao determinar as informações acerca da similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência.
17. Codificador de áudio (300;400) para codificar um sinal de áudio (310;410), sendo que o codificador de áudio é caracterizado por ser configurado para determinar um ou mais parâmetros de codificação (324;424) em dependência de uma avaliação de uma similaridade entre um sinal de áudio a ser codificado (310;410) e um sinal de áudio codificado (362), em que o codificador de áudio compreende um avaliador de similaridade de áudio (100;200;340), de acordo com qualquer uma das reivindicações 1 a 16, que é configurada para avaliar a similaridade entre o sinal de áudio (310; 410) a ser codificado e o sinal de áudio codificado (352).
18. Codificador de áudio (300;400) de acordo com a reivindicação 17, sendo que o codificador de áudio é caracterizado por ser configurado para codificar um ou mais parâmetros de extensão de largura de banda (324;424) que definem uma regra de processamento a ser usada no lado de um decodificador de áudio (1000) para derivar um conteúdo de áudio em falta (1052) com base em um conteúdo de áudio (1042) de uma faixa de frequências diferente codificada pelo codificador de áudio; e/ou em que o codificador de áudio é configurado para codificar um ou mais parâmetros de configuração de decodificador de áudio que definem uma regra de processamento a ser usada no lado de um decodificador de áudio.
19. Codificador de áudio (300;400) de acordo com a reivindicação 17 ou 18, sendo que o codificador de áudio é caracterizado por ser configurado para suportar um Preenchimento de Lacuna Inteligente, e em que o codificador de áudio é configurado para determinar um ou mais parâmetros (324;424) do Preenchimento de Lacuna Inteligente com uso de uma avaliação da similaridade entre o sinal de áudio (310;410) a ser codificado e o sinal de áudio codificado (352).
20. Codificador de áudio (300;400) de acordo com qualquer uma das reivindicações 17 a 19, sendo que o codificador de áudio é caracterizado por ser configurado para selecionar uma ou mais associações entre uma faixa de frequências de origem (sT[.]) e uma faixa de frequências alvo (tile[.]) para uma extensão de largura de banda e/ou um ou mais parâmetros de operação de processamento para uma extensão de largura de banda em dependência da avaliação de uma similaridade entre um sinal de áudio (310;410) a ser codificado e um sinal de áudio codificado (362).
21. Codificador de áudio (300;400) de acordo com qualquer uma das reivindicações 17 a 20, sendo que o codificador de áudio é caracterizado por ser configurado para selecionar uma ou mais associações entre uma faixa de frequências de origem e uma faixa de frequências alvo para uma extensão de largura de banda, em que o codificador de áudio é configurado para permitir ou proibir seletivamente uma mudança de uma associação entre uma faixa de frequências de origem e uma faixa de frequências alvo em dependência de uma avaliação de uma modulação de um envelope em uma faixa de frequências alvo antiga ou uma faixa de frequências nova.
22. Codificador de áudio (300;400) de acordo com a reivindicação 21, sendo que o codificador de áudio é caracterizado por ser configurado para determinar uma intensidade de modulação (485) de um envelope em uma faixa de frequências alvo em uma faixa de frequências de modulação correspondente a uma taxa de quadro do codificador e para determinar uma medição de sensibilidade (487) em dependência da intensidade de modulação determinada, e em que o codificador de áudio é configurado para decidir a possibilidade de o mesmo ser permitido ou proibido a mudar uma associação entre uma faixa de frequências alvo e uma faixa de frequências de origem em dependência da medição de sensibilidade.
23. Codificador de áudio (500) para codificar um sinal de áudio, sendo que o codificador de áudio é caracterizado por ser configurado para determinar um ou mais parâmetros de codificação (524) em dependência de um sinal de áudio (510) a ser codificado com uso de uma rede neural (524), em que a rede neural é trainada com uso de um avaliador de similaridade de áudio (100;200) de acordo com uma das reivindicações 1 a 16.
24. Avaliador de similaridade de áudio (600), sendo que o avaliador de similaridade de áudio é caracterizado por ser configurado para obter sinais de envelope (622a a 622c) para uma pluralidade de faixas de frequência com base em um sinal de áudio de entrada (610), e em que o avaliador de similaridade de áudio ser configurado para comparar uma representação de análise (622a a 622c) do sinal de áudio de entrada, que corresponde aos sinais de envelope ou que é baseado nos sinais de envelope, com uma representação de análise de referência (682a a 682c) associada a um sinal de áudio de referência, de modo a obter informações (612) acerca de uma similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência, em que avaliador de similaridade de áudio é configurado para ajustar uma ponderação de uma diferença entre a representação de análise (622a a 622c) obtida e a representação de análise de referência (682a a 682c) em dependência de uma comodulação entre os sinais de envelope ou informações de modulação obtidas em duas ou mais faixas de frequência acústicas adjacentes do sinal de áudio de entrada ou em dependência de uma comodulação entre sinais de envelope associados ao sinal de áudio de referência ou entre informações de modulação de referência em duas ou mais faixas de frequência acústicas adjacentes do sinal de áudio de referência.
25. Método para avaliar uma similaridade entre sinais de áudio, sendo que o método é caracterizado por compreender obter sinais de envelope para uma pluralidade de faixas de frequência com base em um sinal de áudio de entrada, e em que o método compreende obter informações de modulação associadas aos sinais de envelope para uma pluralidade de faixas de frequência de modulação, em que as informações de modulação descrevem a modulação temporal dos sinais de envelope para uma pluralidade de faixas de frequência de modulação e compreende uma pluralidade de valores que são associados a diferentes frequências de modulação que estão presentes em um respectivo sinal de envelope; e em que o método compreender comparar as informações de modulação obtidas com informações de modulação de referência associadas a um sinal de áudio de referência, de modo a obter informações acerca de uma similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência.
26. Método para codificar um sinal de áudio, sendo que o método é caracterizado por compreender determinar um ou mais parâmetros de codificação em dependência de uma avaliação de uma similaridade entre um sinal de áudio a ser codificado e um sinal de áudio codificado, em que o método compreende avaliar a similaridade entre o sinal de áudio a ser codificado e o sinal de áudio codificado de acordo com a reivindicação 25.
27. Método para codificar um sinal de áudio, sendo que o método é caracterizado por compreender determinar um ou mais parâmetros de codificação em dependência de um sinal de áudio a ser codificado com uso de uma rede neural, em que a rede neural é treinada com uso de um método para avaliar uma similaridade entre sinais de áudio de acordo com reivindicação 25.
28. Método para avaliar uma similaridade entre sinais de áudio, sendo que o método é caracterizado por compreender obter sinais de envelope para uma pluralidade de faixas de frequência com base em um sinal de áudio de entrada, e em que o método compreende comparar uma representação de análise do sinal de áudio de entrada, que corresponde aos sinais de envelope ou que é baseado nos sinais de envelope, com uma representação de análise de referência associada a um sinal de áudio de referência, de modo a obter informações acerca de uma similaridade entre o sinal de áudio de entrada e o sinal de áudio de referência, em que o método compreende ajustar uma ponderação de uma diferença entre a representação de análise obtida e a representação de análise de referência em dependência de uma comodulação entre os sinais de envelope ou informações de modulação obtidas em duas ou mais faixas de frequência acústicas adjacentes do sinal de áudio de entrada ou em dependência de uma comodulação entre sinais de envelope associados ao sinal de áudio de referência ou entre informações de modulação de referência em duas ou mais faixas de frequência acústicas adjacentes do sinal de áudio de referência.
29. Programa de computador para realizar o método de qualquer uma das reivindicações 25 a 28, sendo que o programa de computador é caracterizado por ser executado em um computador.
BR112020024361-2A 2018-05-30 2019-05-29 avaliador de similaridade de áudio, codificador de áudio e métodos BR112020024361A2 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18175251.0 2018-05-30
EP18175251 2018-05-30
EP18198992.2A EP3576088A1 (en) 2018-05-30 2018-10-05 Audio similarity evaluator, audio encoder, methods and computer program
EP18198992.2 2018-10-05
PCT/EP2019/064105 WO2019229190A1 (en) 2018-05-30 2019-05-29 Audio similarity evaluator, audio encoder, methods and computer program

Publications (1)

Publication Number Publication Date
BR112020024361A2 true BR112020024361A2 (pt) 2021-03-02

Family

ID=62567262

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020024361-2A BR112020024361A2 (pt) 2018-05-30 2019-05-29 avaliador de similaridade de áudio, codificador de áudio e métodos

Country Status (10)

Country Link
US (1) US12051431B2 (pt)
EP (3) EP3576088A1 (pt)
JP (1) JP7301073B2 (pt)
KR (1) KR102640748B1 (pt)
CN (1) CN112470220B (pt)
BR (1) BR112020024361A2 (pt)
CA (2) CA3165021A1 (pt)
ES (1) ES2960785T3 (pt)
MX (1) MX2020012886A (pt)
WO (1) WO2019229190A1 (pt)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3084489B1 (fr) * 2018-07-26 2020-09-11 Etat Francais Represente Par Le Delegue General Pour Larmement Procede de detection d’au moins un equipement informatique compromis au sein d’un systeme d’information
CN113593586A (zh) * 2020-04-15 2021-11-02 华为技术有限公司 音频信号编码方法、解码方法、编码设备以及解码设备
WO2022076404A1 (en) * 2020-10-05 2022-04-14 The Trustees Of Columbia University In The City Of New York Systems and methods for brain-informed speech separation
CN115497485B (zh) * 2021-06-18 2024-10-18 华为技术有限公司 三维音频信号编码方法、装置、编码器和系统
CN116386611B (zh) * 2023-04-20 2023-10-13 珠海谷田科技有限公司 一种教学声场环境的去噪方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3183072B2 (ja) * 1994-12-19 2001-07-03 松下電器産業株式会社 音声符号化装置
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
JP3762204B2 (ja) 2000-09-07 2006-04-05 三菱電機株式会社 音声符号化・復号化機器の検査方法および検査装置
US6842733B1 (en) * 2000-09-15 2005-01-11 Mindspeed Technologies, Inc. Signal processing system for filtering spectral content of a signal for speech coding
DE10123366C1 (de) 2001-05-14 2002-08-08 Fraunhofer Ges Forschung Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
JP4272897B2 (ja) 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
US7565213B2 (en) 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
EP1782419A1 (en) * 2004-08-17 2007-05-09 Koninklijke Philips Electronics N.V. Scalable audio coding
CN101053018A (zh) * 2004-11-01 2007-10-10 皇家飞利浦电子股份有限公司 包括幅度包络的参数音频编码
KR100803205B1 (ko) 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
WO2007034375A2 (en) * 2005-09-23 2007-03-29 Koninklijke Philips Electronics N.V. Determination of a distortion measure for audio encoding
US20070083365A1 (en) 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
KR101149448B1 (ko) 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
EP2362375A1 (en) 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
JP5533502B2 (ja) * 2010-09-28 2014-06-25 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
AU2012218409B2 (en) * 2011-02-18 2016-09-15 Ntt Docomo, Inc. Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
EP2951822B1 (en) 2013-01-29 2019-11-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
EP2830061A1 (en) * 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
JP6306175B2 (ja) 2013-10-31 2018-04-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
CN104485114B (zh) * 2014-11-27 2018-03-06 湖南省计量检测研究院 一种基于听觉感知特性的语音质量客观评估的方法
JP6668372B2 (ja) * 2015-02-26 2020-03-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
EP3402217A1 (en) * 2017-05-09 2018-11-14 GN Hearing A/S Speech intelligibility-based hearing devices and associated methods

Also Published As

Publication number Publication date
JP2021526240A (ja) 2021-09-30
KR102640748B1 (ko) 2024-02-27
KR20210021490A (ko) 2021-02-26
CA3165021A1 (en) 2019-12-05
WO2019229190A1 (en) 2019-12-05
CN112470220B (zh) 2024-07-05
EP3803865C0 (en) 2023-08-09
JP7301073B2 (ja) 2023-06-30
EP4270393A3 (en) 2023-12-20
US20210082447A1 (en) 2021-03-18
CA3101911A1 (en) 2019-12-05
US12051431B2 (en) 2024-07-30
CA3101911C (en) 2023-12-12
EP3576088A1 (en) 2019-12-04
MX2020012886A (es) 2021-04-28
EP4270393A2 (en) 2023-11-01
CN112470220A (zh) 2021-03-09
ES2960785T3 (es) 2024-03-06
EP3803865A1 (en) 2021-04-14
EP3803865B1 (en) 2023-08-09

Similar Documents

Publication Publication Date Title
BR112020024361A2 (pt) avaliador de similaridade de áudio, codificador de áudio e métodos
US10269359B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
RU2641461C2 (ru) Аудиокодер, аудиодекодер, способ обеспечения кодированной аудиоинформации, способ обеспечения декодированной аудиоинформации, компьютерная программа и кодированное представление с использованием сигнально-адаптивного расширения полосы пропускания
US10276176B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
Disch et al. Improved psychoacoustic model for efficient perceptual audio codecs
BR112021011312A2 (pt) Aparelho sintetizador de sinal, processador de áudio e método para gerar um sinal de áudio de frequência melhorada usando processamento de pulso
RU2782981C2 (ru) Модуль оценки подобия аудиосигналов, аудиокодер, способы и компьютерная программа
Gunawan Audio compression and speech enhancement using temporal masking models
WO2024083809A1 (en) Apparatus and method for quality determination of audio signals

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]