BR112014020562B1 - Método, sistema e meio não-transitório legível por computador para determinar um primeiro valor de tonalidade agrupada - Google Patents

Método, sistema e meio não-transitório legível por computador para determinar um primeiro valor de tonalidade agrupada Download PDF

Info

Publication number
BR112014020562B1
BR112014020562B1 BR112014020562-0A BR112014020562A BR112014020562B1 BR 112014020562 B1 BR112014020562 B1 BR 112014020562B1 BR 112014020562 A BR112014020562 A BR 112014020562A BR 112014020562 B1 BR112014020562 B1 BR 112014020562B1
Authority
BR
Brazil
Prior art keywords
frequency
bin
pitch
audio signal
band
Prior art date
Application number
BR112014020562-0A
Other languages
English (en)
Other versions
BR112014020562A2 (pt
Inventor
Robin Thesing
Michael Schug
Original Assignee
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International Ab filed Critical Dolby International Ab
Publication of BR112014020562A2 publication Critical patent/BR112014020562A2/pt
Publication of BR112014020562B1 publication Critical patent/BR112014020562B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

métodos e sistemas para a recuperação eficiente de conteúdo de áudio em alta frequência. métodos de recuperação eficiente de conteúdo de alta frequência de sinal de áudio a partir de conteúdo de baixa frequência do mesmo. visa determinar um primeiro valor de tonalidade (311, 312) para uma primeira sub-banda de frequência (205) de sinal de áudio. o primeiro valor de tonalidade agrupado (311, 312) é utilizado para aproximar componente de alta frequência do sinal de áudio baseado em componente de baixa frequência do sinal de áudio. compreende determinar conjunto de coeficientes de transformação em conjunto correspondente de posições de frequência com base em bloco de amostras do sinal de áudio; determinar conjunto de valores de tonalidade agrupados (341) para o conjunto de posições de frequência, usando o conjunto de coeficientes de transformação, respectivamente, e a combinação do primeiro subconjunto de dois ou mais do conjunto de valores de tonalidade (341) para duas ou mais posições de frequências adjacentes correspondentes do conjunto de posições de frequência situadas dentro da primeira sub-banda de frequência, reduzindo desse modo valor de tonalidade (311, 312) da sub-banda de frequência.

Description

REFERÊNCIAS CRUZADAS PARA PEDIDOS RELACIONADOS
[001] Este pedido reivindica o benefício de prioridade para o Pedido de Patente Europeia No. 12.156.631.9 arquivado em 23 de fevereiro de 2012 e Pedido de Patente Provisório dos Estados Unidos No. 61/680, 805 apresentado em agosto de 2012, aqui incorporados por referência na sua integridade.
CAMPO TÉCNICO DA INVENÇÃO
[002] O presente documento refere-se ao campo técnico de codificação de áudio, decodificação e processamento. Refere-se especificamente a métodos de recuperação de conteúdo de alta frequência de um sinal de áudio a partir de conteúdo de baixa frequência do mesmo sinal de áudio de uma maneira eficiente.
ANTECEDENTES DA INVENÇÃO
[003] Codificação eficiente e decodificação de sinais de áudio incluem muitas vezes a redução da quantidade de dados relacionados com o áudio a ser codificado, transmitidos e / ou decodificado com base em princípios psico-acústicos. Isto inclui, por exemplo, descartar o assim chamado conteúdo de áudio mascarado o qual está presente em um sinal de áudio, mas não perceptível por um ouvinte. Alternativamente ou em adição, a largura de banda de um sinal de áudio a ser codificado pode ser limitada, enquanto apenas mantendo respectivamente o cálculo algumas informações sobre o seu conteúdo de suas frequências mais altas sem realmente codificar tal conteúdo de suas frequências mais altas diretamente. O sinal de banda limitada é, então, codificado e transmitido (ou armazenado) em conjunto com a dita informação de frequência mais alta, a última exigindo menos recursos do que codificando também diretamente o conteúdo de frequência mais alta.
[004] Replica de Banda Espectral (SBR) em HE-AAC (Alta Eficiência - Codificação de Áudio Avançada) e Extensão Espectral (SPX) em Dolby Digital Plus são dois exemplos de sistemas de codificação de áudio que se aproximam ou reconstroem um componente de alta frequência de um sinal de áudio baseados em um componente de baixa frequência do sinal de áudio, com base na informação adicional secundária (também citada como informação de frequência mais elevada). Em seguida, é feita referência ao esquema SPX do Dolby Digital Plus. Deve ser notado, no entanto, que os métodos e sistemas descritos no presente documento são aplicáveis a Técnicas de Reconstrução de Alta Frequência em geral, incluindo SBR em HE-AAC.
[005] A determinação da informação lateral num codificador de áudio baseado em SPX está normalmente sujeita à complexidade computacional importante. A título de exemplo, a determinação da informação lateral pode requerer cerca de 50% do total dos recursos computacionais do codificador de áudio. O presente documento descreve métodos e sistemas que permitem reduzir a complexidade computacional de codificadores de áudio baseados em SPX. Em particular, o presente documento descreve métodos e sistemas que permitem reduzir a complexidade computacional para a realização de cálculos de tonalidade no contexto de codificadores de áudio baseados em SPX (em que os cálculos de tonalidade podem ser responsáveis por cerca de 80% da complexidade computacional utilizada para determinar as informações laterais).
[006] US2010/009463 8A1 descreve um aparelho e um método para decidir um nível de ruído adaptativo para a extensão da largura de banda.
SUMÁRIO DA INVENÇÃO
[007] De acordo com um aspecto, um método para a determinação de um primeiro valor de tonalidade em faixas é descrito para uma primeira sub-banda de frequência de um sinal de áudio. O sinal de áudio pode ser o sinal de áudio de um canal de um sinal de áudio de canais múltiplos (por exemplo, um aparelho de estéreo, um sinal de multicanal 5.1 ou 7,1). O sinal de áudio pode ter uma largura de banda que varia a partir de uma frequência de sinal baixa para uma frequência de sinal de alta. A largura de banda pode incluir uma faixa de baixa frequência e uma faixa de alta frequência. A primeira sub-banda de frequência pode estar dentro da faixa de baixa frequência ou dentro da faixa de alta frequência. O primeiro valor de tonalidade agrupada pode ser indicativo de uma tonalidade do sinal de áudio dentro da primeira banda de frequências. Um sinal de áudio pode ser considerado como tendo uma tonalidade relativamente elevada dentro de uma sub-banda de frequência se a sub-banda de frequência compreender um grau relativamente elevado de conteúdo sinusoidal estável. Por outro lado, um sinal de áudio pode ser considerado como tendo uma tonalidade baixa dentro da sub-banda de frequência se a sub-banda de frequência compreender um grau de ruído relativamente elevado. O primeiro valor de tonalidade em faixas pode depender da variação da fase do sinal de áudio dentro da primeira sub-banda de frequência.
[008] O método para determinar o primeiro valor de tonalidade em faixas pode ser usado no contexto de um codificador do sinal de áudio. O codificador pode fazer uso de técnicas de reconstrução de alta frequência, tal como Replicação de Banda Espectral (SBR) como o usado, por exemplo, no contexto de um Codificador de Áudio Avançado de Alta Eficiência HE-AAC ou Extensão Espectral (SPX) (como usado, por exemplo, no contexto de um codificador Dolby Digital Plus). O primeiro valor de tonalidade em faixas pode ser utilizado para aproximar um componente de alta frequência (na faixa de alta frequência) do sinal de áudio com base em um componente de baixa frequência (na faixa de baixa frequência) do sinal de áudio. Em particular, o primeiro valor de tonalidade em faixas pode ser usado para determinar a informação lateral que pode ser usada por um decodificador de áudio correspondente para reconstruir o componente de alta frequência do sinal de áudio com base no componente de baixa frequência recebido (decodificado) do sinal de áudio. As informações laterais podem, por exemplo, especificar um valor de ruído para ser adicionado às subbandas de frequência traduzidas do componente de baixa frequência, a fim de aproximar uma sub-banda de frequência do componente de alta frequência.
[009] O método pode compreender a determinação de um conjunto de coeficientes de transformada em um conjunto correspondente de bins de frequência com base em um bloco de amostras do sinal de áudio. A sequência de amostras do sinal de áudio pode ser agrupada em uma sequência de quadros compreendendo cada uma um número de amostras pré-determinado. Um quadro da sequência de quadros pode ser subdividido em um ou mais blocos de amostras. Blocos adjacentes de uma estrutura podem se sobrepor (por exemplo, até 50%). Um bloco de amostras pode ser transformado a partir do domínio do tempo para o domínio da frequência usando uma transformada do domínio do tempo para o domínio da frequência, tal como uma Transformada de Cosseno Discreto Modificada (MDCT) e/ou uma Transformada de Seno Discreto Modificada (MDST), produzindo desse modo o conjunto de coeficientes de transformada. Através da aplicação de uma MDST e uma MDCT para o bloco de amostras, um conjunto de coeficientes complexos de transformada pode ser fornecido. Normalmente, o número N de coeficientes de transformada (e o número N de bins de frequência) corresponde ao número N de amostras dentro de um bloco (por exemplo, N=128 ou N=256). A primeira sub-banda de frequência pode compreender uma pluralidade das bins de frequência N. Em outras palavras, as bins de frequência N (tendo uma resolução de frequência relativamente alta) podem ser agrupadas para uma ou mais sub-bandas de frequência (tendo uma resolução de frequência relativamente mais baixa). Como resultado, é possível fornecer um número reduzido de sub-bandas de frequência (que é normalmente benéfico no que diz respeito para as taxas de dados reduzidas do sinal de áudio codificado), em que as sub-bandas de frequência têm uma seletividade frequência relativamente alta entre si (devido ao fato de que as sub-bandas de frequência são obtidas pelo agrupamento de uma pluralidade de bins de frequência de alta resolução).
[0010] O método pode compreender ainda determinar um conjunto de valores de tonalidade de bin para o conjunto de bins de frequência, usando respectivamente o conjunto de coeficientes de transformada. Os valores de tonalidade de bin normalmente são determinados para uma bin individual de frequência (usando o coeficiente de transformada desta bin de frequência individual). Como tal, um valor de tonalidade de bin é indicativo da tonalidade do sinal de áudio dentro de uma bin de frequência individual. A título de exemplo, o valor de tonalidade de bin depende da variação de fase do coeficiente de transformada dentro da correspondente bin de frequência individual.
[0011] O método pode ainda compreender a combinação de um primeiro subconjunto de dois ou mais do conjunto de valores de tonalidade da bin para duas ou mais bins de frequências adjacentes correspondentes do conjunto de bins de frequência situadas dentro da primeira sub-banda de frequência, produzindo desse modo o primeiro valor de tonalidade agrupada para a primeira sub-banda de frequência. Em outras palavras, o primeiro valor de tonalidade agrupada pode ser determinado pela combinação de dois ou mais valores de tonalidade de bin para as duas ou mais bins de frequência situadas dentro da primeira sub-banda de frequência. A combinação do primeiro subconjunto de dois ou mais do conjunto de valores de tonalidade de bin pode compreender obter a média dos dois ou mais valores de tonalidade de bin e / ou somar dois ou mais valores de tonalidade de bin. A título de exemplo, o primeiro valor de tonalidade agrupada pode ser determinado com base na soma dos valores de tonalidade de bin das bins de frequência situadas dentro da primeira sub-banda de frequência.
[0012] Como tal, o método para determinar o primeiro o valor de tonalidade agrupada especifica a determinação do primeiro valor tonalidade agrupada dentro da primeira sub-banda de frequência (que compreende uma pluralidade de bins de frequência), com base nos valores de tonalidade de bin das bins de frequência situadas dentro das primeiras sub-bandas de frequência. Em outras palavras, propõe- se determinar o primeiro valor de tonalidade agrupada em duas etapas, em que a primeira etapa fornece um conjunto de valores de tonalidade de bin e em que a segunda etapa combina (pelo menos em parte) o conjunto de valores de tonalidade de bin para produzir o primeiro valor de tonalidade agrupada. Como um resultado de tal abordagem em duas etapas, é possível determinar diferentes valores de tonalidade agrupada (para diferentes estruturas de sub-banda) com base no mesmo conjunto de valores de tonalidade de bin, reduzindo assim a complexidade computacional de um codificador de áudio que faz uso dos diferentes valores de tonalidade agrupada.
[0013] Em uma concretização, a método compreende ainda a determinação de um segundo valor de tonalidade agrupada em uma segunda sub-banda de frequência através da combinação de um segundo subconjunto de dois ou mais do conjunto de valores de bin de tonalidade para duas ou mais bins de frequências adjacentes correspondentes do conjunto de bins de frequência situadas dentro da segunda sub-banda de frequência. As primeira e segunda sub-bandas de fre- quência podem incluir, pelo menos, uma bin de frequência comum e os primeiro e segundo subconjuntos podem incluir pelo menos um valor tonalidade de bin comum correspondente. Em outras palavras, o primeiro e segundo valor de tonalidade agrupada pode ser determinado com base em pelo menos um valor de tonalidade de bin comum, permitindo desse modo uma complexidade computacional reduzida ligada à determinação dos valores de tonalidade agrupada. A título de exemplo, as primeira e segunda sub-bandas de frequência podem situar-se dentro da banda de alta frequência do sinal de áudio. A primeira sub-banda de frequência pode ser mais estreita do que a segunda sub-banda de frequência e pode estar dentro da segunda sub-banda de frequência. O primeiro valor de tonalidade pode ser usado no contexto Atenuação de Grande Variação de um Codificador baseado em SPX e o segundo valor de tonalidade pode ser usado no contexto de mistura de ruído do codificador baseado em SPX.
[0014] Como indicado acima, os métodos aqui descritos são normalmente usados no contexto de um codificador de áudio fazendo uso de técnicas de reconstrução de alta frequência (HFR). Tais técnicas HFR normalmente convertem uma ou mais bins de frequência da banda de baixa frequência do sinal de áudio para uma ou mais bins de frequência da banda de alta frequência, a fim de aproximar o componente de alta frequência do sinal de áudio. Como tal, a aproximação do componente de alta frequência do sinal de áudio com base no componente de baixa frequência do sinal de áudio pode compreender copiar um ou mais coeficientes de transformada de baixa fre-quência de uma ou mais bins de frequência da banda de baixa frequência correspondendo ao componente de baixa frequência para a banda de alta frequência correspondente ao componente de alta frequência do sinal de áudio. Este processo de cópia pré-determinado pode ser tomado em conta ao determinar os valores de tonalidade agrupada, em particular, pode ser levado em conta que valores de tonalidade de bin normalmente não são afetados pelo processo de cópia, permitindo assim que os valores tonalidade de bin que tiverem sido determinados para uma de bin frequência dentro da banda de baixa frequência para uma bin de frequência dentro da banda de baixa frequência a ser utilizado para as correspondentes bins de frequência copiadas.
[0015] Em uma concretização, a primeira sub-banda de frequência se situa dentro da banda de baixa frequência e a segunda sub-banda de frequência se situa dentro da banda de alta frequência. O método pode ainda compreender a determinação do segundo valor de tonalidade agrupada na segunda sub-banda de frequência através da combinação de um segundo subconjunto de dois ou mais do conjunto de valores de tonalidade de bin para duas ou mais bins de frequência correspondente das bins de frequência que têm sido copiadas para a segunda sub-banda de frequência. Em outras palavras, o segundo valor de tonalidade agrupada (para a segunda sub-banda de frequência situada dentro da banda de alta frequência) pode ser determinado com base nos valores de tonalidade de bin das bins de frequência que tiverem sido copiadas até a banda de alta frequência. A segunda sub-banda de frequência pode compreender pelo menos uma bin frequência que tiver sido copiada de uma bin de frequência situada dentro da primeira banda de frequência. Como tal, os primeiro e segundo subconjuntos podem compreender pelo menos um valor comum correspondente de tonalidade de bin, reduzindo desse modo a complexidade computacional ligada à determinação dos valores de tonalidade agrupada.
[0016] Como indicado acima, o sinal de áudio está normalmente agrupado em uma sequência de blocos (compreendendo, por exemplo, N amostras cada um). O método pode conter a determinação de uma sequência de conjuntos de coeficientes de transformada com base na sequência correspondente de blocos do sinal de áudio. Como um resultado disso, para cada bin de frequência, uma sequência de coeficientes de transformada pode ser determinada. Em outras palavras, para uma bin de frequência em particular, a sequência de conjuntos de coeficientes de transformada pode compreender uma sequência de coeficientes de transformada específicos. A sequência de coeficientes de transformada específicos pode ser utilizada para determinar uma sequência de valores de tonalidade de bin para a bin de frequência específica para a sequência de blocos de sinal de áudio.
[0017] A determinação do valor de tonalidade da bin para a bin de frequência específica pode compreender a determinação de uma sequência de fases com base na sequência de coeficientes de transformada específicos e a determinação de uma aceleração de fase com base na sequência de fases. O valor de tonalidade da bin para a bin de frequência em particular é geralmente uma função da aceleração de fase. A título de exemplo, o valor de tonalidade da bin para um bloco atual do sinal de áudio pode ser determinado com base em uma aceleração de fase atual. A aceleração de fase atual pode ser deter-minada com base na fase atual (determinada com base no coeficiente de transformada do bloco atual) e com base em duas ou mais fases precedentes (determinada com base em dois ou mais coeficientes de transformada de dois ou mais blocos anteriores). Como indicado acima, um valor de tonalidade de bin para uma bin de frequência específica é normalmente determinado apenas com base nos coeficientes de transformada da mesma bin de frequência específica. Em outras palavras, o valor de tonalidade de bin para uma bin de frequência normalmente é independente dos valores de tonalidade de bin de outras bins de frequência.
[0018] Como já descrito acima, o primeiro valor de tonalidade agrupada pode ser utilizado para aproximar um componente de alta frequência do sinal de áudio baseado em um componente de baixa frequência do sinal de áudio utilizando um esquema Extensão Espectral (SPX). O primeiro valor de tonalidade agrupada pode ser usado para determinar uma estratégia de reenvio de coordenada SPX, um fator de mistura de ruído e / ou uma Atenuação de Grande Variância.
[0019] De acordo com um outro aspecto, é descrito um método para determinar um fator de mistura de ruído. Deve notar-se que os diferentes aspectos e métodos descritos no presente documento podem ser combinados uns com os outros de uma maneira arbitrária. O fator de mistura de ruído pode ser utilizado para aproximar um componente de alta frequência do sinal de áudio baseado em um componente de baixa frequência do sinal de áudio. Como descrito acima, o componente de alta frequência compreende normalmente componentes do sinal de áudio na banda de alta frequência. A banda de alta frequência pode ser subdividida em uma ou mais sub-bandas de alta frequência (por exemplo, a primeira e / ou segunda sub-banda de frequência descrita acima). O componente do sinal de áudio dentro de uma subbanda de alta de frequência pode ser designado como um sinal de sub-banda de alta de frequência. De um modo semelhante, o componente de baixa frequência compreende normalmente componentes do sinal de áudio na faixa de baixa frequência e a banda de baixa frequência pode ser subdividida em uma ou mais sub-bandas de baixa frequência (por exemplo, a primeira e / ou segunda sub-bandas de frequência descritas acima). O componente do sinal de áudio dentro de uma sub-banda de baixa frequência pode ser designado como um sinal de sub-banda de baixa de frequência. Em outras palavras, o componente de alta frequência pode compreender um ou mais (original) sinais de sub-bandas de alta frequência na banda de alta frequência e o componente de baixa frequência pode compreender um ou mais si- nais da sub-banda de baixa frequência na banda de baixa frequência.
[0020] Tal como salientado anteriormente, uma aproximação do componente de alta frequência pode compreender copiar um ou mais sinais da sub-banda de baixa de frequência para a banda de alta frequência, produzindo, assim, um ou mais sinais aproximados da subbanda de alta frequência. O fator de mistura de ruído pode ser utilizado para indicar uma quantidade de ruído que é para ser adicionada para um ou mais sinais aproximados de sub-banda de alta frequência de forma a alinhar a tonalidade dos sinais aproximados da sub-banda de alta frequência com a tonalidade do sinal de sub-banda de alta frequência original do sinal de áudio. Em outras palavras, o fator de mistura de ruído pode ser indicativo de uma quantidade de ruído a ser adicionada a um ou mais sinais aproximados de sub-banda de alta frequência, a fim de aproximar o (original) componente de alta frequência do sinal de áudio.
[0021] O método pode compreender a determinação de um valor de tonalidade agrupada alvo com base em um ou mais (original) sinais de sub-banda de alta frequência. Além disto, o método pode compreender a determinação de um valor de tonalidade agrupada de origem com base em um ou mais sinais aproximados de sub-banda de alta frequência. Os valores de tonalidade podem ser um indicativo da evolução da fase dos respectivos sinais sub-banda. Além disso, os valores de tonalidade podem ser determinados tal como descrito no presente documento. Em particular, os valores de tonalidade agrupada podem ser determinados com base na abordagem em duas etapas delineada no presente documento, isto é, os valores de tonalidade agrupada podem ser determinados com base em um conjunto de valores de tonalidade de bin.
[0022] O método pode compreender ainda a determinação do fator de mistura de ruído com base nos valores de tonalidade agrupada de origem e destino. Em particular, o método pode incluir a determinação do fator de mistura de ruído com base no valor de tonalidade agrupada de origem, se a largura de banda do componente aproximado de alta frequência “para ser” for menor do que a largura de banda do componente de baixa de frequência que é utilizada para aproximar o componente de alta de frequência. Como resultado, a complexidade computacional para determinar o fator de mistura de ruído pode ser reduzida comparada com um método em que o fator de mistura de ruído é determinado com base em um valor de tonalidade agrupada que é derivado do componente de baixa frequência do sinal de áudio.
[0023] Em uma concretização, a banda de baixa frequência compreende uma banda de partida (indicada, por exemplo, pelo parâmetro spxstart no caso de um codificador baseado em SPX) o que é indicativo da sub-banda de baixa frequência que tem a menor frequência entre as sub-bandas de baixa frequência que estão disponíveis para cópia. Além disto, a banda de alta frequência pode compreender uma banda de começo (indicada, por exemplo, pelo parâmetro spxbegin no caso de um codificador baseado em SPX) o que é indicativo da subbanda de alta frequência que tem a menor frequência das sub-bandas de alta frequência que devem ser aproximadas. Além disso, a banda de alta frequência pode compreender uma banda de fim (indicada, por exemplo, pelo parâmetro spxend no caso de um codificador baseado em SPX) o que é indicativo da sub-banda de alta frequência que tem a maior frequência das sub-bandas de alta frequência que devem ser aproximadas.
[0024] O método pode compreender a determinação de uma primeira largura de banda entre a banda de partida (por exemplo, o parâmetro spxstart) e a banda de começo (por exemplo, o parâmetro spxbegin). Além disso, o método pode compreender a determinação de uma segunda largura de banda entre a banda de começo (por exemplo, o parâmetro spxbegin) e a banda de fim (por exemplo, parâmetro spxend). O método pode incluir a determinação do fator de mistura no de ruído com base nos valores de tonalidade agrupada alvo e de origem, se a primeira largura de banda for maior do que a segunda largura de banda. Em particular, se a primeira largura de banda for maior ou igual do que a segunda largura de banda, o valor de tonalidade agrupada de origem pode ser determinado com base em um ou mais sinais sub-banda de baixa frequência da sub-banda de baixa frequência situada entre a banda de partida e a banda de início mais a segunda largura de banda. Normalmente, os últimos sinais de subbanda de baixa frequência são os sinais de sub-banda de baixa frequência que são copiados até a banda de alta frequência. Como resultado, a complexidade computacional pode ser reduzida em situações onde a primeira largura de banda é maior ou igual do que a segunda largura de banda.
[0025] Por outro lado, o método pode compreender a determinação de um valor de tonalidade agrupada baixo com base em um ou mais sinais de sub-banda de baixa frequência da sub-banda de baixa frequência entre a banda de partida e a banda de começo, e determinar o fator de mistura de ruído com base no alvo e os valores de tonalidade agrupada baixos, se a primeira largura de banda for menor do que a segunda largura de banda. Ao comparar a primeira e segunda largura de banda, pode ser assegurado que o fator de mistura de ruído (e os valores de tonalidade agrupada) é determinado em um número mínimo de sub-bandas (independentemente da primeira e segunda largura de banda), reduzindo assim a complexidade computacional.
[0026] O fator de ruído mistura pode ser determinado com base em uma variância dos valores de tonalidade agrupada de alvo e de origem (ou o alvo e os valores de tonalidade agrupada baixos). Em particular, o fator b de mistura de ruído pode ser determinado como:
Figure img0001
onde
Figure img0002
é a variância do valor de tonalidade de origem Tcopy (ou do valor de tonalidade baixo) e o valor de tonalidade alvo Thlgh.
[0027] Conforme indicado acima, os valores de tonalidade agrupada (origem, destino ou baixo) podem ser determinados usando a abor-dagem em duas etapas descrita no presente documento. Em particular, um valor de tonalidade agrupada em uma sub-banda de frequência pode ser determinado por meio da determinação de um conjunto de coeficientes de transformada em um conjunto correspondente de bins de frequência com base em um bloco de amostras do sinal de áudio. De modo subsequente, um conjunto de valores de tonalidade de bin para o conjunto de bins de frequência, pode ser determinado usando respectivamente o conjunto de coeficientes de transformada. O valor de tonalidade agrupada da sub-banda de frequência pode então ser determinado pela combinação de um primeiro subconjunto de dois ou mais do conjunto de valores de tonalidade de bin para duas ou mais bins de frequências adjacentes correspondentes do conjunto de bins de frequência situadas dentro da sub-banda de frequência.
[0028] De acordo com um aspecto adicional, é descrito um método para a determinação de um primeiro valor de tonalidade de bin para uma primeira bin de frequência de um sinal de áudio. O primeiro valor de tonalidade de bin pode ser determinado de acordo com os princípios descritos no presente documento. Em particular, o primeiro valor de tonalidade de bin pode ser determinado com base em uma variação da fase do coeficiente de transformada da primeira bin de frequência. Além disso, como também tem sido delineado no presente documento, o primeiro valor de tonalidade bin pode ser usado para aproximar um componente de alta frequência do sinal de áudio com base em um componente de baixa frequência do sinal de áudio. Como tal, o método para a determinação de um primeiro valor de tonalidade de bin pode ser utilizado no contexto de um codificador de áudio utilizando técnicas de HFR.
[0029] O método pode incluir o fornecimento de uma sequência de coeficientes de transformada na primeira bin frequência para uma se-quência correspondente de blocos de amostras do sinal de áudio. A sequência de coeficientes de transformada pode ser determinada através da aplicação de transformada de um domínio de tempo para um domínio de frequência para a sequência de blocos de amostras (tal como descrito acima).
[0030] Além disso, o método pode compreender a determinação de uma sequência de fases com base na sequência de coeficientes de transformada. O coeficiente de transformada pode ser complexo e uma fase de um coeficiente de transformada pode ser determinada com base em uma função arco tangente aplicada à parte real e imaginária d coefi-ciente de transformada complexo. Além disso, o método pode compre-ender a determinação de uma aceleração de fase com base na sequência de fases. A título de exemplo, a atual aceleração de fase para um co-eficiente de transformada atual para um bloco atual de amostras pode ser determinada com base na fase atual e com base em duas ou mais fases anteriores. Além disso, o método pode compreender a determinação de uma potência de bin baseada no coeficiente de transformada atual a partir da sequência de coeficientes de transformada. A potência do atual coeficiente de transformada pode ser baseada em uma magnitude ao quadrado do coeficiente de transformada atual.
[0031] O método pode ainda compreender a aproximação de um fator de ponderação indicativo da raiz quarta de uma proporção de uma potência de coeficientes de transformada sucessivos usando uma aproximação logarítmica. O método pode então prosseguir na ponde-ração da aceleração de fase pelo fator de ponderação aproximado e / ou pela potência do coeficiente de transformada atual para produzir o primeiro valor de tonalidade de bin. Como resultado da aproximação o fator de ponderação utilizando uma aproximação logarítmica, uma aproximação de alta qualidade do fator de ponderação correto pode ser alcançada, enquanto ao mesmo tempo reduz significativamente a complexidade computacional comparado com a determinação do fator de ponderação exato o qual envolve a determinação da raiz quarta da razão da potência coeficientes de transformada sucessivos. A aproximação logarítmica pode compreender a aproximação de uma função logarítmica por uma função linear e / ou por uma polinomial (por exemplo, da ordem de 1, 2, 3, 4 ou 5).
[0032] A sequência de coeficientes de transformada pode compreender um coeficiente de transformada atual (para um bloco atual de amostras) e um coeficiente de transformada diretamente precedente (para um bloco de amostras diretamente precedente). O fator de pon-deração pode ser um indicativo da raiz quarta de uma razão entre a potência do atual coeficiente de transformada e o coeficiente de trans-formada diretamente precedente. Além disso, como indicado acima, os coeficientes de transformada podem ser números complexos que compreendem uma parte real e uma parte imaginária. A potência do atual (anterior) coeficiente de transformada pode ser determinada com base no quadrado parte real e a parte imaginária ao quadrado do atual (anterior) coeficiente de transformada. Além disso, uma (anterior) fase atual pode ser determinada com base em uma função arco tangente da parte real e da parte imaginária do atual (anterior) coeficiente de transformada. Uma aceleração de fase atual de pode ser determinada com base na fase do coeficiente de transformada atual e com base nas fases de dois ou mais coeficientes de transformada diretamente precedentes.
[0033] A aproximação do fator de ponderação pode compreender fornecer uma mantissa atual e um expoente atual representando um atual da sequência de coeficientes de transformada sucessivos Além disso, a aproximação do fator de ponderação pode compreender a determinação de um valor de índice para uma tabela de pesquisa pré- determinada com base na mantissa atual e o expoente atual. A tabela de pesquisa normalmente proporciona uma relação entre uma pluralidade de valores de índice e uma pluralidade correspondente de valores exponenciais da pluralidade de valores de índice. Como tal, a tabela de pesquisa pode proporcionar um meio eficiente para aproximar uma função exponencial. Em uma concretização, a tabela de pesquisa compreende 64 entradas ou menos (ou seja, pares de valores índice e valores exponenciais). O fator de ponderação aproximado pode ser determinado utilizando valor de índice e tabela de pesquisa.
[0034] Em particular, o método pode compreender determinação de um valor de índice avaliado de forma real baseado na mantissa e o expoente. Um (em valor inteiro) valor de índice pode então ser deter-minado ao truncar e / ou o arredondar o valor de índice em valor real. Como resultado de um truncamento sistemático ou operação de arre-dondamento, um desvio sistemático pode ser introduzido na aproxima-ção. Tal deslocamento sistemático pode ser benéfico no que diz respeito à qualidade percebida de um sinal de áudio que é codificado usando o método para determinação do valor de tonalidade da bin descrito no presente documento.
[0035] A aproximação do fator de ponderação pode compreender ainda proporcionar uma mantissa anterior e um expoente anterior re-presentando um coeficiente de transformada que precede o atual coe-ficiente de transformada. O valor de índice pode então ser determinado com base em uma ou mais operações de adicionar e / ou subtrair aplicadas à mantissa atual, mantissa anterior, o expoente atual e o ex-poente anterior. Em particular, o valor de índice pode ser determinado através da realização de uma operação de módulo em
Figure img0003
com ey sendo a mantissa atual com ez sendo a mantissa precedente, my sendo o expoente atual e mz sendo o expoente precedente.
[0036] Como indicado acima, os métodos descritos no presente documento são aplicáveis aos sinais de áudio de múltiplos canais. Em particular, os métodos são aplicáveis a um canal de um sinal de áudio de canais múltiplos. Codificadores de áudio para sinais de áudio multicanal normalmente aplicam uma técnica de codificação conhecida como acoplamento de canal (abreviadamente de acoplamento), de modo a codificar em conjunto uma pluralidade de canais de sinais de áudio de múltiplos canais. Em vista disto, de acordo com um aspecto, um método para determinar uma pluralidade de valores de tonalidade é descrito para uma pluralidade de canais acoplados de um sinal de áudio de canais múltiplos.
[0037] O método pode compreender a determinação de uma primeira sequência de coeficientes de transformada para uma sequência correspondente de blocos de amostras de um primeiro canal da plura-lidade de canais acoplados. Alternativamente, a primeira sequência de coeficientes de transformada pode ser determinada com base numa sequência de blocos de amostras do canal de acoplamento derivada da pluralidade de canais acoplados. O método pode prosseguir para determinar um primeiro valor de tonalidade para o primeiro canal (ou para o canal de acoplamento). Para esta finalidade, o método pode compreender a determinação de uma primeira sequência de fases com base na sequência dos primeiros coeficientes de transformada e determinando uma aceleração da primeira fase com base na sequência das primeiras fases. O primeiro valor de tonalidade para o primeiro canal (ou para o canal de acoplamento) pode então ser determinado com base na aceleração da primeira fase. Além disso, o valor de tonalidade para um segundo canal da pluralidade de canais acoplados pode ser determinada com base na aceleração da primeira fase. Como tal, os valores de tonalidade para a pluralidade de canais acoplados podem ser determinados com base na aceleração de fase determinada a partir de apenas um dos canais acoplados, reduzindo assim a complexidade computacional ligada à determinação da tonalidade. Isto é possível devido à observação de que, como resultado do acoplamento, as fases da pluralidade de canais acoplados estão alinhadas.
[0038] De acordo com um outro aspecto, é descrito um método para a determinação de um valor de tonalidade agrupada para um primeiro canal de um sinal de áudio multicanal em um codificador baseado em Extensão Espectral (SPX). O codificador com base em SPX pode ser configurado para aproximar um componente de alta frequência do primei-ro canal a partir de um componente de baixa frequência do primeiro ca-nal. Para este efeito, o codificador baseado em SPX pode fazer uso do valor tonalidade agrupada. Em particular, o codificador baseado em SPX pode usar o valor de tonalidade agrupada para determinar um fator de mistura de ruído indicativo de uma quantidade de ruído a ser adicionada ao o componente aproximado de alta frequência. Como tal, o valor de tonalidade agrupada pode ser um indicativo da tonalidade de um compo-nente aproximado de alta frequência, antes da mistura de ruído. O pri-meiro canal pode ser acoplado pelo codificador baseado em SPX com um ou mais canais de sinal de áudio de canais múltiplos.
[0039] O método pode incluir proporcionar uma pluralidade de coeficientes de transformada com base no primeiro canal antes do aco-plamento. Além disso, o método pode compreender a determinação do valor de tonalidade agrupada com base na pluralidade de coeficientes de transformada. Como tal, o fator de mistura ruído pode ser determi- nado com base na pluralidade de coeficientes de transformada do pri-meiro canal original, não com base no primeiro canal acoplado / desa- coplado. Isso é benéfico, uma vez que permite reduzir a complexidade computacional ligada à determinação da tonalidade em um codificador de áudio baseado em SPX.
[0040] Como descrito acima, a pluralidade de coeficientes de transformada que tem sido determinada com base no primeiro canal antes do acoplamento (isto é, com base no primeiro canal original) pode ser usada para determinar os valores de bin de tonalidade e / ou valores de tonalidade agrupada que são utilizados para determinar a estratégia de reenvio da coordenada SPX e/ou para determinar a Atenuação de Grande Variância (LVA) de um codificador baseado em SPX. Usando a abordagem acima mencionada para determinar o fator de mistura de ruído do primeiro canal com base no primeiro canal original (e não com base no primeiro canal acoplado / desacoplado), os valores de tonalidade de bin que já foram determinados para a estratégia de reenvio de coordenada SPX e / ou para a Atenuação de Grande Variância podem ser reutilizados, reduzindo assim a complexidade computacional de um codificador de áudio baseado em SPX.
[0041] De acordo com outro aspecto, um sistema configurado para determinar um primeiro valor de tonalidade agrupada é descrito para uma primeira sub-banda de frequência de um sinal de áudio. O primeiro valor de tonalidade agrupada pode ser utilizado para aproximar um componente de alta frequência do sinal de áudio baseado em um componente de baixa frequência do sinal de áudio. O sistema pode ser configurado para determinar um conjunto de coeficientes de transformada em um conjunto correspondente de bins de frequência com base em um bloco de amostras do sinal de áudio. Além disto, o sistema pode ser configurado para determinar um conjunto de valores de tonalidade de bin para o conjunto de bins de frequência, usando respecti- vamente o conjunto de coeficientes de transformada. Além disso, o sistema pode ser configurado para combinar um primeiro subconjunto de dois ou mais do conjunto de valores de tonalidade da bin para duas ou mais bins de frequências adjacentes correspondentes do conjunto de bins de frequência situadas dentro da primeira sub-banda de frequência, produzindo desse modo o primeiro valor de tonalidade agrupada para a primeira sub-banda de frequência.
[0042] De acordo com um outro aspecto, é descrito um sistema configurado para determinar um fator de mistura de ruído. O fator de mistura de ruído pode ser utilizado para aproximar um componente de alta frequência do sinal de áudio baseado em um componente de baixa frequência do sinal de áudio. O componente de alta frequência normalmente compreende um ou mais sinais de sub-bandas de alta frequência em uma banda de alta frequência e o componente de baixa frequência pode normalmente compreende um ou mais sinais em uma sub-banda de baixa frequência em uma banda de baixa frequência. Aproximando do componente de alta frequência pode compreender copiar um ou mais sinais da sub-banda de baixa de frequência para a banda de alta frequência, produzindo, assim, um ou mais sinais aproximados da sub-banda de alta frequência. O sistema pode ser configurado para determinar um valor de tonalidade agrupada alvo com base em um ou mais sinais de sub-banda de alta frequência. Além disto, o sistema pode ser configurado para determinar um valor de tonalidade agrupada de origem com base em um ou mais sinais aproximados de sub-banda de alta frequência. Além disso, o sistema pode ser configurado para determinar o fator de mistura de ruído com base nos valores de tonalidade agrupada alvo (322) e de origem (323).
[0043] De acordo com um aspecto adicional, é descrito um sistema configurado para determinar um primeiro valor de tonalidade de bin para uma primeira bin de frequência de um sinal de áudio. O primeiro valor de tonalidade agrupada pode ser utilizado para aproximar um componente de alta frequência do sinal de áudio baseado em um componente de baixa frequência do sinal de áudio. O sistema pode ser configurado para fornecer uma sequência de coeficientes de transfor-mada na primeira bin frequência para uma sequência correspondente de blocos de amostras do sinal de áudio. Além disso, o sistema pode ser configurado para determinar uma sequência de fases com base na sequência de coeficientes de transformada, e para determinar uma aceleração de fase baseada na sequência de fases. Além disso, o sis-tema pode ser configurado para aproximar um fator de ponderação indicativo da raiz quarta de uma proporção de uma potência de coefi-cientes de transformada sucessivos utilizando uma aproximação loga-rítmica, e ponderar a aceleração de fase pelo fator de ponderação aproximado para produzir o primeiro valor de tonalidade da bin.
[0044] De acordo com um outro aspecto, é descrito um codificador de áudio (por exemplo, um codificador de áudio baseado em HFR, em particular, um codificador de áudio baseado em SPX) configurado para codificar um sinal de áudio usando reconstrução de alta frequência. O codificador de áudio pode compreender qualquer um ou mais dos sis-temas descritos no presente documento. Alternativamente ou em adição, o codificador de áudio pode ser configurado para executar qualquer um ou mais dos métodos descritos no presente documento.
[0045] De acordo com um outro aspecto, é descrito um programa de software. O programa de software pode ser adaptado para a execução em um processador e para a execução das etapas do método descrito no presente documento quando realizadas no processador.
[0046] De acordo com um outro aspecto, é descrito um meio de armazenamento. O meio de armazenamento pode compreender um programa de software adaptado para a execução em um processador e para a execução das etapas do método descrito no presente docu- mento quando realizadas no processador.
[0047] De acordo com um outro aspecto, é descrito um produto de programa de computador. O programa de computador pode incluir ins-truções executáveis para realizar as etapas do método descrito no presente documento quando executado em um computador.
[0048] Deve notar-se que os métodos e sistemas, incluindo as suas concretizações preferenciais, conforme descrito no presente pedido de patente pode ser usados sozinhos ou em combinação com outros métodos e sistemas descritos no presente documento. Além disso, todos os aspectos dos métodos e sistemas descritos no presente pedido de patente podem ser arbitrariamente combinados.
[0049] Em particular, as características das concretizações podem ser combinadas uma com a outra de uma maneira arbitrária.
BREVE DESCRIÇÃO DAS FIGURAS
[0050] A invenção é explicada a seguir de uma forma exemplifica- tiva, com referência aos cinco desenhos anexos, em que:
[0051] As Figuras 1a, 1b, 1c, e 1d ilustram um esquema SPX exemplificativo;
[0052] As Figuras 2a, 2b, 2c, e 2d ilustram o uso de tonalidade em vários estágios de um codificador baseado em SPX;
[0053] As Figuras 3a, 3b, 3c e 3d ilustram esquemas de exemplifi- cativos para reduzir o esforço computacional relacionado com o cálculo dos valores de tonalidade;
[0054] A Figura 4 ilustra resultados exemplificativos de um teste de audição comparando a determinação de tonalidade com base no sinal de áudio original e a determinação de tonalidade com base no sinal de áudio desacoplado.
[0055] A Figura 5a ilustra resultados exemplificativos de um teste de audição comparando vários esquemas para determinar o fator de ponderação utilizado para o cálculo dos valores de tonalidade; e
[0056] A Figura 5b ilustra graus exemplificativos de aproximação do fator de ponderação usado para o cálculo dos valores de tonalidade.
DESCRIÇÃO DETALHADA DA INVENÇÃO
[0057] As Figuras 1a, 1b, 1c, e 1d ilustram etapas exemplificativas executadas por um codificador de áudio baseado em SPX.
[0058] A Figura 1a mostra o espectro de frequência 100 de um si nal de áudio exemplificativo, em que o espectro de frequências 100 compreende uma banda de base 101 (também conhecida como banda de frequência baixa 101) e uma banda de alta frequência 102. No exemplo ilustrado, a banda de alta frequência 102 compreende uma pluralidade de sub-bandas, ou seja, SE Banda 1 até SE Banda 5 (SE, Extensão Espectral). A banda de base 101 compreende as frequências mais baixas até a frequência de corte da banda de base 103 e a banda de alta frequência 102 compreende as altas frequências a partir da frequência de corte 103 da banda de base até frequência da largura de banda de áudio 104. A banda de base 101 corresponde ao espectro de um componente de baixa frequência do sinal de áudio e a banda de alta frequência 102 corresponde ao espectro de um componente de alta frequência do sinal de áudio. Em outras palavras, o componente de baixa frequência do sinal de áudio compreende as frequências dentro da banda de base 101, em que o componente de alta frequência do sinal de áudio compreende as frequências dentro da banda de alta frequência 102.
[0059] Um codificador de áudio normalmente faz uso de um domínio de tempo para transformar ao domínio de frequência (por exemplo, uma Transformada de Cosseno Discreta Modificada, MDCT e/ou uma e/ou uma Transformada de Seno Discreta Modificada MDST) a fim de determinar o espectro 100 do sinal de áudio no domínio de tempo. Um sinal de áudio no domínio do tempo pode ser dividido em uma sequência de quadros de áudio compreendendo as respectivas sequên- cias de amostras do sinal de áudio. Cada quadro de áudio pode ser subdividido em uma pluralidade de blocos (por exemplo, uma pluralidade de até seis blocos), cada bloco compreendendo, por exemplo, N ou 2N amostras do sinal de áudio. A pluralidade de blocos de um quadro pode se sobrepor (por exemplo, uma sobrebin de 50%), ou seja, um segundo bloco pode compreender certo número de amostras no seu início, que são idênticos aos das amostras no fim de um primeiro bloco imediatamente anterior. A título de exemplo, um segundo bloco de 2N amostras pode compreender uma seção central de N amostras, e traseira / frontal de N / 2 amostras que se sobrepõem com a seção central do primeiro bloco imediatamente anterior e um terceiro bloco imediatamente seguinte, respectivamente. A transformada de domínio do tempo para domínio da frequência de um bloco de N (ou 2N) amostras do sinal de áudio de domínio do tempo normalmente fornece um conjunto de N coeficientes de transformada (CT) para um conjunto correspondente de bins de frequência (por exemplo, N = 256). A título de exemplo, a transformada do domínio do tempo para o domínio de frequência (por exemplo, uma MDCT ou uma MDST) de um bloco de 2N amostras, com uma seção central de N amostras e sobrepondo-se às seções traseira / frontal de N/2 amostras, pode fornecer um conjunto de N CT's. Como tal, uma sobrebin de 50% pode resultar em uma relação de 1:1 de amostras no domínio do tempo e CT’s na média, produzindo assim um sistema criticamente amostrado. As sub-bandas da banda 102 de alta frequência representada na Figura 1a podem ser obtidas agrupando M bins de frequência para formar uma sub-banda (por exemplo, M = 12). Em outras palavras, uma sub-banda da banda de alta frequência 102 pode compreender ou abranger M bins de frequência. A energia espectral de uma sub-banda pode ser determinada com base nos CT’s das M bins de frequência que formam a subbanda. A título de exemplo, a energia espectral da sub-banda pode ser determinada com base na soma do quadrado da magnitude dos CT’s das M bins de frequência que formam a sub-banda (por exemplo, com base na média de magnitude ao quadrado dos CT’s das M bins de frequência que formam a sub-banda). Em particular, a soma da magnitude ao quadrado dos CT’s das M bins de frequência que formam a subbanda pode produzir a potência da sub-banda, e a potência da subbanda dividida pelo número M das bins de frequência pode originar a densidade de potência espectral (PSD). Como tal, a banda de base 101 e / ou a banda de alta frequência 102 podem compreender uma pluralidade de sub-bandas, em que as sub-bandas são obtidas a partir de uma pluralidade de bins de frequência, respectivamente.
[0060] Como indicado acima, um codificador baseado em SPX aproxima a banda de alta frequência 102 de um sinal de áudio pela banda de base 101 do sinal de áudio. Para esta finalidade, o codificador baseado SPX determina informação lateral a que permite a um de- codificador correspondente reconstruir a banda de alta frequência 102 a partir da banda de base 101 codificada e decodificada do sinal de áudio.
[0061] A informação lateral compreende normalmente os indicadores da energia espectral de uma ou mais sub-bandas da banda de alta frequência 102 (por exemplo, uma ou mais relações de energia para uma ou mais sub-bandas da banda de alta frequência 102, respectivamente). Além disso, as informações laterais compreendem normalmente os indicadores de uma quantidade de ruído que é para ser adicionada a uma ou mais sub-bandas da banda de alta frequência 102 (designada como mistura de ruído). Os últimos indicadores estão normalmente relacionados com a tonalidade de uma ou mais sub-bandas da banda de alta frequência 102. Em outras palavras, os indicadores de uma quantidade de ruído que é para ser adicionada a uma ou mais sub-bandas da banda de alta frequência 102 normalmente faz uso do cálculo de valores de tonalidade de uma ou mais sub-bandas da banda de alta frequência 102.
[0062] As Figuras 1B, 1C e 1D ilustram as etapas exemplificativas para aproximar a banda de alta frequência 102 com base na banda de base 101. A Figura 1b mostra o espectro 110 do componente de baixa frequência do sinal de áudio que compreende apenas a banda de base 101. A Figura. 1c ilustra a translação espectral de uma ou mais sub-bandas 121, 122 da banda de base 101 para as frequências da banda de alta frequência 102. Pode ser visto a partir do espectro 120 que as sub-bandas 121. 122 são copiadas para as respectivas bandas de frequência 123. 124. 125, 126. 127 e 128 da banda de alta frequência 102. No exemplo ilustrado, as sub-bandas 121, 122 são copiados três vezes, a fim de preencher a banda de alta frequência 102. A Figura 1d mostra como a banda de alta frequência original 102 do sinal de áudio (ver Figura. 1a) é aproximada com base nas sub-bandas 123, 124. 125. 126. 127 e 128 copiadas (ou transpostas). O codificador de áudio baseado em SPX pode adicionar ruído aleatório às sub-bandas copiadas de tal modo que as tonalidades das sub-bandas aproximadas 133, 134, 135, 136, 137 e 138 correspondem à tonalidade das sub-bandas originais da banda de alta frequência 102. Isto pode ser alcançado através da determinação de indicadores tonalidade respectiva adequados. Além disso, a energia das sub-bandas copiadas (e misturadas com ruído) 123. 124, 125, 126, 127 e 128 pode ser modificada de tal modo que a energia das sub-bandas aproximadas 133, 134, 135, 136, 137 e 138 corresponde à energia das sub-bandas originais da banda de alta frequência 102. Isto pode ser alcançado através da determinação dos respectivos indicadores de energia apropriados. Pode ser visto que como um resultado, o espectro 130 aproxima o espectro 100 do sinal de áudio original representado na Figura 1a.
[0063] Como indicado acima, a determinação dos indicadores que são utilizados para mistura de ruído (e que normalmente requerem a determinação das tonalidades das sub-bandas) tem um grande impacto sobre a complexidade computacional do codificador de áudio baseado em SPX. Em particular, os valores de tonalidade de diferentes segmentos de sinal (sub-bandas de frequência) podem ser necessários para uma variedade de propósitos, em diferentes estágios do processo de codificação SPX. Uma visão geral dos estágios, que normalmente requerem a determinação de valores de tonalidade é mostrada nas Figuras 2a, 2b, 2c e 2d.
[0064] Nas Figuras 2a, 2b, 2c e 2d a frequência (sob a forma de sub-bandas SPX 0-16) é mostrada no eixo horizontal com marcadores para a banda de partida SPX (ou frequência de partida SPX) 201 (de-signada por spxstart), SPX banda de começo (ou SPX frequência de começo) 202 (designada por spxbegin) e a banda final SPX (ou fre-quência final SPX) 203 (designada por spxend). Normalmente, a fre-quência de começo SPX 202 corresponde à frequência de corte 103. A frequência final SPX 203 pode corresponder à largura de banda 104 do sinal de áudio original ou a uma frequência inferior a largura de banda de áudio 104 (como ilustrado nas Figuras 2a, 2b, 2c e 2d). Após a codificação, largura de banda do sinal de áudio codificado / decodificado normalmente corresponde à frequência final SPX 203. Em uma concretização, a frequência de partida SPX 201 corresponde à bin de frequência No. 25 e a frequência final SPX 203 corresponde à bin de frequência número 229. As sub-bandas de um sinal de áudio são mos-tradas em três estágios diferentes do processo de codificação SPX: O espectro 200 (por exemplo, o espectro MDCT) do sinal de áudio original (Figura 2a topo e Figura 2b) e o espectro 210 do sinal de áudio, depois da codificação / decodificação do componente de baixa frequência do sinal de áudio (Figura 2a meio e Figura 2c). A codificação / decodificação do componente de baixa frequência do sinal de áudio pode, por exemplo, compreender “matrizar” e “desmatrizar” e / ou aco-plamento e desacoplamento do componente de baixa frequência. Além disso, é mostrado o espectro de 220 após a transposição espectral das sub-bandas da banda de base 101 para a banda de alta frequência 102 (Figura 2a fundo e Figura 2d). O espectro 200 das partes originais do sinal de áudio é mostrado na linha “Original” da Figura 2a (ou seja, sub-bandas de frequência 0-16): o espectro 210 das partes do sinal que são modificadas pelo acoplamento / formação de matriz são mostradas na linha “Banda Baixa Desmatrizada/Desacoplada” da Figura 2a (ou seja, as sub-bandas de frequência 2-6 no exemplo ilustrado); e o espectro 220 das partes do sinal que são alteradas pela transposição espectral é mostrado na linha “banda alta transposta” da Figura 2a (ou seja, as sub-bandas de frequência 7-14, no exemplo ilustrado). As sub-bandas 206 que são modificadas pelo processamento do codificador baseado em SPX são ilustradas como escuro sombreado, enquanto que as sub-bandas 205 que permanecem sem modificações pelo codificador baseado em SPX são ilustradas como sombreamento mais leve.
[0065] As chaves 231, 232, 233 abaixo das sub-bandas e / ou abaixo de grupos de sub-bandas SPX indicam para que sub-bandas ou para quais os grupos de sub-bandas os valores de tonalidade (medidas tonalidade) são calculados. Além disso, é indicado para que finalidade os valores de tonalidade ou medidas de tonalidade são usadas. Os valores de tonalidade agrupada 231 (ou seja, os valores de tonalidade para uma sub-banda ou para um grupo de sub-banda) do sinal de entrada original entre a banda de partida SPX (spxstart) 201 e a banda final SPX (spxend) 203 são normalmente utilizados para orientar a decisão do codificador sobre se novas coordenadas SPX precisam ser transmitidas ou não ("estratégia de re-envio"). A coordenadas SPX normalmente carregam a informação sobre a envolvente espec- tral do sinal áudio original na forma de fatores de ganho para cada banda SPX. A estratégia de re-enviar SPX pode indicar se novas coordenadas SPX têm de ser transmitidas para um novo bloco de amostras do sinal de áudio ou se as coordenadas SPX para um bloco de amostras (diretamente) precedente podem ser re-utilizadas. Além disso, os valores de tonalidade agrupada 231 para as bandas SPX acima do spxbegin 202 podem ser utilizados como uma entrada para os cálculos de Atenuação de Grande Variância (LVA), tal como ilustrado na Figura 2a e a Figura 2b. A atenuação de grande variância é uma ferramenta de codificador a qual pode ser utilizada para atenuar os erros potenciais da transposição espectral. Componentes espectrais fortes na banda de extensão que não têm um componente correspondente na banda de base (e vice versa) podem ser considerados como sendo erros de extensão. O mecanismo LVA pode ser usado para atenuar tais erros de extensão. Como pode ser visto nas chaves na Figura 2b os valores de tonalidade 231 podem ser calculados para sub-bandas individuais (por exemplo, sub-bandas 0, 1, 2, etc.) e / ou para grupos de sub-bandas (por exemplo, para o grupo que compreende subbandas 11 e 12).
[0066] Como indicado acima, a tonalidade do sinal desempenha um papel importante para determinar a quantidade de mistura de ruído aplicada às sub-bandas reconstruídas na banda de alta frequência 102. Como representado na Figura 2c os valores de tonalidade 232 são calculados separadamente para a banda baixa decodificada (por exemplo, “desmatrizada” e desacoplada) e para a banda alta original. Decodificação (por exemplo, “desmatrização” e desacoplamento), neste contexto, significa que as etapas de codificação previamente aplicadas (por exemplo, as etapas de formação de matriz” e acoplamento) do codificador são desfeitas da mesma forma como seria feita no de- codificador. Em outras palavras, tal mecanismo decodificador já está simulado no codificador. A banda baixa compreende sub-bandas 0-6 do espectro 210 é, portanto, uma simulação do espectro que o decodi- ficador recriará. A Figura. 2c mostra ainda que a tonalidade é calculada para duas grandes bandas (apenas), neste caso, em obin à tonalidade do sinal original que é calculada por sub-banda SPX (que se estende por um múltiplo de 12 coeficientes de transformada (CT)) ou por grupo de sub-bandas SPX. Tal como indicado pelas chaves na Figura 2c, Os valores de tonalidade 232 são calculados para um grupo de sub-bandas na banda de base 101 (por exemplo, compreendendo o sub-bandas 0-6) e para um grupo de sub-bandas na banda de alta frequência 102 (por exemplo, compreendendo as sub-bandas 7 - 14).
[0067] Em adição ao de cima, os cálculos da atenuação da grande variância (LVA) normalmente requerem uma outra entrada de tonalidade que é calculada sobre os coeficientes de transformada (CT) transpostos. A tonalidade é medida para a mesma região espectral como na Figura 2a, mas, sobre dados diferentes, isto é, nas subbandas de banda baixa transpostas e não nas sub-bandas originais. Isto é descrito no espectro220 mostrado na Figura 2d. Pode ser visto que valores de tonalidade 233 são determinados para sub-bandas e / ou grupos de sub-bandas dentro da banda de alta frequência 102 com base nas sub-bandas transpostas.
[0068] Em geral, pode ser visto que um codificador baseado em SPX típico determina valores de tonalidade 231, 232, 233 em várias sub-bandas 205, 206 e / ou grupos de sub-bandas de um sinal de áudio original e / ou dos sinais derivados do sinal de áudio original, no decurso do processo de codificação / decodificação. Em particular, os valores de tonalidade 231, 232, 233 podem ser determinados para sub-bandas e / ou grupos de sub-bandas do sinal de áudio original, do componente de baixa frequência do sinal de áudio codificado / decodificado e / ou do componente de alta frequência aproximado do sinal de áudio. Como descrito acima, a determinação de valores de tonalidade 231, 232, 233 normalmente se constitui em uma parte significativa do esforço computacional total de um codificador SPX. A seguir, métodos e sistemas são descritos os quais permitem reduzir significativamente o esforço computacional ligado à determinação dos valores de tonalidade 231, 232, 233, reduzindo assim a complexidade computacional do codificador baseado em SPX.
[0069] O valor de tonalidade de uma sub-banda 205, 206 pode ser determinado através da análise da evolução da velocidade angular w (t) das sub-bandas 205, 206 ao longo do tempo t. A velocidade angular w (t) pode ser a variação do ângulo ou da fase Φ ao longo do tempo. Consequentemente, a aceleração angular pode ser determinada como a variação da velocidade angular w (t) ao longo do tempo, ou seja, a primeira derivada da velocidade angular w (t), ou a segunda derivada da fase Φ. Se a velocidade angular w (t) for constante ao longo do tempo, a sub-banda 205, 206 é tonal, e se a velocidade angular w (t) varia ao longo do tempo, a sub-banda 205, 206 é menos tonal. Assim, a taxa de variação da velocidade angular w (t) (isto é, a aceleração angular) é um indicador da tonalidade. A título de exemplo, os valores de tonalidade Tq 231, 232, 233 de uma sub-banda q ou de um grupo de sub-bandas que pode ser determinado como:
Figure img0004
[0070] No presente documento, propõe-se dividir a determinação dos valores de tonalidade Tq 231, 232, 233 de uma sub-banda q ou de um grupo de sub-bandas q (também citado como valores de tonalidade agrupada) na determinação de valores de tonalidade Tn para os diferentes coeficientes de transformada TC (ou seja, para diferentes bins de frequência n) obtidas pela transformada de domínio do tempo para o domínio da frequência (também conhecidos como valores de tonalidade da bin) e, posteriormente, para determinar os valores de tonalidade agrupada Tq 231, 232, 233 com base nos valores de tonali-dade de bin Tn. Como é mostrado abaixo, esta determinação em duas etapas dos valores de tonalidade agrupada Tq 231, 232, 233 permite uma redução significativa do esforço computacional ligado ao cálculo dos valores de tonalidade agrupada Tq 231, 232, 233.
[0071] No domínio do tempo discreto, o valor de tonalidade de bin Tn, k para um coeficiente de transformada TC de uma frequência bin n e no bloco (ou instante de tempo discreto) k podem ser determinados, por exemplo, com base na fórmula:
Figure img0005
[0072] Onde
Figure img0006
são as fases do coeficiente de transformada TC da bin de frequência n nos instantes de tempo k, k-1 e k-2, respectivamente, em que | TCn,kI2 é a magnitude ao quadrado do coeficiente de transformada TC da bin frequência n no instante de tempo k. A função "anglenorm" normaliza o seu argumento para o intervalo (- π, π) pela adição / subtração repetida de 2 π. A função de "anglenorm" é dada na Tabela 1.
Figure img0007
Figure img0008
Tabela 1
[0073] O valor de tonalidade Tqk 231, 232, 233 de uma sub-banda q 205, 206 ou de um grupo de sub-bandas q 205, 206 em um instante de tempo k (ou para um bloco k) pode ser determinado com base nos valores de tonalidade Tn,k das bins de frequência n no instante de tempo k ou para o bloco k) compreendido na sub-banda q 205, 206 ou dentro do grupo de sub-bandas q 205, 206 (por exemplo, com base na soma ou a média dos valores das tonalidades Tn, k). No presente documento, o índice de tempo (ou índice do bloco) k e / ou o índice de bin n / índice de sub-banda q podem ter sido omitidos por razões de concisão.
[0074] A fase Φk (para uma determinada bin n) pode ser determinada a partir da parte real e imaginária de um TC complexo. O complexo CT's pode ser determinado no lado do codificador, por exemplo, efetuado uma transformada MDST e uma transformada MDCT de um bloco de N amostras do sinal de áudio, produzindo, assim, a parte real e a parte imaginária dos CT’s complexos respectivamente. Alternativamente transformadas complexas de domínio de tempo para domínio de frequência podem ser usadas, produzindo, assim CT’s complexos. A fase Φk pode então ser determinada como:
Figure img0009
[0075] A função atan2 é especificada, por exemplo, no link de internet: http://de.wikipedia.org/wiki/Atan2#atan2. Em princípio, a função atan2 pode ser descrita como uma função arco tangente da relação de y= lm{TCk} e x = Re{TCk} que toma em conta os valores negativos de y= lm{TCk} e/ou x = Re{TCk}. Como ressaltado no contexto das Figuras 2a, 2b, 2c e 2d, diferentes valores de tonalidade agrupada 231, 232, 233 pode precisar ser determinados com base em dados espectrais diferentes 200, 210, 220 derivados do sinal de áudio original. Tem sido observado pelo inventor com base na visão geral mostrada na Figura 2a que diferentes cálculos de tonalidade agrupada são, na verdade, baseados nos mesmos dados, em particular, com base nos mesmos coeficientes de transformada (CT):
[0076] 1. Os CT’s de tonalidade da banda alta frequência original são usados para determinar a estratégia de re-enviar a coordenada SPX e a LVA, bem como para calcular o fator b de mistura de ruído. Em outras palavras, os valores de tonalidade de bin Tn dos CT’s da banda de alta frequência original 102 podem ser usados para determinar os valores de tonalidade agrupada 231 e o valor de tonalidade agrupada 232 dentro da banda de alta frequência 102.
[0077] 2. A tonalidade dos CT's de banda baixa desacopla-dos/”desmatrizados” é usada para determinar o fator b de mistura de ruído e - após a transposição para a alta banda - é usada nos cálculos da LVA. Em outras palavras, valores de tonalidade de bin Tn que são determinados com base nos CT's do componente de baixa frequência codificado / decodificado do sinal de áudio (espectro 210) são usados para determinar os valores de tonalidade agrupada 232 na banda de base 101 e para determinar os valores de tonalidade agrupada 233 dentro da banda de alta frequência 102. Isto é devido ao fato de que os CT’s das sub-bandas na banda de alta frequência 102 do espectro 220 são obtidos pela transposição de uma ou mais sub-bandas codifi- cadas / decodificadas na banda de base 101 para uma ou mais sub-bandas na banda de alta frequência 102. Este processo de transbin não tem impacto na tonalidade dos CT’s copiados, permitindo, assim, uma reutilização dos valores de tonalidade da bin Tn que são determinados com base nos CT’s do componente de baixa frequência codificado / decodificado do sinal de áudio (espectro 210).
[0078] 3. Os CT’s de banda baixa desacoplados/”desmatrizados” normalmente só diferem dos CT’s originais na CT’s região do acopla-mento (assumindo que a matrização é completamente reversível, ou seja, partindo do princípio de que a operação de “desmatrização” re-produz os coeficientes de transformada originais). Cálculos de tonalidade para sub-bandas (e para CT’s) entre a frequência de partida SPX 201 e a frequência de começo de acoplamento (cplbegin) (assumida como a sub-banda 2, no exemplo ilustrado) são baseados nos CT’s originais não modificados e são, portanto, o mesmo para CT’s de banda baixa desacoplados/”desmatrizados” e para os CT’s originais (tal como ilustrado na Figura 2a pelo sombreamento leve das sub-bandas 0 e 1 no espectro de 210).
[0079] As observações acima mencionadas sugerem que alguns dos cálculos de tonalidade não precisam ser repetidos ou pelo menos não precisam ser completamente realizados uma vez que resultados intermediários previamente calculados podem ser compartilhados, isto é, reutilizados. Em muitos casos, os valores previamente calculados podem, portanto ser reutilizados, o que reduz significativamente o custo computacional. A seguir são descritas diversas medidas que permitem a redução do custo computacional relacionado com a determinação da tonalidade dentro de um codificador baseado em SPX.
[0080] Como pode ser visto a partir dos espectros 200 e 210 na Figura 2a, as sub-bandas 7-14 da banda de alta frequência 102 são as mesmas nos espectros 200 e 210. Como tal, deverá ser possível reutilizar os valores de tonalidade agrupada 231, para a banda de alta frequência 102 também para o valor de tonalidade agrupada 232. Infelizmente, um olhar para Figura. 2a revela que a tonalidade é calculada para uma estrutura de banda diferente em ambos os casos, mesmo que os CT’s subjacentes sejam os mesmos. Assim, a fim de ser capaz de reutilizar valores de tonalidade, propõe-se dividir o cálculo de tonalidade em duas partes, em que a saída da primeira parte pode ser usada para calcular os valores de tonalidade agrupada 231 e 232.
[0081] Como já descrito acima, o cálculo das tonalidades agrupadas Tq pode ser separado no cálculo da tonalidade Tn por bin para cada TC (etapa 1) e um processo posterior de alisamento e agrupamento dos valores de tonalidade de bin Tn em bandas (etapa 2), produzindo, desse modo os respectivos valores de tonalidade agrupada Tq 231, 232, 233. Os valores de tonalidade agrupada Tq 231, 232, 233 podem ser determinados com base em uma soma de valores de tonalidade de bin Tn das bins compreendidas dentro da banda ou sub-banda do valor de tonalidade agrupada, por exemplo, com base em uma soma ponderada dos valores de tonalidade bin Tn. A título de exemplo, um valor de tonalidade agrupada Tq pode ser determinado com base na soma dos valores de tonalidade bin relevantes Tn dividida pela soma dos fatores de ponderação correspondentes Wn. Além disso, a determinação dos valores de tonalidade agrupada Tq pode compreender um estiramento e / ou o mapeamento da soma (ponderado) para um intervalo de valor pré-determinado (por exemplo, [0,1]). A partir do resultado da etapa 1, valores de tonalidade agrupada arbitrários Tq podem ser derivados. Deve notar-se que a complexidade computacional reside principalmente na etapa 1, que se constitui, portanto, no ganho de eficiência desta abordagem em duas etapas.
[0082] A abordagem de duas etapas para determinar os valores de tonalidade agrupada Tq é ilustrada na Figura 3b para as sub-bandas 714 da banda de alta frequência 102. Pode ser visto que, no exemplo ilustrado, cada sub-banda é composta de 12 CT’s em 12 bins de fre-quência correspondentes. Em uma primeira etapa (etapa 1), os valores de tonalidade de bin Tn 341 são determinados para as bins das sub-bandas de frequência 7-14. Em uma segunda etapa (etapa 2), os valores de tonalidade de bin Tn 341 são agrupados de diferentes formas, a fim de determinar os valores de tonalidade agrupada Tq 312 (que correspondem aos valores de tonalidade agrupada Tq 231 na banda de alta frequência 102) e a fim de determinar o valor de tonalidade agrupada Tq 322 (que corresponde aos valores de tonalidade agrupada Tq 232 na banda de alta frequência 102).
[0083] Como resultado, a complexidade computacional para a determinação do valor de tonalidade agrupada 322 e os valores de tona-lidade agrupada 312 pode ser reduzida em quase 50%, já que os valores de tonalidade agrupada 312, 322 fazem uso dos mesmos valores de tonalidade de bin 341. Isto está ilustrado na Figura 3 a qual mostra que através da reutilização da tonalidade de banda alta original do sinal também para a mistura de ruído e, consequentemente, a remoção dos cálculos extra (número de referência 302) o número de cálculos de tonalidade pode ser reduzido. O mesmo se aplica aos valores de tona-lidade de bin 341 para as sub-bandas 0, 1 abaixo da frequência de começo de acoplamento (cplbegin) 303. Estes valores de tonalidade de bin 341 podem ser usados para determinar os valores de tonalidade agrupada 311 (que correspondem aos valores de tonalidade agrupada Tq 231 na banda de base 101), e eles podem ser reutilizados para determinar o valor tonalidade agrupada 321 (que corresponde aos valores de tonalidade agrupada Tq 232 na banda de base 101).
[0084] Deve notar-se que a abordagem em duas etapas para determinar os valores de tonalidade agrupada é transparente no que diz respeito à saída de codificador. Em outras palavras, os valores de to-nalidade agrupada 311, 312, 321 e 322 não são afetados pelo cálculo em duas etapas e são, portanto, idênticos aos valores de tonalidade agrupada 231 232 que são determinados em um cálculo de uma etapa.
[0085] A reutilização dos valores de tonalidade de bin 341 também pode ser aplicada no contexto de transposição espectral. Tal cenário de reutilização normalmente envolve sub-bandas "desmatriza- das”/desacopladas da banda de base 101 do espectro 210. Um valor tonalidade agrupada 321 dessas sub-bandas é computado na deter-minação do fator b de mistura de ruído (vide Figura 3a). Novamente, pelo menos alguns dos mesmos CT’s, que são usados para determinar o valor de tonalidade agrupada 321 são usados para calcular valores de tonalidade agrupada 233 que controlam a Atenuação de Grande Variância (LVA). A diferença em relação ao primeiro cenário de reutilização ressaltado no contexto das Figuras 3a e 3b é que os CT’s estão sujeitos à transposição espectral, antes de serem utilizados para calcular os valores de tonalidade LVA 233. No entanto, pode ser mostrado que a tonalidade por bin Tn 341 de uma bin é independente da tonalidade das suas bins vizinhas. Como uma consequência, os valores de tonalidade por bin Tn 341 podem ser transpostos em frequência da mesma forma como é feito para os CT’s (ver Figura. 3d). Isso permite a reutilização dos valores de tonalidade bin Tn 341 calculados na banda de base 101 para mistura de ruído, nos cálculos da LVA na banda de alta frequência 102. Isto está ilustrado na Figura 3c, onde é mostrado como as sub-bandas na banda de alta frequência reconstruída 102 são derivadas a partir das sub-bandas 0-5 da banda de base 101 do espectro 210. De acordo com o processo de transposição espectral, os valores de tonalidade de bin Tn 341 das bins de frequências compreendidas dentro das sub-bandas 0-5 da banda de base 101 podem ser reutilizados para determinar os valores de tonalidade agru-pada Tq 233. Como resultado, o esforço computacional para determinar os valores de tonalidade agrupada Tq 233 é significativamente reduzido, conforme ilustrado pelo número de referência 303. Novamente, deve ser notado que a saída do codificador não é afetada por esta forma modificada de derivação da tonalidade da banda de extensão 233.
[0086] Em geral, tem sido demonstrado que ao dividir-se a determinação dos valores de tonalidade agrupada Tq em uma abordagem em duas etapas que envolve uma primeira etapa para determinar valores de tonalidade por bin Tn e uma segunda etapa posterior para determinar os valores de tonalidade agrupada Tq dos valores de tonalidade por bin Tn, a complexidade computacional total relacionada com o cálculo dos valores de tonalidade agrupada Tq pode ser reduzido. Em particular, tem sido demonstrado que a abordagem em duas etapas permite a reutilização dos valores de tonalidade por bin Tn para a determinação de uma pluralidade de valores de tonalidade agrupada Tq (como ilustrado pelos números de referência 301, 302, 303 que indicam o potencial de reutilização), reduzindo assim a complexidade computacional total.
[0087] A melhoria de desempenho resultante da abordagem em duas etapas e a reutilização de valores de tonalidade de bin pode ser quantificada por meio da comparação do número de bins para as quais a tonalidade é normalmente calculada. O esquema original calcula valores de tonalidade para
Figure img0010
bins de frequência (em que os seis valores de tonalidade adicionais são usados para configurar filtros corta-faixa específicos dentro do co-dificador baseado em SPX). Ao reutilizar valores de tonalidade calculados como descrito acima, o número de bins, para as quais um valor de tonalidade é determinado, é reduzido para
Figure img0011
(em que os 3 valores de tonalidade adicionais são utilizados para con-figurar os filtros corta-faixa específicos dentro do codificador baseado em SPX). A razão das bins para as quais a tonalidade é calculada antes e após a otimização, produz a melhoria de desempenho (e a redução da complexidade) para o algoritmo de tonalidade. Deve notar-se que a abordagem em duas etapas é normalmente um pouco mais complexa do que o cálculo direto de valores de tonalidade agrupada. O ganho no desempenho (isto é, a redução da complexidade) para o cálculo completo de tonalidade é, portanto, um pouco menor do que a proporção de bins de tonalidade calculada a qual pode ser encontrada na Tabela 2 para taxas de bits diferentes.
Figure img0012
Tabela 2
[0088] Pode ser visto que pode ser conseguida uma redução da complexidade computacional de 50% e superior, para calcular os valores de tonalidade.
[0089] Como descrito acima, a abordagem em duas etapas não afeta a saída do codificador. A seguir, são descritas outras medidas para reduzir a complexidade computacional de um codificador baseado em SPX as que podem afetar a saída do codificador. Contudo, os testes de percepção demonstraram que - em média - estas medidas adicionais não afetam a qualidade percebida dos sinais de áudio codificados. As medidas descritas abaixo podem ser usadas alternativamente ou em adição a outras medidas descritas no presente documento.
[0090] Como mostrado, por exemplo, no contexto da Figura 3c, os valores tonalidade agrupada Tlow 321 e Thigh 322 são a base para o cálculo do fator b da mistura de ruído. A tonalidade pode ser interpretada como uma propriedade que é mais ou menos inversa à quantidade de ruído contido no sinal de áudio (ou seja, mais barulhento -> menos tonal e vice-versa). O fator b da mistura de ruído pode ser calculado como:
Figure img0013
onde Tlow 321 é a tonalidade da banda baixa simulada do decodifica- dor, Thigh 322 é a tonalidade da alta banda original e
Figure img0014
é a variância dos dois valores de tonalidade Tlow 321 e Thigh 322.
[0091] O objetivo da mistura de ruído é inserir tanto ruído na banda alta regenerada quanto necessário para fazer o som de banda alta regenerada como a banda alta original. O valor da tonalidade de origem (refletindo a tonalidade das sub-bandas transpostas na banda de alta frequência 102) e o valor de tonalidade alvo (refletindo a tonalidade das sub-bandas na banda de alta frequência original 102) deve ser levado em conta para determinar o nível de ruído alvo desejado. É uma observação do inventor que a verdadeira tonalidade de origem não está corretamente descrita pelo valor de tonalidade Tlow 321 da banda baixa simulada pelo decodificador, porém, sim por um valor tonalidade Tcopy 323 da cópia de banda alta transposta (ver Figura 3c). O valor de tonalidade Tcopy 323 pode ser determinado com base nas sub-bandas que se aproximam das sub-bandas originais 7-14 da banda de alta frequência 102 como ilustrado pela chave na Figura 3c. É na banda alta transposta que a mistura de ruído é efetuada e, portanto, apenas a tonalidade dos CT’s de banda baixa que são, na verdade, copiados para dentro da banda alta deve influenciar a quantidade de ruído a ser adicionada.
[0092] Tal como indicado pela fórmula acima, atualmente o valor de tonalidade Tlow 321 a partir da banda baixa é usada como uma es-timativa da verdadeira tonalidade de origem. Pode haver dois casos que influenciam a precisão desta estimativa:
[0093] 1. A banda baixa, que é utilizada para aproximar a banda alta é menor do que ou igual à banda alta e o codificador não encontra uma meia banda envolvente (ou seja, a banda alvo é maior do que as bandas de origem disponíveis no final da região de cópia (isto é, a região entre spxstart e spxbegin)). O codificador normalmente tenta evitar tais situações envolventes dentro de uma banda alvo SPX. Isto está ilustrado na Figura 3c, onde a sub-banda transposta 5 é seguida pelas sub-bandas 0 e 1 (a fim de evitar uma situação envolvente da sub-banda 6 seguindo a sub-banda 0 dentro da banda alvo SPX). Neste caso, a banda baixa é normalmente copiada completamente, possivelmente várias vezes, para a banda alta. Como todos os CT’s estão sendo copiados, a estimativa da tonalidade para a banda baixa deve ser bastante próxima da estimativa da tonalidade da banda alta transposta.
[0094] 2. A banda baixa é maior do que a banda alta. Neste caso,apenas a parte inferior da banda baixa é copiada até a banda alta. Já que o valor de tonalidade Tlow 321 é calculado para todos os CT’s, da banda baixa, o valor de tonalidade Tcopy 323 da banda alta transposta pode desviar-se do valor de tonalidade Tlow 321, dependendo das propriedades do sinal e, dependendo da proporção de tamanho da banda baixa e banda alta.
[0095] Como tal, a utilização do valor de tonalidade Tlow 321 pode conduzir a um fator b impreciso de mistura de ruído, notavelmente nos casos em que nem todas as sub-bandas 0-6, que são utilizados para determinar o valor de tonalidade Tlow 321 são transpostas para a banda de alta frequência 102 (como é o caso, e.g., no exemplo mostrado na Figura 3c). Imprecisões significativas podem ocorrer nos casos onde as sub-bandas que não são copiadas para a banda de alta frequência 102 (por exemplo, sub-banda 6 na Figura 3c) compreendem conteúdo tonal significativo. É, por conseguinte proposto para determinar o fator b de mistura de ruído com base no valor de tonalidade agrupada Tcopy 323 da banda alta transposta (e não sobre o valor tonalidade agrupada Tlow 321 da banda baixa simulada pelo decodifica- dor indo da frequência de partida SPX 201 à frequência de começo SPX 202). Em particular, o fator b de mistura de ruído pode ser determinado como:
Figure img0015
Onde:
Figure img0016
é a variância de dois valores de tonalidade Tcopy 323 e Thigh 322.
[0096] Além de proporcionar, potencialmente, uma qualidade melhorada do codificador baseado em SPX, a utilização do valor de tona-lidade agrupada Tcopy 323 da banda alta transposta (em vez do valor de tonalidade agrupada Tlow 321 da banda baixa simulada pelo deco- dificador) pode levar a uma complexidade computacional reduzida do codificador de áudio baseado em SPX. Isto é particularmente verdadeiro para o caso acima mencionado 2, em que a banda alta transposta é mais estreita do que a banda baixa. Este benefício cresce com a disparidade de tamanhos de banda baixa e banda alta. A quantidade de bandas para a qual é calculada a tonalidade de origem pode ser
Figure img0017
em que o número (spxbegin - spxstart) se aplica se o fator b de mistura de ruído for determinado com base no valor de tonalidade agrupada Tlow 321 da banda baixa simulada pelo decodificador e em que o número (spxend - spxbegin) se aplica se o fator b de mistura de ruído for determinado com base no valor de tonalidade agrupada Tcopy 323 da banda alta transporta. Como tal, em uma concretização, o codificador baseado em SPX pode ser configurado para selecionar o modo de de-terminação do fator b de mistura de ruído (um primeiro modo baseado no valor de tonalidade agrupada Tlow 321 e um segundo modo, com base no valor de tonalidade agrupada Tcopy 323), dependendo no mínimo de {spxbegin - spxstart) e (spxend- spxbegin), reduzindo assim a complexidade computacional (nomeadamente nos casos onde (spxend - spxbegin) é menor do que (spxbegin - spxstart).
[0097] Deve notar-se que o esquema modificado para a determinação do fator b de mistura de ruído pode ser combinado com abordagem em duas etapas para determinar os valores de tonalidade agrupada Tcopy 323 e/ou Thigh 322. Neste caso, o valor de tonalidade agrupada Tcopy 323 é determinado com base nos valores de tonalidade da bin Tn 341 das bins de frequência que têm sido transpostos para a banda de alta frequência 102. As bins de frequência contribuindo para a banda de alta frequência reconstruída 102 se situam entre spx- start 201 e spxbegin 202. No pior dos casos, no que diz respeito a complexidade computacional, todas as bins de frequência entre spx- start 201 e spxbegin 202 contribuem para a banda de alta frequência reconstruída 102. Por outro lado, em muitos outros casos (por exemplo, tal como ilustrado na fig. 3c) apenas um subconjunto das bins de frequência entre spxstart 201 e spxbegin 202 é copiado para a banda de alta frequência reconstruída 102. Em vista disso, em uma concretização, o fator b de mistura de ruído é determinado com base no valor de tonalidade agrupada Tcopy 323 usando a valores de tonalidade de bin Tn 341. Isto é, utilizando a abordagem em duas etapas acima indicada para determinar o valor de tonalidade agrupada Tcopy 323. Utilizando a abordagem em duas etapas, é assegurado que, mesmo nos casos em que (spxbegin - spxstart) é menor do que (spxend- spxbe- gin), a complexidade computacional é limitada pela complexidade computacional necessária para determinar os valores de tonalidade de bin Tn 341 na banda de frequência entre 201 e spxstart 201 e spxbe- gin 202. Em outras palavras, a abordagem em duas etapas garante que, mesmo nos casos em que (spxbegin - spxstart) é menor do que (spxend- spxbegin), a complexidade computacional para determinar o valor de tonalidade agrupada Tcopy 323 é limitada pelo número de CT’s compreendidos entre (spxbegin - spxstart). Como tal, o fator b de mistura de ruído pode consistentemente ser determinado com base no valor de tonalidade agrupada Tcopy 323.
[0098] No entanto, pode ser benéfico para determinar o mínimo de (spxbegin - spxstart) e (spxend - spxbegin), a fim de determinar as sub-bandas na região de acoplamento (cplbegin a spxbegin) para as quais os valores tonalidade devem ser determinados. A título de exemplo, se (spxbegin - spxstart) for maior do que (spxend - spxbe- gin), não é necessário determinar os valores de tonalidade para pelo menos algumas das sub-bandas da região de frequência (spxbegin - spxstart), reduzindo assim a complexidade computacional.
[0099] Como pode ser visto na Figura. 3c a abordagem em duas etapas para determinar os valores de tonalidade agrupada a partir dos valores de tonalidade de bin permite uma reutilização significativa de valores de tonalidade de bin, reduzindo assim a complexidade computacional. A determinação de valores de bin de tonalidade é es-sencialmente reduzida para a determinação de valores de tonalidade de bin com base no espectro 200 do sinal de áudio original. Todavia, em caso de acoplamento, os valores de tonalidade de bin podem precisar ser determinados com base no espectro 210 acoplado / de- sacoplado para algumas ou todas as bins de frequência entre cplbe- gin 303 e spxbegin 202 (para as bins de frequência das sub-bandas sombreadas 2-6 na Figura 3c). Por outras palavras, depois de explorar os meios acima mencionados de reutilização da previamente calculada tonalidade por bin, as únicas bandas que podem requerer re- cálculo de tonalidade são as bandas que estão em acoplamento (ver Figura 3c).
[00100] O acoplamento geralmente remove as diferenças de fase entre os canais de um sinal multicanal (por exemplo, um sinal estéreo ou um sinal de multicanal 5.1) que estão em acoplamento.
[00101] Compartilhamento de frequência e compartilhamento de tempo das coordenadas de acoplamento aumento adicionalmente a correlação entre os canais acoplados. Como descrito acima, a determinação de valores de tonalidade é baseada em fases e energias do bloco atual de amostras (no instante de tempo k) e de um ou mais blocos precedentes de amostras (por exemplo, em instantes de tempo k- 1, k-2). Uma vez que os ângulos de fase de todos os canais no acoplamento são os mesmos (como um resultado do acoplamento), os valores de tonalidade daqueles canais estão mais correlacionados do que os valores de tonalidade do sinal original.
[00102] Um decodificador correspondente a um codificador baseado em SPX só tem acesso ao sinal desacoplado que o decodificador gera a partir do fluxo de bits recebido, compreendendo os dados de áudio codificados. Ferramentas de codificação, como mistura de ruído e atenuação de grande variância (LVA) no lado do codificador normalmente levam isso em conta no cálculo de razões que pretendem reproduzir o sinal de banda alta original a partir do sinal transposto de- sacoplado de banda baixa. Em outras palavras, o codificador de áudio baseado SPX normalmente tem em conta que o decodificador corres-pondente só tem acesso aos dados codificados (representativos do sinal de áudio desacoplado). Assim, a tonalidade de origem para a mistura de ruído e LVA é normalmente calculada a partir do sinal de- sacoplado no codificador com base SPX atual (tal como ilustrado, por exemplo, no espectro de 210, Figura 2a). Contudo, embora conceitu- almente faça sentido calcular com base na tonalidade o sinal desaco- plado (isto é, com base no espectro 210), as implicações de percepção do cálculo da tonalidade a partir do sinal original em vez disso não são tão claras. Além disso, a complexidade computacional pode ser ainda mais reduzida se o recálculo adicional de valores de tonalidade com base no sinal desacoplado puder ser evitado.
[00103] Para isso, um experimento de audição tem sido conduzido para avaliar a influência de percepção do uso da tonalidade do sinal original em vez da tonalidade do sinal desacoplado (para a determinação de valores de tonalidade agrupada 321 e 233). Os resultados da experiência de audição estão ilustrados na Figura 4. MUSHRA (Múltiplos Estímulos com Referência Invisível e Âncora) os testes foram realizados por uma pluralidade de diferentes sinais de áudio. Para cada um da pluralidade de diferentes sinais de áudio as barras (esquerda) indicam 401 os resultados obtidos ao determinar os valores de tonalidade com base no sinal desacoplado (usando o espectro de 210) e as barras (direita) 402 indicam os resultados obtidos ao determinar os valores de tonalidade com base no sinal original (usando o espectro de 200). Como pode ser visto a qualidade de áudio obtida quando se utiliza o sinal de áudio original para a determinação dos valores de tonalidade para a mistura de ruído e para LVA é a mesma na média como a qualidade de áudio obtida quando se utiliza o sinal de áudio desaco- plado para a determinação dos valores de tonalidade.
[00104] Os resultados da experiência de audição da Figura. 4 suge- rem que a complexidade computacional para determinar os valores de tonalidade pode ser ainda mais reduzida reutilizando os valores da to-nalidade da bin 341 do sinal de áudio original para determinar o valor de tonalidade agrupada 321 e/ou o valor de tonalidade agrupada 323 (usado para a mistura de ruído) e os valores de tonalidade agrupada 233 (usado para LVA). Por isso, a complexidade computacional do codificador de áudio baseado em SPX pode ser reduzida ainda mais, enquanto não impacta (na média) a qualidade do áudio percebida dos sinais de áudio codificados.
[00105] Mesmo quando se determinam os valores da tonalidade agrupada 321 e 233 com base no sinal de áudio desacoplado (isto é, com base nas sub-bandas sombreadas escuras 2-6 do espectro 210 da Figura. 3c) o alinhamento das fases devido ao acoplamento pode ser utilizado para reduzir a complexidade computacional ligada à determinação da tonalidade. Em outras palavras, mesmo que o recálculo da tonalidade para as bandas de acoplamento não puder ser evitado, o sinal desacoplado exibe uma propriedade especial, que pode ser usado para simplificar o cálculo de tonalidade regular. A propriedade especial é que todos os canais acoplados (e subsequentemente desa- coplados) estão em fase. Uma vez que todos os canais no acoplamento compartilham a mesma fase Φ para as bandas de acoplamento, esta fase Φ só precisa ser calculada uma vez para um canal e, em seguida, pode ser reutilizada nos cálculos de tonalidade dos outros canais em acoplamento. Em particular, isto significa que a operação "atan2" acima mencionada para determinar a fase Φk em um momento de instante k só precisa ser executada uma vez para todos os canais de um sinal multicanal que estão em acoplamento.
[00106] Parece ser benéfico de um ponto de vista numérico utilizar o próprio canal de acoplamento para o cálculo de fase (em vez de um dos canais desacoplados), uma vez que o canal de acoplamento re- presenta uma média sobre todos os canais no acoplamento. Re-uso de fase para os canais de acoplamento tem sido implementada no co-dificador SPX. Não há alterações na saída do codificador, devido à reutilização dos valores de fase. O ganho de desempenho é aproxi-madamente de 3% (do esforço computacional do codificador SPX) para a configuração medida a uma taxa de bits de 256 kbps, mas, espera-se que o ganho de desempenho aumente para taxas de bits mais baixas onde a região de acoplamento começa mais perto da frequência de partida SPX 201, ou seja, onde a frequência de começo de acoplamento 303 situa-se mais perto da frequência de início SPX 201.
[00107] A seguir, é descrita uma outra abordagem para reduzir a complexidade computacional ligada à determinação da tonalidade. Esta abordagem pode ser usada alternativamente ou em adição a outros métodos descritos no presente documento. Em contraste com as oti-mizações anteriormente apresentadas, que se concentraram na redução do número de cálculos de tonalidade necessários, a abordagem a seguir está dirigida a acelerar o próprio cálculo de tonalidade. Em particular, a seguinte abordagem é dirigida a reduzir a complexidade computacional para a determinação do valor de tonalidade da bin Tn, k de uma bin de frequência n para um bloco k (o índice k correspondente, por exemplo, a um instante de tempo k).
[00108] O valor de tonalidade por bin Tn,k da bin n no bloco k pode ser calculada conforme:
Figure img0018
onde:
Figure img0019
é a potência da bin n e o bloco k, wn,k é um fator de ponderação e
Figure img0020
é o ângulo de fase da bin n e bloco k. A fórmula acima mencionada para o valor de tonalidade da bin Tn,k é indicativo de ace-leração do ângulo da fase (conforme delineado no contexto das fórmulas dadas para o valor de tonalidade da bin Tnk acima). Deve ser notado que outras fórmulas para a determinação do valor de tonalidade da bin Tn, k podem ser utilizadas. A aceleração dos cálculos tonalidade (ou seja, a redução da complexidade computacional) está dirigida principalmente à redução da complexidade computacional ligada à determinação do fator de ponderação w.
[00109] O fator de ponderação W pode ser definido como:
Figure img0021
[00110] O fator de ponderação w pode ser aproximado pela substituição da raiz quarta por uma raiz quadrada e a primeira iteração do método Babilônico / Heron, ou seja,
Figure img0022
[00111] Embora a remoção de uma operação de raiz quadrada já aumenta a eficiência, ainda há uma operação de raiz quadrada e uma divisão por bloco, por canal e por bin de frequência. Uma aproximação diferente e computacionalmente mais eficaz pode ser derivada no do-mínio logarítmico para reescrever o fator de ponderação w como:
Figure img0023
[00112] A distinção dos casos pode ser abandonada ao notar que a diferença no domínio de registro é sempre negativa, independentemente se
Figure img0024
produzindo assim:
Figure img0025
[00113] Por conveniência da escrita, os índices são descartados e Yn k e Yn kA são substituídos por y e z, respectivamente:
Figure img0026
[00114] As variáveis y e z podem agora ser divididas em um expoente ey, ez e uma mantissa normalizada my, mz, respectivamente, produzindo assim:
Figure img0027
[00115] Supondo-se que o caso especial de uma mantissa com tudo zero seja tratado separadamente, as mantissas my mz normalizadas estão dentro do intervalo [0,5: 1]. A função de log2 (x) neste intervalo pode ser aproximada pela função linear log, (x) a2 • x - 2 com um erro máximo de 0,0861 e um erro médio de 0,0573. Deve ser notado que outras aproximações (por exemplo, uma aproximação polinomial) Pode ser possível, dependendo da precisão desejada da aproximação e / ou a complexidade computacional. Usando os rendimentos de aproximação acima mencionados:
Figure img0028
[00116] As diferenças das aproximações de mantissa ainda têm um erro máximo absoluto de 0, 0861, mas o erro médio é zero, de modo a que o intervalo do erro máximo muda de [0; 0.0861] (positivamente inclinado) para [-0.0861; 0.0861].
[00117] Dividindo o resultado da divisão por 4 em uma parte inteira e um resto rende:
Figure img0029
em que a operação int {...} retorna a parte inteira de seu operando por truncamento, e em que a operação mod {a, b} retorna o resto de a / b. Na aproximação acima do fator de ponderação w, a primeira expressão: em uma arquitetura de ponto fixo. A segunda expressão:
Figure img0030
transpõe para uma operação de mudança simples para a direita através de:
Figure img0031
em uma arquitetura de ponto fixo. A segunda expressão:
Figure img0032
pode ser calculado usando uma tabela de pesquisa pré-determinada, compreendendo potências de 2. A tabela de pesquisa pode compreender uma série de entradas pré-determinada, a fim de proporcionar um erro de aproximação pré-determinado.
[00118] Para fins de concepção de uma tabela de pesquisa adequada é útil recordar o erro aproximação das mantissas. O erro introduzido pela quantização de tabela de pesquisa não necessita ser significativamente menor que o erro de aproximação absoluto médio das mantissas, que é 0,0573 dividido por 4. Isto produz um erro de quanti- zação desejado menor do que 0,0143. Quantização linear usando re- sultados de uma tabela de pesquisa de 64 entradas em um erro de quantização adequado de 1/128 = 0.0078. Como tal, a tabela de pesquisa pré-determinada pode compreender um número total de 64 entradas. Em geral, o número de entradas na tabela de pesquisa pré- determinada deve estar alinhado com a aproximação selecionada da função logarítmica. Em particular, a precisão da quantização fornecida pela tabela de pesquisa deve estar em conformidade com a precisão da aproximação da função logarítmica.
[00119] Uma avaliação perceptiva do método de aproximação acima indicou que a qualidade geral do sinal de áudio codificado é melhorada quando o erro de estimativa dos valores de tonalidade da bin é inclinado positivamente, ou seja, quando a aproximação é mais provável que superestime o fator de ponderação (e os valores de tonalidade resultantes) do que subestime o fator de ponderação.
[00120] Para conseguir tal superestimação, o viés pode ser adicionado à tabela de pesquisa, por exemplo, pode ser adicionado um viés de metade de um passo de quantização. Um viés de metade de um passo de quantização pode ser implementado através de truncamento do índice na tabela de pesquisa de quantização em vez do arredondamento do índice. Pode ser benéfico limitar o fator de ponderação a 0, 5, a fim de coincidir com a aproximação obtida pelo método Babilô- nico / Heron.
[00121] A aproximação 503 do fator de ponderação w, resultante da função de aproximação do domínio de registro é mostrada na Figura 5 a, juntamente com os limites do seu erro médio e máximo. A Figura 5a também ilustra o fator de ponderação exata 501 usando a raiz quarta e o fator de ponderação 502 determinado utilizando a aproximação babi- lônica. A qualidade perceptiva da aproximação do domínio de registro tem sido verificada em um teste de audição usando o esquema de teste MUSHRA. Pode ser visto na Figura 5b que a qualidade percebida utilizando a aproximação logarítmica (barras da esquerda 511) é se-melhante na média à qualidade percebida usando a aproximação babi- lônica (barras do meio 512) e a raiz quarta (barras da direita 513). Por outro lado, usando a aproximação logarítmica, a complexidade compu-tacional do cálculo total de tonalidade pode ser reduzida em aproxima-damente 28%.
[00122] No presente documento vários esquemas têm sido descritos para reduzir a complexidade computacional de um codificador de áudio baseado em SPX. Cálculos de tonalidade têm sido identificados como o principal contribuinte para a complexidade computacional do codificador baseado em SPX. Os métodos descritos permitem a reutilização dos valores de tonalidade já calculados, reduzindo desse modo a complexidade computacional total. A reutilização de valores de tonalidade já calculados normalmente não afeta a saída do codificador de áudio baseado em SPX. Além disso, formas alternativas para determinar fator b de mistura de ruído têm sido descritas as que permitem uma redução adicional da complexidade computacional. Além disso, um esquema de aproximação eficiente para o fator de ponderação de tonalidade por bin foi descrito, o qual pode ser usado para reduzir a complexidade do próprio cálculo de tonalidade sem prejudicar a qualidade do áudio percebida. Como um resultado dos esquemas descritos no presente documento, uma redução global da complexidade computacional para um codificador de áudio baseado em SPX na faixa de 50% e além pode ser esperada - dependendo da configuração e taxa de bits.
[00123] Os métodos e sistemas descritos no presente documento podem ser implementados como software, firmware (programa impresso no hardware) e / ou hardware. Determinados componentes podem, por exemplo, ser implementados como software rodando em um processador de sinal digital ou microprocessador. Outros componentes podem, por exemplo, ser implementados como hardware e ou como circuitos integrados de aplicação específica. Os sinais encontrados nos métodos e sistemas descritos podem ser armazenados em mídia, como memória de acesso aleatório ou mídia de armazenamento óptico. Eles podem ser transferidos através de redes, como as redes de rádio, redes de satélites, redes sem fio ou redes de telefonia fixa, por exemplo, a Internet. Dispositivos típicos fazendo uso dos métodos e sistemas descritos no presente documento são dispositivos eletrônicos portáteis ou outros equipamentos de consumidor, que são usados para armazenar e / ou processar os sinais de áudio.
[00124] Um especialista na técnica poderá aplicar facilmente os diversos conceitos acima descritos para atingir outras concretizações especifi-camente adaptadas às exigências atuais de codificação de áudio.

Claims (20)

1. Método para determinar um primeiro valor de tonalidade agrupada (311, 312) para uma primeira sub-banda de frequência (205) de um sinal de áudio; caracterizado pelo fato de que o primeiro valor de tonalidade agrupada (311, 312) é usado para aproximar um componente de alta frequência do sinal de áudio com base em um componente de baixa frequência do sinal de áudio; o método compreendendo: determinar um conjunto de coeficientes de transformada em um conjunto correspondente de bins de frequência com base em um bloco de amostras do sinal de áudio; determinar um conjunto de valores de tonalidade de bin (341) para o conjunto de coeficientes de bins de frequência usando o conjunto de coeficientes de transformada, respectivamente; e combinar um primeiro subconjunto de dois ou mais do con-junto de valores de tonalidade de bin (341) para duas ou mais bins de frequências adjacentes correspondentes do conjunto de bins de fre-quência situadas dentro da primeira sub-banda de frequência, desse modo produzindo o primeiro valor de tonalidade agrupada (311, 312) para a primeira sub-banda de frequência: em que o método ainda compreende determinar uma se-quência de conjuntos de coeficientes de transformada com base em uma sequência correspondente de blocos do sinal de áudio; para uma bin de frequência específica, a sequência de con-juntos de coeficientes de transformada compreende uma sequência de coeficientes de transformada específicos; determinar o valor de tonalidade de bin (341) para a bin de frequência específica compreende: determinar uma sequência de fases com base na sequência de coeficientes de transformada específicos; e determinar uma aceleração de fase com base na sequência de fases; e o valor de tonalidade da bin (341) para a bin de frequência específica é uma função da aceleração de fase.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende: determinar um segundo valor de tonalidade agrupada (321, 322) em uma segunda sub-banda de frequência ao combinar um segundo subconjunto de dois ou mais do conjuntos de valores de tonalidade de bin (341) para duas ou mais bins de frequências adjacentes correspondentes do conjunto de bins de frequência situadas dentro da segunda sub-banda de frequência: em que as primeira e segunda subbandas de frequências compreendem pelo menos uma bin de frequência comum e em que os primeiro e segundo subconjuntos compreendem o correspondente pelo menos um valor de tonalidade de bin (341) comum.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: aproximar o componente de alta frequência do sinal de áudio com base no componente de baixa frequência do sinal de áudio compreende copiar um ou mais coeficientes de transformada de baixa frequência de uma ou mais bins de frequência de uma banda de baixa frequência (101) correspondendo ao componente de baixa frequência para uma banda de alta frequência (102) correspondendo ao componente de alta frequência do sinal de áudio; a primeira sub-banda de frequência se situa dentro da banda de baixa frequência (101); uma segunda sub-banda de frequência se situa dentro da banda de baixa frequência (102); o método ainda compreendendo determinar um segundo valor de tonalidade agrupada (233) na segunda sub-banda de frequência ao combinar um segundo subconjunto de dois ou mais do conjunto de valores de tonalidade de bin (341) para duas ou mais bins de frequência correspondentes das bins de frequência que foram copiadas para a segunda sub-banda de frequência; a segunda sub-banda de frequência compreende pelo menos uma bin frequência que foi copiada de uma bin de frequência situada dentro de primeira sub-banda de frequência; e os primeiro e segundo subconjuntos compreendem o cor-respondente pelo menos um valor de tonalidade de bin (341) comum.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: o primeiro valor de tonalidade agrupada (311, 312) é usado para aproximar um componente de alta frequência do sinal de áudio com base em um componente de baixa frequência do sinal de áudio usando um esquema de Extensão Espectral (SPX); e o primeiro valor de tonalidade agrupada (311, 312) é usado para determinar uma estratégia de reenvio de coordenada de SPX, um fator de mistura de ruído e/ou uma Atenuação de Grande Variância.
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que o fator de mistura de ruído é usado para aproximar um componente de alta frequência do sinal de áudio com base em um componente de baixa frequência do sinal de áudio; em que o componente de alta frequência compreende um ou mais sinais de subbandas de alta frequência em uma banda de alta frequência (102); em que o componente de baixa frequência compreende um ou mais sinais de sub-banda de baixa frequência (101); em que aproximar o componente de alta frequência compreende copiar um ou mais sinais de subbandas de baixa frequência para a banda de alta frequência (102), desse modo produzindo um ou mais sinais da sub-banda de alta fre- quência aproximados; o método ainda compreendendo: determinar um valor de tonalidade agrupada alvo (322) com base no um ou mais sinais de sub-banda de alta frequência; determinar um valor de tonalidade agrupada de origem (323) com base no um ou mais sinais da sub-banda de alta frequência aproximados; e determinar o fator de mistura de ruído com base nos valores de tonalidade agrupada alvo (322) e de origem (323).
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o método compreende determinar o fator de mistura de ruído b como:
Figure img0033
onde
Figure img0034
é a variância do valor de tonalidade de origem (Tcopy) (323) e o valor de tonalidade alvo (Thlgh) (322).
7. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que: a banda de baixa frequência (101) compreende uma banda de partida (201) indicativa de uma sub-banda de baixa frequência tendo a menor frequência de sub-bandas de baixa frequência que estão disponíveis para cópia; a banda de alta frequência (102) compreende uma banda de começo (202) indicativa de uma sub-banda de alta frequência tendo a menor frequência de sub-bandas de alta frequência que estão dis-poníveis para ser aproximadas; a banda de alta frequência (102) compreende uma banda final (203) indicativa da sub-banda de alta frequência tendo a maior frequência de sub-bandas de alta frequência que estão para ser apro-ximadas; o método compreende determinar uma primeira largura de banda entre a banda de partida (201) e a banda de começo (202); e o método compreende determinar uma segunda largura de banda entre a banda de começo (202) e a banda final (203).
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que ainda compreendendo: se a primeira largura de banda for menor do que a segunda largura de banda, determinar um valor de tonalidade agrupada baixo com base no um ou mais sinais de sub-banda de baixa frequência da sub-banda de baixa frequência entre a banda de partida (201) e a banda de começo (202), e determinar o fator de mistura de ruído com base nos valores de tonalidade agrupada alvo (322) e baixo.
9. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que ainda compreendendo: se a primeira largura de banda for maior do que ou igual à segunda largura de banda, determinar o valor de tonalidade agrupada de origem (323) com base no um ou mais sinais sub-banda de baixa frequência da sub-banda de baixa frequência situada entre a banda de partida (201) e a banda de partida (201) mais a segunda largura de banda.
10. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que determinar um valor de tonalidade agrupada de uma sub-banda de frequência compreende: determinar um conjunto de coeficientes de transformada em um conjunto correspondente de bins de frequência com base em um bloco de amostras do sinal de áudio; determinar um conjunto de valores de tonalidade de bin (341) para o conjunto de bins de frequência usando o conjunto de coe- ficientes de transformada, respectivamente; e combinar um primeiro subconjunto de dois ou mais do con-junto de valores de tonalidade (341) para duas ou mais bins de fre-quências adjacentes correspondentes do conjunto de bins de frequência situadas dentro da sub-banda de frequência, desse modo produzindo o valor de tonalidade agrupada (311, 312) da sub-banda de frequência.
11. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o primeiro valor de tonalidade de bin (341) é de-terminado para uma primeira bin de frequência de um sinal de áudio; em que o primeiro valor de tonalidade de bin (341) é usado para aproximar um componente de alta frequência do sinal de áudio com base em um componente de baixa frequência do sinal de áudio; o método ainda compreendendo: fornecer uma sequência de coeficientes de transformada na primeira bin frequência para uma sequência correspondente de blocos de amostras do sinal de áudio; determinar uma sequência de fases com base na sequência de coeficientes de transformada; determinar uma aceleração de fase com base na sequência de fases; determinar uma potência de bin com base em um coeficiente de transformada atual; aproximar um fator de ponderação indicativo da raiz quarta de uma razão de uma potência de coeficientes de transformada sucessivos usando uma aproximação logarítmica; e ponderar a aceleração de fase pela potência da bin e o fator de ponderação aproximado para produzir o primeiro valor de tonalidade de bin (341).
12. Método, de acordo com a reivindicação 11, caracteri- zado pelo fato de que: a sequência de coeficientes de transformada compreende o coeficiente de transformada atual e um coeficiente de transformada diretamente precedente; e o fator de ponderação é indicativo da raiz quarta de uma razão da potência do coeficiente de transformada atual e o coeficiente de transformada diretamente precedente.
13. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que: uma aceleração de fase atual é determinada com base na fase do coeficiente de transformada atual e com base nas fases de dois ou mais coeficientes de transformada diretamente precedentes.
14. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que aproximar o fator de ponderação compreende: fornecer uma mantissa atual e um expoente atual represen-tando um atual da sequência de coeficientes de transformada sucessi-vos; determinar um valor de índice para uma tabela de pesquisa pré-determinada com base na mantissa atual e no expoente atual; em que a tabela de pesquisa proporciona uma relação entre uma pluralidade de valores de índice e uma pluralidade correspondente de valores exponenciais da pluralidade de valores de índice; e determinar o fator de ponderação aproximado usando o valor de índice e a tabela de pesquisa.
15. Sistema caracterizado pelo fato de que é configurado para determinar um primeiro valor de tonalidade agrupada (311, 312) para uma primeira sub-banda de frequência (205) de um sinal de áudio; em que o primeiro valor de tonalidade agrupada (311, 312) é usado para aproximar um componente de alta frequência do sinal de áudio com base em um componente de baixa frequência do sinal de áu- dio; em que o sistema compreende: um microprocessador; e uma memória, em que o microprocessador é configurado para determinar um conjunto de coeficientes de transformada em um conjunto corres-pondente de bins de frequência com base em um bloco de amostras do sinal de áudio; em que o microprocessador é configurado para determinar um conjunto de valores de tonalidade de bin (341) para o conjunto de coeficientes de bins de frequência usando o conjunto de coeficientes de transformada, respectivamente; e em que o microprocessador é configurado para combinar um primeiro subconjunto de dois ou mais do conjunto de valores de tonalidade de bin (341) para duas ou mais bins de frequências adjacentes correspondentes do conjunto de bins de frequência situadas dentro da primeira sub-banda de frequência, desse modo produzindo o primeiro valor de tonalidade agrupada (311, 312) para a primeira subbanda de frequência: em que o microprocessador é ainda configurado para de-terminar uma sequência de conjuntos de coeficientes de transformada com base em uma sequência correspondente de blocos do sinal de áudio; para uma bin de frequência específica, a sequência de con-juntos de coeficientes de transformada compreende uma sequência de coeficientes de transformada específicos; determinar o valor de tonalidade de bin (341) para a bin de frequência específica compreende: determinar uma sequência de fases com base na sequência de coeficientes de transformada específicos; e determinar uma aceleração de fase com base na sequência de fases; e o valor de tonalidade da bin (341) para a bin de frequência específica é uma função da aceleração de fase.
16. Sistema, de acordo com a reivindicação 15, caracteri-zado pelo fato de que o microprocessador é ainda configurado para determinar um segundo valor de tonalidade agrupada (321, 322) em uma segunda sub-banda de frequência ao combinar um segundo subconjunto de dois ou mais do conjuntos de valores de tonalidade de bin (341) para duas ou mais bins de frequências adjacentes correspondentes do conjunto de bins de frequência situadas dentro da segunda sub-banda de frequência: em que as primeira e segunda sub-bandas de frequências compreendem pelo menos uma bin de frequência comum e em que os primeiro e segundo subconjuntos compreendem o correspondente pelo menos um valor de tonalidade de bin (341) comum.
17. Sistema, de acordo com a reivindicação 15, caracteri-zado pelo fato de que o primeiro valor de tonalidade de bin (341) é determinado para uma primeira bin de frequência de um sinal de áudio; em que o primeiro valor de tonalidade de bin (341) é usado para aproximar um componente de alta frequência do sinal de áudio com base em um componente de baixa frequência do sinal de áudio; em que o microprocessador é configurado para fornecer uma sequência de coeficientes de transformada na primeira bin frequência para uma sequência correspondente de blocos de amostras do sinal de áudio; em que o microprocessador é configurado para determinar uma sequência de fases com base na sequência de coeficientes de transformada; em que o microprocessador é configurado para determinar uma aceleração de fase com base na sequência de fases; em que o microprocessador é configurado para determinar uma potência de bin com base em um coeficiente de transformada atual; em que o microprocessador é configurado para aproximar um fator de ponderação indicativo da raiz quarta de uma razão de uma potência de coeficientes de transformada sucessivos usando uma aproximação logarítmica; e em que o microprocessador é configurado para ponderar a aceleração de fase pela potência da bin e o fator de ponderação apro-ximado para produzir o primeiro valor de tonalidade de bin (341).
18. Sistema, de acordo com a reivindicação 17, caracteri-zado pelo fato de que a sequência de coeficientes de transformada compreende o coeficiente de transformada atual e um coeficiente de transformada diretamente precedente; e o fator de ponderação é indicativo da raiz quarta de uma razão da potência do coeficiente de transformada atual e o coeficiente de transformada diretamente precedente.
19. Sistema, de acordo com a reivindicação 17, caracteri-zado pelo fato de que o microprocessador é configurado para aproximar o fator de ponderação ao: fornecer uma mantissa atual e um expoente atual represen-tando um atual da sequência de coeficientes de transformada sucessi-vos; determinar um valor de índice para uma tabela de pesquisa pré-determinada com base na mantissa atual e no expoente atual; em que a tabela de pesquisa proporciona uma relação entre uma pluralidade de valores de índice e uma pluralidade correspondente de valores exponenciais da pluralidade de valores de índice; e determinar o fator de ponderação aproximado usando o va lor de índice e a tabela de pesquisa.
20. Meio não-transitório legível por computador caracteri-zado pelo fato de que compreende o método como definido na rei-vindicação 1.
BR112014020562-0A 2012-02-23 2013-02-22 Método, sistema e meio não-transitório legível por computador para determinar um primeiro valor de tonalidade agrupada BR112014020562B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP12156631 2012-02-23
EP12156631.9 2012-02-23
US201261680805P 2012-08-08 2012-08-08
US61/680,805 2012-08-08
PCT/EP2013/053609 WO2013124445A2 (en) 2012-02-23 2013-02-22 Methods and systems for efficient recovery of high frequency audio content

Publications (2)

Publication Number Publication Date
BR112014020562A2 BR112014020562A2 (pt) 2017-06-20
BR112014020562B1 true BR112014020562B1 (pt) 2022-06-14

Family

ID=49006324

Family Applications (2)

Application Number Title Priority Date Filing Date
BR122021018240-0A BR122021018240B1 (pt) 2012-02-23 2013-02-22 Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado
BR112014020562-0A BR112014020562B1 (pt) 2012-02-23 2013-02-22 Método, sistema e meio não-transitório legível por computador para determinar um primeiro valor de tonalidade agrupada

Family Applications Before (1)

Application Number Title Priority Date Filing Date
BR122021018240-0A BR122021018240B1 (pt) 2012-02-23 2013-02-22 Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado

Country Status (9)

Country Link
US (2) US9666200B2 (pt)
EP (3) EP2817803B1 (pt)
JP (2) JP6046169B2 (pt)
KR (2) KR101816506B1 (pt)
CN (2) CN104541327B (pt)
BR (2) BR122021018240B1 (pt)
ES (1) ES2568640T3 (pt)
RU (1) RU2601188C2 (pt)
WO (1) WO2013124445A2 (pt)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101816506B1 (ko) * 2012-02-23 2018-01-09 돌비 인터네셔널 에이비 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들
CN104718570B (zh) * 2012-09-13 2017-07-18 Lg电子株式会社 帧丢失恢复方法,和音频解码方法以及使用其的设备
EP2950308B1 (en) * 2013-01-22 2020-02-19 Panasonic Corporation Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
ES2688134T3 (es) 2013-04-05 2018-10-31 Dolby International Ab Codificador y decodificador de audio para codificación de forma de onda intercalada
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
EP2963649A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
JP2016038435A (ja) * 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
PL3405949T3 (pl) 2016-01-22 2020-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób szacowania międzykanałowej różnicy czasowej
US10681679B1 (en) * 2017-06-21 2020-06-09 Nxp Usa, Inc. Resource unit detection in high-efficiency wireless system
US10187721B1 (en) * 2017-06-22 2019-01-22 Amazon Technologies, Inc. Weighing fixed and adaptive beamformers
EP3435376B1 (en) 2017-07-28 2020-01-22 Fujitsu Limited Audio encoding apparatus and audio encoding method
CN107545900B (zh) * 2017-08-16 2020-12-01 广州广晟数码技术有限公司 带宽扩展编码和解码中高频弦信号生成的方法和装置
TWI834582B (zh) 2018-01-26 2024-03-01 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
CN109036457B (zh) 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
CN110267082B (zh) * 2019-06-03 2020-05-05 李少锋 按语言最小单元自动切换音视频的播放控制方法及系统
CN116134834A (zh) * 2020-12-31 2023-05-16 深圳市韶音科技有限公司 生成音频的方法和系统

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR920008063B1 (ko) * 1988-11-22 1992-09-22 마쯔시다덴기산교 가부시기가이샤 텔레비젼신호수신장치
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
US7012630B2 (en) 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
US5913189A (en) * 1997-02-12 1999-06-15 Hughes Electronics Corporation Voice compression system having robust in-band tone signaling and related method
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
JP3654117B2 (ja) * 2000-03-13 2005-06-02 ヤマハ株式会社 時間軸方向における楽音波形信号の伸縮方法
WO2003046891A1 (en) * 2001-11-29 2003-06-05 Coding Technologies Ab Methods for improving high frequency reconstruction
US6978001B1 (en) 2001-12-31 2005-12-20 Cisco Technology, Inc. Method and system for controlling audio content during multiparty communication sessions
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
TWI288915B (en) * 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
KR100463417B1 (ko) * 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
WO2004036549A1 (en) * 2002-10-14 2004-04-29 Koninklijke Philips Electronics N.V. Signal filtering
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
JP4252417B2 (ja) * 2003-10-02 2009-04-08 住友重機械工業株式会社 成形機の監視装置及び監視方法
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
US7218240B2 (en) 2004-08-10 2007-05-15 The Boeing Company Synthetically generated sound cues
US7545875B2 (en) * 2004-11-03 2009-06-09 Nokia Corporation System and method for space-time-frequency coding in a multi-antenna transmission system
US7675873B2 (en) 2004-12-14 2010-03-09 Alcatel Lucent Enhanced IP-voice conferencing
US8082156B2 (en) * 2005-01-11 2011-12-20 Nec Corporation Audio encoding device, audio encoding method, and audio encoding program for encoding a wide-band audio signal
UA92742C2 (ru) * 2005-04-01 2010-12-10 Квелкомм Инкорпорейтед Способ и устройство для кодирования речевых сигналов с расщеплением полосы
US7630882B2 (en) 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
JP4736812B2 (ja) 2006-01-13 2011-07-27 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR101240261B1 (ko) 2006-02-07 2013-03-07 엘지전자 주식회사 이동통신 단말기의 영상 통화 장치 및 방법
CN101149918B (zh) * 2006-09-22 2012-03-28 鸿富锦精密工业(深圳)有限公司 具练唱功能的声音处理装置
JP2008096567A (ja) 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム
WO2008100503A2 (en) * 2007-02-12 2008-08-21 Dolby Laboratories Licensing Corporation Improved ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
RU2420886C1 (ru) 2007-03-02 2011-06-10 Квэлкомм Инкорпорейтед Конфигурирование повторителя
WO2009039897A1 (en) 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
US8509454B2 (en) 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
KR100970446B1 (ko) * 2007-11-21 2010-07-16 한국전자통신연구원 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법
US8223851B2 (en) 2007-11-23 2012-07-17 Samsung Electronics Co., Ltd. Method and an apparatus for embedding data in a media stream
CN101471072B (zh) * 2007-12-27 2012-01-25 华为技术有限公司 高频重建方法、编码装置和解码装置
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
WO2010073563A1 (ja) 2008-12-24 2010-07-01 パナソニック株式会社 会議装置及び通信設定方法
EP2380172B1 (en) * 2009-01-16 2013-07-24 Dolby International AB Cross product enhanced harmonic transposition
CN101527141B (zh) * 2009-03-10 2011-06-22 苏州大学 基于径向基神经网络的耳语音转换为正常语音的方法
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
US8223943B2 (en) 2009-04-14 2012-07-17 Citrix Systems Inc. Systems and methods for computer and voice conference audio transmission during conference call via PSTN phone
US8351589B2 (en) 2009-06-16 2013-01-08 Microsoft Corporation Spatial audio for audio conferencing
US8427521B2 (en) 2009-10-21 2013-04-23 At&T Intellectual Property I, L.P. Method and apparatus for providing a collaborative workspace
CA2743613C (en) * 2009-11-12 2018-08-14 Paul Reed Smith Guitars Limited Partnership Precision measurement of waveforms
US8774787B2 (en) 2009-12-01 2014-07-08 At&T Intellectual Property I, L.P. Methods and systems for providing location-sensitive conference calling
EP2510515B1 (en) * 2009-12-07 2014-03-19 Dolby Laboratories Licensing Corporation Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
US20110182415A1 (en) 2010-01-28 2011-07-28 Jacobstein Mark Williams Methods and apparatus for providing call conferencing services
EP2581905B1 (en) * 2010-06-09 2016-01-06 Panasonic Intellectual Property Corporation of America Bandwidth extension method, bandwidth extension apparatus, program, integrated circuit, and audio decoding apparatus
JP6010539B2 (ja) * 2011-09-09 2016-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法および復号方法
KR101816506B1 (ko) * 2012-02-23 2018-01-09 돌비 인터네셔널 에이비 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들

Also Published As

Publication number Publication date
EP3029672A3 (en) 2016-06-29
EP3288033B1 (en) 2019-04-10
RU2601188C2 (ru) 2016-10-27
CN107993673B (zh) 2022-09-27
US9666200B2 (en) 2017-05-30
BR112014020562A2 (pt) 2017-06-20
JP2015508186A (ja) 2015-03-16
CN104541327A (zh) 2015-04-22
BR122021018240B1 (pt) 2022-08-30
JP6046169B2 (ja) 2016-12-14
EP3029672A2 (en) 2016-06-08
RU2014134317A (ru) 2016-04-20
ES2568640T3 (es) 2016-05-03
US20150003632A1 (en) 2015-01-01
WO2013124445A3 (en) 2013-11-21
US20170221491A1 (en) 2017-08-03
CN104541327B (zh) 2018-01-12
US9984695B2 (en) 2018-05-29
EP3029672B1 (en) 2017-09-13
CN107993673A (zh) 2018-05-04
EP3288033A1 (en) 2018-02-28
JP2016173597A (ja) 2016-09-29
JP6334602B2 (ja) 2018-05-30
KR101816506B1 (ko) 2018-01-09
EP2817803B1 (en) 2016-02-03
KR20160134871A (ko) 2016-11-23
KR101679209B1 (ko) 2016-12-06
KR20140116520A (ko) 2014-10-02
WO2013124445A2 (en) 2013-08-29
EP2817803A2 (en) 2014-12-31

Similar Documents

Publication Publication Date Title
BR112014020562B1 (pt) Método, sistema e meio não-transitório legível por computador para determinar um primeiro valor de tonalidade agrupada
TWI587288B (zh) 利用水平相校正處理音訊信號之音訊處理器及方法
AU2018250490B2 (en) Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
BR112012014856B1 (pt) Método para fundir conjuntos de fonte de parâmetros de sbr a conjuntos-alvo de parâmetros de sbr, meio de armazenamento não transitório e unidade de fusão de parâmetros de sbr
ES2693051T3 (es) Aparato y procedimiento para generar una señal mejorada mediante el uso de relleno de ruido independiente
BR112015018981B1 (pt) Método, aparelho e mídia não transitória para descorrelação de sinal em um sistema de processamento de áudio
BR112014032265B1 (pt) Dispositivo e método para mudanças de frequência livremente selecionáveis no domínio de sub-banda
BR112015017866B1 (pt) Aparelho e método para gerar um sinal melhorado da frequência utilizando a formação do sinal de melhoria
US9842594B2 (en) Frequency band table design for high frequency reconstruction algorithms

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 22/02/2013, OBSERVADAS AS CONDICOES LEGAIS

B25G Requested change of headquarter approved

Owner name: DOLBY INTERNATIONAL AB (IE)