BRPI0923850B1

BRPI0923850B1 - Aparelho que decodifica um sinal de áudio de canal múltiplo e método para a decodificação e codificação de um sinal de áudio de canal múltiplo

Info

Publication number: BRPI0923850B1
Application number: BRPI0923850-6A
Authority: BR
Inventors: James P. Ashley; Udar Mittal
Original assignee: Google Technology Holdings LLC
Priority date: 2008-12-29
Filing date: 2009-12-03
Publication date: 2020-03-24
Also published as: CN102272829B; BRPI0923850A8; BRPI0923850A2; EP2382622B1; US20100169099A1; EP2382622A1; US8219408B2; KR101274827B1; ES2434251T3; KR20110111443A; CN102272829A; WO2010077556A1

Abstract

método e aparelho para a geração de uma camada de melhoramento em um sistema de codificação de áudio de canal múltiplo durante uma operação, um sinal de áudio de canal múltiplo é recebido e codificado para a geração de um sinal de áudio codificado. um fator de equilíbrio tendo componentes de fator de equilíbrio, cada uma associada a um sinal de áudio do sinal de áudio de canal múltiplo é gerado. um valor de ganho a ser aplicado ao sinal de áudio codificado para a geração de uma estimativa do sinal de áudio de canal múltiplo com base no fator de equilíbrio e no sinal de áudio de canal múltiplo é determinado, com o valor de ganho configurado para minimizar um valor de distorção entre o sinal de áudio codificado e a estimativa do sinal de áudio de canal múltiplo. a representação do valor de ganho pode ser extraída para transmissão e/ ou armazenamento.

Description

APARELHO QUE DECODIFICA UM SINAL DE ÁUDIO DE CANAL MÚLTIPLO E MÉTODO PARA A DECODIFICAÇÃO E CODIFICAÇÃO DE UM SINAL DE ÁUDIO DE CANAL MÚLTIPLO

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS [001] O presente pedido está relacionado aos pedidos U.S. a seguir comumente possuídos em conjunto com este pedido pela Motorola Mobility, Inc.:

[002] Pedido N° 12/345,165, intitulado “Method and Apparatus for Generating an Enhancement Layer within a Multiple-Channel Audio Coding System” (Protocolo Legal N° CS36250AUD);

[003] Pedido N° 12/345,141, intitulado “Selective Scaling Mask Computation Based on Peak Detection” (Protocolo Legal N° CS36251AUD); e [004] Pedido N° 12345,096, intitulado “Selective Scaling Mask Computation Based on Peak Detection” (Protocolo Legal N° CS36655AUD), todos depositados à mesma data deste.

CAMPO DA EXPOSIÇÃO [005] A presente invenção se refere, em geral, a sistemas de comunicação e, mais particularmente, à codificação de sinais de fala e de áudio nesses sistemas de comunicação.

ANTECEDENTES [006] A compressão de sinais digitais de fala e de áudio é bem conhecida. A compressão geralmente é requerida para se transmitirem eficientemente sinais por um canal de comunicações, ou para o armazenamento de sinais comprimidos em um dispositivo de mídia digital, tal como um dispositivo de memória de estado sólido ou um disco rígido de computador. Embora haja muitas técnicas de compressão (ou de codificação), um método que permaneceu muito popular para

Petição 870180017038, de 02/03/2018, pág. 7/63

2/50 codificação de fala digital é conhecido como Predição Linear Excitada de Código (CELP) , a qual é um da família de algoritmos de codificação de “análise por síntese”. A análise por síntese geralmente se refere a um processo de codificação pelo qual múltiplos parâmetros de um modelo digital são usados para a síntese de um conjunto de sinais candidatos que são comparados com um sinal de entrada e analisados quanto à distorção. Um conjunto de parâmetros que produz a distorção mais baixa então é transmitido ou armazenado e, eventualmente, usado para a reconstrução de uma estimativa de um sinal de entrada original. A CELP é um método de análise por síntese em particular que usa um ou mais livros de código que compreendem, cada um, essencialmente, conjuntos de vetores de código que são recuperados a partir do livro de código em resposta a um índice de livro de código.

[007] Em codificadores de CELP modernos, há um problema com a manutenção de uma reprodução de fala e de áudio de alta qualidade a taxas de dados razoavelmente baixas. Isto é especialmente verdadeiro para música e outros sinais de áudio genéricos que não se adaptam muito bem ao modelo de fala de CELP. Neste caso, a não combinação do modelo pode causar uma qualidade de áudio severamente degradada que pode ser inaceitável para um usuário final do equipamento que empregue esses métodos. Portanto, permanece uma necessidade de melhoria da performance de codificadores de fala do tipo de CELP a taxas de bit baixas, especialmente para música e outras entradas do tipo não de fala.

[008] EP 1818911 (A1) divulga um dispositivo de codificação de som que tem uma estrutura escalonável monaural

Petição 870180017038, de 02/03/2018, pág. 8/63

3/50 / estéreo e capaz de codificar eficientemente o som estéreo mesmo quando a correlação entre os sinais de canal de um sinal estéreo é pequena.

BREVE DESCRIÇÃO DOS DESENHOS [009] As figuras associadas, em que números de referência iguais se referem a elementos idênticos ou funcionalmente similares por todas as vistas em separado, as quais em conjunto com a descrição detalhada abaixo são incorporadas em e fazem parte do relatório descritivo e servem para ilustração adicional de várias modalidades dos conceitos que incluem a invenção reivindicada, e para explicação dos vários princípios e vantagens daquelas modalidades.

[010] A FIG. 1 é um diagrama de blocos de um sistema de compressão de fala / áudio embutido da técnica anterior.

[011] A FIG. 2 é um exemplo mais detalhado do codificador de camada de melhoramento da FIG. 1.

[012] A FIG. 3 é um exemplo mais detalhado do codificador de camada de melhoramento da FIG. 1.

[013] A FIG. 4 é um diagrama de blocos de um codificador de camada de melhoramento e decodificador.

[014] A	FIG.	5	é	um	diagrama de blocos	de	um sistema	de
codificação	embutido	de	camada múltipla.
[015] A	FIG.	6	é	um	diagrama de blocos	de	um codificador
e decodificador	de	4	camadas.
[016] A	FIG.	7	é	um	fluxograma que mostra	a operação	dos
codificadores da	FIG	. 4	e da FIG. 6.
[017] A	FIG.	8	é	um	diagrama de blocos	de	um sistema	de

compressão de fala / áudio embutido da técnica anterior.

[018] A FIG. 9 é um exemplo mais detalhado do codificador

Petição 870180017038, de 02/03/2018, pág. 9/63

4/50 de camada de melhoramento da FIG. 8.

[019] A FIG. 10 é um diagrama de blocos de um codificador de camada de melhoramento e decodificador, de acordo com várias modalidades.

[020] A FIG. 11 é um diagrama de blocos de um codificador de camada de melhoramento e decodificador, de acordo com várias modalidades.

[021] A FIG. 12 é um fluxograma de codificação de sinal de áudio de canal múltiplo, de acordo com várias modalidades.

[022] A FIG. 13 é um fluxograma de codificação de sinal de áudio de canal múltiplo, de acordo com várias modalidades.

[023] A FIG. 14 é um fluxograma de decodificação de sinal de áudio de canal múltiplo, de acordo com várias modalidades.

[024] A FIG. 15 é um gráfico de freqüência de detecção de pico com base em geração de máscara, de acordo com várias modalidades.

[025] A FIG. 16 é um gráfico de freqüência de escalonamento de camada de núcleo usando geração de máscara de pico, de acordo com várias modalidades.

[026] As FIG. 17 a 19 são fluxogramas que ilustram a metodologia para a codificação e a decodificação usando geração de máscara com base em detecção de pico, de acordo com várias modalidades.

[027] Técnicos versados apreciarão que os elementos nas figuras são ilustrados por simplicidade e clareza e não necessariamente foram desenhados em escala. Por exemplo, as dimensões de alguns dos elementos nas figuras podem estar exageradas em relação a outros elementos, para ajudar na melhoria do entendimento de várias modalidades. Além disso, a descrição e os desenhos não necessariamente requerem a

Petição 870180017038, de 02/03/2018, pág. 10/63

5/50 ordem ilustrada. Ainda, será apreciado que certas ações e/ou etapas podem ser descritas em uma ordem em particular de ocorrência, enquanto aqueles versados na técnica entenderão que essa especificidade com respeito à seqüência não é realmente requerida. Os componentes de aparelho e método foram representados, onde apropriado, por símbolos convencionais nos desenhos, mostrando apenas aqueles detalhes específicos que são pertinentes para o entendimento das várias modalidades, de modo a não obscurecer a exposição com detalhes que serão prontamente evidentes para aqueles de conhecimento comum na técnica tendo o benefício da descrição aqui. Assim, será apreciado que, por simplicidade e clareza de ilustração, elementos comuns e bem entendidos que sejam úteis ou necessários em uma modalidade comercialmente praticável podem não ser descritos, de modo a se facilitar uma visão menos obscurecida destas várias modalidades.

DESCRIÇÃO DETALHADA [028] De modo a se dirigir à necessidade mencionada acima, um método e um aparelho para a geração de uma camada de melhoramento em um sistema de codificação de áudio são descritos aqui. Durante uma operação, um sinal de entrada a ser codificado é recebido e codificado para a produção de um sinal de áudio codificado. O sinal de áudio codificado então é escalonado com uma pluralidade de valores de ganho para a produção de uma pluralidade de sinais de áudio codificados escalonados, cada um tendo um valor de ganho associado e uma pluralidade de valores de erro é determinada existindo entre o sinal de entrada e cada um da pluralidade de sinais de áudio codificados escalonados. Um valor de ganho então é escolhido, que está associado a um sinal de áudio codificado

Petição 870180017038, de 02/03/2018, pág. 11/63

6/50 escalonado resultando em um valor de erro baixo existente entre o sinal de entrada e o sinal de áudio codificado escalonado. Finalmente, o valor de erro baixo é transmitido juntamente com o valor de ganho como parte de uma camada de melhoramento para o sinal de áudio codificado.

[029] Um sistema de compressão de fala / áudio embutido da técnica anterior é mostrado na FIG. 1. O sinal de áudio s (n) é primeiramente processado por um codificador de camada de núcleo 120, o qual, para estas finalidades pode ser um algoritmo de codificação de fala do tipo de CELP. O fluxo de bit codificado é transmitido para o canal 125, bem como é introduzido em um decodificador de camada de núcleo local

115, onde o sinal de áudio de núcleo reconstruído sc(n) é gerado. O codificador de camada de melhoramento 120 então é usado para a codificação de uma informação adicional com base em alguma comparação de sinais s(n) e sc(n) opcionalmente pode usar parâmetros partir do decodificador de camada de núcleo 115. Como no decodificador de camada de núcleo 115 decodificador de camada de núcleo

130 converte parâmetros de fluxo de bit de camada em um sinal de áudio de camada de núcleo de núcleo i (n) decodificador de camada de melhoramento 135 então usa o fluxo de bit de camada _ί s_c (n) sinal ^c para de melhoramento a partir a produção do sinal de do canal 125 e o saída de áudio melhorado ^s(n) .

[030] A vantagem primária desse sistema de codificação embutido é que um canal em particular 125 pode não ser capaz de suportar de forma consistente a exigência de largura de banda associada a algoritmos de codificação de áudio de alta qualidade. Um codificador embutido, contudo, permite que um

Petição 870180017038, de 02/03/2018, pág. 12/63

7/50 fluxo de bit parcial seja recebido (por exemplo, apenas o fluxo de bit de camada de núcleo) a partir do canal 125 para a produção, por exemplo, apenas do áudio de saída de núcleo, quando o fluxo de bit de camada de melhoramento for perdido ou corrompido. Contudo, há transigências na qualidade entre objetivos de otimização de codificação embutida diferentes. Isto é, uma codificação de camada de melhoramento de qualidade mais alta pode ajudar na obtenção de um melhor equilíbrio entre as camadas de núcleo e de melhoramento, e também reduzir a taxa de dados geral para melhores características de transmissão (por exemplo, congestionamento reduzido), o que pode resultar em taxas de erro de pacote mais baixas para as camadas de melhoramento.

[031] Um exemplo mais detalhado de um codificador de camada de melhoramento da técnica anterior 120 é dado na FIG. 2. Aqui, o gerador de sinal de erro 210 é compreendido por um sinal de diferença ponderada que é transformado em um domínio de Transformada de Cosseno Discreta Modificada (MDCT) para processamento pelo codificador de sinal de erro 220. O sinal de erro E é dado por:

Ε = MDC^s - s)}, ₍₁₎ onde W é uma matriz de atribuição de peso perceptiva com base nos coeficientes de filtro A(z) de Predição Linear (LP) a partir do decodificador de camada de núcleo 115, S é um vetor (isto é, um quadro) de amostras a partir do sinal de áudio de entrada s (n), e Sc é o vetor correspondente de amostras a partir do decodificador de camada de núcleo 115. Um processo de MDCT de exemplo é descrito na Recomendação da

ITU-T G.729.1. O sinal de erro E então é processado pelo

Petição 870180017038, de 02/03/2018, pág. 13/63

8/50 codificador de sinal de erro 220 para a produção da palavra de código íe, a qual é subseqüentemente transmitida para o canal 125. Para este exemplo, é importante notar que o codificador de sinal de erro 120 é apresentado com apenas um sinal de erro E e extrai uma palavra de código associada íe. A razão para isto tornar-se-á evidente mais tarde.

[032] O decodificador de camada de melhoramento 135 então recebe o fluxo de bit codificado a partir do canal 125 e apropriadamente demultiplexa o fluxo de bit para a produção da palavra de código íe. O decodificador de sinal de erro

230 usa a palavra de código íe para a reconstrução do sinal de erro de camada de melhoramento E , o qual então é combinado de camada pelo combinador de sinal 240 com _d - 1 s_c (n) _f de núcleo ^c conforme se segue, o sinal para a de áudio produção do sinal de saída de áudio melhorado^s(n) :

s = s_c + \ν'\1Ι)(Γ|Ε} onde MDCT^-1 é a MDCT inversa (incluindo uma adição com superposição) , e W^-1 é a matriz de atribuição de peso perceptiva inversa.

[033] Um outro exemplo de um codificador de camada de melhoramento é mostrado na FIG. 3. Aqui, a geração do sinal de erro E pelo gerador de sinal de erro 315 envolve um préescalonamento adaptativo, no qual alguma modificação na saída de áudio de camada de núcleo sc(n) é realizada. Este processo resulta em algum número de bits a serem gerados, os quais são mostrados no codificador de camada de melhoramento 120 como a palavra de código ís.

[034] Adicionalmente, o codificador de camada de melhoramento 120 mostra o sinal de áudio de entrada s(n) e

Petição 870180017038, de 02/03/2018, pág. 14/63

9/50 saída de áudio de camada de núcleo transformado Sc sendo introduzido no codificador de sinal de erro 320. Estes sinais são usados para a construção de um modelo psicoacústico para uma codificação melhorada do sinal de erro de camada de melhoramento E. As palavras de código is e íe então são multiplexadas pelo MUX 325, e então enviadas para o canal

125 para uma decodificação subseqüente pelo decodificador de camada de melhoramento 135. O fluxo de recebido pelo demux 335, o qual separa o bit codificado é fluxo de bit nos componentes is e íe. A palavra de código íe então é usada pelo decodificador de sinal de erro 340 para a reconstrução do sinal de erro de camada de melhoramento ^Εs (n) de sinal 345 escalona o sinal ^{cV 7} de alguma . O combinador maneira usando bits de escalonamento is, e então combina o resultado com o sinal de erro de camada de melhoramento ^Ε para a produção do sinal de saída de áudio melhorado ^s(n) .

[035]

Uma primeira modalidade da presente invenção é dada na FIG. 4. Esta figura mostra o de melhoramento 410 recebendo o sinal codificador de camada de saída de camada de núcleo sc(n) pela unidade de escalonamento 415. Um conjunto predeterminado de ganhos {g} é usado para a produção de uma pluralidade de sinais de saída de camada de núcleo escalonados {S}, onde gj e Sj são os j-ésimos candidatos dos respectivos conjuntos. Na unidade de escalonamento 415, a primeira modalidade processa o sinal Sc(n) no domínio de (MDCT) como:

S, = G X MDC^Ws_c}; 0 < j <M (3) onde W pode ser alguma matriz de atribuição de peso perceptiva, Sc é um vetor de amostras a partir do

Petição 870180017038, de 02/03/2018, pág. 15/63

10/50 decodificador de camada de núcleo 115, a MDCT é uma operação bem conhecida na técnica, e Gj pode ser uma matriz de ganho formada pela utilização de candidato a vetor de ganho gj, e onde M é o número de candidatos a vetor de ganho. Na primeira modalidade, Gj usa o vetor gj como a diagonal e zeros em qualquer outro lugar (isto é, uma matriz diagonal), embora existam muitas possibilidades. Por exemplo, Gj pode ser uma matriz de banda ou pode mesmo ser uma quantidade escalar simples multiplicada pela matriz identidade I. Alternativamente, pode haver alguma vantagem em deixar o sinal Sj no domínio de tempo ou pode haver casos em que é vantajoso transformar o áudio em um domínio diferente, tal como um domínio de transformada discreta de Fourier (DFT). Muitas dessas transformadas são bem conhecidas na técnica. Nestes casos, a unidade de escalonamento pode extrair o Sj apropriado, com base no respectivo domínio de vetor.

[036] Mas, em qualquer caso, a razão primária para o escalonamento do áudio de saída de camada de núcleo é compensar uma não combinação de modelo (ou alguma outra deficiência de codificação) que pode causar diferenças significativas entre o sinal de entrada e o codificador decodificador de camada de núcleo. Por exemplo, se o sinal de áudio de entrada for primariamente um sinal de música e o codificador - decodificador de camada de núcleo for com base em um modelo de fala, então, a saída de camada de núcleo pode conter características de sinal severamente distorcidas, em cujo caso, é benéfico de uma perspectiva de qualidade de som se reduzir seletivamente a energia desta componente de sinal, antes da aplicação de uma codificação suplementar do sinal por meio de uma ou mais camadas de

Petição 870180017038, de 02/03/2018, pág. 16/63

11/50 melhoramento .

[037] O vetor candidato de áudio de camada de núcleo de ganho escalonado Sj e o áudio de entrada s (n) então podem ser usados como uma entrada para o gerador de sinal de erro 420. Em uma modalidade de exemplo, o sinal de áudio de entrada s(n) é convertido no vetor S de modo que S e Sj sejam alinhados de forma correspondente. Isto é, o vetor S representando s(n) é alinhado no tempo (fase) com sc, e as operações correspondentes podem ser aplicadas, de modo que nesta modalidade:

E, = MDCTfWs}-S,; 0<j<M [038] Esta expressão produz uma pluralidade de vetores de sinal de erro Ej que representam a diferença ponderada entre o áudio de entrada e o áudio de saída de camada de núcleo de ganho escalonado no domínio espectral de MDCT. Em outras modalidades em que domínios diferentes são considerados, a expressão acima pode ser modificada, com base no respectivo domínio de processamento.

[039] O seletor de ganho 425 então é usado para a avaliação da pluralidade de vetores de sinal de erro Ej, de acordo com a primeira modalidade da presente invenção, para a produção de um vetor de erro ótimo E*, um parâmetro de ganho ótimo g*, e subseqüentemente, um índice de ganho correspondente ig. O seletor de ganho 425 pode usar uma variedade de métodos para a determinação dos parâmetros ótimos, E* e g*, os quais podem envolver métodos de laço fechado (por exemplo, minimização de uma medida de distorção), métodos de laço aberto (por exemplo, classificação heurística, estimativa de performance de

Petição 870180017038, de 02/03/2018, pág. 17/63

12/50 modelo, etc.) ou uma combinação de ambos os métodos. Na modalidade de exemplo, uma medida de distorção com desvio pode ser usada, a qual é dada como a diferença de energia com desvio entre o vetor de sinal de áudio original S e o vetor de sinal reconstruído compósito:

j* = argminj β. S - (s_y +

0< j <M l

(5) onde ^Ej pode ser a estimativa quantificada do vetor de sinal de erro Ej, e pode ser um termo de desvio o qual é usado para suplementar a decisão de escolher o índice de erro de ganho ótimo de forma perceptiva j* . Um método de exemplo para quantificação de vetor de um vetor de sinal é dado no

Pedido de Patente U.S. N° de Série 11/531122, intitulado

APPARATUS AND METHOD FOR LOW COMPLEXITY COMBINATORIAL CODING

OF SIGNALS,

Reconhecendo embora muitos que outros métodos sejam possíveis. a equação (5) pode ser reescrita como:

(6) j* = argmiirj β. E.

0< j <M l

- ^E j

	^ει = Nesta expressão, o termo	^E - ^E j	2
[040]	representa a
energia	da diferença entre os sinais	de erro não

quantificados e quantificados. Por clareza, esta quantidade pode ser referida como a “energia residual”, e pode ser usada, ainda, para a avaliação de um “critério de seleção de ganho”, em que o parâmetro de ganho ótimo g* é selecionado. Um critério de seleção de ganho como esse é dado na equação (6), embora muitos sejam possíveis.

[041] A necessidade de um termo de desvio 3j pode surgir

Petição 870180017038, de 02/03/2018, pág. 18/63

13/50 do caso em que a função de atribuição de peso de erro W nas equações (3) e (4) não pode produzir adequadamente distorções

E.

perceptíveis igualmente através do vetor ^J . Por exemplo, embora a função de atribuição de peso de erro W possa ser usada para se tentar branquear o espectro de erro até algum grau, pode haver certas vantagens em colocar mais peso nas freqüências mais baixas, devido à percepção de distorção pelo ouvido humano. Como resultado da atribuição de peso de erro aumentada nas freqüências baixas, os sinais de freqüência alta podem ser submodelados pela camada de melhoramento. Nestes casos, pode haver um benefício direto da orientação da medida de distorção em direção a valores de gj do que não atenuar as componentes de freqüência alta de Sj, de modo que uma submodelagem de freqüências altas não resulte em artefatos de som objetáveis ou não naturais no sinal de áudio reconstruído final. Um exemplo disso seria o caso de um sinal de fala sem voz. Neste caso, o áudio de entrada geralmente é constituído por sinais tipo de ruído de freqüência média a alta produzidos a partir de um fluxo turbulento de ar a partir da boca humana. Pode ocorrer de o codificador de camada de núcleo não codificar este tipo de forma de onda diretamente, mas pode usar um modelo de ruído para gerar um sinal de áudio soando similar. Isto pode resultar em uma correlação geralmente baixa entre o áudio de entrada e os sinais de áudio de saída de camada de núcleo. Contudo, nesta modalidade, o Ej é com base em uma diferença entre o áudio de entrada e os sinais de saída de áudio de camada de núcleo. Uma vez que estes sinais podem não ser correlacionados muito bem, a energia do sinal de erro Ej pode não necessariamente ser mais baixa do que o áudio de entrada

Petição 870180017038, de 02/03/2018, pág. 19/63

14/50 ou o áudio de saída de camada de núcleo. Nesse caso, uma minimização do erro na equação (6) pode resultar em um escalonamento de ganho ser agressivo demais, o que pode resultar em potenciais artefatos audíveis.

[042] Em um outro caso, os fatores de desvio podem ser com base em outras características de sinal do áudio de entrada e/ou dos sinais de áudio de saída de camada de núcleo. Por exemplo, a relação de pico para média do espectro de um sinal pode proporcionar uma indicação do conteúdo harmônico daquele sinal. Os sinais, tais como de fala e certos tipos de música, podem ter um conteúdo harmônico alto e, assim, uma relação de pico para média alta. Contudo, um sinal de música processado através de um codificador decodificador de fala pode resultar em uma qualidade ruim, devido a não combinação de modelo de codificação e, como resultado, o espectro de sinal de saída de camada de núcleo pode ter uma relação de pico para média reduzida, quando comparado com o espectro de sinal de entrada. Neste caso, pode ser benéfico reduzir a quantidade de desvio no processo de minimização, de modo a se permitir que o áudio de saída de camada de núcleo tenha o ganho escalonado para uma energia mais baixa, desse modo se permitindo que a codificação de camada de melhoramento tenha um efeito mais pronunciado no áudio de saída compósito. Inversamente, certos tipos de sinais de entrada de fala ou de música podem exibir relações de pico para média mais baixas, em cujo caso, os sinais podem ser percebidos como sendo mais ruidosos e, portanto, podem se beneficiar de menos escalonamento no áudio de saída de camada de núcleo pelo aumento do desvio de erro. Um exemplo de uma função para gerar os fatores de desvio para 3j, é dado

Petição 870180017038, de 02/03/2018, pág. 20/63

15/50 por :

UVSpeech = VERDADEIROou φ* < λφ^ caso contrário onde λ pode ser algum limite, e a relação de pico para média para o vetor φ_γ pode ser dada como:

max {|y_vJ } y

onde é um subconjunto de vetor de y(k) de modo que y^₂=X£);M^£₂.

[043] Uma vez que o índice de ganho ótimo j* seja determinado a partir da equação (6), a palavra de código associada í_g é gerada e o vetor de erro ótimo E* é enviado para o codificador de sinal de erro 430, onde E* é codificado em uma forma que é adequada para multiplexação com outras palavras de código (pelo MUX 440) e transmitido para uso por um decodificador correspondente. Em uma modalidade de exemplo, o codificador de sinal de erro 408 usa uma Codificação de Pulso Fatorial (FPC). Este método é vantajoso de um ponto de vista de complexidade de processamento, uma vez que o processo de enumeração associado à codificação do vetor E* é independente do processo de geração de vetor que

Ê.

e usado para a geração de ¹.

[044] O decodificador de camada de melhoramento 450 reverte estes processos para a produção da saída de áudio melhorada . Mais especificamente, í_g e íe são recebidos

Petição 870180017038, de 02/03/2018, pág. 21/63

16/50 pelo decodificador 450, com íe sendo enviado pelo demux 455 para o decodificador de sinal de erro 460 onde o vetor de erro ótimo E* é derivado a partir da palavra de código. O vetor de erro ótimo E* é passado para o s (n)

465 onde o ^{cV 7} recebido é modificado combinador de sinal como na equação (2) para a produção de ^s(n) .

[045] Uma segunda modalidade da presente invenção envolve um sistema de codificação embutido de camada múltipla, conforme mostrado na FIG. 5.

Aqui, pode ser visto que há cinco camadas embutidas dadas para este exemplo. As camadas 1 e 2 podem ser ambas baseadas em codificador decodificador de fala, e as camadas 3, 4, e 5 podem ser camadas de melhoramento de MDCT. Assim, os codificadores 502 e 503 podem utilizar codificadores - decodificadores de fala para a produção e a extração do sinal de entrada codificado s (n) . Os codificadores 510, 610, e 514 compreendem codificadores de camada de melhoramento, cada um extraindo um melhoramento diferente para o sinal codificado. De modo similar à modalidade prévia, o vetor de sinal de erro para a camada 3 (codificador 510) pode ser dado como:

^E3 ^=S-^S2 , (9) onde ^{S = MDCT} {Ws} é o sinal de entrada transformado ponderado, e ^S ₂ = MDCT ^{{Ws 2}} é o sinal transformado ponderado gerado a partir do codificador de camada 1/2 506. Nesta modalidade, a camada 3 pode ser uma camada de quantificação de taxa baixa e, como tal, pode haver relativamente poucos bits para a codificação do sinal de erro

E = e{E₃!

De modo a se prover quantificado correspondente uma boa qualidade sob estas

Petição 870180017038, de 02/03/2018, pág. 22/63

17/50 restrições, apenas uma fração dos coeficientes em E3 pode ser quantificada. As posições dos coeficientes a serem codificados podem ser fixas ou podem ser variáveis, mas, caso se permita que variem, pode ser requerido enviar uma informação adicional para o decodificador para a identificação destas posições. Se por exemplo faixa de posições codificadas < k_s < k_e < N ^{s e} , então, o começar em ks vetor de sinal de ke, onde

Ê erro quantificado ³ terminar em poderá conter valores não nulos apenas naquela faixa e zeros para posições fora da faixa. A posição e a informação de faixa podem ser implícitas, dependendo do método de codificação usado. Por exemplo, é bem sabido na codificação de áudio que uma banda de freqüências pode ser julgada importante de forma perceptiva, e que uma codificação de um vetor de sinal pode se concentrar naquelas freqüências. Nestas circunstâncias, a faixa codificada pode ser variável, e pode não cobrir um conjunto contíguo de freqüências. Mas, em qualquer taxa, uma vez que o sinal seja quantificado, o espectro de saída codificado compósito pode ser construído como:

^S3 ^Ê3 + ^S2, (10)

o qual, então,	é usado como	uma entrada	para	o	codificador
de camada 4 610	.
[046] O codificador de	camada 4	610	é	similar ao
codificador de	camada de melhoramento	410	da	modalidade
prévia. Usando	o candidato a	vetor de ganho	gj,	o vetor de

erro correspondente pode ser descrito como:

Ê₄( j) = S - G ,S₃ ^{j 3}, (11)

Petição 870180017038, de 02/03/2018, pág. 23/63

18/50 onde Gj pode ser a matriz de ganho com o vetor gj como a componente de diagonal. Na modalidade atual, contudo, o vetor de ganho gj pode estar relacionado ao vetor de sinal de erro

Ê quantificado ³ da maneira a seguir. Uma vez que o vetor de

Ê sinal de erro quantificado ³ pode ser limitado na faixa de freqüência, por exemplo, começando em uma posição de vetor k_s e terminando na posição de vetor k_e, o sinal de saída de camada 3 S3 é presumido como sendo codificado de forma razoavelmente acurada naquela faixa. Portanto, de acordo com a presente invenção, o vetor de ganho gj é ajustado com base nas posições codificadas do vetor de sinal de erro de camada 3, k_s e ke. Mais especificamente, de modo a se preservar a integridade de sinal naquelas localizações, os elementos de ganho individuais correspondentes podem ser regulados para um valor constante a. Isto é:

k_s<k< k_e caso contrário (12) onde geralmente ^J e g; (k) é o ganho da k-ésima posição do j-ésimo vetor candidato. Em uma modalidade de exemplo, o valor da constante é um (a = 1), embora muitos valores sejam possíveis. Além disso, a faixa de freqüência pode cobrir múltiplas posições de começo e de término. Isto é, a equação (12) pode ser segmentada em faixas contínuas de ganhos variáveis que são baseados em alguma função do sinal

Ê de erro ³, e pode ser escrita mais geralmente como:

gj(k) =

Ê₃(k)*0 f

caso contrário (13) [047] Para este exemplo, um ganho fixo oc é usado para a

Petição 870180017038, de 02/03/2018, pág. 24/63

19/50 geração de gj (k) quando as posições correspondentes no sinal

Ê de erro previamente quantificado ³ forem não nulas, e uma /,(£) função de ganho ^J e usada, quando as posições

Ê correspondentes em ³ forem zero. Uma função de ganho possível pode ser definida como:

Γ_ο·10⁽ ·^{Μ 201};

·<

a;

<k< k_h caso contrário (14) onde Δ é um tamanho de incremento (por exemplo, Δ « 2,2 dB), oc é uma constante, M é o número de candidatos (por exemplo, M = 4, os quais podem ser representados usando-se apenas 2 bits), e ki e kh são os cortes de freqüência baixa e alta, respectivamente, pelos quais a redução de ganho pode ocorrer. A introdução dos parâmetros ki e kh é útil em sistemas em que um escalonamento é desejado apenas por uma certa faixa de freqüência. Por exemplo, em uma dada modalidade, as freqüências altas podem não ser adequadamente modeladas pela camada de núcleo, assim, a energia no interior da banda de freqüência alta podendo ser inerentemente mais baixa do que no sinal de áudio de entrada. Nesse caso, pode haver pouco ou nenhum benefício no escalonamento da saída de camada 3 naquele sinal de região, uma vez que a energia de erro geral pode aumentar, como resultado.

[048] Resumindo, a pluralidade de candidatos a vetor de ganho gj é baseada em alguma função dos elementos codificados

Ê de um vetor de sinal codificado previamente, neste caso, ³. Isto pode ser expresso em termos gerais como:

g#)=/(M₃). ₍₁₅₎ [049] As operações correspondentes de decodificador são

Petição 870180017038, de 02/03/2018, pág. 25/63

20/50 mostradas no lado direito da FIG. 5. Conforme as várias camadas de fluxos de bit codificados (ii a 15) são recebidas, os sinais de saída de qualidade mais alta são construídos na hierarquia de camadas de melhoramento pelo decodificador de camada de núcleo (camada 1). Isto é, para esta modalidade em particular, como as duas primeiras camadas são compreendidas pela codificação de modelo de fala de domínio de tempo (por exemplo, MDCT) , a saída final para o sistema ^s(n) é gerada de acordo com o seguinte:

^si⁽ⁿ⁾;

^S(n) = s₂ ⁽n) = ^s(n) + ê₂ ⁽ⁿ⁾;

1 í ^Λ '''l . S₃(n) = W ¹ MDCT¹{S₂ + E₃ J;

S₄(n) = W ¹ MDCT ¹ {G} · (S2 + E31+ E4 J; S5(n) = W ¹ MDCT ¹ {gy · (S₂ + E₃)+ E₄ + E₅ J;

(16) é o sinal de camada de melhoramento de domínio de camada 2, e ^S2 = ^MDcTWs2^J é o vetor de MDCT correspondente à saída d áudio de camada 2 ^S2⁽ⁿ) .

onde ^e2⁽ⁿ) tempo de ponderado

Nesta expressão, o sinal de saída geral ^s(n) pode ser determinado a partir do nível mais alto de camadas de fluxo de bit consecutivas que são recebidas. Nesta modalidade, é assumido que as camadas de nível mais baixo tenham uma probabilidade mais alta de serem apropriadamente recebidas a partir do canal; portanto, os conjuntos de palavra de código {ii}, {ii i2}, {ii Í2 is}, etc., determinam o nível apropriado de decodificação da camada de melhoramento na equação (16).

[050] A FIG. 6 é um diagrama de blocos que mostra o codificador de camada 4 610 e o decodificador 650. O codificador e o decodificador mostrados na FIG. 6 são

Petição 870180017038, de 02/03/2018, pág. 26/63

21/50 similares àqueles mostrados na FIG. 4, exceto pelo fato de o valor de ganho usado pelas unidades de escalonamento 615 e 670 ser derivado através dos geradores de ganho seletivo de freqüência 630 e 660, respectivamente. Durante uma operação, a saída de áudio de camada 3 S3 é extraída para o codificador de camada 3 e recebida pela unidade de escalonamento 615. Adicionalmente, o vetor de erro de camada

Ê ³ é extraído a partir do codificador de camada 3 510 e recebido pelo gerador de ganho seletivo de freqüência 630.

Conforme discutido,

Ê quantificado ³ pode uma ser vetor de ganho gj é posições ks e expressão mais [051] vez que o vetor de sinal de erro limitado na faixa de freqüência, o ajustado, com base, por exemplo, ke conforme mostrado na equação 12, ou geral na equação 13.

O áudio escalonado Sj é extraído a partir nas na da unidade de escalonamento 615 e recebido pelo gerador de sinal de erro 620. Conforme discutido acima, o gerador de sinal de erro 620 recebe o sinal de áudio de entrada S e determina um valor de erro Ej para cada vetor de escalonamento utilizado pela unidade de escalonamento 615. Estes vetores são passados para o circuito de seletor de ganho 635 juntamente com os valores de ganho usados na determinação dos vetores de erro e, em particular, do erro E*, com base no valor de ganho ótimo g*. Uma palavra de código (íg) representando o ganho ótimo g* é extraída a partir do seletor de ganho 635, juntamente com o vetor de erro ótimo E*, é passada para o codificador de sinal de erro 640 onde a palavra de código íe é determinada e extraída. Ambas íg e íe são extraídas para o multiplexador 645 e transmitidas através do canal 125 para o decodificador de camada 4 650.

Petição 870180017038, de 02/03/2018, pág. 27/63

22/50 [052] Durante uma operação do decodificador de camada 4 650, ig e íe são recebidas a partir do canal 125 e demultiplexadas pelo demux 655. A palavra de código de ganho

Ê ig e o vetor de erro de camada 3 ³ são usados como entradas para o gerador de ganho seletivo de freqüência 660 para a produção do vetor de ganho g* de acordo com o método correspondente de decodificador 610. O vetor de ganho g* então é aplicado ao vetor de áudio reconstruído de camada 3

S ³ na unidade de escalonamento 670, cuja saída então é combinada no combinador de sinal 675 com o vetor de erro de camada de melhoramento de camada 4 E*, o qual foi obtido a partir do decodificador de sinal de erro 655 através da decodificação da palavra de código íe, para a produção da

S saída de áudio reconstruída de camada 4 ⁴ conforme mostrado.

[053] A FIG. 7 é um fluxograma 700 que mostra a operação de um codificador de acordo com as primeiras e segundas modalidades da presente invenção. Conforme discutido acima, ambas as modalidades utilizam uma camada de melhoramento que escalona o áudio codificado com uma pluralidade de valores de escalonamento e, então, escolhe o valor de escalonamento resultando em um erro mais baixo. Contudo, na segunda modalidade da presente invenção, o gerador de ganho seletivo de freqüência 630 é utilizado para a geração de valores de ganho.

[054] O fluxo lógico começa no Bloco 710 onde um codificador de camada de núcleo recebe um sinal de entrada a ser codificado e codifica o sinal de entrada para a produção de um sinal de áudio codificado. O codificador de camada de melhoramento 410 recebe o sinal de áudio codificado (sc(n)) e a unidade de escalonamento 415 escalona o sinal de

Petição 870180017038, de 02/03/2018, pág. 28/63

23/50 áudio codificado com uma pluralidade de valores de ganho para a produção de uma pluralidade de sinais de áudio codificados escalonados, cada um tendo um valor de ganho associado. (Bloco 720). No Bloco 730, o gerador de sinal de erro 420 determina uma pluralidade de valores de erro entre o sinal de entrada e cada um da pluralidade de valores de ganho (Bloco 740). Conforme discutido acima, o valor de ganho (g*) está associado a um sinal de áudio codificado escalonado resultando em um valor de erro baixo (E*) existente entre o sinal de entrada e o sinal de áudio codificado escalonado. Finalmente, no Bloco 750, o transmissor 440 transmite o valor de erro baixo (E*) juntamente com o valor de ganho (g*) como uma parte de uma camada de melhoramento para o sinal de áudio codificado. Como alguém de conhecimento comum na técnica reconhecerá, ambos E* e g* são apropriadamente codificados, antes de uma transmissão.

[055] Conforme discutido acima, no lado de receptor, o sinal de áudio codificado será recebido juntamente com a camada de melhoramento. A camada de melhoramento é um melhoramento para o sinal de áudio codificado que compreende o valor de ganho (g*) e o sinal de erro (E*) associados ao valor de ganho.

Escalonamento de camada de núcleo para Estéreo [056] Na descrição acima, um sistema de codificação embutido foi descrito, no qual cada uma das camadas estava codificando um sinal mono. Agora, há um sistema de codificação embutido para codificação de sinais estéreos ou de canal múltiplo. Por brevidade, a tecnologia no contexto de um sinal estéreo consistindo em duas entradas de áudio (fonte) é descrita; contudo, as modalidades de exemplo

Petição 870180017038, de 02/03/2018, pág. 29/63

24/50 descritas aqui podem ser facilmente estendidas para casos em que o sinal estéreo tinha mais de duas entradas de áudio, como é o caso em entradas de áudio de canal múltiplo. Para fins de ilustração e não de limitação, as duas entradas de áudio são sinais estéreos consistindo no sinal esquerdo (sl) e no sinal direito (sr), onde sl e sr são vetores coluna ndimensionais representando um quadro de dados de áudio. De novo, por brevidade, um sistema codificação embutido consistindo em duas camadas, especificamente, uma camada de núcleo e uma camada de melhoramento será discutido em detalhes. A idéia proposta pode ser facilmente estendida para um sistema de codificação embutido de camada múltipla. Também, o codificador - decodificador pode não ser embutido por si, isto é, ele pode ter apenas uma camada, com alguns dos bits daquele codificador - decodificador sendo dedicados para estéreo e o restante dos bits para um sinal mono.

[057] Um codificador - decodificador estéreo embutido consistindo em uma camada de núcleo que simplesmente codifica um sinal mono e camadas de melhoramento que codificam os sinais de freqüência mais alta ou estéreos é conhecido. Nesse cenário limitado, a camada de núcleo codifica um sinal(is) mono(s), obtido(s) a partir da combinação de sl e sr, para a produção de um sinal mono codificado s. Seja H uma matriz de combinação 2x1 usada para a geração de um sinal mono, isto é, s = (s_L s„ )H ^R (17) [058] É notado que, na equação (17), sr pode ser uma versão atrasada do sinal de áudio direito, ao invés de apenas o sinal de canal direito. Por exemplo, o atraso pode ser

Petição 870180017038, de 02/03/2018, pág. 30/63

25/50 calculado para a maximização da correlação de sl e da versão atrasada de sr. Se a matriz H for [0,5 0,5]^T, então, a equação 17 resultará em uma atribuição de peso igual dos respectivos canais direito e esquerdo, isto é, ^{s =} °-^5si ⁺ °-^5Sr . As modalidades apresentadas aqui não estão limitadas à codificação de camada de núcleo do sinal modo e à codificação de camada de melhoramento do sinal estéreo. A camada de núcleo do codificador - decodificador embutido assim como a camada de melhoramento podem codificar sinais de áudio de canal múltiplo. O número de canais no sinal de áudio de canal múltiplo, os quais são codificados pelo canal múltiplo de camada de núcleo pode ser menor do que o número de canais no sinal de áudio de canal múltiplo o qual pode ser codificado pela camada de melhoramento. Sejam (m, n) os números de canais a serem codificados pela camada de núcleo e pela camada de melhoramento, respectivamente. Sejam si, s2, sa, ..., s_n uma representação de n canais de áudio a serem codificados pelo sistema embutido. Os m canais a serem codificados pela camada de núcleo são derivados a partir destes e são obtidos como ^{[s1 s}2 ... s^m ] = [^si ^s2 ... s_n ] H _(17a)

onde H é	uma	matriz	nxm.
[059]	Conforme	mencionado antes, a camada	de núcleo
codifica	um	sinal	mono s para a produção de	um sinal

codificado de camada de núcleo s. De modo a se gerarem estimativas das componentes estéreos de s, um fator de equilíbrio é calculado. Este fator de equilíbrio é computado como:

Petição 870180017038, de 02/03/2018, pág. 31/63

26/50 s^s ^WL = 4, W _sT_s τ

s_Rs > = -ΑR T _sT_s (18) [060] Pode ser mostrado que, se a matriz de combinação

H for [0,5 0,5] ^T, então, = ² - ^WR (19) [061] Note que a relação permite uma quantificação de apenas um parâmetro, e o outro pode ser facilmente extraído a partir do primeiro. As saídas em estéreo agora são calculadas como:

^sl = ^wl ^s> s_R = ^wr s (20) [062] Na seção subseqüente, estaremos trabalhando no domínio de freqüência, ao invés de no domínio de tempo. Assim, um sinal correspondente no domínio de freqüência é representado em letras maiúsculas, isto é, S, S, Sl, Sr, Sl, e Sr são a representação no domínio de freqüência de s, s, sl, sr, sl, e sr, respectivamente. O fator de equilíbrio no domínio de freqüência é calculado usando-se termos no domínio de freqüência, e é dado por:

(21) (22) freqüência, os vetores podem ser em subvetores não de superposição, isto é, um vetor S de dimensão n pode ser dividido em t subvetores, S1, S, St, de dimensões mi, m2,... mt, de modo que:

Wl=sts, ^L s^ts e

Sl = Wl S [063] No

Wr = sRs ^R s^ts

Sr = Wr S domínio de adicionalmente divididos

Petição 870180017038, de 02/03/2018, pág. 32/63

27/50 t

Σ ^mk = ^{n k}=¹ . (23) [064] Neste caso, um fator de equilíbrio diferente pode ser computado para diferentes subvetores, isto é,

W_Lk =

Sk S k S[Sk ’

W_Rk = s£k S k

Sk S k (24) [065] O fator de equilíbrio neste caso é independente da consideração de ganho.

[066] Agora, com referência às FIG. 8 e 9, desenhos da técnica anterior relevantes para sinais estéreos e outros de canal múltiplo são demonstrados. O sistema de compressão de fala / áudio embutido da técnica anterior 800 da FIG. 8 é similar à FIG. 1, mas tem múltiplos sinais de entrada de áudio, neste exemplo mostrados como os sinais de entrada estéreos esquerdo e direito S(n). Estes sinais de áudio de entrada são alimentados para um combinador 810, o qual produz um áudio de entrada s(n), conforme mostrado. Os múltiplos sinais de entrada também são providos para o codificador de camada de melhoramento 820, conforme mostrado. No lado de decodificação, o decodificador de camada de melhoramento 830 produz sinais de saída melhorados ^sl ^s r , conforme mostrado.

[067] A FIG. 9 ilustra um codificador de camada de melhoramento anterior 900, conforme poderia ser usado na FIG. 8. As múltiplas entradas de áudio são providas para um gerador de fator de equilíbrio, juntamente com o sinal de áudio de camada de núcleo, conforme mostrado. O gerador de fator de equilíbrio 920 do codificador de camada de melhoramento 910 recebe as múltiplas entradas de áudio para a produção de um sinal íb, o qual é passado adiante para o MUX 325, conforme mostrado. O sinal íb é uma representação

Petição 870180017038, de 02/03/2018, pág. 33/63

28/50 do fator de equilíbrio. Na modalidade preferida, íb é uma seqüência de bit que representa os fatores de equilíbrio. No lado de decodificador, este sinal íb é recebido pelo decodificador de fator de equilíbrio 940, o qual produz os elementos de fator de equilíbrio WL(n) e Wn(n), conforme mostrado, os quais são recebidos pelo combinador de sinal 950, conforme mostrado.

Computação de Fator de Equilíbrio de Canal Múltiplo [068] Conforme mencionado anteriormente, em muitas situações o codificador - decodificador usado para a codificação do sinal mono é projetado para uma fala de canal único, e resulta em um ruído de modelo de codificação, sempre que for usado para a codificação de sinais os quais não são plenamente suportados pelo modelo de codificador decodificador. Sinais de música e outros sinais similares não de fala são alguns dos sinais os quais não são apropriadamente modelados por um codificador - decodificador de camada de núcleo que é baseado em um modelo de fala. A descrição acima, com respeito às FIG. 1 a 7, propôs a aplicação de um ganho seletivo de freqüência ao sinal codificado pela camada de núcleo. O escalonamento foi otimizado para a minimização de uma distorção em particular (valor de erro) entre a entrada de áudio e o sinal codificado escalonado. A abordagem descrita acima funciona bem para sinais de canal único, mas pode não ser ótima para a aplicação do escalonamento de camada de núcleo, quando a camada de melhoramento estiver codificando os sinais estéreos ou outros de canal múltiplo.

[069] Uma vez que a componente mono do sinal de canal múltiplo, tal como o sinal estéreo, é obtida a partir da

Petição 870180017038, de 02/03/2018, pág. 34/63

29/50 combinação de duas ou mais entradas de áudio estéreo, o sinal combinado s também pode não se conformar ao modelo de fala de canal único; daí, o codificador - decodificador de camada de núcleo pode produzir ruído, quando da codificação do sinal combinado. Assim, há uma necessidade de uma abordagem que permita o escalonamento do sinal codificado de camada de núcleo em um sistema de codificação embutido, desse modo se reduzindo o ruído gerado pela camada de núcleo. Na abordagem de sinal mono descrita acima, uma medida de distorção em particular, na qual um escalonamento seletivo de freqüência foi obtido, era com base no sinal de erro no sinal mono. Este erro ^E4(^j) é mostrado na equação (11) acima. A distorção apenas do sinal mono, contudo, não é suficiente para a melhoria da qualidade do sistema de comunicação estéreo. O escalonamento contido na equação (11) pode ser por um fator de escalonamento de unidade (1) ou qualquer outra função identificada.

[070] Para um sinal estéreo, uma medida de distorção deve capturar

Sejam El a distorção para ambos os canais direito e esquerdo.

e Er o vetor de erro para os canais esquerdo e direito

E, respectivamente, e sendo dados por: 'L = ^SL ^-SL, ^ER = ^SR ^-SR (25) [071] Na técnica anterior, conforme descrito na norma

AMR-WB+, por exemplo, estes vetores de erro são calculados como:

El = Sl-Wl ·S, Er = Sr-Wr ·S (26) [072] Agora, consideramos o caso em que vetores de ganho seletivo de freqüência gj (0 < j < M) são aplicados a S. Este vetor de ganho seletivo de freqüência é representado na forma de matriz como Gj, onde Gj é uma matriz diagonal com elementos

Petição 870180017038, de 02/03/2018, pág. 35/63

30/50 diagonais gj. Para cada vetor Gj, os vetores de erro são calculados como:

El(j) = Sl-W_l ·G₇ ·S, Er(j) = Sr -W_R ·G₇ ·S (27) com as

W · G _j · S estimativas dos sinais estéreos dadas pelos termos matriz . Pode ser visto que a matriz de ganho G pode unitária (1) ou pode ser qualquer outra ser uma matriz diagonal; é reconhecido que nem toda estimativa possível pode rodar para todo sinal escalonado.

[073] A medida de distorção ε, a qual é minimizada para melhoria da qualidade de estéreo é uma função de dois vetores de erro, isto é, ε, Wi) (28)

Pode ser visto que o valor de distorção pode ser compreendido por múltiplas medidas de distorção.

[074] O índice j do vetor de ganho seletivo de freqüência que é selecionado é dado por:

j = arg min ε j 0<j<M(29)

Em uma modalidade de exemplo, a medida de distorção é uma distorção média ao quadrado dada por:

r = |E l (j )||² + | E r (j )||²(30)

Ou pode ser uma distorção ponderada ou desviada dada por:

ε, = blI E l (j¹ + brI E r (j''(31) [075] Os desvios Bl e Br podem ser uma função das energias de canal esquerdo e direito.

[076] Conforme mencionado anteriormente, no domínio de freqüência, os vetores podem ser adicionalmente divididos em subvetores não de superposição. Para se estender a técnica

Petição 870180017038, de 02/03/2018, pág. 36/63

31/50 proposta para incluir a divisão do vetor de domínio de freqüência em subvetores, o fator de equilíbrio usado em (27) é computado para cada subvetor. Assim, os vetores de erro El e Er para cada um dos ganhos seletivos de freqüência são formados pela concatenação de subvetores de erro dados

ELk (j) = S Lk - W_Lk · G _Jk · S , ERk (j) = SRk

W_Rk · G _Jk · S (32)

A medida de distorção ε em (28) agora é uma função dos vetores de erro formados pela concatenação dos subvetores de erro acima.

Computação de Fator de Equilíbrio [077] O fator de equilíbrio gerado usando-se a técnica anterior (equação 21) é independente da saída da camada de núcleo. Contudo, de modo a se minimizar uma medida de distorção dada em (30) e (31), pode ser benéfico computar também o fator de equilíbrio para a minimização da distorção correspondente. Agora, os fatores de equilíbrio Wl e Wr podem ser computados como:

ST G j S (33) em que pode ser visto que o fator de equilíbrio é independente do ganho, conforme é mostrado no desenho da FIG. 11, por exemplo. Esta equação minimiza as distorções na equação (30) e (31). O problema do uso de um fator de equilíbrio como esse é que, agora:

Wl ( j) * 2 - Wr ( j) ' (34) daí, campos de bit separados podendo ser necessários para a

Petição 870180017038, de 02/03/2018, pág. 37/63

32/50 quantificação de Wl e Wr. Isto pode ser evitado pela colocação da restrição ^{Wl ej}) ^{= 2 - Wr ej}) na otimização. Com esta restrição, a solução ótima para a equação (30) é dada por:

w_L (/)=

2br

BR ⁺ BL e brSr - blSl )^t G/S ⁺---------- 2-----^Gs (35) em que o fator de equilíbrio é dependente de um termo de ganho, conforme mostrado; a FIG. 10 dos desenhos ilustra um fator de equilíbrio dependente. Se fatores de desvio Bl e Br forem unitários, então:

Wl ej) = 1<S, - Sr ) G/S

G^s

Wr (j) = 2 - Wl (j) (36)

S^tG S

Os termos ^j nas equações (33) e (36) são representativos de valores de correlação entre o sinal de áudio codificado escalonado e pelo menos um dos sinais de áudio de um sinal de áudio de canal múltiplo.

[078] Em uma codificação em estéreo, a direção e a localização de origem do som podem ser mais importantes do que a distorção média ao quadrado. A relação de energia de canal esquerdo e de energia de canal direito pode ser, portanto, um indicador melhor de direção (ou localização da origem do som), ao invés da minimização de uma medida de distorção ponderada. Nesses cenários, o fator de equilíbrio computado nas equações (35) e (36) pode não ser uma boa abordagem para o cálculo do fator de equilíbrio. A necessidade é mandar a relação de energia de canal esquerdo e de direito antes e após a codificação a mesma. A relação de energia de canal antes da codificação e após a codificação

Petição 870180017038, de 02/03/2018, pág. 38/63

33/50 é dada por: -> mu^{I 2 * *} _v_tí. P.j |s_sir, w²<411, (37) respectivamente. Ao se equacionarem estas duas relações de energia e usar a hipótese ^{Wl (j}) ^{= 2- Wr (j}), obtém-se:

ã/síSL

Wr = 2 - W_L (38) [079] que proporciona as componentes de componentes de fator de equilíbrio do fator de equilíbrio gerado. Note que o fator de equilíbrio calculado em (38) agora é independente de Gj, assim não sendo mais uma função de j, provendo um fator de equilíbrio autocorrelacionado que é independente da consideração de ganho; um fator de equilíbrio dependente é adicionalmente ilustrado na FIG. 10 dos desenhos. Usando este resultado com as equações 29 e 32, estende-se a seleção do índice de escalonamento de camada de núcleo ótimo j para incluir os segmentos de vetor concatenados k, de modo que:

(39)

I _____ /’ll λ ||2 η _Λ i|2 j = argmin ^{S * * * * *}l ^{- w}Lk '^G jk '^Sk ^{+ S}Rk ^{- W}Rk '^G jk '^Sk

0< j<M ( _k V ^{11 11 11} uma representação do valor de ganho ótimo. Este índice de valor de ganho ^j é transmitido como um sinal de saída do codificador de camada de melhoramento.

[080] Com resfriamento, agora, à FIG. 10, um diagrama de blocos 1000 de um codificador de camada de melhoramento e decodificador de camada de melhoramento de acordo com várias modalidades é ilustrado. Os sinais de áudio de entrada s(n) são recebidos pelo gerador de fator de equilíbrio 1050 de

Petição 870180017038, de 02/03/2018, pág. 39/63

34/50 codificador de camada de melhoramento 1010 e gerador de sinal de erro (sinal de distorção) 1030 do gerador de vetor de ganho 1020. O sinal de áudio codificado a partir da camada de núcleo ^S(n) é recebido pela unidade de escalonamento 1025 do gerador de vetor de ganho 1020, conforme mostrado. A unidade de escalonamento 1025 opera para o escalonamento do sinal de áudio codificado ^S(n) com uma pluralidade de valores de ganho para gerar um número de sinais de áudio codificados candidatos, onde pelo menos um dos sinais de áudio codificados candidatos é escalonado. Conforme mencionado previamente, um escalonamento por unidade ou qualquer outra função de identificação desejada pode ser empregado. A unidade de escalonamento 1025 extrai um áudio escalonado Sj, o qual é recebido pelo gerador de fator de equilíbrio 1030. A geração do fator de equilíbrio tendo uma pluralidade de componentes de fator de equilíbrio, cada uma associada a um sinal de áudio dos sinais de áudio de canal múltiplo recebidos pelo codificador de camada de melhoramento 1010, foi discutida acima em relação às Equações (18), (21), (24), e (33). Isto é realizado pelo gerador de fator de equilíbrio

1050 conforme mostrado, para a produção de componentes de fator de equilíbrio ^SL(n), ^SR(n), conforme mostrado. Conforme discutido em relação à equação (38), acima, o gerador de fator de equilíbrio 1030 ilustra o fator de equilíbrio como independente do ganho.

[081] O gerador de vetor de ganho 1020 é responsável pela determinação de um valor de ganho a ser aplicado ao sinal de áudio codificado para se gerar uma estimativa do sinal de áudio de canal múltiplo, conforme discutido nas equações (27), (28), e (29). Isto é realizado pela unidade de

Petição 870180017038, de 02/03/2018, pág. 40/63

35/50 escalonamento 1025 e pelo gerador de fator de equilíbrio 1050, os quais trabalham em conjunto para a geração da estimativa com base no fator de equilíbrio e pelo menos um sinal de áudio codificado escalonado. O valor de ganho é baseado no fator de equilíbrio e no sinal de áudio de canal múltiplo, onde o valor de ganho é configurado para a minimização de um valor de distorção entre o sinal de áudio de canal múltiplo e a estimativa do sinal de áudio de canal múltiplo. A equação (30) discute a geração de um valor de distorção como uma função da estimativa do sinal de entrada de canal múltiplo e do sinal de entrada real em si. Assim, as componentes do fator de equilíbrio são recebidas pelo gerador de sinal de erro 1030, em conjunto com os sinais de áudio de entrada s (n) , para a determinação de um valor de erro Ej para cada vetor de escalonamento utilizado pela unidade de escalonamento 1025. Estes vetores de erro são passados para o circuito de seletor de ganho 1035 juntamente com os valores de ganho usados na determinação dos vetores de erro e um erro em particular E*, com base no valor de ganho ótimo g*. O seletor de ganho 1035, então, é operativo para a avaliação do valor de distorção com base na estimativa do sinal de entrada de canal múltiplo e no sinal real em si, de modo a se determinar uma representação de um valor de ganho ótimo g* dos valores de ganho possíveis. Uma palavra de código (ig) representando o ganho ótimo g* é extraída a partir do seletor de ganho 1035 e recebida pelo multiplexador MUX 1040 conforme mostrado.

[082] Ambas ig e íb são extraídas para o multiplexador 1040 e transmitidas pelo transmissor 1045 para o decodificador de camada de melhoramento 1060 através do canal

Petição 870180017038, de 02/03/2018, pág. 41/63

36/50

125. A representação do valor de ganho ig é extraída para transmissão para o Canal 125, conforme mostrado, mas também pode ser armazenada, se desejado.

[083] No lado de decodificador, durante uma operação do decodificador de camada de melhoramento 1060, ig e íe são recebidas a partir do canal 125 e demultiplexadas pelo demux 1065. Assim, um decodificador de camada de melhoramento recebe um sinal de áudio codificado ^S(n), um fator de equilíbrio codificado íb e um valor de ganho codificado ig. O decodificador de vetor de ganho 1070 compreende um gerador de ganho seletivo de freqüência 1075 e a unidade de escalonamento 1080 conforme mostrado. O decodificador de vetor de ganho 1070 gera um valor de ganho decodificado a partir do valor de ganho codificado. O valor de ganho codificado ig é introduzido no gerador de ganho seletivo de freqüência 1075 para a produção de vetor de ganho g* de acordo com o método correspondente do codificador 1010. O vetor de ganho g* então é aplicado à unidade de escalonamento 1080, a qual escalona o sinal de áudio codificado ^S (n) com o valor de ganho decodificado g* para a geração do sinal de áudio escalonado. O combinador de sinal 1095 recebe os sinais de saída de fator de equilíbrio codificados do decodificador de fator de equilíbrio 1090 para o sinal de áudio escalonado Gj^S(n) para a geração e a extração de um sinal de áudio de canal múltiplo decodificado, mostrado como sinais de áudio de saída melhorados.

[084] O diagrama de blocos 1100 de um codificador de camada de melhoramento e decodificador de camada de melhoramento de exemplo em que, conforme discutido em relação à equação (33), acima, o gerador de fator de equilíbrio 1030

Petição 870180017038, de 02/03/2018, pág. 42/63

37/50 gera um fator de equilíbrio que é dependente do ganho. Isto é ilustrado pelo gerador de sinal de erro o qual gera o sinal Gj 1110.

[085] Com referência, agora, às FIG. 12 a 14, são apresentados fluxos os quais cobrem a metodologia das várias modalidades apresentadas aqui. No fluxo 1200 da FIG. 12, um método para a codificação de um sinal de áudio de canal múltiplo é apresentado. No Bloco 1210, um sinal de áudio de canal múltiplo tendo uma pluralidade de sinais de áudio é recebido. No Bloco 1220, o sinal de áudio de canal múltiplo é codificado para a geração de um sinal de áudio codificado. O sinal de áudio codificado pode ser um sinal de canal mono ou múltiplo, tal como um sinal estéreo, conforme ilustrado a título de exemplo nos desenhos. Mais ainda, o sinal de áudio codificado pode compreender uma pluralidade de canais. Pode haver mais de um canal na camada múltipla e o número de canais na camada de melhoramento pode ser maior do que o número de canais na camada de núcleo. Em seguida, no Bloco 1230, um fator de equilíbrio tendo componentes de fator de equilíbrio cada uma associada a um sinal de áudio do sinal de áudio de canal múltiplo é gerado. As equações (18), (21), (24) e (33) descrevem a geração do fator de equilíbrio. Cada componente de fator de equilíbrio pode ser dependente de outras componentes de fator de equilíbrio geradas, conforme é o caso na equação (38). A geração do fator de equilíbrio pode compreender a geração de um valor de correlação entre o sinal de áudio codificado escalonado e pelo menos um dos sinais de áudio do sinal de áudio de canal múltiplo, tal como nas equações (33) e (36). Uma autocorrelação entre pelo menos um dos sinais de áudio pode ser gerada, como na equação

Petição 870180017038, de 02/03/2018, pág. 43/63

38/50 (38), a partir do que uma raiz quadrada pode ser gerada. No Bloco 1240, um valor de ganho a ser aplicado ao sinal de áudio codificado para a geração de uma estimativa do sinal de áudio de canal múltiplo com base no fator de equilíbrio e no sinal de áudio de canal múltiplo é determinado. O valor de ganho é configurado para a minimização de um valor de distorção entre o sinal de áudio de canal múltiplo e a estimativa do sinal de áudio de canal múltiplo. As equações (27), (28), (29) e (30) descrevem a determinação do valor de ganho. Um valor de ganho pode ser escolhido a partir de uma pluralidade de valores de ganho para o escalonamento do sinal de áudio codificado e para a geração dos sinais de áudio codificados escalonados. O valor de distorção pode ser gerado com base nesta estimativa; o valor de ganho pode ser com base no valor de distorção. No Bloco 1250, uma representação do valor de ganho é extraída para transmissão e/ou armazenamento.

[086] O fluxo 1300 da FIG. 13 descreve uma outra metodologia para a codificação de um sinal de áudio de canal múltiplo, de acordo com várias modalidades. No Bloco 1310, um sinal de áudio de canal múltiplo tendo uma pluralidade de sinais de áudio é recebido. No Bloco 1320, o sinal de áudio de canal múltiplo é codificado para gerar um sinal de áudio codificado. Os processos dos Blocos 1310 e 1320 são realizados por um codificador de camada de núcleo, conforme descrito previamente. Conforme recitado previamente, o sinal de áudio codificado pode ser um sinal de canal mono ou múltiplo, tal como um sinal estéreo, conforme ilustrado a título de exemplo nos desenhos. Mais ainda, o sinal de áudio codificado pode compreender uma pluralidade de canais. Pode

Petição 870180017038, de 02/03/2018, pág. 44/63

39/50 haver mais de um canal na camada de núcleo e o número de canais na camada de melhoramento pode ser maior do que o número de canais na camada de núcleo.

[087] No Bloco 1330, o sinal de áudio codificado é escalonado com um número de valores de ganho para a geração de um número de sinais de áudio codificados candidatos, com pelo menos um dos sinais de áudio codificados candidatos sendo escalonado. O escalonamento é realizado pela unidade de escalonamento do gerador de vetor de ganho. Conforme discutido, um escalonamento do sinal de áudio codificado pode incluir o escalonamento com um valor de ganho de unidade. O valor de ganho da pluralidade de valores de ganho pode ser uma matriz de ganho com o vetor gj como a componente da diagonal, conforme descrito previamente. A matriz de ganho pode ser de freqüência seletiva. Ela pode ser dependente da saída da camada de núcleo, o sinal de áudio codificado ilustrado nos desenhos. Um valor de ganho pode ser escolhido a partir de uma pluralidade de valores de ganho para o escalonamento do sinal de áudio codificado e para a geração dos sinais de áudio codificados escalonados. No Bloco 1340, um fator de equilíbrio tendo cada uma das componentes de fator de equilíbrio associada a um sinal de áudio do sinal de áudio de canal múltiplo é gerado. A geração do fator de equilíbrio é realizada pelo gerador de fator de equilíbrio. Cada componente de fator de equilíbrio pode ser dependente das outras componentes de fator de equilíbrio geradas, conforme é o caso na equação (38) . A geração do fator de equilíbrio pode compreender a geração de um valor de correlação entre o sinal de áudio codificado escalonado e pelo menos um dos sinais de áudio do sinal de áudio de canal

Petição 870180017038, de 02/03/2018, pág. 45/63

40/50 múltiplo, tal como nas equações (33) & (36) . Uma autocorrelação entre pelo menos um dos sinais de áudio pode ser gerada, como na equação (38) a partir do que uma raiz quadrada pode ser gerada.

[088] No Bloco 1350, uma estimativa do sinal de áudio de canal múltiplo é gerada, com base no fator de equilíbrio e em pelo menos um sinal de áudio codificado escalonado. A estimativa é gerada com base no(s) sinal(is) de áudio codificado(s) escalonado(s) e no fator de equilíbrio gerado. A estimativa pode compreender um número de estimativas correspondendo à pluralidade de sinais de áudio codificados candidatos. Um valor de distorção é avaliado e/ou pode ser gerado com base na estimativa do sinal de áudio de canal múltiplo e no sinal de áudio de canal múltiplo para a determinação de uma representação de um valor de ganho ótimo dos valores de ganho no Bloco 1360. O valor de distorção pode compreender uma pluralidade de valores de distorção correspondendo à pluralidade de estimativas. A avaliação do valor de distorção é realizada pelo circuito de seletor de ganho. A apresentação de um valor de ganho ótimo é dada pela Equação (39) . No Bloco 1370, uma representação do valor de ganho pode ser extraída para transmissão e/ou armazenamento. O transmissor do codificador de camada de melhoramento pode transmitir a representação de valor de ganho, conforme descrito previamente.

[089] O processo concretizado no fluxograma 1400 da FIG. 14 ilustra a decodificação de um sinal de áudio de canal múltiplo. No Bloco 1410, um sinal de áudio codificado, um fator de equilíbrio codificado e um valor de ganho codificado são recebidos. Um valor de ganho decodificado é gerado a

Petição 870180017038, de 02/03/2018, pág. 46/63

41/50 partir do valor de ganho codificado no Bloco 1420. O valor de ganho pode ser uma matriz de ganho, descrita previamente, e a matriz de ganho pode ser de freqüência seletiva. A matriz de ganho também pode ser dependente do áudio codificado recebido como uma saída da camada de núcleo. Mais ainda, o sinal de áudio codificado pode ser um sinal de canal mono ou múltiplo, tal como um sinal estéreo, conforme ilustrado ao título de exemplo nos desenhos. Adicionalmente, o sinal de áudio codificado pode compreender uma pluralidade de canais. Por exemplo, pode haver mais de um canal na camada de núcleo e o número de canais na camada de melhoramento pode ser maior do que o número de canais na camada de núcleo.

[090] No Bloco 1430, o sinal de áudio codificado é escalonado com o valor de ganho decodificado para a geração de um sinal de áudio escalonado. O fator de equilíbrio codificado é aplicado ao sinal de áudio escalonado para a geração de um sinal de áudio de canal múltiplo decodificado no Bloco 1440. O sinal de áudio de canal múltiplo decodificado é extraído no Bloco 1450.

Computação de Máscara de Escalonamento Seletiva com Base em Detecção de Pico [091] A matriz de ganho de freqüência seletiva Gj, a qual é a matriz diagonal com elementos da diagonal formando um vetor de ganho gj, pode ser definida como em (14) acima:

ία10⁽->·^Λ/20>;

J a;

kj <k< k_h caso contrário (40) onde Δ é um tamanho de incremento (por exemplo, Δ « 2,0 dB), oc é uma constante, M é o número de candidatos (por exemplo, M = 8, o que pode ser representado usando-se apenas 3 bits),

Petição 870180017038, de 02/03/2018, pág. 47/63

42/50 e ki e kh são os cortes de freqüência baixa e alta, respectivamente, pelos quais a redução de ganho pode ocorrer. Aqui, k representa o k-ésimo coeficiente de MDCT ou Transformada de Fourier. Note que gj é de freqüência seletiva, mas é independente da saída de camada prévia. Os vetores de ganho gj podem ser com base em alguma função dos elementos codificados de um vetor de sinal codificado previamente, neste caso S. Isto pode ser expresso como:

gj (^k) = 4, S). (41) [092] Em um sistema de codificação embutido de camada múltipla (com mais de 2 camadas), em que a saída S, a qual é para ser escalonada pelo vetor de ganho gj, é obtida a partir da contribuição de pelo menos duas camadas prévias. Isto é:

zx zx zx ^{S _ Ê}2 + ^S1, (42) onde ^S1 é a saída da primeira camada (camada de núcleo) e ^Êé a contribuição da segunda camada ou da primeira camada de melhoramento. Neste caso, os vetores de ganho gj podem ser alguma função dos elementos codificados de um vetor de sinal codificado previamente S e da contribuição da primeira camada de melhoramento:

gj(^k) = f(t, S.Ê2 ). (₄₃) [093] Foi observado que a maioria do ruído audível por causa do modelo de codificação da camada mais baixa está nos vales e não nos picos. Em outras palavras, há uma combinação melhor entre o original e o espectro codificado nos picos espectrais. Assim, os picos não devem ser alterados, isto é, um escalonamento deve ser limitado aos vales. Para se usar vantajosamente esta observação, em uma das modalidades, a

Petição 870180017038, de 02/03/2018, pág. 48/63

43/50 função na equação (41) é com base nos picos e vales de S. Seja Ψ(§) uma máscara de escalonamento com base nas magnitudes de pico detectado de S. A máscara de escalonamento pode ser uma função com valor de vetor com valores não nulos nos picos detectados, isto é,

HS) =

S/ pico presente λ t ' (44) caso contrano onde si é o iésimo elemento de S. A equação (41) agora pode ser modificada como:

«ιο^{( /Δ}'²⁰¹; k,<k<k_t^_t(S)=o _Oáj._<M a; caso contrário (45) [094] Várias abordagens podem ser usadas para a detecção de pico. Na modalidade preferida, os picos são detectados pela passagem do espectro absoluto | S | através de dois filtros de cálculo de média ponderada e, então, comparandose as saídas filtradas. Sejam Ai e A2 a representação matricial de dois filtros de cálculo de média. Sejam li e I2 (li > I2) os comprimentos dos dois filtros. A função de detecção de pico é dada como:

</(S) = ^Sí

AJSIã^-AJSI caso contrário (46) onde β é um valor de limite empírico.

[095] Como um exemplo ilustrativo, faça uma referência à FIG. 15 e à FIG. 16. Aqui, o valor absoluto do sinal

I S I codificado ^{1 1} no domínio de MDCT é dado em ambos os gráficos como 1510. Este sinal é representativo de um som a partir de um tubo de passo, o qual cria uma seqüência harmônica espaçada regularmente, conforme mostrado. Este sinal é

Petição 870180017038, de 02/03/2018, pág. 49/63

44/50 difícil de codificar usando um codificador de camada de núcleo com base em um modelo de fala, porque a freqüência fundamental deste sinal está além da faixa do que é considerado razoável para um sinal de fala. Isto resulta em um nível razoavelmente alto de ruído produzido pela camada de núcleo, o que pode ser observado pela comparação do sinal codificado 1510 com a versão mono do sinal original |^S | (1610).

[096] A partir do sinal codificado (1510), um gerador de limite é usado para a produção do limite 1520, o que corresponde à expressão TAi I^SI na equação 45. Aqui, A1 é uma matriz de convolução a qual, na modalidade preferida,

I S I implementa uma convolução do sinal ^{1 1} com uma janela de cosseno de comprimento 45. Muitos formatos de janela são possíveis e podem compreender diferentes comprimentos. Também, na modalidade preferida, A2 é uma matriz identidade.

O detector de pico então compara o sinal 1510 com o limite

1520, para a produção da máscara de escalonamento ^(S) ^, mostrada como 1530.

[097] Os candidatos a vetor de escalonamento de camada de núcleo (dados na equação 45) então podem ser usados para o escalonamento do ruído entre os picos do sinal codificado

I S I , para a produção de um sinal reconstruído escalonado 1620. O candidato ótimo pode ser escolhido de acordo com o processo descrito na equação 39 acima ou de outra forma.

[098] Com referência, agora, às FIG. 17 a 19, os fluxogramas são apresentados para ilustração da metodologia associada a uma computação de máscara de escalonamento seletiva, com base em detecção de pico, discutida acima de acordo com várias modalidades. No fluxograma 1700 da FIG.

Petição 870180017038, de 02/03/2018, pág. 50/63

45/50

17, no Bloco 1710 um conjunto de picos em um vetor de áudio reconstruído ^S de um sinal de áudio recebido é detectado. O sinal de áudio pode ser embutido em múltiplas camadas. O vetor de áudio reconstruído ^S pode ser no domínio de freqüência, e o conjunto de picos pode ser de picos de domínio de freqüência. A detecção do conjunto de picos é realizada de acordo com uma função de detecção de pico dada pela equação (46), por exemplo. É notado que o conjunto pode ser vazio, como é o caso no qual tudo é atenuado e não há picos. No Bloco 1720, uma máscara de escalonamento ^(S) com base no conjunto detectado de picos é gerada. Então, no Bloco

1730, um vetor de ganho g* com base pelo menos na máscara de escalonamento e um índice j representativo do vetor de ganho é gerado. No Bloco 1740, o sinal de áudio reconstruído com o vetor de ganho para a produção de um sinal de áudio reconstruído escalonado é escalonado. Uma distorção com base no sinal de áudio e no sinal de áudio reconstruído escalonado é gerada no Bloco 1750. O índice do vetor de ganho com base na distorção gerada é extraído no Bloco 1760.

[099] Com referência, agora, à FIG. 18, o fluxograma 1800 ilustra uma modalidade alternativa de codificação de um sinal de áudio, de acordo com certas modalidades. No Bloco 1810, um sinal de áudio é recebido. O sinal de áudio pode ser embutido em camadas múltiplas. O sinal de áudio então é codificado no Bloco 1820, para a geração de um vetor de áudio reconstruído ^S. O vetor de áudio reconstruído ^S pode ser no domínio de freqüência e o conjunto de picos pode ser de picos de domínio de freqüência. No Bloco 1830, um conjunto de picos no vetor de áudio reconstruído ^S de um sinal de áudio recebido é detectado. A detecção do conjunto de picos é

Petição 870180017038, de 02/03/2018, pág. 51/63

46/50 realizada de acordo com uma função de detecção de pico dada pela equação (46), por exemplo. De novo, é notado que o conjunto pode ser vazio, como é o caso em que tudo é atenuado e não há picos. Uma máscara de escalonamento com base no conjunto detectado de picos é gerada no Bloco 1840. No Bloco 1850, uma pluralidade de vetores de ganho gj com base na máscara de escalonamento é gerada. O sinal de áudio reconstruído é escalonado com a pluralidade de vetores de ganho para a produção de uma pluralidade de sinais de áudio reconstruídos escalonados no Bloco 1860. Em seguida, uma pluralidade de distorções com base no sinal de áudio e a pluralidade de sinais de áudio reconstruídos escalonados são geradas no Bloco 1870. Um vetor de ganho é escolhido a partir da pluralidade de vetores de ganho com base na pluralidade de distorções no Bloco 1880. O vetor de ganho pode ser escolhido para corresponder a uma distorção mínima de a pluralidade de distorções. O índice representativo do vetor de ganho é extraído para ser transmitido e/ou armazenado no Bloco 1890.

[100] Os fluxos de codificador ilustrado nas FIG. 17 a 18 acima pode ser implementado pela estrutura de aparelho descrita previamente. Com referência ao fluxo 1700, em um aparelho operável para a codificação de um sinal de áudio, um seletor de ganho, tal como o seletor de ganho 1035 do gerador de vetor de ganho 1020 do codificador de camada de melhoramento 1010, detecta um conjunto de picos em um vetor de áudio reconstruído ^S de um sinal de áudio recebido e gera uma máscara de escalonamento com base no conjunto detectado de picos. Novamente, o sinal de áudio pode ser embutido em camadas múltiplas. O vetor de áudio reconstruído

Petição 870180017038, de 02/03/2018, pág. 52/63

47/50 ^S pode ser no domínio de freqüência e o conjunto de picos pode ser de picos de domínio de freqüência. A detecção do conjunto de picos é realizada de acordo com uma função de detecção de pico dada pela equação (46), por exemplo. É notado que o conjunto de picos pode ser nulo, se tudo no sinal tiver sido atenuado. Uma unidade de escalonamento, tal como a unidade de escalonamento 1025 do gerador de vetor de ganho 1020 gera um vetor de ganho g* com base pelo menos na máscara de escalonamento e um índice j representativo do vetor de ganho, escalona o sinal de áudio reconstruído com o vetor de ganho para a produção de um sinal de áudio reconstruído escalonado. O gerador de sinal de erro 1030 do gerador de vetor de ganho 1025 gera uma distorção com base no sinal de áudio e no sinal de áudio reconstruído escalonado. Um transmissor, tal como transmissor 1045 do decodificador de camada de melhoramento 1010 é operável para extrair o índice do vetor de ganho com base na distorção gerada.

[101] Com referência ao fluxo 1800 da FIG. 18, em um aparelho operável para a codificação de um sinal de áudio, um codificador recebeu um sinal de áudio e codifica o sinal de áudio para gerar um vetor de áudio reconstruído ^S. A unidade de escalonamento tal como a unidade de escalonamento 1025 do gerador de vetor de ganho 1020 detecta um conjunto de picos no vetor de áudio reconstruído ^S de um sinal de áudio recebido, gera uma máscara de escalonamento com base no conjunto detectado de picos, gera uma pluralidade de vetores de ganho gj com base na máscara de escalonamento, e escalona o sinal de áudio reconstruído com a pluralidade de vetores de ganho para a produção da pluralidade de sinais de

Petição 870180017038, de 02/03/2018, pág. 53/63

48/50 áudio reconstruídos escalonados. O gerador de sinal de erro 1030 gera uma pluralidade de distorções com base no sinal de áudio e na pluralidade de sinais de áudio reconstruídos escalonados. Um seletor de ganho tal como o seletor de ganho 1035 escolhe um vetor de ganho a partir da pluralidade de vetores de ganho com base na pluralidade de distorções. O transmissor 1045, por exemplo, extrai para transmissão e/ou armazenamento posteriores o índice representativo do vetor de ganho.

[102] No fluxograma 1900 da FIG. 19, um método de decodificação de um sinal de áudio é ilustrado. Um vetor de áudio reconstruído ^S e um índice representativo de um vetor de ganho são recebidos no Bloco 1910. No Bloco 1920, um conjunto de picos no vetor de áudio reconstruído é detectado. A detecção do conjunto de picos é realizada de acordo com uma função de detecção de pico dada pela equação (46), por exemplo. De novo, é notado que o conjunto pode ser vazio, como é o caso em que tudo é atenuado e não há picos. Uma máscara de escalonamento com base no conjunto detectado de picos é gerada no Bloco 1930. O vetor de ganho g* com base pelo menos na máscara de escalonamento e o índice representativo do vetor de ganho é gerado no Bloco 1940. O vetor de áudio reconstruído é escalonado com o vetor de ganho para a produção de um sinal de áudio reconstruído escalonado no Bloco 1950. O método ainda pode incluir a geração de um melhoramento para o vetor de áudio reconstruído e, então, a combinação do sinal de áudio reconstruído escalonado e do melhoramento para o vetor de áudio reconstruído para a geração de um sinal decodificado melhorado.

[103] O fluxo de detector ilustrado na FIG. 19 pode ser

Petição 870180017038, de 02/03/2018, pág. 54/63

49/50 implementado pela estrutura de aparelho descrita previamente.

Em um aparelho operável para a decodificação de um sinal de áudio, um decodificador de vetor de ganho 1070 de um decodificador de camada de melhoramento 1060, por exemplo, recebe um vetor de áudio reconstruído ^S e um índice representativo de um vetor de ganho ig. Conforme mostrado na

FIG. 10, ig é recebido pelo seletor de ganho 1075, enquanto o vetor de áudio reconstruído ^S é recebido pela unidade de escalonamento

1080 do decodificador de vetor de ganho 1070.

Um seletor de ganho, tal como o seletor de ganho 1075 do decodificador de vetor de ganho 1070, detecta um conjunto de picos no vetor de áudio reconstruído, gera uma máscara com base no conjunto escalonamento e gera o vetor de ganho g* com base pelo escalonamento e o índice representativo de detectado de picos, menos na máscara de do vetor de ganho.

De novo, o conjunto pode ser vazio de arquivo, se o sinal for principalmente atenuado. O seletor de ganho detecta o conjunto de picos de acordo com uma função de detecção de pico, tal como aquela dada na equação (46), por exemplo. A unidade de escalonamento 1080, por exemplo, escalona o vetor de áudio reconstruído com o vetor de ganho para a produção de um sinal de áudio reconstruído escalonado.

[104] Ainda, um decodificador de sinal de erro tal como o decodificador de sinal de erro 665 de decodificador de camada de melhoramento na FIG. 6 pode gerar um melhoramento para o vetor de áudio reconstruído. Um combinador de sinal, como o combinador de sinal 675 da FIG. 6, combina o sinal de áudio reconstruído escalonado e o melhoramento para o vetor de áudio reconstruído para a geração de um sinal decodificado melhorado.

Petição 870180017038, de 02/03/2018, pág. 55/63

50/50 [105] É notado, ainda, que os fluxos dirigidos por fator de equilíbrio das FIG. 12 a 14 e os fluxos dirigidos por máscara de escalonamento seletivo das FIG. 17 a 19 podem ser ambos realizados em uma combinação variada, e isso é suportado pelo aparelho e pela estrutura descritos aqui.

[106] Embora a invenção tenha sido particularmente mostrada e descrita com referência a uma modalidade em particular, será entendido por aqueles versados na técnica que várias mudanças na forma e nos detalhes podem ser feitas ali, sem que se desvie do espírito e do escopo da invenção. Por exemplo, embora as técnicas acima sejam descritas em termos de transmissão e recepção por um canal em um sistema de telecomunicações, as técnicas podem se aplicar igualmente a um sistema o qual usa o sistema de compressão de sinal para as finalidades de redução de exigências de armazenamento em um dispositivo de mídia digital, tal como um dispositivo de memória de estado sólido ou um disco rígido de computador. Pretende-se que essas mudanças venham no escopo das reivindicações a seguir.

Claims

REIVINDICAÇÕES

1. Aparelho que decodifica um sinal de áudio de canal múltiplo, caracterizado por compreender:

um decodificador que recebe um sinal de áudio codificado, um fator de equilíbrio codificado e um valor de ganho codificado;

um decodificador de vetor de ganho de um decodificador de camada de melhoramento que gera um valor de ganho decodificado a partir do valor de ganho codificado;

uma unidade de escalonamento do decodificador de camada de melhoramento que escalona o sinal de áudio codificado com o valor de ganho decodificado para a geração de um sinal de áudio codificado escalonado;

um combinador de sinal que aplica o fator de equilíbrio codificado ao sinal de áudio escalonado para a geração de um sinal de áudio de canal múltiplo decodificado e extrai o sinal de áudio de canal múltiplo decodificado.
2. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato do valor de ganho ser uma matriz de ganho.
3. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato do sinal de áudio codificado ser um dentre um sinal mono e um de canal múltiplo.
4. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato do decodificador de vetor de ganho receber um vetor de áudio reconstruído ^S e um índice representativo de um vetor de ganho, e onde o decodificador de vetor de ganho ainda compreende:

um seletor de ganho do decodificador de vetor de ganho que detecta um conjunto de picos do vetor de áudio

Petição 870190124606, de 28/11/2019, pág. 11/15

2/5 reconstruído, gera uma máscara de escalonamento com base no conjunto detectado de picos e gera o vetor de ganho g* com base pelo menos na máscara de escalonamento e no índice representativo do vetor de ganho; e uma unidade de escalonamento do decodificador de vetor de ganho que escalona o vetor de áudio reconstruído com o vetor de ganho para a produção de um sinal de áudio reconstruído escalonado.
5. Método para a decodificação de um sinal de áudio de canal múltiplo, caracterizado por compreender:

a recepção de um sinal de áudio codificado, um fator de equilíbrio codificado e um valor de ganho codificado;

a geração de um valor de ganho decodificado a partir do valor de ganho codificado;

o escalonamento do sinal de áudio codificado com o valor de ganho decodificado para a geração de um sinal de áudio escalonado;

a aplicação do fator de equilíbrio codificado ao sinal de áudio escalonado para a geração de um sinal de áudio de canal múltiplo decodificado; e a extração do sinal de áudio de canal múltiplo decodificado.
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato do método compreender:

o recebimento de um vetor de áudio reconstruído ^S e um índice representativo de um vetor de ganho;

a detecção de um conjunto de picos no vetor de áudio reconstruído;

a geração de uma máscara de escalonamento com base no conjunto detectado de picos;

Petição 870190124606, de 28/11/2019, pág. 12/15

3/5 a geração de um vetor de ganho g* com base pelo menos na máscara de escalonamento e no índice representativo do vetor de ganho; e o escalonamento do vetor de áudio reconstruído com o vetor de ganho para a produção de um sinal de áudio reconstruído escalonado.
7. Método para a codificação de um sinal de áudio de canal múltiplo, caracterizado por compreender:

o recebimento de um sinal de áudio de canal múltiplo que compreende uma pluralidade de sinais de áudio;

a codificação do sinal de áudio de canal múltiplo para a geração de um sinal de áudio codificado;

o escalonamento do sinal de áudio codificado com uma pluralidade de valores de ganho para a geração de uma pluralidade de sinais de áudio codificados candidatos, onde pelo menos um dos sinais de áudio codificados candidatos é escalonado;

a geração de um fator de equilíbrio que tem uma pluralidade de componentes de fator de equilíbrio, cada uma associada a um sinal de áudio da pluralidade de sinais de áudio do sinal de áudio de canal múltiplo;

a geração de uma estimativa do sinal de áudio de canal múltiplo com base no fator de equilíbrio e pelo menos um sinal de áudio codificado escalonado da pluralidade de sinais de áudio codificados candidatos;

a avaliação de um valor de distorção, com base na estimativa do sinal de áudio de canal múltiplo e no sinal de áudio de canal múltiplo para a determinação de uma representação de um valor de ganho ótimo da pluralidade de valores de ganho;

Petição 870190124606, de 28/11/2019, pág. 13/15

4/5 a extração para pelo menos um dentre transmissão e armazenamento da representação do valor de ganho ótimo.
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de um valor de ganho da pluralidade de valores de ganho ser uma matriz de ganho com um vetor gj como a componente da diagonal.
9. Método, de acordo com a reivindicação 7, caracterizado pelo fato da representação do valor de ganho ótimo ser dado por:
10. Método, de acordo com a reivindicação 7, caracterizado pelo fato de cada componente de fator de equilíbrio ser dado por:

ÍF, =
11. Método, de acordo com a reivindicação 7, caracterizado pelo fato da geração do fator de equilíbrio compreender:

a geração de uma correlação de valor entre pelo menos um dos sinais de áudio codificados escalonados e pelo menos um dos sinais de áudio do sinal de aúdio de canal múltiplo.
12. Método, de acordo com a reivindicação 7, caracterizado pelo fato da geração do fator de equilíbrio compreender:

a geração de uma autocorrelação entre pelo menos um dos sinais de áudio do sinal de áudio de canal múltiplo; e a geração de uma raiz quadrada da autocorrelação.
13. Método, de acordo com a reivindicação 7,

Petição 870190124606, de 28/11/2019, pág. 14/15

5/5 caracterizado por compreender ainda a geração de um valor de distorção com base na estimativa do sinal de áudio de canal múltiplo e no sinal de áudio de canal múltiplo.
14. Método, de acordo com a reivindicação 13,

5 caracterizado pelo fato do valor de ganho ser com base no valor de distorção.
15. Método, de acordo com a reivindicação 14, caracterizado pelo fato do valor de distorção compreender uma pluralidade de valores de distorção correspondendo à

10 pluralidade de estimativas.