BRPI0910285B1

BRPI0910285B1 - Métodos e aparelhos para processamento de sinal de áudio.

Info

Publication number: BRPI0910285B1
Application number: BRPI0910285-0A
Authority: BR
Inventors: Oh Hyen-o; Jung Wook Song; Chang Heon Lee; Yang Won Jung; Hong Goo Kang
Original assignee: Lg Electronics Inc.; Intellectual Discovery Co. Ltd.
Priority date: 2008-03-03
Filing date: 2009-03-03
Publication date: 2020-05-12
Also published as: CN101965612B; EP2259253B1; CN101965612A; JP2011513788A; CA2716817C; WO2009110738A3; KR101221919B1; EP2259253A2; AU2009220321B2; RU2010140362A; BRPI0910285A2; AU2009220321A1; JP5266341B2; US20100070284A1; WO2009110738A2; MX2010009571A; CA2716817A1; RU2455709C2; EP2259253A4; US7991621B2

Abstract

métodos e aparelhos para processamento de sinal de áudio um aparelho para processamento de um sinal codificado e um método para ele são descritos, pelos quais um sinal de áudio pode ser comprimido e reconstruído em uma maior eficiência. um método de processamento de sinal de áudio inclui as etapas de: identificar se um tipo de codificação do sinal de áudio é um tipo de codificação de sinal de música, usando as informações do primeiro tipo; se o tipo de codificação do sinal de áudio não for o tipo de codificação de sinal de música, identificar se o tipo de codificação do sinal de áudio é um tipo de codificação de sinal de fala ou um tipo de codificação de sinal misto, usando as informações do segundo tipo; e, se o tipo de sinal de áudio for determinado como o sinal de fala ou o sinal misto, reconstruir o sinal de áudio de acordo com um esquema de codificação aplicado por quadro, usando as informações de identificação de codificação. se o tipo do sinal de áudio for o sinal de música, apenas as informações do primeiro tipo são recebidas. se o tipo do sinal de áudio for o sinal de fala ou o sinal misto, ambas as informações do primeiro tipo e as informações do segundo tipo são recebidas. consequentemente, vários tipos de sinais de áudio podem ser codificados / decodificados em uma maior eficiência.

Description

“MÉTODOS E APARELHOS PARA PROCESSAMENTO DE SINAL DE ÁUDIO”

CAMPO DA INVENÇÃO

A presente invenção se refere a um aparelho de processamento de sinal de áudio, para codificação e decodificação efetivas de vários tipos de sinais de áudio, e processo isso.

DISCUSSÃO DA TÉCNICA RELACIONADA

Geralmente, as tecnologias de codificação são classificadas convencionalmente em dois tipos, tais como codificadores de áudio perceptivos e codificadores à base de previsão linear. Por exemplo, o codificador de áudio perceptivo, otimizado para música, adota um esquema de redução de uma dimensão de informações em um processo de codificação usando o princípio de mascaramento, que é uma teoria psicoacústica auricular humana, em uma faixa de frequências. Ao contrário, o codificador à base de previsão linear, otimizado para fala, adota um esquema de redução de uma dimensão de informações por modelagem de vocalização de fala em um eixo de tempo.

No entanto, cada uma das tecnologias descritas acima tem um bom desempenho em cada sinal de áudio otimizado (por exemplo, um sinal de fala, um sinal de música), mas falha em proporcionar um desempenho consistente em um sinal de áudio gerado de complicados tipos de diferentes misturas de sinais de áudio ou de sinais de fala e música conjuntos.

RESUMO DA INVENÇÃO

Consequentemente, a presente invenção é dirigida a um aparelho para processar um sinal de áudio e um método para isso, que eliminem, substancialmente, um ou mais dos problemas devido às limitações e desvantagens da técnica relacionada.

Um objeto da presente invenção é proporcionar um aparelho para processar um sinal de áudio e um método para isso, por meio dos quais diferentes tipos de sinais de áudio podem ser comprimidos e/ou reconstruídos de uma forma mais eficiente.

Outro objeto da presente invenção é proporcionar um esquema de codificação de áudio, adequado para as características de um sinal de áudio.

Deve-se entender que ambas a descrição geral acima e a descrição detalhada a seguir são exemplificativas e exemplificativas e são intencionadas para proporcionar explicação adicional da invenção, como reivindicada.

BREVE DESCRIÇÃO DOS DESENHOS

Os desenhos em anexo, que são incluídos para proporcionar um entendimento adicional da invenção e são incorporados no, e constituem parte do, relatório descritivo, ilustram as concretizações da invenção e, conjuntamente com a descrição, servem para explicar os princípios da invenção.

Nos desenhos:

a Figura 1 é um diagrama de blocos de um aparelho de codificação de áudio, de

Petição 870190126028, de 29/11/2019, pág. 12/46

2/21 acordo com uma concretização preferida da presente invenção;

a Figura 2 é um fluxograma para um método de codificação de um sinal de áudio usando informações do tipo de áudio, de acordo com uma concretização da presente invenção;

a Figura 3 é um diagrama para um exemplo de uma estrutura de fluxo de bits de áudio codificada de acordo com a presente invenção;

a Figura 4 é um diagrama de blocos de um aparelho de codificação de áudio usando um modelo psicoacústico, de acordo com uma concretização da presente invenção;

a Figura 5 é um diagrama de blocos de um aparelho de codificação de áudio usando um modelo psicoacústico, de acordo com uma outra concretização da presente invenção;

a Figura 6 é um diagrama para as variações de um valor de referência modificado por ruído usando uma unidade de modelo psicoacústico, de acordo com uma outra concretização da presente invenção;

a Figura 7 é um fluxograma para um método de gerar um valor de referência modificado por ruído usando uma unidade de modelo psicoacústico, de acordo com uma outra concretização da presente invenção;

a Figura 8 é um diagrama de blocos de um aparelho de codificação de áudio, de acordo com uma concretização da presente invenção;

a Figura 9 é um diagrama para uma configuração de um produto implementado com um aparelho de codificação de áudio, de acordo com uma concretização da presente invenção;

a Figura 10 é um diagrama para um exemplo de relações entre os produtos implementados com um aparelho de codificação de áudio, de acordo com uma concretização da presente invenção; e a Figura 11 é um fluxograma para um método de codificação de áudio, de acordo com uma concretização da presente invenção.

DESCRIÇÃO DETALHADA DA INVENÇÃO

Vai-se fazer agora referência detalhada às concretizações preferidas da presente invenção, cujos exemplos são ilustrados nos desenhos em anexo.

Na presente invenção, as terminologias nela podem ser consideradas como as referências apresentadas a seguir. Primeiro de tudo, 'codificação' pode ser considerada ocasionalmente como codificação ou decodificação. As informações são uma terminologia, que inclui valores, parâmetros, coeficientes, elementos e assemelhados.

Em relação à presente invenção, 'sinal de áudio' nela é discriminado conceitualmente de um sinal de vídeo. E, o sinal de áudio indica todos os sinais que podem ser identificados auricularmente na reprodução. Portanto, os sinais de áudio podem ser classificados em um sinal de fala, basicamente relevante para vocalização humana ou um sinal similar ao

Petição 870190126028, de 29/11/2019, pág. 13/46

3/21 sinal de fala (a seguir denominado 'sinal de fala'), um sinal de música basicamente relevante a um ruído e um som mecânicos, ou um sinal similar ao sinal de música (a seguir denominado 'sinal de música'), e um 'sinal misto' gerado da mistura do sinal de fala e do sinal de música entre si. A presente invenção intenciona proporcionar um aparelho para codificação / decodificação dos três tipos mencionados acima de sinais de áudio, e de um método para isso, para codificar / decodificar os sinais de áudio para que fiquem adequados às características dos sinais de áudio. Ainda mais, os sinais de áudio são classificados apenas para a descrição da presente invenção. E, é evidente que a ideia técnica da presente invenção é aplicável de forma idêntica a um caso de classificação do sinal de áudio de acordo com um método diferente.

A Figura 1 é um diagrama de blocos de um aparelho de codificação de áudio, de acordo com uma concretização preferida da presente invenção. Em particular, a Figura 1 mostra um processo de classificação de um sinal de áudio introduzido a uma referência preestabelecida, e depois codificar o sinal de áudio classificado por seleção de um esquema de codificação de áudio, adequado para o sinal de áudio correspondente.

Com referência à Figura 1, um aparelho de codificação de áudio, de acordo com uma concretização preferida da presente invenção, inclui: uma unidade de classificação de sinal (detector de atividade sonora) 100, que classifica um sinal de áudio introduzido em um tipo de um sinal de fala, um sinal de música ou um sinal misto de fala e música, por análise de uma característica do sinal de áudio introduzido; uma unidade de modelagem de previsão linear 110, que codifica o sinal de falha do tipo de sinal determinado pela unidade de classificação de sinal 100; uma unidade de modelo psicoacústico 120, que codifica o sinal de música; e uma unidade de modelagem de sinal misto 130, que codifica o sinal misto de fala e música. E o aparelho de codificação de áudio pode incluir ainda uma unidade de ensanduichar 101, configurada para selecionar um esquema de codificação adequado para o sinal de áudio, classificado pela unidade de classificação de sinal 100. A unidade de ensanduichar 101 é operada por uso de informações do tipo de codificação de sinal de áudio (por exemplo, informações de primeiro tipo e informações de segundo tipo, que vão ser explicadas em detalhe com referência à Figura 2 e à Figura 3), geradas pela unidade de classificação de sinal 100 como um sinal de controle. Além do mais, a unidade de modelagem de sinal misto 130 pode incluir uma unidade de previsão linear 131, uma unidade de extração de sinal residual 132 e uma unidade de transformação em frequência 133. Na descrição apresentada a seguir, os respectivos elementos mostrados na Figura 1 são explicados em detalhes.

Primeiro de tudo, a unidade de classificação de sinal 100 classifica um tipo de sinal de áudio introduzido e depois gera um sinal de controle, para selecionar um esquema de codificação de áudio, adequado para o tipo classificado. Por exemplo, a unidade de classifi

Petição 870190126028, de 29/11/2019, pág. 14/46

4/21 cação de sinal 100 classifica se um sinal de áudio introduzido é um sinal de música, um sinal de fala ou um sinal misto de fala e música. Desse modo, o tipo do sinal de áudio introduzido é classificado, para selecionar um esquema de codificação ótimo por tipo de sinal de áudio dos esquemas de codificação de áudio, que vão ser explicados abaixo. Portanto, a unidade de classificação de sinal 100 executa um processo de análise de um sinal de áudio introduzido, e depois seleciona um esquema de codificação de áudio, ótimo para o sinal de áudio introduzido. Por exemplo, a unidade de classificação de sinal 100 gera informações do tipo de codificação de áudio por análise de um sinal de áudio introduzido. As informações do tipo de codificação de áudio geradas são utilizadas como uma referência para selecionar um esquema de codificação. As informações do tipo de codificação de áudio geradas são incluídas como um fluxo de bits em um sinal de áudio codificado até o final, e são depois transferidas a um dispositivo de decodificação ou recebimento. Além disso, um método e um aparelho de decodificação, que usam as informações do tipo de codificação de áudio vão ser explicados em detalhes com referência à Figura 11. Além do mais, as informações do tipo de codificação de áudio geradas pela unidade de classificação de sinal 100 podem incluir, por exemplo, informações de primeiro tipo e informações de segundo tipo. Isso vai ser descrito com referência às Figuras 2 e 3.

A unidade de classificação de sinal 100 determina um sinal de áudio, de acordo com uma característica de um sinal de áudio introduzido. Por exemplo, se o sinal de áudio introduzido for um sinal melhor para modelar com um coeficiente específico e um sinal residual, a unidade de classificação de sinal 100 determina o sinal de áudio introduzido como um sinal de fala. Se o sinal de áudio introduzido for um sinal pobre para modelagem com um coeficiente específico e um sinal residual, a unidade de classificação de sinal 100 determina o sinal de áudio introduzido como um sinal de música. Se for difícil determinar o sinal de áudio introduzido como um sinal de fala ou um sinal de música, a unidade de classificação de sinal 100 determina o sinal de áudio introduzido como um sinal misto. Em relação a uma referência de determinação detalhada, por exemplo, quando o sinal é modelado com um coeficiente específico e um sinal residual, se uma razão dos níveis de energia do sinal residual para o sinal for menor do que um valor de referência preestabelecido, o sinal pode ser determinado como um bom sinal para modelagem. Portanto, o sinal pode ser determinado em um eixo de tempo, o sinal pode ser determinado como um sinal bom para modelagem por previsão linear, para prever um sinal atual de um sinal passado. Portanto, o sinal pode ser determinado como um sinal de música.

Se um sinal introduzido, de acordo com essa referência, for determinado como um sinal de fala, é possível codificar um sinal de entrada, por uso de um codificador de fala otimizado para o sinal de fala. De acordo com a presente concretização, a unidade de modelagem de previsão linear 100 é usada para um esquema de codificação adequado para um

Petição 870190126028, de 29/11/2019, pág. 15/46

5/21 sinal de fala. A unidade de modelagem de previsão linear 100 é dotada com vários esquemas. Por exemplo, o esquema de codificação ACELP (previsão linear excitada com código algébrico), o esquema de codificação AMR (multitaxa adaptativo) ou o esquema de codificação (banda larga multitaxa adaptativo) é aplicável à unidade de modelagem de previsão linear 110.

A unidade de modelagem de previsão linear 110 está apta a conduzir codificação de previsão linear em um sinal de áudio introduzido por uma unidade de quadros. A unidade de modelagem de previsão linear 110 extrai um coeficiente de previsão por quadro e depois quantifica o coeficiente de previsão extraído. Por exemplo, um esquema de extração de um coeficiente de previsão usando o 'algoritmo de Levinson-Durbin' é, em geral, amplamente usado.

Em particular, se um sinal de áudio introduzido for construído com uma pluralidade de quadros, ou se existe nele uma pluralidade de superquadros, cada um deles tendo uma unidade de uma pluralidade de quadros, por exemplo, é possível determinar se aplicar um esquema de modelagem de previsão linear por quadro. É possível aplicar um diferente esquema de modelagem de previsão linear por quadro unitário existente dentro de um superquadro, ou por subquadro de um quadro unitário. Isso pode aumentar a eficiência de codificação de um sinal de áudio.

Enquanto isso, se um sinal de áudio introduzido for classificado em um sinal de música pela unidade de classificação de sinal 100, é possível codificar um sinal de entrada por uso de um codificador de música otimizado para o sinal de música. De acordo com a presente concretização, a unidade de modelo psicoacústico 120 é usada para um esquema de codificação adequado para um sinal de música. Um exemplo da unidade de modelo psicoacústico 120, aplicado à presente invenção, vai ser descrito em detalhes com referência às Figuras 4 a 7.

Se um sinal de áudio introduzido for classificado em um sinal misto, no qual fala e música são misturadas entre si, pela unidade de classificação de sinal 100, é possível codificar um sinal de entrada por uso de um codificador otimizado para o sinal misto. De acordo com a presente concretização, a unidade de modelagem de sinal misto 130 é usada para um esquema de codificação adequada para um sinal misto.

A unidade de modelagem de sinal misto 130 é capaz de conduzir codificação por um esquema misto, resultante da mistura do esquema de modelagem de previsão linear e do esquema de modelagem psicoacústico mencionados acima entre si. Em particular, a unidade de modelagem de sinal misto 130 executa codificação de previsão linear em um sinal de entrada, obtém um sinal residual montando a uma diferença entre um sinal de resultado de previsão linear e um sinal original, e depois codifica o sinal residual por um esquema de codificação de transformação em frequência.

Petição 870190126028, de 29/11/2019, pág. 16/46

6/21

Por exemplo, a Figura 1 mostra um exemplo que a unidade de modelagem de sinal misto 130 inclui a unidade de previsão linear 131, a unidade de extração de sinal residual 132 e a unidade de transformação em frequência 133.

A unidade de previsão linear 131 executa análise de previsão linear em um sinal introduzido e depois extrai um coeficiente de previsão linear, indicando uma característica do sinal. A unidade de extração de sinal residual 132 extrai um sinal residual, do qual um componente de redundância é removido, do sinal introduzido usando o coeficiente de previsão linear extraído. Desde que a redundância seja removida do sinal residual, o sinal residual correspondente pode ter um tipo de um ruído branco. A unidade de previsão linear 131 é capaz de conduzir codificação de previsão linear de um sinal de áudio introduzido por unidade de quadro. A unidade de previsão linear 131 extrai um coeficiente de previsão por quadro e depois quantifica o coeficiente de previsão extraído. Por exemplo, em particular, se um sinal de áudio introduzido for construído com uma pluralidade de quadros, ou existe nele uma pluralidade de quadros, cada um deles tem uma unidade de uma pluralidade de quadros, é capaz de determinar se aplicar um esquema de modelagem de previsão linear por quadro. É possível aplicar um esquema de modelagem de previsão linear diferente por unidade de quadro dentro de um superquadro, ou por subquadro de um quadro unitário. Isso pode aumentar a eficiência de codificação de um sinal de áudio.

A unidade de extração de sinal residual 132 recebe uma entrada de um sinal remanescente, codificado pela unidade de previsão linear 131, e uma entrada de um sinal de áudio original tendo passado pela unidade de classificação de sinal 100, e depois extrai um sinal residual, que é uma diferença de sinais entre os dois sinais introduzidos.

A unidade de transformação em frequência 133 calcula um limiar de mascaramento ou uma razão de sinal para máscara (SMR), por execução de uma transformação de domínio de frequência em um sinal residual introduzido por MDCT, ou assemelhados, e depois codifica o sinal residual. A unidade de transformação em frequência 133 é capaz de codificar um sinal de uma tendência de áudio residual, usando TCS bem como modelagem psicoacústica.

Como a unidade de modelagem de previsão linear 100 e a unidade de previsão linear 131 extraem um coeficiente de previsão linear (LPC) refletido característico de áudio por execução de previsão e análise linear em um sinal de áudio introduzido, são capazes de considerar um esquema de uso de bits variáveis para um método de transferência de dados de LPC.

Por exemplo, um modo de dados de LPC é determinado por consideração de um esquema de codificação por quadro. É então capaz de atribuir um coeficiente de previsão linear tendo um número de bits viável de acordo com o modo de dados de LPC determinado. Por meio disso, um número de bits de áudio global é reduzido. Portanto, as codificação e

Petição 870190126028, de 29/11/2019, pág. 17/46

7/21 decodificação de áudio podem ser conduzidas mais eficientemente.

Enquanto isso, como mencionado na descrição acima, a unidade de classificação de sinal 100 gera informações do tipo de codificação de um sinal de áudio, por classificação do sinal de áudio em um dos dois tipos das informações do tipo de codificação, permite que as informações do tipo de codificação sejam incluídas em um fluxo de bits, e depois transfere o fluxo de bits a um aparelho de decodificação. Na descrição apresentada a seguir, as informações do tipo de codificação de áudio, de acordo com a presente invenção, são explicadas em detalhes com referência às Figuras 2 e 3.

A Figura 2 é um fluxograma para um método de codificação de um sinal de áudio, usando informações do tipo de áudio de acordo com uma concretização preferida da presente invenção.

Com referência à Figura 2, a presente invenção propõe um método de representação de um tipo de um sinal de áudio, em uma maneira de usar as informações do primeiro tipo e as informações do segundo tipo para classificação. Por exemplo, se um sinal de áudio introduzido for determinado como um sinal de música [S100], a unidade de classificação de sinal 100 controla a unidade de comutação 101, para selecionar um esquema de codificação (por exemplo, o esquema de modelagem psicoacústica mostrado na Figura 2) adequado para o sinal de música, e depois propicia que a codificação seja conduzida de acordo com o esquema de codificação selecionado [S110]. Depois, as informações de controle correspondentes são configuradas como informações do primeiro tipo e são depois transferidas como sendo incluídas em um fluxo de bits de áudio codificado. Portanto, as informações do primeiro tipo desempenham um papel como as informações de identificação de codificação, indicando que um tipo de codificação de um sinal de música é um tipo de codificação de sinal de música. As informações do primeiro tipo são utilizadas na decodificação de um sinal de áudio, de acordo com um método e um aparelho de decodificação.

Além do mais, se o sinal introduzido for determinado como um sinal de fala [S120], a unidade de classificação de sinal 100 controla a unidade de comutação 101, para selecionar um esquema de codificação (por exemplo, a modelagem de previsão linear mostrada na Figura 2) adequado para o sinal de fala e depois propicia que a codificação seja conduzida, de acordo com o esquema de codificação selecionado [S130]. Se o sinal introduzido for determinado como um sinal misto [S120], a unidade de classificação de sinal 100 controla a unidade de comutação 101, para selecionar um esquema de codificação (por exemplo, a modelagem de sinal misto mostrada na Figura 2) adequado para o sinal misto e depois propicia que a codificação seja conduzida, de acordo com o esquema de codificação selecionado [S140]. Subsequentemente, as informações de controle, indicando ou o tipo de codificação de sinal de fala ou o tipo de codificação de sinal misto, são configuradas em informações do segundo tipo. O segundo tipo é depois transferido como sendo incluído em um fluxo

Petição 870190126028, de 29/11/2019, pág. 18/46

8/21 de bits de áudio codificado, conjuntamente com as informações do primeiro tipo. Portanto, as informações do segundo tipo desempenham um papel como as informações de identificação de codificação, indicando que um tipo de codificação de um sinal de áudio é ou um tipo de codificação de sinal de fala ou um tipo de codificação de sinal misto. As informações do segundo tipo são utilizadas, conjuntamente com as informações do primeiro tipo mencionadas acima, na decodificação de um sinal de áudio, de acordo com um método e um aparelho de decodificação.

Com relação às informações do primeiro tipo e às informações do segundo tipo, há dois casos, de acordo com as características do sinal de áudio introduzido. Isto é, apenas as informações do primeiro precisam ser transferidas ou ambas as informações do primeiro tipo e as informações do segundo tipo precisam ser transferidas. Por exemplo, se um tipo de um sinal de áudio introduzido for um tipo de codificação de sinal de música, as informações do primeiro tipo são transferidas apenas como sendo incluídas em um fluxo de bits, e as informações do segundo tipo podem não ser incluídas no fluxo de bits [(a) da Figura 3]. Isto é, as informações do segundo tipo são incluídas em um fluxo de bits apenas se um tipo de codificação de sinal de áudio introduzido for um tipo de codificação de sinal de fala ou um tipo de codificação de sinal misto. Portanto, é capaz de impedir que o número de bits desnecessário represente um tipo de codificação de um sinal de áudio.

Embora o exemplo da presente invenção ensine que as informações do primeiro tipo indicam uma presença ou não presença de um tipo de sinal de música, é apenas exemplificativo. E, é evidente que as informações do primeiro tipo são inúteis como as informações indicativas de um tipo de codificação de sinal de fala ou de um tipo de codificação de sinal misto. Desse modo, por utilização de um tipo de codificação de áudio, tendo probabilidade de frequência de alta ocorrência, de acordo com um meio físico de codificação ao qual a presente invenção é aplicada, é capaz de reduzir um número de bits global de um fluxo de bits.

A Figura 3 é um diagrama para um exemplo de uma estrutura de fluxo de bits de áudio, codificada de acordo com a presente invenção.

Com referência a (a) da Figura 3, um sinal de áudio introduzido corresponde a um sinal de música. As informações do primeiro tipo 301 são apenas incluídas em um fluxo de bits, mas as informações do segundo tipo não são incluídas nele. Dentro do fluxo de bits, os dados de áudio, codificados por um tipo de codificação correspondendo às informações do primeiro tipo 301, são incluídos (por exemplo, fluxo de bits AAC 302).

Com referência a (b) da Figura 3, um sinal de áudio introduzido correspondente a um sinal de fala. Ambas as informações do primeiro tipo 311 e as informações do segundo tipo 312 são incluídas em um fluxo de bits. Dentro do fluxo de bits, os dados de áudio, codificados por tipo de codificação correspondente às informações do segundo tipo 312, são

Petição 870190126028, de 29/11/2019, pág. 19/46

9/21 incluídos (por exemplo, fluxo de bits AMR 313).

Com referência a (c) da Figura 3, um sinal de áudio introduzido corresponde a um sinal misto. Ambas as informações do primeiro tipo 321 e as informações do segundo tipo 322 são incluídas em um fluxo de bits. Dentro do fluxo de bits, os dados de áudio, codificados por tipo de codificação correspondente às informações do segundo tipo 312, são incluídos (por exemplo, fluxo de bits AAC aplicado a TCX 323).

Com relação a essa descrição, as informações incluídas em um fluxo de bits de áudio, codificado pela presente invenção, são mostradas exemplificativamente em (a) a (c) da Figura 3. E, é evidente que várias aplicações são possíveis dentro do âmbito da presente invenção. Por exemplo, na presente invenção, os exemplos de AMR e AAC são considerados como exemplos de esquemas de codificação, por adição de informações para identificação dos esquemas de codificação correspondentes. Além disso, os vários esquemas de codificação são aplicáveis, e as informações de identificação de codificação, para identificação dos vários esquemas de codificação, são disponíveis variavelmente também. Além disso, a presente invenção, mostrada em (a) a (c) da Figura 3, é aplicável a um superquadro, quadro unitário e subquadro. Isto é, a presente invenção é capaz de proporcionar informações do tipo de codificação de sinal de áudio por unidade de quadro pré-selecionada.

Como uma etapa de pré-processamento de um processo de codificação de um sinal de entrada, usando a unidade de modelagem de previsão linear 110, a unidade de modelo psicoacústico 120 e a unidade de modelagem de sinal misto 130, um processo de extensão de faixa de frequências (não mostrado no desenho) pode ser conduzido. Como exemplo do processo de extensão de faixa de frequências, é capaz de usar SBR (replicação de faixa espectral) e HBE (extensão de faixa de frequências), para gerar um componente de alta frequência em uma unidade de decodificação de extensão de largura de faixa, usando um componente de baixa frequência.

Como uma etapa de pré-processamento de um processo de codificação de um sinal de entrada, usando a unidade de modelagem de previsão linear 110, a unidade de modelo psicoacústico 120 e a unidade de modelagem de sinal misto 130, um processo de extensão de canais (não mostrado no desenho) pode ser conduzido. O processo de extensão de canais é capaz de reduzir um grau de alocação de bits por codificação de informações de canal de um sinal de áudio em informações laterais. Por exemplo, no processo de extensão de canais, há uma unidade de extensão da amplitude de canais, tal como uma PS (esquema estéreo paramétrico). Neste caso, o esquema estéreo paramétrico é um esquema de codificação de um sinal estéreo em uma maneira de converter um canal estéreo em um sinal mono.

De acordo com uma concretização, se um sinal estéreo de 48 kHz for transferido por uso dos esquemas SBS e PS (estéreo paramétrico), um sinal mono de 24 kHz se manPetição 870190126028, de 29/11/2019, pág. 20/46

10/21 tém pelos esquemas SBR/PS. Esse sinal mono pode ser codificado por um codificador. Desse modo, o sinal de entrada do codificador é de 24 kHz. Isso é porque um componente de alta frequência é codificado por SBR e é submetido a um processo de redução de taxa de amostragem em metade de uma frequência prévia. Desse modo, o sinal de entrada se transforma em um sinal mono. Isso é porque um áudio estéreo é extraído como um parâmetro pelo esquema PS (estéreo paramétrico), para que seja alterado a uma soma do sinal mono e de um de áudio adicional.

Um processo para codificar um sinal de música usando um unidade de modelo psicoacústico é explicado com referência aos desenhos em anexo, como se segue.

A Figura 4 é um diagrama de blocos de um aparelho de codificação de áudio, usando um modelo psicoacústico de acordo com uma concretização da presente invenção.

Com referência à Figura 4, um aparelho de codificação de áudio, usando um modelo psicoacústico de acordo com uma concretização da presente invenção, inclui um banco de filtros (banco de filtros de análise 401, uma unidade de modelo psicoacústico 402, uma unidade de quantificação e alocação de bits 403, uma unidade de codificação de entropia 404 e um multiplexador 405.

O banco de filtros 401 transforma um sinal de áudio em um sinal do eixo de frequência por execução de uma MDCT (transformação de cosseno distinta modificada), para codificar um sinal de áudio introduzido, que é um sinal do eixo de tempo.

A unidade de modelo psicoacústico 402 determina um grau de um ruído de quantificação máximo permissível por frequência para um processo de alocação de bits, por análise de uma característica de percepção de um sinal de áudio introduzido. O ruído de quantificação máximo permissível por frequência pode ser representado em uma referência de modelagem de ruído. Em particular, uma vez que a unidade de modelo psicoacústico 402 analisa uma característica de percepção de um sinal de entrada em um eixo de frequência, um processo de transformação em frequência para um sinal de entrada é necessário. Embora a transformação em frequência seja conduzida pelo banco de filtros 401 em um processo de codificação de sinal de áudio, uma vez que os resultados dos testes da teoria psicoacústica sejam, na maior parte, encontrados no eixo de DFT (transformação de Fourier distinta), é preferível que a FFT (transformação de Fourier rápida) seja conduzida. Após o processo de transformação de sinal do eixo de frequência ter sido completado na maneira descrita acima, uma referência de modelagem de ruído, em um modelo psicoacústico, pode ser obtida por convolução entre um espectro de frequências e uma função de disseminação correspondente a cada componente de frequência. Um espectro de sinal de áudio é quantificado por cálculo de uma diferença entre a referência de modelagem de ruído, obtida pelo modelo psicoacústico, e de um espectro de sinal de entrada em entropia de percepção, e depois por alocação adequada dos bits.

Petição 870190126028, de 29/11/2019, pág. 21/46

11/21

A unidade de quantificação 403 quantifica um resultado-objeto, gerado por 'codificação de perda', para remover um grau de ruído de quantificação localizado abaixo da referência de modelagem de ruído, determinado pela unidade de modelo psicoacústico 402, no sinal de áudio transformado no sinal do eixo de frequência pelo banco de filtros 401. A unidade de quantificação 403 também aloca bits para o sinal quantificado. O processo de alocação de bits é otimizado de uma maneira que o ruído de quantificação, gerado do processo de quantificação, fique menor do que um grau de ruído máximo permissível, obtido do modelo psicoacústico em uma determinada taxa de bits.

A unidade de quantificação de entropia 404 maximiza uma razão de compressão de um sinal de áudio por alocação de um código para o sinal de áudio, quantificado e alocado por bits pela unidade de quantificação 430, de acordo com uma frequência de uso. Em particular, a eficiência de compressão é maximizada por alocação de um código, de uma maneira de propiciar que um comprimento de código médio fique mais próximo da entropia. O princípio básico se fundamenta no fato de que uma dimensão de dados global é reduzida por representação de cada símbolo ou dos símbolos consecutivos como um código de comprimento adequado, de acordo com uma frequência de ocorrência estatística de símbolos de dados. Uma dimensão de informações média, chamada 'entropia', é determinada de acordo com a probabilidade de ocorrência de símbolo de dados. Um objeto da codificação de entropia é permitir que um comprimento de código médio por símbolo fique mais próximo da entropia.

O multiplexador 405 recebe, com alta eficiência, os dados de áudio comprimido e as informações laterais da unidade de codificação de entropia 404 e depois transfere um fluxo de dados de áudio para um decodificador de um lado receptor.

A Figura 5 é um diagrama de blocos de um aparelho de codificação de áudio, usando um modelo psicoacústico, em outra concretização da presente invenção.

Com referência à Figura 5, um aparelho de codificação de áudio, que usa um modelo psicoacústico, de acordo com outra concretização da presente invenção, inclui um banco de filtros (banco de filtros de análise) 501, uma unidade de modelo psicoacústico 502, uma unidade de quantificação e alocação de bits 503, uma unidade de codificação de entropia 504 e um multiplexador 505. Especificamente, a unidade de modelo psicoacústico 502 inclui uma unidade de geração de coeficiente 502a e uma unidade de determinação de referência de modelagem de ruído 502b.

Para remover a redundância estatística de um sinal de áudio, o banco de filtros 501 transforma um sinal de áudio em uma amostra de subfaixa. O banco de filtros 501 transforma um sinal de áudio em um sinal de eixo de frequência por execução de uma MDCT (transformação de cosseno distinto modificado), para codificar um sinal de áudio introduzido, que é um sinal do eixo de tempo.

Petição 870190126028, de 29/11/2019, pág. 22/46

12/21

A unidade de modelo psicoacústico 502 determina um grau de um ruído de quantificação máximo permissível por frequência, necessário para um processo de alocação de bits, por análise de uma característica de percepção de um sinal de áudio introduzido. Geralmente, um processo de quantificação é conduzido durante a codificação de um sinal de áudio, para converter um sinal analógico em um sinal digital. Nesse processo de quantificação, um valor de erro, gerado por arredondamento de um valor contínuo, é chamado um ruído de quantificação. Esse ruído de quantificação varia de acordo com um grau de alocação de bits. Para expressar numericamente o ruído de quantificação, é usado um sinal para a razão de ruídos de quantificação (SQNR). O sinal para a razão de ruídos de quantificação é expresso como '20 x N log 2 = 6,02 x N (dB)'. Neste caso, 'N' indica o número de bits alocados por amostra. O ruído de quantificação máximo permissível por frequência pode ser representado em uma referência de modelagem de ruído. Consequentemente, se o valor de alocação de bits for aumentado, o ruído de quantificação é reduzido e a probabilidade para que o ruído de quantificação fique abaixo da referência de modelagem de ruído é aumentada.

A unidade de modelo psicoacústico 502 inclui a unidade de geração de coeficiente 502a, configurada para gerar um coeficiente de previsão linear por execução de uma análise de previsão linear, e gerar um coeficiente de previsão de modelagem por aplicação de um peso ao coeficiente de previsão linear e à unidade de determinação de referência de modelagem de ruído 502b, usando o coeficiente de previsão de modelagem gerado. A referência de modelagem de ruído é gerada por uso de um coeficiente de previsão de modelagem, gerado por codificação de ponderação de percepção, para proporcionar um peso a um coeficiente de previsão linear, derivado por codificação de previsão linear.

A unidade de quantificação 503 quantifica um resultado-objeto gerado por 'codificação de perda', para remover um grau de ruído de quantificação localizado abaixo da referência de modelagem de ruído, determinada pela unidade de modelo psicoacústico 502 no sinal de áudio transformado na sinal de eixo de frequência pelo banco de filtros 501. A unidade de quantificação 503 também aloca bits no sinal quantificado. O processo de alocação de bits é otimizado de uma maneira que o ruído de quantificação, gerado do processo de quantificação, fica menor do que um grau de ruído máximo permissível de uma referência de modelagem de ruído recém-ajustada em uma determinada taxa de bits. Em particular, os bits de quantificação do espectro de MDCT são alocados para permitir que o ruído de quantificação seja mascarado por um sinal, com base na referência de modelagem de ruído em cada quadro. Por exemplo, o sinal de áudio transformado em frequência é dividido em uma pluralidade de sinais de subfaixa. E, é capaz de quantificar cada um dos sinais de subfaixa usando o coeficiente de previsão de modelagem, com base na referência de modelagem de ruído correspondente a cada um dos sinais de subfaixa.

Petição 870190126028, de 29/11/2019, pág. 23/46

13/21

A unidade de codificação de entropia 504 maximiza uma razão de compressão de um sinal de áudio por alocação de um código ao sinal de áudio, quantificado e alocado por bits pela unidade de quantificação 403, de acordo com uma frequência de uso. Em particular, a eficiência de compressão é maximizada por alocação de um código, de uma maneira a permitir que um comprimento de código médio fique mais próximo da entropia. Isto é, um tamanho de dados é otimizado em uma maneira de representar cada símbolo ou os símbolos consecutivos como um código de um comprimento adequado, de acordo com uma frequência de ocorrência estatística de símbolos de dados. Uma dimensão de informações média, chamada 'entropia', é determinada de acordo com a probabilidade de ocorrência de símbolo de dados. Um objeto de codificação de entropia é permitir que um comprimento de código médio por símbolo fique mais próximo da entropia. Na execução da codificação de entropia, a unidade de codificação de entropia 504 não é limitada por um método específico e é capaz de adotar uma codificação de Huffman, uma codificação aritmética, uma codificação LZW, ou assemelhados, de acordo com uma seleção feita por aqueles versados na técnica.

O multiplexador 505 recebe, com alta eficiência, os dados de áudio comprimido e as informações laterais da unidade de codificação de entropia 504 e depois transfere um fluxo de dados de áudio para um decodificador de um lado receptor.

Enquanto isso, os dados de áudio, codificados pelo método de codificação de áudio da presente invenção, podem ser decodificados por um decodificador na maneira apresentada a seguir.

Primeiro de tudo, um sinal de áudio, quantificado por um desmultiplexador de um decodificador, é recebido. Um sinal de áudio é reconstruído do sinal de áudio quantificado. Neste caso, o sinal de áudio quantificado é gerado por uso de uma referência de modelagem de ruído, para um sinal de áudio transformado em frequência. E, a referência de modelagem de ruído pode ser determinada por uso de um coeficiente de previsão de modelagem, gerado por aplicação de um peso em um coeficiente de previsão linear do sinal de áudio.

A Figura 6 é um diagrama para as variações de um valor de referência modificado por ruído, usando uma unidade de modelo psicoacústico, de acordo com uma outra concretização da presente invenção.

Com referência à Figura 6, um eixo horizontal indica uma frequência e um eixo vertical indica uma intensidade de um sinal (dB). Uma linha sólida ^0J indica um espectro de um sinal de áudio introduzido. Uma linha pontilhada ⁰,³ indica uma referência de modelagem de ruído prévia. E, uma linha pontilhada ^0/4 indica uma referência de modelagem de ruído recém-gerada, por uso de um coeficiente de previsão linear, calculado por análise de previsão linear, e de um coeficiente de previsão de modelagem, gerado por aplicação de um determinado peso ao coeficiente de previsão linear.

Petição 870190126028, de 29/11/2019, pág. 24/46

14/21

Considerando uma forma de onda de um sinal de áudio introduzido em um gráfico, um ponto de topo de uma forma de onda é denominado um formador e um ponto de fundo da forma de onda é denominado um vale. Por exemplo, um ponto A, mostrado na Figura 6, se transforma em um formador e um ponto B se transforma em um vale. No caso de codificação de fala, com base no fato de que as características auriculares humanas são sensíveis ao ruído de quantificação, em uma região de vale de um espectro de frequência, o número de bits relativamente maior é alocado na região de vale na codificação de sinal de áudio, para eliminar o ruído de quantificação na região de vale. E, o número de bits relativamente menor é alocado em uma região de formador por incrementação de uma referência de modelamento de ruído da região de formador tendo uma energia relativamente maior. Portanto, uma razão de compressão é mantida e uma melhor qualidade de som pode ser implementada. Em particular, a referência de modelagem de ruído do ponto A é ajustada mais alta do que aquela de um anterior, e um valor de curva de mascaramento do ponto B é ajustado mais baixo do que aquele de um relacionado. Por conseguinte, é capaz de aumentar a eficiência de codificação em um sinal de fala. Isto é, na etapa de quantificação de um sinal de áudio transformado em frequência, o peso é aplicável na direção de aumento do ruído de quantificação de um sinal de áudio correspondente a uma região de formador de um espectro de frequência, para um coeficiente de previsão linear, mas diminuindo o ruído de quantificação do sinal de áudio correspondente a uma região de vale.

Para isso, a unidade de geração de coeficiente 502a, mostrada na Figura 5, é capaz de encontrar uma função de transferência, construída com coeficientes de previsão linear por análise de previsão linear. Um espectro de frequência dessa função de transferência é representado em um envelope de um espectro de frequência para um sinal de entrada. Essas função de transferência é denominada um coeficiente de previsão linear, que mostra uma forma similar a uma referência de modelagem de ruído do modelo psicoacústico (PAM), usado em um processo de codificação de áudio da técnica relacionada. Usando esse aspecto, a função de transferência encontrada pela unidade de geração de coeficiente 502a, isto é, um coeficiente de previsão linear é originado. Por ajuste de uma referência de modelagem de ruído encontrada experimentalmente na técnica relacionada, à base do coeficiente de previsão linear originado, é capaz de atenuar, de uma forma mais eficiente, o ruído de quantificação, de acordo com uma redução da taxa de bits. E é capaz de reduzir um grau operacional. Além do mais, a unidade de geração de coeficiente 502a gera um coeficiente de previsão de modelagem por implementação de um filtro de ponderação, em uma maneira de aplicar um coeficiente de ponderação adequado aos coeficientes de previsão linear. Portanto, é capaz de ajustar os pesos nas regiões de formador e de vale de um espectro, de uma maneira simples, usando o coeficiente de previsão de modelamento.

Se esse esquema for aplicado a um processo de codificação de áudio, mais bits

Petição 870190126028, de 29/11/2019, pág. 25/46

15/21 são alocados a uma região de vale de um espectro, em que a influência de ruído de quantificação é sensível ao aspecto auricular, por diminuição de uma referência de modelagem de ruído, e o número de bits alocado a uma região de formador, tendo uma influência de erro relativamente menor, é diminuído por elevação de uma referência de modelagem de ruído. Por conseguinte, é capaz de melhorar o desempenho da codificação em aspecto auricular. Fazendo-se assim, a eficiência de codificação pode ser ainda melhorada por um ajuste adaptativo de um coeficiente de ponderação, para ajustar a ponderação percentual a essa característica do sinal de entrada como achatamento de um espectro, em vez de aplicar da mesma forma o coeficiente de ponderação. Portanto, no aperfeiçoamento de uma referência de modelagem de ruído, usando a previsão linear e o peso, é vantajoso que uma referência de modelagem de ruído possa ser derivada por aplicação de uma ponderação percentual a um modelo psicoacústico, em envelopar a análise em um espectro.

A Figura 7 é um fluxograma para um método de geração de um valor de referência de ruído modificado, usando uma unidade de modelo psicoacústico, de acordo com uma outra concretização da presente invenção.

Com referência à Figura 7, se um sinal de áudio for introduzido na unidade de modelo psicoacústico 502, a unidade de geração de coeficiente 502a gera uma função de transferência, construída com coeficientes de previsão linear, usando uma codificação de previsão linear [s200]. Um espectro de frequência da função de transferência é representado como um envelope de um espectro de frequência para um sinal de entrada. Essa função de transferência é chamada um coeficiente de previsão linear e tem uma forma similar àquela de uma referência de modelagem de ruído do modelo psicoacústico (PAM), usado para um processo de codificação de áudio da técnica anterior. A unidade de geração de coeficiente 502a recebe uma entrada do sinal de áudio e depois determina um coeficiente de ponderação, adequado para os coeficientes de previsão linear [S210]. Subsequentemente, a unidade de determinação de referência de modelagem de ruído 502b gera um envelope corrigido por aplicação do coeficiente de ponderação determinado na etapa S210 para o envelope anterior da função de transferência, construído com os coeficientes de previsão linear encontrados na etapa S200 [S220]. A unidade de determinação de referência de modelagem de ruído 502b calcula então uma resposta de impulso do envelope gerado na etapa S200 [S230]. Nesse caso, a resposta de impulso desempenha o papel de um tipo de filtragem. A unidade de determinação de referência de modelagem de ruído 502b transforma um sinal do eixo de tempo em um sinal do eixo de frequência por execução de FTT no envelope filtrado na etapa S230 [S240]. A unidade de determinação de referência de modelagem de ruído 502b determina um nível de mascaramento, para ajustar uma referência de modelagem de ruído para o envelope transformado no sinal de eixo de frequência [S250]. Finalmente, a unidade de determinação de referência de modelagem de ruído 502b então divide um sinal

Petição 870190126028, de 29/11/2019, pág. 26/46

16/21 para mascarar a razão (SMR) por subfaixa [S260].

Por meio do processo mencionado acima, um filtro de ponderação é implementado por aplicação de um coeficiente de ponderação nos coeficientes psicoacústicos. Comparado com uma referência de modelagem de ruído da técnica relacionada, um valor de uma região de formador de uma referência de modelagem de ruído é aumentado em um espectro de frequência, e um valor de uma região de vale é diminuído. Portanto, é capaz de alocar um número relativamente maior de bits para a região de vale.

Enquanto isso, é capaz de melhorar a eficiência de codificação usando uma codificação de previsão linear distorcida (análise LP distorcida), em vez de usar a codificação de previsão linear (análise de previsão linear) na etapa S200. Em particular, a codificação de previsão linear distorcida é conduzida, para reduzir uma taxa de dados em um codificador de áudio de alta eficiência, em uma maneira de comprimir um sinal por um esquema de codificação de áudio de núcleo de aplicar um modelo psicoacústico da presente invenção até uma faixa de baixas frequências, e aplicar uma extensão de faixa de banda ou réplica de faixa espectral (SBR) ao resto dos componentes de alta frequência, usando as informações de baixa frequência. No caso desse codificador de alta frequência, um modelo psicoacústico, à base de referência de modelagem de ruído, é necessário apenas até uma faixa de baixas frequências. No caso do uso da codificação de previsão linear distorcida, pode ser possível aumentar a eficiência de modelagem de envelope por aumento da resolução de frequência de uma faixa de frequência específica.

O codificador de sinal de áudio, mostrado na Figura 4 ou Figura 5, é operável em um dispositivo carregado com ambos um codificador de sinal de música e um codificador de sinal de fala. No caso em que uma característica de música é dominante em um quadro ou segmento específico de um sinal de redução estereofônica, o codificador de sinal de áudio codifica o sinal de redução estereofônica, de acordo com um esquema de codificação de música. Nesse caso, o codificador de sinal de música pode corresponder a um codificador de transformação distinta modificada (MDCT).

No caso em que uma característica de fala é dominante em um quadro ou segmento específico de um sinal de redução estereofônica, o codificador de sinal de áudio codifica o sinal de redução estereofônica, de acordo com um esquema de codificação de fala. Enquanto isso, é capaz de aperfeiçoar um esquema de codificação de previsão linear, usado para um codificador de sinal de fala, em um esquema proposto pela presente invenção. No caso em que um sinal harmônico tem uma alta redundância em um eixo de tempo, pode ser modelado por previsão linear, para prever um sinal atual de um sinal passado. Nesse caso, é capaz de aumentar a eficiência de codificação se um esquema de codificação de previsão linear for aplicado. Enquanto isso, o codificador de sinal de fala pode corresponder a um codificador de domínio de tempo.

Petição 870190126028, de 29/11/2019, pág. 27/46

17/21

A Figura 8 é um diagrama de blocos de um aparelho de decodificação de áudio, de acordo com uma concretização da presente invenção.

Com referência à Figura 8, um aparelho de decodificação é capaz de reconstruir um sinal de um fluxo de bits introduzido por condução de um processo inverso ao processo de codificação conduzido pelo aparelho de codificação, descrito com referência à Figura 1. Em particular, o aparelho de decodificação pode incluir um desmultiplexador 210, uma unidade de determinação de decodificador 220, uma unidade de decodificação 230 e uma unidade de síntese 240. A unidade de decodificação 230 pode incluir uma pluralidade de unidades de decodificação 231, 232 e 233, para conduzir decodificação por diferentes esquemas, respectivamente. E são operadas sob o controle da unidade de determinação de decodificador 220. Mais particularmente, a unidade de decodificação 230 pode incluir uma unidade de decodificação de previsão linear 231, uma unidade de decodificação psicoacústica 232 e uma unidade de decodificação de sinal misto 233. Além do mais, a unidade de decodificação de sinal misto 233 pode incluir uma unidade de extração de informações 234, uma unidade de transformação em frequência 235 e uma unidade de previsão linear 236.

O desmultiplexador 210 extrai uma pluralidade de sinais codificados e informações laterais de um fluxo de bits introduzido. Nesse caso, as informações laterais são extraídas para reconstruir os sinais. O desmultiplexador 210 extrai as informações laterais, que são incluídas no fluxo de bits, por exemplo, informações do primeiro tipo e informações do segundo tipo (incluídas apenas se necessário), e depois transfere as informações laterais extraídas para a unidade de determinação de decodificador 220.

A unidade de determinação de decodificador 220 determina um dos esquemas de decodificação dentro das unidades de decodificação 231, 232 e 233 das informações do primeiro tipo recebidas e das informações do segundo tipo recebidas (incluídas apenas se necessário). Embora a unidade de determinação de decodificador 220 seja capaz de determinar o esquema de decodificação usando as informações laterais extraídas do fluxo de bits, se as informações laterais não existirem dentro do fluxo de bits, a unidade de determinação de decodificador 220 é capaz de determinar um esquema por um método de determinação independente. Esse método de determinação pode ser conduzido de uma maneira a utilizar as características da unidade de classificação de sinal mencionada acima (conforme '100' na Figura 1).

O decodificador de previsão linear 231, dentro da unidade de decodificação 230, é capaz de decodificar um tipo de sinal de fala de um sinal de áudio. O decodificador psicoacústico 233 decodifica um tipo de sinal de música de um sinal de áudio. E o decodificador de sinal misto 233 decodifica um tipo misto de música & fala de um sinal de áudio. Em particular, o decodificador de sinal misto 233 inclui uma unidade de extração de informações 234, para extração de dados espectrais e de um coeficiente de previsão linear de um sinal de

Petição 870190126028, de 29/11/2019, pág. 28/46

18/21 áudio, uma unidade de transformação em frequência 235, para gerar um sinal residual para previsão linear por transformação inversa de dados espectrais, e uma unidade de previsão linear 236, para gerar um sinal de saída por execução de codificação de previsão linear no coeficiente de previsão linear e no sinal residual.

Os sinais decodificados são reconstruídos em um sinal de áudio original, sendo sintetizados conjuntamente pela unidade de síntese 240.

Na descrição a seguir, um método de decodificação, de acordo com a presente invenção, é explicado em detalhes, com referência a um fluxograma mostrado na Figura 11.

Primeiro de tudo, o desmultiplexador 210 extrai informações do primeiro tipo e informações do segundo tipo (se necessário) de um fluxo de bits introduzido. A unidade de determinação de decodificador 220 determina um tipo de codificação de um sinal de áudio recebido, usando as informações do primeiro tipo das informações extraídas no primeiro local [S1000]. Se um sinal de música for recebido, a unidade de decodificação psicoacústica 232, dentro da unidade de decodificação 230, é utilizada. Um esquema de codificação, aplicado por quadro ou subquadro, é determinado de acordo com as informações do primeiro tipo. A decodificação é então feita por aplicação de um esquema de codificação adequado [S1000].

Se for determinado que um tipo de codificação do sinal de áudio recebido não for um tipo de codificação de sinal de música, usando as informações do primeiro tipo, a unidade de determinação de decodificador 220 determina se o tipo de codificação do sinal de áudio recebido é um tipo de codificação de sinal de fala ou um tipo de codificação de sinal misto, usando as informações do segundo tipo [S1200].

Se as informações do segundo tipo indicarem o tipo de codificação de sinal de fala, o esquema de aplicação aplicado por quadro ou subquadro é determinado por utilização das informações de identificação de codificação, extraídas do fluxo de bits, de uma maneira a utilizar a unidade de decodificação de previsão linear 230. A decodificação é então conduzida por aplicação de um esquema de codificação adequado [S1300].

Se as informações do segundo tipo indicarem o tipo de codificação de sinal misto, o esquema de aplicação aplicado por quadro ou subquadro é determinado por utilização das informações de identificação de codificação, extraídas do fluxo de bits, de uma maneira a utilizar a unidade de decodificação de sinal misto 233, dentro da unidade de decodificação 230. A decodificação é então conduzida por aplicação de um esquema de codificação adequado [S1400].

Além disso, como um pós-processamento do processo de decodificação de sinal de áudio, usando a unidade de decodificação psicoacústica 232 e a unidade de decodificação de sinal misto 233, uma unidade de decodificação de extensão de largura de faixa pode conduzir um processo de extensão de faixa de frequências [não mostrado no desenho]. O

Petição 870190126028, de 29/11/2019, pág. 29/46

19/21 processo de extensão de faixa de frequências é conduzido em uma maneira na qual a unidade de decodificação de extensão de largura de faixa gera dados espectrais de uma faixa diferente (por exemplo, uma faixa de alta frequência) de uma parte dos dados espectrais ou de todos os dados espectrais por decodificação das informações de extensão de largura de faixa incluídas em um fluxo de bits de sinais de áudio. Fazendo-se isso, as unidades tendo características similares podem ser agrupadas em um bloco na extensão da faixa de frequências. Esse é o mesmo método de gerar uma região de envelope por ranhuras (ou amostras) do tipo agrupamento tendo um envelope (ou uma característica de envelope) comum.

A Figura 9 é um diagrama para uma configuração de um produto implementado com um aparelho de decodificação de áudio, de acordo com uma concretização da presente invenção. E a Figura 10 é um diagrama para um exemplo de relações entre os produtos implementados com um aparelho de decodificação de áudio, de acordo com uma concretização da presente invenção.

Com referência à Figura 9, uma unidade de comunicação com fio / sem fio 910 recebe um fluxo de bits por um sistema de comunicação com fio / sem fio. Em particular, a unidade de comunicação com fio / sem fio 910 pode incluir pelo menos um de uma unidade de comunicação com fio 910A, uma unidade de comunicação por IR (radiação infravermelha) 910B, uma unidade Bluetooh 910C e uma unidade de comunicação LAN sem fio 910D.

Uma unidade de autenticação de usuário 920 recebe uma entrada de informações de usuário e depois executa autenticação de usuário. A unidade de autenticação de usuário 920 pode incluir pelo menos uma de uma unidade de reconhecimento de impressão digital 920A, uma unidade de reconhecimento de íris 920B, uma unidade de reconhecimento de face 920C e uma unidade de reconhecimento de fala 920D. A unidade de autenticação de usuário 920 é capaz de executar a autenticação de usuário de uma maneira de introduzir as informações de impressão digital / íris / contorno de face / fala na unidade de reconhecimento correspondente 920A / 920B / 920C / 920D, convertendo as informações introduzidas em informações de usuário e depois determinando se as informações de usuário são idênticas aos dados de usuário registrados previamente.

Uma unidade de entrada 930 é um dispositivo de entrada para permitir que um usuário introduza vários tipos de comandos. A unidade de entrada 930 é capaz de incluir pelo menos uma de uma unidade de teclado compacto 930A, uma unidade de mesa de toque 930B e uma unidade de controle remoto 930C, pelas quais a presente invenção não é limitada. Uma unidade de decodificação de sinal 940 pode incluir um aparelho de decodificação de áudio 945, que pode ser o aparelho de decodificação de áudio descrito com referência à Figura 8. O aparelho de decodificação de áudio 945 se decide por pelo menos um dos diferentes esquemas e executa a decodificação usando pelo menos uma de uma unidaPetição 870190126028, de 29/11/2019, pág. 30/46

20/21 de de decodificação de previsão linear, uma unidade de decodificação psicoacústica e uma unidade de decodificação de sinal misto. A unidade de decodificação de sinal 940 transmite um sinal de saída por decodificação de um sinal, usando uma unidade de decodificação correspondente à característica do sinal.

Uma unidade de controle 950 recebe sinais de entrada de dispositivos de entrada e controla todos os processos da unidade de decodificação de sinal 940 e de uma unidade de saída 960. E a unidade de saída 960 é um elemento para saída do sinal de saída gerado pela unidade de decodificação de sinal 940, ou assemelhados. A unidade de saída 960 é capaz de incluir uma unidade de alto-falante 960A e um unidade de monitor 960B. Se um sinal de saída for um sinal de áudio, é transmitido a um alto-falante. Se um sinal de saída for um sinal de vídeo, é transmitido por meio de um monitor.

A Figura 10 mostra as relações entre um terminal e um servidor correspondentes aos produtos mostrados na Figura 9. Com referência a (A) da Figura 10, pode-se observar que um primeiro terminal 1001 e um segundo terminal 1002 são capazes de comunicação bidirecional entre si, por meio de uma unidade de comunicação com fio / sem fio, para trocar dados e/ou fluxos de bits. Com referência a (B) da Figura 10, pode-se observar que um servidor 1003 e um primeiro terminal 1001 são capazes de executar comunicações com fio / sem fio.

Um método de processamento de sinal de áudio, de acordo com a presente invenção, pode ser implementado em um programa a ser rodado em um computador e pode ser armazenado em meio de gravação legível por computador. E os dados multimídia tendo uma estrutura de dados, de acordo com a presente invenção, podem ser também armazenados em um meio de gravação legível por computador. Os meios legíveis por computador incluem todos os tipos de dispositivos de gravação, nos quais os dados legíveis por um sistema de computador são armazenados. Os meios legíveis por computador incluem, por exemplo, ROM, RAM, CD-ROM, fitas magnéticas, discos flexíveis, dispositivos de armazenamento de dados ópticos, e assemelhados, e também incluem implementações do tipo de onda portadora (por exemplo, transmissão pela Internet). Além do mais, um fluxo de bits, gerado pelo método de codificação, é armazenado em um meio de gravação legível por computador, ou pode ser transmitido por rede de comunicação com fio / sem fio.

Consequentemente, a presente invenção proporciona os efeitos ou vantagens apresentados a seguir.

Primeiro de tudo, a presente invenção classifica sinais de áudio em diferentes tipos e proporciona um esquema de codificação de áudio adequado para as características dos sinais de áudio classificados, propiciando, desse modo, uma compressão e uma reconstrução mais eficientes de um sinal de áudio.

Ainda que a presente invenção tenha sido descrita e ilustrada no presente relatório

Petição 870190126028, de 29/11/2019, pág. 31/46

21/21 descritivo com referência às suas concretizações preferidas, vai ser evidente para aqueles versados na técnica que várias modificações e variações podem ser feitas nela, sem que se afaste dos espírito e âmbito da invenção. Desse modo, intenciona-se que a presente invenção cubra as modificações e variações dessa invenção que se enquadrem dentro do âmbito 5 das reivindicações em anexo e seus equivalentes.

Claims

REIVINDICAÇÕES

1. Método para processar um sinal de áudio CARACTERIZADO pelo fato de que compreende as etapas de:

identificar (S1000) se um tipo de codificação do sinal de áudio é um tipo de codificação de sinal de música, usando informações de primeiro tipo;

se o tipo de codificação do sinal de áudio não for o tipo de codificação de sinal de música, identificar (S1000) se o tipo de codificação do sinal de áudio é um tipo de codificação de sinal de fala ou um tipo de codificação de sinal misto, usando informações de segundo tipo;

se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal misto, extrair dados espectrais e um coeficiente de predição linear do sinal de áudio;

gerar um sinal residual para predição linear pela execução de conversão de frequência inversa nos dados espectrais; e reconstruir o sinal de áudio pela execução de codificação de predição linear no coeficiente de predição linear e no sinal residual, em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de música é usada apenas a informação de primeiro tipo, e, em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de fala ou o tipo de codificação de sinal misto, ambas as informações de primeiro tipo e de segundo tipo são usadas.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que compreende ainda as etapas de:

se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal misto, reconstruir um sinal de banda de alta frequência usando um sinal de banda de baixa frequência do sinal de áudio reconstruído; e gerar uma pluralidade de canais por mistura crescente do sinal de áudio reconstruído.
3. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o sinal de áudio inclui uma pluralidade de subquadros, e em que a informação de segundo tipo existe por uma unidade do subquadro.
4. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que, se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de música, o sinal de áudio compreende um sinal de domínio de frequência, em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de fala, o sinal de áudio compreende um sinal de domínio de tempo, e em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal misto, o sinal de áudio compreende um sinal de domínio MDCT.
5. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a

Petição 870190126028, de 29/11/2019, pág. 33/46

2/4 etapa de extrair coeficiente de predição linear compreende as etapas de:

extrair um modo de coeficiente de predição linear; e extrair o coeficiente de predição linear tendo um tamanho de bits variável, correspondente ao modo de coeficiente de predição linear extraído.
6. Aparelho para processar um sinal de áudio, CARACTERIZADO pelo fato de que compreende:

um demultiplexador (210) para extrair informação do primeiro tipo e informação de segundo tipo de um fluxo de bits;

uma unidade de determinação de decodificador (220) identificando se um tipo de codificação do sinal de áudio é um tipo de codificação de sinal de música usando informação de primeiro tipo, o decodificador, se o tipo de codificação do sinal de áudio não for o tipo de codificação de sinal de música, identificando se o tipo de codificação do sinal de áudio é um tipo de codificação de sinal de fala ou um tipo de codificação de sinal misto usando informação de segundo tipo, o decodificador determinando então um esquema de decodificação;

uma unidade de extração de informação (234), se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal misto, extraindo dados espectrais e um coeficiente de predição linear do sinal de áudio;

uma unidade de transformação de frequência (235) gerando um sinal residual para predição linear pela execução de conversão de frequência inversa nos dados espectrais; e uma unidade de predição linear (236) reconstruindo o sinal de áudio pela execução de codificação de predição linear no coeficiente de predição linear e no sinal residual, em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de música, é usada apenas a informação de primeiro tipo, e em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de fala ou o tipo de codificação de sinal misto, ambas as informações de primeiro tipo e de segundo tipo são usadas.
7. Aparelho, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que compreende ainda:

uma unidade de decodificação de extensão de largura de banda, se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal misto, reconstruindo um sinal de banda de alta frequência usando um sinal de banda de baixa frequência do sinal de áudio reconstruído; e uma unidade de decodificação de extensão de canal gerando uma pluralidade de canais pela mistura crescente do sinal de áudio reconstruído.
8. Aparelho, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que o sinal de áudio inclui uma pluralidade de subquadros, e em que a informação de segundo

Petição 870190126028, de 29/11/2019, pág. 34/46

3/4 tipo existe por uma unidade do subquadro.
9. Aparelho, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que, se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de música, o sinal de áudio compreende um sinal no domínio da frequência, em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de fala, o sinal de áudio compreende um sinal no domínio do tempo, e em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal misto, o sinal de áudio compreende um sinal no domínio MDCT.
10. Aparelho, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que a unidade de extração de informação extraindo o coeficiente de predição linear verifica um modo de coeficiente de predição linear e então extrai o coeficiente de predição linear tendo um tamanho de bits variável correspondente ao modo de coeficiente de predição linear extraído.
11. Método para processar um sinal de áudio CARACTERIZADO pelo fato de que compreende as etapas de:

determinar (S100, S120) um tipo de codificação do sinal de áudio;

se o sinal de áudio for um sinal de música, gerar informação de primeiro tipo indicativa de que o sinal de áudio é codificado em um tipo de codificação de sinal de música;

se o sinal de áudio não for o sinal de música, gerar informação de segundo tipo indicativa de que o sinal de áudio é codificado em um tipo de codificação de sinal de fala ou um tipo de codificação de sinal misto;

se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal misto, gerar um coeficiente de predição linear pela execução de codificação de predição linear no sinal de áudio;

gerar um sinal residual para a codificação de predição linear;

gerar um coeficiente espectral pela transformação de frequência do sinal residual; e gerar (S130, S140) um fluxo de bits de áudio incluindo a informação de primeiro tipo, a informação de segundo tipo, o coeficiente de predição linear e o sinal residual, em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de música, é gerada apenas informação de primeiro tipo, e em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de fala ou o tipo de codificação de sinal misto, ambas as informações do primeiro tipo e de segundo tipo são geradas.
12. Método, de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que o sinal de áudio inclui uma pluralidade de subquadros e em que a informação de segundo tipo é gerada por subquadro.
13. Aparelho para processar um sinal de áudio, CARACTERIZADO pelo fato de que compreende:

Petição 870190126028, de 29/11/2019, pág. 35/46

4/4 uma unidade de classificação de sinal (100) determinando um tipo de codificação do sinal de áudio, a unidade de classificação de sinal, se o sinal de áudio for um sinal de música, gerando informação de primeiro tipo indicativa de que o sinal de áudio é codificado em um tipo de codificação de sinal de música, a unidade de classificação de sinal, se o sinal de áudio não for o sinal de música, gerando informação de segundo tipo indicativa de que o sinal de áudio é codificado em um tipo de codificação de sinal de fala ou um tipo de codificação de sinal misto;

uma unidade de modelagem de predição linear (110), se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal misto, gerando um coeficiente de predição linear pela execução de codificação de predição linear no sinal de áudio;

uma unidade de extração de sinal (132) residual gerando um sinal residual para a codificação de predição linear; e uma unidade de transformação em frequência (133) gerando um coeficiente espectral por transformação de frequência do sinal residual, em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de música, é gerada apenas informação de primeiro tipo, e em que se o tipo de codificação do sinal de áudio for o tipo de codificação de sinal de fala ou o tipo de codificação de sinal misto, ambas as informações de primeiro tipo e de segundo tipo são geradas.
14. Aparelho, de acordo com a reivindicação 13, CARACTERIZADO pelo fato de que o sinal de áudio inclui uma pluralidade de subquadros e em que a informação de segundo tipo é gerada por subquadro.
15. Aparelho, de acordo com a reivindicação 13, CARACTERIZADO pelo fato de que compreende:

uma unidade de geração de coeficiente (502a), se o tipo de codificação do sinal de áudio for a codificação de sinal de música, gerando o coeficiente de predição linear usando a codificação de predição linear, a unidade de geração de coeficiente fornecendo um peso para o coeficiente de predição linear; e uma unidade de determinação de referência (502b) gerando uma referência de formatação de ruído usando o coeficiente de predição linear de peso fornecido.