BR112018007172B1

BR112018007172B1 - Método para decodificar uma representação de som ambissônica de ordem superior (hoa) compactada de um som ou campo sonoro

Info

Publication number: BR112018007172B1
Application number: BR112018007172-2A
Authority: BR
Inventors: Sven Kordon; Alexander Krueger
Original assignee: Dolby International Ab
Priority date: 2015-10-08
Filing date: 2016-10-07
Publication date: 2023-05-16
Also published as: IL258360B; ZA202204176B; CN108140392B; IL300036B1; US20230215446A1; AU2016336258A1; JP6797198B2; KR20180066136A; US11232801B2; CA3217921A1; CN116206617A; TWI703558B; MX2020008983A; EP3360133B1; IL292854B2; CN108140392A; EA201890843A1; BR122019020650B1; ZA202001983B; JP2022160602A

Abstract

CODIFICAÇÃO EM CAMADAS PARA REPRESENTAÇÕES DE SOM OU CAMPO SONORO COMPACTADAS. É revelado um método de codificação em camadas de uma representação de som compactada de um som ou campo sonoro. A dita representação compreende uma representação de som compactada básica compreendendo uma pluralidade de componentes, informações externas básicas para decodificar a representação de som compactada básica para uma representação de som reconstruída básica do som ou campo sonoro, e informações externas de aperfeiçoamento incluindo parâmetros para aprimorar a representação de som reconstruída básica. O método compreende subdividir a pluralidade de componentes em uma pluralidade de grupos de componentes e atribuir cada um da pluralidade de grupos a uma respectiva camada de uma pluralidade de camadas hierárquicas, o número de grupos correspondendo ao número de camadas, a pluralidade de camadas incluindo uma camada de base e uma ou mais camadas de aperfeiçoamento hierárquicas, adicionar as informações externas básicas à camada de base, determinar uma pluralidade de porções de informações externas de aperfeiçoamento das informações externas de aperfeiçoamento e atribuir cada uma da pluralidade de porções de informações externas de aperfeiçoamento a uma respectiva camada da pluralidade de camadas, cada porção de informações externas de aperfeiçoamento incluindo parâmetros para aprimorar uma (...).

Description

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS

[001] Este pedido reivindica a prioridade dos Pedidos de Patente n° EP 15306589.1 depositado em 8 de outubro de 2015 e EP 15306653.5 depositado em 15 de outubro de 2015, e dos Pedidos de Patente US n° 62/361.416 e 62/361.416, que estão aqui incorporados por referência em sua totalidade.

CAMPO DA TÉCNICA

[002] O presente documento refere-se a métodos e aparelhos para codificação de áudio em camadas. Em particular, o presente documento se refere a métodos e aparelhos para codificação de áudio em camadas de representações de som (ou campo sonoro) compactadas, por exemplo, representações de som (ou campo sonoro) de Ambissônica de Ordem Superior (HOA).

ANTECEDENTES

[003] Para a transmissão contínua de uma representação de som (ou campo sonoro) em um canal de transmissão com condições variáveis com o tempo, a codificação em camadas é um meio para adaptar a qualidade da representação de som recebida às condições de transmissão e, em particular, para evitar aberrações de sinal indesejadas.

[004] Para a codificação em camadas, a representação de som (ou campo sonoro) é usualmente subdividida em uma camada base de alta prioridade de um tamanho relativamente pequeno e camadas de aperfeiçoamento adicionais com prioridades decrementais e tamanhos arbitrários. Presume-se que cada camada de aperfeiçoamento tipicamente contém informações incrementais para complementar todas as camadas inferiores a fim de aprimorar a qualidade da representação de som (ou campo sonoro). A quantidade de proteção contra erro para a transmissão das camadas individuais é controlada com base na sua prioridade. Em particular, a camada base é dotada de uma alta proteção contra erro, que é razoável e acessível devido a seu pequeno tamanho.

[005] Entretanto, existe uma necessidade de esquemas de codificação em camadas para (versões estendidas de) tipos especiais de representações compactadas de som ou campos sonoros, como, por exemplo, representações de som ou campo sonoro de HOA compactadas.

[006] O presente documento aborda as questões acima. Em particular, são descritos métodos e codificadores/decodificadores para codificação em camadas de representações de som ou campo sonoro compactadas.

SUMÁRIO

[007] De acordo com um aspecto, é descrito um método de codificação em camadas de uma representação de som compactada de um som ou campo sonoro. A representação de som compactada pode incluir uma representação de som compactada básica que inclui uma pluralidade de componentes. A pluralidade de componentes podem ser componentes complementares. A representação de som compactada pode incluir, ainda, informações laterais básicas para decodificar a representação de som compactada básica para uma representação de som reconstruída básica do som ou campo sonoro. A representação de som compactada pode incluir, ainda, informações laterais de aperfeiçoamento incluindo parâmetros para aprimorar (por exemplo, aperfeiçoar) a representação de som reconstruída básica. O método pode incluir subdividir (por exemplo, agrupar) a pluralidade de componentes em uma pluralidade de grupos de componentes. O método pode incluir, ainda, atribuir (por exemplo, adicionar) cada um da pluralidade de grupos a uma respectiva camada de uma pluralidade de camadas hierárquicas. A atribuição pode indicar uma correspondência entre os respectivos grupos e camadas. Pode-se dizer que componentes atribuídos a uma respectiva camada estão incluídos naquela camada. O número de grupos pode corresponder (por exemplo, ser igual) ao número de camadas. A pluralidade de camadas pode incluir uma camada base e uma ou mais camadas de aperfeiçoamento hierárquicas. A pluralidade de camadas hierárquicas pode ser ordenada, da camada base, através da primeira camada de aperfeiçoamento, da segunda camada de aperfeiçoamento, e assim em diante, até uma camada de aperfeiçoamento mais alta geral (camada mais alta geral). O método pode incluir, ainda, adicionar as informações laterais básicas à camada base (por exemplo, incluindo as informações laterais básicas na camada base, ou alocar as informações laterais básicas na camada base, por exemplo, para propósitos de transmissão ou armazenamento). O método pode incluir, ainda, determinar uma pluralidade de porções de informações laterais de aperfeiçoamento das informações laterais de aperfeiçoamento. O método pode incluir, ainda, atribuir (por exemplo, adicionar) cada uma da pluralidade de porções de informações laterais de aperfeiçoamento a uma respectiva camada da pluralidade de camadas. Cada porção de informações laterais de aperfeiçoamento pode incluir parâmetros para aprimorar uma representação de som reconstruída (por exemplo, descompactada) obtenível junto aos dados incluídos (por exemplo, atribuídos ou adicionados) na respectiva camada e qualquer uma das camadas inferiores à respectiva camada. A codificação em camadas pode ser realizada para propósitos de transmissão em um canal de transmissão ou para propósitos de armazenamento em um meio de armazenamento adequado, como um CD, DVD ou Blu-ray Disc™, por exemplo.

[008] Configurado como acima, o método proposto permite aplicar de maneira eficiente a codificação em camadas a representações de som compactadas que compreendem uma pluralidade de componentes bem como primeiras informações e informações laterais de aperfeiçoamento (por exemplo, informações laterais básicas independentes e informações laterais de aperfeiçoamento) que têm as propriedades apresentadas acima. Em particular, o método proposto garante que cada camada inclua informações laterais adequadas para reconstruir uma representação de som reconstruída dos componentes incluídos em qualquer uma das camadas acima da camada em questão. Nisso, entende-se que as camadas acima da camada em questão incluem, por exemplo, a camada base, a primeira camada de aperfeiçoamento, a segunda camada de aperfeiçoamento, e assim em diante, até a camada em questão. Dessa forma, independente de uma camada utilizável mais alta real (por exemplo, a camada abaixo da camada mais baixa que não foi recebida de maneira válida, de modo que todas as camadas abaixo da camada utilizável mais alta e da própria camada utilizável mais alta tenham sido recebidas de maneira válida), um decodificador teria a capacidade de aprimorar ou aperfeiçoar uma representação de som reconstruída, mesmo que a representação de som reconstruída possa ser diferente da representação de som completa (por exemplo, total). Em particular, independente da camada utilizável mais alta real, é suficiente que o decodificador decodifique um conteúdo de informações laterais de aperfeiçoamento apenas para uma camada única (isto é, para a camada utilizável mais alta) para aprimorar ou aperfeiçoar a representação de som reconstruída que é obtenível na base de todos os componentes incluídos em camadas até a camada utilizável mais alta real. Ou seja, para cada intervalo de tempo (por exemplo, quadro), apenas um conteúdo único de informações laterais de aperfeiçoamento deve ser decodificado. Por outro lado, o método proposto permite tirar vantagem total da redução de largura de banda exigida que pode ser alcançada durante a aplicação de codificação em camadas.

[009] Em modalidades, os componentes da representação de som compactada básica podem corresponder a sinais monaurais (por exemplo, sinais de transporte ou sinais de transporte monaurais). Os sinais monaurais podem representar ou sinais sonoros predominantes ou sequências de coeficiente de uma representação de HOA. Os sinais monaurais podem ser quantizados.

[010] Em modalidades, as informações laterais básicas podem incluir informações que especificam decodificar (por exemplo, descompactação) de um ou mais da pluralidade de componentes individualmente, independentemente de outros componentes. Por exemplo, as informações laterais básicas podem representar informações laterais relacionadas a sinais monaurais individuais, independentemente de outros sinais monaurais. Dessa forma, as informações laterais básicas podem ser referidas como informações laterais básicas independentes.

[011] Em modalidades, as informações laterais de aperfeiçoamento podem representar informações laterais de aperfeiçoamento. As informações laterais de aperfeiçoamento podem incluir parâmetros de predição para a representação de som compactada básica para aprimorar (por exemplo, aperfeiçoar) a representação de som reconstruída básica que é obtenível da representação de som compactada básica e das informações laterais básicas.

[012] Em modalidades, o método pode incluir, ainda, gerar um fluxo de transporte para a transmissão dos dados da pluralidade de camadas (por exemplo, dados atribuídos ou adicionados a respectivas camadas, ou incluídos de outro modo em respectivas camadas). A camada base pode ter a prioridade mais alta de transmissão e as camadas de aperfeiçoamento hierárquicas podem ter prioridades decrementais de transmissão. Ou seja, a prioridade de transmissão pode diminuir da camada base para a primeira camada de aperfeiçoamento, da primeira camada de aperfeiçoamento para a segunda camada de aperfeiçoamento, e assim em diante. Uma quantidade de proteção contra erro para a transmissão dos dados da pluralidade de camadas pode ser controlada de acordo com as respectivas prioridades de transmissão. Assim, pode-se assegurar que pelo menos inúmeras camadas inferiores sejam transmitidas com segurança, enquanto que, por outro lado, reduz a largura de banda exigida geral por maio da não aplicação de proteção contra erro excessiva a camadas mais altas.

[013] Em modalidades, o método pode incluir, ainda, para cada uma da pluralidade de camadas, gerar um pacote de camada de transporte incluindo os dados da respectiva camada. Por exemplo, para cada intervalo de tempo (por exemplo, quadro), um respectivo pacote de camada de transporte pode ser gerado para cada uma da pluralidade de camadas.

[014] Em modalidades, a representação de som compactada pode incluir, ainda, informações laterais básicas adicionais para decodificar a representação de som compactada básica para a representação de som reconstruída básica. As informações laterais básicas adicionais podem incluir informações que especificam a decodificação de um ou mais da pluralidade de componentes na dependência dos respectivos outros componentes. O método pode incluir, ainda, decompor as informações laterais básicas adicionais em uma pluralidade de porções de informações laterais básicas adicionais. O método pode incluir, ainda, adicionar as porções de informações laterais básicas adicionais à camada base (por exemplo, incluir as porções de informações laterais básicas adicionais na camada base, ou alocar as porções de informações laterais básicas adicionais na camada base, por exemplo, para propósitos de transmissão ou armazenamento). Cada porção de informações laterais básicas adicionais pode corresponder a uma respectiva camada e pode incluir informações que especificam a decodificação de um ou mais componentes atribuídos à respectiva camada na dependência (apenas) dos respectivos outros componentes atribuídos à respectiva camada e qualquer uma das camadas inferiores à respectiva camada. Ou seja, cada porção de informações laterais básicas adicionais especifica componentes na respectiva camada a qual aquela porção de informações laterais básicas adicionais corresponde sem referência a qualquer outro componente atribuído a camadas mais altas do que a respectiva camada.

[015] Configurado dessa forma, o método proposto evita a fragmentação das informações laterais básicas adicionais por meio da adição de todas as porções à camada base. Em outras palavras, todas as porções de informações laterais básicas adicionais são incluídas na camada base. A decomposição das informações laterais básicas adicionais assegura que, para cada camada, está disponível uma porção de informações laterais básicas adicionais que não exige conhecimento de componentes em camadas mais altas. Dessa forma, independente de uma camada utilizável mais alta real, é suficiente que o decodificador decodifique informações laterais básicas adicionais incluídas em camadas até a camada utilizável mais alta.

[016] Em modalidades, as informações laterais básicas adicionais podem incluir informações que especificam a decodificação (por exemplo, a descompactação) de um ou mais da pluralidade de componentes na dependência de outros componentes. Por exemplo, as informações laterais básicas adicionais podem representar informações laterais relacionadas a sinais monaurais individuais na dependência de outros sinais monaurais. Dessa forma, as informações laterais básicas adicionais podem ser referidas como informações laterais básicas dependentes.

[017] Em modalidades, a representação de som compactada pode ser processada para intervalos de tempo sucessivos, por exemplo, intervalos de tempo de tamanho igual. Os intervalos de tempo sucessivos podem ser quadros. Dessa forma, o método pode operar em uma base de quadro, isto é, a representação de som compactada pode ser codificada de maneira em quadros. A representação de som compactada pode estar disponível para cada intervalo de tempo sucessivo (por exemplo, para cada quadro). Ou seja, a operação de compactação pela qual a representação de som compactada foi obtida pode operar em uma base de quadro.

[018] Em modalidades, o método pode incluir, ainda, gerar informações de configuração que indica, para cada camada, os componentes da representação de som compactada básica que são atribuídos àquela camada. Dessa forma, o decodificador pode prontamente acessar as informações necessárias para decodificar sem análise desnecessária através dos conteúdos de dados recebidos.

[019] De acordo com outro aspecto, é descrito um método de codificação em camadas de uma representação de som compactada de um som ou campo sonoro. A representação de som compactada pode incluir uma representação de som compactada básica que inclui uma pluralidade de componentes. A pluralidade de componentes podem ser componentes complementares. A representação de som compactada pode incluir, ainda, informações laterais básicas (por exemplo, informações laterais básicas independentes) e terceiras informações (por exemplo, informações laterais básicas dependentes) para decodificar a representação de som compactada básica para uma representação de som reconstruída básica do som ou campo sonoro. As informações laterais básicas podem incluir informações que especificam a decodificação de um ou mais da pluralidade de componentes individualmente, independentemente de outros componentes. As informações laterais básicas adicionais podem incluir informações que especificam a decodificação de um ou mais da pluralidade de componentes na dependência dos respectivos outros componentes. O método pode incluir subdividir (por exemplo, agrupar) a pluralidade de componentes em uma pluralidade de grupos de componentes. O método pode incluir, ainda, atribuir (por exemplo, adicionar) cada um da pluralidade de grupos a uma respectiva camada de uma pluralidade de camadas hierárquicas. A atribuição pode indicar uma correspondência entre os respectivos grupos e camadas. Pode-se dizer que componentes atribuídos a uma respectiva camada estão incluídos naquela camada. O número de grupos pode corresponder (por exemplo, ser igual) ao número de camadas. A pluralidade de camadas pode incluir uma camada base e uma ou mais camadas de aperfeiçoamento hierárquicas. O método pode incluir, ainda, adicionar as informações laterais básicas à camada base (por exemplo, incluindo as informações laterais básicas na camada base, ou alocar as informações laterais básicas na camada base, por exemplo, para propósitos de transmissão ou armazenamento). O método pode incluir, ainda, decompor as informações laterais básicas adicionais em uma pluralidade de porções de informações laterais básicas adicionais e adicionar as porções de informações laterais básicas adicionais à camada base (por exemplo, incluir as porções de informações laterais básicas adicionais na camada base, ou alocar as porções de informações laterais básicas adicionais na camada base, por exemplo, para propósitos de transmissão ou armazenamento). Cada porção de informações laterais básicas adicionais pode corresponder a uma respectiva camada e inclui informações que especificam a decodificação de um ou mais componentes atribuídos à respectiva camada na dependência dos respectivos outros componentes atribuídos à respectiva camada e qualquer uma das camadas inferiores à respectiva camada.

[020] Configurado dessa forma, o método proposto assegura que, para cada camada, informações laterais básicas adicionais apropriadas estejam disponíveis para decodificar os componentes incluídos em qualquer camada até a respectiva camada, sem exigir recepção válida ou decodificação (ou, em geral, conhecimento) de quaisquer camadas mais altas. No caso de uma representação de HOA compactada, o método proposto assegura que, no modo de codificação de vetor, um vetor-V adequado esteja disponível para todos os componentes que pertencem a camadas até a camada utilizável mais alta. Em particular, o método proposto exclui o caso que elementos de um vetor-V que corresponde componentes em camadas mais altas não são explicitamente sinalizados. Consequentemente, as informações incluídas nas camadas até a camada utilizável mais alta são suficientes para decodificar (por exemplo, descompactar) quaisquer componentes que pertencem a camadas até a camada utilizável mais alta. Assim, a descompactação apropriada de respectivas representações de HOA reconstruídas para camadas inferiores é assegurada mesmo se camadas mais altas possam não ter sido recebidas de maneira válida pelo decodificador. Por outro lado, o método proposto permite tirar vantagem total da redução de largura de banda exigida que pode ser alcançada durante a aplicação de codificação em camadas.

[021] Modalidades desse aspecto podem se relacionar às modalidades do aspecto precedente.

[022] De acordo com outro aspecto, é descrito um método de decodificação de uma representação de som compactada de um som ou campo sonoro. A representação de som compactada pode ter sido codificada em uma pluralidade de camadas hierárquicas. A pluralidade de camadas hierárquicas pode incluir uma camada base e uma ou mais camadas de aperfeiçoamento hierárquicas. A pluralidade de camadas pode ter atribuídos a isso componentes de uma representação de som compactada básica de um som ou campo sonoro. Em outras palavras, a pluralidade de camadas pode incluir os componentes das informações laterais compactadas básicas. Os componentes podem ser atribuídos a respectivas camadas nos respectivos grupos de componentes. A pluralidade de componentes podem ser componentes complementares. A camada base pode incluir informações laterais básicas para decodificar a representação de som compactada básica. Cada camada pode incluir uma porção de informações laterais de aperfeiçoamento incluindo parâmetros para aprimorar uma representação de som reconstruída básica obtenível junto aos dados incluídos na respectiva camada e qualquer uma das camadas inferiores à respectiva camada. O método pode incluir receber conteúdos de dados que correspondem, respectivamente, à pluralidade de camadas hierárquicas. O método pode incluir, ainda, determinar um primeiro índice de camada que indica uma camada utilizável mais alta dentre a pluralidade de camadas a ser usada para decodificar a representação de som compactada básica para a representação de som reconstruída básica do som ou campo sonoro. O método pode incluir, ainda, obter a representação de som reconstruída básica dos componentes atribuídos à camada utilizável mais alta e qualquer uma das camadas inferiores à camada utilizável mais alta, com o uso das informações laterais básicas. O método pode incluir, ainda, determinar um segundo índice de camada que é indicativo de qual porção de informações laterais de aperfeiçoamento deveria ser usada para aprimorar (por exemplo, aperfeiçoar) a representação de som reconstruída básica. O método pode incluir, ainda, obter uma representação de som reconstruída do som ou campo sonoro da representação de som reconstruída básica, com referência ao segundo índice de camada.

[023] Configurado dessa forma, o método proposto assegura que a representação de som reconstruída tenha qualidade ideal, com o uso das informações disponíveis (por exemplo, recebidas de maneira válida) na melhor medida possível.

[024] Em modalidades, os componentes da representação de som compactada básica podem corresponder a sinais monaurais (por exemplo, sinais de transporte monaurais). Os sinais monaurais podem representar ou sinais sonoros predominantes ou sequências de coeficiente de uma representação de HOA. Os sinais monaurais podem ser quantizados.

[025] Em modalidades, as informações laterais básicas podem incluir informações que especificam decodificar (por exemplo, descompactação) de um ou mais da pluralidade de componentes individualmente, independentemente de outros componentes. Por exemplo, as informações laterais básicas podem representar informações laterais relacionadas a sinais monaurais individuais, independentemente de outros sinais monaurais. Dessa forma, as informações laterais básicas podem ser referidas como informações laterais básicas independentes.

[026] Em modalidades, as informações laterais de aperfeiçoamento podem representar informações laterais de aperfeiçoamento. As informações laterais de aperfeiçoamento podem incluir parâmetros de predição para a representação de som compactada básica para aprimorar (por exemplo, aperfeiçoar) a representação de som reconstruída básica que é obtenível da representação de som compactada básica e das informações laterais básicas.

[027] Em modalidades, o método pode incluir, ainda, determinar, para cada camada, se a respectiva camada foi recebida de maneira válida. O método pode incluir, ainda, determinar o primeiro índice de camada como o índice de camada de uma camada imediatamente abaixo da camada mais baixa que não foi recebida de maneira válida.

[028] Em modalidades, determinar o segundo índice de camada pode envolver ou determinar o segundo índice de camada para ser igual ao primeiro índice de camada, ou determinar um valor de índice como o segundo índice de camada que indica o não uso de quaisquer informações laterais de aperfeiçoamento na obtenção da representação de som reconstruída. No último caso, a representação de som reconstruída pode ser igual à representação de som reconstruída básica.

[029] Em modalidades, os conteúdos de dados podem ser recebidos e processados por intervalos de tempo sucessivos, por exemplo, intervalos de tempo de tamanho igual. Os intervalos de tempo sucessivos podem ser quadros. Dessa forma, o método pode operar em uma base de quadro. O método pode incluir, ainda, se as representações de som compactadas para os intervalos de tempo sucessivos podem ser decodificadas independentemente uma da outra, determinar o segundo índice de camada para ser igual ao primeiro índice de camada.

[030] Em modalidades, os conteúdos de dados podem ser recebidos e processados por intervalos de tempo sucessivos, por exemplo, intervalos de tempo de tamanho igual. Os intervalos de tempo sucessivos podem ser quadros. Dessa forma, o método pode operar em uma base de quadro. O método pode incluir, ainda, para um dado intervalo de tempo dentre os intervalos de tempo sucessivos, se as representações de som compactadas para os intervalos de tempo sucessivos não podem ser decodificadas independentemente uma da outra, determinar, para cada camada, se a respectiva camada foi recebida de maneira válida. O método pode incluir, ainda, determinar o primeiro índice de camada para o dado intervalo de tempo como aquele menor do primeiro índice de camada do intervalo de tempo que precede o dado intervalo de tempo e do índice de camada de uma camada imediatamente abaixo da camada mais baixa que não foi recebida de maneira válida.

[031] Em modalidades, o método pode incluir, ainda, para o dado intervalo de tempo, se as representações de som compactadas para os intervalos de tempo sucessivos não podem ser decodificadas independentemente uma da outra, determinar se o primeiro índice de camada para o dado intervalo de tempo é igual ao primeiro índice de camada para o intervalo de tempo precedente. O método pode incluir, ainda, se o primeiro índice de camada para o dado intervalo de tempo é igual ao primeiro índice de camada para o intervalo de tempo precedente, determinar o segundo índice de camada para o dado intervalo de tempo seja igual ao primeiro índice de camada para o dado intervalo de tempo. O método pode incluir, ainda, se o primeiro índice de camada para o dado intervalo de tempo não é igual ao primeiro índice de camada para o intervalo de tempo precedente, determinar um valor de índice como o segundo índice de camada que indica o não uso de quaisquer informações laterais de aperfeiçoamento durante a obtenção da representação de som reconstruída.

[032] Em modalidades, a camada base pode incluir pelo menos uma porção de informações laterais básicas adicionais que correspondem a uma respectiva camada e incluir informações que especificam a decodificação de um ou mais componentes dentre os componentes atribuídos à respectiva camada na dependência de outros componentes atribuídos à respectiva camada e qualquer uma das camadas inferiores à respectiva camada. O método pode incluir, ainda, para cada porção de informações laterais básicas adicionais, decodificar a porção de informações laterais básicas adicionais por referência aos componentes atribuídos a sua respectiva camada e quaisquer camadas inferiores à respectiva camada. O método pode incluir, ainda, corrigir a porção de informações laterais básicas adicionais por meio da referência aos componentes atribuídos à camada utilizável mais alta e qualquer uma das camadas entre a camada utilizável mais alta e a respectiva camada. A representação de som reconstruída básica pode ser obtida dos componentes atribuídos à camada utilizável mais alta e qualquer uma das camadas inferiores à camada utilizável mais alta, com o uso das informações laterais básicas e porções corrigidas de informações laterais básicas adicionais obtidas de porções de informações laterais básicas adicionais que correspondem a camadas acima da camada utilizável mais alta.

[033] Em modalidades, as informações laterais básicas adicionais podem incluir informações que especificam a decodificação (por exemplo, a descompactação) de um ou mais da pluralidade de componentes na dependência de outros componentes. Por exemplo, as informações laterais básicas adicionais podem representar informações laterais relacionadas a sinais monaurais individuais na dependência de outros sinais monaurais. Dessa forma, as informações laterais básicas adicionais podem ser referidas como informações laterais básicas dependentes.

[034] De acordo com outro aspecto, é descrito um método de decodificação de uma representação de som compactada de um som ou campo sonoro. A representação de som compactada pode ter sido codificada em uma pluralidade de camadas hierárquicas. A pluralidade de camadas hierárquicas pode incluir uma camada base e uma ou mais camadas de aperfeiçoamento hierárquicas. A pluralidade de camadas pode ter atribuídos a isso componentes de uma representação de som compactada básica de um som ou campo sonoro. Em outras palavras, a pluralidade de camadas pode incluir os componentes das informações laterais compactadas básicas. Os componentes podem ser atribuídos a respectivas camadas nos respectivos grupos de componentes. A pluralidade de componentes podem ser componentes complementares. A camada base pode incluir informações laterais básicas para decodificar a representação de som compactada básica. A camada base pode incluir, ainda, pelo menos uma porção de informações laterais básicas adicionais que correspondem a uma respectiva camada e incluir informações que especificam a decodificação de um ou mais componentes dentre os componentes atribuídos à respectiva camada na dependência de outros componentes atribuídos à respectiva camada e qualquer uma das camadas inferiores à respectiva camada. O método pode incluir receber conteúdos de dados que correspondem, respectivamente, à pluralidade de camadas hierárquicas. O método pode incluir, ainda, determinar um primeiro índice de camada que indica uma camada utilizável mais alta dentre a pluralidade de camadas a ser usada para decodificar a representação de som compactada básica para a representação de som reconstruída básica do som ou campo sonoro. O método pode incluir, ainda, para cada porção de informações laterais básicas adicionais, decodificar a porção de informações laterais básicas adicionais por referência aos componentes atribuídos a sua respectiva camada e quaisquer camadas inferiores à respectiva camada. O método pode incluir, ainda, para cada porção de informações laterais básicas adicionais, corrigir a porção de informações laterais básicas adicionais por meio da referência aos componentes atribuídos à camada utilizável mais alta e qualquer uma das camadas entre a camada utilizável mais alta e a respectiva camada. A representação de som reconstruída básica pode ser obtida dos componentes atribuídos à camada utilizável mais alta e qualquer uma das camadas inferiores à camada utilizável mais alta, com o uso das informações laterais básicas e porções corrigidas de informações laterais básicas adicionais obtidas de porções de informações laterais básicas adicionais que correspondem a camadas acima da camada utilizável mais alta. O método pode compreender, ainda, determinar um segundo índice de camada que ou é igual ao primeiro índice de camada ou que indica a omissão de informações laterais de aperfeiçoamento durante a decodificação.

[035] Configurado dessa forma, o método proposto assegura que as informações laterais básicas adicionais que são eventualmente usadas para decodificar a representação de som compactada básica não incluem elementos redundantes, tornando, assim, a decodificação real da representação de som compactada básica mais eficiente.

[036] Modalidades desse aspecto podem se relacionar às modalidades do aspecto precedente.

[037] De acordo com outro aspecto, é descrito um codificador para a codificação em camadas de uma representação de som compactada de um som ou campo sonoro. A representação de som compactada pode incluir uma representação de som compactada básica que inclui uma pluralidade de componentes. A pluralidade de componentes podem ser componentes complementares. A representação de som compactada pode incluir, ainda, informações laterais básicas para decodificar a representação de som compactada básica para uma representação de som reconstruída básica do som ou campo sonoro. A representação de som compactada pode incluir, ainda, informações laterais de aperfeiçoamento incluindo parâmetros para aprimorar (por exemplo, aperfeiçoar) a representação de som reconstruída básica. O codificador pode incluir um processador configurado para realizar parte ou todas as etapas de método dos métodos de acordo com o primeiro aspecto mencionado acima e com o segundo aspecto mencionado acima.

[038] De acordo com outro aspecto, é descrito um decodificador para decodificar uma representação de som compactada de um som ou campo sonoro. A representação de som compactada pode ter sido codificada em uma pluralidade de camadas hierárquicas. A pluralidade de camadas hierárquicas pode incluir uma camada base e uma ou mais camadas de aperfeiçoamento hierárquicas. A pluralidade de camadas pode ter atribuídos a isso componentes de uma representação de som compactada básica de um som ou campo sonoro. Em outras palavras, a pluralidade de camadas pode incluir os componentes das informações laterais compactadas básicas. Os componentes podem ser atribuídos a respectivas camadas nos respectivos grupos de componentes. A pluralidade de componentes podem ser componentes complementares. A camada base pode incluir informações laterais básicas para decodificar a representação de som compactada básica. Cada camada pode incluir uma porção de informações laterais de aperfeiçoamento incluindo parâmetros para aprimorar (por exemplo, aperfeiçoar) uma representação de som reconstruída básica obtenível junto aos dados incluídos na respectiva camada e qualquer uma das camadas inferiores à respectiva camada. O decodificador pode incluir um processador configurado para realizar parte ou todas as etapas de método dos métodos de acordo com o terceiro aspecto mencionado acima e com o quarto aspecto mencionado acima.

[039] De acordo com outros aspectos, métodos, aparelhos e sistemas são direcionados à decodificação de uma representação de som de Ambissônica de Ordem Superior (HOA) compactada de um som ou campo sonoro. O aparelho pode ter um receptor configurado para ou o método pode receber um fluxo de bits contendo a representação de HOA compactada que corresponde a uma pluralidade de camadas hierárquicas que incluem uma camada base e uma ou mais camadas de aperfeiçoamento hierárquicas. A pluralidade de camadas tem atribuídos a isso componentes de uma representação de som compactada básica do som ou campo sonoro, em que os componentes são atribuídos a respectivas camadas nos respectivos grupos de componentes, O aparelho pode ter um decodificador configurado para ou o método pode decodificar a representação de HOA compactada com base em informações laterais básicas que estão associadas à camada base e com base em informações laterais de aperfeiçoamento que estão associadas a uma ou mais camadas de aperfeiçoamento hierárquicas. As informações laterais básicas podem incluir informações laterais independentes básicas relacionadas a primeiros sinais monaurais individuais que serão decodificados independentemente de outros sinais monaurais. Cada uma da uma ou mais camadas de aperfeiçoamento hierárquicas pode incluir uma porção das informações laterais de aperfeiçoamento incluindo parâmetros para aprimorar uma representação de som reconstruída básica obtenível junto aos dados incluídos nas respectivas camadas e qualquer uma das camadas inferiores à respectiva camada.

[040] As informações laterais independentes básicas podem indicar que os primeiros sinais monaurais individuais representam um sinal direcional com uma direção de incidência. As informações laterais básicas podem incluir, ainda, informações laterais dependentes básicas relacionadas a segundos sinais monaurais individuais que serão decodificados de maneira dependente de outros sinais monaurais. As informações laterais dependentes básicas podem incluir sinais baseados em vetor que são direcionalmente distribuídos no campo sonoro, em que a distribuição direcional é especificada por meio de um vetor. Os componentes do vetor são definidos em zero e não fazem parte da representação de vetor compactada.

[041] Os componentes da representação de som compactada básica podem corresponder a sinais monaurais que representam ou sinais sonoros predominantes ou sequências de coeficiente de uma representação de HOA. O fluxo de bits inclui conteúdos de dados que correspondem, respectivamente, à pluralidade de camadas hierárquicas. As informações laterais de aperfeiçoamento podem incluir parâmetros relacionados a pelo menos um de: predição espacial, síntese de sinais direcionais de sub-banda e replicação de ambiente paramétrico. As informações laterais de aperfeiçoamento podem incluir informações que permitem a predição de porções ausentes do som ou campo sonoro de sinais direcionais. Pode ser determinado, ainda, para cada camada, se a respectiva camada foi recebida de maneira válida e um índice de camada de uma camada imediatamente abaixo de uma camada mais baixa que não foi recebida de maneira válida.

[042] De acordo com outro aspecto, é descrito um programa de software. O programa de software pode ser adaptado para execução em um processador e para realizar parte ou todas as etapas de método apresentadas no presente documento quando executado em um dispositivo de computação.

[043] Ainda de acordo com outro aspecto, é descrito um meio de armazenamento. O meio de armazenamento pode compreender um programa de software adaptado para a execução em um processador e para realizar parte ou todas as etapas de método apresentadas no presente documento quando executado em um dispositivo de computação.

[044] Declarações feitas com relação a qualquer um dos aspectos acima ou suas modalidades também se aplicam aos respectivos outros aspectos ou suas modalidades, como o versado apreciará. A repetição destas declarações para cada aspecto ou modalidade foi omitida por razões de concisão.

[045] Os métodos e aparelhos incluindo suas modalidades preferenciais como apresentado no presente documento podem ser usados sozinhos ou em combinação com os outros métodos e sistemas revelados neste documento. Ademais, todos os aspectos dos métodos e aparelho apresentados no presente documento podem ser arbitrariamente combinados. Em particular, os recursos das reivindicações podem ser combinados entre si de maneira arbitrária.

[046] Etapas de método e recursos de aparelho podem ser trocados de qualquer forma. Em particular, os detalhes dos métodos revelados podem ser implantados como um aparelho adaptado para executar parte ou todas as etapas do método, e vice-versa, como o versado apreciará.

DESCRIÇÃO DOS DESENHOS

[047] A invenção é explicada abaixo de uma forma exemplificativa com referência aos desenhos anexos, em que: A Figura 1 é um fluxograma que ilustra um exemplo de a método de codificação em camadas de acordo com modalidades da revelação; A Figura 2 é um diagrama de blocos que ilustra de maneira esquemática um exemplo de um estágio de codificador de acordo com modalidades da revelação; A Figura 3 é um fluxograma que ilustra um exemplo de um método de decodificação de uma representação de som compactada de um som ou campo sonoro que foi codificada para uma pluralidade de camadas hierárquicas, de acordo com modalidades da revelação; As Figuras 4A e 4B são diagramas de blocos que ilustram de maneira esquemática exemplos de um estágio de decodificador de acordo com modalidades da revelação; A Figura 5 é um diagrama de blocos que ilustra de maneira esquemática um exemplo de uma implantação de hardware de um codificador de acordo com modalidades da revelação; e A Figura 6 é um diagrama de blocos que ilustra de maneira esquemática um exemplo de uma implantação de hardware de um decodificador de acordo com modalidades da revelação.

DESCRIÇÃO DETALHADA

[048] Primeiro, será descrita uma representação de som (ou campo sonoro) compactada (doravante referida como representação de som compactada por uma questão de brevidade) a qual métodos e codificadores/decodificadores de acordo com a presente revelação são aplicáveis. Em geral, a representação de som (ou campo sonoro) compactada completa (doravante referida como representação de som compactada completa por uma questão de brevidade) pode compreender (por exemplo, consistir em) os três componentes a seguir: uma representação de som (ou campo sonoro) compactada básica (doravante referida como representação de som compactada básica por uma questão de brevidade), informações laterais básicas e informações laterais de aperfeiçoamento.

[049] A própria representação de som compactada básica compreende (por exemplo, consiste em) inúmeros componentes (por exemplo, componentes complementares). A representação de som compactada básica pode ser considerada o percentual distintivamente maior da representação de som compactada completa. A representação de som compactada básica pode consistir em sinais de transporte monaurais que representam ou sinais sonoros predominantes ou sequências de coeficiente da representação de HOA original.

[050] As informações laterais básicas são necessárias para decodificar a representação de som compactada básica e pode ser presumido que têm um tamanho muito menor em comparação com a representação de som compactada básica. Pode ser constituída, em sua grande parte, por porções disjuntas, em que cada uma das quais especifica a descompactação de apenas um componente particular da representação de som compactada básica. As informações laterais básicas podem compreender uma primeira parte que pode ser conhecida como informações laterais básicas independentes e uma segunda parte que pode ser conhecida como informações laterais básicas adicionais.

[051] Tanto a primeira como a segunda partes, as informações laterais básicas independentes e as informações laterais básicas adicionais, podem especificar a descompactação de componentes particulares da representação de som compactada básica. A segunda parte é opcional e pode ser omitida. Neste caso, pode- se dizer que a representação de som compactada compreende a primeira parte (por exemplo, informações laterais básicas).

[052] A primeira parte (por exemplo, informações laterais básicas) pode conter informações laterais que descrevem componentes individuais (complementares) da representação de som compactada básica independentemente de outros componentes (complementares). Em particular, a primeira parte (por exemplo, informações laterais básicas) pode especificar a decodificação de um ou mais da pluralidade de componentes individualmente, independentemente de outros componentes. Dessa forma, a primeira parte pode ser referida como informações laterais básicas independentes.

[053] A segunda parte (opcional) pode conter informações laterais, também conhecidas como informações laterais básicas adicionais, pode descrever componentes individuais (complementares) da representação de som compactada básica na dependência para outros componentes (complementares). Essa segunda parte também pode ser referida como informações laterais básicas dependentes. Em particular, a dependência pode ter as seguintes propriedades:

[054] as informações laterais básicas dependentes para cada componente individual (complementar) da representação de som compactada básica podem atingir sua maior extensão quando não houver certos componentes (complementares) contidos na representação de som compactada básica.

[055] No caso em que certos componentes (complementares) adicionais são adicionados à representação de som compactada básica, as informações laterais básicas dependentes para o componente (complementar) individual considerado podem se tornar um subconjunto das informações laterais básicas dependentes originais, reduzindo, assim, seu tamanho.

[056] As informações laterais de aperfeiçoamento também são opcionais. As mesmas podem ser usadas para aprimorar ou aperfeiçoar (por exemplo, parametricamente aprimorar ou aperfeiçoar) a representação de som compactada básica. Também pode ser presumido muito menos do que aquele da representação de som compactada básica.

[057] Dessa forma, em modalidades, a representação de som compactada pode compreender uma representação de som compactada básica que compreende uma pluralidade de componentes, informações laterais básicas para decodificar (por exemplo, descompactar) a representação de som compactada básica para uma representação de som reconstruída básica do som ou campo sonoro, e informações laterais de aperfeiçoamento incluindo parâmetros para aprimorar ou aperfeiçoar (por exemplo, parametricamente aprimorar ou aperfeiçoar) a representação de som reconstruída básica. A representação de som compactada pode compreender, ainda, informações laterais básicas adicionais para decodificar (por exemplo, descompactar) a representação de som compactada básica para a representação de som reconstruída básica, que pode incluir informações que especificam a decodificação de um ou mais da pluralidade de componentes na dependência dos respectivos outros componentes.

[058] Um exemplo de tal tipo de representação de som compactada completa é dada pela representação de campo sonoro de Ambissônica de Ordem Superior (HOA) compactada como especificado pela versão preliminar do padrão de áudio MPEG-H 3D (Referência 1), Capítulo 12 e Anexo C. 5. Ou seja, a representação de som compactada pode corresponder a uma representação de som (ou campo sonoro) de HOA compactada de um som ou campo sonoro.

[059] Para esse exemplo, a representação de campo sonoro compactada básica (representação de som compactada básica) pode compreender (por exemplo, pode ser identificada com) inúmeros componentes. Os componentes podem ser (por exemplo, corresponder a) sinais monaurais. Os sinais monaurais podem ser sinais monaurais quantizados. Os sinais monaurais podem representar ou os sinais sonoros predominantes ou sequências de coeficiente de um componente de campo sonoro de HOA de ambiente.

[060] As informações laterais básicas podem descrever, entre outros, para cada um desses sinais monaurais, como isso contribuir de maneira espacial para o campo sonoro. Por exemplo, as informações laterais básicas podem especificar um sinal sonoro predominante como um sinal puramente direcional, o que significa uma onda de plano geral com uma certa direção de incidência. Alternativamente, as informações laterais básicas podem especificar um sinal monaural como uma sequência de coeficiente da representação de HOA original que tem um certo índice. As informações laterais básicas podem ser adicionalmente separadas em uma primeira parte e uma segunda parte, conforme indicado acima.

[061] A primeira parte são informações laterais (por exemplo, informações laterais básicas independentes) relacionadas a sinais monaurais individuais específicos. Essas informações laterais básicas independentes são independentes da existência de outros sinais monaurais. Tais informações laterais podem, por exemplo, especificar um sinal monaural para representar um sinal direcional (por exemplo, significando uma onda de plano geral) com uma certa direção de incidência. Alternativamente, um sinal monaural pode ser especificado como uma sequência de coeficiente da representação de HOA original que tem um certo índice. A primeira parte pode ser referida como informações laterais básicas independentes. Em geral, a primeira parte (por exemplo, informações laterais básicas) pode especificar a decodificação de um ou mais da pluralidade de sinais monaurais individualmente, independente de outros sinais monaurais.

[062] A segunda parte são informações laterais (por exemplo, informações laterais básicas adicionais) relacionadas a sinais monaurais individuais específicos. Essas informações laterais são dependentes da existência de outros sinais monaurais. Tais informações laterais podem ser utilizadas, por exemplo, se os sinais monaurais devem ser especificados como baseados em vetor (consulte, por exemplo, a Referência 1, Seção 12.4.2.4.4). Esses sinais são direcionalmente distribuídos no campo sonoro, onde a distribuição direcional pode ser especificada por meio de um vetor. Em um certo modo (consulte, por exemplo, CodedVVecLength = 1), componentes particulares desse vetor são implicitamente definidos em zero e não fazem parte da representação de vetor compactada. Esses componentes são aqueles com índices iguais àqueles de sequências de coeficiente da representação de HOA original e parte da representação de som compactada básica. Isso significa que, se componentes individuais do vetor são codificados, seu número total pode depender da representação de som compactada básica. Em particular, o número total pode depender quais sequências de coeficiente a representação de HOA original contém.

[063] Se nenhuma sequência de coeficiente da representação de HOA original está contida na representação de som compactada básica, as informações laterais básicas dependentes para cada sinal baseado em vetor consistem em todos os componentes de vetor e têm seu maior tamanho. No caso em que sequências de coeficiente da representação de HOA original com certos índices são adicionadas à representação de som compactada básica, os componentes de vetor com esses índices são removidos das informações laterais para cada sinal baseado em vetor, reduzindo, assim, o tamanho das informações laterais básicas dependentes para os sinais baseados em vetor.

[064] As informações laterais de aperfeiçoamento (por exemplo, informações laterais de aperfeiçoamento) podem compreender parâmetros relacionados à predição espacial (banda larga) (consulte a Referência 1, Seção 12.4.2.4.3) e/ou parâmetros relacionados à Síntese de Sinais Direcionais de Subbanda e à Replicação de Ambiente Paramétrico.

[065] Os parâmetros relacionados à predição espacial (banda larga) podem ser usados para (linearmente) predizer porções ausentes do campo sonoro dos sinais direcionais.

[066] A Síntese de Sinais Direcionais de Sub-banda e a Replicação de Ambiente Paramétrico são ferramentas de compactação que foram recentemente introduzidas no padrão de áudio MPEG-H 3D com a emenda [consulte s Referência 2, Seção 1]. Essas duas ferramentas permitem que uma predição paramétrica dependente de frequência de sinais monaurais adicionais seja espacialmente distribuída a fim de complementar uma representação de HOA compactada espacialmente incompleta ou deficiente. A predição pode ser baseada em sequências de coeficiente da representação de som compactada básica.

[067] É importante notar que a contribuição complementar mencionada acima para o campo sonoro é representada na representação de HOA compactada não por meio de sinais quantizados adicionais, mas, ao invés disso, por meio de informações laterais extras de um tamanho comparavelmente muito menor. Por conseguinte, as duas ferramentas de codificação mencionadas são especialmente adequadas para a compactação de representações de HOA a baixas taxas de dados.

[068] Um segundo exemplo de uma representação compactada de um ou mais sinais monaurais com a estrutura mencionada acima pode compreender informações espectrais codificadas para bandas de frequência disjuntas até uma certa frequência superior, que pode ser considerada uma representação compactada básica; informações laterais básicas que especificam as informações espectrais codificadas (por exemplo, pelo número e largura de bandas de frequência codificadas); e informações laterais de aperfeiçoamento que compreendem (por exemplo, consistem em) parâmetros de uma Replicação de Banda Espectral (SBR), que descrevem como reconstruir parametricamente da representação compactada básica as informações espectrais para bandas de frequência superiores que não são consideradas na representação compactada básica.

[069] A presente revelação propõe um método para a codificação em camadas de uma representação de som (ou campo sonoro) compactada completa que tem a estrutura mencionada anteriormente.

[070] A compactação pode ser baseada em quadro no sentido de que fornece representações compactadas sob a forma de pacotes de dados ou, equivalentemente, conteúdos de quadro) para intervalos de tempo sucessivos. Os intervalos de tempo podem ter tamanhos iguais ou diferentes. Pode-se presumir que esses pacotes de dados contêm uma bandeira de validade, um valor indicando seu tamanho bem como os dados de representação compactada reais. A seguir, sem limitação predita, presume-se que a compactação seja baseada em quadro. Adicionalmente, exceto se indicado em contrário e sem limitação predita, a mesma estará focada no tratamento de um quadro único e, por conseguinte, o índice de quadro será omitido.

[071] É predito que cada conteúdo de quadro da representação de som (ou campo sonoro) compactada completa sob consideração contenha J pacotes de dados (ou conteúdos de quadro), cada um para um componente de uma representação de som compactada básica, que são denotados por BSRC, j = 1,...,/. Adicionalmente, presume-se que contenha um pacote com informações laterais básicas independentes (informações laterais básicas) denotadas pela BSIj especificação de componentes particulares BSRC- da representação de som compactada básica independente de outros componentes. Opcionalmente, pode ser adicionalmente presumido que contém um pacote com informações laterais básicas dependentes (informações laterais básicas adicionais) denotadas pela BSID especificação de componentes particulares BSRC da representação de som compactada básica na dependência de outros componentes.

[072] As informações contidas nos dois pacotes de dados BSIj e BSID podem ser opcionalmente agrupadas em um único pacote de dados BSI de informações laterais básicas. Pode-se dizer que o único pacote de dados BSl contém, entre outros, J porções, em que cada uma das mesmas especificam um componente particular BSRC da representação de som compactada básica. Pode-se dizer, por sua vez, que cada uma dessas porções contém uma porção de informações laterais independentes e, opcionalmente, uma porção de informações laterais dependentes.

[073] Eventualmente, pode incluir um conteúdo de informações laterais de aperfeiçoamento (informações laterais de aperfeiçoamento) denotadas por ESI com uma descrição de como aprimorar ou aperfeiçoar o som (ou campo sonoro) reconstruído da representação de som compactada completa básica.

[074] A solução proposta pela codificação em camadas abrange etapas necessárias para permitir tanta a parte de compactação incluindo o empacotamento de pacotes de dados para a transmissão bem como a parte de receptor e de descompactação. Cada parte será descrita detalhadamente a seguir.

[075] Primeiro, serão descritos a compactação e o empacotamento (por exemplo, para transmissão). Em particular, serão descritos componentes e elementos da representação de som (ou campo sonoro) compactada completa no caso da codificação em camadas.

[076] A Figura 1 ilustra de maneira esquemática um fluxograma de um exemplo de um método para compactação e empacotamento (por exemplo, um método de codificação ou um método de codificação em camadas de uma representação de som compactada de um som ou campo sonoro). A atribuição (por exemplo, alocação) dos conteúdos individuais na camada base e (M - 1) camadas de aperfeiçoamento pode ser realizada por um empacotador de camadas de transporte. A Figura 2 ilustra de maneira esquemática um diagrama de blocos de um exemplo da atribuição/alocação dos conteúdos individuais.

[077] Conforme indicado acima, a representação de som compactada completa 2100 pode se referir, por exemplo, a uma representação de HOA compactada que compreende uma representação de som compactada básica. A representação de som compactada completa 2100 pode compreender uma pluralidade de componentes (por exemplo, sinais monaurais) 2110-1, ... 2110-/, informações laterais básicas independentes (informações laterais básicas) 2120, informações laterais de aperfeiçoamento opcionais (informações laterais de aperfeiçoamento) 2140 e informações laterais básicas dependentes opcionais (informações laterais básicas adicionais) 2130. As informações laterais básicas 2120 podem ser informações para decodificar a representação de som compactada básica para uma representação de som reconstruída básica do som ou campo sonoro. As informações laterais básicas 2120 podem incluir informações que especificam a decodificação de um ou mais componentes (por exemplo, sinais monaurais) individualmente, independente de outros componentes. As informações laterais de aperfeiçoamento 2140 podem incluir parâmetros para aprimorar (por exemplo, aperfeiçoar) a representação de som reconstruída básica. As informações laterais básicas adicionais 2130 podem ser informações (adicionais) para decodificar a representação de som compactada básica para a representação de som reconstruída básica, e podem incluir informações que especificam a decodificação de um ou mais da pluralidade de componentes na dependência dos respectivos outros componentes.

[078] A Figura 2 ilustra uma suposição subjacente em que há uma pluralidade de camadas hierárquicas, incluindo uma camada base (camada básica) e uma ou mais camadas de aperfeiçoamento (hierárquicas). Por exemplo, pode haver M camadas no total, isto é, uma camada base e M - 1 camadas de aperfeiçoamento. A pluralidade de camadas hierárquicas tem um índice de camada sucessivamente crescente. O valor mais baixo do índice de camada (por exemplo, índice de camada 1) corresponde à camada base. É adicionalmente entendido que as camadas são ordenadas, da camada base, através das camadas de aperfeiçoamento, até a camada de aperfeiçoamento mais alta geral (isto é, a camada mais alta geral).

[079] O método proposto pode ser realizado em uma base de quadro (isto é, de maneira em quadro). Em particular, a representação de som compactada 2100 pode ser compactada para intervalos de tempo sucessivos, por exemplo, intervalos de tempo de tamanho igual. Cada intervalo de tempo pode corresponder a um quadro. As etapas descritas abaixo podem ser realizadas para cada intervalo de tempo sucessivo (por exemplo, quadro).

[080] Em S1010 na Figura 1, a pluralidade de componentes 2110 é subdividida em uma pluralidade de grupos de componentes. Cada um da pluralidade de grupos é, então, atribuído (por exemplo, adicionado ou alocado) para uma respectiva camada de uma pluralidade de camadas hierárquicas. Nisso, o número de grupos corresponde ao número de camadas. Por exemplo, o número de grupos pode ser igual ao número de camadas, de modo que haja um grupo de componentes para cada camada. Conforme indicado acima, a pluralidade de camadas pode incluir uma camada base e uma ou mais (por exemplo, M - 1) camadas de aperfeiçoamento hierárquicas.

[081] Em outras palavras, a representação de som compactada básica é subdividida em partes a serem atribuídas às camadas individuais. Sem perda de generalidade, o agrupamento pode ser descrito por M + 1 números Jm, m = 0, ...,M com j0 = 1 e JM = J + 1 de modo que componentes BSRC sejam atribuídos à m-ésima camada para Jm_± <j< Jm.

[082] Em S1020, os grupos de componentes são atribuídos a suas respectivas camadas. Em S1030, as informações laterais básicas 2120 são adicionadas (por exemplo, alocadas) à camada base (isto é, aquela mais baixa da pluralidade de camadas hierárquicas).

[083] Ou seja, devido ao seu pequeno tamanho, propõe-se incluir as informações laterais básicas completas (informações laterais básicas e informações laterais básicas adicionais opcionais) na camada base para evitar sua desnecessária fragmentação.

[084] Se a representação de som compactada sob consideração compreende informações laterais básicas dependentes (informações laterais básicas adicionais), o método pode compreender, ainda, (não mostrado na Figura 1) decompor as informações laterais básicas adicionais em uma pluralidade de porções 2130-1, ..., 2130-M de informações laterais básicas adicionais. As porções de informações laterais básicas adicionais podem ser, então, adicionadas (por exemplo, alocadas) à camada base. Em outras palavras, as porções de informações laterais básicas adicionais podem ser incluídas na camada base. Cada porção de informações laterais básicas adicionais pode corresponder a uma respectiva camada e pode incluir informações que especificam a decodificação de um ou mais componentes atribuídos à respectiva camada na dependência de outros componentes atribuídos à respectiva camada e qualquer uma das camadas inferiores à respectiva camada.

[085] Dessa forma, enquanto as informações laterais básicas independentes BSIj (informações laterais básicas) 2120 são deixadas inalteradas para a atribuição, as informações laterais básicas dependentes devem ser manuseadas especialmente para codificação em camadas, a fim de permitir uma decodificação correta no lado de receptor por um lado, e de reduzir o tamanho das informações laterais básicas dependentes a serem transmitidas por outro lado. Propõe-se decompor as informações laterais básicas dependentes em M partes (porções) denotadas por BSID,m, m = 1, ->M, em que a m-ésima parte contém informações laterais básicas dependentes para cada um dos componentes BSRC, Jm_± <j< Jm, da representação de som compactada básica atribuída à m-ésima camada, presumindo que as informações laterais básicas dependentes opcionais existem para a representação de som compactada sob consideração. No caso das respectivas informações laterais dependentes não existirem, para a representação de som compactada de partes BSID,m pode ser presumida vazia. Cada parte de informações laterais básicas dependentes BSID,m pode ser dependente de todos os componentes BSRC;, 1 < j < Jm, contidos em todas as camadas até a m-ésima camada, (isto é, contidos em todas as camadas j = 1, ...,m).

[086] Se o pacote de informações laterais básicas independentes BSIj é de tamanho insignificativamente pequeno, é razoável manter isso como um todo e adicionar (atribuir) isso à camada base. Opcionalmente, uma decomposição similar como para as informações laterais básicas dependentes também pode ser realizada para as informações laterais básicas independentes, fornecendo os pacotes BSIj,m, m = 1, ...,M. Isso é útil para reduzir o tamanho da camada base por meio da adição (atribuição) de partes das informações laterais básicas independentes a camadas com componentes correspondentes da representação de som compactada básica.

[087] Em S1040, pode ser determinada uma pluralidade de porções 21401, ..., 2140-M de informações laterais de aperfeiçoamento. Cada porção de informações laterais de aperfeiçoamento pode incluir parâmetros para aprimorar (por exemplo, aperfeiçoar) uma representação de som reconstruída obtenível junto aos dados incluídos na respectiva camada e qualquer uma das camadas inferiores à respectiva camada.

[088] A razão para a realização dessa etapa é que, no caso da codificação em camadas, é importante entender que as informações laterais de aperfeiçoamento devem ser computadas para cada camada extra, desde que seja predito aperfeiçoar o som (ou campo sonoro) preliminarmente descompactado, que, contudo, é dependente das camadas disponíveis para descompactação. Em particular, o som (ou campo sonoro) preliminarmente descompactado para uma dada camada decodificável mais alta (camada utilizável mais alta) depende dos componentes incluídos na camada decodificável mais alta e qualquer uma das camadas abaixo da camada decodificável mais alta. Por conseguinte, a compactação deve fornecer M pacotes de dados de informações laterais de aperfeiçoamento individuais (porções de informações laterais de aperfeiçoamento), denotado por ESIm, m = 1, ...,M, em que as informações laterais de aperfeiçoamento no m-ésimo pacote de dados ESIm são computadas de modo a aperfeiçoar a representação de som (ou campo sonoro) obtida de todos os dados contidos na camada base e camadas de aperfeiçoamento com índices menores do que m (por exemplo, todos os dados contidos na m-ésima camada e qualquer uma das camadas abaixo da m-ésima camada).

[089] Em S1050, a pluralidade de porções 2140-1, ..., 2140-M de informações laterais de aperfeiçoamento é atribuída (por exemplo, adicionada ou alocada) à pluralidade de camadas. Cada uma da pluralidade de porções de informações laterais de aperfeiçoamento é atribuída a uma respectiva camada da pluralidade de camadas. Por exemplo, cada uma da pluralidade de camadas inclui uma respectiva porção de informações laterais de aperfeiçoamento.

[090] A atribuição de informações laterais básicas e/ou de aperfeiçoamento a respectivas camadas pode ser indicada em informações de configuração que são geradas pelo método de codificação. Em outras palavras, a correspondência entre as informações laterais básicas e/ou de aperfeiçoamento e as respectivas camadas pode ser indicada nas informações de configuração. Adicionalmente, as informações de configuração podem indicar, para cada camada, os componentes da representação de som compactada básica que são atribuídos (por exemplo, incluídos) àquela camada. As porções de informações laterais básicas adicionais são incluídas na camada base, mas podem corresponder a camadas diferentes da camada base.

[091] Resumindo, no estágio de compactação, é fornecido um pacote de dados de quadro, denotado por QUADRO, que tem a seguinte composição:

[092] Adicionalmente, os pacotes BSII, e BSID,m para m = 1,..., M podem ser combinados em um único pacote BSI, caso no qual o pacote de dados de quadro, denotado por QUADRO teria a seguinte composição:

[093] O ordenamento dos conteúdos individuais com o pacote de dados de quadro pode geralmente ser arbitrário.

[094] Os pacotes de dados individuais podem ser, então, agrupados em conteúdos, que são definidos como pacotes de dados especiais que contêm uma bandeira de validade, um valor indicando seu tamanho bem como os dados de representação compactada reais. O uso de conteúdos permite uma simples demultiplexação no lado de receptor, oferecendo a vantagem se ter a capacidade de descartar conteúdos obsoletos, sem a exigência de análise dos mesmos. Um agrupamento possível é dado ao atribuir (por exemplo, alocar cada BSRCj pacote, j = 1,...,J, a um conteúdo individual denotada

atribuir (por exemplo, alocar) o m-ésimo pacote de dados de informações laterais de aperfeiçoamento ESIm e o m-ésimo pacote de dados de informações laterais dependentes BSID,m a um conteúdo de aperfeiçoamento denotado por

, m = 1, ...,M. atribuir o pacote de informações laterais básicas independentes BSIj a um conteúdo de informações laterais separado denotado por

[095] Opcionalmente, se o tamanho das informações laterais básicas independentes é grande, cada m-ésimo de seus componentes, BSIIim, m = 1,...,M, pode ser atribuído (por exemplo, alocado) ao conteúdo de aperfeiçoamento

. Nesse caso, o conteúdo de informações laterais

está vazio e pode ser ignorado.

[096] Outra opção é atribuir todos os pacotes de dados de informações laterais básicas dependentes BSID,m ao conteúdo de informações laterais

, que é razoável se o tamanho das informações laterais básicas dependentes é pequeno.

[097] Eventualmente, pode ser fornecido um pacote de dados de quadro, denotado por QUADRO, tendo a seguinte composição

[098] O ordenamento dos conteúdos individuais com o pacote de dados de quadro pode ser geralmente arbitrário.

[099] O método pode compreender, ainda, (não mostrado na Figura 1) gerar, para cada uma da pluralidade de camadas, um pacote de camada de transporte (por exemplo, um pacote de camada base 2200 e M-1 pacotes de camada de aperfeiçoamento 2300-1, ..., 2300-(M - 1)) incluindo os dados da respectiva camada (por exemplo, componentes, informações laterais básicas e informações laterais de aperfeiçoamento para a camada base, ou componentes e informações laterais de aperfeiçoamento para a uma ou mais camadas de aperfeiçoamento).

[0100] Os pacotes de camada de transporte para diferentes camadas podem ter diferentes prioridades de transmissão. Dessa forma, o método pode compreender, ainda, (não mostrado na Figura 1), gerar um fluxo de transporte para a transmissão dos dados da pluralidade de camadas, em que a camada base tem a prioridade mais alta de transmissão e as camadas de aperfeiçoamento hierárquicas têm prioridades decrementais de transmissão. Nisso, a prioridade maior de transmissão pode corresponder a uma extensão maior de proteção contra erro, e vice-versa.

[0101] A menos que etapas exijam certas outras etapas como pré-requisitos, as etapas mencionadas anteriormente podem ser realizadas em qualquer ordem e é entendido que a ordem exemplificadora ilustrada na Figura 1 não é limitante.

[0102] A Figura 3 ilustra um método de decodificação de uma representação de som compactada de um som ou campo sonoro) para decodificar ou descompactação (desempacotamento). Exemplos do estágio de receptor e descompactação são ilustrados de maneira esquemática nos diagramas de blocos das Figuras 4A e 4B.

[0103] Como disposto acima, a representação de som compactada pode ser codificada na pluralidade de camadas hierárquicas. A pluralidade de camadas pode ter atribuídos a isso (por exemplo, pode incluir) os componentes da representação de som compactada básica, em que os componentes são atribuídos a respectivas camadas nos respectivos grupos de componentes. A camada base pode incluir as informações laterais básicas para decodificar a representação de som compactada básica. Cada camada pode incluir uma das porções mencionadas anteriormente de informações laterais de aperfeiçoamento incluindo parâmetros para aprimorar uma representação de som reconstruída básica obtenível junto aos dados incluídos na respectiva camada e qualquer uma das camadas inferiores à respectiva camada.

[0104] O método proposto pode ser realizado em uma base de quadro (isto é, de maneira em quadros). Em particular, uma representação restaurada do som ou campo sonoro pode ser gerada para intervalos de tempo sucessivos, por exemplo, intervalos de tempo de tamanho igual. Os intervalos de tempo podem ser quadros, por exemplo. As etapas descritas abaixo podem ser realizadas para cada intervalo de tempo sucessivo (por exemplo, quadros).

[0105] Em S3010, são recebidos os conteúdos de dados (por exemplo, pacotes de camada de transporte) que correspondem à pluralidade de camadas. Os conteúdos de dados podem ser recebidos como parte de um fluxo de bits que contém a representação de HOA compactada de um som ou um campo sonoro, em que a representação corresponde à pluralidade de camadas hierárquicas. As camadas hierárquicas incluem uma camada base e uma ou mais camadas de aperfeiçoamento hierárquicas. A pluralidade de camadas tem atribuídos a isso componentes de uma representação de som compactada básica do som ou campo sonoro. Os componentes são atribuídos a respectivas camadas nos respectivos grupos de componentes.

[0106] Os pacotes de camada individuais podem ser multiplexados para fornecer o pacote de quadro recebido da representação de som compactada completa. O pacote de quadro recebido pode ser indicado por

[0107] No caso alternativo dos pacotes BSIj e BSID,m para m = 1,..., M sendo combinados em um único pacote BSI, os pacotes de camada individuais podem ser multiplexados para fornecer o pacote de quadro recebido da representação de som compactada completa indicado por

[0108] Em termos de conteúdos, o pacote de quadro recebido pode ser dado por

[0109] O pacote de quadro recebido pode ser, então, passado para um descompactador ou decodificador 4100. Se a transmissão de uma camada individual era livre de erro, a bandeira de validade do pelo menos conteúdo de informações laterais de aperfeiçoamento

(por exemplo, que corresponde a uma porção de informações laterais de aperfeiçoamento) é definida em “verdadeiro”. No caso de um erro devido à transmissão de uma camada individual, a bandeira de validade pelo menos no conteúdo de informações laterais de aperfeiçoamento nessa camada é definida em “falso”. Por conseguinte, a validade de um pacote de camada pode ser determinada da validade do conteúdo de informações laterais de aperfeiçoamento contido (por exemplo, de sua bandeira de validade).

[0110] No descompactador 4100, o pacote de quadro recebido pode ser demultiplexado. Para esse propósito, as informações acerca do tamanho de cada conteúdo podem ser exploradas para evitar análise desnecessária dos dados dos conteúdos individuais.

[0111] Em S3020, um primeiro índice de camada que indica uma camada mais alta (por exemplo, camada utilizável mais alta, ou camada decodificável mais alta) é determinado dentre a pluralidade de camadas a ser usada para decodificar a representação de som compactada básica para a representação de som reconstruída básica do som ou campo sonoro.

[0112] Ademais, em S3020, pode ser selecionado o valor (por exemplo, índice de camada) NB da camada mais alta (camada utilizável mais alta) que será usado para descompactação da representação de som básica. A camada de aperfeiçoamento mais alta ser realmente usada para descompactação da representação de som básica é dada por NB - 1. Visto que cada camada contém um conteúdo de informações laterais de aperfeiçoamento (porção de informações laterais de aperfeiçoamento), pode ser determinado com base no conteúdo de informações laterais de aperfeiçoamento se a camada de encerramento é válida (por exemplo, foi recebida de maneira válida). Por conseguinte, a seleção pode ser realizada com o uso de todos os conteúdos de informações laterais de aperfeiçoamento ESIm, m = 1,...,M (ou, correspondentemente,

, m = 1, ...,M).

[0113] Em S3030, é obtida uma representação de som reconstruída básica. A representação de som reconstruída básica pode ser obtida de componentes atribuídos à camada utilizável mais alta indicada pelo primeiro índice de camada e qualquer uma das camadas inferiores a essa camada utilizável mais alta, com o uso das informações laterais básicas (ou, em geral, com o uso das informações laterais básicas).

[0114] Os conteúdos dos componentes de representação de som compactada básica BSRQ,..., BSRC7 podem ser fornecidos, junto com (todos) os conteúdos de informações laterais básicas (por exemplo, BSI ou BSIj e BSID,m, m = 1,...,M) e o valor NB, a uma unidade de processamento de Descompactação de Representação Básica 4200. A unidade de processamento de Descompactação de Representação Básica 4200 (ilustrada nas Figuras 4A e 4B) reconstrói a representação de som básica (ou campo sonoro) com o uso apenas daqueles componentes de representação de som compactada básica contidos nas camadas mais baixas NB, que é a camada base e NB - 1 camadas de aperfeiçoamento (isto é, as camadas acima da camada indicada pelo primeiro índice de camada). Alternativamente, apenas os conteúdos dos componentes de representação de som compactada básica contidos nas camadas mais baixas NB junto com os respectivos conteúdos de informações laterais básicas podem ser fornecidos para a unidade de processamento de Descompactação de Representação Básica 4200.

[0115] Presume-se que as informações necessárias sobre quais componentes da representação de som básica (ou campo sonoro) compactada estão contidos nas camadas individuais sejam conhecidas para o descompactador 4100 de um pacote de dados com informações de configuração, que devem ser enviadas e recebidas antes dos pacotes de dados de quadro.

[0116] A fim de fornecer os pacotes de dados de informações laterais dependentes BSID,m, m = 1,...,NB e o pacote de dados de informações laterais de aperfeiçoamento

, todos os conteúdos de aperfeiçoamento podem ser inseridos em um analisador parcial 4400 (consulte a Figura 4B) do descompactador 4100 junto com o valor NE e o valor NB. O analisador pode descartar todos os conteúdos e pacotes de dados que não serão usados para descompactação real. Se o valor de NE é igual a zero, pode-se presumir que todos os pacotes de dados de informações laterais de aperfeiçoamento estão vazios.

[0117] Se a camada base inclui pelo menos um conteúdo de informações laterais básicas dependentes (porção de informações laterais básicas adicionais) que corresponde a uma respectiva camada, a decodificação de cada conteúdo de informações laterais básicas dependentes individual (por exemplo, BSID,m, m = 1, ...,NB (porção de informações laterais básicas adicionais)) pode incluir (i) decodificar uma porção de informações laterais básicas adicionais por meio da referência aos componentes atribuídos a sua respectiva camada e qualquer uma das camadas inferiores à respectiva camada (decodificação preliminar), e (ii) corrigir a porção de informações laterais básicas adicionais por meio da referência aos componentes atribuídos à camada utilizável mais alta e qualquer uma das camadas entre a camada utilizável mais alta e a respectiva camada (correção). Nisso, as informações laterais básicas adicionais que correspondem a uma respectiva camada incluem informações que especificam a decodificação de um ou mais componentes dentre os componentes atribuídos à respectiva camada na dependência de outros componentes atribuídos à respectiva camada e qualquer uma das camadas inferiores à respectiva camada.

[0118] Então, a representação de som reconstruída básica pode ser obtida (por exemplo, gerada) dos componentes atribuídos à camada utilizável mais alta e qualquer uma das camadas inferiores à camada utilizável mais alta, com o uso das informações laterais básicas e porções corrigidas de informações laterais básicas adicionais obtidas de porções de informações laterais básicas adicionais que correspondem a camadas acima da camada utilizável mais alta.

[0119] Em particular, a decodificação preliminar de cada conteúdo BSID,m, m=l,...,NB, pode envolver explorar sua dependência dos primeiros Jm -1 componentes de representação de som compactada básica BSRQ,..., BSRC(Jm)_1 contidos nas primeiras m camadas, que foi presumida no estágio de codificação.

[0120] A correção sucessiva de cada conteúdo BSID,m, m = 1,-,NB, pode envolver considerar que o componente de som básico é finalmente reconstruído dos primeiros

componentes de representação de som compactada básica

contidos nas primeiras NB>m camadas, que são mais componentes do que presumido para a decodificação preliminar. Por conseguinte, a correção pode ser realizar por meio do descarte de informações obsoletas, que é possível devido à propriedade inicialmente presumida das informações laterais básicas dependentes que, se certos componentes complementares são adicionados à representação de som compactada básica, as informações laterais básicas dependentes para cada componente individual (complementar) se tornam um subconjunto daquele original.

[0121] Em S3040, pode ser determinado um segundo índice de camada. O segundo índice de camada pode indicar a porção (ou porções) de informações laterais de aperfeiçoamento que deveriam ser usadas para aprimorar (por exemplo, aperfeiçoar) a representação de som reconstruída básica.

[0122] Além do primeiro índice de camada, pode ser determinado um índice (segundo índice de camada) NE do conteúdo de informações laterais de aperfeiçoamento (porção das segundas informações de aperfeiçoamento) a serem usadas para descompactação. O segundo índice de camada NE pode sempre ou ser igual ao primeiro índice de camada NB ou igual a zero. O aperfeiçoamento pode ser realizado ou sempre de acordo com a representação de som básica obtida da camada utilizável mais alta ou não ser realizado.

[0123] Em S3050, uma representação de som reconstruída do som ou campo sonoro é obtida (por exemplo, gerada) da representação de som reconstruída básica, com referência ao segundo índice de camada.

[0124] Ou seja, a representação de som reconstruída é obtida por meio (parametricamente) do aprimoramento ou aperfeiçoamento da representação de som reconstruída básica, como por meio do uso das informações laterais de aperfeiçoamento (porção de informações laterais de aperfeiçoamento) indicadas pelo segundo índice de camada. Conforme indicado adicionalmente abaixo, o segundo índice de camada pode indicar o não uso de quaisquer informações laterais de aperfeiçoamento nesse estágio. Então, a representação de som reconstruída corresponderia à representação de som reconstruída básica.

[0125] Para esse propósito, a representação de som básica reconstruída junto com todos os conteúdos de informações laterais de aperfeiçoamento ESI!,..., ESIM, os conteúdos de informações laterais básicas (por exemplo, BSI ou BSIj e BSID,m, m = 1, ...,M), e o valor NE é fornecido para uma unidade de processamento de Descompactação de Representação Aperfeiçoada 4300 (ilustrado nas Figuras 4A e 4B), que computa a representação de som (ou campo sonoro) aperfeiçoada final 2100’ com o uso apenas do conteúdo de informações laterais de aperfeiçoamento

e descartando todos os outros conteúdos de informações laterais de aperfeiçoamento. Alternativamente, apenas o conteúdo de informações laterais de aperfeiçoamento

, ao invés de todos os conteúdos de informações laterais de aperfeiçoamento, pode ser fornecido para a unidade de processamento de Descompactação de Representação Aperfeiçoada 4300. Se o valor de NE é igual a zero, todos os conteúdos de informações laterais de aperfeiçoamento são descartados (ou, alternativamente, nenhum conteúdo de informações laterais de aperfeiçoamento é fornecido) e a representação de som aperfeiçoada final reconstruída 2100’ é igual à representação de som básica reconstruída. O conteúdo de informações laterais de aperfeiçoamento

pode ter sido obtido pelo analisador parcial 4400.

[0126] A Figura 3 também geralmente ilustra a decodificação da representação de HOA compactada com base em informações laterais básicas que estão associadas à camada base e com base em informações laterais de aperfeiçoamento que estão associadas a uma ou mais camadas de aperfeiçoamento hierárquicas.

[0127] A menos que etapas exijam certas outras etapas como pré-requisitos, as etapas mencionadas anteriormente podem ser realizadas em qualquer ordem e é entendido que a ordem exemplificadora ilustrada na Figura 3 não é limitante.

[0128] Posteriormente, serão descritos detalhes da seleção de camada para a descompactação (seleção do primeiro e do segundo índices de camada) nas etapas S3020 e S3040.

[0129] A determinação do primeiro índice de camada pode envolver determinar, para cada camada, se a respectiva camada foi recebida de maneira válida. A determinação do primeiro índice de camada pode adicionalmente envolver determinar o primeiro índice de camada como o índice de camada de uma camada imediatamente abaixo da camada mais baixa que não foi recebida de maneira válida. Se uma camada foi, ou não, recebida de maneira válida pode ser determinado por meio da avaliação se o conteúdo de informações laterais de aperfeiçoamento daquela camada foi recebido de maneira válida. Isso, por sua vez, pode ser realizado por meio da avaliação das bandeiras de validade nos conteúdos de informações laterais de aperfeiçoamento.

[0130] A determinação do segundo índice de camada pode geralmente envolver ou determinar que o segundo índice de camada é igual ao primeiro índice de camada ou determinar o valor de índice como o segundo índice de camada (por exemplo, valor de índice 0) que indica não usar quaisquer informações laterais de aperfeiçoamento quanto obtém a representação de som reconstruída.

[0131] No caso em que todos os pacotes de dados de quadro podem ser descompactados independente um do outro, tanto o número NB da camada mais alta (camada utilizável mais alta) a ser realmente usado para descompactação da representação de som básica como o índice NE do conteúdo de informações laterais de aperfeiçoamento a ser usado para descompactação podem ser definidos no número mais alto L de um conteúdo de informações laterais de aperfeiçoamento válido, que pode, por si só, ser determinado por meio da avaliação das bandeiras de validade nos conteúdos de informações laterais de aperfeiçoamento. Explorando o conhecimento do tamanho de cada conteúdo de informações laterais de aperfeiçoamento, pode ser evitada uma análise complicada dos dados reais dos conteúdos para a determinação de sua validade.

[0132] Ou seja, o segundo índice de camada pode ser determinado igual ao primeiro índice de camada se as representações de som compactadas para os intervalos de tempo sucessivos podem ser decodificadas independentemente. Nesse caso, a representação de som básica reconstruída pode ser aperfeiçoada com base nas conteúdo de informações laterais de aperfeiçoamento da camada utilizável mais alta.

[0133] No caso de a descompactação diferencial com dependência entre quadros ser empregada, a decisão do quadro anterior deve ser considerada adicionalmente. Observar que, com descompactação diferencial, pacotes de dados de quadro usualmente independentes são transmitidos em intervalos de tempo regulares a fim de permitir o início da descompactação desses instantes de tempo, em que a determinação dos valores NB e NE se torna independente de quadro e é executada como descrito acima.

[0134] Para explicar a decisão dependente de quadro proposta em detalhes, o número mais alto (por exemplo, índice de camada) de um conteúdo de informações laterais de aperfeiçoamento válido para um fc-ésimo quadro é denotado por L(k~), o número de camada mais alta (por exemplo, índice de camada) a ser selecionado e usado para descompactação da representação de som básica por NB(k), e o número (por exemplo, índice de camada) do conteúdo de informações laterais de aperfeiçoamento a ser usado para descompactação por NE(k).

[0135] Usando essa notação, o número de camada mais alta a ser usado para descompactação da representação de som básica por NB(k) pode ser computado de acordo com

[0136] Escolhendo NB(k~) não maior que NB(k - 1) e L(k~) assegura-se que todas as informações necessárias para descompactação diferencial da representação de som básica estão disponíveis.

[0137] Ou seja, se as representações de som compactadas para os intervalos de tempo sucessivos (por exemplo, quadros) não podem ser decodificadas independentemente uma da outra, a determinação do primeiro índice de camada pode compreender determinar, para cada camada, se a respectiva camada foi recebida de maneira válida, e determinar o primeiro índice de camada para o dado intervalo de tempo como o menor dentre o primeiro índice de camada do intervalo de tempo que precede o dado intervalo de tempo e o índice de camada de uma camada imediatamente abaixo da camada mais baixa que não foi recebida de maneira válida.

[0138] O número NE(k) do conteúdo de informações laterais de aperfeiçoamento a ser usado para descompactação pode ser determinado de acordo com

[0139] Nisso, a escolha de 0 para NE(k) indica que a representação de som básica reconstruída não deve ser aprimorada ou aperfeiçoada com o uso de informações laterais de aperfeiçoamento.

[0140] Isso significa, em particular, que, desde que o número de camada mais alta NB(k~) a ser usado para descompactação da representação de som básica não mude, é selecionado o mesmo número de camada de aperfeiçoamento correspondente. Entretanto, no caso de uma mudança de NB(k~), o aperfeiçoamento é desabilitado pela definição de NE(k) em zero. Devido à descompactação diferencial presumida das informações laterais de aperfeiçoamento, sua mudança de acordo com NB(k~) não é possível visto que exigiria a descompactação da camada de informações laterais de aperfeiçoamento correspondente no quadro anterior que se presume não ter sido realizado.

[0141] Ou seja, se as representações de som compactadas para os intervalos de tempo sucessivos (por exemplo, quadros) não podem ser decodificadas independentemente uma da outra, a determinação do segundo índice de camada pode compreender determinar se o primeiro índice de camada para o dado intervalo de tempo é igual ao primeiro índice de camada para o intervalo de tempo precedente. Se o primeiro índice de camada para o dado intervalo de tempo é igual ao primeiro índice de camada para o intervalo de tempo precedente, o segundo índice de camada para o dado intervalo de tempo pode ser determinado (por exemplo, selecionado) igual ao primeiro índice de camada para o dado intervalo de tempo. Por outro lado, se o primeiro índice de camada para o dado intervalo de tempo não é igual ao primeiro índice de camada para o intervalo de tempo precedente, um valor de índice pode ser determinado (por exemplo, selecionado) com o segundo índice de camada que indica não usar quaisquer informações laterais de aperfeiçoamento na obtenção da representação de som reconstruída.

[0142] Alternativamente, se, na descompactação, todos os conteúdos de informações laterais de aperfeiçoamento com números até NE(k) são descompactados em paralelo, a regra de seleção na Equação (4) pode ser substituída por

[0143] Finalmente, observar que, para descompactação diferencial, o número da camada usada mais alta NB pode apenas aumentar em pacotes de dados de quadro independentes, enquanto que uma diminuição é possível em cada quadro.

[0144] Entende-se que o método proposto de codificação em camadas de uma representação de som compactada pode ser implantado por um codificador para a codificação em camadas de uma representação de som compactada. Tal codificador pode compreender respectivas unidades adaptadas para executar as respectivas etapas descritas acima. Um exemplo de tal codificador 5000 é ilustrado de maneira esquemática na Figura 5. Por exemplo, tal codificador 5000 pode compreender uma unidade de subdivisão de componente 5010 adaptada para realizar S1010 mencionada anteriormente, uma unidade de atribuição de componente 5020 adaptada para realizar S1020 mencionada anteriormente, uma unidade de atribuição de informações laterais básicas 5030 adaptada para realizar S1030 mencionada anteriormente, uma unidade de divisão de informações laterais de aperfeiçoamento 5040 adaptada para realizar S1040 mencionada anteriormente e uma unidade de atribuição de informações laterais de aperfeiçoamento 5050 adaptada para realizar S1050 mencionada anteriormente. É adicionalmente entendido que as respectivas unidades de tal codificador podem ser incorporadas por um processador 5100 de um dispositivo de computação que é adaptado para realizar o processamento executado por cada uma das ditas respectivas unidades, isto é, que é adaptado para executar parte ou a totalidade das etapas mencionadas anteriormente, bem como quaisquer etapas adicionais do método de codificação proposto. O codificador ou dispositivo de computação pode compreender, ainda, uma memória 5200 que é acessível pelo processador 5100.

[0145] É adicionalmente entendido que o método proposto de decodificação de uma representação de som compactada que é codificada em uma pluralidade de camadas hierárquicas pode ser implantado por um decodificador para decodificar uma representação de som compactada que é codificada em uma pluralidade de camadas hierárquicas. Tal decodificador pode compreender respectivas unidades adaptadas para executar as respectivas etapas descritas acima. Um exemplo de tal decodificador 6000 é ilustrado de maneira esquemática na Figura 6. Por exemplo, tal decodificador 6000 pode compreender uma unidade de recebimento 6010 adaptada para realizar S3010 mencionada anteriormente, uma unidade de determinação de primeiro índice de camada 6020 adaptada para realizar S3020 mencionada anteriormente, uma unidade de reconstrução básica 6030 adaptada para realizar S3030 mencionada anteriormente, uma unidade de determinação de segundo índice de camada 6040 adaptada para realizar S3040 mencionada anteriormente e uma unidade de reconstrução aperfeiçoada 6050 adaptada para realizar S3050 mencionada anteriormente. É adicionalmente entendido que as respectivas unidades de tal decodificador podem ser incorporadas por um processador 6100 de um dispositivo de computação que é adaptado para realizar o processamento executado por cada uma das ditas respectivas unidades, isto é, que é adaptado para executar parte ou a totalidade das etapas mencionadas anteriormente, bem como quaisquer etapas adicionais do método de decodificação proposto. O decodificador ou dispositivo de computação pode compreender, ainda, uma memória 6200 que é acessível pelo processador 6100.

[0146] Deve ser observado que a descrição e as figuras meramente ilustram os princípios dos métodos e aparelho propostos. Será apreciado que os versados na técnica serão capazes de conceber várias disposições que, embora não explicitamente descritas ou mostradas aqui, incorporam os princípios da invenção e estão incluídas dentro do seu espírito e âmbito. Além disso, todos os exemplos aqui citados são principalmente destinados aos fins pedagógicos para ajudar o leitor a compreender os princípios dos métodos e aparelhos propostos e os conceitos contribuídos pelos inventores para promover a técnica, e devem ser interpretados como sendo sem limitação a tais exemplos e condições especificamente recitados. Além disso, todas as declarações aqui descritas recitando princípios, aspectos e modalidades da invenção, bem como exemplos específicos das mesmas, destinam- se a englobar equivalentes das mesmas.

[0147] Os métodos e aparelhos descritos no presente documento podem ser implementados como software, firmware e/ou hardware. Certos componentes podem, por exemplo, ser implementados como software em execução em um processador ou microprocessador de sinal digital. Outros componentes podem, por exemplo, ser implementados como hardware e ou como circuitos integrados de aplicação específica. Os sinais encontrados nos métodos e aparelhos descritos podem ser armazenados em meios tais como memória de acesso aleatório ou meio de armazenamento óptico. Os mesmos podem ser transferidos através de redes, tais como redes de rádio, redes de satélite, redes sem fios ou redes com fios, por exemplo, a Internet.

[0148] Referência 1: ISO/IEC JTC1/SC29/WG11 23008-3:2015(E). Tecnologia da informação - Codificação de alta eficiência e entrega de meio em ambientes heterogêneos - Parte 3: áudio 3D, fevereiro de 2015.

[0149] Referência 2: ISO/IEC JTC1/SC29/WG11 23008-3:2015/PDAM3. Tecnologia da informação - Codificação de alta eficiência e entrega de meio em ambientes heterogêneos - Parte 3: áudio 3D, EMENDA 3: Áudio MPEG-H 3D Fase 2, julho de 2015.

Claims

1. Método para decodificar uma representação de som Ambissônica de Ordem Superior (HOA) compactada de um som ou campo sonoro que é codificado em uma pluralidade de camadas hierárquicas usando codificação em camadas, o método CARACTERIZADO pelo fato de que compreende: receber (S3010) um fluxo de bits contendo a representação de HOA compactada que corresponde à pluralidade de camadas hierárquicas que incluem uma camada base (2200) e pelo menos duas camadas de aperfeiçoamento hierárquicas (2300), em que a pluralidade de camadas têm atribuídos a mesma componentes de uma representação de som compactada básica do som ou campo sonoro, os componentes correspondendo a uma pluralidade de sinais monaurais e sendo atribuídos a respectivas camadas em respectivos grupos de componentes, e decodificar a representação de HOA compactada com base em informações laterais básicas (2120) que são associadas à camada base (2200) e com base em informações laterais de aperfeiçoamento (2140) que são associadas com as pelo menos duas camadas de aperfeiçoamento hierárquicas, em que as informações laterais básicas (2120) incluem ainda informações laterais independentes básicas (2120) relacionadas a primeiros sinais monaurais individuais da pluralidade de sinais monaurais que serão decodificados independentemente de outros sinais monaurais da pluralidade de sinais monaurais, e em que as informações laterais básicas incluem adicionalmente informações laterais dependentes básicas relacionadas a segundos sinais monaurais individuais da pluralidade de sinais monaurais que serão decodificados dependentemente de outros sinais monaurais da pluralidade de sinais monaurais.

2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que as informações laterais dependentes básicas incluem sinais com base em vetor que são direcionalmente distribuídos dentro do campo sonoro, onde a distribuição direcional é especificada por meio de um vetor.

3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que componentes do vetor são definidos em zero e não fazem parte da representação de vetor compactada.

4. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que as informações laterais de aperfeiçoamento incluem parâmetros relacionados a pelo menos um dentre: predição espacial, síntese de sinais direcionais de sub-banda e replicação de ambiente paramétrico.