BR122023022314A2

BR122023022314A2 - Distribuição de taxa de bits em serviços de voz e áudio imersivos

Info

Publication number: BR122023022314A2
Application number: BR122023022314-4A
Authority: BR
Inventors: Rishabh Tyagi; Juan Felix Torres; Stefanie Brown
Original assignee: Dolby Laboratories Licensing Corporation
Priority date: 2019-10-30
Filing date: 2020-10-28
Publication date: 2024-04-24

Abstract

As modalidades são descritas para distribuição de taxa de bits em serviços de voz e áudio imersivos. Em uma modalidade, um método de codificação de um fluxo de bits IVAS compreende: receber um sinal de áudio de entrada; realizar downmixing no sinal de áudio de entrada em um ou mais canais de downmix e metadados espaciais; ler um conjunto de uma ou mais taxas de bits para os canais de downmix e um conjunto de níveis de quantização para os metadados espaciais a partir de uma tabela de controle de distribuição de taxa de bits; determinar uma combinação da uma ou mais taxas de bits para os canais de downmix; determinar um nível de quantização de metadados a partir do conjunto de níveis de quantização de metadados usando um processo de distribuição de taxa de bits; quantificar e codificar os metadados espaciais usando o nível de quantização de metadados; gerar, usando a combinação de uma ou mais taxas de bits, um fluxo de bits de downmix para o um ou mais canais de downmix; combinar o fluxo de bits de downmix, os metadados espaciais quantizados e codificados e o conjunto de níveis de quantização no fluxo de bits IVAS.

Description

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS

[001] Este pedido reivindica prioridade para o Pedido de Patente Provisional dos Estados Unidos No. 62/927.772, depositado em 30 de outubro de 2019; e Pedido de Patente Provisional dos Estados Unidos No. 63/092.830, depositado em 16 de outubro de 2020, os quais são aqui incorporados por referência.

CAMPO TÉCNICO

[002] Esta invenção refere-se geralmente à codificação e decodificação de fluxo de bits de áudio.

FUNDAMENTO

[003] O desenvolvimento padrão de codificador/decodificador de voz e áudio ("codec") recentemente se concentrou no desenvolvimento de um codec para serviços de voz e áudio imersivos (IVAS). Espera-se que o IVAS ofereça suporte a uma faixa de recursos de serviços de áudio, incluindo, mas não limitado a realizar upmixing mono para estéreo e codificação, decodificação e renderização de áudio totalmente imersivas. O IVAS destina-se a ser suportado por uma ampla faixa de dispositivos, terminais, e nós de rede, incluindo, mas não limitado a: telefones celulares e inteligentes, tablets eletrônicos, computadores pessoais, telefones de conferência, salas de conferência, dispositivos de realidade virtual (VR) e realidade aumentada (AR), dispositivos de home theater, e outros dispositivos adequados. Esses dispositivos, terminais e nós de rede podem ter várias interfaces acústicas para captura e renderização de som.

SUMÁRIO

[004] As implementações são descritas para distribuição de taxa de bits em serviços de voz e áudio imersivos.

[005] Em uma modalidade, um método de codificação de um fluxo de bits de serviços de áudio e voz imersivos (IVAS), o método compreende: receber, usando um ou mais processadores, um sinal de áudio de entrada; realizar downmixing, usando um ou mais processadores, o sinal de áudio de entrada em um ou mais canais de downmix e metadados espaciais associados a um ou mais canais do sinal de áudio de entrada; ler, usando um ou mais processadores, um conjunto de uma ou mais taxas de bits para os canais de downmix e um conjunto de níveis de quantização para os metadados espaciais de uma tabela de controle de distribuição de taxa de bits; determinar, usando um ou mais processadores, uma combinação de uma ou mais taxas de bits para os canais de downmix; determinar, usando um ou mais processadores, um nível de quantização de metadados a partir do conjunto de níveis de quantização de metadados usando um processo de distribuição de taxa de bits; quantificar e codificar, usando um ou mais processadores, os metadados espaciais usando o nível de quantização de metadados; gerar, usando um ou mais processadores e a combinação de uma ou mais taxas de bits, um fluxo de bits de downmix para um ou mais canais de downmix; combinar, usando um ou mais processadores, o fluxo de bits de downmix, os metadados espaciais quantizados e codificados e o conjunto de níveis de quantização no fluxo de bits IVAS; e transmitir ou armazenar o fluxo de bits IVAS para reprodução em um dispositivo habilitado para IVAS.

[006] Em uma modalidade, o sinal de áudio de entrada é um sinal de áudio Ambisônico (FoA) de primeira ordem de quatro canais, sinal FoA planar de três canais ou um sinal de áudio estéreo de dois canais.

[007] Em uma modalidade, uma ou mais taxas de bits são taxas de bits de um ou mais canais de taxas de bits de codificador/decodificador de áudio mono (codec).

[008] Em uma modalidade, o codec de áudio mono é um codec de serviços de voz aprimorados (EVS) e o fluxo de bits de downmix é um fluxo de bits EVS.

[009] Em uma modalidade, obter, usando um ou mais processadores, uma ou mais taxas de bits para os canais de downmix e os metadados espaciais usando uma tabela de controle de distribuição de taxa de bits, ainda compreende: identificar uma linha na tabela de controle de distribuição de taxa de bits usando uma índice da tabela que inclui um formato do sinal de áudio de entrada, uma largura de banda do sinal de áudio de entrada, uma ferramenta de codificação espacial permitida, um modo de transição e um modo de retrocompatibilidade de downmix mono; extrair da linha identificada da tabela de controle de distribuição de taxa de bits, uma taxa de bits alvo, uma relação de taxa de bits, uma taxa de bits mínima e etapas de desvio de taxa de bits, em que a relação de taxa de bits indica uma relação na qual uma taxa de bits total deve ser distribuída entre os canais de sinal de áudio de downmix, a taxa de bits mínima é um valor abaixo do qual a taxa de bits total não pode ir e as etapas de desvio da taxa de bits são etapas de redução da taxa de bits alvo quando uma primeira prioridade para os sinais de downmix é maior ou igual, ou inferior a uma segunda prioridade dos metadados espaciais; e determinar uma ou mais taxas de bits para os canais de downmix e os metadados espaciais com base na taxa de bits alvo, a relação de taxa de bits, a taxa de bits mínima e as etapas de desvio da taxa de bits.

[010] Em uma modalidade, a quantização dos metadados espaciais para um ou mais canais do sinal de áudio de entrada usando um conjunto de níveis de quantização, a quantização é realizada em um enlace de quantização que aplica estratégias de quantização cada vez mais grosseiras com base em uma diferença entre uma taxa de bits de metadados alvo e uma taxa de bits de metadados real.

[011] Em uma modalidade, a quantização é determinada de acordo com uma prioridade de codec mono e uma prioridade de metadados espaciais com base nas propriedades extraídas do sinal de áudio de entrada e valores de covariância de banda de canal.

[012] Em uma modalidade, o sinal de áudio de entrada é um sinal estéreo e os sinais de downmix incluem uma representação de um sinal médio, residual do sinal estéreo e metadados espaciais.

[013] Em uma modalidade, os metadados espaciais incluem coeficientes de predição (PR), coeficientes de predição cruzada (C) e coeficientes de descorrelação (P) para um formato de reconstrutor espacial (SPAR) e coeficientes de predição (P) e coeficientes de descorrelação (PR) para um formato de acoplamento avançado complexo (CACPL).

[014] Em uma modalidade, um método de codificação de um fluxo de bits de serviços de áudio e voz imersivos (IVAS), o método compreende: receber, usando um ou mais processadores, um sinal de áudio de entrada; extrair, usando um ou mais processadores, propriedades do sinal de áudio de entrada; computar, usando um ou mais processadores, metadados espaciais para canais do sinal de áudio de entrada; ler, usando um ou mais processadores, um conjunto de uma ou mais taxas de bits para os canais de downmix e um conjunto de níveis de quantização para os metadados espaciais de uma tabela de controle de distribuição de taxa de bits; determinar, usando um ou mais processadores, uma combinação de uma ou mais taxas de bits para os canais de downmix; determinar, usando um ou mais processadores, um nível de quantização de metadados a partir do conjunto de níveis de quantização de metadados usando um processo de distribuição de taxa de bits; quantificar e codificar, usando um ou mais processadores, os metadados espaciais usando o nível de quantização de metadados; gerar, usando um ou mais processadores e a combinação de uma ou mais taxas de bits, um fluxo de bits de downmix para um ou mais canais de downmix usando uma ou mais taxas de bits; combinar, usando um ou mais processadores, o fluxo de bits de downmix, os metadados espaciais quantizados e codificados e o conjunto de níveis de quantização no fluxo de bits IVAS; e transmitir ou armazenar o fluxo de bits IVAS para reprodução em um dispositivo habilitado para IVAS.

[015] Em uma modalidade, as propriedades do sinal de áudio de entrada incluem um ou mais dentre largura de banda, dados de classificação de fala/música e dados de detecção de atividade de voz (VAD).

[016] Em uma modalidade, o número de canais de downmix a serem codificados no fluxo de bits IVAS é selecionado com base em um indicador de nível residual nos metadados espaciais.

[017] Em uma modalidade, um método de codificação de um fluxo de bits de serviços de áudio e voz imersivos (IVAS), ainda compreende: receber, usando um ou mais processadores, um sinal de áudio de entrada Ambisônico (FoA) de primeira ordem; extrair, usando um ou mais processadores e uma taxa de bits IVAS, propriedades do sinal de áudio de entrada FoA, em que uma das propriedades é uma largura de banda do sinal de áudio de entrada FoA; gerar, usando um ou mais processadores, metadados espaciais para o sinal de áudio de entrada FoA usando as propriedades do sinal FoA; escolher, usando um ou mais processadores, um número de canais residuais para enviar com base em um indicador de nível residual e coeficientes de descorrelação nos metadados espaciais; obter, usando um ou mais processadores, um índice da tabela de controle de distribuição de taxa de bits com base em uma taxa de bits IVAS, largura de banda e vários canais de downmix; ler, usando um ou mais processadores, uma configuração de reconstrutor espacial (SPAR) de uma linha na tabela de controle de distribuição de taxa de bits apontada pelo índice da tabela de controle de distribuição de taxa de bits; determinar, usando um ou mais processadores, uma taxa de bits de metadados alvo da taxa de bits IVAS, uma soma das taxas de bits EVS alvo e um comprimento do cabeçalho IVAS; determinar, usando um ou mais processadores, uma taxa de bits de metadados máxima da taxa de bits IVAS, uma soma das taxas de bits EVS mínimas e o comprimento do cabeçalho IVAS; quantificar, usando um ou mais processadores e um enlace de quantização, os metadados espaciais em uma maneira não diferencial no tempo de acordo com uma primeira estratégia de quantização; codificação de entropia, usando um ou mais processadores, os metadados espaciais quantizados; computar, usando um ou mais processadores, uma primeira taxa de bits de metadados real; determinar, usando um ou mais processadores, se a primeira taxa de bits de metadados real é menor ou igual a uma taxa de bits de metadados alvo; e de acordo com a primeira taxa de bits de metadados real sendo menor ou igual à taxa de bits de metadados alvo, sair o enlace de quantização.

[018] Em uma modalidade, o método ainda compreende: determinar, usando um ou mais processadores, uma primeira taxa de bits EVS real total adicionando uma primeira quantidade de bits igual a uma diferença entre a taxa de bits alvo de metadados e a primeira taxa de bits de metadados real para a taxa de bits alvo EVS total; gerar, usando um ou mais processadores, um fluxo de bits EVS usando a primeira taxa de bits EVS real total; gerar, usando um ou mais processadores, um fluxo de bits IVAS incluindo o fluxo de bits EVS, o índice da tabela de controle de distribuição de taxa de bits e os metadados espaciais quantizados e codificados por entropia; de acordo com a primeira taxa de bits de metadados real sendo maior que a taxa de bits de metadados alvo: quantificar, usando um ou mais processadores, os metadados espaciais de uma maneira diferencial de tempo de acordo com a primeira estratégia de quantização; codificação por entropia, usando um ou mais processadores, os metadados espaciais quantizados; computar, usando um ou mais processadores, uma segunda taxa de bits de metadados real; determinar, usando um ou mais processadores, se a segunda taxa de bits de metadados real é menor ou igual à taxa de bits de metadados alvo; e de acordo com a segunda taxa de bits de metadados real sendo menor ou igual à taxa de bits de metadados alvo, sair o enlace de quantização.

[019] Em uma modalidade, o método ainda compreende: determinar, usando um ou mais processadores, uma segunda taxa de bits EVS real total adicionando uma segunda quantidade de bits igual a uma diferença entre a taxa de bits alvo de metadados e a segunda taxa de bits de metadados real para a taxa de bits alvo EVS total; gerar, usando um ou mais processadores, um fluxo de bits EVS usando a segunda taxa de bits EVS real total; gerar, usando um ou mais processadores, o fluxo de bits IVAS incluindo o fluxo de bits EVS, o índice da tabela de controle de distribuição de taxa de bits e os metadados espaciais quantizados e codificados por entropia; de acordo com a segunda taxa de bits de metadados real sendo maior que a taxa de bits de metadados alvo: quantificar, usando um ou mais processadores, os metadados espaciais de uma maneira não diferencial no tempo de acordo com a primeira estratégia de quantização; codificar, usando um ou mais processadores e codificador de base2, os metadados espaciais quantizados; computar, usando um ou mais processadores, uma terceira taxa de bits de metadados real; e de acordo com a terceira taxa de bits de metadados real sendo menor ou igual à taxa de bits de metadados alvo, sair o enlace de quantização.

[020] Em uma modalidade, o método ainda compreende: determinar, usando um ou mais processadores, uma terceira taxa de bits EVS real total adicionando uma terceira quantidade de bits igual a uma diferença entre a taxa de bits alvo de metadados e a terceira taxa de bits de metadados real para a taxa de bits alvo EVS total; gerar, usando um ou mais processadores, um fluxo de bits EVS usando a terceira taxa de bits EVS real total; gerar, usando um ou mais processadores, o fluxo de bits IVAS incluindo o fluxo de bits EVS, o índice da tabela de controle de distribuição de taxa de bits e os metadados espaciais quantizados e codificados por entropia; de acordo com a terceira taxa de bits de metadados real sendo maior do que a taxa de bits de metadados alvo: definir, usando um ou mais processadores, uma quarta taxa de bits de metadados real para ser um mínimo das primeira, segunda e terceira taxas de bits de metadados reais; determinar, usando um ou mais processadores, se a quarta taxa de bits de metadados real é menor ou igual à taxa de bits de metadados máxima; de acordo com a quarta taxa de bits de metadados real sendo menor ou igual à taxa de bits de metadados máxima: determinar, usando um ou mais processadores, se a quarta taxa de bits de metadados real é menor ou igual à taxa de bits de metadados alvo; e de acordo com a quarta taxa de bits de metadados real sendo menor ou igual à taxa de bits de metadados alvo, sair o enlace de quantização.

[021] Em uma modalidade, o método ainda compreende: determinar, usando um ou mais processadores, uma quarta taxa de bits EVS real total adicionando uma quarta quantidade de bits igual a uma diferença entre a taxa de bits alvo de metadados e a quarta taxa de bits de metadados real para a taxa de bits EVS alvo total; gerar, usando um ou mais processadores, um fluxo de bits EVS usando a quarta taxa de bits EVS real total; gerar, usando um ou mais processadores, o fluxo de bits IVAS incluindo o fluxo de bits EVS, o índice da tabela de controle de distribuição de taxa de bits e os metadados espaciais quantizados e codificados por entropia; e de acordo com a quarta taxa de bits de metadados real sendo maior que a taxa de bits de metadados alvo e menor ou igual à taxa de bits de metadados máxima, sair o enlace de quantização.

[022] Em uma modalidade, o método ainda compreende: determinar, usando um ou mais processadores, uma quinta taxa de bits EVS real total subtraindo uma quantidade de bits igual a uma diferença entre a quarta taxa de bits de metadados real e a taxa de bits de metadados alvo da taxa de bits EVS alvo total; gerar, usando um ou mais processadores, um fluxo de bits EVS usando a quinta taxa de bits EVS real; gerar, usando um ou mais processadores, o fluxo de bits IVAS incluindo o fluxo de bits EVS, o índice da tabela de controle de distribuição de taxa de bits e os metadados espaciais quantizados e codificados por entropia; de acordo com a quarta taxa de bits de metadados real sendo maior que a taxa de bits de metadados máxima: alterar a primeira estratégia de quantização para uma segunda estratégia de quantização e entrar o enlace de quantização novamente usando a segunda estratégia de quantização, onde a segunda estratégia de quantização é mais grosseira que a primeira estratégia de quantização. Em uma modalidade, uma terceira estratégia de quantização pode ser usada que garante fornecer uma taxa de bits MD real inferior à taxa de bits MD máxima.

[023] Em uma modalidade, a configuração SPAR é definida por uma sequência de downmix, indicador W ativo, indicador de metadados espaciais complexos, estratégias de quantização de metadados espaciais, taxas de bits mínimas, máximas e alvo para uma ou mais instâncias de codificador/decodificador mono (codec) de Serviços de Voz Aprimorados (EVS) e um indicador de redução do descorrelador de domínio de tempo.

[024] Em uma modalidade, o número real total de bits EVS é igual a um número de bits IVAS menos um número de bits de cabeçalho menos a taxa de bits de metadados real, e em que se o número de bits EVS real total for menor que o número total de bits alvo EVS, em seguida, os bits são obtidos dos canais EVS na seguinte ordem Z, X, Y e W, e em que um número máximo de bits que pode ser obtido de qualquer canal é o número de bits alvo EVS para o canal menos o número mínimo de bits EVS para o canal, e em que se o número de bits EVS real for maior que o número de bits alvo EVS, em seguida, todos os bits adicionais serão atribuídos aos canais de downmix na seguinte ordem: W, Y, X e Z, e o número máximo de bits adicionais que pode ser adicionado a qualquer canal é o número máximo de bits EVS menos o número de bits alvo EVS.

[025] Em uma modalidade, um método de decodificação de um fluxo de bits de serviços de áudio e voz imersivos (IVAS), compreende: receber, usando um ou mais processadores, um fluxo de bits IVAS; obter, usando um ou mais processadores, uma taxa de bits IVAS de um comprimento de bits do fluxo de bits IVAS; obter, usando um ou mais processadores, um índice da tabela de controle de distribuição de taxa de bits do fluxo de bits IVAS; analisar, usando um ou mais processadores, uma estratégia de quantização de metadados de um cabeçalho do fluxo de bits IVAS; analisar e desquantizar, usando um ou mais processadores, os bits de metadados espaciais quantizados com base na estratégia de quantização de metadados; definir, usando um ou mais processadores, um número real de bits de serviços de voz aprimorados (EVS) igual a um comprimento de bit restante do fluxo de bits IVAS; ler, usando um ou mais processadores e o índice da tabela de controle de distribuição de taxa de bits, entradas de tabela da tabela de controle de distribuição de taxa de bits que contêm um alvo EVS, e uma taxa de bits mínima de EVS e uma taxa de bits máxima de EVS para uma ou mais instâncias de EVS; obter, usando um ou mais processadores, uma taxa de bits EVS real para cada canal de downmix; e decodificar, usando um ou mais processadores, cada canal EVS usando a taxa de bits EVS real para o canal; e realizar upmixing, usando um ou mais processadores, os canais EVS para canais Ambisônicos (FoA) de primeira ordem.

[026] Em uma modalidade, um sistema compreende: um ou mais processadores; e um meio legível por computador não transitório que armazena instruções que, mediante execução por um ou mais processadores, fazem com que um ou mais processadores executem operações de qualquer um dos métodos descritos acima.

[027] Em uma modalidade, um meio legível por computador não transitório que armazena instruções que, mediante execução por um ou mais processadores, fazem com que um ou mais processadores executem operações de qualquer um dos métodos descritos acima.

[028] Outras implementações descritas aqui são direcionadas a um sistema, aparelho e meio legível por computador. Os detalhes das implementações descritas são apresentados nos desenhos anexos e na descrição abaixo. Outras características, objetos e vantagens são evidentes a partir da descrição, desenhos e reivindicações.

[029] Implementações particulares descritas aqui fornecem uma ou mais das seguintes vantagens. Uma taxa de bits de codec IVAS é distribuída entre um codec mono e metadados espaciais (MD) e entre várias instâncias de codec mono. Para um determinado quadro de áudio, o codec IVAS determina um modo de codificação de áudio espacial (codificação paramétrica ou residual). O fluxo de bits IVAS é otimizado para reduzir o MD espacial, reduzir a sobrecarga de codec mono e minimizar o desperdício de bits a zero.

DESCRIÇÃO DOS DESENHOS

[030] Nos desenhos, disposições ou ordenações específicas de elementos esquemáticos, tais como aqueles que representam dispositivos, unidades, blocos de instruções e elementos de dados, são mostrados para facilitar a descrição. No entanto, deve ser entendido por aqueles versados na técnica que a ordenação ou disposição específica dos elementos esquemáticos nos desenhos não pretende implicar que uma determinada ordem ou sequência de processamento, ou separação de processos, seja necessária. Além disso, a inclusão de um elemento esquemático em um desenho não significa que tal elemento seja necessário em todas as modalidades ou que as características representadas por tal elemento não possam ser incluídas ou combinadas com outros elementos em algumas implementações.

[031] Além disso, nos desenhos, onde elementos de conexão, tais como linhas sólidas ou tracejadas ou setas, são usados para ilustrar uma conexão, relação ou associação entre ou entre dois ou mais outros elementos esquemáticos, a ausência de tais elementos de conexão não pretende implicar que nenhuma conexão, relações ou associação possa existir. Em outras palavras, algumas conexões, relações ou associações entre elementos não são mostradas nos desenhos para não obscurecer a invenção. Além disso, para facilitar a ilustração, um único elemento de conexão é usado para representar várias conexões, relações ou associações entre elementos. Por exemplo, quando um elemento de conexão representa uma comunicação de sinais, dados ou instruções, deve ser entendido pelos versados na técnica que tal elemento representa um ou vários caminhos de sinal, conforme po der necessário, para afetar a comunicação.

[032] A FIG. 1 ilustra casos de uso para um codec IVAS, de acordo com uma modalidade.

[033] A FIG. 2 é um diagrama de blocos de um sistema para codificar e decodificar fluxos de bits IVAS, de acordo com uma modalidade.

[034] A FIG. 3 é um diagrama de blocos de um codificador/decodificador de Ambisônicos (FoA) de primeira ordem do reconstrutor espacial ("codec") (SPAR) para codificar e decodificar fluxos de bits IVAS no formato FoA, de acordo com uma modalidade.

[035] A FIG. 4A é um diagrama de blocos de uma cadeia de sinal IVAS para FoA e sinais de entrada estéreo, de acordo com uma modalidade.

[036] A FIG. 4B é um diagrama de blocos de uma cadeia de sinal IVAS alternativa para FoA e sinais de entrada estéreo, de acordo com uma modalidade.

[037] A FIG. 5A é um diagrama de fluxo de um processo de distribuição de taxa de bits para sinais de entrada estéreo, FoA e FoA planares, de acordo com uma modalidade.

[038] As FIGURAS 5B e 5C é um diagrama de fluxo de um processo de distribuição de taxa de bits para sinais de entrada FoA do reconstrutor espacial (SPAR), de acordo com uma modalidade.

[039] A FIG. 6 é um diagrama de fluxo de um processo de distribuição de taxa de bits para sinais de entrada FoA e FoA estéreo, planares, de acordo com uma modalidade.

[040] A FIG. 7 é um diagrama de fluxo de um processo de distribuição de taxa de bits para um sinal de entrada SPAR FoA, de acordo com uma modalidade.

[041] A FIG. 8 é um diagrama de blocos de uma arquitetura de dispositivo de exemplo, de acordo com uma modalidade.

[042] O mesmo símbolo de referência usado em vários desenhos indica elementos similares.

DESCRIÇÃO DETALHADA

[043] Na descrição detalhada a seguir, vários detalhes específicos são apresentados para fornecer uma compreensão completa das várias modalidades descritas. Será evidente para um versado na técnica que as várias implementações descritas podem ser praticadas sem esses detalhes específicos. Em outros casos, métodos, procedimentos, componentes e circuitos bem conhecidos não foram descritos em detalhes para não obscurecer desnecessariamente aspectos das modalidades. Várias características são descritas a seguir que podem, cada uma, ser usadas independentemente uma da outra ou com qualquer combinação de outras características.

Nomenclatura

[044] Conforme usado aqui, o termo "inclui" e suas variantes devem ser lidos como termos abertos que significam "inclui, mas não é limitado a". O termo “ou” deve ser lido como “e/ou” a menos que o contexto indique claramente o contrário. O termo “com base em” deve ser lido como “com base em, pelo menos, parte, em”. Os termos “um exemplo de implementação” e “um exemplo de implementação” devem ser lidos como “pelo menos um exemplo de implementação”. O termo “outra implementação” deve ser lido como “pelo menos uma outra implementação”. O termo "determinado", "determina" ou "determinando" deve ser lido como obter, receber, computar, calcular, estimar, prever ou derivar. Além disso, na descrição e reivindicações a seguir, a menos que definido de outra forma, todos os termos técnicos e científicos usados aqui têm o mesmo significado comumente entendido por um versado na técnica à qual esta invenção pertence.

Exemplos de casos de uso de IVAS

[045] A FIG. 1 ilustra casos de uso 100 para um codec IVAS 100, de acordo com uma ou mais implementações. Em algumas implementações, vários dispositivos se comunicam através do servidor de chamadas 102 que está configurado para receber sinais de áudio de, por exemplo, uma rede telefônica pública comutada (PSTN) ou um dispositivo de rede móvel terrestre público (PLMN) ilustrado por PSTN/OUTROS PLMN 104. Casos de uso 100 suportam dispositivos legados 106 que processam e capturam áudio apenas em mono, incluindo, mas não limitado a: dispositivos que suportam serviços de voz aprimorados (EVS), banda larga de multitaxa (AMR-WB) e banda estreita de multitaxa adaptável (AMR-NB). Os casos de uso 100 também suportam equipamento de usuário (UE) 108, 114 que captura e processa sinais de áudio estéreo, ou UE 110 que captura e processa binauralmente sinais mono em sinais de multicanal. Os casos de uso 100 também suportam sinais imersivos e estéreo capturados e renderizados por sistemas de sala de videoconferência 116, 118, respectivamente. Os casos de uso 100 também suportam captura estéreo e renderização imersiva de sinais de áudio estéreo para sistemas de home theater 120, e computador 112 para captura mono e renderização imersiva de sinais de áudio para equipamento de realidade virtual (VR) 122 e ingestão de conteúdo imersivo 124.

Exemplos de Sistemas de Codificação/Decodificação IVAS

[046] A FIG. 2 é um diagrama de blocos de um sistema 200 para codificação e decodificação de fluxos de bits IVAS, de acordo com uma ou mais implementações. Para codificação, um codificador IVAS inclui análises espaciais e unidade de downmix 202 que recebe dados de áudio 201, incluindo, mas não limitado a: sinais mono, sinais estéreo, sinais binaurais, sinais de áudio espacial (por exemplo, objetos de áudio espacial de multicanal), FoA, Ambisônicos de ordem superior (HoA) e quaisquer outros dados de áudio. Em algumas implementações, a unidade de análises espaciais e downmix 202 implementa acoplamento avançado complexo (CACPL) para analisar/realizar downmixing de sinais de áudio estéreo/FoA e/ou SPAR para analisar/realizar downmixing de sinais de áudio FoA. Em outras implementações, a unidade de análises espaciais e downmix 202 implementa outros formatos.

[047] A saída da unidade de análises espaciais e downmix 202 inclui metadados espaciais, e canais de áudio de downmix 1-N, onde N é o número de canais de entrada. Os metadados espaciais são inseridos na unidade de codificação de quantização e entropia 203 que quantifica e codifica por entropia os dados espaciais. Em algumas implementações, a quantização pode incluir vários níveis de quantização cada vez mais grosseira, tais como, por exemplo, estratégias de quantização fina, moderada, grosseira e extra grosseira e a codificação de entropia pode incluir codificação Huffman ou Aritmética. A unidade de codificação de serviços de voz avançados (EVS) 206 codifica os canais de áudio 1-N em um ou mais fluxos de bits EVS.

[048] Em algumas implementações, a unidade de codificação EVS 206 está em conformidade com 3GPP TS 26.445 e fornece uma ampla faixa de funcionalidades, tais como qualidade aprimorada e eficiência de codificação para serviços de voz de banda estreita (EVS-NB) e banda larga (EVS-WB), qualidade aprimorada usando voz de banda super larga (EVS-SWB), qualidade aprimorada para conteúdo misto e música em aplicativos de conversação, robustez à perda de pacotes e atraso da variância de latência e compatibilidade com versões anteriores ao codec AMR-WB. Em algumas implementações, a unidade de codificação EVS 206 inclui uma unidade de pré-processamento e seleção de modo que seleciona entre um codificador de fala para codificar sinais de fala e um codificador de percepção para codificar sinais de áudio em uma taxa de bits especificada com base no controle de modo/taxa de bits 207. Em algumas implementações, o codificador de fala é uma variante aperfeiçoada da previsão linear excitada por código algébrico (ACELP), estendida com modos com base em previsão linear especializada (LP) para diferentes classes de fala. Em algumas implementações, o codificador de áudio é um codificador de transformação de cosseno discreto modificado (MDCT) com maior eficiência em baixo atraso/taxas de bits baixas e é projetado para realizar comutação contínua e confiável entre os codificadores de fala e áudio.

[049] Em algumas implementações, um decodificador IVAS inclui unidade de quantização e decodificação de entropia 204 configurada para recuperar os metadados espaciais, e decodificadores EVS 208 configurados para recuperar os sinais de áudio do canal 1-N. Os metadados espaciais recuperados e os sinais de áudio são inseridos na unidade de síntese/renderização espacial 209, que sintetiza/renderiza os sinais de áudio usando os metadados espaciais para reprodução em vários sistemas de áudio 210.

Exemplo de CODEC de IVAS/SPAR

[050] A FIG. 3 é um diagrama de blocos do codec FoA 300 para codificação e decodificação de FoA no formato SPAR, de acordo com algumas implementações. O codec FoA 300 inclui codificador SPAR FoA 301, codificador EVS 305, decodificador SPAR FoA 306 e decodificador EVS 307. O codificador SPAR FoA 301 converte um sinal de entrada FoA em um conjunto de canais de downmix e parâmetros usados para regenerar o sinal de entrada no decodificador SPAR FoA 306 Os sinais de downmix podem variar de 1 a 4 canais e os parâmetros incluem coeficientes de predição (PR), coeficientes de predição cruzada (C), e coeficientes de descorrelação (P). Observe que o SPAR é um processo usado para reconstruir um sinal de áudio a partir de uma versão de downmix do sinal de áudio usando os parâmetros PR, C e P, conforme descritos em mais detalhes abaixo.

[051] Observe que o exemplo de implementação mostrado na FIG. 3 representa um downmix nominal de 2 canais, onde o canal W (previsão passiva) ou W'(previsão ativa) é enviado com um único canal previsto Y' para o decodificador 306. Em algumas implementações, W pode ser um canal ativo. Um canal ativo W permite alguma mistura de canais X, Y, Z no canal W da seguinte forma: onde f é uma constante (por exemplo, 0,5) que permite a mistura de alguns dos canais X, Y, Z no canal W e pry, prx e prz são os coeficientes de previsão (PR). Em W passivo, f = 0, então não há mistura de canais X, Y, Z no canal W.

[052] Os coeficientes de previsão cruzada (C) permitem que alguma porção dos canais paramétricos seja reconstruída a partir dos canais residuais, nos casos em que pelo menos um canal enviado como um residual e pelo menos um é enviado parametricamente, ou seja, para 2 e 3 canais de downmixes. Para downmixes de dois canais (como descrito em mais detalhes abaixo), os coeficientes C permitem que alguns dos canais X e Z sejam reconstruídos a partir de Y', e os canais restantes são reconstruídos por versões descorrelacionadas do canal W, conforme descrito em mais detalhes abaixo. No caso de downmix de 3 canais, Y' e X'são usados para reconstruir Z sozinho.

[053] Em algumas implementações, o codificador SPAR FoA 301 inclui unidade de previsão passiva/ativa 302, unidade de remixagem 303 e unidade de seleção de extração/downmix 304. O preditor passivo/ativo recebe canais de FoA em um formato B de 4 canais (W, Y, Z, X) e computa os canais de downmix (representação de W, Y', Z', X').

[054] A unidade de seleção de extração/downmix 304 extrai metadados SPAR FoA de uma seção de carga útil de metadados do fluxo de bits IVAS, conforme descrito em mais detalhes abaixo. A unidade de previsão passiva/ativa 302 e a unidade de remix 303 usam os metadados SPAR FoA para gerar canais FoA remixados (W ou W' e A'), que são inseridos no codificador EVS 305 para serem codificados em um fluxo de bits EVS, que é encapsulado no fluxo de bits IVAS enviado para o decodificador 306. Observe neste exemplo que os canais Ambisônicos no formato B estão organizados na convenção AmbiX. No entanto, outras convenções, tal como a convenção Furse-Malham (FuMa) (W, X, Y, Z) também podem ser usadas.

[055] Com referência ao decodificador SPAR FoA 306, o fluxo de bits EVS é decodificado pelo decodificador EVS 307 resultando em canais de downmix N_dmx (por exemplo, N_dmx=2). Em algumas implementações, o decodificador SPAR FoA 306 realiza um inverso das operações realizadas pelo codificador SPAR 301. Por exemplo, no exemplo da FIG. 3, os canais FoA remixados (representação de W', A', B', C') são recuperados dos 2 canais de downmix usando os metadados espaciais SPAR FoA. Os canais SPAR FoA remixados são introduzidos no misturador inverso 311 para recuperar os canais de downmix SPAR FoA (representação de W', Y', Z', X'). Os canais SPAR FoA previstos são, em seguida, inseridos no preditor inverso 312 para recuperar os canais SPAR FoA originais não misturados (W, Y, Z, X).

[056] Observe que neste exemplo de dois canais, os blocos de descorreladores 309A (dec1) e 309B (dec2) são usados para gerar versões descorrelacionadas do canal W usando um descorrelador no domínio do tempo ou no domínio da frequência. Os canais de downmix e os canais de descorrelacionados são usados em combinação com os metadados SPAR FoA para reconstruir total ou parametricamente os canais X e Z. O bloco C 308 refere-se à multiplicação do canal residual pela matriz de coeficiente C 2x1, criando dois sinais de previsão cruzada que são somados nos canais reconstruídos parametricamente, como mostrado na FIG. 3. O bloco P1 310A e o bloco P2 310B referem-se à multiplicação das saídas do descorrelador por colunas da matriz de coeficiente 2x2 P, criando quatro saídas que são somadas nos canais reconstruídos parametricamente, como mostrado na FIG. 3.

[057] Em algumas implementações, dependendo do número de canais de downmix, uma das entradas FoA é enviada para o decodificador SPAR FoA 306 intacto (o canal W), e um a três dos outros canais (Y, Z e X) são enviados como residuais ou completamente parametricamente para o decodificador SPAR FoA 306. Os coeficientes PR, que permanecem os mesmos independentemente do número de canais de downmix N, são usados para minimizar a energia previsível nos canais de downmix residuais. Os coeficientes C são usados para auxiliar ainda mais na regeneração de canais totalmente parametrizados residuais. Como tal, os coeficientes C não são necessários nos casos de downmix de um e quatro canais, onde não há canais residuais ou canais parametrizados para prever. Os coeficientes P são usados para preencher a energia restante não contabilizada pelos coeficientes PR e C. O número de coeficientes P depende do número de canais de downmix N em cada banda. Em algumas implementações, os coeficientes SPAR PR (somente W passivo) são calculados da seguinte forma. Etapa 1. Preveja todos os sinais laterais (Y, Z, X) do sinal W principal usando a Equação [1] onde, como um exemplo, o parâmetro de previsão para o canal previsto Y'é calculado usando a Equação [2]. onde R_AB=cov(A,B)são elementos da matriz de covariância de entrada correspondentes aos sinais A e B, e podem ser calculados por banda. Da mesma forma, os canais residuais Z' e X'têm parâmetros de previsão correspondentes, prz e prx. PR é o vetor dos coeficientes de previsão . Etapa 2. Remixar os sinais W e previstos (Y', Z', X') do mais para o menos acusticamente relevante, em que "remixar" significa reordenar ou recombinar sinais com base em alguma metodologia,

[058] Uma implementação de remixagem é a reordenação dos sinais de entrada para W, Y', X', Z', dada a suposição de que as dicas de áudio da esquerda e da direita são mais acusticamente relevantes do que anterior-posterior, e as dicas anterior-posterior são mais acusticamente relevantes do que as dicas de cima para baixo. Etapa 3. Calcular a covariância do downmix de pós-previsão e remixagem de 4 canais, conforme mostrado nas Equações [4] e [5] onde d representa os canais residuais (ou seja, canais 2° a N_dmx), e u representa os canais paramétricos que precisam ser totalmente regenerados (ou seja, (N_dmx+1)° a canais 4°).

[059] Para o exemplo de um downmix WABC com canais 1-4, deu representam os seguintes canais mostrados na Tabela I: Tabela I - representações dos canais d e u

[060] De principal interesse para o cálculo dos metadados SPAR FoA são as quantidades R_dd, R_ud e R_uu. A partir das quantidades R_dd, R_ud e R_uu, o codec 300 determina se é possível fazer uma previsão cruzada de qualquer porção restante dos canais totalmente paramétricos dos canais residuais que estão sendo enviados para o decodificador. Em algumas implementações, os coeficientes C extras necessários são dados por:

[061] Portanto, o parâmetro C tem a forma (1x2) para um downmix de 3 canais e (2x1) para um downmix de 2 canais. Etapa 4. Calcular a energia restante nos canais parametrizados que devem ser reconstruídos pelos descorreladores 309A, 309B. A energia residual nos canais upmix Res_uu é a diferença entre a energia efetiva R_uu (pós-previsão) e a energia regenerada de previsão cruzada Reg_uu.

[062] Em uma modalidade, a raiz quadrada da matriz é obtida após a matriz Resuu normalizada ter seus elementos fora da diagonal definidos como zero. P também é uma matriz de covariância, portanto é hermitiana simétrica e, portanto, apenas os parâmetros do triângulo superior ou inferior precisam ser enviados para o decodificador 306. As entradas diagonais são reais, enquanto os elementos fora da diagonal podem ser complexos. Em uma modalidade, os coeficientes P podem ser ainda separados em elementos diagonais e fora da diagonal P_d e P_o. Exemplo de Cadeia de Sinal IVAS (FoA ou Entrada Estéreo)

[063] A FIG. 4A é um diagrama de blocos de uma cadeia de sinal IVAS 400 para FoA e sinais de áudio de entrada estéreo, de acordo com uma modalidade. Nesta configuração de exemplo, a entrada de áudio para a cadeia de sinal 400 pode ser um sinal de áudio FoA de 4 canais ou um sinal de áudio estéreo de 2 canais. A unidade de downmix 401 gera canais de áudio downmix (dmx_ch) e MD espacial. Os canais de downmix são inseridos na unidade de distribuição de taxa de bits (BR) 402 que é configurada para quantizar o MD espacial e fornecer taxas de bits de codec mono para os canais de áudio de downmix usando uma tabela de controle de distribuição BR e taxa de bits IVAS, conforme descrito em detalhes abaixo. A saída da unidade de distribuição BR 402 é introduzida na unidade EVS 403, que codifica os canais de áudio downmix em um fluxo de bits EVS. O fluxo de bits EVS e o MD espacial quantizado e codificado são inseridos no empacotador de fluxo de bits IVAS 405 para formar um fluxo de bits IVAS, que é transmitido para um decodificador IVAS e/ou armazenado para processamento ou reprodução subsequente em um ou mais dispositivos IVAS.

[064] Para sinais de entrada estéreo, a unidade de downmix 401 é configurada para gerar uma representação do sinal médio (M'), residual (Re) do sinal estéreo e MD espacial. O MD espacial inclui coeficientes PR, C e P para SPAR e coeficientes PR e P para CACPL, conforme descrito mais detalhadamente abaixo. O sinal M', Re, MD espacial e uma tabela de controle de distribuição BR são inseridos na unidade de distribuição BR (taxa de bits) 402 que é configurada para quantizar os metadados espaciais e fornecer taxas de bits de codec mono para canais de downmix usando as características de sinal do sinal M' e a tabela de controle de distribuição BR. O sinal M', Re e o codec mono BRs são introduzidos na unidade EVS 403, que codifica o sinal M' e Re em um fluxo de bits EVS. O fluxo de bits EVS e o MD espacial quantizado e codificado são inseridos no empacotador de fluxo de bits IVAS 405 para formar um fluxo de bits IVAS, que é transmitido para um decodificador IVAS e/ou armazenado para processamento ou reprodução subsequente em um ou mais dispositivos IVAS.

[065] Para sinais de entrada de FoA, a unidade de downmix 401 é configurada para gerar 1 a 4 canais de downmix FoA W', Y', X' e Z' e MD espacial. O MD espacial inclui coeficientes PR, C e P para SPAR e coeficientes PR e P para CACPL, conforme descrito mais detalhadamente abaixo. Os canais de downmix de 1 a 4 FoA (W', Y', X', Z') são inseridos na unidade de distribuição BR 402, que é configurada para quantizar o MD espacial e fornecer taxas de bits de codec mono para os canais de downmix FoA usando as características do sinal dos canais de downmix FoA e a tabela de controle de distribuição BR. Os canais de downmix FoA são introduzidos na unidade EVS 403, que codifica os canais de downmix FoA em um fluxo de bits EVS. O fluxo de bits EVS e o MD espacial quantizado e codificado são inseridos no empacotador de fluxo de bits IVAS 405 para formar um fluxo de bits IVAS, que é transmitido para um decodificador IVAS e/ou armazenado para processamento ou reprodução subsequente em um ou mais dispositivos IVAS. O decodificador IVAS pode realizar o inverso das operações realizadas pelo codificador IVAS para reconstruir os sinais de áudio de entrada para reprodução no dispositivo IVAS.

[066] A FIG. 4B é um diagrama de blocos de uma cadeia de sinal IVAS alternativa 405 para FoA e sinais de áudio de entrada estéreo, de acordo com uma modalidade. Nesta configuração de exemplo, a entrada de áudio para a cadeia de sinal 405 pode ser um sinal de áudio FoA de 4 canais ou um sinal de áudio estéreo de 2 canais. Nesta modalidade, o pré-processador 406 extrai propriedades de sinal dos sinais de áudio de entrada, tais como largura de banda (BW), dados de classificação de fala/música, dados de detecção de atividade de voz (VAD), etc.

[067] A unidade MD espacial 407 gera MD espacial a partir do sinal de áudio de entrada usando as propriedades do sinal extraído. O sinal de áudio de entrada, propriedades de sinal e MD espacial são inseridos na unidade de distribuição BR 408 que é configurada para quantizar o MD espacial e fornecer taxas de bits de codec mono para os canais de áudio downmix usando uma tabela de controle de distribuição BR e taxa de bits IVAS descritas em detalhes abaixo.

[068] Os sinais de áudio de entrada, MD espacial quantizado e o número de canais de downmix (d_dmx) de saída pela unidade de distribuição BR 408 são inseridos na unidade de downmix 409, que gera os canais de downmix. Por exemplo, para sinais FoA, os canais de downmix podem incluir W' e N_dmx-1 (Re) residuais.

[069] As taxas de bits EVS emitidas pela unidade de distribuição BR 408 e os canais de downmix são inseridos na unidade EVS 410, que codifica os canais de downmix em um fluxo de bits EVS. O fluxo de bits EVS e o MD espacial codificado e quantificado são inseridos no empacotador de fluxo de bits IVAS 411 para formar um fluxo de bits IVAS, que é transmitido para um decodificador IVAS e/ou armazenado para processamento ou reprodução subsequente em um ou mais dispositivos IVAS. O decodificador IVAS pode realizar o inverso das operações realizadas pelo codificador IVAS para reconstruir os sinais de áudio de entrada para reprodução no dispositivo IVAS.

Exemplo de estratégia de controle de distribuição de taxa de bits

[070] Em uma modalidade, uma estratégia de controle de distribuição de taxa de bits IVAS inclui dois componentes. O primeiro componente é a tabela de controle de distribuição BR que fornece condições iniciais para o processo de controle de distribuição BR. O índice para a tabela de controle de distribuição BR é determinado pelos parâmetros de configuração do codec. Os parâmetros de configuração do codec podem incluir taxa de bits IVAS, formato de entrada como estéreo, FoA, FoA planar ou qualquer outro formato, largura de banda de áudio (BW), modo de codificação espacial (ou número de canais residuais Nre), prioridade de codec mono e MD espacial. Para codificação estéreo, Nre = 0 corresponde ao modo paramétrico completo (FP) e Nre = 1 corresponde ao modo residual médio (MR). Em uma modalidade, o índice da tabela de controle de distribuição BR aponta para o alvo, as taxas de bits mínimas e máximas de codec mono para cada um dos canais de downmix e múltiplas estratégias de quantização (por exemplo, fina, média grossa, grossa) para codificar o MD espacial. Em outra modalidade, o índice da tabela de controle de distribuição BR aponta para o alvo total e a taxa de bits mínima para todas as instâncias de codec mono, uma relação na qual a taxa de bits disponível precisa ser dividida entre todos os canais de downmix, e múltiplas estratégias de quantização para codificar o MD espacial. O segundo componente da estratégia de controle de distribuição de taxa de bits IVAS é um processo que usa as saídas da tabela de controle de distribuição BR e as propriedades do sinal de áudio de entrada para determinar os níveis de quantização de metadados espaciais e a taxa de bits e uma taxa de bits de cada canal de downmix, conforme descrito em referência às FIGURAS 5A e 5B.

Processo de distribuição de taxa de bits - Visão geral

[071] Os principais componentes de processamento dos processos de distribuição de taxa de bits descritos aqui incluem: • Detecção de largura de banda de áudio (BW) (por exemplo, banda estreita (NB), banda larga (WB), banda superlarga (SWB), banda completa (FB)). Nesta etapa, a BW do sinal médio ou W é detectada, e os metadados são quantificados desta maneira. O EVS, em seguida, trata o IVAS BW como um limite superior e codifica os canais de downmix desta maneira. • Entradas de extração de propriedades do sinal de áudio (por exemplo, fala ou música). • Modo de codificação espacial (por exemplo, paramétrico completo (FP), residual médio (MR)) ou um número de seleção de canais residuais, N_re, onde para codificação estéreo FP o modo é selecionado quando N_re = 0, e o modo MR é selecionado quando N_re = 1. • Taxa de bits alvo da decisão de prioridade de codec mono e espacial MD, taxas de bits mínima e máxima para cada canal de downmix ou as relações nas quais a taxa de bits de codec mono total deve ser dividida entre os canais de downmix.

Detecção de áudio BW

[072] Este componente detecta a BW do sinal médio ou W. Na modalidade, o codec IVAS usa o detector EVS BW descrito em EVS TS 26.445.

Extração de Propriedades do Sinal de Entrada

[073] Este componente classifica cada quadro do sinal de áudio de entrada como fala ou música. Em uma modalidade, o codec IVAS usa o classificador de voz/música EVS, conforme descrito em EVS TS 26.445.

Decisão de Prioridade de codec mono versus MD Espacial

[074] Este componente decide a prioridade de codec mono versus o MD espacial com base nas propriedades do sinal de downmix. Exemplos de propriedades de sinal de downmix incluem fala ou música conforme determinado pelos dados do classificador de fala/música e estimativas de covariância em banda do lado médio (MS) para estéreo, e estimativas de covariância em banda W-Y, W-X, W-Z para FoA. Os dados do classificador de fala/música podem ser usados para dar uma prioridade mais alta ao codec mono se o sinal de áudio de entrada for música, e as estimativas de covariância podem ser usadas para dar mais prioridade ao MD espacial quando o sinal de áudio de entrada for deslocado para a esquerda ou direita.

[075] Em uma modalidade, a decisão de prioridade é calculada para cada quadro do sinal de áudio de entrada. Para uma determinada taxa de bits IVAS, sinal médio ou W, configuração BW e de entrada, a distribuição da taxa de bits começa com taxas de bits desejadas ou alvo para os canais de downmix (por exemplo, a taxa de bits de codec mono é decidida por avaliação subjetiva ou objetiva) presente na tabela de controle de distribuição BR e a melhor estratégia de quantização para metadados. Se a condição inicial não se encaixar no determinado orçamento de taxa de bits do IVAS, em seguida, a taxa de bits de codec mono ou o nível de quantização do MD espacial ou ambos são reduzidos iterativamente em um enlace de quantização com base em suas respectivas prioridades até que ambos se encaixem no orçamento de taxa de bits do IVAS.

Distribuição de Taxa de bits entre Canais de downmix Paramétrico Completo x Residual Médio

[076] No modo FP, apenas o canal M' ou W' é codificado por um codec mono e parâmetros adicionais são codificados no MD espacial indicando o nível do canal residual ou nível de descorrelação a ser adicionado pelo decodificador. Para taxas de bits, onde ambos FP e MR são viáveis, o processo de distribuição IVAS BR seleciona dinamicamente um número de canais residuais a serem codificados pelo codec mono e transmitidos/transmitidos para o decodificador com base no MD espacial em uma base quadro-a-quadro. Se o nível de qualquer canal residual for superior a um limite, em seguida, esse canal residual é codificado pelo codec mono; caso contrário, o processo é executado no modo FP. O tratamento do quadro de transição é realizado para redefinir os buffers de estado do codec quando o número de canais residuais a serem codificados pelo codec mono muda.

Distribuição de Taxa de bits de downmix MR

[077] A avaliação de escuta foi feita com vários sinais de entrada e distribuições de taxa de bits entre o canal intermediário e o canal residual. Com base em testes de audição focados, a relação da taxa de bits média a residual mais eficaz é 3:2. No entanto, outras relações podem ser usadas com base nos requisitos da aplicação. Em uma modalidade, a distribuição de taxa de bits usa uma relação fixa que é ajustada ainda em uma fase de ajuste. Durante o processo iterativo de escolha da estratégia de quantização e BRs para canais de downmix, o BR para cada canal de downmix é modificado de acordo com a relação fornecida.

[078] Em uma modalidade, em vez de manter uma relação fixa entre as taxas de bits do canal de downmix, a taxa de bits alvo e as taxas de bits mínima e máxima para cada canal de downmix são listadas separadamente na tabela de controle de distribuição BR. Essas taxas de bits são escolhidas com base em avaliações subjetivas e objetivas cuidadosas. Durante o processo iterativo de escolha da estratégia de quantização e BRs para os canais de downmix, bits são adicionados ou retirados dos canais de downmix com base na prioridade de todos os canais de downmix. A prioridade dos canais de downmix pode ser fixa ou dinâmica em uma base quadro-a-quadro. Em uma modalidade, a prioridade dos canais de downmix é fixa.

Processo de Distribuição de Taxa de bits - Fluxo de processo

[079] A FIG. 5A é um diagrama de fluxo de um processo de distribuição de taxa de bits 500 para sinais de entrada estéreo e FoA, de acordo com uma modalidade. As entradas para o processo 500 são taxa de bits IVAS, constantes (por exemplo, tabela de controle de distribuição de taxa de bits, taxa de bits IVAS), canais de downmix, MD espacial, formato de entrada (por exemplo, estéreo, FoA, FoA planar) e parâmetros de linha de comando forçados (por exemplo, largura de banda máxima, modo de codificação, modo mono de downmix EVS compatível com versões anteriores). As saídas do processo 500 são taxa de bits EVS para cada canal de downmix, níveis de quantização de metadados e bits de metadados codificados. As etapas a seguir são executadas como parte do processo 500.

Extração da Característica de Áudio de Downmix

[080] Na Etapa 501, as seguintes propriedades de sinal são extraídas do sinal de áudio de entrada: largura de banda (por exemplo, banda estreita, banda larga, banda superlarga, banda completa) e dados de classificação de fala/música, dados de detecção de atividade de voz (VAD). A largura de banda (BW) é o mínimo da largura de banda real do sinal de áudio de entrada e uma largura de banda máxima da linha de comando especificada por um usuário. Em uma modalidade, o sinal de áudio de downmix pode estar no formato modulado por código de pulso (PCM).

Determinar o Índice da Tabela

[081] Na Etapa 502, o processo 500 extrai os índices da tabela de controle de distribuição de taxa de bits IVAS de uma tabela de controle de distribuição de taxa de bits IVAS usando a taxa de bits IVAS. Na Etapa 503, o processo 500 determina os índices da tabela de formato de entrada com base nos parâmetros de sinal extraídos na Etapa 501 (ou seja, BW e classificação de fala/música), o formato do sinal de áudio de entrada, os índices da tabela de controle de distribuição de taxa de bits IVAS extraídos na Etapa 502 e um modo de retrocompatibilidade de downmix mono EVS. Na Etapa 504, o processo 500 seleciona o modo de codificação espacial (isto é, FP ou MR) ou número de canais residuais (isto é, N_re = 0 a 3) com base nos índices da tabela de controle de distribuição de taxa de bits, um modo de codificação de áudio de transição e MD espacial. Na Etapa 505, o processo 500 determina o índice final da tabela exata com base nos seis parâmetros descritos acima. Em uma modalidade, a seleção do modo de codificação de áudio espacial na etapa 504 é com base em um indicador de nível de canal residual no MD espacial. O modo de codificação de áudio espacial indica um modo de codificação MR, onde a representação do canal médio ou W (M' ou W') é acompanhada por um ou mais canais residuais no sinal de áudio downmixed, ou um modo de codificação FP, onde apenas a representação do canal médio ou W (M' ou W') está presente no sinal de áudio downmixed. Em uma modalidade, o modo de codificação de áudio de transição é definido como 1 se o modo de codificação de áudio espacial em um quadro anterior inclui codificação de canais residuais, enquanto o quadro atual requer apenas codificação de canal M' ou W'. Caso contrário, o modo de codificação de áudio de transição é definido como 0. Se o número de canais residuais a serem codificados for diferente entre o quadro atual e o quadro anterior, o modo de codificação de áudio de transição é definido como 1.

Computar Codec Mono e Prioridade de MD Espacial

[082] Na Etapa 506, o processo 500 determina uma prioridade de codec mono/MD espacial com base nas propriedades do sinal de áudio de entrada extraídas na Etapa 1 e estimativas de covariância em banda de canal W-Y, W-X, W-Z. Em uma modalidade, existem quatro resultados de prioridade possíveis: alta prioridade de codec mono e baixa prioridade de MD espacial, baixa prioridade de codec mono e alta prioridade de MD espacial, alta prioridade de codec mono e alta prioridade de MD espacial; e baixa prioridade de codec mono e baixa prioridade de MD espacial.

Extrair Variáveis relacionadas à Taxa de bits de codec mono da Tabela

[083] Na Etapa 507, os seguintes parâmetros são lidos a partir da entrada da tabela apontada pelo índice da tabela final calculado na Etapa 505: taxa de bits alvo de codec mono (EVS), relação da taxa de bits, taxa de bits mínima EVS e etapas de desvio da taxa de bits EVS. A taxa de bits real de codec mono (EVS) pode ser maior ou menor do que a taxa de bits alvo de codec mono (EVS) especificada na tabela de controle de distribuição BR dependendo da prioridade de codec mono/MD espacial determinada na Etapa 506 e a taxa de bits do MD espacial com vários níveis de quantização. A relação da taxa de bits indica a taxa na qual a taxa de bits EVS total deve ser distribuída entre os canais de sinal de áudio de entrada. A taxa de bits mínima EVS é um valor abaixo do qual a taxa de bits EVS total não pode ir. As etapas de desvio da taxa de bits EVS são as etapas de redução da taxa de bits alvo EVS quando a prioridade EVS é maior ou igual, ou menor que a prioridade do MD espacial.

Calcular a melhor Taxa de bits EVS e o Nível de Quantização de Metadados com base nos Parâmetros de Entrada

[084] Na Etapa 508, uma estratégia de quantização de metadados e taxa de bits EVS ideal são calculadas com base nos parâmetros de entrada obtidos nas Etapas 501-503, de acordo com as seguintes subetapas. Uma alta taxa de bits para os canais de downmix e uma estratégia de quantização grosseira podem levar a problemas espaciais, enquanto uma estratégia de quantização fina e uma baixa taxa de bits do canal de áudio downmix podem levar a artefatos de codificação de codec mono. "Ótimo", conforme usado aqui, é a distribuição mais equilibrada da taxa de bits IVAS entre a taxa de bits EVS e o nível de quantização de metadados, utilizando todos os bits disponíveis no orçamento de taxa de bits IVAS ou, pelo menos, reduzindo significativamente o desperdício de bits.

[085] Etapa 508.1: Quantize os metadados com o melhor nível de quantização e verifique a Condição 508.a (mostrada abaixo). Se a Condição 508.a for VERDADEIRA, em seguida, execute a Etapa 508.b (mostrada abaixo). Caso contrário, continue para a Etapa 508.2 ou 508.3 ou 508.4 com base nas prioridades calculadas na Etapa 503.

[086] Etapa 508.2: Se a prioridade EVS for alta e a prioridade MD espacial for baixa, em seguida, reduza o nível de quantização do MD espacial e verifique a condição 508.a. Se a Condição 508.a for VERDADEIRA, em seguida, execute a Etapa 508.b. Caso contrário, reduza a taxa de bits alvo EVS com base na Etapa 507 (etapas de desvio da taxa de bits EVS) e verifique a Condição 508a. Se a Condição 508a for VERDADEIRA, em seguida, execute a Etapa 508.b, caso contrário repita a Etapa 508.2.

[087] Etapa 508.3: Se a prioridade EVS for baixa e a prioridade MD espacial for alta, em seguida, reduza a taxa de bits alvo EVS com base na Etapa 507 (etapas de desvio da taxa de bits EVS) e verifique a Condição 508.a. Se a Condição 508.a for VERDADEIRA, em seguida, execute a Etapa 508.b. Caso contrário, reduza o nível de quantização do MD espacial e verifique a Condição 508.a. Se a Condição 508.a for VERDADEIRA, em seguida, execute a Etapa 508.b. Caso contrário, repita a Etapa 508.3.

[088] Etapa 508.4: Se a prioridade EVS for igual à prioridade MD espacial, em seguida, reduza a taxa de bits alvo EVS com base na Etapa 507 (etapas de desvio da taxa de bits EVS) e verifique a Condição 508.a. Se a Condição 508.a for VERDADEIRA, em seguida, execute a Etapa 508.b. Caso contrário, reduza o nível de quantização dos metadados espaciais e verifique a Condição 508.a. Se a Condição 508.a for VERDADEIRA, em seguida, execute a Etapa 508.b, caso contrário, repita a etapa 5.4.

[089] A Condição 508.a referenciada acima verifica se a soma da taxa de bits de metadados, taxa de bits alvo EVS e bits de sobrecarga é menor ou igual à taxa de bits IVAS.

[090] A Etapa 508.b referenciada acima calcula a taxa de bits EVS para ser igual à taxa de bits IVAS menos a taxa de bits de metadados menos os bits de sobrecarga. A taxa de bits EVS é, em seguida, distribuída entre os canais de áudio downmix conforme a relação da taxa de bits mencionada na Etapa 507.

[091] Se a taxa de bits alvo EVS mínima e o nível de quantização mais grosseiro não se encaixam no orçamento de taxa de bits IVAS, em seguida, o processo de distribuição de taxa de bits 500 é realizado com uma largura de banda menor.

[092] Em uma modalidade, o índice da tabela e as informações do nível de quantização de metadados são incluídos em bits de sobrecarga de um fluxo de bits IVAS enviado para um decodificador IVAS. O decodificador IVAS lê o índice da tabela e o nível de quantização de metadados dos bits de sobrecarga no fluxo de bits IVAS e decodifica o MD espacial. Isso deixa o decodificador IVAS com apenas bits EVS no fluxo de bits IVS para processar. Os bits EVS são divididos entre os canais de sinal de áudio de entrada conforme a relação indicada pelo índice da tabela (Etapa 508.b). Em seguida, cada instância do decodificador EVS é chamada com os bits correspondentes, o que leva a uma reconstrução dos canais de áudio de downmix.

Exemplo de Tabela de Controle de Distribuição de Taxa de bits IVAS

[093] Abaixo está um exemplo de Tabela de Controle de Distribuição de Taxa de Bits IVAS. Os seguintes parâmetros mostrados na tabela têm os valores indicados abaixo: Formato de entrada: Estéreo - 1, FoA Planar - 2, FoA - 3 BW: NB - 0, WB - 1, SWB - 2, FB - 3 Ferramenta de codificação espacial permitida: FP - 1, MR - 2 Modo de transição: 1 ^ transição MR para FP, 0 ^ caso contrário Modo de retrocompatibilidade de downmix mono: 1 ^ se o canal Mid deve ser compatível com 3GPP EVS, 0 ^ caso contrário. Tabela I - Exemplo de Tabela de Distribuição de Taxa de Bits VAS

[094] Também mostrado na FIG. 5A é o fluxo de bits IVAS. Em uma modalidade, o fluxo de bits IVAS inclui um cabeçalho IVAS comum de comprimento fixo (CH) 509 e um cabeçalho de ferramenta comum de comprimento variável (CTH) 510. Em uma modalidade, o comprimento de bit da seção CTH é calculado com base no número de entradas correspondentes à taxa de bits IVAS fornecida na tabela de controle de distribuição da taxa de bits IVAS. O índice da tabela relativo (deslocamento do primeiro índice para essa taxa de bits IVAS na tabela) é armazenado na seção CTH. Se estiver operando no modo de retrocompatibilidade mono de downmix, o CTH 510 é seguido pela carga útil EVS 511, que é seguida pela carga útil MD espacial 513. Se estiver operando no modo IVAS, o CTH 510 é seguido pela carga útil MD espacial 512, que é seguido pela carga útil EVS 514. Em outras modalidades, a ordem pode ser diferente.

Processos de Exemplo

[095] Um exemplo de processo de distribuição de taxa de bits pode ser realizado por um codec IVAS ou codificação/decodificação ou sistema incluindo um ou mais processadores executando instruções armazenadas em um meio de armazenamento legível por computador não transitório.

[096] Em uma modalidade, um sistema de codificação de áudio recebe uma entrada de áudio e metadados. O sistema determina, com base na entrada de áudio, metadados e parâmetros de um codec IVAS usado na codificação da entrada de áudio, um ou mais índices de uma tabela de controle de distribuição de taxa de bits, os parâmetros incluindo uma taxa de bits IVAS, um formato de entrada e um modo de retrocompatibilidade mono, um ou mais índices incluindo um modo de codificação de áudio espacial e uma largura de banda da entrada de áudio.

[097] O sistema realiza uma pesquisa na tabela de controle de distribuição de taxa de bits com base na taxa de bits IVAS, o formato de entrada, o modo de codificação de áudio espacial e um ou mais índices, a pesquisa identificando uma entrada na tabela de controle de distribuição de taxa de bits, a entrada incluindo uma taxa de bits alvo EVS, uma relação da taxa de bits, uma taxa de bits mínima EVS, e uma representação das etapas de desvio da taxa de bits EVS.

[098] O sistema fornece a entrada identificada para um processo de cálculo de taxa de bits que é programado para determinar taxas de bits de entradas de áudio (por exemplo, canais de downmix), uma taxa de bits de metadados, e níveis de quantização dos metadados. O sistema fornece as taxas de bits dos canais de downmix e, pelo menos, uma das taxas de bits dos metadados ou os níveis de quantização dos metadados para um dispositivo IVAS para realizar downstream.

[099] Em algumas implementações, o sistema pode extrair propriedades da entrada de áudio, as propriedades incluindo um indicador de se a entrada de áudio é fala ou música e uma largura de banda da entrada de áudio. O sistema determina, com base nas propriedades, uma prioridade entre a taxa de bits dos canais de downmix e a taxa de bits dos metadados. O sistema fornece a prioridade ao processo de cálculo da taxa de bits.

[0100] Em algumas implementações, o sistema extrai um ou mais parâmetros incluindo um nível residual (erro de previsão de canal lateral) do MD espacial. O sistema determina, com base nos parâmetros, o modo de codificação de áudio espacial que indica a necessidade de um ou mais canais residuais no fluxo de bits IVAS. O sistema fornece o modo de codificação de áudio espacial para o processo de cálculo da taxa de bits.

[0101] Em algumas implementações, o índice da tabela de controle de distribuição de taxa de bits é armazenado em um cabeçalho de ferramenta comum (CTH) de um fluxo de bits IVAS.

[0102] Um sistema para decodificação de áudio é configurado para receber um fluxo de bits IVAS. O sistema determina, com base no fluxo de bits IVAS, a taxa de bits IVAS e os índices da tabela de controle de distribuição da taxa de bits. O sistema realiza uma pesquisa na tabela de controle de distribuição de taxa de bits com base nos índices da tabela e extrai o formato de entrada, o modo de codificação espacial, o modo de retrocompatibilidade mono e um ou mais índices, uma taxa de bits alvo EVS e uma relação de taxa de bits. O sistema extrai e decodifica os bits de áudio de downmix por canal de downmix e bits MD espaciais. O sistema fornece os bits de sinal downmix extraídos e bits MD espaciais para um dispositivo IVAS para realizar downstream. O dispositivo IVAS para realizar downstream pode ser um dispositivo de processamento de áudio ou um dispositivo de armazenamento.

Processo de Distribuição de Taxa de bits SPAR FoA

[0103] Em uma modalidade, o processo de distribuição de taxa de bits descrito acima para sinais de entrada estéreo também pode ser modificado e aplicado à distribuição de taxa de bits SPAR FoA usando a Tabela de controle de distribuição de taxa de bits SPAR FoA mostrada abaixo. As definições para os termos incluídos na tabela são fornecidas abaixo para auxiliar o leitor, seguidas por uma Tabela de controle de distribuição de taxa de bits SPAR FoA: • Bits alvo de metadados (MDtar) = IVAS_bits - header_bits - evs_target_bits (EVStar). • Bits máximos de metadados (MDmax) = IVAS_bits - header_bits - evs_minimum_bits (EVSmin). • Os bits alvo de metadados devem sempre ser menores que "MDmax". Tabela II - Exemplo de Tabela de Controle de Distribuição de Taxa de Bits SPAR FoA

[0104] Alguns cálculos de exemplo de taxas de bits MD máximas (coeficientes reais) são mostrados na tabela abaixo.

Exemplo de Enlace de Quantização de Metadados:

[0105] Em uma modalidade, um enlace de quantização de metadados é implementado conforme descrito abaixo. O enlace de quantização de metadados inclui dois limites (definidos acima): MDtar e MDmax.

[0106] Etapa 1: Para cada quadro do sinal de áudio de entrada, os parâmetros MD são quantizados de maneira não diferencial no tempo e codificados com um codificador aritmético. A taxa de bits de metadados real (MDact) é calculada com base nos bits codificados MD. Se o MDact estiver abaixo do MDtar, em seguida, essa etapa será considerada como uma passagem e o processo sairá do enlace de quantização e os bits de MDact serão integrados ao fluxo de bits IVAS. Quaisquer bits extras disponíveis (MDtar-MDact) são fornecidos ao codificador de codec mono (EVS) para aumentar a taxa de bits da essência dos canais de áudio downmix. Mais taxa de bits permite que mais informações sejam codificadas pelo codec mono e a saída de áudio decodificada terá comparativamente menos perdas.

[0107] Etapa 2: Se a Etapa 1 falhar, em seguida, um subconjunto de valores de parâmetro MD no quadro é quantificado e, em seguida, subtraído dos valores de parâmetro MD quantizados no quadro anterior e o valor do parâmetro quantizado diferencial é codificado com o codificador aritmético (ou seja, codificação diferencial de tempo). MDact é calculado com base em bits codificados MD. Se o MDact estiver abaixo de MDtar, em seguida, essa etapa será considerada como uma passagem e o processo sairá do enlace de quantização e os bits de MDact serão integrados ao fluxo de bits IVAS. Quaisquer bits extras disponíveis (MDtar - MDact) são fornecidos ao codificador codec mono (EVS) para aumentar a taxa de bits da essência dos canais de áudio downmix.

[0108] Etapa 3: Se a Etapa 2 falhar, em seguida, a taxa de bits (MDact) dos parâmetros MD quantificados é calculada sem entropia.

[0109] Etapa 4: Os valores de taxa de bits de MDact calculados nas Etapas 13 são comparados com o MDmax. Se o mínimo de taxas de bits de MDact computado nas Etapa 1, Etapa 2 e Etapa 3 estiver dentro do MDmax, em seguida, esta etapa é considerada como uma passagem e o processo sai do enlace de quantização e o fluxo de bits MD com o mínimo de MDact é integrado ao fluxo de bits IVAS. Se MDact estiver acima de MDtar, em seguida, os bits (MDact-MDtar) serão obtidos do codificador de codec mono (EVS).

[0110] Etapa 5: Se a Etapa 4 falhar, os parâmetros são quantificados de forma mais grosseira e as etapas acima são repetidas como uma primeira estratégia de fallback (Fallback 1).

[0111] Etapa 6: Se a Etapa 5 falhar, os parâmetros são quantificados com um esquema de quantização que é garantido para caber dentro do MDmax como uma segunda estratégia de fallback (Fallback 2).

[0112] Após todas as iterações mencionadas acima, é garantido que a taxa de bits de metadados se ajustará ao MDmax e o codificador gerará bits de metadados reais ou MDact.

Distribuição de canais de downmix/taxa de bits EVS (EVSbd):

[0113] Em uma modalidade, bits reais EVS (EVSact) = IVAS_bits - header_bits - MDact. Se “EVSact” for menor que “EVStar”, em seguida, os bits são retirados dos canais EVS na seguinte ordem (Z, X, Y, W). O bits máximo que pode ser obtido de qualquer canal é EVStar(ch) menos EVSmin(ch). Se “EVSact” for maior que “EVStar”, em seguida, todos os bits adicionais são atribuídos aos canais de downmix na seguinte ordem: W, Y, X e Z. O máximo de bits adicionais que pode ser adicionado a qualquer canal é EVSmax(ch) - EVStar(ch).

Desembalagem do Decodificador SPAR

[0114] Em uma modalidade, um decodificador SPAR desempacota um fluxo de bits IVAS da seguinte forma: 1. Obtenha a taxa de bits IVAS do comprimento do bit e obtenha o índice da tabela do cabeçalho da ferramenta (CTH) no fluxo de bits IVAS. 2. Analise os bits de cabeçalho/metadados no fluxo de bits IVAS. 3. Analise e desquantize os bits de metadados. 4. Defina “EVSact” = comprimento de bit restante. 5. Leia as entradas da tabela relacionadas ao alvo EVS, taxas de bits mínima e máxima e repita a etapa “EVSbd” no decodificador para obter a taxa de bits EVS real para cada canal. 6. Decodifique os canais EVS e faça o upmix para canais FoA.

Processo de Distribuição BR para Sinais de áudio de entrada SPAR FoA

[0115] As FIGURAS 5B e 5C são um diagrama de fluxo de um processo de distribuição de taxa de bits 515 para sinais de entrada SPAR FoA, de acordo com uma modalidade. O processo 515 começa por pré-processando 517 na entrada FoA (W, Y, Z, X) 516 para extrair propriedades de sinal usando a taxa de bits IVAS, tais como BW, dados de classificação de fala/música, dados VAD, etc. O processo 515 continua gerando MD espacial (por exemplo, coeficientes PR, C, P) 518 e escolhendo um número de canais residuais para enviar ao decodificador IVAS com base em um indicador de nível residual no MD espacial (520) e obtendo um índice da tabela de controle de distribuição BR com base na taxa de bits IVAS, BW e o número de canais de downmix (N_dmx) (521). Em algumas modalidades, os coeficientes P no MD espacial podem servir como o indicador de nível residual. O índice da tabela de controle de distribuição BR é enviado para um empacotador de bits IVAS (ver, FIGURAS 4A, 4B) para ser incluído no fluxo de bits IVAS que pode ser armazenado e/ou enviado para um decodificador IVAS.

[0116] O processo 515 continua lendo uma configuração SPAR de uma linha na tabela de controle de distribuição BR que é apontada pelo índice da tabela (521). Conforme mostrado na Tabela II acima, a configuração SPAR é definida por uma ou mais características, incluindo, mas não limitada a: uma sequência de downmix (remix), indicador W ativo, indicador MD espacial complexo, estratégias de quantização MD espaciais, taxas de bits EVS min/alvo/ max e indicador de redução do descorrelador de domínio de tempo.

[0117] O processo 515 continua determinando as taxas de bits MDmax, MDtar dos valores de taxa de bits IVAS, EVSmin e EVStar (522), como descrito anteriormente acima, e inserindo um enlace de quantização que inclui quantificar o MD espacial de uma maneira não diferencial no tempo usando uma estratégia de quantização, codificando o MD espacial quantizado com um codificador de entropia (por exemplo, codificador aritmético) e computando MDact (523). Em uma modalidade, a primeira iteração do enlace de quantização usa uma estratégia de quantização fina.

[0118] O processo 515 continua verificando se MDact é menor ou igual a MDtar (524). Se MDact for menor ou igual a MDtar, em seguida, os bits MD são enviados ao empacotador de bits IVAS para serem incluídos no fluxo de bits IVAS e os bits (MDtar-MDact) são adicionados às taxas de bits EVStar (532) na seguinte ordem: fluxos de bits W, Y, X, Z, N_dmx EVS (canais) são gerados e os bits EVS são enviados ao empacotador de bits IVAS para serem incluídos no fluxo de bits IVAS, conforme descrito anteriormente. Se MDact não for menor ou igual a MDtar, em seguida, o processo 515 quantifica o MD espacial de uma maneira diferencial de tempo com a estratégia de quantização fina, codifica o MD espacial quantizado com o codificador de entropia e calcula o MDact novamente (525). Se MDact for menor ou igual a MDtar, em seguida, os bits MD são enviados ao empacotador de bits IVAS para serem incluídos no fluxo de bits IVAS e os bits (MDtar-MDact) são adicionados às taxas de bits EVStar (532) na seguinte ordem: fluxos de bits W, Y, X, Z, N_dmx EVS (canais) são gerados e os bits EVS são enviados ao empacotador de bits IVAS para serem incluídos no fluxo de bits IVAS, conforme descrito anteriormente. Se MDact for maior que MDtar, o MD espacial é quantizado de maneira não diferencial no tempo usando a estratégia de quantização fina e entropia e base2 codificada, e um novo valor para MDact é calculado (527). Observe que os bits máximos que podem ser adicionados a qualquer instância EVS são iguais a EVSmax-EVStar.

[0119] O processo 515 determina novamente se MDact é menor ou igual a MDtar (528). Se MDact for menor ou igual a MDtar, em seguida, os bits MD são enviados ao empacotador de bits IVAS para serem incluídos no fluxo de bits IVAS e os bits (MDtar-MDact) são adicionados às taxas de bits EVStar (532) na seguinte ordem: fluxos de bits W, Y, X, Z, N_dmx EVS (canais) são gerados e os bits EVS são enviados ao empacotador de bits IVAS para serem incluídos no fluxo de bits IVAS, conforme descrito anteriormente. Se MDact for maior que MDtar, em seguida, o processo 515 define MDact como o mínimo das três taxas de bits MDact calculadas em (523), (525), (527) e compara MDact com MDmax (529). Se MDact for maior que MDmax (530), o enlace de quantização (Etapas 523-530) é repetido usando uma estratégia de quantização grosseira, conforme descrito anteriormente.

[0120] Se MDact for menor ou igual a MDmax, em seguida, os bits MD são enviados para o empacotador de bits IVAS para serem incluídos no fluxo de bits IVAS, e o processo 515 determina novamente se MDact é menor ou igual a MDtar (531). Se MDact for menor ou igual a MDtar, em seguida, bits (MDtar-MDact) são adicionados às taxas de bits do EVStar (532) na seguinte ordem: fluxos de bits W, Y, X, Z, N_dmx EVS (canais) são gerados e os bits EVS são enviados ao empacotador de bits IVAS para serem incluídos no fluxo de bits IVAS, conforme descrito anteriormente. Se MDact for maior que MDtar, em seguida, os bits (MDtar-MDact) são subtraídos das taxas de bits do EVStar (532) na seguinte ordem: fluxos de bits Z, X, Y, W, N_dmx EVS (canais) são gerados e os bits EVS são enviados para o empacotador de bits IVAS a serem incluídos no fluxo de bits IVAS, conforme descrito anteriormente. Observe que o máximo de bits que pode ser subtraído de qualquer instância EVS é igual a EVStar-EVSmin.

Processos de Exemplo

[0121] A FIG. 6 é um diagrama de fluxo de um processo de codificação IVAS 600, de acordo com uma modalidade. O processo 600 pode ser implementado usando a arquitetura do dispositivo conforme descrito em referência à FIG. 8.

[0122] O processo 600 inclui receber um sinal de áudio de entrada (601), realizar downmixing do sinal de áudio de entrada em um ou mais canais de downmix e metadados espaciais associados a um ou mais canais do sinal de áudio de entrada (602); ler um conjunto de uma ou mais taxas de bits para os canais de downmix e um conjunto de níveis de quantização para os metadados espaciais de uma tabela de controle de distribuição de taxa de bits (603); determinar uma combinação de uma ou mais taxas de bits para os canais de downmix (604); determinar um nível de quantização de metadados a partir do conjunto de níveis de quantização de metadados usando um processo de distribuição de taxa de bits (605); quantificar e codificar os metadados espaciais usando o nível de quantização de metadados (606); gerar, usando a combinação de uma ou mais taxas de bits, um fluxo de bits de downmix para um ou mais canais de downmix (607); combinar o fluxo de bits de downmix, os metadados espaciais quantizados e codificados e o conjunto de níveis de quantização no fluxo de bits IVAS (608); e transmitir ou armazenar o fluxo de bits IVAS para reprodução em um dispositivo habilitado para IVAS (609).

[0123] A FIG. 7 é um diagrama de fluxo de um processo de codificação IVAS alternativo 700, de acordo com uma modalidade. O processo 700 pode ser implementado usando a arquitetura do dispositivo conforme descrito em referência à FIG. 8.

[0124] O processo 700 inclui receber um sinal de áudio de entrada (701); extrair propriedades do sinal de áudio de entrada (702); computação de metadados espaciais para canais do sinal de áudio de entrada (703); ler um conjunto de uma ou mais taxas de bits para os canais de downmix e um conjunto de níveis de quantização para os metadados espaciais de uma tabela de controle de distribuição de taxa de bits (704); determinar uma combinação de uma ou mais taxas de bits para os canais de downmix (705); determinar um nível de quantização de metadados a partir do conjunto de níveis de quantização de metadados usando um processo de distribuição de taxa de bits (706); quantificar e codificar os metadados espaciais usando o nível de quantização de metadados (707); gerar, usando a combinação de uma ou mais taxas de bits, um fluxo de bits de downmix para um ou mais canais de downmix usando uma ou mais taxas de bits (708); combinar o fluxo de bits de downmix, os metadados espaciais quantizados e codificados e o conjunto de níveis de quantização no fluxo de bits IVAS (709); e transmitir ou armazenar o fluxo de bits IVAS para reprodução em um dispositivo habilitado para IVAS (710).

Exemplo de Arquitetura de Sistema

[0125] A FIG. 8 mostra um diagrama de blocos de um sistema de exemplo 800 adequado para implementar modalidades de exemplo da presente invenção. O sistema 800 inclui um ou mais computadores servidores ou qualquer dispositivo cliente, incluindo mas não limitado a qualquer um dos dispositivos mostrados na FIG. 1, tais como o servidor de chamada 102, dispositivos legados 106, equipamento de usuário 108, 114, sistemas de sala de conferência 116, 118, sistemas de home theater, equipamento VR 122 e ingestão de conteúdo imersivo 124. O sistema 800 inclui quaisquer dispositivos de consumidor, incluindo, mas não limitado a: smartphones, computadores tablet, computadores portáteis, computadores para veículos, consoles de jogos, sistemas surround, quiosques.

[0126] Como mostrado, o sistema 800 inclui uma unidade de processamento central (CPU) 801 que é capaz de realizar vários processos de acordo com um programa armazenado em, por exemplo, uma memória somente leitura (ROM) 802 ou um programa carregado de, por exemplo, uma unidade de armazenamento 808 para uma memória de acesso aleatório (RAM) 803. Na RAM 803, os dados necessários quando a CPU 801 executa os vários processos também são armazenados, conforme necessário. A CPU 801, a ROM 802 e a RAM 803 são conectadas uma à outra através de um barramento 804. Uma interface de entrada/saída (I/O) 805 também é conectada ao barramento 804.

[0127] Os seguintes componentes estão conectados à interface de I/O 805: uma unidade de entrada 806, que pode incluir um teclado, um mouse ou similar; uma unidade de saída 807 que pode incluir um visor, tal como um visor de cristal líquido (LCD) e um ou mais alto-falantes; a unidade de armazenamento 808 incluindo um disco rígido ou outro dispositivo de armazenamento adequado; e uma unidade de comunicação 809 incluindo uma placa de interface de rede, tal como uma placa de rede (por exemplo, com ou sem fio).

[0128] Em algumas implementações, a unidade de entrada 806 inclui um ou mais microfones em diferentes posições (dependendo do dispositivo nó) permitindo a captura de sinais de áudio em vários formatos (por exemplo, mono, estéreo, espacial, imersivo e outros formatos adequados).

[0129] Em algumas implementações, a unidade de saída 807 inclui sistemas com vários números de alto-falantes. Conforme ilustrado na FIG. 1, a unidade de saída 807 (dependendo das capacidades do dispositivo nó) pode renderizar sinais de áudio em vários formatos (por exemplo, mono, estéreo, imersivo, binaural e outros formatos adequados).

[0130] A unidade de comunicação 809 é configurada para se comunicar com outros dispositivos (por exemplo, através de uma rede). Uma unidade de disco 810 também está conectada à interface de I/O 805, conforme necessário. Um meio removível 811, tal como um disco magnético, um disco óptico, um disco magneto- óptico, uma unidade flash ou outro meio removível adequado é montado na unidade de disco 810, de modo que um programa de computador lido a partir dele seja instalado na unidade de armazenamento 808, como requerido. Um versado na técnica entenderia que, embora o sistema 800 seja descrito como incluindo os componentes descritos acima, em aplicações reais, é possível adicionar, remover e/ou substituir alguns desses componentes e todas essas modificações ou alterações dentro do escopo da presente invenção.

[0131] De acordo com modalidades de exemplo da presente invenção, os processos descritos acima podem ser implementados como programas de software de computador ou em um meio de armazenamento legível por computador. Por exemplo, as modalidades da presente invenção incluem um produto de programa de computador incluindo um programa de computador tangivelmente incorporado em um meio legível por máquina, o programa de computador incluindo código de programa para realizar métodos. Em tais modalidades, o programa de computador pode ser baixado e montado da rede através da unidade de comunicação 809, e/ou instalado a partir do meio removível 811, conforme mostrado na FIG. 8.

[0132] Geralmente, várias modalidades de exemplo da presente invenção podem ser implementadas em hardware ou circuitos de propósito especial (por exemplo, circuitos de controle), software, lógica ou qualquer combinação dos mesmos. Por exemplo, as unidades discutidas acima podem ser executadas por circuitos de controle (por exemplo, uma CPU em combinação com outros componentes da FIG. 8), assim, os circuitos de controle podem estar realizando as ações descritas nesta invenção. Alguns aspectos podem ser implementados em hardware, enquanto outros aspectos podem ser implementados em firmware ou software que podem ser executados por um controlador, microprocessador ou outro dispositivo de computação (por exemplo, circuitos de controle). Embora vários aspectos das modalidades de exemplo da presente invenção sejam ilustrados e descritos como diagramas de blocos, fluxogramas ou usando alguma outra representação pictórica, será apreciado que os blocos, aparelhos, sistemas, técnicas ou métodos descritos aqui podem ser implementados em, como exemplos não limitativos, hardware, software, firmware, circuitos ou lógica de uso especial, hardware ou controlador de uso geral ou outros dispositivos de computação, ou alguma combinação dos mesmos.

[0133] Além disso, vários blocos mostrados nos fluxogramas podem ser vistos como etapas do método, e/ou como operações que resultam da operação do código do programa de computador, e/ou como uma pluralidade de elementos de circuitos lógicos acoplados construídos para realizar as funções associadas. Por exemplo, as modalidades da presente invenção incluem um produto de programa de computador incluindo um programa de computador tangivelmente incorporado em um meio legível por máquina, o programa de computador contendo códigos de programa configurados para realizar os métodos descritos acima.

[0134] No contexto da invenção, um meio legível por máquina pode ser qualquer meio tangível que possa conter ou armazenar um programa para uso por ou em conexão com um sistema, aparelho ou dispositivo de execução de instruções. O meio legível por máquina pode ser um meio de sinal legível por máquina ou um meio de armazenamento legível por máquina. Um meio legível por máquina pode ser não transitório e pode incluir, mas não é limitado a um sistema, aparelho ou dispositivo eletrônico, magnético, óptico, eletromagnético, infravermelho ou semicondutor, ou qualquer combinação adequada dos anteriores. Exemplos mais específicos do meio de armazenamento legível por máquina incluiriam uma conexão elétrica com um ou mais fios, um disquete de computador portátil, um disco rígido, uma memória de acesso aleatório (RAM), uma memória somente leitura (ROM), uma memória somente de leitura programável apagável (EPROM ou memória Flash), uma fibra óptica, um memória somente leitura de disco compacto portátil (CD-ROM), um dispositivo de armazenamento óptico, um dispositivo de armazenamento magnético, ou qualquer combinação adequada dos anteriores.

[0135] O código do programa de computador para realizar os métodos da presente invenção pode ser escrito em qualquer combinação de uma ou mais linguagens de programação. Esses códigos de programa de computador podem ser fornecidos a um processador de um computador de uso geral, computador de uso especial, ou outro aparelho de processamento de dados programável que tenha circuitos de controle, de modo que os códigos de programa, quando executados pelo processador do computador ou outro aparelho de processamento de dados programável, fazem com que as funções/operações especificadas nos fluxogramas e/ou diagramas de blocos sejam implementadas. O código do programa pode ser executado inteiramente em um computador, parcialmente no computador, como um pacote de software autônomo, parcialmente no computador e parcialmente em um computador remoto ou inteiramente no computador ou servidor remoto ou distribuído em um ou mais computadores remotos e/ou servidores.

[0136] Embora este documento contenha muitos detalhes de implementação específicos, estes não devem ser interpretados como limitações no escopo do que pode ser reivindicado, mas sim como descrições de características que podem ser específicas para modalidades particulares. Certas características que são descritas neste relatório descritivo no contexto de modalidades separadas também podem ser implementadas em combinação em uma única modalidade. Por outro lado, várias características que são descritas no contexto de uma única modalidade também podem ser implementadas em várias modalidades separadamente ou em qualquer subcombinação adequada. Além disso, embora as características possam ser descritas acima como agindo em certas combinações e mesmo inicialmente reivindicadas como tal, uma ou mais características de uma combinação reivindicada podem, em alguns casos, ser extirpadas da combinação, e a combinação reivindicada pode ser direcionada a uma subcombinação ou variação de uma subcombinação. Os fluxos lógicos descritos nas figuras não requerem a ordem particular mostrada, ou ordem sequencial, para alcançar os resultados desejáveis. Além disso, outras etapas podem ser fornecidas, ou etapas podem ser eliminadas, dos fluxos descritos, e outros componentes podem ser adicionados ou removidos dos sistemas descritos. Desta maneira, outras implementações estão dentro do escopo das seguintes reivindicações.

Claims

1. Método de codificação de um fluxo de bits de serviços de áudio e voz imersivos (IVAS), CARACTERIZADO pelo fato de que compreende: receber, usando um ou mais processadores, um sinal de áudio de entrada Ambisônico (FoA) de primeira ordem; extrair, usando o um ou mais processadores e uma taxa de bits IVAS, propriedades do sinal de áudio de entrada FoA, em que uma das propriedades é uma largura de banda do sinal de áudio de entrada FoA; gerar, usando o um ou mais processadores, metadados espaciais para o sinal de áudio de entrada FoA usando as propriedades do sinal FoA; escolher, usando o um ou mais processadores, um número de canais residuais para enviar com base em uma taxa de bits; obter, usando o um ou mais processadores, um índice da tabela de controle de distribuição de taxa de bits com base em uma taxa de bits IVAS, largura de banda e um número de canais de downmix; ler, usando o um ou mais processadores, uma configuração de reconstrutor espacial (SPAR) de uma linha na tabela de controle de distribuição de taxa de bits apontada pelo índice da tabela de controle de distribuição de taxa de bits; determinar, usando o um ou mais processadores, uma taxa de bits de metadados alvo a partir da taxa de bits IVAS, uma soma das taxas de bits alvo e um comprimento do cabeçalho IVAS; determinar, usando o um ou mais processadores, uma taxa de bits de metadados máxima a partir da taxa de bits IVAS, uma soma das taxas de bits mínimas e o comprimento do cabeçalho IVAS; quantificar, usando o um ou mais processadores e um enlace de quantização, os metadados espaciais de uma maneira não diferencial no tempo de acordo com uma primeira estratégia de quantização; codificar por entropia, usando o um ou mais processadores, os metadados espaciais quantizados; computar, usando o um ou mais processadores, uma primeira taxa de bits de metadados real; determinar, usando o um ou mais processadores, se a primeira taxa de bits de metadados real é menor ou igual a uma taxa de bits de metadados alvo; e de acordo com a primeira taxa de bits de metadados real sendo menor ou igual à taxa de bits de metadados alvo, sair do enlace de quantização.

2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que ainda compreende: determinar, usando o um ou mais processadores, uma primeira taxa de bits real total adicionando uma primeira quantidade de bits igual a uma diferença entre a taxa de bits alvo de metadados e a primeira taxa de bits de metadados real à taxa de bits alvo total; gerar, usando o um ou mais processadores, um fluxo de bits usando a primeira taxa de bits total real; gerar, usando o um ou mais processadores, um fluxo de bits IVAS incluindo o fluxo de bits, o índice da tabela de controle de distribuição de taxa de bits e os metadados espaciais quantizados e codificados por entropia; de acordo com a primeira taxa de bits de metadados real sendo maior que a taxa de bits de metadados alvo: quantificar, usando o um ou mais processadores, os metadados espaciais de uma maneira diferencial no tempo de acordo com a primeira estratégia de quantização; codificar por entropia, usando o um ou mais processadores, os metadados espaciais quantizados; computar, usando o um ou mais processadores, uma segunda taxa de bits de metadados real; determinar, usando o um ou mais processadores, se a segunda taxa de bits de metadados real é menor ou igual à taxa de bits de metadados alvo; e de acordo com a segunda taxa de bits de metadados real sendo menor ou igual à taxa de bits de metadados alvo, sair do enlace de quantização.

3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que ainda compreende: determinar, usando o um ou mais processadores, uma segunda taxa de bits real total adicionando uma segunda quantidade de bits igual a uma diferença entre a taxa de bits alvo de metadados e a segunda taxa de bits de metadados real à taxa de bits alvo total; gerar, usando o um ou mais processadores, um fluxo de bits usando a segunda taxa de bits real total; gerar, usando o um ou mais processadores, o fluxo de bits IVAS incluindo o fluxo de bits, o índice da tabela de controle de distribuição de taxa de bits e os metadados espaciais quantizados e codificados por entropia; de acordo com a segunda taxa de bits de metadados real sendo maior que a taxa de bits de metadados alvo: quantificar, usando o um ou mais processadores, os metadados espaciais em uma maneira não diferencial no tempo de acordo com a primeira estratégia de quantização; codificar, usando o um ou mais processadores e codificador de base2, os metadados espaciais quantizados; computar, usando o um ou mais processadores, uma terceira taxa de bits de metadados real; e de acordo com a terceira taxa de bits de metadados real sendo menor ou igual à taxa de bits de metadados alvo, sair do enlace de quantização.

4. Método, de acordo com a reivindicação 3, CARACTERIZADO pelo fato de que ainda compreende: determinar, usando o um ou mais processadores, uma terceira taxa de bits real total adicionando uma terceira quantidade de bits igual a uma diferença entre a taxa de bits alvo de metadados e a terceira taxa de bits de metadados real à taxa de bits alvo total; gerar, usando o um ou mais processadores, um fluxo de bits usando a terceira taxa de bits real total; gerar, usando o um ou mais processadores, o fluxo de bits IVAS incluindo o fluxo de bits, o índice da tabela de controle de distribuição de taxa de bits e os metadados espaciais quantizados e codificados por entropia; de acordo com a terceira taxa de bits de metadados real sendo maior que a taxa de bits de metadados alvo: definir, usando o um ou mais processadores, uma quarta taxa de bits de metadados real para ser um mínimo das primeira, segunda e terceira taxas de bits de metadados reais; determinar, usando o um ou mais processadores, se a quarta taxa de bits de metadados real é menor ou igual à taxa de bits de metadados máxima; de acordo com a quarta taxa de bits de metadados real sendo menor ou igual à taxa de bits de metadados máxima: determinar, usando o um ou mais processadores, se a quarta taxa de bits de metadados real é menor ou igual à taxa de bits de metadados alvo; e de acordo com a quarta taxa de bits de metadados real sendo menor ou igual à taxa de bits de metadados alvo, sair do enlace de quantização.

5. Método, de acordo com a reivindicação 4, CARACTERIZADO pelo fato de que ainda compreende: determinar, usando o um ou mais processadores, uma quarta taxa de bits real total adicionando uma quarta quantidade de bits igual a uma diferença entre a taxa de bits alvo de metadados e a quarta taxa de bits de metadados real à taxa de bits alvo total; gerar, usando o um ou mais processadores, um fluxo de bits usando a quarta taxa de bits real total; gerar, usando o um ou mais processadores, o fluxo de bits IVAS incluindo o fluxo de bits, o índice da tabela de controle de distribuição de taxa de bits e os metadados espaciais quantizados e codificados por entropia; e de acordo com a quarta taxa de bits de metadados real sendo maior que a taxa de bits de metadados alvo e menor ou igual à taxa de bits de metadados alvo máxima; sair do enlace de quantização.

6. Método, de acordo com a reivindicação 5, CARACTERIZADO pelo fato de que ainda compreende: determinar, usando o um ou mais processadores, uma quinta taxa de bits EVS real total subtraindo uma quantidade de bits igual a uma diferença entre a quarta taxa de bits de metadados real e a taxa de bits de metadados alvo da taxa de bits alvo total; gerar, usando o um ou mais processadores, um fluxo de bits usando a quinta taxa de bits real; gerar, usando o um ou mais processadores, o fluxo de bits IVAS incluindo o fluxo de bits, o índice da tabela de controle de distribuição de taxa de bits e os metadados espaciais quantizados e codificados por entropia; e de acordo com a quarta taxa de bits de metadados real sendo maior que a taxa de bits de metadados alvo máxima, alterar a primeira estratégia de quantização para uma segunda estratégia de quantização e entrar no enlace de quantização novamente usando a segunda estratégia de quantização, onde a segunda estratégia de quantização é mais grosseira que a primeira estratégia de quantização.

7. Método, de acordo com qualquer uma das reivindicações 1 a 6, CARACTERIZADO pelo fato de que a configuração SPAR é definida por uma sequência de downmix, indicador W ativo, indicador de metadados espaciais complexos, estratégias de quantização de metadados espaciais, taxas de bits mínimas, máximas e alvo para uma ou mais instâncias de um codificador/decodificador mono (codec) e um indicador de redução do descorrelador de domínio de tempo.

8. Método, de acordo com qualquer uma das reivindicações 1 a 6, CARACTERIZADO pelo fato de que um número real total de bits é igual a um número de bits IVAS menos um número de bits de cabeçalho menos a taxa de bits de metadados real, e em que se o número total de bits reais é menor do que um número total de bits alvo, em seguida, os bits são obtidos dos canais na seguinte ordem Z, X, Y e W, e em que um número máximo de bits que pode ser obtido de qualquer canal é o número de bits alvo para o canal menos o número mínimo de bits para o canal, e em que se o número total de bits reais for maior que o número total de bits alvo, em seguida, todos os bits adicionais são atribuídos aos canais de downmix na seguinte ordem: W, Y, X e Z, e o número máximo de bits adicionais que pode ser adicionado a qualquer canal é o número máximo de bits menos o número de bits alvo.

9. Sistema CARACTERIZADO por compreender: um ou mais processadores; e um meio legível por computador não transitório que armazena instruções que, após executadas por um ou mais processadores, fazem com que o um ou mais processadores executem operações do método conforme definido em qualquer uma das reivindicações 1 a 8.

10. Meio legível por computador não transitório, CARACTERIZADO por armazenar instruções que, após executadas por um ou mais processadores, fazem com que o um ou mais processadores executem operações do método conforme definido em qualquer uma das reivindicações 1 a 8.