BR112020017360A2

BR112020017360A2 - transformação de sinais de áudio capturados em diferentes formatos em um número reduzido de formatos para simplificar as operações de codificação e decodificação

Info

Publication number: BR112020017360A2
Application number: BR112020017360-6A
Authority: BR
Inventors: Stefan Bruhn; Michael Eckert; Juan Felix TORRES; Stefanie Brown; David S. McGrath
Original assignee: Dolby Laboratories Licensing Corporation; Dolby International Ab
Priority date: 2018-10-08
Filing date: 2019-10-07
Publication date: 2021-03-02
Also published as: IL277363A; IL307415B1; SG11202007627RA; IL307415A; CN111837181B; EP4362501A2; KR20210072736A; CA3091248A1; IL277363B2; US11410666B2; EP3864651A1; EP4362501A3; US20220375482A1; AU2019359191A1; AU2019359191B2; US12014745B2; MX2020009576A; JP7488188B2; EP3864651B1; JP2022511159A

Abstract

TRANSFORMAÇÃO DE SINAIS DE ÁUDIO CAPTURADOS EM DIFERENTES FORMATOS EM UM NÚMERO REDUZIDO DE FORMATOS PARA SIMPLIFICAR AS OPERAÇÕES DE CODIFICAÇÃO E DECODIFICAÇÃO. A presente invenção se refere a modalidades que permitem converter sinais de áudio capturados em vários formatos por vários dispositivos de captura em um número limitado de formatos que podem ser processados por um codec de áudio (por exemplo, um codec de Voz Imersível e Serviços de Áudio (IVAS)). Em uma modalidade, uma unidade de simplificação do dispositivo de áudio recebe um sinal de áudio capturado por um ou mais dispositivos de captura de áudio acoplados ao dispositivo de áudio. A unidade de simplificação determina se o sinal de áudio está em um formato suportado / não suportado por uma unidade de codificação do dispositivo de áudio. Com base na determinação, a unidade de simplificação, converte o sinal de áudio em um formato suportado pela unidade de codificação. Em uma modalidade, se a unidade de simplificação determinar que o sinal de áudio esteja em um formato espacial, a unidade de simplificação pode converter o sinal de áudio em um formato espacial "mezanino" suportado pela codificação.

Description

"TRANSFORMAÇÃO DE SINAIS DE ÁUDIO CAPTURADOS EM DIFERENTES FORMATOS EM UM NÚMERO REDUZIDO DE FORMATOS PARA SIMPLIFICAR AS OPERAÇÕES DE CODIFICAÇÃO E DECODIFICAÇÃO" REFERÊNCIA CRUZADA COM PEDIDOS RELACIONADOS

[001] Este pedido reivindica o benefício de prioridade do Pedido de Patente Provisório dos Estados Unidos No. 62 / 742.729 depositado em 8 de outubro de 2018, que se encontra inteiramente incorporado ao presente por referência.

CAMPO DA TÉCNICA

[002] As modalidades da presente divulgação geralmente se referem ao processamento do sinal de áudio e, mais especificamente, à distribuição dos sinais de áudio capturados.

FUNDAMENTOS DA INVENÇÃO

[003] O desenvolvimento padrão de codificador / decodificador de voz e vídeo (“codec”) se concentrou recentemente no desenvolvimento de um codec para Serviços Imersivos de Voz e Áudio (IVAS). Espera-se que o IVAS ofereça suporte a uma variedade de recursos de serviço, como operação com mono para estéreo, para codificação, decodificação e renderização totalmente imersivas de áudio. Um codec IVAS adequado também fornece uma alta robustez de erro para perda de pacotes e atraso jitter sob diferentes condições de transmissão. O IVAS deve ser suportado por uma ampla variedade de dispositivos, terminais e nós de rede, incluindo, entre outros, telefones móveis e inteligentes, tablets eletrônicos, computadores pessoais, telefones de conferência, salas de conferência, realidade virtual e dispositivos de realidade aumentada, dispositivos home theater e outros dispositivos adequados. Como esses dispositivos, pontos de extremidade e nós da rede podem ter várias interfaces acústicas para captura e renderização de som, pode não ser prático para um codec IVAS abordar todas as várias maneiras pelas quais um sinal de áudio é capturado e renderizado.

SUMÁRIO DA INVENÇÃO

[004] As modalidades divulgadas permitem converter sinais de áudio capturados em vários formatos por vários dispositivos de captura em um número limitado de formatos que podem ser processados por um codec, por exemplo, um codec IVAS.

[005] Em algumas modalidades, uma unidade de simplificação embutida em um dispositivo de áudio recebe um sinal de áudio. Esse sinal de áudio pode ser um sinal capturado por um ou mais dispositivos de captura de áudio acoplados ao dispositivo de áudio. O sinal de áudio pode ser, por exemplo, um áudio de uma videoconferência entre pessoas em locais diferentes. A unidade de simplificação determina se o sinal de áudio está em um formato que não seja suportado por uma unidade de codificação do dispositivo de áudio, geralmente chamada de "codificador". Por exemplo, a unidade de simplificação pode determinar se o sinal de áudio está ou não em um formato espacial mono, estéreo ou espacial padrão ou proprietário. Com base na determinação de que o sinal de áudio esteja em um formato não suportado pela unidade de codificação, a unidade de simplificação converte o sinal de áudio em um formato suportado pela unidade de codificação. Por exemplo, se a unidade de simplificação determinar que o sinal de áudio esteja em um formato espacial proprietário, a unidade de simplificação poderá converter o sinal de áudio em um formato espacial de “mezanino” suportado pela unidade de codificação. A unidade de simplificação transfere o sinal de áudio convertido para a unidade de codificação.

[006] Uma vantagem das modalidades divulgadas é que a complexidade de um codec, por exemplo, um codec IVAS, pode ser reduzida reduzindo um número potencialmente grande de formatos de captura de áudio em um número limitado de formatos, por exemplo, mono, estéreo e espacial. Como resultado, o codec pode ser implantado em uma variedade de dispositivos, independentemente dos recursos de captura de áudio dos dispositivos.

[007] Estes e outros aspectos, características e modalidades podem ser expressos como métodos, aparelhos, sistemas, componentes, produtos de programas, dispositivos ou etapas para executar uma função e de outras maneiras.

[008] Em algumas implementações, uma unidade de simplificação de um dispositivo de áudio recebe um sinal de áudio em um primeiro formato. O primeiro formato é um dentre um conjunto de vários formatos de áudio suportados pelo dispositivo de áudio. A unidade de simplificação determina se o primeiro formato é suportado por um codificador do dispositivo de áudio. De acordo com o primeiro formato não suportado pelo codificador, a unidade de simplificação converte o sinal de áudio em um segundo formato suportado pelo codificador. O segundo formato é uma representação alternativa do primeiro formato. A unidade de simplificação transfere o sinal de áudio no segundo formato para o codificador. O codificador codifica o sinal de áudio. O dispositivo de áudio armazena o sinal de áudio codificado ou transmite o sinal de áudio codificado para um ou mais outros dispositivos.

[009] A conversão do sinal de áudio no segundo formato pode incluir a geração de metadados para o sinal de áudio. Os metadados podem incluir uma representação de uma parte do sinal de áudio. A codificação do sinal de áudio pode incluir a codificação do sinal de áudio no segundo formato em um formato de transporte suportado por um segundo dispositivo. O dispositivo de áudio pode transmitir o sinal de áudio codificado transmitindo os metadados que compreendem uma representação de uma parte do sinal de áudio não suportada pelo segundo formato.

[010] EM algumas implementações, determinar, pela unidade de simplificação, se o sinal de áudio está no primeiro formato pode incluir a determinação de vários dispositivos de captura de áudio e uma posição correspondente de cada dispositivo de captura usado para capturar o sinal de áudio. Cada um dos um ou mais outros dispositivos pode ser configurado para reproduzir o sinal de áudio do segundo formato. Pelo menos um dos um ou mais outros dispositivos pode não ser capaz de reproduzir o sinal de áudio do primeiro formato.

[011] O segundo formato pode representar o sinal de áudio como um número de objetos de áudio em uma cena de áudio, os quais dependem de vários canais de áudio para transportar informações espaciais. O segundo formato pode incluir metadados para transportar uma porção adicional de informações espaciais. O primeiro e o segundo formato podem ser formatos de áudio espacial. O segundo formato pode ser um formato de áudio espacial e o primeiro formato pode ser um formato mono associado aos metadados ou um formato estéreo associado aos metadados. O conjunto de vários formatos de áudio suportados pelo dispositivo de áudio pode incluir vários formatos de áudio espacial. O segundo formato pode ser uma representação alternativa do primeiro formato e é ainda caracterizado por permitir um grau comparável de Qualidade de Experiência.

[012] Em algumas implementações, uma unidade de renderização de um dispositivo de áudio recebe um sinal de áudio em um primeiro formato. A unidade de renderização determina se o dispositivo de áudio é capaz de reproduzir o sinal de áudio no primeiro formato. Em resposta à determinação de que o dispositivo de áudio seja incapaz de reproduzir o sinal de áudio no primeiro formato, a unidade de renderização se adapta, o sinal de áudio para estar disponível em um segundo formato. A unidade de renderização transfere o sinal de áudio no segundo formato para renderização.

[013] Em algumas implementações, a conversão, pela unidade de renderização, do sinal de áudio no segundo formato pode incluir o uso de metadados que incluem uma representação de uma parte do sinal de áudio não suportada por um quarto formato usado para codificação em combinação com o sinal de áudio em um terceiro formato. Aqui, o terceiro formato corresponde ao termo “primeiro formato” no contexto da unidade de simplificação, que é um dentre um conjunto de múltiplos formatos de áudio suportados no lado do codificador. O quarto formato corresponde ao termo "segundo formato" no contexto da unidade de simplificação, que é um formato suportado pelo codificador e que é uma representação alternativa do terceiro formato. Aqui e em qualquer parte deste relatório, os termos primeiro, segundo, terceiro e quarto são usados para identificação e não são necessariamente indicativos de uma ordem específica.

[014] Uma unidade de decodificação recebe o sinal de áudio em um formato de transporte. A unidade de decodificação decodifica o sinal de áudio no formato de transporte para o primeiro formato e transfere o sinal de áudio no primeiro formato para a unidade de renderização. Em algumas implementações, a adaptação do sinal de áudio para estar disponível no segundo formato pode incluir a adaptação da decodificação para produzir o áudio recebido no segundo formato. Em algumas implementações, cada um dos vários dispositivos é configurado para reproduzir o sinal de áudio no segundo formato. Um ou mais dos vários dispositivos não são capazes de reproduzir o sinal de áudio no primeiro formato.

[015] Em algumas implementações, uma unidade de simplificação recebe, de uma unidade de pré-processamento acústico, sinais de áudio em vários formatos. A unidade de simplificação recebe, de um dispositivo, atributos do dispositivo, os atributos incluindo as indicações de um ou mais formatos de áudio suportados pelo dispositivo. Os um ou mais formatos de áudio incluem pelo menos um formato mono, estéreo ou espacial. A unidade de simplificação converte os sinais de áudio em um formato de inserção que é uma representação alternativa do um ou mais formatos de áudio. A unidade de simplificação fornece o sinal de áudio convertido para uma unidade de codificação para processamento a jusante. Cada unidade de pré- processamento acústico, unidade de simplificação e a unidade de codificação podem incluir um ou mais processadores de computador.

[016] Em algumas implementações, um sistema de codificação inclui uma unidade de captura configurada para capturar um sinal de áudio, uma unidade de pré-processamento acústico configurada para executar operações compreendendo pré-processamento do sinal de áudio, um codificador e uma unidade de simplificação. A unidade de simplificação está configurada para executar as seguintes operações. A unidade de simplificação recebe, da unidade de pré- processamento acústico, um sinal de áudio em um primeiro formato. O primeiro formato é um dentre um conjunto de múltiplos formatos de áudio suportados pelo codificador. A unidade de simplificação determina se o primeiro formato é suportado pelo codificador. Em resposta à determinação de que o primeiro formato não é suportado pelo codificador, a unidade de simplificação converte o sinal de áudio em um segundo formato suportado pelo codificador. A unidade de simplificação transfere o sinal de áudio no segundo formato para o codificador. O codificador está configurado para realizar operações, incluindo a codificação do sinal de áudio e pelo menos uma de armazenamento do sinal de áudio codificado ou transmitir o sinal de áudio codificado para outro dispositivo.

[017] Em algumas implementações, converter o sinal de áudio no segundo formato inclui gerar metadados para o sinal de áudio. Os metadados podem incluir uma representação de uma parte do sinal de áudio não suportada pelo segundo formato. As operações do codificador podem ainda incluir a transmissão do sinal de áudio codificado, transmitindo os metadados que incluem uma representação de uma parte do sinal de áudio não suportada pelo segundo formato.

[018] Em algumas implementações, o segundo formato representa o sinal de áudio como uma série de objetos em uma cena de áudio e uma série de canais para transportar informações espaciais. Em algumas implementações, o pré- processamento do sinal de áudio pode incluir um ou mais de cancelamento de ruído,

cancelamento de eco, redução de vários canais do sinal do áudio, aumentando o número de canais de áudio do sinal de áudio ou gerando metadados acústicos.

[019] Em algumas implementações, um sistema de decodificação inclui um decodificador, uma unidade de renderização e uma unidade de reprodução. O decodificador está configurado para executar operações, incluindo, por exemplo, decodificar um sinal de áudio de um formato de transporte para um primeiro formato. A unidade de renderização está configurada para executar as seguintes operações. A unidade de renderização recebe o sinal de áudio no primeiro formato. A unidade de renderização determina se um dispositivo de áudio é ou não capaz de reproduzir o sinal de áudio em um segundo formato. O segundo formato permite o uso de mais dispositivos de saída que o primeiro formato. Em resposta à determinação de que o dispositivo de áudio é capaz de reproduzir o sinal de áudio no segundo formato, a unidade de renderização converte o sinal de áudio no segundo formato. A unidade de renderização renderiza o sinal de áudio no segundo formato. A unidade de reprodução está configurada para executar operações, incluindo o início da reprodução do sinal de áudio renderizado em um sistema de alto-falantes.

[020] Em algumas implementações, a conversão do sinal de áudio no segundo formato pode incluir o uso de metadados que incluem uma representação de uma parte do sinal de áudio não suportada por um quarto formato usado para codificar em combinação com o sinal de áudio em um terceiro formato. Aqui, o terceiro formato corresponde ao termo “primeiro formato” no contexto da unidade de simplificação, que é um dentre um conjunto de múltiplos formatos de áudio suportados no lado do codificador. O quarto formato corresponde ao termo "segundo formato" no contexto da unidade de simplificação, que é um formato suportado pelo codificador e que é uma representação alternativa do terceiro formato.

[021] Em algumas implementações, as operações do decodificador podem incluir ainda receber o sinal de áudio em um formato de transporte e transferir o sinal de áudio no primeiro formato para a unidade de renderização.

[022] Esses e outros aspectos, características e modalidades serão claros a partir das seguintes descrições, incluindo as reivindicações.

BREVE DESCRIÇÃO DOS DESENHOS

[023] Nos desenhos, arranjos específicos ou pedidos de elementos esquemáticos, como aqueles que representam dispositivos, unidades, blocos de instruções e elementos de dados, são mostrados para facilitar a descrição. No entanto, deve ser entendido por aqueles versados na técnica que a ordem ou disposição específica dos elementos esquemáticos nos desenhos não significa que uma ordem ou sequência específica de processamento ou separação de processos seja necessária. Além disso, a inclusão de um elemento esquemático em um desenho não significa que esse elemento seja exigido em todas as modalidades ou que os recursos representados por esse elemento não possam ser incluídos ou combinados com outros elementos em algumas modalidades.

[024] Além disso, nos desenhos, onde elementos de conexão, como linhas ou setas sólidas ou tracejadas, são usadas para ilustrar uma conexão, relacionamento ou associação entre ou dentre dois ou mais outros elementos esquemáticos, a ausência de tais elementos de conexão não significa implicar que não possa existir nenhuma conexão, relacionamento ou associação. Em outras palavras, algumas conexões, relações ou associações entre elementos não são mostrados nos desenhos para não ocultar a divulgação. Além disso, para facilitar a ilustração, um único elemento de conexão é usado para representar várias conexões, relações ou associações entre elementos. Por exemplo, quando um elemento de conexão representa uma comunicação de sinais, dados ou instruções, deve ser entendido por aqueles versados na técnica que esse elemento representa um ou vários caminhos de sinal, conforme necessário, para afetar a comunicação.

[025] A Figura 1 ilustra vários dispositivos que podem ser suportados pelo sistema IVAS, de acordo com algumas modalidades da presente divulgação.

[026] A Figura 2A é um diagrama em bloco de um sistema para transformar o sinal de áudio capturado em um formato pronto para codificação, de acordo com algumas modalidades da presente divulgação.

[027] A Figura 2B é um diagrama em bloco de um sistema para transformar o áudio capturado novamente em um formato de reprodução adequado, de acordo com algumas modalidades da presente divulgação.

[028] A Figura 3 é um diagrama de fluxo de ações exemplificativas para transformar um sinal de áudio em um formato suportado por uma unidade de codificação, de acordo com algumas modalidades da presente divulgação.

[029] A Figura 4 é um diagrama de fluxo de ações exemplificativas para determinar se um sinal de áudio está em um formato suportado pela unidade de codificação, de acordo com algumas modalidades da presente divulgação.

[030] A Figura 5 é um diagrama de fluxo de ações exemplificativas para transformar um sinal de áudio em um formato de reprodução disponível, de acordo com algumas modalidades da presente divulgação.

[031] A Figura 6 é outro diagrama de fluxo de ações exemplificativas para transformar um sinal de áudio em um formato de reprodução disponível, de acordo com algumas modalidades da presente divulgação.

[032] A Figura 7 é um diagrama em bloco de uma arquitetura de hardware para implementar os recursos descritos em referência às Figuras 1 a 6, de acordo com algumas modalidades da presente divulgação.

DESCRIÇÃO DETALHADA

[033] Na descrição a seguir, para fins de explicação, vários detalhes específicos são estabelecidos para fornecer um entendimento completo da presente divulgação. Será claro, no entanto, que a presente divulgação pode ser praticada sem esses detalhes específicos.

[034] Será feita agora referência detalhada às modalidades, exemplos das quais estão ilustradas nos desenhos anexos. Na descrição detalhada que se segue, vários detalhes específicos são estabelecidos, a fim de fornecer uma compreensão completa das várias modalidades descritas. No entanto, será claro para aquele versado na técnica que as várias modalidades descritas podem ser praticadas sem esses detalhes específicos. Em outros casos, métodos, procedimentos, componentes e circuitos conhecidos, não foram descritos em detalhes para não obscurecer desnecessariamente aspectos das modalidades. A seguir são descritos vários recursos que podem ser usados independentemente um do outro ou com qualquer combinação de outros recursos.

[035] Conforme aqui usado, o termo "inclui" e suas variantes devem ser lidos como termos abertos que significam "inclui, mas não está limitado a". O termo "ou" deve ser lido como "e / ou", a menos que o contexto indique claramente o contrário. O termo "baseado em" deve ser lido como "baseado pelo menos em parte".

[036] A Figura 1 ilustra vários dispositivos que podem ser suportados pelo sistema IVAS. Em algumas implementações, esses dispositivos se comunicam através do servidor de chamada 102 que pode receber sinais de áudio de, por exemplo, uma rede telefônica pública comutada (PSTN) ou um dispositivo público de rede móvel! terrestre (PLMN) ilustrado pelo dispositivo PSTN / OUTRO PLMN 104. Este dispositivo pode usar o padrão G.711 e / ou G.722 para compactação e descompactação de áudio (fala). Um dispositivo 104 é geralmente capaz de capturar e renderizar apenas áudio mono. O sistema IVAS está habilitado para também suportar equipamentos de usuários legados 106. Esses dispositivos legados podem incluir dispositivos de serviços de voz aprimorados (EVS), discurso de banda larga adaptável de taxa múltipla (AMR-WB) para dispositivos de suporte padrão de codificação de áudio, banda estreita multitotal adaptável ( AMR-NB) dispositivos de suporte e outros dispositivos adequados. Esses dispositivos geralmente processam e capturam apenas áudio em mono.

[037] O sistema IVAS também está habilitado para oferecer suporte ao equipamento do usuário que captura e gera sinais de áudio em vários formatos, incluindo formatos avançados de áudio. Por exemplo, o sistema IVAS está ativado para suportar dispositivos de captura e renderização estéreo (por exemplo, equipamento de usuário 108, laptop 114 e sistema de sala de conferência 118), dispositivos de captura mono e renderização binaural (por exemplo, dispositivo de usuário 110 e dispositivo de computador 112), dispositivos de captura e renderização imersivos (por exemplo, equipamento de uso da sala de conferências 116), dispositivos de captura estéreo e renderização imersiva (por exemplo, home theater 120), captura mono e renderização imersiva (por exemplo, equipamento de realidade virtual (VR) 122),entrada de conteúdo imersivo 124 e outros dispositivos adequados. Para suportar todos esses formatos diretamente, o codec do sistema IVAS precisaria ser muito complexo e caro para instalar. Assim, seria desejável um sistema para simplificar o codec antes do estágio de codificação.

[038] Embora a descrição a seguir seja focada em um sistema IVAS e codec, as modalidades divulgadas são aplicáveis a qualquer codec para qualquer sistema de áudio em que haja uma vantagem na redução de grande número de formatos de captura de áudio para um número menor para reduzir a complexidade do codec de áudio ou por qualquer outro motivo desejado.

[039] A Figura 2A é um diagrama em bloco de um sistema 200 para transformar sinais de áudio capturados em um formato pronto para codificação, de acordo com algumas modalidades da presente divulgação. A unidade de captura 210 recebe um sinal de áudio de um ou mais dispositivos de captura, por exemplo, microfones. Por exemplo, a unidade de captura 210 pode receber um sinal de áudio de um microfone (por exemplo, sinal mono), de dois microfones (por exemplo, sinal estéreo), de três microfones ou de outro número e configuração de dispositivos de captura de áudio. A unidade de captura 210 pode incluir personalizações de um ou mais terceiros, onde as personalizações podem ser específicas para os dispositivos de captura usados.

[040] Em algumas implementações, um sinal de áudio mono é capturado com um microfone. O sinal mono pode ser capturado, por exemplo, com o telefone PSTN / PLMN 104, equipamento de usuário legado 106, dispositivo de usuário 110 com um fone de ouvido viva-voz, dispositivo de computador 112 com um fone de ouvido conectado e equipamento de realidade virtual 122, como ilustrado na Figura 1

[041] Em algumas implementações, a unidade de captura 210 recebe áudio estéreo capturado usando várias técnicas de gravação / microfone. O áudio estéreo pode ser capturado por, por exemplo, equipamento de usuário 108, laptop 114, sistema de sala de conferências 118 e home theater 120. Em um exemplo, o áudio estéreo é capturado com dois microfones direcionais no mesmo local, em um ângulo de propagação de aproximadamente noventa graus ou mais. O efeito estéreo resulta de diferenças de nível entre canais. Em outro exemplo, o áudio estéreo é capturado por dois microfones espacialmente deslocados. Em algumas implementações, os microfones deslocados espacialmente são microfones omnidirecionais. O efeito estéreo nesta configuração resulta de diferenças de nível entre canais e de tempo entre canais. A distância entre os microfones tem uma influência considerável na largura estéreo percebida. Em outro exemplo, o áudio é capturado com dois microfones direcionais com um deslocamento de dezessete centímetros e um ângulo de propagação de cento e dez graus. Esse sistema é geralmente chamado de sistema de microfone estéreo do Office de Radiodiffusion Télévision Française ("ORTF"). Ainda outro sistema de captura estéreo inclui dois microfones com características diferentes que são dispostos de modo que um sinal de microfone seja o sinal intermediário e o outro o sinal lateral. Esse arranjo é geralmente chamado de gravação no meio (M/S). O efeito estéreo dos sinais de M/S se baseia tipicamente nas diferenças de nível entre canais.

[042] Em algumas implementações, a unidade de captura 210 recebe áudio capturado usando técnicas de microfones múltiplos. Nessas implementações, a captura de áudio envolve um arranjo de três ou mais microfones. Esse arranjo é geralmente necessário para capturar áudio espacial e também pode ser eficaz para executar a supressão de ruído ambiente. À medida que o número de microfones aumenta, o número de detalhes de uma cena espacial que pode ser capturada pelos microfones também aumenta. Em alguns casos, a precisão da cena capturada também é aprimorada quando o número de microfones aumenta. Por exemplo, vários equipamentos de usuário (UE) da Figura 1 operado no modo viva-voz pode utilizar vários microfones para produzir um sinal de áudio mono, estéreo ou espacial. Além disso, um computador laptop aberto 114 com vários microfones pode ser usado para produzir uma captura estéreo. Alguns fabricantes lançam computadores laptop com dois a quatro microfones para sistemas Micro — Eletro - Mecânicos ("MEMS”), permitindo a captura em estéreo. A captura de áudio imersiva com múltiplos microfones pode ser implementada, por exemplo, no equipamento de usuário da sala de conferências 216.

[043] O áudio capturado geralmente passa por um estágio de pré- processamento antes de ser inserido em um codec de voz ou áudio. Assim, a unidade de pré-processamento acústico 220 recebe um sinal de áudio da unidade de captura 210. Em algumas implementações, a unidade de pré-processamento acústico 220 realiza processamento de cancelamento de ruído e eco, mixagem de downmix e upmix mixagem de canal (por exemplo, redução ou aumento de vários canais de áudio) e / ou qualquer tipo de processamento espacial. A saída do sinal de áudio da unidade de pré-processamento acústico 220 é geralmente adequada para codificação e transmissão para outros dispositivos. Em algumas implementações, o design específico da unidade de pré-processamento acústico 220 é realizado por um fabricante do dispositivo, pois depende das especificidades da captura de áudio com um dispositivo específico. No entanto, os requisitos estabelecidos pelas especificações pertinentes da interface acústica podem definir limites para esses projetos e garantir que determinados requisitos de qualidade sejam atendidos. O pré-processamento acústico é realizado com o objetivo de produzir um ou mais tipos diferentes de sinais de áudio ou formatos de entrada de áudio que um codec IVAS suporta para ativar os vários casos de uso ou níveis de serviço de destino do IVAS. Dependendo dos requisitos de serviço IVAS específicos associados a esses casos de uso, um codec IVAS pode ser necessário para suportar os formatos mono, estéreo e espacial.

[044] Geralmente, o formato mono é usado quando é o único formato disponível, por exemplo, com base no tipo de dispositivo de captura, por exemplo, se os recursos de captura do dispositivo de envio forem limitados. Para sinais de áudio estéreo, a unidade de pré-processamento acústico 220 converte os sinais capturados em uma representação normalizada que atende a convenções específicas (por exemplo, canal que solicita a convenção Esquerda-Direita). Para captura estéreo de M / S, esse processo pode envolver, por exemplo, uma operação de matriz para que o sinal seja representado usando a convenção Esquerda-Direita. Após o pré-processamento, o sinal estéreo atende a determinadas convenções (por exemplo, convenção Esquerda-Direitaà, No entanto, as informações sobre dispositivos de captura estéreo específicos (por exemplo, número e configuração do microfone) são removidas.

[045] Para formatos espaciais, o tipo de sinais de entrada espacial ou formatos de áudio espacial específicos obtidos após o pré-processamento acústico podem depender do tipo de dispositivo de envio e de seus recursos para captura de áudio. Ao mesmo tempo, os formatos de áudio espacial que podem ser exigidos pelos requisitos de serviço do IVAS incluem o formato espacial de baixa resolução, espacial de alta resolução espacial, o áudio espacial assistido por metadados (MASA) e o formato de transporte Higher Order Ambisonics ("HOA") ( HTF) ou ainda mais formatos de áudio espacial. A unidade de pré-processamento acústico 220 de um dispositivo de envio com recursos de áudio espacial, portanto, deve estar preparada para fornecer um sinal de áudio espacial em formato adequado, atendendo a esses requisitos.

[046] Os formatos espaciais de baixa resolução incluem WXY espacial, Ambisonics de Primeira Ordem ("FOA") e outros formatos. O formato WXY espacial refere-se a uma representação de áudio no formato B planar de primeira ordem e três canais, com o componente de altura omitido (Z). Esse formato é útil para cenários de telefonia imersiva e conferência de imersão com eficiência de taxa de bits em que os requisitos de resolução espacial não são muito altos e onde o componente de altura espacial pode ser considerado irrelevante. O formato é especialmente útil para telefones de conferência, pois permite que os clientes receptores realizem a renderização imersão da cena da conferência capturada em uma sala de conferências com vários participantes. Da mesma forma, o formato é útil para servidores de conferência que organizam espacialmente os participantes da conferência em uma sala de reunião virtual. Por outro lado, o FOA contém o componente de altura (Z) como o quarto sinal do componente. As representações FOA são relevantes para aplicativos de VR de baixa taxa.

[047] Os formatos espaciais de alta resolução incluem formatos espaciais de canal, objeto e cena. Dependendo do número de sinais de componentes de áudio envolvidos, cada um desses formatos permite que o áudio espacial seja representado com resolução praticamente ilimitada. Por várias razões (por exemplo, limitações de taxa de bits e limitações de complexidade), no entanto, existem limitações práticas para relativamente poucos sinais componentes (por exemplo,