BR112020017360A2 - transformação de sinais de áudio capturados em diferentes formatos em um número reduzido de formatos para simplificar as operações de codificação e decodificação - Google Patents

transformação de sinais de áudio capturados em diferentes formatos em um número reduzido de formatos para simplificar as operações de codificação e decodificação Download PDF

Info

Publication number
BR112020017360A2
BR112020017360A2 BR112020017360-6A BR112020017360A BR112020017360A2 BR 112020017360 A2 BR112020017360 A2 BR 112020017360A2 BR 112020017360 A BR112020017360 A BR 112020017360A BR 112020017360 A2 BR112020017360 A2 BR 112020017360A2
Authority
BR
Brazil
Prior art keywords
audio
format
audio signal
formats
unit
Prior art date
Application number
BR112020017360-6A
Other languages
English (en)
Inventor
Stefan Bruhn
Michael Eckert
Juan Felix TORRES
Stefanie Brown
David S. McGrath
Original Assignee
Dolby Laboratories Licensing Corporation
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corporation, Dolby International Ab filed Critical Dolby Laboratories Licensing Corporation
Publication of BR112020017360A2 publication Critical patent/BR112020017360A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

TRANSFORMAÇÃO DE SINAIS DE ÁUDIO CAPTURADOS EM DIFERENTES FORMATOS EM UM NÚMERO REDUZIDO DE FORMATOS PARA SIMPLIFICAR AS OPERAÇÕES DE CODIFICAÇÃO E DECODIFICAÇÃO. A presente invenção se refere a modalidades que permitem converter sinais de áudio capturados em vários formatos por vários dispositivos de captura em um número limitado de formatos que podem ser processados por um codec de áudio (por exemplo, um codec de Voz Imersível e Serviços de Áudio (IVAS)). Em uma modalidade, uma unidade de simplificação do dispositivo de áudio recebe um sinal de áudio capturado por um ou mais dispositivos de captura de áudio acoplados ao dispositivo de áudio. A unidade de simplificação determina se o sinal de áudio está em um formato suportado / não suportado por uma unidade de codificação do dispositivo de áudio. Com base na determinação, a unidade de simplificação, converte o sinal de áudio em um formato suportado pela unidade de codificação. Em uma modalidade, se a unidade de simplificação determinar que o sinal de áudio esteja em um formato espacial, a unidade de simplificação pode converter o sinal de áudio em um formato espacial "mezanino" suportado pela codificação.

Description

"TRANSFORMAÇÃO DE SINAIS DE ÁUDIO CAPTURADOS EM DIFERENTES FORMATOS EM UM NÚMERO REDUZIDO DE FORMATOS PARA SIMPLIFICAR AS OPERAÇÕES DE CODIFICAÇÃO E DECODIFICAÇÃO" REFERÊNCIA CRUZADA COM PEDIDOS RELACIONADOS
[001] Este pedido reivindica o benefício de prioridade do Pedido de Patente Provisório dos Estados Unidos No. 62 / 742.729 depositado em 8 de outubro de 2018, que se encontra inteiramente incorporado ao presente por referência.
CAMPO DA TÉCNICA
[002] As modalidades da presente divulgação geralmente se referem ao processamento do sinal de áudio e, mais especificamente, à distribuição dos sinais de áudio capturados.
FUNDAMENTOS DA INVENÇÃO
[003] O desenvolvimento padrão de codificador / decodificador de voz e vídeo (“codec”) se concentrou recentemente no desenvolvimento de um codec para Serviços Imersivos de Voz e Áudio (IVAS). Espera-se que o IVAS ofereça suporte a uma variedade de recursos de serviço, como operação com mono para estéreo, para codificação, decodificação e renderização totalmente imersivas de áudio. Um codec IVAS adequado também fornece uma alta robustez de erro para perda de pacotes e atraso jitter sob diferentes condições de transmissão. O IVAS deve ser suportado por uma ampla variedade de dispositivos, terminais e nós de rede, incluindo, entre outros, telefones móveis e inteligentes, tablets eletrônicos, computadores pessoais, telefones de conferência, salas de conferência, realidade virtual e dispositivos de realidade aumentada, dispositivos home theater e outros dispositivos adequados. Como esses dispositivos, pontos de extremidade e nós da rede podem ter várias interfaces acústicas para captura e renderização de som, pode não ser prático para um codec IVAS abordar todas as várias maneiras pelas quais um sinal de áudio é capturado e renderizado.
SUMÁRIO DA INVENÇÃO
[004] As modalidades divulgadas permitem converter sinais de áudio capturados em vários formatos por vários dispositivos de captura em um número limitado de formatos que podem ser processados por um codec, por exemplo, um codec IVAS.
[005] Em algumas modalidades, uma unidade de simplificação embutida em um dispositivo de áudio recebe um sinal de áudio. Esse sinal de áudio pode ser um sinal capturado por um ou mais dispositivos de captura de áudio acoplados ao dispositivo de áudio. O sinal de áudio pode ser, por exemplo, um áudio de uma videoconferência entre pessoas em locais diferentes. A unidade de simplificação determina se o sinal de áudio está em um formato que não seja suportado por uma unidade de codificação do dispositivo de áudio, geralmente chamada de "codificador". Por exemplo, a unidade de simplificação pode determinar se o sinal de áudio está ou não em um formato espacial mono, estéreo ou espacial padrão ou proprietário. Com base na determinação de que o sinal de áudio esteja em um formato não suportado pela unidade de codificação, a unidade de simplificação converte o sinal de áudio em um formato suportado pela unidade de codificação. Por exemplo, se a unidade de simplificação determinar que o sinal de áudio esteja em um formato espacial proprietário, a unidade de simplificação poderá converter o sinal de áudio em um formato espacial de “mezanino” suportado pela unidade de codificação. A unidade de simplificação transfere o sinal de áudio convertido para a unidade de codificação.
[006] Uma vantagem das modalidades divulgadas é que a complexidade de um codec, por exemplo, um codec IVAS, pode ser reduzida reduzindo um número potencialmente grande de formatos de captura de áudio em um número limitado de formatos, por exemplo, mono, estéreo e espacial. Como resultado, o codec pode ser implantado em uma variedade de dispositivos, independentemente dos recursos de captura de áudio dos dispositivos.
[007] Estes e outros aspectos, características e modalidades podem ser expressos como métodos, aparelhos, sistemas, componentes, produtos de programas, dispositivos ou etapas para executar uma função e de outras maneiras.
[008] Em algumas implementações, uma unidade de simplificação de um dispositivo de áudio recebe um sinal de áudio em um primeiro formato. O primeiro formato é um dentre um conjunto de vários formatos de áudio suportados pelo dispositivo de áudio. A unidade de simplificação determina se o primeiro formato é suportado por um codificador do dispositivo de áudio. De acordo com o primeiro formato não suportado pelo codificador, a unidade de simplificação converte o sinal de áudio em um segundo formato suportado pelo codificador. O segundo formato é uma representação alternativa do primeiro formato. A unidade de simplificação transfere o sinal de áudio no segundo formato para o codificador. O codificador codifica o sinal de áudio. O dispositivo de áudio armazena o sinal de áudio codificado ou transmite o sinal de áudio codificado para um ou mais outros dispositivos.
[009] A conversão do sinal de áudio no segundo formato pode incluir a geração de metadados para o sinal de áudio. Os metadados podem incluir uma representação de uma parte do sinal de áudio. A codificação do sinal de áudio pode incluir a codificação do sinal de áudio no segundo formato em um formato de transporte suportado por um segundo dispositivo. O dispositivo de áudio pode transmitir o sinal de áudio codificado transmitindo os metadados que compreendem uma representação de uma parte do sinal de áudio não suportada pelo segundo formato.
[010] EM algumas implementações, determinar, pela unidade de simplificação, se o sinal de áudio está no primeiro formato pode incluir a determinação de vários dispositivos de captura de áudio e uma posição correspondente de cada dispositivo de captura usado para capturar o sinal de áudio. Cada um dos um ou mais outros dispositivos pode ser configurado para reproduzir o sinal de áudio do segundo formato. Pelo menos um dos um ou mais outros dispositivos pode não ser capaz de reproduzir o sinal de áudio do primeiro formato.
[011] O segundo formato pode representar o sinal de áudio como um número de objetos de áudio em uma cena de áudio, os quais dependem de vários canais de áudio para transportar informações espaciais. O segundo formato pode incluir metadados para transportar uma porção adicional de informações espaciais. O primeiro e o segundo formato podem ser formatos de áudio espacial. O segundo formato pode ser um formato de áudio espacial e o primeiro formato pode ser um formato mono associado aos metadados ou um formato estéreo associado aos metadados. O conjunto de vários formatos de áudio suportados pelo dispositivo de áudio pode incluir vários formatos de áudio espacial. O segundo formato pode ser uma representação alternativa do primeiro formato e é ainda caracterizado por permitir um grau comparável de Qualidade de Experiência.
[012] Em algumas implementações, uma unidade de renderização de um dispositivo de áudio recebe um sinal de áudio em um primeiro formato. A unidade de renderização determina se o dispositivo de áudio é capaz de reproduzir o sinal de áudio no primeiro formato. Em resposta à determinação de que o dispositivo de áudio seja incapaz de reproduzir o sinal de áudio no primeiro formato, a unidade de renderização se adapta, o sinal de áudio para estar disponível em um segundo formato. A unidade de renderização transfere o sinal de áudio no segundo formato para renderização.
[013] Em algumas implementações, a conversão, pela unidade de renderização, do sinal de áudio no segundo formato pode incluir o uso de metadados que incluem uma representação de uma parte do sinal de áudio não suportada por um quarto formato usado para codificação em combinação com o sinal de áudio em um terceiro formato. Aqui, o terceiro formato corresponde ao termo “primeiro formato” no contexto da unidade de simplificação, que é um dentre um conjunto de múltiplos formatos de áudio suportados no lado do codificador. O quarto formato corresponde ao termo "segundo formato" no contexto da unidade de simplificação, que é um formato suportado pelo codificador e que é uma representação alternativa do terceiro formato. Aqui e em qualquer parte deste relatório, os termos primeiro, segundo, terceiro e quarto são usados para identificação e não são necessariamente indicativos de uma ordem específica.
[014] Uma unidade de decodificação recebe o sinal de áudio em um formato de transporte. A unidade de decodificação decodifica o sinal de áudio no formato de transporte para o primeiro formato e transfere o sinal de áudio no primeiro formato para a unidade de renderização. Em algumas implementações, a adaptação do sinal de áudio para estar disponível no segundo formato pode incluir a adaptação da decodificação para produzir o áudio recebido no segundo formato. Em algumas implementações, cada um dos vários dispositivos é configurado para reproduzir o sinal de áudio no segundo formato. Um ou mais dos vários dispositivos não são capazes de reproduzir o sinal de áudio no primeiro formato.
[015] Em algumas implementações, uma unidade de simplificação recebe, de uma unidade de pré-processamento acústico, sinais de áudio em vários formatos. A unidade de simplificação recebe, de um dispositivo, atributos do dispositivo, os atributos incluindo as indicações de um ou mais formatos de áudio suportados pelo dispositivo. Os um ou mais formatos de áudio incluem pelo menos um formato mono, estéreo ou espacial. A unidade de simplificação converte os sinais de áudio em um formato de inserção que é uma representação alternativa do um ou mais formatos de áudio. A unidade de simplificação fornece o sinal de áudio convertido para uma unidade de codificação para processamento a jusante. Cada unidade de pré- processamento acústico, unidade de simplificação e a unidade de codificação podem incluir um ou mais processadores de computador.
[016] Em algumas implementações, um sistema de codificação inclui uma unidade de captura configurada para capturar um sinal de áudio, uma unidade de pré-processamento acústico configurada para executar operações compreendendo pré-processamento do sinal de áudio, um codificador e uma unidade de simplificação. A unidade de simplificação está configurada para executar as seguintes operações. A unidade de simplificação recebe, da unidade de pré- processamento acústico, um sinal de áudio em um primeiro formato. O primeiro formato é um dentre um conjunto de múltiplos formatos de áudio suportados pelo codificador. A unidade de simplificação determina se o primeiro formato é suportado pelo codificador. Em resposta à determinação de que o primeiro formato não é suportado pelo codificador, a unidade de simplificação converte o sinal de áudio em um segundo formato suportado pelo codificador. A unidade de simplificação transfere o sinal de áudio no segundo formato para o codificador. O codificador está configurado para realizar operações, incluindo a codificação do sinal de áudio e pelo menos uma de armazenamento do sinal de áudio codificado ou transmitir o sinal de áudio codificado para outro dispositivo.
[017] Em algumas implementações, converter o sinal de áudio no segundo formato inclui gerar metadados para o sinal de áudio. Os metadados podem incluir uma representação de uma parte do sinal de áudio não suportada pelo segundo formato. As operações do codificador podem ainda incluir a transmissão do sinal de áudio codificado, transmitindo os metadados que incluem uma representação de uma parte do sinal de áudio não suportada pelo segundo formato.
[018] Em algumas implementações, o segundo formato representa o sinal de áudio como uma série de objetos em uma cena de áudio e uma série de canais para transportar informações espaciais. Em algumas implementações, o pré- processamento do sinal de áudio pode incluir um ou mais de cancelamento de ruído,
cancelamento de eco, redução de vários canais do sinal do áudio, aumentando o número de canais de áudio do sinal de áudio ou gerando metadados acústicos.
[019] Em algumas implementações, um sistema de decodificação inclui um decodificador, uma unidade de renderização e uma unidade de reprodução. O decodificador está configurado para executar operações, incluindo, por exemplo, decodificar um sinal de áudio de um formato de transporte para um primeiro formato. A unidade de renderização está configurada para executar as seguintes operações. A unidade de renderização recebe o sinal de áudio no primeiro formato. A unidade de renderização determina se um dispositivo de áudio é ou não capaz de reproduzir o sinal de áudio em um segundo formato. O segundo formato permite o uso de mais dispositivos de saída que o primeiro formato. Em resposta à determinação de que o dispositivo de áudio é capaz de reproduzir o sinal de áudio no segundo formato, a unidade de renderização converte o sinal de áudio no segundo formato. A unidade de renderização renderiza o sinal de áudio no segundo formato. A unidade de reprodução está configurada para executar operações, incluindo o início da reprodução do sinal de áudio renderizado em um sistema de alto-falantes.
[020] Em algumas implementações, a conversão do sinal de áudio no segundo formato pode incluir o uso de metadados que incluem uma representação de uma parte do sinal de áudio não suportada por um quarto formato usado para codificar em combinação com o sinal de áudio em um terceiro formato. Aqui, o terceiro formato corresponde ao termo “primeiro formato” no contexto da unidade de simplificação, que é um dentre um conjunto de múltiplos formatos de áudio suportados no lado do codificador. O quarto formato corresponde ao termo "segundo formato" no contexto da unidade de simplificação, que é um formato suportado pelo codificador e que é uma representação alternativa do terceiro formato.
[021] Em algumas implementações, as operações do decodificador podem incluir ainda receber o sinal de áudio em um formato de transporte e transferir o sinal de áudio no primeiro formato para a unidade de renderização.
[022] Esses e outros aspectos, características e modalidades serão claros a partir das seguintes descrições, incluindo as reivindicações.
BREVE DESCRIÇÃO DOS DESENHOS
[023] Nos desenhos, arranjos específicos ou pedidos de elementos esquemáticos, como aqueles que representam dispositivos, unidades, blocos de instruções e elementos de dados, são mostrados para facilitar a descrição. No entanto, deve ser entendido por aqueles versados na técnica que a ordem ou disposição específica dos elementos esquemáticos nos desenhos não significa que uma ordem ou sequência específica de processamento ou separação de processos seja necessária. Além disso, a inclusão de um elemento esquemático em um desenho não significa que esse elemento seja exigido em todas as modalidades ou que os recursos representados por esse elemento não possam ser incluídos ou combinados com outros elementos em algumas modalidades.
[024] Além disso, nos desenhos, onde elementos de conexão, como linhas ou setas sólidas ou tracejadas, são usadas para ilustrar uma conexão, relacionamento ou associação entre ou dentre dois ou mais outros elementos esquemáticos, a ausência de tais elementos de conexão não significa implicar que não possa existir nenhuma conexão, relacionamento ou associação. Em outras palavras, algumas conexões, relações ou associações entre elementos não são mostrados nos desenhos para não ocultar a divulgação. Além disso, para facilitar a ilustração, um único elemento de conexão é usado para representar várias conexões, relações ou associações entre elementos. Por exemplo, quando um elemento de conexão representa uma comunicação de sinais, dados ou instruções, deve ser entendido por aqueles versados na técnica que esse elemento representa um ou vários caminhos de sinal, conforme necessário, para afetar a comunicação.
[025] A Figura 1 ilustra vários dispositivos que podem ser suportados pelo sistema IVAS, de acordo com algumas modalidades da presente divulgação.
[026] A Figura 2A é um diagrama em bloco de um sistema para transformar o sinal de áudio capturado em um formato pronto para codificação, de acordo com algumas modalidades da presente divulgação.
[027] A Figura 2B é um diagrama em bloco de um sistema para transformar o áudio capturado novamente em um formato de reprodução adequado, de acordo com algumas modalidades da presente divulgação.
[028] A Figura 3 é um diagrama de fluxo de ações exemplificativas para transformar um sinal de áudio em um formato suportado por uma unidade de codificação, de acordo com algumas modalidades da presente divulgação.
[029] A Figura 4 é um diagrama de fluxo de ações exemplificativas para determinar se um sinal de áudio está em um formato suportado pela unidade de codificação, de acordo com algumas modalidades da presente divulgação.
[030] A Figura 5 é um diagrama de fluxo de ações exemplificativas para transformar um sinal de áudio em um formato de reprodução disponível, de acordo com algumas modalidades da presente divulgação.
[031] A Figura 6 é outro diagrama de fluxo de ações exemplificativas para transformar um sinal de áudio em um formato de reprodução disponível, de acordo com algumas modalidades da presente divulgação.
[032] A Figura 7 é um diagrama em bloco de uma arquitetura de hardware para implementar os recursos descritos em referência às Figuras 1 a 6, de acordo com algumas modalidades da presente divulgação.
DESCRIÇÃO DETALHADA
[033] Na descrição a seguir, para fins de explicação, vários detalhes específicos são estabelecidos para fornecer um entendimento completo da presente divulgação. Será claro, no entanto, que a presente divulgação pode ser praticada sem esses detalhes específicos.
[034] Será feita agora referência detalhada às modalidades, exemplos das quais estão ilustradas nos desenhos anexos. Na descrição detalhada que se segue, vários detalhes específicos são estabelecidos, a fim de fornecer uma compreensão completa das várias modalidades descritas. No entanto, será claro para aquele versado na técnica que as várias modalidades descritas podem ser praticadas sem esses detalhes específicos. Em outros casos, métodos, procedimentos, componentes e circuitos conhecidos, não foram descritos em detalhes para não obscurecer desnecessariamente aspectos das modalidades. A seguir são descritos vários recursos que podem ser usados independentemente um do outro ou com qualquer combinação de outros recursos.
[035] Conforme aqui usado, o termo "inclui" e suas variantes devem ser lidos como termos abertos que significam "inclui, mas não está limitado a". O termo "ou" deve ser lido como "e / ou", a menos que o contexto indique claramente o contrário. O termo "baseado em" deve ser lido como "baseado pelo menos em parte".
[036] A Figura 1 ilustra vários dispositivos que podem ser suportados pelo sistema IVAS. Em algumas implementações, esses dispositivos se comunicam através do servidor de chamada 102 que pode receber sinais de áudio de, por exemplo, uma rede telefônica pública comutada (PSTN) ou um dispositivo público de rede móvel! terrestre (PLMN) ilustrado pelo dispositivo PSTN / OUTRO PLMN 104. Este dispositivo pode usar o padrão G.711 e / ou G.722 para compactação e descompactação de áudio (fala). Um dispositivo 104 é geralmente capaz de capturar e renderizar apenas áudio mono. O sistema IVAS está habilitado para também suportar equipamentos de usuários legados 106. Esses dispositivos legados podem incluir dispositivos de serviços de voz aprimorados (EVS), discurso de banda larga adaptável de taxa múltipla (AMR-WB) para dispositivos de suporte padrão de codificação de áudio, banda estreita multitotal adaptável ( AMR-NB) dispositivos de suporte e outros dispositivos adequados. Esses dispositivos geralmente processam e capturam apenas áudio em mono.
[037] O sistema IVAS também está habilitado para oferecer suporte ao equipamento do usuário que captura e gera sinais de áudio em vários formatos, incluindo formatos avançados de áudio. Por exemplo, o sistema IVAS está ativado para suportar dispositivos de captura e renderização estéreo (por exemplo, equipamento de usuário 108, laptop 114 e sistema de sala de conferência 118), dispositivos de captura mono e renderização binaural (por exemplo, dispositivo de usuário 110 e dispositivo de computador 112), dispositivos de captura e renderização imersivos (por exemplo, equipamento de uso da sala de conferências 116), dispositivos de captura estéreo e renderização imersiva (por exemplo, home theater 120), captura mono e renderização imersiva (por exemplo, equipamento de realidade virtual (VR) 122),entrada de conteúdo imersivo 124 e outros dispositivos adequados. Para suportar todos esses formatos diretamente, o codec do sistema IVAS precisaria ser muito complexo e caro para instalar. Assim, seria desejável um sistema para simplificar o codec antes do estágio de codificação.
[038] Embora a descrição a seguir seja focada em um sistema IVAS e codec, as modalidades divulgadas são aplicáveis a qualquer codec para qualquer sistema de áudio em que haja uma vantagem na redução de grande número de formatos de captura de áudio para um número menor para reduzir a complexidade do codec de áudio ou por qualquer outro motivo desejado.
[039] A Figura 2A é um diagrama em bloco de um sistema 200 para transformar sinais de áudio capturados em um formato pronto para codificação, de acordo com algumas modalidades da presente divulgação. A unidade de captura 210 recebe um sinal de áudio de um ou mais dispositivos de captura, por exemplo, microfones. Por exemplo, a unidade de captura 210 pode receber um sinal de áudio de um microfone (por exemplo, sinal mono), de dois microfones (por exemplo, sinal estéreo), de três microfones ou de outro número e configuração de dispositivos de captura de áudio. A unidade de captura 210 pode incluir personalizações de um ou mais terceiros, onde as personalizações podem ser específicas para os dispositivos de captura usados.
[040] Em algumas implementações, um sinal de áudio mono é capturado com um microfone. O sinal mono pode ser capturado, por exemplo, com o telefone PSTN / PLMN 104, equipamento de usuário legado 106, dispositivo de usuário 110 com um fone de ouvido viva-voz, dispositivo de computador 112 com um fone de ouvido conectado e equipamento de realidade virtual 122, como ilustrado na Figura 1
[041] Em algumas implementações, a unidade de captura 210 recebe áudio estéreo capturado usando várias técnicas de gravação / microfone. O áudio estéreo pode ser capturado por, por exemplo, equipamento de usuário 108, laptop 114, sistema de sala de conferências 118 e home theater 120. Em um exemplo, o áudio estéreo é capturado com dois microfones direcionais no mesmo local, em um ângulo de propagação de aproximadamente noventa graus ou mais. O efeito estéreo resulta de diferenças de nível entre canais. Em outro exemplo, o áudio estéreo é capturado por dois microfones espacialmente deslocados. Em algumas implementações, os microfones deslocados espacialmente são microfones omnidirecionais. O efeito estéreo nesta configuração resulta de diferenças de nível entre canais e de tempo entre canais. A distância entre os microfones tem uma influência considerável na largura estéreo percebida. Em outro exemplo, o áudio é capturado com dois microfones direcionais com um deslocamento de dezessete centímetros e um ângulo de propagação de cento e dez graus. Esse sistema é geralmente chamado de sistema de microfone estéreo do Office de Radiodiffusion Télévision Française ("ORTF"). Ainda outro sistema de captura estéreo inclui dois microfones com características diferentes que são dispostos de modo que um sinal de microfone seja o sinal intermediário e o outro o sinal lateral. Esse arranjo é geralmente chamado de gravação no meio (M/S). O efeito estéreo dos sinais de M/S se baseia tipicamente nas diferenças de nível entre canais.
[042] Em algumas implementações, a unidade de captura 210 recebe áudio capturado usando técnicas de microfones múltiplos. Nessas implementações, a captura de áudio envolve um arranjo de três ou mais microfones. Esse arranjo é geralmente necessário para capturar áudio espacial e também pode ser eficaz para executar a supressão de ruído ambiente. À medida que o número de microfones aumenta, o número de detalhes de uma cena espacial que pode ser capturada pelos microfones também aumenta. Em alguns casos, a precisão da cena capturada também é aprimorada quando o número de microfones aumenta. Por exemplo, vários equipamentos de usuário (UE) da Figura 1 operado no modo viva-voz pode utilizar vários microfones para produzir um sinal de áudio mono, estéreo ou espacial. Além disso, um computador laptop aberto 114 com vários microfones pode ser usado para produzir uma captura estéreo. Alguns fabricantes lançam computadores laptop com dois a quatro microfones para sistemas Micro — Eletro - Mecânicos ("MEMS”), permitindo a captura em estéreo. A captura de áudio imersiva com múltiplos microfones pode ser implementada, por exemplo, no equipamento de usuário da sala de conferências 216.
[043] O áudio capturado geralmente passa por um estágio de pré- processamento antes de ser inserido em um codec de voz ou áudio. Assim, a unidade de pré-processamento acústico 220 recebe um sinal de áudio da unidade de captura 210. Em algumas implementações, a unidade de pré-processamento acústico 220 realiza processamento de cancelamento de ruído e eco, mixagem de downmix e upmix mixagem de canal (por exemplo, redução ou aumento de vários canais de áudio) e / ou qualquer tipo de processamento espacial. A saída do sinal de áudio da unidade de pré-processamento acústico 220 é geralmente adequada para codificação e transmissão para outros dispositivos. Em algumas implementações, o design específico da unidade de pré-processamento acústico 220 é realizado por um fabricante do dispositivo, pois depende das especificidades da captura de áudio com um dispositivo específico. No entanto, os requisitos estabelecidos pelas especificações pertinentes da interface acústica podem definir limites para esses projetos e garantir que determinados requisitos de qualidade sejam atendidos. O pré-processamento acústico é realizado com o objetivo de produzir um ou mais tipos diferentes de sinais de áudio ou formatos de entrada de áudio que um codec IVAS suporta para ativar os vários casos de uso ou níveis de serviço de destino do IVAS. Dependendo dos requisitos de serviço IVAS específicos associados a esses casos de uso, um codec IVAS pode ser necessário para suportar os formatos mono, estéreo e espacial.
[044] Geralmente, o formato mono é usado quando é o único formato disponível, por exemplo, com base no tipo de dispositivo de captura, por exemplo, se os recursos de captura do dispositivo de envio forem limitados. Para sinais de áudio estéreo, a unidade de pré-processamento acústico 220 converte os sinais capturados em uma representação normalizada que atende a convenções específicas (por exemplo, canal que solicita a convenção Esquerda-Direita). Para captura estéreo de M / S, esse processo pode envolver, por exemplo, uma operação de matriz para que o sinal seja representado usando a convenção Esquerda-Direita. Após o pré-processamento, o sinal estéreo atende a determinadas convenções (por exemplo, convenção Esquerda-Direitaà, No entanto, as informações sobre dispositivos de captura estéreo específicos (por exemplo, número e configuração do microfone) são removidas.
[045] Para formatos espaciais, o tipo de sinais de entrada espacial ou formatos de áudio espacial específicos obtidos após o pré-processamento acústico podem depender do tipo de dispositivo de envio e de seus recursos para captura de áudio. Ao mesmo tempo, os formatos de áudio espacial que podem ser exigidos pelos requisitos de serviço do IVAS incluem o formato espacial de baixa resolução, espacial de alta resolução espacial, o áudio espacial assistido por metadados (MASA) e o formato de transporte Higher Order Ambisonics ("HOA") ( HTF) ou ainda mais formatos de áudio espacial. A unidade de pré-processamento acústico 220 de um dispositivo de envio com recursos de áudio espacial, portanto, deve estar preparada para fornecer um sinal de áudio espacial em formato adequado, atendendo a esses requisitos.
[046] Os formatos espaciais de baixa resolução incluem WXY espacial, Ambisonics de Primeira Ordem ("FOA") e outros formatos. O formato WXY espacial refere-se a uma representação de áudio no formato B planar de primeira ordem e três canais, com o componente de altura omitido (Z). Esse formato é útil para cenários de telefonia imersiva e conferência de imersão com eficiência de taxa de bits em que os requisitos de resolução espacial não são muito altos e onde o componente de altura espacial pode ser considerado irrelevante. O formato é especialmente útil para telefones de conferência, pois permite que os clientes receptores realizem a renderização imersão da cena da conferência capturada em uma sala de conferências com vários participantes. Da mesma forma, o formato é útil para servidores de conferência que organizam espacialmente os participantes da conferência em uma sala de reunião virtual. Por outro lado, o FOA contém o componente de altura (Z) como o quarto sinal do componente. As representações FOA são relevantes para aplicativos de VR de baixa taxa.
[047] Os formatos espaciais de alta resolução incluem formatos espaciais de canal, objeto e cena. Dependendo do número de sinais de componentes de áudio envolvidos, cada um desses formatos permite que o áudio espacial seja representado com resolução praticamente ilimitada. Por várias razões (por exemplo, limitações de taxa de bits e limitações de complexidade), no entanto, existem limitações práticas para relativamente poucos sinais componentes (por exemplo,
BR112020017360-6A 2018-10-08 2019-10-07 transformação de sinais de áudio capturados em diferentes formatos em um número reduzido de formatos para simplificar as operações de codificação e decodificação BR112020017360A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862742729P 2018-10-08 2018-10-08
US62/742,729 2018-10-08
PCT/US2019/055009 WO2020076708A1 (en) 2018-10-08 2019-10-07 Transforming audio signals captured in different formats into a reduced number of formats for simplifying encoding and decoding operations

Publications (1)

Publication Number Publication Date
BR112020017360A2 true BR112020017360A2 (pt) 2021-03-02

Family

ID=68343496

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020017360-6A BR112020017360A2 (pt) 2018-10-08 2019-10-07 transformação de sinais de áudio capturados em diferentes formatos em um número reduzido de formatos para simplificar as operações de codificação e decodificação

Country Status (13)

Country Link
US (2) US11410666B2 (pt)
EP (2) EP4362501A3 (pt)
JP (1) JP7488188B2 (pt)
KR (1) KR20210072736A (pt)
CN (1) CN111837181B (pt)
AU (1) AU2019359191B2 (pt)
BR (1) BR112020017360A2 (pt)
CA (1) CA3091248A1 (pt)
IL (2) IL277363B2 (pt)
MX (1) MX2020009576A (pt)
SG (1) SG11202007627RA (pt)
TW (1) TW202044233A (pt)
WO (1) WO2020076708A1 (pt)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7488188B2 (ja) 2018-10-08 2024-05-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 異なるフォーマットで捕捉されたオーディオ信号を、エンコードおよびデコード動作を簡単にするために、より少数のフォーマットに変換すること
KR20220017221A (ko) * 2020-08-04 2022-02-11 삼성전자주식회사 전자 장치 및 그의 오디오 데이터를 출력하는 방법
WO2022262750A1 (zh) * 2021-06-15 2022-12-22 北京字跳网络技术有限公司 音频渲染系统、方法和电子设备
GB2617055A (en) * 2021-12-29 2023-10-04 Nokia Technologies Oy Apparatus, Methods and Computer Programs for Enabling Rendering of Spatial Audio
CN115529491B (zh) * 2022-01-10 2023-06-06 荣耀终端有限公司 一种音视频解码的方法、音视频解码的装置以及终端设备
WO2023184383A1 (zh) * 2022-03-31 2023-10-05 北京小米移动软件有限公司 能力确定方法、上报方法、装置、设备及存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8631451B2 (en) * 2002-12-11 2014-01-14 Broadcom Corporation Server architecture supporting adaptive delivery to a variety of media players
KR100531321B1 (ko) * 2004-01-19 2005-11-28 엘지전자 주식회사 오디오 디코딩 시스템 및 오디오 포맷 검출 방법
WO2007074269A1 (fr) * 2005-12-27 2007-07-05 France Telecom Procede de determination d'un mode d'encodage spatial de donnees audio
JP2009540650A (ja) 2006-06-09 2009-11-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 複数の音声再生ユニットへの送信のための音声データを生成する装置及び方法
US7706291B2 (en) * 2007-08-01 2010-04-27 Zeugma Systems Inc. Monitoring quality of experience on a per subscriber, per session basis
JP2009109674A (ja) 2007-10-29 2009-05-21 Sony Computer Entertainment Inc 情報処理装置および音響装置にオーディオ信号を供給する方法
US8838824B2 (en) * 2009-03-16 2014-09-16 Onmobile Global Limited Method and apparatus for delivery of adapted media
KR20120018145A (ko) * 2009-05-06 2012-02-29 톰슨 라이센싱 프리젠테이션 장치 능력에 따라서 최적화된 멀티미디어 콘텐츠를 전송하기 위한 방법 및 시스템
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2309497A3 (en) 2009-07-07 2011-04-20 Telefonaktiebolaget LM Ericsson (publ) Digital audio signal processing system
WO2012125855A1 (en) 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
WO2013050184A1 (en) * 2011-10-04 2013-04-11 Telefonaktiebolaget L M Ericsson (Publ) Objective 3d video quality assessment model
US9161149B2 (en) 2012-05-24 2015-10-13 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
WO2014035903A1 (en) 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation Bi-directional interconnect for communication between a renderer and an array of individually addressable drivers
CN103871415B (zh) * 2012-12-14 2017-08-25 中国电信股份有限公司 实现异系统间语音互通的方法、系统与tfo转换装置
WO2015150480A1 (en) 2014-04-02 2015-10-08 Dolby International Ab Exploiting metadata redundancy in immersive audio metadata
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US9875745B2 (en) 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
WO2016077320A1 (en) 2014-11-11 2016-05-19 Google Inc. 3d immersive spatial audio systems and methods
EP3251116A4 (en) 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
US9609451B2 (en) * 2015-02-12 2017-03-28 Dts, Inc. Multi-rate system for audio processing
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
CN107787509B (zh) * 2015-06-17 2022-02-08 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和设备
US10607622B2 (en) 2015-06-17 2020-03-31 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
KR102640940B1 (ko) 2016-01-27 2024-02-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 음향 환경 시뮬레이션
WO2018027067A1 (en) 2016-08-05 2018-02-08 Pcms Holdings, Inc. Methods and systems for panoramic video with collaborative live streaming
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
WO2018152004A1 (en) 2017-02-15 2018-08-23 Pcms Holdings, Inc. Contextual filtering for immersive audio
US11653040B2 (en) * 2018-07-05 2023-05-16 Mux, Inc. Method for audio and video just-in-time transcoding
JP7488188B2 (ja) 2018-10-08 2024-05-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 異なるフォーマットで捕捉されたオーディオ信号を、エンコードおよびデコード動作を簡単にするために、より少数のフォーマットに変換すること

Also Published As

Publication number Publication date
IL277363A (en) 2020-11-30
IL307415B1 (en) 2024-07-01
SG11202007627RA (en) 2020-09-29
IL307415A (en) 2023-12-01
CN111837181B (zh) 2024-06-21
EP4362501A2 (en) 2024-05-01
KR20210072736A (ko) 2021-06-17
CA3091248A1 (en) 2020-04-16
IL277363B2 (en) 2024-03-01
US11410666B2 (en) 2022-08-09
EP3864651A1 (en) 2021-08-18
EP4362501A3 (en) 2024-07-17
US20220375482A1 (en) 2022-11-24
AU2019359191A1 (en) 2020-10-01
AU2019359191B2 (en) 2024-07-11
US12014745B2 (en) 2024-06-18
MX2020009576A (es) 2020-10-05
JP7488188B2 (ja) 2024-05-21
EP3864651B1 (en) 2024-03-20
JP2022511159A (ja) 2022-01-31
IL277363B1 (en) 2023-11-01
TW202044233A (zh) 2020-12-01
US20210272574A1 (en) 2021-09-02
CN111837181A (zh) 2020-10-27
WO2020076708A1 (en) 2020-04-16

Similar Documents

Publication Publication Date Title
BR112020017360A2 (pt) transformação de sinais de áudio capturados em diferentes formatos em um número reduzido de formatos para simplificar as operações de codificação e decodificação
JP6141323B2 (ja) 追加の端末を用いた呼の生成
US8237770B2 (en) Audio based on speaker position and/or conference location
US20130094653A1 (en) Voip device, voip conferencing system, and related method
GB2574238A (en) Spatial audio parameter merging
US8558862B2 (en) Videoconferencing using a precoded bitstream
TWI819344B (zh) 音訊訊號渲染方法、裝置、設備及電腦可讀存儲介質
WO2014154065A2 (zh) 传输数据方法、媒体采集设备、视频会议终端及存储介质
GB2582910A (en) Audio codec extension
US20230085918A1 (en) Audio Representation and Associated Rendering
WO2011093881A1 (en) Portable computer having multiple embedded audio controllers
US8704870B2 (en) Multiway telepresence without a hardware MCU
US8717407B2 (en) Telepresence between a multi-unit location and a plurality of single unit locations
US10206031B2 (en) Switching to a second audio interface between a computer apparatus and an audio apparatus
RU2798821C2 (ru) Преобразование звуковых сигналов, захваченных в разных форматах, в уменьшенное количество форматов для упрощения операций кодирования и декодирования
US20190238792A1 (en) Conversion device, connection conference system and connection conference method
JP2020043563A (ja) 通話品質情報を提供する方法および装置
EP3785443A1 (en) System and method for rendering stitched video media stream on a display device

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]