BR112020026793A2

BR112020026793A2 - Determinação de parâmetro de ruído de conforto adaptativo

Info

Publication number: BR112020026793A2
Application number: BR112020026793-7A
Authority: BR
Inventors: Fredrik Jansson; Tomas Jansson Toftgård
Original assignee: Telefonaktiebolaget Lm Ericsson (Publ)
Priority date: 2018-06-28
Filing date: 2019-06-26
Publication date: 2021-03-30
Also published as: CN112334980A; US20230410820A1; EP3815082A1; EP3815082B1; US20210272575A1; CN112334980B; EP4270390A2; EP4270390A3; WO2020002448A1; US11670308B2; CN118197327A; ES2956797T3

Abstract

determinação de parâmetro de ruído de conforto adaptativo. um método para gerar um parâmetro de ruído de conforto (cn) é fornecido. o método inclui receber uma entrada de áudio; detectar, com um detector de atividade de voz (vad), um segmento inativo atual na entrada de áudio; como um resultado da detecção, com o vad, o segmento inativo atual na entrada de áudio, calcular um parâmetro de cn cnused; e fornecer o parâmetro de cn cnused a um decodificador. o parâmetro de cn cnused é calculado com base, pelo menos em parte, no segmento inativo atual e um segmento inativo anterior.

Description

DETERMINAÇÃO DE PARÂMETRO DE RUÍDO DE CONFORTO ADAPTATIVO CAMPO TÉCNICO

[001] São divulgadas modalidades relacionadas à geração de ruído de conforto (CN).

FUNDAMENTOS

[002] Embora a capacidade em redes de telecomunicações esteja continuamente aumentando, ainda é de grande interesse limitar a largura de banda necessária por canal de comunicação. Em redes móveis, menos largura de banda de transmissão para cada chamada significa que a rede móvel pode atender a um número maior de usuários em paralelo. Reduzir a largura de banda de transmissão também resulta em menor consumo de potência tanto no dispositivo móvel e na estação base. Isso se traduz em economia de energia e custos para a operadora móvel, enquanto o usuário final terá uma vida útil prolongada da bateria e maior tempo de conversação.

[003] Um tal método para reduzir a largura de banda transmitida na comunicação por voz é explorar as pausas naturais na fala. Na maioria das conversas, apenas um locutor está ativo por vez, portanto, a pausa na fala em uma direção normalmente ocupa mais da metade do sinal. A maneira de usar essa propriedade de uma conversa típica para diminuir a largura de banda de transmissão é empregar um esquema de transmissão descontínua (DTX), em que a codificação do sinal ativo é interrompida durante as pausas de fala. Os esquemas DTX são padronizados para todos os padrões de telefonia móvel 3GPP, ou seja, 2G, 3G e VoLTE. Também é comumente usado em sistemas de voz sobre IP.

[004] Durante as pausas de voz, é comum transmitir uma codificação de taxa de bits muito baixa do ruído de fundo para permitir que um Gerador de Ruído de Conforto (CNG) na extremidade de recepção preencha as pausas com um ruído de fundo com características semelhantes ao ruído original. O CNG torna o som mais natural desde que o ruído de fundo é mantido e não liga e desliga com a fala. Silêncio completo nos segmentos inativos (isto é, pausas de fala) é considerado incômodo e frequentemente leva ao equívoco de que a chamada foi desconectada.

[005] Um esquema de DTX conta ainda com um Detector de Atividade de Voz (VAD), que indica ao sistema se deve usar os métodos de codificação de sinal ativo ou a codificação de ruído de fundo de baixa taxa em segmentos ativos respectivamente inativos. O sistema pode ser generalizado para discriminar entre outros tipos de fonte usando um Detector de Atividade de Som (Genérico) (GSAD ou SAD), que não apenas discrimina a fala do ruído de fundo, mas também pode detectar música ou outros tipos de sinais considerados relevantes.

[006] Os serviços de comunicação podem ser adicionalmente aprimorados por suportar transmissão de áudio estéreo ou multicanal. Nestes casos, um sistema de DTX/CNG também precisa considerar as características espaciais do sinal para fornecer um ruído de conforto sonoro agradável.

[007] Um método de geração de CN comum, por exemplo, usado em todos os codecs de fala 3GPP, é transmitir informações sobre a energia e a modelo espectral do ruído de fundo nas pausas de fala. Isso pode ser feito usando um número significativamente menor de bits do que a codificação regular de segmentos de voz. No lado de receptor, o CN é gerado criando um sinal pseudoaleatório e, em seguida, moldando o espectro do sinal com um filtro baseado nas informações recebidas a partir do lado de transmissão. A geração de sinal e a modelagem espectral podem ser feitas no domínio do tempo ou da frequência.

SUMÁRIO

[008] Em um sistema de DTX típico, o ganho de capacidade vem do fato de que o CN é codificado com menos bits do que a codificação regular. Parte dessa economia em bits vem do fato de que os parâmetros de CN são normalmente enviados com menos frequência do que os parâmetros de codificação regulares. Isso normalmente funciona bem, pois o caractere de ruído de fundo não muda tão rápido como, por exemplo, um sinal de voz. Os parâmetros de CN codificados são frequentemente chamados de “quadro de SID”, onde SID significa Descritor de Silêncio.

[009] Um caso típico é que os parâmetros de CN são enviados a cada oitavo quadro de codificador de fala (um quadro de codificador de fala tem normalmente 20 ms) e estes são então usados no receptor até que o próximo conjunto de parâmetros de CN seja recebido (ver FIG. 2). Uma solução para evitar flutuações indesejadas no CN é amostrar os parâmetros de CN durante todos os 8 quadros do codificador de voz e, em seguida, transmitir uma média ou alguma outra forma de basear os parâmetros em todos os 8 quadros, como mostrado na FIG. 3.

[0010] No primeiro quadro em um novo segmento inativo (isto é, diretamente após uma rajada de voz), pode não ser possível usar uma média obtida em vários quadros. Alguns codecs, como o codec 3GPP EVS, estão usando o chamado período de sobra antes dos segmentos inativos. Nesse período de sobra, o sinal é classificado como inativo, mas a codificação ativa ainda é usada por até 8 quadros antes do início da codificação inativa. Uma razão para isso é permitir ponderação dos parâmetros de CN durante este período (ver FIG. 4). Se o período ativo foi curto, a duração do período de sobra é encurtada ou mesmo omitida completamente, a fim de não permitir que uma curta rajada de som ativa desencadeie um período de sobra muito mais longo e, assim, dando um aumento desnecessário dos períodos de transmissão ativos (ver FIG. 5).

[0011] Um problema com a solução acima é que o primeiro conjunto de parâmetros de CN nem sempre pode ser amostrado em vários quadros de codificador de voz, mas, em vez disso, será amostrado em menos ou mesmo apenas em um quadro. Isso pode levar a uma situação em que os segmentos inativos começam com um CN que é diferente no início e, em seguida, muda e estabiliza quando a transmissão dos parâmetros médios começa. Isso pode ser considerado irritante para o ouvinte, especialmente se ocorrer com frequência.

[0012] Em modalidades da presente invenção, um parâmetro de CN é tipicamente determinado com base nas características do sinal ao longo do período de tempo entre duas transmissões de parâmetro de CN consecutivas enquanto em um segmento inativo. O primeiro quadro em cada segmento inativo é, no entanto, tratado de forma diferente: aqui, o parâmetro de CN é baseado nas características do sinal do primeiro quadro de codificação inativa, normalmente um primeiro quadro de SID e quaisquer quadros remanescentes e também características de sinal do último quadro de SID enviado e quaisquer quadros inativos depois disso no final do segmento inativo anterior. Fatores de ponderação são aplicados de forma que o peso dos dados a partir do segmento inativo anterior diminua em função do comprimento do segmento ativo intermediário. Quanto mais antigos são os dados anteriores, menos peso eles ganham.

[0013] As modalidades da presente invenção melhoram a estabilidade do CN gerado em um decodificador, embora sendo ágil o suficiente para seguir as mudanças no sinal de entrada.

[0014] De acordo com um primeiro aspecto, um método para gerar um parâmetro de ruído de conforto (CN) é fornecido. O método inclui receber uma entrada de áudio; detectar, com um Detector de Atividade de Voz (VAD), um segmento inativo atual na entrada de áudio; como resultado da detecção, com o VAD, do segmento inativo atual na entrada de áudio, calcular um parâmetro de CN CNused; e fornecer o parâmetro de CN CNused a um decodificador. O parâmetro de CN CNused é calculado com base, pelo menos em parte, no segmento inativo atual e em um segmento inativo anterior.

[0015] Em algumas modalidades, calcular o parâmetro de CN inclui calcular 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑓(𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 , 𝐶𝑁𝑐𝑢𝑟𝑟 , 𝐶𝑁𝑝𝑟𝑒𝑣 ), onde: CNcurr refere-se a um parâmetro de CN de um segmento inativo atual; CNprev refere-se a um parâmetro de CN de um segmento inativo anterior; Tprev refere-se a um parâmetro de intervalo de tempo relacionado a CNprev; Tcurr refere-se a um parâmetro de intervalo de tempo relacionado a CNcurr; e Tactive refere-se a um parâmetro de intervalo de tempo de um segmento ativo entre o segmento inativo anterior e o segmento inativo atual.

[0016] Em algumas modalidades, a função 𝑓(⋅) é definida como uma soma ponderada de funções 𝑔1 (⋅) e 𝑔2 (⋅) de modo que o parâmetro de CN CNused é dado por: 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) ∗ 𝑔1 (𝐶𝑁𝑐𝑢𝑟𝑟 , 𝑇𝑐𝑢𝑟𝑟 ) + 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) ∗ 𝑔2 (𝐶𝑁𝑝𝑟𝑒𝑣 , 𝑇𝑝𝑟𝑒𝑣 ) onde 𝑊1 (⋅) e 𝑊2 (⋅) são funções de ponderação. Em algumas modalidades, 𝑊1 (⋅) e 𝑊2 (⋅) somam para unidade de tal forma que 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) = 1 − 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ). Em algumas modalidades, a função 𝑔1 (⋅) representa uma média ao longo do período de tempo 𝑇𝑐𝑢𝑟𝑟 e a função 𝑔2 (⋅) representa uma média ao longo do período de tempo 𝑇𝑝𝑟𝑒𝑣 . Em algumas modalidades, as funções de ponderação 𝑊1 (⋅) e 𝑊2 (⋅) são funções de 𝑇𝑎𝑐𝑡𝑖𝑣𝑒 sozinho, de modo que 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) e 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) = 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ). Em algumas modalidades, 0 < 𝑊1 (⋅) ≤ 1 e 0 < 1 − 𝑊2 (⋅) ≤ 1, e em que conforme o tempo 𝑇𝑎𝑐𝑡𝑖𝑣𝑒 se aproxima do infinito, 𝑊1 (⋅) converge para 1 e 𝑊2 (⋅) converge para 0 no limite.

[0017] Em algumas modalidades, a função 𝑓(⋅) é definida de modo que o parâmetro de CN CNused seja dado por 𝑁 𝑐𝑢𝑟𝑟 −1 𝑁𝑝𝑟𝑒𝑣−1 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 )∗∑𝑖=0 𝐶𝑁𝑐𝑢𝑟𝑟 (𝑖)+ 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 )∗∑𝑘=0 𝐶𝑁𝑝𝑟𝑒𝑣 (𝑘) 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 )∗𝑁𝑐𝑢𝑟𝑟 +𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 )∗𝑁𝑝𝑟𝑒𝑣 onde 𝑁𝑐𝑢𝑟𝑟 representa o número de quadros correspondentes ao parâmetro de intervalo de tempo 𝑇𝑐𝑢𝑟𝑟 e 𝑁𝑝𝑟𝑒𝑣 representa o número de quadros correspondentes ao parâmetro de intervalo de tempo 𝑇𝑝𝑟𝑒𝑣 ; e onde 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) e 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) são funções de ponderação.

[0018] De acordo com um segundo aspecto, um método para gerar um parâmetro de ganho lateral de ruído de conforto (CN) é fornecido. O método inclui receber uma entrada de áudio, em que a entrada de áudio compreende múltiplos canais; detectar, com um Detector de Atividade de Voz (VAD), um segmento inativo atual na entrada de áudio; como resultado da detecção, com o VAD, do segmento inativo atual na entrada de áudio, calcular um parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b; e fornecer o parâmetro de ganho lateral de CN SG (b) a um decodificador. O parâmetro de ganho lateral de CN SG (b) é calculado com base, pelo menos em parte, no segmento inativo atual e um segmento inativo anterior.

[0019] Em algumas modalidades, o cálculo do parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b inclui calcular 𝑁 −1 ∑𝑁𝑐𝑢𝑟𝑟 −1 𝑖=0 𝑝𝑟𝑒𝑣 𝑆𝐺𝑐𝑢𝑟𝑟 (𝑏, 𝑖) + 𝑊(𝑛𝐹) ∗ ∑𝑗=0 𝑆𝐺𝑝𝑟𝑒𝑣 (𝑏, 𝑗) 𝑆𝐺(𝑏) = 𝑁𝑐𝑢𝑟𝑟 + 𝑊(𝑛𝐹) ∗ 𝑁𝑝𝑟𝑒𝑣 onde: SGcurr(b,i) representa um valor de ganho lateral para a banda de frequência b e quadro i no segmento inativo atual; SGprev(b,j) representa um valor de ganho lateral para a banda de frequência b e quadro j no segmento inativo anterior; Ncurr representa o número de quadros na soma a partir do segmento inativo atual; Nprev representa o número de quadros na soma a partir do segmento inativo anterior; W(k) representa uma função de ponderação; e nF representa o número de quadros no segmento ativo entre o segmento atual e o segmento inativo anterior, correspondendo a 𝑇𝑎𝑐𝑡𝑖𝑣𝑒 .

[0020] Em algumas modalidades, 𝑊(𝑘) é dado por W(k) = 0,8∗(1500−k) + 0,2, k < 1500 { 1500 . 0,2, k ≥ 1500

[0021] De acordo com um terceiro aspecto, um método para gerar ruído de conforto (CN) é fornecido. O método inclui receber um parâmetro de CN CNused gerado de acordo com qualquer uma das modalidades do primeiro aspecto, e gerar ruído de conforto com base no parâmetro de CN CNused.

[0022] De acordo com um quarto aspecto, um método para gerar ruído de conforto (CN) é fornecido. O método inclui receber um parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b gerada de acordo com qualquer uma das modalidades do segundo aspecto, e gerar ruído de conforto com base no parâmetro de CN SG(b).

[0023] De acordo com um quinto aspecto, um nó para gerar um parâmetro de ruído de conforto (CN) é fornecido. O nó inclui uma unidade de recepção configurada para receber uma entrada de áudio; uma unidade de detecção configurada para detectar, com um Detector de Atividade de Voz (VAD), um segmento inativo atual na entrada de áudio; uma unidade de cálculo configurada para calcular, como resultado da detecção, com o VAD, o segmento inativo atual na entrada de áudio, um parâmetro de CN CNused; e uma unidade de fornecimento configurada para fornecer o parâmetro de CN CNused a um decodificador. O parâmetro de CN CNused é calculado pela unidade de cálculo com base, pelo menos em parte, no segmento inativo atual e um segmento inativo anterior.

[0024] Em algumas modalidades, a unidade de cálculo é adicionalmente configurada para calcular o parâmetro de CN CNused por calcular 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑓(𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 , 𝐶𝑁𝑐𝑢𝑟𝑟 , 𝐶𝑁𝑝𝑟𝑒𝑣 ), onde: 𝐶𝑁𝑐𝑢𝑟𝑟 refere-se a um parâmetro de CN a partir de um segmento inativo atual; 𝐶𝑁𝑝𝑟𝑒𝑣 refere-se a um parâmetro de CN de um segmento inativo anterior; 𝑇𝑝𝑟𝑒𝑣 refere-se a um parâmetro de intervalo de tempo relacionado a 𝐶𝑁𝑝𝑟𝑒𝑣 ; 𝑇𝑐𝑢𝑟𝑟 refere-se a um parâmetro de intervalo de tempo relacionado a 𝐶𝑁𝑐𝑢𝑟𝑟 ; e 𝑇𝑎𝑐𝑡𝑖𝑣𝑒 refere-se a um parâmetro de intervalo de tempo de um segmento ativo entre o segmento inativo anterior e o segmento inativo atual.

[0025] De acordo com um sexto aspecto, um nó para gerar um parâmetro de ganho lateral de ruído de conforto (CN) é fornecido. O nó inclui uma unidade de recepção configurada para receber uma entrada de áudio, em que a entrada de áudio compreende múltiplos canais; uma unidade de detecção configurada para detectar, com um Detector de Atividade de Voz (VAD), um segmento inativo atual na entrada de áudio; uma unidade de cálculo configurada para calcular, como resultado da detecção, com o VAD, o segmento inativo atual na entrada de áudio, um parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b; e uma unidade de fornecimento configurada para fornecer o parâmetro de ganho lateral de CN SG (b) a um decodificador. O parâmetro de ganho lateral de CN SG (b) é calculado com base, pelo menos em parte, no segmento inativo atual e um segmento inativo anterior

[0026] Em algumas modalidades, a unidade de cálculo é adicionalmente configurada para calcular o parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b, por calcular 𝑁 −1 ∑𝑁𝑐𝑢𝑟𝑟 −1 𝑖=0 𝑝𝑟𝑒𝑣 𝑆𝐺𝑐𝑢𝑟𝑟 (𝑏, 𝑖) + 𝑊(𝑛𝐹) ∗ ∑𝑗=0 𝑆𝐺𝑝𝑟𝑒𝑣 (𝑏, 𝑗) 𝑆𝐺(𝑏) = 𝑁𝑐𝑢𝑟𝑟 + 𝑊(𝑛𝐹) ∗ 𝑁𝑝𝑟𝑒𝑣 onde: SGcurr(b,i) representa um valor de ganho lateral para a banda de frequência b e quadro i no segmento inativo atual; SGprev(b,j) representa um valor de ganho lateral para a banda de frequência b e quadro j no segmento inativo anterior; Ncurr representa o número de quadros na soma a partir do segmento inativo atual; Nprev representa o número de quadros na soma a partir do segmento inativo anterior; W(k) representa uma função de ponderação; e nF representa o número de quadros no segmento ativo entre o segmento atual e o segmento inativo anterior, correspondendo a 𝑇𝑎𝑐𝑡𝑖𝑣𝑒 .

[0027] De acordo com um sétimo aspecto, um nó para gerar ruído de conforto (CN) é fornecido. O nó inclui uma unidade de recepção configurada para receber um parâmetro de CN CNused gerado de acordo com qualquer uma das modalidades do primeiro aspecto; e uma unidade de geração configurada para gerar ruído de conforto com base no parâmetro de CN CNused.

[0028] De acordo com um oitavo aspecto, um nó para gerar ruído de conforto (CN) é fornecido. O nó inclui uma unidade de recepção configurada para receber um parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b gerada de acordo com qualquer uma das modalidades do segundo aspecto; e uma unidade de geração configurada para gerar ruído de conforto com base no parâmetro de CN SG(b).

[0029] De acordo com um nono aspecto, um programa de computador é fornecido, compreendendo instruções que, quando executadas pelo conjunto de circuitos de processamento de um nó, fazem com que o nó realize o método de qualquer uma das modalidades do primeiro e segundo aspectos.

[0030] De acordo com um décimo aspecto, uma portadora é fornecida, contendo o programa de computador de qualquer uma das modalidades do nono aspecto, em que a portadora é um de um sinal eletrônico, um sinal ótico, um sinal de rádio e um meio de armazenamento legível por computador.

BREVE DESCRIÇÃO DOS DESENHOS

[0031] Os desenhos anexos, que são incorporados neste documento e fazem parte do relatório descritivo, ilustram várias modalidades.

[0032] A FIG. 1 ilustra um sistema de DTX de acordo com uma modalidade.

[0033] A FIG. 2 é um diagrama ilustrando a codificação e transmissão de parâmetros de CN de acordo com uma modalidade.

[0034] A FIG. 3 é um diagrama ilustrando ponderação de acordo com uma modalidade.

[0035] A FIG. 4 é um diagrama ilustrando ponderação com um período de sobra de acordo com uma modalidade.

[0036] A FIG. 5 é um diagrama ilustrando ponderação sem período de sobra de acordo com uma modalidade.

[0037] A FIG. 6 é um diagrama ilustrando ponderação de ganho lateral de acordo com uma modalidade.

[0038] A FIG. 7 é um fluxograma ilustrando um processo de acordo com uma modalidade.

[0039] A FIG. 8 é um fluxograma ilustrando um processo de acordo com uma modalidade.

[0040] A FIG. 9 é um fluxograma ilustrando um processo de acordo com uma modalidade.

[0041] A FIG. 10 é um diagrama mostrando unidades funcionais de um nó de acordo com uma modalidade.

[0042] A FIG. 11 é um diagrama mostrando unidades funcionais de um nó de acordo com uma modalidade.

[0043] A FIG. 12 é um diagrama de blocos de um nó de acordo com uma modalidade.

DESCRIÇÃO DETALHADA

[0044] Em muitos casos, por exemplo, uma pessoa em pé parada com o telefone móvel, as características de ruído de fundo serão estáveis ao longo do tempo. Nestes casos, funcionará bem usar os parâmetros de CN do segmento inativo anterior como um ponto de partida no segmento inativo atual, em vez de depender de uma amostra mais instável obtida em um período de tempo mais curto no início do segmento inativo atual.

[0045] Existem, no entanto, casos em que as condições de ruído de fundo podem mudar ao longo do tempo. O usuário pode se deslocar de um local para outro, por exemplo, de um escritório silencioso para uma rua barulhenta. Também pode haver coisas no ambiente que mudam, mesmo que o usuário do telefone não esteja se movendo, por exemplo, um ônibus passando na rua. Isso significa que nem sempre funciona bem basear os parâmetros de CN nas características de sinal a partir do segmento inativo anterior.

[0046] A FIG. 1 ilustra um sistema de DTX 100 de acordo com algumas modalidades. No sistema de DTX 100, um sinal de áudio é recebido como entrada. O sistema 100 inclui três módulos, um Detector de Atividade de Voz

(VAD), um codificador de fala/áudio e um codificador de CNG. O módulo VAD toma uma decisão de fala/ruído (por exemplo, detectando segmentos ativos ou inativos, como segmentos de fala ativa ou sem fala). Se houver fala, o codificador de fala/áudio codificará o sinal de áudio e enviará o resultado a ser transmitido. Se não houver fala, o codificador de CNG gerará parâmetros de ruído de conforto a serem transmitidos.

[0047] As modalidades da presente invenção visam equilibrar de forma adaptativa os aspectos acima mencionados para um sistema de DTX melhorado com CNG. Em modalidades, um parâmetro de ruído de conforto CNused pode ser determinado como segue com base em uma função 𝑓(⋅): 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑓(𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 , 𝐶𝑁𝑐𝑢𝑟𝑟 , 𝐶𝑁𝑝𝑟𝑒𝑣 ) Na equação acima, as variáveis referenciadas têm os seguintes significados: CNused parâmetro de CN usado para geração de CN CNcurr parâmetros de CN de um segmento inativo atual CNprev parâmetros de CN de um segmento inativo anterior Tprev parâmetro de intervalo de tempo para determinação de parâmetros de CN de um segmento inativo anterior Tcurr parâmetro de intervalo de tempo para determinação de parâmetros de CN de um segmento inativo atual Tactive parâmetro de intervalo de tempo de um segmento ativo entre os segmentos inativos anteriores e atuais

[0048] Em uma modalidade, a função 𝑓(⋅) é definida como uma soma ponderada de funções 𝑔1 (⋅) e 𝑔2 (⋅) de 𝐶𝑁𝑐𝑢𝑟𝑟 e 𝐶𝑁𝑝𝑟𝑒𝑣 , isto é, 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) ∗ 𝑔1 (𝐶𝑁𝑐𝑢𝑟𝑟 , 𝑇𝑐𝑢𝑟𝑟 ) + 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) ∗ 𝑔2 (𝐶𝑁𝑝𝑟𝑒𝑣 , 𝑇𝑝𝑟𝑒𝑣 ) onde 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) e 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) são funções de ponderação.

[0049] As funções 𝑔1 (⋅) e 𝑔2 (⋅) podem, por exemplo, em uma modalidade,

serem uma média ao longo dos períodos de tempo 𝑇𝑐𝑢𝑟𝑟 e 𝑇𝑝𝑟𝑒𝑣 respectivamente. Em modalidades, normalmente ∑𝑊𝑖 = 1.

[0050] Em algumas modalidades, a ponderação entre as médias dos parâmetros de CN anteriores e atuais pode ser baseada apenas no comprimento do segmento ativo, isto é, em 𝑇𝑎𝑐𝑡𝑖𝑣𝑒 . Por exemplo, a seguinte equação pode ser usada:

𝑁 ∑𝑁𝑐𝑢𝑟𝑟 −1 𝑝𝑟𝑒𝑣−1 𝑖=0 𝐶𝑁𝑐𝑢𝑟𝑟 (𝑖) ∑𝑘=0 𝐶𝑁𝑝𝑟𝑒𝑣 (𝑘) 𝐶𝑁𝑢𝑠𝑒𝑑 ) = 𝑊(𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ∗ )) + (1 − 𝑊(𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ∗ 𝑁𝑐𝑢𝑟𝑟 𝑁𝑝𝑟𝑒𝑣 Na equação acima, as variáveis adicionais referenciadas têm os seguintes significados: 𝑁𝑐𝑢𝑟𝑟 Número de quadros usados na média atual, corresponde a 𝑇𝑐𝑢𝑟𝑟 𝑁𝑝𝑟𝑒𝑣 Número de quadros usados na média anterior, corresponde a𝑇𝑝𝑟𝑒𝑣 𝑊(𝑡) Função de ponderação, 0 < 𝑊(𝑡) ≤ 1, 𝑊(∞) = 1

[0051] Uma média do parâmetro de CN é feita usando tanto uma média tirada do segmento inativo atual quanto uma média tirada do segmento anterior. Esses dois valores são então combinados com fatores de ponderação com base em uma função de ponderação que depende, em algumas modalidades, do comprimento do segmento ativo entre o segmento inativo atual e anterior, de modo que menos peso seja colocado na média anterior se o segmento ativo é longo e mais peso se for curto.

[0052] Em outra modalidade, os pesos são adicionalmente adaptados com base em 𝑇𝑝𝑟𝑒𝑣 e 𝑇𝑐𝑢𝑟𝑟 . Isso pode, por exemplo, significar que um peso maior é dado aos parâmetros de CN anteriores porque o 𝑇𝑐𝑢𝑟𝑟 período é muito curto para dar uma estimativa estável das características de sinal de longo prazo que podem ser representadas pelo sistema de CNG. Um exemplo de uma equação correspondente a esta modalidade segue: 𝑁𝑐𝑢𝑟𝑟 −1 𝑁 𝑝𝑟𝑒𝑣−1 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ ∑𝑖=0 𝐶𝑁𝑐𝑢𝑟𝑟 (𝑖) + 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ ∑𝑘=0 𝐶𝑁𝑝𝑟𝑒𝑣 (𝑘) 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ 𝑁𝑐𝑢𝑟𝑟 + 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ 𝑁𝑝𝑟𝑒𝑣

Na equação acima, as variáveis adicionais referenciadas têm os seguintes significados: 𝑁𝑐𝑢𝑟𝑟 Número de quadros usados na média atual, corresponde a 𝑇𝑐𝑢𝑟𝑟 𝑁𝑝𝑟𝑒𝑣 Número de quadros usados na média anterior, corresponde a 𝑇𝑝𝑟𝑒𝑣 𝑊1 (𝑡), 𝑊2 (𝑡) Funções de ponderação.

[0053] Um método estabelecido para a codificação de um sinal multicanal (por exemplo, estéreo) é criar um sinal mix-down (ou downmix) dos sinais de entrada, por exemplo, mono no caso de sinais de entrada estéreo e determinar parâmetros adicionais que são codificados e transmitidos com o sinal downmix codificado para ser utilizado para um up-mix no decodificador. No caso de DTX estéreo, um sinal mono pode ser codificado e gerado como parâmetros de CN e estéreo serão então usados para criar um sinal estéreo a partir do sinal de CN mono. Os parâmetros estéreo normalmente controlam a imagem estéreo em termos de, por exemplo, localização de fonte de som e largura de estéreo.

[0054] No caso de um microfone estéreo não fixo, por exemplo, um telefone móvel ou um fone de ouvido conectado ao telefone móvel, a variação nos parâmetros estéreo pode ser mais rápida do que a variação nos parâmetros de CN mono.

[0055] Para ilustrar isso com um exemplo: girar sua cabeça 90 graus pode ser feito muito rápido, mas mover a partir de um tipo de ambiente de ruído de fundo para outro levará mais tempo. Em muitos casos, a imagem estéreo mudará continuamente, pois é difícil manter o telefone celular ou fone de ouvido na mesma posição por um longo período de tempo. Por causa disso, as modalidades da presente invenção podem ser especialmente importantes para parâmetros estéreo.

[0056] Um exemplo de um parâmetro estéreo é o ganho lateral SG. Um sinal estéreo pode ser dividido em um sinal de redução de quantidade de canais

DMX e um sinal lateral S: 𝐷𝑀𝑋(𝑡) = 𝐿(𝑡) + 𝑅(𝑡) 𝑆(𝑡) = 𝐿(𝑡) − 𝑅(𝑡) onde 𝐿(𝑡)e 𝑅(𝑡) referem-se, respectivamente, ao sinal de áudio esquerdo e direito. O aumento de quantidade de canais correspondente seria então: 𝐷𝑀𝑋(𝑡) + 𝑆(𝑡) 𝐿(𝑡) = 2 𝐷𝑀𝑋(𝑡) − 𝑆(𝑡) 𝑅(𝑡) = 2

[0057] A fim de salvar bits para a transmissão de um sinal estéreo codificado, alguns componentes 𝑆̂(𝑡) do sinal lateral S podem ser previstos a partir do sinal DMX utilizando um parâmetro de ganho lateral SG de acordo com: 𝑆̂(𝑡) = 𝑆𝐺 ⋅ 𝐷𝑀𝑋(𝑡) 2 Um erro de previsão minimizado 𝐸(𝑡) = (𝑆̂(𝑡) − 𝑆(𝑡)) pode ser obtido por: < 𝑆(𝑡), 𝐷𝑀𝑋(𝑡) > 𝑆𝐺 = < 𝐷𝑀𝑋(𝑡), 𝐷𝑀𝑋(𝑡) > onde <⋅,⋅> denota um produto interno entre os sinais (normalmente quadros dos mesmos).

[0058] Ganhos laterais podem ser determinados em banda larga a partir de sinais do domínio de tempo, ou em frequência sub-bandas obtidas a partir de downmix e sinais laterais representados em um domínio da transformada, por exemplo, domínios de Transformada Discreta de Fourier (DFT) ou Transformada de Cosseno Discreta Modificada (MDCT), ou por alguma outra representação de banco de filtros. Se um ganho lateral no primeiro quadro de CNG fosse significativamente baseado em um segmento inativo anterior e diferisse significativamente dos quadros seguintes, a imagem estéreo mudaria drasticamente no início de um segmento inativo comparado com o ritmo mais lento durante o resto do segmento inativo. Isso seria considerado incômodo pelo ouvinte, especialmente se fosse repetido toda vez que um novo segmento inativo (ou seja, pausa na fala) fosse iniciado.

[0059] A fórmula a seguir mostra um exemplo de como modalidades da presente invenção podem ser usadas para obter parâmetros de ganho lateral de CN a partir de parâmetros de ganho lateral divididos em frequência. 𝑁 −1 ∑𝑁𝑐𝑢𝑟𝑟 −1 𝑖=0 𝑝𝑟𝑒𝑣 𝑆𝐺𝑐𝑢𝑟𝑟 (𝑏, 𝑖) + 𝑊(𝑛𝐹) ∗ ∑𝑗=0 𝑆𝐺𝑝𝑟𝑒𝑣 (𝑏, 𝑗) 𝑆𝐺(𝑏) = 𝑁𝑐𝑢𝑟𝑟 + 𝑊(𝑛𝐹) ∗ 𝑁𝑝𝑟𝑒𝑣 Na equação acima, as variáveis referenciadas têm os seguintes significados: 𝑆𝐺(𝑏) Valor de ganho lateral a ser usado na geração de CN para a banda de frequência b 𝑆𝐺𝑐𝑢𝑟𝑟 (𝑏, 𝑖) Número de quadros usados na média anterior, corresponde a 𝑇𝑝𝑟𝑒𝑣 𝑆𝐺𝑝𝑟𝑒𝑣 (𝑏, 𝑗) Valor de ganho lateral para a banda de frequência b e quadro j no segmento inativo anterior 𝑁𝑐𝑢𝑟𝑟 Número de quadros na soma a partir do segmento inativo atual 𝑁𝑝𝑟𝑒𝑣 Número de quadros na soma a partir do segmento inativo anterior 𝑊(𝑘) Função de ponderação. Em algumas modalidades: 0,8 ∗ (1500 − 𝑘) 𝑊(𝑘) = { + 0,2, 𝑘 < 1500 1500 0,2, 𝑘 ≥ 1500 𝑛𝐹 Número de quadros no segmento ativo entre o segmento inativo atual e anterior, corresponde a 𝑇𝑎𝑐𝑡𝑖𝑣𝑒 .

[0060] A FIG. 6 mostra uma imagem esquemática de como ponderação de ganho lateral é feita, de acordo com uma modalidade. Observe que média ponderada combinada é normalmente usada apenas no primeiro quadro de cada segmento interativo.

[0061] Observe que 𝑁𝑐𝑢𝑟𝑟 e 𝑁𝑝𝑟𝑒𝑣 podem diferir um do outro de tempos em tempos. 𝑁𝑝𝑟𝑒𝑣 irá em adição aos quadros dos últimos parâmetros de CN transmitidos também incluir os quadros inativos (os chamados quadros sem dados) entre a última transmissão do parâmetro de CN e os primeiros quadros ativos. Um quadro ativo pode ocorrer certamente a qualquer momento, portanto, esse número irá variar. 𝑁𝑐𝑢𝑟𝑟 incluirá o número de quadros no período de sobra mais o primeiro quadro inativo, que também pode variar se a duração do período de sobra for adaptativa. 𝑁𝑐𝑢𝑟𝑟 pode não apenas incluir quadros de sobra consecutivos, mas pode, em geral, representar o número de quadros incluídos na determinação dos parâmetros de CN atuais.

[0062] Observe que alterar o número de quadros usados na média é apenas uma maneira de alterar a duração do intervalo de tempo no qual os parâmetros são calculados. Existem também outras maneiras de alterar a duração do intervalo de tempo em que um parâmetro é baseado. Por exemplo, relacionado à geração de CN, o comprimento de quadro na análise de Codificação Preditiva Linear (LPC) também pode ser alterado.

[0063] A FIG. 7 ilustra um processo 700 para gerar um parâmetro de ruído de conforto (CN).

[0064] O método inclui receber uma entrada de áudio (passo 702). O método inclui adicionalmente detectar, com um Detector de Atividade de Voz (VAD), um segmento inativo atual na entrada de áudio (passo 704). O método inclui adicionalmente, como resultado da detecção, com o VAD, do segmento inativo atual na entrada de áudio, calcular um parâmetro de CN CNused (passo 706). O método inclui adicionalmente fornecer o parâmetro de CN CNused, a um decodificador (passo 708). O parâmetro de CN CNused é calculado com base, pelo menos em parte, no segmento inativo atual e um segmento inativo anterior (passo 710).

[0065] Em algumas modalidades, o cálculo do parâmetro de CN, CNused,

inclui calcular 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑓(𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 , 𝐶𝑁𝑐𝑢𝑟𝑟 , 𝐶𝑁𝑝𝑟𝑒𝑣 ), onde 𝐶𝑁𝑐𝑢𝑟𝑟 refere-se a um parâmetro de CN a partir de um segmento inativo atual; 𝐶𝑁𝑝𝑟𝑒𝑣 refere-se a um parâmetro de CN de um segmento inativo anterior; 𝑇𝑝𝑟𝑒𝑣 refere- se a um parâmetro de intervalo de tempo relacionado a 𝐶𝑁𝑝𝑟𝑒𝑣 ; 𝑇𝑐𝑢𝑟𝑟 refere-se a um parâmetro de intervalo de tempo relacionado a 𝐶𝑁𝑐𝑢𝑟𝑟 ; e 𝑇𝑎𝑐𝑡𝑖𝑣𝑒 refere-se a um parâmetro de intervalo de tempo de um segmento ativo entre o segmento inativo anterior e o segmento inativo atual.

[0066] Em algumas modalidades, a função 𝑓(⋅) é definida como uma soma ponderada de funções 𝑔1 (⋅) e 𝑔2 (⋅) de modo que o parâmetro de CN CNused é dado por: 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) ∗ 𝑔1 (𝐶𝑁𝑐𝑢𝑟𝑟 , 𝑇𝑐𝑢𝑟𝑟 ) + 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) ∗ 𝑔2 (𝐶𝑁𝑝𝑟𝑒𝑣 , 𝑇𝑝𝑟𝑒𝑣 ) onde 𝑊1 (⋅) e 𝑊2 (⋅) são funções de ponderação. Em algumas modalidades, 𝑊1 (⋅) e 𝑊2 (⋅) somam para unidade de tal forma que 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) = 1 − 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ). Em algumas modalidades, a função 𝑔2 (⋅) representa uma média ao longo do período de tempo 𝑇𝑐𝑢𝑟𝑟 e a função 𝑔2 (⋅) representa uma média ao longo do período de tempo 𝑇𝑝𝑟𝑒𝑣 . Em algumas modalidades, as funções de ponderação 𝑊1 (⋅) e 𝑊2 (⋅) são funções de 𝑇𝑎𝑐𝑡𝑖𝑣𝑒 sozinho, de modo que 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) e 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) = 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ). Em algumas modalidades, 𝑁 𝑐𝑢𝑟𝑟 −1 𝑁𝑝𝑟𝑒𝑣−1 ∑𝑖=0 𝐶𝑁𝑐𝑢𝑟𝑟 (𝑖) ∑𝑘=0 𝐶𝑁𝑝𝑟𝑒𝑣 (𝑘) 𝑔1 (𝐶𝑁𝑐𝑢𝑟𝑟 , 𝑇𝑐𝑢𝑟𝑟 ) = e 𝑔2 (𝐶𝑁𝑐𝑢𝑟𝑟 , 𝑇𝑐𝑢𝑟𝑟 ) = , 𝑁𝑐𝑢𝑟𝑟 𝑁𝑝𝑟𝑒𝑣 onde 𝑁𝑐𝑢𝑟𝑟 representa o número de quadros correspondentes ao parâmetro de intervalo de tempo 𝑇𝑐𝑢𝑟𝑟 e 𝑁𝑝𝑟𝑒𝑣 representa o número de quadros correspondentes ao parâmetro de intervalo de tempo 𝑇𝑝𝑟𝑒𝑣 .

[0067] Em algumas modalidades 0 < 𝑊1 (⋅) ≤ 1 e 0 < 1 − 𝑊2 (⋅) ≤ 1, e à medida que o tempo 𝑇𝑎𝑐𝑡𝑖𝑣𝑒 se aproxima do infinito, 𝑊1 (⋅) converge para 1 e

𝑊2 (⋅) converge para 0 no limite. Em modalidades, a função 𝑓(⋅) é definida de modo que o parâmetro de CN CNused seja dado por 𝑁𝑐𝑢𝑟𝑟 −1 𝑁 𝑝𝑟𝑒𝑣−1 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ ∑𝑖=0 𝐶𝑁𝑐𝑢𝑟𝑟 (𝑖) + 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ ∑𝑘=0 𝐶𝑁𝑝𝑟𝑒𝑣 (𝑘) 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ 𝑁𝑐𝑢𝑟𝑟 + 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ 𝑁𝑝𝑟𝑒𝑣 onde 𝑁𝑐𝑢𝑟𝑟 representa o número de quadros correspondentes ao parâmetro de intervalo de tempo 𝑇𝑐𝑢𝑟𝑟 e 𝑁𝑝𝑟𝑒𝑣 representa o número de quadros correspondentes ao parâmetro de intervalo de tempo 𝑇𝑝𝑟𝑒𝑣 ; e onde 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) e 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) são funções de ponderação.

[0068] A FIG. 8 ilustra um processo 800 para gerar um parâmetro de ganho lateral de ruído de conforto (CN). O método inclui receber uma entrada de áudio, em que a entrada de áudio compreende múltiplos canais (passo 802). O método inclui adicionalmente detectar, com um Detector de Atividade de Voz (VAD), um segmento inativo atual na entrada de áudio (passo 804). O método inclui adicionalmente, como resultado da detecção, com o VAD, do segmento inativo atual na entrada de áudio, calcular um parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b (passo 806). O método inclui adicionalmente fornecer o parâmetro de ganho lateral de CN SG (b) para um decodificador (passo 808). O parâmetro de ganho lateral de CN SG (b) é calculado com base, pelo menos em parte, no segmento inativo atual e um segmento inativo anterior (passo 810).

[0069] Em algumas modalidades, o cálculo do parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b inclui calcular 𝑁 −1 ∑𝑁𝑐𝑢𝑟𝑟 −1 𝑖=0 𝑝𝑟𝑒𝑣 𝑆𝐺𝑐𝑢𝑟𝑟 (𝑏, 𝑖) + 𝑊(𝑛𝐹) ∗ ∑𝑗=0 𝑆𝐺𝑝𝑟𝑒𝑣 (𝑏, 𝑗) 𝑆𝐺(𝑏) = 𝑁𝑐𝑢𝑟𝑟 + 𝑊(𝑛𝐹) ∗ 𝑁𝑝𝑟𝑒𝑣 onde SGcurr(b,i) representa um valor de ganho lateral para a banda de frequência b e quadro i no segmento inativo atual; SGprev(b,j) representa um valor de ganho lateral para a banda de frequência b e quadro j no segmento inativo anterior; Ncurr representa o número de quadros na soma a partir do segmento inativo atual; Nprev representa o número de quadros na soma a partir do segmento inativo anterior; W(k) representa uma função de ponderação; e nF representa o número de quadros no segmento ativo entre o segmento atual e o segmento inativo anterior, correspondendo a Tactive.

[0070] Em algumas modalidades, W(k) é dado por 0,8 ∗ (1500 − k) W(k) = { + 0,2, k < 1500 1500 0,2, k ≥ 1500

[0071] A FIG. 9 ilustra um processo 900 e 910 para gerar ruído de conforto (CN). De acordo com o processo 900, o processo inclui um passo de recepção de um parâmetro de CN CNused onde o parâmetro de CN CNused é gerado de acordo com qualquer uma das modalidades aqui divulgadas para gerar um parâmetro de ruído de conforto (CN) (passo 902) e um passo de geração de ruído de conforto com base no parâmetro de CN CNused (passo 904). De acordo com o processo 910, o processo inclui um passo de receber um parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b, onde o parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b é gerado de acordo com qualquer uma das modalidades aqui divulgadas para gerar um parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b (passo 912) e um passo de geração de ruído de conforto com base no parâmetro de CN SG (b) (passo 914).

[0072] A FIG. 10 é um diagrama que mostra unidades funcionais de nó 1002 (por exemplo, um codificador/decodificador) para gerar um parâmetro de ruído de conforto (CN), de acordo com uma modalidade.

[0073] O nó 1002 inclui uma unidade de recepção 1004 configurada para receber uma entrada de áudio; uma unidade de detecção 1006 configurada para detectar, com um Detector de Atividade de Voz (VAD), um segmento inativo atual na entrada de áudio; uma unidade de cálculo 1008 configurada para cálculo, como resultado da detecção, com o VAD, do segmento inativo atual na entrada de áudio, um parâmetro de CN CNused; e uma unidade de fornecimento 1010 configurada para fornecer o parâmetro de CN CNused para um decodificador. O parâmetro de CN CNused é calculado pela unidade de cálculo com base, pelo menos em parte, no segmento inativo atual e em um segmento inativo anterior.

[0074] A FIG. 11 é um diagrama que mostra unidades funcionais de nó 1002 (por exemplo, um codificador/decodificador) para gerar um parâmetro de ganho lateral de ruído de conforto (CN), de acordo com uma modalidade. O nó 1002 inclui uma unidade de recepção 1104 configurada para receber um parâmetro de CN CNused de acordo com qualquer uma das modalidades discutidas em relação à FIG. 7 e uma unidade de geração 1104 configurada para gerar ruído de conforto com base no parâmetro de CN CNused. Em modalidades, a unidade de recepção é configurada para receber um parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b de acordo com qualquer uma das modalidades discutidas em relação à FIG. 8 e a unidade de geração é configurada para gerar ruído de conforto com base no parâmetro de CN SG (b).

[0075] A FIG. 12 é um diagrama de blocos do nó 1002 (por exemplo, um codificador/decodificador) para gerar um parâmetro de ruído de conforto (CN) e/ou para gerar ruído de conforto (CN), de acordo com algumas modalidades. Como mostrado na FIG. 12, o nó 1002 pode compreender: conjunto de circuitos de processamento (PC) ou aparelho de processamento de dados (DPA) 1202, que pode incluir um ou mais processadores (P) 1255 (por exemplo, um microprocessador de propósito geral e/ou um ou mais outros processadores, como um circuito integrado de aplicação específica (ASIC), arranjos de portas programáveis em campo (FPGAs) e semelhantes); uma interface de rede 1248 que compreende um transmissor (Tx) 1245 e um receptor (Rx) 1247 para permitir que o nó 1002 transmita e receba dados de outros nós conectados a uma rede 1210 (por exemplo, uma rede de protocolo de Internet (IP)) para a qual a interface de rede 1248 está conectada; e uma unidade de armazenamento local (também conhecida como "sistema de armazenamento de dados") 1208, que pode incluir um ou mais dispositivos de armazenamento não voláteis e / ou um ou mais dispositivos de armazenamento voláteis. Em modalidades onde PC 1202 inclui um processador programável, um produto de programa de computador (CPP) 1241 pode ser fornecido. O CPP 1241 inclui um meio legível por computador (CRM) 1242 que armazena um programa de computador (CP) 1243 compreendendo instruções legíveis por computador (CRI) 1244. CRM 1242 pode ser um meio legível por computador não transitório, como mídia magnética (por exemplo, um disco rígido disco), mídia ótica, dispositivos de memória (por exemplo, memória de acesso aleatório, memória flash) e semelhantes. Em algumas modalidades, o CRI 1244 do programa de computador 1243 é configurado de modo que, quando executado pelo PC 1202, o CRI faz com que o nó 1002 execute os passos descritos neste documento (por exemplo, passos descritos neste documento com referência aos fluxogramas). Em outras modalidades, o nó 1002 pode ser configurado para realizar os passos descritos neste documento sem a necessidade de código. Ou seja, por exemplo, o PC 1202 pode consistir apenas em um ou mais ASICs. Portanto, os recursos das modalidades aqui descritas podem ser implementados em hardware e/ou software.

[0076] Enquanto várias modalidades da presente divulgação são descritas neste documento, deve-se entender que elas foram apresentadas a título de exemplo apenas, e não como limitação. Assim, a amplitude e o escopo da presente divulgação não devem ser limitados por qualquer uma das modalidades exemplares descritas acima. Além disso, qualquer combinação dos elementos acima descritos em todas as variações possíveis dos mesmos é abrangida pela divulgação, a menos que indicado de outra forma neste documento ou de outra forma claramente contradito pelo contexto.

[0077] Além disso, enquanto os processos descritos acima e ilustrados nos desenhos sejam mostrados como uma sequência de passos, isso foi feito apenas para fins de ilustração. Consequentemente, é contemplado que alguns passos podem ser adicionados, alguns passos podem ser omitidos, a ordem dos passos pode ser reorganizada e alguns passos podem ser realizados em paralelo.

Claims

REIVINDICAÇÕES

1. Método para gerar um parâmetro de ruído de conforto (CN), caracterizado pelo fato de que o método compreende: receber uma entrada de áudio; detectar, com um Detector de Atividade de Voz (VAD), um segmento inativo atual na entrada de áudio; como um resultado da detecção, com o VAD, o segmento inativo atual na entrada de áudio, calcular um parâmetro de CN CNused; e fornecer o parâmetro de CN CNused a um decodificador, em que o parâmetro de CN CNused é calculado com base, pelo menos em parte, no segmento inativo atual e um segmento inativo anterior.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que calcular o parâmetro de CN CNused compreende calcular 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑓(𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 , 𝐶𝑁𝑐𝑢𝑟𝑟 , 𝐶𝑁𝑝𝑟𝑒𝑣 ), onde: CNcurr refere-se a um parâmetro de CN a partir do segmento inativo atual; CNprev refere-se a um parâmetro de CN a partir do segmento inativo anterior; Tprev refere-se a um parâmetro de intervalo de tempo relacionado a CNprev; Tcurr refere-se a um parâmetro de intervalo de tempo relacionado a CNcurr; e Tactive refere-se a um parâmetro de intervalo de tempo de um segmento ativo entre o segmento inativo anterior e o segmento inativo atual.

3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a função f (∙) é definida como uma soma ponderada das funções g1 (∙) e g2 (∙), de modo que o parâmetro de CN CNused é dado por: 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) ∗ 𝑔1 (𝐶𝑁𝑐𝑢𝑟𝑟 , 𝑇𝑐𝑢𝑟𝑟 ) +

𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) ∗ 𝑔2 (𝐶𝑁𝑝𝑟𝑒𝑣 , 𝑇𝑝𝑟𝑒𝑣 ) onde W1 (∙) e W2 (∙) são funções de ponderação.

4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que W1 (∙) e W2 (∙) somam para unidade de modo que 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) = 1 − 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ).

5. Método, de acordo com a reivindicação 3 ou 4, caracterizado pelo fato de que a função g1 (∙) representa uma média ao longo do período de tempo Tcurr e a função g2 (∙) representa uma média ao longo do período de tempo Tprev.

6. Método, de acordo com qualquer uma das reivindicações 3 a 5, caracterizado pelo fato de que as funções de ponderação W1 (∙) e W2 (∙) são funções de Tactive sozinho, de modo que 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) e 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) = 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ).

7. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que 0 < W1 (∙) ≤ 1 e 0 < 1-W2 (∙) ≤ 1, e em que conforme o tempo Tactive se aproxima do infinito, W1 (∙) converge para 1 e W2 (∙) converge para 0 no limite.

8. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a função f (∙) é definida de tal modo que o parâmetro de CN CNused é dado por

𝑁 𝑐𝑢𝑟𝑟 −1 𝑁 𝑝𝑟𝑒𝑣−1 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ ∑𝑖=0 𝐶𝑁𝑐𝑢𝑟𝑟 (𝑖) + 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ ∑𝑘=0 𝐶𝑁𝑝𝑟𝑒𝑣 (𝑘) 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ 𝑁𝑐𝑢𝑟𝑟 + 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 ) ∗ 𝑁𝑝𝑟𝑒𝑣 onde Ncurr representa o número de quadros correspondentes ao parâmetro de intervalo de tempo Tcurr e Nprev representa o número de quadros correspondentes ao parâmetro de intervalo de tempo Tprev; e onde W1 (Tactive) e W2 (Tactive) são funções de ponderação.

9. Método para gerar um parâmetro de ganho lateral de ruído de conforto (CN), caracterizado pelo fato de que o método compreende: receber uma entrada de áudio, em que a entrada de áudio compreende múltiplos canais; detectar, com um Detector de Atividade de Voz (VAD), um segmento inativo atual na entrada de áudio; como um resultado da detecção, com o VAD, o segmento inativo atual na entrada de áudio, calcular um parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b; e fornecer o parâmetro de ganho lateral de CN SG (b) para um decodificador, em que o parâmetro de ganho lateral de CN SG (b) é calculado com base, pelo menos em parte, no segmento inativo atual e um segmento inativo anterior.

10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que o cálculo do parâmetro de ganho lateral de CN SG (b) para a banda de frequência b compreende calcular 𝑁 −1 ∑𝑁𝑐𝑢𝑟𝑟 −1 𝑖=0 𝑝𝑟𝑒𝑣 𝑆𝐺𝑐𝑢𝑟𝑟 (𝑏, 𝑖) + 𝑊(𝑛𝐹) ∗ ∑𝑗=0 𝑆𝐺𝑝𝑟𝑒𝑣 (𝑏, 𝑗) 𝑆𝐺(𝑏) = 𝑁𝑐𝑢𝑟𝑟 + 𝑊(𝑛𝐹) ∗ 𝑁𝑝𝑟𝑒𝑣 onde: SGcurr(b,i) representa um valor de ganho lateral para a banda de frequência b e quadro i no segmento inativo atual; SGprev(b,j) representa um valor de ganho lateral para a banda de frequência b e quadro j no segmento inativo anterior; Ncurr representa o número de quadros na soma a partir do segmento inativo atual; Nprev representa o número de quadros na soma a partir do segmento inativo anterior; W(k) representa uma função de ponderação; e nF representa o número de quadros em um segmento ativo entre o segmento inativo atual e o segmento inativo anterior, correspondendo a Tactive.

11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que W(k) é dado por 0,8 ∗ (1500 − k) W(k) = { + 0,2, k < 1500 1500 0,2, k ≥ 1500.

12. Método para gerar ruído de conforto (CN), caracterizado pelo fato de que o método compreende: receber um parâmetro de CN CNused gerado definido em qualquer uma das reivindicações 1 a 8; e gerar ruído de conforto com base no parâmetro de CN CNused.

13. Método para gerar ruído de conforto (CN), caracterizado pelo fato de que o método compreende receber um parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b gerada definida em qualquer uma das reivindicações 9 a 11; e gerar ruído de conforto com base no parâmetro de CN SG (b).

14. Nó para gerar um parâmetro de ruído de conforto (CN), caracterizado pelo fato de que o nó compreende: uma unidade de recepção configurada para receber uma entrada de áudio; uma unidade de detecção configurada para detectar, com um Detector de Atividade de Voz (VAD), um segmento inativo atual na entrada de áudio; uma unidade de cálculo configurada para calcular, como resultado da detecção, com o VAD, o segmento inativo atual na entrada de áudio, um parâmetro de CN CNused; e uma unidade de fornecimento configurada para fornecer o parâmetro de CN CNused a um decodificador, em que o parâmetro de CN CNused é calculado pela unidade de cálculo com base, pelo menos em parte, no segmento inativo atual e um segmento inativo anterior.

15. Nó, de acordo com a reivindicação 14, caracterizado pelo fato de que a unidade de cálculo é adicionalmente configurada para calcular o parâmetro de CN CNused pelo cálculo de CNused = f (Tactive, Tcurr, Tprev, CNcurr, CNprev), onde: CNcurr refere-se a um parâmetro de CN a partir de um segmento inativo atual; CNprev refere-se a um parâmetro de CN a partir de um segmento inativo anterior; Tprev refere-se a um parâmetro de intervalo de tempo relacionado a CNprev; Tcurr refere-se a um parâmetro de intervalo de tempo relacionado a CNcurr; e Tactive refere-se a um parâmetro de intervalo de tempo de um segmento ativo entre o segmento inativo anterior e o segmento inativo atual.

16. Nó, de acordo com a reivindicação 15, caracterizado pelo fato de que a função f (∙) é definida como uma soma ponderada das funções g1 (∙) e g2 (∙), de modo que o parâmetro de CN CNused é dado por: 𝐶𝑁𝑢𝑠𝑒𝑑 = 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) ∗ 𝑔1 (𝐶𝑁𝑐𝑢𝑟𝑟 , 𝑇𝑐𝑢𝑟𝑟 ) + 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) ∗ 𝑔2 (𝐶𝑁𝑝𝑟𝑒𝑣 , 𝑇𝑝𝑟𝑒𝑣 ) onde W1 (∙) e W2 (∙) são funções de ponderação.

17. Nó, de acordo com a reivindicação 16, caracterizado pelo fato de que W1 (∙) e W2 (∙) somam para unidade de modo que 𝑊2 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ) = 1 − 𝑊1 (𝑇𝑎𝑐𝑡𝑖𝑣𝑒 , 𝑇𝑐𝑢𝑟𝑟 , 𝑇𝑝𝑟𝑒𝑣 ).

18. Nó, de acordo com a reivindicação 16 ou 17, caracterizado pelo fato de que a função g1 (∙) representa uma média ao longo do período de tempo Tcurr e a função g2 (∙) representa uma média ao longo do período de tempo Tprev.

19. Nó, de acordo com qualquer uma das reivindicações 16 a 18, caracterizado pelo fato de que as funções de ponderação W1 (∙) e W2 (∙) são funções de Tactive sozinho, de modo que W1 (Tactive, Tcurr, Tprev) = W1 (Tactive) e W2 (Tactive, Tcurr, Tprev) = W2 (Tactive).

20. Nó, de acordo com a reivindicação 19, caracterizado pelo fato de que ∑𝑁𝑐𝑢𝑟𝑟 −1 𝑖=0 𝐶𝑁𝑐𝑢𝑟𝑟 (𝑖) 𝑔1 (𝐶𝑁𝑐𝑢𝑟𝑟 , 𝑇𝑐𝑢𝑟𝑟 ) = 𝑁𝑐𝑢𝑟𝑟 e 𝑁𝑝𝑟𝑒𝑣−1 ∑𝑘=0 𝐶𝑁𝑝𝑟𝑒𝑣 (𝑘) 𝑔2 (𝐶𝑁𝑐𝑢𝑟𝑟 , 𝑇𝑐𝑢𝑟𝑟 ) = 𝑁𝑝𝑟𝑒𝑣 onde Ncurr representa o número de quadros correspondentes ao parâmetro de intervalo de tempo Tcurr e Nprev representa o número de quadros correspondentes ao parâmetro de intervalo de tempo Tprev.

21. Nó, de acordo com a reivindicação 20, caracterizado pelo fato de que 0 <W1 (∙) ≤ 1 e 0 < 1-W2 (∙) ≤ 1, e em que conforme o tempo Tactive se aproxima do infinito, W1 (∙) converge para 1 e W2 (∙) converge para 0 no limite.

22. Nó, de acordo com a reivindicação 15, caracterizado pelo fato de que a função f (∙) é definida de tal modo que o parâmetro de CN CNused é dado por

23. Nó para gerar um parâmetro de ganho lateral de ruído de conforto (CN), caracterizado pelo fato de que o nó compreende: uma unidade de recepção configurada para receber uma entrada de áudio, em que a entrada de áudio compreende múltiplos canais;

uma unidade de detecção configurada para detectar, com um Detector de Atividade de Voz (VAD), um segmento inativo atual na entrada de áudio; uma unidade de cálculo configurada para calcular, como um resultado da detecção, com o VAD, o segmento inativo atual na entrada de áudio, um parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b; e uma unidade de fornecimento configurada para fornecer o parâmetro de ganho lateral de CN SG (b) para um decodificador, em que o parâmetro de ganho lateral de CN SG (b) é calculado com base, pelo menos em parte, no segmento inativo atual e um segmento inativo anterior.

24. Nó, de acordo com a reivindicação 23, caracterizado pelo fato de que a unidade de cálculo é adicionalmente configurada para calcular o parâmetro de ganho lateral de CN SG (b) para uma banda de frequência b por calcular 𝑁 −1 ∑𝑁𝑐𝑢𝑟𝑟 −1 𝑖=0 𝑝𝑟𝑒𝑣 𝑆𝐺𝑐𝑢𝑟𝑟 (𝑏, 𝑖) + 𝑊(𝑛𝐹) ∗ ∑𝑗=0 𝑆𝐺𝑝𝑟𝑒𝑣 (𝑏, 𝑗) 𝑆𝐺(𝑏) = 𝑁𝑐𝑢𝑟𝑟 + 𝑊(𝑛𝐹) ∗ 𝑁𝑝𝑟𝑒𝑣 onde: SGcurr(b,i) representa um valor de ganho lateral para a banda de frequência b e quadro i no segmento inativo atual; SGprev(b,j) representa um valor de ganho lateral para a banda de frequência b e quadro j no segmento inativo anterior; Ncurr representa o número de quadros na soma a partir do segmento inativo atual; Nprev representa o número de quadros na soma a partir do segmento inativo anterior; W(k) representa uma função de ponderação; e nF representa o número de quadros no segmento ativo entre o segmento atual e o segmento inativo anterior, correspondendo a Tactive.

25. Nó, de acordo com a reivindicação 24, caracterizado pelo fato de que W(k) é dado por 0,8 ∗ (1500 − k) W(k) = { + 0,2, k < 1500 1500 0,2, k ≥ 1500.

26. Invenção de produto, processo, sistema, kit, meio ou uso, caracterizada pelo fato de que compreende um ou mais elementos descritos no presente pedido de patente.