BR112016027898B1 - Método, entidade de recepção, e, meio de armazenamento não transitório legível por computador para ocultação de perda de quadro - Google Patents

Método, entidade de recepção, e, meio de armazenamento não transitório legível por computador para ocultação de perda de quadro Download PDF

Info

Publication number
BR112016027898B1
BR112016027898B1 BR112016027898-4A BR112016027898A BR112016027898B1 BR 112016027898 B1 BR112016027898 B1 BR 112016027898B1 BR 112016027898 A BR112016027898 A BR 112016027898A BR 112016027898 B1 BR112016027898 B1 BR 112016027898B1
Authority
BR
Brazil
Prior art keywords
frame
signal
replacement
frequency
noise component
Prior art date
Application number
BR112016027898-4A
Other languages
English (en)
Other versions
BR112016027898A8 (pt
BR112016027898A2 (pt
Inventor
Stefan Bruhn
Original Assignee
Telefonaktiebolaget Lm Ericsson (Publ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget Lm Ericsson (Publ) filed Critical Telefonaktiebolaget Lm Ericsson (Publ)
Publication of BR112016027898A2 publication Critical patent/BR112016027898A2/pt
Publication of BR112016027898A8 publication Critical patent/BR112016027898A8/pt
Publication of BR112016027898B1 publication Critical patent/BR112016027898B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Noise Elimination (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Radio Relay Systems (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Communication Control (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuits Of Receivers In General (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

MÉTODO, ENTIDADE DE RECEPÇÃO, E MEIO LEGÍVEL POR COMPUTADOR PARA OCULTAÇÃO DE PERDA DE QUADRO. São providos mecanismos para a ocultação de perda de quadro. Um método é realizado por uma entidade de recepção. O método compreende adicionar, em associação com a construção de um quadro de substituição para um quadro perdido, um componente de ruído para o quadro de substituição. O componente de ruído possui uma característica de frequência correspondendo com uma representação espectral de baixa resolução de um sinal em um quadro recebido anteriormente.

Description

CAMPO TÉCNICO
[001] A presente invenção diz respeito à codificação de áudio e, além disso, diz respeito à geração de um sinal de substituição no receptor como uma substituição para aqueles quadros de sinal perdidos, apagados ou prejudicados em caso de erros de transmissão. A técnica descrita na presente invenção pode fazer parte de um codec (codificador-decodificador) e/ou de um decodificador, mas a mesma também pode ser implementada em um módulo de intensificação e sinal após um decodificador. A técnica pode ser usada com vantagem em um receptor.
[002] Em particular, modalidades apresentadas na presente invenção dizem respeito à ocultação de perda de quadro, e, mais particularmente, a um método, a uma entidade de recepção, e a um meio legível por computador para a ocultação de perda de quadro.
FUNDAMENTOS
[003] Muitos sistemas de comunicações modernos transmitem sinais de fala e de áudio em quadros, o que significa dizer que aquele lado que envia primeiramente arranja o referido sinal em segmentos curtos ou quadros de, por exemplo, 20-40 ms, os quais são subsequentemente codificados e transmitidos como uma unidade lógica, por exemplo, em um pacote de transmissão. O dito receptor decodifica cada uma dessas unidades e reconstrói os quadros de sinal correspondentes, os quais por sua vez são finalmente emitidos como sequência contínua de amostras de sinal reconstruído. Antes da codificação, comumente, existe uma conversão de analógico para digital (A/D) que converte tal sinal de fala ou sinal de áudio analógico a partir de um microfone em uma sequência de amostras de áudio. Reciprocamente, na extremidade de recepção, tipicamente, existe uma conversão final de digital para analógico (D/A) que converte aquela sequência de amostras de sinais digitais reconstruídos em um sinal analógico contínuo com o tempo para reprodução em alto-falante.
[004] Quase qualquer tal sistema de transmissão para sinais de áudio e fala, no entanto, pode sofrer de erros de transmissão. Isto pode levar à situação que um ou vários dos quadros transmitidos não estão disponíveis no receptor para a reconstrução. Naquele caso, o decodificador precisa gerar um sinal de substituição para cada um dos quadros apagados, isto é, não disponíveis. Isto é feito na assim chamada unidade de ocultação de erro ou perda de quadro do decodificador de sinal de lado de receptor. O propósito da ocultação de perda de quadro é fazer a perda de quadro tão alta quanto for possível e assim mitigar o impacto da perda de quadro na qualidade de sinal reconstruída tanto quanto for possíve.
[005] Um recente método de ocultação de perda de quadro para áudio é a assim chamada ‘ECU de Fase’. Este é um método que provê qualidade particularmente alta do sinal de áudio restaurado após a perda de quadro ou pacote no caso de o sinal ser um sinal de música. Também existe um método de controle descrito em um pedido anterior que controla o comportamento de um método de ocultação de perda de quadro do tipo de ECU de Fase em resposta, por exemplo, às propriedades (estatísticas) de perda de quadro.
[006] A tendência à rajada das perdas de quadro é usada como um indicador no método de controle em que a resposta de um método de ocultação de perda de quadro como ECU de Fase pode ser adaptada. Em termos gerais, a tendência à rajada de perdas de quadro quer dizer que ocorrem várias perdas de quadro em uma fileira, tornando difícil que o método de ocultação de perda de quadro use porções de sinal decodificadas recentemente válidas para a sua operação. Mais especificamente, um indicador de tendência à rajada de perda de quadro do estado da técnica típica é o número n de perdas de quadro consecutivas observadas. Este número pode ser mantido em um contador que é incrementado por um a cada nova perda de quadro e reiniciado para zero com a recepção de um quadro válido.
[007] Um método de adaptação específica de um método de ocultação de perda de quadro como ECU de Fase em resposta à tendência à rajada de perda de quadro é o ajuste seletivo da frequência das fases ou das magnitudes de espectro de um espectro de quadro de substituição Z(m), m que é um índice de frequência de uma transformada de domínio de frequência como a Transformada Discreta de Fourier (DFT). A adaptação de magnitude é feita com um fator de atenuação α(m) que escalona o coeficiente de transformada de frequência no índice m com contador de rajada de perda de quadro crescente, n, diminuindo até 0. A adaptação de fase é feita através do aumento da randomização aditiva da fase (com um componente de fase aleatório crescente 3(m)) do coeficiente de transformada de frequência no índice m.
[008] Assim, se o espectro de quadro de substituição original de ECU de Fase segue uma expressão como , então o espectro de quadro de substituição adaptado segue uma expressão como Z(m) = a(m) ■ Y(m) ■ .
[009] Aqui a fase θk com k=1...K é uma função do índice m e os picos espectrais K identificados pelo método de ECU de Fase, e Y(m) é uma representação de domínio de frequência (espectro) de um quadro do sinal de áudio recebido anteriormente.
[0010] Apesar das vantagens do método de adaptação descrito acima de ECU de Fase nas condições de perda de quadro de rajada, ainda existem deficiências de qualidade no caso de rajada de perda muito longo, por exemplo, quando n maior ou igual a 5. Naquele caso, a qualidade de sinal de áudio reconstruído, por exemplo, pode sofrer de artefatos tonais, apesar da randomização de fase realizada. Ao mesmo tempo a atenuação de magnitude crescente pode reduzir estas deficiências audíveis. No entanto, a atenuação do sinal pode para rajadas de perda de quadro longos ser percebidas como silenciamento ou desativação de sinal. Isto novamente pode afetar a qualidade global de, por exemplo, música ou o ruído ambiente de um sinal de fala a que tais sinais são sensíveis às variações de nível muito fortes.
[0011] Assim, ainda existe uma necessidade por ocultação de perda de quadro aprimorado.
SUMÁRIO
[0012] Um objetivo das modalidades aqui é prover ocultação de perda de quadro eficiente.
[0013] De acordo com um primeiro aspecto é apresentado um método para a ocultação de perda de quadro. O método é realizado por uma entidade de recepção. O método compreende adicionar, em associação com a construção de um quadro de substituição para um quadro perdido, um componente de ruído para o quadro de substituição. O componente de ruído possui uma característica de frequência correspondendo com uma representação espectral de baixa resolução de um sinal em um quadro recebido anteriormente.
[0014] De maneira vantajosa isto provê a ocultação de perda de quadro eficiente.
[0015] De acordo com um segundo aspecto é apresentada uma entidade de recepção para a ocultação de perda de quadro. A entidade de recepção compreende circuitos de processamento. Os circuitos de processamento são configurados para fazer com que a entidade de recepção realize um conjunto de operações. O conjunto de operações compreende adicionar, em associação com a construção de um quadro de substituição para um quadro perdido, um componente de ruído para o quadro de substituição. O componente de ruído possui uma característica de frequência correspondendo com uma representação espectral de baixa resolução de um sinal em um quadro recebido anteriormente.
[0016] De acordo com um terceiro aspecto é apresentado um programa de computador para a ocultação de perda de quadro, o programa de computador compreendendo código de programa de computador que, quando rodado em entidade de recepção, faz com que a entidade de recepção realize um método de acordo com o primeiro aspecto.
[0017] De acordo com um quarto aspecto é apresentado um produto de programa de computador compreendendo um programa de computador de acordo com o terceiro aspecto e um meio legível por computador em que o programa de computador é armazenado.
[0018] Deve ser notado que qualquer funcionalidade do primeiro, do segundo, do terceiro e do quarto aspectos pode ser aplicada a qualquer outro aspecto, sempre que for apropriado. Da mesma forma, qualquer vantagem do primeiro aspecto pode se aplicar igualmente ao segundo, terceiro, e/ou quarto aspecto, respectivamente, e vice-versa. Outros objetivos, funcionalidades e vantagens das modalidades englobadas serão aparentes da seguinte descrição detalhada, a partir de reivindicações dependentes anexas bem como a partir dos desenhos.
[0019] Em geral, todos os termos usados nas reivindicações devem ser interpretados de acordo com o seu significado comum no campo técnico, a menor que seja definido de outra forma aqui. Todas as referências a "um/uma/o/a elemento, aparelho, componente, meio, etapa, etc." devem ser interpretadas de maneira aberta como em referência a pelo menos um caso do elemento, aparelho, componente, meio, etapa, etc., a menos que seja declarado de maneira explícita de outra forma. As etapas de qualquer método descrito aqui não precisam ser realizadas na ordem exata descrita, a menor que seja declarado de maneira explícita.
BREVE DESCRIÇÃO DOS DESENHOS
[0020] O conceito da invenção é descrito agora, por meio de exemplo, com referência aos desenhos anexos, em que: A Fig. 1 é um diagrama esquemático ilustrando um sistema de comunicações de acordo com modalidades; A Fig. 2 é um diagrama esquemático mostrando unidades funcionais de uma entidade de recepção de acordo com uma modalidade; A Fig. 3 ilustra de maneira esquemática uma inserção de quadro de substituição de acordo com uma modalidade; A Fig. 4 é um diagrama esquemático mostrando unidades funcionais de uma entidade de recepção de acordo com uma modalidade; As Figs. 5, 6 e 7 são fluxogramas de métodos de acordo com modalidades; A Fig. 8 é um diagrama esquemático mostrando unidades funcionais de uma entidade de recepção de acordo com uma modalidade; A Fig. 9 é um diagrama esquemático mostrando módulos funcionais de uma entidade de recepção de acordo com uma modalidade; e A Fig. 10 mostra um exemplo de um produto de programa de computador compreendendo meio legível por computador de acordo com uma modalidade.
DESCRIÇÃO DA INVENÇÃO
[0021] O conceito da invenção será descrito agora mais completamente aqui a seguir com referência aos desenhos anexos, em que certas modalidades do conceito da invenção são mostradas. Este conceito da invenção, no entanto, pode ser incorporado de muitas formas diferentes e não devem ser interpretados como limitados às modalidades definidas aqui; em vez disso, estas modalidades são providas por meio de exemplo de forma que esta descrição será total e completa, e vai transportar completamente o escopo do conceito da invenção para os peritos na técnica. Números semelhantes se referem aos elementos semelhantes através da descrição. Qualquer etapa ou funcionalidade ilustrada pelas linhas pontilhadas devem ser consideradas como opcionais.
[0022] Como notado acima, modalidades apresentadas aqui se referem à ocultação de perda de quadro, e particularmente a um método, uma entidade de recepção, um programa de computador, e um produto de programa de computador para a ocultação de perda de quadro.
[0023] A Figura 1 esquematicamente ilustra um sistema de comunicação 100 em que uma entidade de transmissão (TX) 101 está se comunicando com uma entidade de recepção (RX) 103 por um canal 102. É assumido que o canal 102 faz com que quadros, ou pacotes, transmitidos pela entidade de TX 101 para a entidade de RX 103 sejam perdidos. A entidade de recepção é assumida como sendo operável para decodificar o áudio, tal como fala ou música, e a ser operável para se comunicar com outros nós ou entidades, por exemplo, no sistema de comunicação 100. A entidade de recepção pode ser um codec, um decodificador, um dispositivo sem fios e/ou um dispositivo estacionário; de fato pode ser qualquer tipo de unidade em que é desejável para manipular erros de quadro de rajada para sinais de áudio. Por exemplo, pode ser um telefone inteligente, um tablet, um computador ou qualquer outro dispositivo capaz de comunicação com fios e/ou sem fios e de decodificação de áudio. A entidade de receptor pode ser denotada, por exemplo, recebendo arranjo de recepção ou nó.
[0024] A Figura 2 esquematicamente ilustra módulos funcionais de uma entidade de RX 200 conhecida configurada para manipular perdas de quadro. Um fluxo de bits de entrada é decodificado por um decodificador 201 para formar um sinal reconstruído e se uma perda de quadro não é detectada este sinal reconstruído é provido como saída a partir da entidade de RX 200. O sinal reconstruído gerado pelo decodificador 201 também é alimentado para um buffer 202 para armazenamento temporário. Análise senoidal do sinal de reconstrução de armazenamento em buffer é realizada por um analisador senoidal 203, e evolução de fase do sinal de reconstrução de armazenamento em buffer é realizada por uma unidade de evolução de fase 204 após a qual o sinal resultante é alimentado para um sintetizador senoidal 205 para gerar um sinal de reconstrução substituto que é emitido a partir da entidade de RX 200 no caso de perda de quadro. Detalhes adicionais das operações da entidade de RX 200 serão providos abaixo.
[0025] A Figura 3 em (a), (b), (c), e (d) esquematicamente ilustra quatro estágios de um processo criação e inserção um quadro de substituição no caso de perda de quadro. A Figura 3(a) esquematicamente ilustra partes de um sinal recebido anteriormente 301. Uma janela é esquematicamente ilustrada em 303. A janela é usada para extrair um quadro, uma assim chamada armação de protótipo 304, do sinal recebido anteriormente 301; a parte média do sinal recebido anteriormente 301 não é visível já que é idêntica ao quadro de protótipo 304 onde a janela 303 é igual a 1. A Figura 3(b) esquematicamente ilustra o espectro de magnitude, em termos da Transformada Discreta de Fourier (DFT), do quadro de protótipo na Figura 3(a), onde dois picos de frequência fk e fk+1 são identificados. A Figura 3(c) esquematicamente ilustra o espectro de frequência do quadro de substituição gerado, onde fases em torno dos picos são evoluídas de maneira apropriada e espectro de magnitude do quadro de protótipo é retido. A Figura 3(d) esquematicamente ilustra o quadro de substituição gerado 305 tendo sido inserido.
[0026] Em vista dos mecanismos descritos acima para a ocultação de perda de quadro, foi descoberto que artefatos tonais são causados por periodicidade muito forte e também picos espectrais agudos do espectro de quadro de substituição, apesar da randomização.
[0027] Também é notável que os mecanismos descritos em conjunto com um método de adaptação de um método de ocultação de perda de quadro do tipo ECU de Fase também são típicos para outros métodos de ocultação de quadro que geram um sinal de substituição para quadros perdidos tanto no domínio de frequência quanto no domínio de tempo. Portanto, pode ser desejável prover mecanismos genéricos para a ocultação de perda de quadro no caso de longos rajadas de quadros corrompidos ou perdidos.
[0028] Além disso para prover ocultação de perda de quadro eficiente, também pode ser desejável encontrar mecanismos que podem ser implementados com complexidade computacional mínima bem como com requisitos de armazenamento mínimo.
[0029] Pelo menos parte das modalidades descritas aqui são baseadas através da sobreposição gradual de um sinal de substituição de um método de ocultação de perda de quadro primária com um sinal de ruído, onde a característica de frequência do sinal de ruído é uma representação espectral de baixa resolução do quadro de um sinal recebido corretamente anteriormente (um “bom quadro”).
[0030] Referência é feita agora ao fluxograma da Figura 6 que descreve um método para a ocultação de perda de quadro como realizada por uma entidade de recepção de acordo com uma modalidade.
[0031] A entidade de recepção é configurada, em uma etapa S208, para adicionar, em associação com a construção de um espectro de quadro de substituição para um quadro perdido, um componente de ruído para o quadro de substituição. O componente de ruído possui uma característica de frequência correspondendo com uma representação espectral de baixa resolução de um sinal em um quadro recebido anteriormente.
[0032] Neste sentido, se a adição na etapa S208 é realizada no domínio de frequência o componente de ruído pode ser considerado como sendo adicionado a um espectro de um quadro de substituição já gerado, e assim, o quadro de substituição em que o componente de ruído foi adicionado pode ser considerado como um secundário, ou adicionalmente, quadro de substituição. Assim quadro de substituição secundário é composto de um quadro de substituição primário e um componente de ruído. Estes componentes são por sua vez novamente compostos de componentes de frequência.
[0033] De acordo com uma modalidade, a etapa S208 de adicionar o componente de ruído para o quadro de substituição envolve confirmar que um comprimento de erro em rajada n excede um primeiro limite, T1. Um exemplo do primeiro limite é definir T1>2.
[0034] Referência é feita agora ao fluxograma da Figura 7 que descreve métodos para a ocultação de perda de quadro como realizada por uma entidade de recepção de acordo com modalidades adicionais.
[0035] De acordo com uma primeira modalidade preferida, o sinal de substituição para um quadro perdido é gerado por um método de ocultação de perda de quadro primária, sobreposto com um sinal de ruído. Com o aumento do número de perdas de quadro em uma fileira, o sinal de substituição da ocultação de perda de quadro primária é gradualmente atenuado, preferivelmente de acordo com o comportamento de silenciamento do método de ocultação de perda de quadro primária no caso de perda de quadro de rajada. Ao mesmo tempo, a perda de energia de quadro devido ao comportamento de silenciamento do método de ocultação de perda de quadro primária é compensado através da adição de um sinal de ruído com similares características espectrais como um quadro de um sinal recebido anteriormente, por exemplo, o quadro recebido corretamente por último.
[0036] Portanto, o componente de ruído e o espectro de quadro de substituição podem ser escalonados com fatores de escala que são dependentes do número de quadros perdidos consecutivamente tal que o componente de ruído é gradualmente sobreposto no espectro de quadro de substituição com o aumento da magnitude como uma função do número de quadros perdidos consecutivamente.
[0037] Como será descrito adicionalmente abaixo, o espectro de quadro de substituição pode ser gradualmente atenuado por um fator de atenuação α(m).
[0038] O espectro de quadro de substituição e o componente de ruído pode ser sobreposto no domínio de frequência. Alternativamente, a representação espectral de baixa resolução está baseada em um conjunto de parâmetros de codificação preditiva linear (LPC) e o componente de ruído assim pode ser sobreposto no domínio do tempo. Para a descrição adicional de como aplicar parâmetros de LPC, ver abaixo.
[0039] Mais especificamente, o método de ocultação de perda de quadro primária pode ser um método do tipo de ECU de Fase com uma característica de adaptação em resposta à perda de rajada como descrito acima. Ou seja, o componente de quadro de substituição pode ser derivado por um método de ocultação de perda de quadro primária, tal como ECU de Fase.
[0040] Naquele caso o sinal gerado pelo método de ocultação de perda de quadro primária é do tipo
Figure img0001
, onde α(m) e ϑ(m) são termos de randomização de fase e atenuação de magnitude. Ou seja, o espectro de quadro de substituição pode ter uma fase e a fase pode ser sobreposta com um valor de fase aleatório 3(m).
[0041] E como descrito acima, a fase θk com k=1...K é uma função do índice m e os picos espectrais K identificados pelo método de ECU de Fase, e Y(m) é uma representação de domínio de frequência (espectro) de um quadro de sinal de áudio recebido anteriormente.
[0042] Como sugerido aqui, este espectro então pode ser adicionalmente modificado por um componente de ruído de aditivo
Figure img0002
, produzindo um componente combinado
Figure img0003
, onde
Figure img0004
é uma representação de espectro de magnitude de um “bom quadro” recebido anteriormente, isto é um quadro de um sinal recebido pelo menos relativamente corretamente. Desta forma, o componente de ruído pode ser provido com um valor de fase aleatório n(m).
[0043] Deste modo o coeficiente espectral para o índice de espectro m segue uma expressão:
Figure img0005
[0044] Aqui β(m) é um fator de escalonamento de magnitude e n(m) é uma fase aleatória. Assim, o componente de ruído de aditivo consiste de coeficientes espectrais de fase aleatória escalonados do espectro de magnitude
Figure img0006
. De acordo com a invenção, β(m) pode ser escolhido tal que compensa a perda de energia quando se aplica o fator de atenuação α(m) para coeficiente espectral Y(m) do espectro de quadro de substituição da ocultação de perda de quadro primária. Assim, a entidade de recepção pode ser configurada para, em uma etapa opcional S204, determinar um fator de escalonamento de magnitude β(m) para o componente de ruído tal que β(m)compensa a perda de energia que resulta a partir da aplicação do fator de atenuação α(m) para o espectro de quadro de substituição.
[0045] Sob a hipótese de que os termos de fase aleatória se descorrelacione com os dois termos aditivos
Figure img0007
e
Figure img0008
da equação acima, β(m) por exemplo, pode ser determinado como
Figure img0009
[0046] De maneira a evitar o problema descrito acima com artefatos tonais que surgem a partir de picos espectrais muito agudos, enquanto ainda mantém a característica de frequência do sinal global antes da perda de quadro de rajada, o representação de espectro de magnitude
Figure img0010
é a representação de baixa resolução. Foi descoberto que uma representação de baixa resolução do espectro de magnitude muito adequada é obtida tirando a média do grupo de frequência de o espectro de magnitude
Figure img0011
de um quadro do sinal recebido anteriormente, por exemplo, um quadro recebido corretamente, um “bom” quadro. A entidade de recepção pode ser configurada, em uma etapa opcional S202a, para obter a representação de baixa resolução do espectro de magnitude tirando a média do grupo de frequência de o espectro de magnitude do sinal no quadro recebido anteriormente. A representação espectral de baixa resolução pode estar baseada em um espectro de magnitude do sinal no quadro recebido anteriormente.
[0047] Deixe
Figure img0012
especificar o k-ésimo intervalo, k=1...K, que cobre os compartimentos de DFT a partir de
Figure img0013
para Mk, então estes intervalos definem K bandas de frequência. O ato de tirar a média de grupo de frequência para a banda k então pode ser feita tirando a média dos quadrados das magnitudes dos coeficientes espectrais naquela banda e calculando a raiz quadrada dos mesmos:
Figure img0014
[0048] Aqui
Figure img0015
denota o tamanho do grupo de frequência k, isto é o número de compartimentos de frequência incluídos. Deve ser notado que o interval
Figure img0016
corresponde com a banda de frequência
Figure img0017
, onde
Figure img0018
denota a frequência de amostragem de áudio e N o comprimento de bloco da transformada de domínio de frequência usada.
[0049] Uma escolha adequada de exemplo para os tamanhos de banda de frequência ou larguras de banda de frequência é tanto para fazer os mesmos de tamanho igual com, por exemplo, uma largura de vários 100 Hz. Outro modo de exemplo é para fazer as larguras de banda de frequência seguindo o tamanho das bandas críticas da audição humana, isto é para relacionar as mesmas com a resolução de frequência do sistema de audição humana. Ou seja, larguras de grupo usadas durante o ato de tirar a média de grupo de frequência podem seguir bandas críticas da audição humana. Isto quer dizer para fazer aproximadamente as larguras de banda de frequência iguais para as frequências de até 1kHz e para aumentar as mesmas exponencialmente acima de 1 kHz. Aumento exponencial quer dizer, por exemplo, dobrar a largura de banda de frequência quando se aumenta o índice de banda k.
[0050] Uma modalidade específica de exemplo adicional do cálculo de coeficientes de espectro de magnitude de baixa resolução
Figure img0019
é para a base do mesmo em um grande número de n de transformadas de domínio de frequência de baixa resolução do sinal recebido anteriormente. A entidade de recepção assim pode ser configurada, em uma etapa opcional S202b, para obter a representação de baixa resolução do dito espectro de magnitude tirando a média do grupo de frequência de um grande número de n de transformadas de domínio de frequência de baixa resolução do sinal no quadro recebido anteriormente. Uma escolha adequada de exemplo de n é n=2.
[0051] De acordo com esta modalidade primeiramente os espectros de magnitude quadrados de uma parte esquerda (subquadro) e uma parte direita (subquadro) de um quadro do sinal recebido anteriormente são calculados, por exemplo, do quadro bom recebido mais recentemente. Um quadro aqui pode ser o tamanho dos quadros ou segmentos de áudio usados na transmissão, ou um quadro pode ser de algum outro tamanho, por exemplo, um tamanho construído e usado por uma fase ECU, que pode construir quadros próprios com diferente comprimento a partir do sinal reconstruído. O comprimento de bloco
Figure img0020
destas transformadas de baixa resolução pode ser uma fração (por exemplo, 1/4) do tamanho de quadro original do método de ocultação de perda de quadro primária. Então, por segundo, os coeficientes de espectro de magnitude de baixa resolução no sentido do grupo de frequência são calculados tirando a média do grupo de frequência de magnitudes espectrais quadradas a partir de subquadros da esquerda e da direita, e finalmente calculando a raiz quadrada dos mesmos:
Figure img0021
[0052] Os coeficientes do espectro de magnitude de baixa resolução
Figure img0022
então são obtidos a partir de K grupos de frequência representativos:
Figure img0023
[0053] Existem várias vantagens com esta abordagem de cálculo do coeficiente de espectro de magnitude de baixa resolução
Figure img0024
; o uso de duas transformadas de domínio de frequência curta é preferível em termos de complexidade computacional sobre uma única transformada de domínio de frequência com um grande comprimento de bloco. Além disso, a média estabiliza a estimativa do espectro, isto é, reduz as flutuações estatísticas que podem impactar a qualidade que pode ser alcançada. Uma vantagem específica quando se aplica esta modalidade em conjunto com o controlador de ECU de Fase mencionado anteriormente é que pode confiar nas análises espectrais relacionadas com a detecção de uma condição transiente no quadro de um sinal recebido anteriormente, o “bom quadro”. Isto reduz a sobrecarga computacional associada com a invenção ainda mais.
[0054] O objetivo de prover um mecanismo com requisitos de armazenamento mínimo também é alcançado, já que esta modalidade permite representar o espectro de baixa resolução com apenas K valores, onde K pode ser praticamente tão baixo quanto, por exemplo, 7 ou 8.
[0055] Adicionalmente, foi descoberto que a qualidade do sinal de áudio reconstruído no caso de rajadas de perda longa pode ser adicionalmente intensificada se a sobreposição no sentido de grupo de frequência com um sinal de ruído impõe um certo grau de característica de passa baixa. Assim, uma característica de passa baixa pode ser imposta na representação espectral de baixa resolução.
[0056] Tal característica efetivamente evita ruído de alta frequência desagradável no sinal de substituição. Mais especificamente, isto é alcançado introduzindo uma atenuação adicional através de um fator X(m) do sinal de ruído para maiores frequências. Se comparado com o cálculo descrito acima do fator de escalonamento de ruído β(m) este fator é calculado agora de acordo com
Figure img0025
[0057] Aqui o fator X(m) pode ser igual a 1 para m pequeno e pode ser menor do que 1 para m grande. Ou seja, β(m) pode ser determinado como
Figure img0026
, onde X(m) é um fator de atenuação dependente da frequência. Por exemplo, X(m) pode ser igual a 1 para m abaixo de um limite e X(m) pode ser menor do que 1 para m acima deste limite.
[0058] Deve ser notado preferivelmente que os fatores de escalonamento α(m) e β(m) são constantes no sentido de grupo de frequência. Isto ajuda a reduzir a complexidade e requisitos de armazenamento. Neste caso também o fator X é aplicado no sentido de grupo de frequência de acordo com a seguinte expressão:
Figure img0027
[0059] Foi descoberto como benéfico definir
Figure img0028
tal que é 0,1 para bandas de frequência acima de 8000 Hz e 0,5 para uma banda de frequência de 4000 Hz a 8000 Hz. Para bandas de frequência inferior
Figure img0029
é igual a 1. Outros valores também são possíveis.
[0060] Foi descoberto adicionalmente ser benéfico apesar das vantagens de qualidade do método proposto com a sobreposição do sinal de substituição de um método de ocultação de perda de quadro primária com um sinal de ruído, para reforçar uma característica de silenciamento para rajadas de perda de quadro extremamente longos, por exemplo, de n > 10 (correspondendo com 200 ms ou mais). Portanto, a entidade de recepção pode ser configurada, em uma etapa opcional S206, para aplicar um fator de atenuação de longo prazo Y a β(m) quando o comprimento de erro em rajada n excede um segundo limite T2 pelo menos tão grande quanto o primeiro limite T1. De acordo com um exemplo, T2>10.
[0061] Em maior detalhe, no caso de uma síntese de sinal de ruído sustentado pode ser perturbador para um ouvinte. De maneira a resolver este problema o sinal de ruído aditivo assim pode ser atenuado partindo de rajadas de perda maiores do que, por exemplo, n=10. Especificamente, um fator de atenuação de longo prazo adicional Y (por exemplo, Y=0,5) e um limite é introduzido com o qual o sinal de ruído é atenuado se o comprimento de rajada de perda n excede o limite. Isto leva à seguinte modificação do fator de escalonamento de ruído:
Figure img0030
[0062] A característica que é alcançada por esta modificação é que o sinal de ruído é atenuado com
Figure img0031
se n excede o limite. Como um exemplo, se n = 20 (400 ms) e y=0,5 e T2 = limite = 10, então o sinal de ruído é diminuído para aproximadamente 1/1000.
[0063] Deve ser notado novamente que, a operação também pode ser feita no sentido de grupo de frequência, como na modalidade acima.
[0064] Para sumarizar, de acordo com pelo menos algumas modalidades, Z(m) representa o espectro de um quadro de substituição e este espectro é gerado para o uso de um método de ocultação de perda de quadro primária, tal como ECU de Fase, com base no espectro Y(m) de um quadro de protótipo, isto é um quadro do sinal recebido anteriormente.
[0065] Para rajadas de perda longa, ECU de Fase original com o controlador descrito essencialmente atenua este espectro e torna aleatório as fases. Para n muito grande isto quer dizer que o sinal gerado é completamente silenciado.
[0066] Como descrito aqui, esta atenuação é compensada pela adição de uma quantidade adequada de ruído conformado de maneira espectral. Assim, o nível do sinal permanece essencialmente estável, mesmo para n > 5. Para rajadas de perda extremamente longa, por exemplo, n > 10, uma modalidade envolve atenuar/silenciar até este ruído de aditivo.
[0067] De acordo com uma modalidade adicional o espectro de sinal de ruído de baixa resolução aditivo
Figure img0032
pode ser representado por um conjunto de parâmetros de LPC, e assim o espectro neste caso corresponde com o espectro de um filtro de síntese de LPC com estes parâmetros de LPC como coeficiente. Tal modalidade pode ser preferida se o método de PLC primário não é do tipo de ECU de Fase e, por exemplo, em vez disso um método que opera no domínio do tempo. Naquele caso um sinal de tempo correspondendo com o espectro de sinal de ruído de baixa resolução aditivo
Figure img0033
preferivelmente também pode ser gerado no domínio do tempo, filtrando ruído branco através do filtro de síntese com os ditos coeficientes de LPC.
[0068] A adição do componente de ruído para o quadro de substituição como na etapa S208, por exemplo, pode ser realizado tanto no domínio de frequência quanto no domínio do tempo ou domínios de sinal equivalente adicionais. Por exemplo, existem domínios de sinal como domínio de filtro de espelho de quadratura (QMF) ou filtro de sub-banda em que o método de ocultação de perda de quadro primária pode operar. Em tais casos, pode ser preferido gerar um sinal de ruído aditivo correspondendo com o espectro de sinal de ruído de baixa resolução descrito
Figure img0034
nestes correspondentes domínios de sinal. Além das diferenças do domínio de sinal em que o sinal de ruído é adicionado, as modalidades acima permanecem aplicáveis.
[0069] Referência é feita agora ao fluxograma da Figura 5 que descreve um método para a ocultação de perda de quadro como realizado por uma entidade de recepção de acordo com uma modalidade particular.
[0070] Em uma ação S101 um componente de ruído pode ser determinado, onde a característica de frequência do componente de ruído é uma representação espectral de baixa resolução de um quadro de um sinal recebido anteriormente. O componente de ruído, por exemplo, pode ser composto e denotado como
Figure img0035
, onde β(m) pode ser um fator de escalonamento de magnitude e n(m) pode ser uma fase aleatória, e
Figure img0036
: pode ser uma representação de espectro de magnitude de um “bom quadro” recebido anteriormente.
[0071] Em uma ação opcional S103, pode ser determinado se um número, n, de quadros de perda ou errôneos excede um limite. O limite pode ser, por exemplo, de 8, 9, 10 ou 11 quadros. Quando n é menor do que o limite, o componente de ruído é adicionado a um espectro de quadro de substituição Z em uma ação S104. O espectro de quadro de substituição Z pode ser derivado por um método de ocultação de perda de quadro primária, tal como por exemplo, ECU de Fase. Quando o número de quadros perdidos n excede o limite, um fator de atenuação Y pode ser aplicado ao componente de ruído. O fator de atenuação pode ser constante dentro de certas faixas de frequência. Quando tendo aplicado o fator de atenuação y, o componente de ruído pode ser adicionado a um espectro de quadro de substituição Z na ação S104.
[0072] Modalidades descritas aqui também se referem a uma entidade de recepção, ou nó de recepção, que será descrito abaixo com referência às Figuras 4, 8 e 9. A entidade de recepção será em resumo de maneira a evitar a repetição desnecessária.
[0073] Uma entidade de recepção pode ser configurada para realizar uma ou mais das modalidades descritas aqui.
[0074] A Figura 4 esquematicamente descreve módulos funcionais de uma entidade de recepção 400 de acordo com uma modalidade. A entidade de recepção 400 compreende uma perda de quadro detector 401 configurada para detectar uma perda de quadro em um sinal recebido ao longo do caminho de sinal 410. A perda de quadro detector faz interface um gerador de representação de baixa resolução 402 e um gerador de quadro de substituição 403. O gerador de representação de baixa resolução 402 é configurado para gerar representação espectral de baixa resolução de um sinal em um quadro recebido anteriormente. O gerador de quadro de substituição 403 é configurado para gerar um quadro de substituição de acordo com mecanismos conhecidos, tal como ECU de Fase. Blocos funcionais 404 e 405 representam o escalonamento dos sinais gerados pelo gerador de representação de baixa resolução 402 e o gerador de quadro de substituição 403, respectivamente, com os fatores de escala descritos acima β, y, e α. Blocos funcionais 406 e 407 representam a sobreposição dos sinais escalonados desta forma com os valores de fase descritos acima n e θ. Bloco funcional 408 representa um adicionador para adicionar o componente de ruído gerado assim para o quadro de substituição. Bloco funcional 409 representa um comutador como controlado pela perda de quadro detector 401 para substituir um quadro perdido com um quadro de substituição gerado. Como notado acima, existem muitos domínios em que as operações, tal como a adição na etapa S208, podem ser realizadas. Assim, qualquer um dos blocos funcionais descritos acima pode ser configurado para realizar operações em qualquer um destes domínios.
[0075] Abaixo, uma entidade de recepção de exemplo 800, adaptada para permitir o desempenho de um método descrito acima para manipular os erros de quadro de rajada será descrita com referência à Figura 8.
[0076] A parte da entidade de recepção que está mais relacionada com a solução sugerida aqui é ilustrada como um arranjo 801 cercado por uma linha pontilhada. O arranjo e possivelmente outras partes da entidade de recepção são adaptados para permitir o desempenho de um ou mais dos procedimentos descritos acima e ilustrados, por exemplo, nas Figuras 5, 6, e 7. A entidade de recepção 800 é ilustrada como para se comunicar com outras entidades através de uma unidade de comunicação 802, que pode ser considerada para compreender meios convencionais para comunicação com fios e/ou sem fios de acordo com um protocolo ou padrão de comunicação em que a entidade de recepção é operável. O arranjo e/ou entidade de recepção pode compreender adicionalmente outras unidades funcionais 807, para prover, por exemplo, funções de entidade de recepção regulares, tal como, por exemplo, processamento de sinal em associação com a decodificação de áudio, tal como fala e/ou música.
[0077] A parte de arranjo da entidade de recepção pode ser implementada e/ou descrita como na sequência:
[0078] O arranjo compreende meios de processamento 803, tais como um processador, e uma memória 804 para armazenar instruções. A memória compreende instruções na forma de um programa de computador 805, que quando executada pelos meios de processamento faz com que a entidade de recepção ou arranjo realize métodos como descritos aqui.
[0079] Uma modalidade alternativa da entidade de recepção 800 é mostrada na Figura 9. A Figura 9 ilustra uma entidade de recepção 900, operável para decodificar um sinal de áudio.
[0080] Um arranjo 901 pode ser implementado e/ou esquematicamente descrito como na sequência. O arranjo 901 pode compreender uma unidade de determinação 903, configurada para determinar um componente de ruído com uma característica de frequência de uma representação espectral de baixa resolução de um quadro de um sinal recebido anteriormente e para determinar um fator de escalonamento de magnitude. O arranjo pode compreender adicionalmente uma unidade de adição 904, configurada para adicionar o componente de ruído para um espectro de quadro de substituição. O arranjo pode compreender adicionalmente uma unidade de obtenção 910, configurada para obter a representação de baixa resolução do espectro de magnitude do sinal no quadro recebido anteriormente. O arranjo pode compreender adicionalmente uma unidade de aplicação 911, configurada para aplicar um fator de atenuação de longo prazo. A entidade de recepção pode compreender unidades adicionais 907 configuradas, por exemplo, para determinar um fator de escalonamento β(m) para o componente de ruído. A entidade de recepção 900 compreende adicionalmente uma unidade de comunicação 902 tendo um transmissor (Tx) 908 e um receptor (Rx) 909 com funcionalidade como a unidade de comunicação 802. A entidade de recepção 900 compreende adicionalmente uma memória 906 com funcionalidade como a memória 804.
[0081] As unidades ou módulos nos arranjos descritos acima podem ser implementadas, por exemplo, por um ou mais de: um processador ou um microprocessador e software adequado e memória para armazenar dos mesmos, um Dispositivo Lógico Programável (PLD) ou outros componentes eletrônicos ou circuitos de processamento configurados para realizar as ações descritas acima, e ilustradas, por exemplo, na Figura 8. Ou seja, as unidades ou módulos nos arranjos descritos acima podem ser implementados por uma combinação de circuitos analógicos e digitais, e/ou um ou mais processadores configurados com software e/ou firmware, por exemplo, armazenados em uma memória. Um ou mais destes processadores, bem como o outro hardware digital, podem ser incluídos em um circuito integrado de aplicação específica único (ASIC), ou vários processadores e vários hardwares digitais podem ser distribuídos dentre vários componentes separados, seja embalado individualmente ou montado em um sistema em um chip (SoC).
[0082] A Figura 10 mostra um exemplo de um produto de programa de computador 1000 compreendendo meio legível por computador 1001. Neste meio legível por computador 1001, um programa de computador 1002 pode ser armazenado, programa de computador 1002 o qual pode fazer com que os circuitos de processamento 803 e os dispositivos e entidades acoplados de maneira operativa com os mesmos, tais como a unidade de comunicações 802 e o meio de armazenamento 804, executem métodos de acordo com modalidades descritas aqui. O programa de computador 1002 e/ou o produto de programa de computador 1001 assim pode prover meios para realizar qualquer uma das etapas como descritas aqui.
[0083] No exemplo da Figura 10, o produto de programa de computador 1001 é ilustrado como um disco óptico, tal como um CD (disco compacto) ou um DVD (disco versátil digital) ou um disco de Blu-Ray. O produto de programa de computador 1001 também pode ser incorporado como uma memória, tal como uma memória de acesso aleatório (RAM), uma memória somente de leitura (ROM), uma memória somente de leitura apagável programável (EPROM), ou uma memória somente de leitura eletricamente apagável programável (EEPROM) e mais particularmente como um meio de armazenamento não volátil de um dispositivo em uma memória externa tal como uma memória de USB (Barramento Serial Universal) ou uma memória Flash, tal como uma memória Flash compacta. Assim, enquanto o programa de computador 1002 aqui é mostrado esquematicamente como um rastro no disco óptico representado, o programa de computador 1002 pode ser armazenado de qualquer modo que é adequado para o produto de programa de computador 1001.
[0084] Algumas definições de possíveis funcionalidades e modalidades são destacadas abaixo, parcialmente em referência ao fluxograma da Figura 5.
[0085] Um método realizado por uma entidade de recepção para aprimorar a ocultação de perda de quadro ou a manipulação de erros de quadro de rajada, o método compreendendo: em associação com a construção de um espectro de quadro de substituição Z, adicionar (ação 104) um componente de ruído para o espectro de quadro de substituição Z, onde a característica de frequência do componente de ruído é uma representação espectral de baixa resolução de um quadro de um sinal recebido anteriormente.
[0086] Em uma modalidade possível, a representação espectral de baixa resolução está baseada em um espectro de magnitude de um quadro de um sinal recebido anteriormente. A representação de baixa resolução de um espectro de magnitude pode ser obtida, por exemplo, tirando a média do grupo de frequência do espectro de magnitude de um quadro do sinal recebido anteriormente. Alternativamente a representação de baixa resolução de um espectro de magnitude pode ser com base em um grande número n de transformadas de domínio de frequência de baixa resolução do sinal recebido anteriormente.
[0087] Em uma modalidade possível, a representação espectral de baixa resolução está baseada em um conjunto de parâmetros de codificação preditiva linear (LPC).
[0088] Em uma modalidade possível onde o espectro de quadro de substituição Z é gradualmente atenuado por um fator de atenuação α(m), o método compreende determinar um fator de escalonamento de magnitude β(m) para o componente de ruído, tal que β(m)compensa a perda de energia que resulta da aplicação do fator de atenuação α(m). β(m), por exemplo, pode ser determinado como
Figure img0037
.
[0089] Em uma modalidade possível, β(m) é derivado como
Figure img0038
, onde o fator X(m) é um fator de atenuação para certas frequências do sinal de ruído, por exemplo, maiores frequências. X(m) pode ser igual a 1 para m pequeno e pode ser menor do que 1 para m grande.
[0090] Em uma modalidade possível, os fatores de escalonamento α(m) e β(m) são constantes no sentido de grupo de frequência.
[0091] Em uma modalidade possível o método compreende aplicar (ação 103) um fator de atenuação, y, quando um comprimento de erro em rajada excede um limite.
[0092] O espectro de quadro de substituição Z pode ser derivado por um método de ocultação de perda de quadro primária, tal como ECU de Fase.
[0093] As diferentes modalidades podem ser combinadas de qualquer modo adequado.
[0094] Abaixo, informação nas modalidades de exemplo do método de ocultação de perda de quadro ECU de Fase serão providas, apesar de o termo “ECU de Fase” não ser mencionado de maneira explícita. ECU de Fase foi mencionado aqui, por exemplo, em termos do método de ocultação de perda de quadro primária, para a derivação de Z antes de adicionar o componente de ruído.
[0095] Um conceito das modalidades descritas aqui a seguir compreende uma ocultação de um quadro de áudio de perda através de: - realização da análise senoidal de pelo menos parte de um sinal de áudio reconstruído ou recebido anteriormente, em que a análise senoidal envolve identificar frequências de componentes sinusoidais do sinal de áudio; - aplicação de um modelo sinusoidal em um segmento do sinal de áudio reconstruído ou recebido anteriormente, em que o dito segmento é usado como um quadro de protótipo de maneira a criar um quadro de substituição para um quadro perdido, e - criação do quadro de substituição que envolve a evolução com o tempo de componentes sinusoidais do quadro de protótipo, até o momento de tempo do quadro de áudio de perda, em resposta às frequências identificadas correspondentes.
Análise senoidal
[0096] A ocultação de perda de quadro de acordo com modalidades envolve a análise senoidal de uma parte de um sinal de áudio reconstruído ou recebido anteriormente. O propósito desta análise senoidal é encontrar as frequências de componentes sinusoidais principais, isto é, sinusoides, daquele sinal. Aqui, a hipótese subjacente é que o sinal de áudio foi gerado por um modelo sinusoidal e que é composto de um número limitado de sinusoides individuais, isto é que é um sinal de seno múltiplo do seguinte tipo:
Figure img0039
[0097] Nesta equação K é o número de sinusoides que o sinal é assumido para consistir de. Para cada um dos sinusoides com o índice k=1...K, ak é a amplitude, fk é a frequência, e Φk é a fase. A frequência de amostragem é denominada por fs e o índice de tempo das amostras de sinal discreto de tempo s(n) por n.
[0098] Pode ser benéfico, ou mesmo importante, para encontrar como frequências exatas de sinusoides como for possível. Enquanto um sinal sinusoidal ideal pode ter um espectro de linha com frequências de linha fk, encontrando os seus valores reais em princípio podem precisar de tempo de medição infinito. Assim, na prática é difícil encontrar estas frequências, já que eles podem ser estimados apenas com base em um período de medição curta, que corresponde com o sinal segmento usado para a análise senoidal de acordo com modalidades descritas aqui; este segmento de sinal aqui a seguir é referido como um quadro de análise. Outra dificuldade é que o sinal na prática pode ser variável com o tempo, o que quer dizer que os parâmetros da equação acima variam com o tempo. Assim, por um lado é desejável o uso de um quadro de análise longo tornando a medição mais precisa; por outro lado um período de medição curto pode ser necessário de maneira a lidar melhor com possíveis variações de sinal. Uma boa troca é o uso de um comprimento de quadro de análise na ordem de, por exemplo, 20 a 40 ms.
[0099] De acordo com uma modalidade preferida, as frequências de sinusoides fk são identificadas por uma análise de domínio de frequência do quadro de análise. Para este fim, o quadro de análise é transformado para o domínio de frequência, por exemplo, por meio de DFT (Transformada Discreta de Fourier) ou DCT (Transforma por Cosseno Discreto), ou uma similar transformada de domínio de frequência. No caso de DFT do quadro de análise ser usado, o espectro X(m) no índice de frequência discreta m é dado por:
Figure img0040
[00100] Nesta equação, w(n) denota a função de janela com a qual o quadro de análise de comprimento L é extraída e pesada; j é a unidade imaginária e e é a função exponencial.
[00101] Uma função de janela típica é uma janela retangular que é igual a 1 para n e [0.. .L-1] e de outra forma 0. É assumido que os índices de tempo do sinal de áudio recebido anteriormente são definidos tais que o quadro de protótipo é referenciado pelos índices de tempo n=0.L-1. Outras funções de janela que podem ser mais adequadas para a análise espectral, por exemplo, são Hamming, Hanning, Kaiser ou Blackman.
[00102] Outra função de janela é uma combinação da janela de Hamming e da janela retangular. Tal janela pode ter uma forma de borda ascendente como a metade esquerda de uma janela Hamming de comprimento L1 e uma forma de borda descendente como a metade direita de uma janela de Hamming de comprimento L1 e entre as bordas descendente e ascendente a janela é igual a 1 para o comprimento de L-L1.
[00103] Os picos do espectro de magnitude do quadro de análise de janela constituem uma aproximação das frequências sinusoidais necessárias fk. A precisão desta aproximação no entanto está limitada pelo espaçamento de frequência de DFT. Com DFT com comprimento de bloco L a precisão é f limitada a
Figure img0041
.
[00104] No entanto, este nível de precisão pode ser muito baixo no escopo do método de acordo com as modalidades descritas aqui, e uma precisão aprimorada pode ser obtida com base nos resultados da seguinte consideração:
[00105] O espectro do quadro de análise de janela é dado pela convolução do espectro da função de janela com o espectro em linha de um sinal de modelo sinusoidal, subsequentemente amostrado nos pontos de grade de DFT:
Figure img0042
[00106] Nesta equação, δ representa a função delta de Dirac e o símbolo * denota operação de convolução. Usando a expressão de espectro do sinal de modelo sinusoidal, isto pode ser escrito como
Figure img0043
[00107] Assim, o espectro de amostra é dado por
Figure img0044
com m = 0...L-1. Com base nisto, os picos observados no espectro de magnitude da haste de quadro de análise a partir de um sinal sinusoidal de janela com K sinusoides, onde as frequências de sinusoide reais são encontradas na vizinhança dos picos. Assim, a identificação das frequências de componentes sinusoidais pode envolver adicionalmente identificar frequências na vizinhança dos picos do espectro relacionados com a transformada de domínio de frequência usada.
[00108] Se Mk é assumido como sendo um índice DFT (ponto de grade) do k-ésimo pico observado, então a correspondente frequência é que pode ser considerada uma aproximação da frequência sinusoidal real fk. A frequência sinusoide real fk pode ser assumida para ficar dentro do intervalo:
Figure img0045
[00109] Para a clareza, é notado que a convolução do espectro da função de janela com o espectro do espectro em linha do sinal de modelo sinusoidal pode ser entendida como uma sobreposição de versões de frequência deslocada do espectro de função de janela, em que as frequências de deslocamento são as frequências de sinusoides. Esta sobreposição então é amostrada nos pontos de grade de DFT.
[00110] Com base na discussão acima, uma melhor aproximação das frequências sinusoidais reais pode ser encontrada aumentando resolução da busca, tal que é maior do que a resolução de frequência da transformada de domínio de frequência usada.
[00111] Assim, a identificação das frequências de componentes sinusoidais é preferivelmente realizada com resolução maior do que a resolução de frequência da transformada de domínio de frequência usada, e a identificação pode envolver adicionalmente a interpolação.
[00112] Um modo preferido de exemplo para encontrar uma melhor aproximação das frequências fk dos sinusoides é aplicar interpolação parabólica. Uma abordagem é encaixar parábolas através dos pontos de grade de espectro de magnitude de DFT que cercam os picos e para calcular as respectivas frequências que pertencem ao máximo da parábola, e uma escolha adequada de exemplo para a ordem das parábolas é de 2. Em maior detalhe, o seguinte procedimento pode ser aplicado: 1) Identificar os picos de DFT do quadro de análise de janela. A busca de pico vai distribuir o número de picos K e os correspondentes índices de DFT dos picos. A busca de pico tipicamente pode ser feita no espectro de magnitude de DFT ou o espectro de magnitude de DFT logarítmico. 2) Para cada pico k (com k=1.. .K) com correspondente índice de DFT Mk, o ajuste da parábola através de três pontos { P1; P2; P3 } = {(Mk- 1, log(|X(Mk-1)|); (Mk, log(|X(Mk)|); (Mk+1, log(|X(Mk+1)|)}, onde log denota o operador logaritmo. Isto resulta em coeficientes de parábola bk(0), bk(1), bk(2) da parábola definida por
Figure img0046
3) Para cada uma das K parábolas, calculando o índice de frequência interpolado correspondendo com o valor de q para o qual a J fS„ f,/ parábola possui o seu máximo, em que
Figure img0047
é usado como uma aproximação para a frequência de sinusoide fk.
Aplicação de um modelo sinusoidal
[00113] A aplicação de um modelo sinusoidal de maneira a realizar a operação de ocultação de perda de quadro de acordo com modalidades pode ser descrita como na sequência:
[00114] No caso de um dado segmento do sinal codificado não poder ser reconstruído pelo decodificador já que a informação codificada correspondente não está disponível, isto é já que um quadro foi perdido, uma parte disponível do sinal antes deste segmento pode ser usada como quadro de protótipo. Se y(n) com n=0.. .N-1 é o segmento não disponível para o qual um quadro de substituição z(n) precisa ser gerado, e y(n) com n < 0 é o sinal decodificado disponível anteriormente, um quadro de protótipo do sinal disponível de comprimento L e o índice de partida n-1 é extraído com uma função de janela w(n) e transformado para o domínio de frequência, por exemplo, por meio de DFT:
Figure img0048
[00115] A função de janela pode ser uma das funções de janela descritas acima na análise senoidal. Preferivelmente, de maneira a economizar complexidade numérica, o quadro de transformada de domínio de frequência deve ser idêntico com aquele usado durante a análise senoidal.
[00116] Em uma próxima etapa a hipótese de modelo sinusoidal é aplicada. De acordo com a hipótese de modelo sinusoidal, DFT do quadro de protótipo pode ser escrito como na sequência:
Figure img0049
[00117] Esta expressão também foi usada na parte de análise e é descrita em detalhe acima.
[00118] A seguir é percebido que o espectro da função de janela usada possui apenas uma contribuição significativa em uma faixa de frequência próxima de zero. O espectro de magnitude da função de janela é grande para frequências próximas de zero e pequenas de outra forma (dentro da faixa de frequência normalizada a partir de -π para π, correspondendo com metade da frequência de amostragem. Assim, como uma aproximação é assumido que o espectro de janela W(m) não é zero apenas para um intervalo M = [- mmín,mmáx], com mmín e mmáx sendo números positivos pequenos. Em particular, uma aproximação do espectro de função de janela é usada tal que para cada k as contribuições dos espectros de janela deslocados na expressão acima são estritamente não sobrepostas. Assim na equação acima para cada índice de frequência sempre existe apenas no máximo da contribuição a partir de um somatório, isto é, a partir de um espectro de janela deslocado. Isto quer dizer que a expressão acima se reduz para a seguinte expressão aproximada:
Figure img0050
para não negativo
Figure img0051
e para cada k.
[00119] Aqui, Mk denota o intervalo de inteiro:
Figure img0052
Onde
Figure img0053
e
Figure img0054
satisfazem a restrição explicada acima tal que os intervalos não são de sobreposição. Uma escolha adequada para e é para definir os mesmos para um valor inteiro pequeno, por exemplo, δ=3. Se no entanto os índices de DFT relacionados com duas frequências sinusoidais vizinhas
Figure img0055
e
Figure img0056
são menores do que 2δ, então δ é definido para
Figure img0057
tal que é garantido que os intervalos não são sobrepostos. A função " floorC)" é o inteiro mais próximo do argumento de função que é menor ou igual a mesma.
[00120] A próxima etapa de acordo com modalidades é para aplicar o modelo sinusoidal de acordo com a expressão acima e para evoluir os seus K sinusoides com o tempo. A hipótese que os índices de tempo do segmento apagado comparados com os índices de tempo do quadro de protótipo diferem pelas amostras quer dizer que as fases dos sinusoides avançam por
Figure img0058
[00121] Assim, o espectro de DFT do modelo sinusoidal evoluído é dado por:
Figure img0059
[00122] Aplicando novamente a aproximação de acordo com a qual os espectros de função de janela deslocada não se sobrepõem origina:
Figure img0060
para
Figure img0061
não negativo e para cada k.
[00123] Comparando DFT do quadro de protótipo Y-1(m) com DFT do modelo sinusoidal evoluído Y0(m) usando a aproximação, é encontrado que o espectro de magnitude permanece não alterado enquanto a fase é deslocada por
Figure img0062
, para cada
Figure img0063
.
[00124] Assim, o quadro de substituição pode ser calculado pela seguinte expressão:
Figure img0064
com
Figure img0065
com
Figure img0066
para não negativo e para cada k.
[00125] Uma modalidade específica se endereça à randomização de fase para índices de DFT que não pertencem a qualquer intervalo Mk. Como descrito acima, os intervalos Mk,k=1...K precisam ser definidos tal que eles são estritamente não sobrepostos o que é feito usando algum parâmetro δ que controla o tamanho dos intervalos. Pode acontecer que δ é pequeno com relação à distância de frequência de dois sinusoides vizinhos. Assim, naquele caso acontece que existe uma lacuna entre dois intervalos. Consequentemente, para os correspondentes índices de DFT m nenhum deslocamento de fase de acordo com a expressão acima
Figure img0067
é definido. Uma escolha adequada de acordo com esta modalidade é tornar aleatória a fase para estes índices, produzindo
Figure img0068
, onde a função
Figure img0069
retorna algum número aleatório.
[00126] Em uma etapa, a análise senoidal de uma parte de um sinal de áudio reconstruído ou recebido anteriormente é realizado, em que a análise senoidal envolve identificar frequências de componentes sinusoidais, isto é, sinusoides, do sinal de áudio. A seguir em uma etapa, um modelo sinusoidal é aplicado em um segmento do sinal de áudio reconstruído ou recebido anteriormente, em que o dito segmento é usado como um quadro de protótipo de maneira a criar um quadro de substituição para um quadro de áudio de perda, e em uma etapa o quadro de substituição para o quadro de áudio de perda é criado, envolvendo evolução com o tempo de componentes sinusoidais, isto é sinusoides, do quadro de protótipo, até o momento de tempo do quadro de áudio de perda, em resposta às frequências identificadas correspondentes.
[00127] De acordo com uma modalidade adicional, é assumido que o sinal de áudio é composto de um número limitado de componentes sinusoidais individuais, e que a análise senoidal é realizada no domínio de frequência. Adicionalmente, a identificação de frequências de componentes sinusoidais pode envolver identificar frequências na vizinhança dos picos de um espectro relacionados com a transformada de domínio de frequência usada.
[00128] De acordo com uma modalidade de exemplo, a identificação de frequências de componentes sinusoidais é realizada com maior resolução do que a resolução da transformada de domínio de frequência usada, e a identificação pode envolver adicionalmente interpolação, por exemplo, do tipo parabólico.
[00129] De acordo com uma modalidade de exemplo, o método compreende extrair um quadro de protótipo a partir de um sinal reconstruído ou recebido anteriormente disponível usando uma função de janela, e em que o quadro de protótipo extraído pode ser transformado em um domínio de frequência.
[00130] Uma modalidade adicional envolve uma aproximação de um espectro da função de janela, tal que o espectro do quadro de substituição é composto de porções estritamente não sobrepostas do espectro de função de janela aproximada.
[00131] De acordo com uma modalidade de exemplo adicional, o método compreende componentes sinusoidais que evoluem com o tempo de um espectro de frequência de um quadro de protótipo avançando a fase dos componentes sinusoidais, em resposta à frequência de cada componente sinusoidal e em resposta à diferença de tempo entre o quadro de áudio de perda e o quadro de protótipo, e alterando um coeficiente espectral do quadro de protótipo incluído em um intervalo Mk na vizinhança de um sinusoide k por um deslocamento de fase proporcional com a frequência sinusoidal fk e com a diferença de tempo entre o quadro de áudio de perda e o quadro de protótipo.
[00132] Uma modalidade adicional compreende alterar a fase de um coeficiente espectral do quadro de protótipo que não pertence a um sinusoide identificado por uma fase aleatória, ou alterando a fase de um coeficiente espectral do quadro de protótipo não incluído em qualquer um dos intervalos relacionados com a vizinhança do sinusoide identificado por um valor aleatório.
[00133] Uma modalidade adicional envolve uma transformada de domínio de frequência inversa do espectro de frequência do quadro de protótipo.
[00134] Mais especificamente, o método de ocultação de perda de quadro de áudio de acordo com uma modalidade adicional pode envolver as seguintes etapas: 1) Analisar um segmento do sinal sintetizado anteriormente disponível para obter as frequências sinusoidais constituintes fk de um modelo sinusoidal. 2) Extrair um quadro de protótipo a partir do sinal sintetizado anteriormente disponível e calcular a DFT daquele quadro. 3) Calcular o deslocamento de fase θk para cada sinusoide k em resposta à frequência sinusoidal fk e o avanço de tempo entre o quadro de protótipo e o quadro de substituição. 4) Para cada sinusoide k avançar a fase do quadro de protótipo DFT com θk seletivamente para os índices de DFT relacionados com uma vizinhança em torno da frequência de sinusoide fk. 5) Calcular a DFT inversa do espectro obtido em 4).
[00135] As modalidades descritas acima podem ser adicionalmente explicadas pelas seguintes hipóteses: a) A hipótese em que o sinal pode ser representado por um número limitado de sinusoides. b) A hipótese em que o quadro de substituição é suficientemente bem representado por estes sinusoides evoluídos com o tempo, em comparação com algum instante de tempo anterior. c) A hipótese de uma aproximação do espectro de uma função de janela tal que o espectro do quadro de substituição pode ser acumulado por porções não sobrepostas de espectros de função de janela deslocada de frequência, as frequências de deslocamento sendo as frequências de sinusoide.
[00136] Informação em uma elaboração adicional de ECU de Fase será apresentada abaixo:
[00137] Um conceito das modalidades descritas aqui a seguir compreende ocultar um quadro de áudio de perda através de: - realizar uma análise senoidal de pelo menos parte de um sinal de áudio reconstruído ou recebido anteriormente, em que a análise senoidal envolve identificar frequências de componentes sinusoidais do sinal de áudio; - aplicar um modelo sinusoidal em um segmento do sinal de áudio reconstruído ou recebido anteriormente, em que o dito segmento é usado como um quadro de protótipo de maneira a criar um quadro de substituição para um quadro perdido; - criar o quadro de substituição for o quadro de áudio de perda, que envolve uma evolução com o tempo de componentes sinusoidais do quadro de protótipo, até o momento de tempo do quadro de áudio de perda, com base nas correspondentes frequências identificadas; e - realizar pelo menos um de uma estimativa de frequência intensificada na identificação de frequências, e uma adaptação da criação do quadro de substituição em resposta à tonalidade do sinal de áudio, em que a estimativa de frequência intensificada compreende pelo menos um de uma aproximação de lobo principal, uma intensificação harmônica, e uma intensificação de interquadro.
[00138] Modalidades descritas aqui compreendem estimativa de frequência intensificada. Estas podem ser implementadas, por exemplo, usando uma aproximação de lobo principal, uma intensificação harmônica, ou uma intensificação de interquadro, e estas três modalidades alternativas são descritas abaixo:
Aproximação de lobo principal:
[00139] Uma limitação com a interpolação parabólica descrita acima surge do fato de que as parábolas usadas não aproximam a forma do lobo principal do espectro de magnitude da função de janela. Como uma solução, 2π esta modalidade ajusta uma função, que aproxima o lobo principal de
Figure img0070
, através dos pontos de grade do espectro de magnitude de DFT que cercam os picos e calcula as respectivas frequências que pertencem ao máximo da função. A função pode ser idêntica com o espectro de magnitude de 2π frequência deslocada
Figure img0071
da função de janela. Para a simplicidade numérica, no entanto, deve ser o caso um polinômio que permite o cálculo direto do máximo da função. O seguinte procedimento detalhado é aplicado: 1. Identificar os picos da DFT do quadro de análise de janela. A busca de pico vai distribuir o número de picos K e os correspondentes índices de DFT dos picos. A busca de pico tipicamente pode ser feita no espectro de magnitude de DFT ou o espectro de magnitude de DFT logarítmico. 2. Derivar a função P(q) que aproxima o espectro de 2π magnitude
Figure img0072
da função de janela ou do espectro de magnitude logarítmico
Figure img0073
para um dado intervalo (q1,q 2). 3. Para cada pico k (com k=1.. .K) com correspondente índice de DFT Mk justar a função de frequência deslocada
Figure img0074
através de dois pontos de grade de DFT que cercam o pico real esperado do espectro contínuo do sinusoidal de janela. Assim, para o caso de operação com o espectro de magnitude logarítmico, se lX(Mk-1)l é maior do que lX(Mk+1)l ajustar
Figure img0075
através dos pontos {P1; P2} = {(Mk-1, log(lX(Mk-1)l); (Mk, log(lX(Mk)l)} e de outra forma através dos pontos {P1; P2} = {(Mk, log(lX(Mk)l); (Mk+1, log(lX(Mk+1)l)}. Para o exemplo alternativo de operação com um espectro de magnitude linear em vez de logarítmico, se lX(Mk-1)l é maior do que lX(Mk+1)l ajustar através dos pontos {P1; P2} = {(Mk-1, lX(Mk-1)l; (Mk, lX(Mk)l} e de outra forma através dos pontos {P1; P2} = {(Mk, lX(Mk)l; (Mk+1, lX(Mk+1)l}.
[00140] P(q) pode ser escolhido por simplicidade para ser um polinômio tanto de ordem 2 quanto 4. Isto torna a aproximação na etapa 2 um cálculo de regressão linear simples e o cálculo direto. O intervalo (q1,q2) pode ser escolhido para ser fixo e idêntico para todos os picos, por exemplo, (q1,q2) = (-1,1) , ou adaptivo.
[00141] Na abordagem adaptiva o intervalo pode ser escolhido tal que a função
Figure img0076
ajusta o espectro de lobo principal da função de janela na faixa dos relevantes pontos de grade de DFT {P1; P2}. 4. Para cada um dos K parâmetros de deslocamento de frequência
Figure img0077
para os quais o espectro contínuo do sinal sinusoidal de janela é esperado de ter o seu pico calculado
Figure img0078
como aproximação para a frequência de sinusoide fk.
Intensificação harmônica da estimativa de frequência
[00142] O sinal transmitido pode ser harmônico, o que quer dizer que o sinal consiste de ondas de seno em que as frequências são múltiplos inteiros de alguma frequência fundamental f0 . Este é o caso quando o sinal é muito periódico como por exemplo para fala de voz ou os tons sustentados de algum instrumento musical. Isto quer dizer que as frequências de modelo sinusoidal das modalidades não são independentes, mas, em vez disso, possuem uma relação harmônica e derivam a partir da mesma frequência fundamental. Levando em conta esta propriedade harmônica consequentemente pode-se aprimorar a análise das frequências de componente sinusoidal substancialmente, e esta modalidade envolve o seguinte procedimento: 1. Verificar se o sinal é harmônico. Isto pode, por exemplo, ser feito através da avaliação da periodicidade do sinal antes da perda de quadro. Um método direto é realizar uma análise de autocorrelação do sinal. O máximo de tal função de autocorrelação para algum atraso de tempo T > 0 pode ser usado como um indicador. Se o valor deste máximo excede um dado limite, o sinal pode ser considerado harmônico. O correspondente atraso de tempo T então corresponde com o período do sinal que está relacionado com a frequência fundamental através de
Figure img0079
[00143] Muitos métodos de codificação de fala preditiva linear aplicam uma assim chamada codificação de previsão de passo de ciclo fechado ou aberto ou CELP (predição linear de código excitado) usando códigos adaptativos. O ganho de passo e os parâmetros de atraso de passo associados derivados por tais métodos de codificação também são indicadores úteis se o sinal é harmônico e, respectivamente, para o atraso de tempo.
[00144] Um método adicional é descrito abaixo: 2. Para cada índice harmônico j dentro da faixa de inteiro 1...Jmáx verificar se existe um pico no espectro de magnitude de DFT (logarítmico) do quadro de análise dentro da vizinhança da frequência harmônica fj = j' f0. A vizinhança de fj pode ser definida como a faixa delta efm torno de fj onde delta corresponde com a resolução de frequência da DFT
Figure img0080
, isto é o intervalo
Figure img0081
[00145] No caso de tal pico com correspondente frequência sinusoidal estimada estar presente, substituir
Figure img0082
por
Figure img0083
.
[00146] Para o procedimento dado acima também existe a possibilidade de fazer a verificação de se o sinal é harmônico e a derivação da frequência fundamental de maneira implícita e possivelmente de um modo iterativo sem necessariamente usar indicadores a partir de algum método separado. Um exemplo para tal técnica é dado como na sequência:
[00147] Para cada f0,p de um conjunto de valores candidatos {f0,i _ f0,f}, aplicar o procedimento 2 descrito acima, apesar de sem substituir 2
Figure img0084
, mas com contagem de como muitos picos de DFT estão presentes dentro da vizinhança em torno das frequências harmônicas, isto é os inteiros múltiplos de f0,f. Identificar a frequência fundamental
Figure img0085
para a qual o maior número de picos nas ou em torno das frequências harmônicas é obtido. Se este maior número de picos excede um dado limite, então o sinal é assumido como sendo harmônico. Naquele caso
Figure img0086
pode ser assumido como sendo a frequência fundamental com a qual o procedimento 2 então é 2 executado levando às frequências sinusoidais intensificadas
Figure img0087
. Uma alternativa mais preferível no entanto primeiramente é otimizar a estimativa 2 de frequência fundamental f0 com base nas frequências de pico
Figure img0088
que foram encontradas coincidindo com as frequências harmônicas. Assumir um conjunto de M harmônicos, isto é inteiros múltiplos {n1 ... nM } de alguma frequência fundamental que foi encontrada coincidindo com algum conjunto de M picos espectrais nas frequências
Figure img0089
, então a estimativa de frequência fundamental subjacente (otimizada) f0,opt pode ser calculada para minimizar o erro entre as frequências harmônicas e as frequências de pico espectral. Se o erro a ser minimizado é o erro quadrado médio
Figure img0090
, então a estimativa de frequência fundamental ótima é calculada como
Figure img0091
[00148] O conjunto inicial de valores candidatos { f0,1.f0,P } pode ser obtido a partir de frequências de picos de DFT ou as frequências sinusoidais í estimadas
Figure img0092
.
Intensificação de interquadro da estimação de frequência
[00149] De acordo com esta modalidade, a precisão das frequências í sinusoidais estimadas
Figure img0093
é intensificada considerando a sua evolução temporal. Assim, as estimativas das frequências sinusoidais a partir de um múltiplo de quadros de análise são combinadas, por exemplo, por meio de média ou previsão. Antes de tirar a média ou prever um pico rastreamento é aplicado que conecta os picos espectrais estimados com os respectivos mesmos sinusoides subjacentes.
Aplicando um modelo sinusoidal
[00150] A aplicação de um modelo sinusoidal de maneira a realizar a operação de ocultação de perda de quadro de acordo com modalidades pode ser descrita como na sequência:
[00151] No caso de um dado segmento do sinal codificado não poder ser reconstruído pelo decodificador já que a correspondente informação codificada não está disponível, isto é já que um quadro foi perdido, uma parte disponível do sinal antes deste segmento pode ser usada como quadro de protótipo. Se y(n) com n=0.. .N-1 é o segmento não disponível para o qual um quadro de substituição z(n) precisa ser gerado, e y(n) com n < 0 é o sinal decodificado anteriormente disponível, um quadro de protótipo do sinal disponível de comprimento L e índice inicial n-1 é extraído com uma função de janela w(n) e transformado em domínio de frequência, por exemplo, por meio de DFT:
Figure img0094
[00152] A função de janela pode ser uma das funções de janela descritas acima na análise senoidal. Preferivelmente, de maneira a economizar a complexidade numérica, o quadro de transformada de domínio de frequência deve ser idêntico com aquele usado durante a análise senoidal, o que quer dizer que o quadro de análise e o quadro de protótipo serão idênticos, e da mesma forma as suas respectivas transformadas de domínio de frequência.
[00153] Em uma próxima etapa a hipótese de modelo sinusoidal é aplicada. De acordo com a hipótese de modelo sinusoidal, a DFT do quadro de protótipo pode ser escrita como na sequência:
Figure img0095
[00154] Esta expressão também foi usada na parte de análise e é descrita em detalhe acima.
[00155] A seguir é percebido que o espectro da função de janela usada possui apenas uma contribuição significativa em uma faixa de frequência próxima de zero. Como notado acima, o espectro de magnitude da função de janela é grande para frequências próximas de zero e pequeno de outra forma (dentro da faixa de frequência normalizada de -π até π, correspondendo com metade da frequência de amostragem). Assim, como uma aproximação é assumido que o espectro de janela W(m) não é zero apenas para um intervalo
Figure img0096
, com
Figure img0097
e
Figure img0098
sendo números positivos pequenos. Em particular, uma aproximação do espectro de função de janela é usada tal que para cada k as contribuições dos espectros de janela deslocados na expressão acima são estritamente não sobrepostas. Assim na equação acima para cada índice de frequência sempre existe apenas no máximo de contribuição a partir de um somatório, isto é, a partir de um espectro de janela deslocado. Isto quer dizer que a expressão acima reduz para a seguinte expressão aproximada:
Figure img0099
para
Figure img0100
não negativo e para cada k.
[00156] Aqui, denota o intervalo de inteiro
Figure img0101
, onde,
Figure img0102
e
Figure img0103
satisfazem a restrição explicada acima tal que os intervalos não são sobrepostos. Uma escolha adequada para
Figure img0104
e
Figure img0105
é definir os mesmos para um pequeno valor inteiro δ, por exemplo, δ = 3. Se no entanto os índices de DFT relacionados com duas frequências sinusoidais vizinhas
Figure img0106
e
Figure img0107
são menores do que 2δ, então δ é definido para
Figure img0108
tal que é garantido que os intervalos não são sobrepostos. A função (.) é o inteiro mais próximo do argumento da função que é menor ou igual a mesma.
[00157] A próxima etapa de acordo com modalidades é para aplicar o modelo sinusoidal de acordo com a expressão acima e para evoluir os seus K sinusoides com o tempo. A hipótese que os índices de tempo do segmento apagado comparados com os índices de tempo do quadro de protótipo diferem
Figure img0109
por amostras quer dizer que as fases dos sinusoides avançam por
Figure img0110
[00158] Assim, o espectro de DFT do modelo sinusoidal evoluído é dado por:
Figure img0111
[00159] Aplicando novamente a aproximação de acordo com a qual os espectros de função de janela deslocada não se sobrepõem temos:
Figure img0112
para
Figure img0113
não negativo e para cada k. Comparando a DFT do quadro de protótipo
Figure img0114
com a DFT do modelo sinusoidal evoluído
Figure img0115
usando a aproximação, é descoberto que o espectro de magnitude permanece não alterado enquanto a fase é deslocada por
Figure img0116
, para cada
Figure img0117
. Assim, o quadro de substituição pode ser calculado pela seguinte expressão:
Figure img0118
com
Figure img0119
para
Figure img0120
não negativo e para cada k, onde IDFT denota a DFT inversa.
[00160] Uma modalidade específica se endereça a randomização de fase para índices de DFT que não pertencem a qualquer intervalo
Figure img0121
. Como descrito acima, os intervalos
Figure img0122
, k=1...K, precisam ser definidos tal que eles são estritamente não sobrepostos o que é feito usando algum parâmetro δ que controla o tamanho dos intervalos. Pode acontecer que δ é pequeno com relação à distância de frequência de dois sinusoides vizinhos. Assim, naquele caso acontece que existe uma lacuna entre dois intervalos. Consequentemente, para os correspondentes índices de DFT m nenhum deslocamento de fase de acordo com a expressão acima
Figure img0123
é definido. Uma escolha adequada de acordo com esta modalidade é para tornar aleatória a fase para estes índices, produzindo
Figure img0124
, onde a função
Figure img0125
retorna algum número aleatório.
[00161] Modalidades que adaptam o tamanho dos intervalos Mk em resposta à tonalidade do sinal são descritas na sequência.
[00162] Uma modalidade desta invenção compreende adaptar o tamanho dos intervalos Mk em resposta à tonalidade do sinal. Esta adaptação pode ser combinada com a estimativa de frequência intensificada descrita acima, que usa, por exemplo, uma aproximação de lobo principal, uma intensificação harmônica, ou uma intensificação de interquadro. No entanto, uma adaptação do tamanho dos intervalos Mk em resposta à tonalidade do sinal alternativamente pode ser realizada sem qualquer estimativa de frequência intensificada anterior.
[00163] Foi descoberto que é benéfico para a qualidade do sinal reconstruídos otimizar o tamanho dos intervalos Mk. Em particular, os intervalos devem ser maiores se o sinal é muito tonal, isto é, quando possui picos espectrais claros e distintos. Este é o caso, por exemplo, quando o sinal é harmônico com uma periodicidade clara. Em outros casos onde o sinal possui estrutura espectral menos pronunciada com máximos espectrais mais vastos, foi descoberto que o uso de pequenos intervalos leva à melhor qualidade. Esta descoberta leva a um aprimoramento adicional de acordo com o qual o tamanho do intervalo é adaptado de acordo com as propriedades do sinal. Uma realização é o uso de uma tonalidade ou um detector de periodicidade. Se este detector identifica o sinal como tonal, o parâmetro δ que controla o tamanho do intervalo é definido para um valor relativamente grande. De outra maneira, o parâmetro δ é definido para valores relativamente menores.
[00164] A análise senoidal de uma parte de um sinal de áudio reconstruído ou recebido anteriormente é realizada, em que a análise senoidal envolve, em uma etapa, identificar frequências de componentes sinusoidais, isto é, sinusoides do sinal de áudio. Em uma etapa, um modelo sinusoidal é aplicado em um segmento do sinal de áudio reconstruído ou recebido anteriormente, em que o dito segmento é usado como um quadro de protótipo de maneira a criar um quadro de substituição para um quadro de áudio de perda, e em uma etapa o quadro de substituição para o quadro de áudio de perda é criado, envolvendo a evolução com o tempo de componentes sinusoidais, isto é, sinusoides do quadro de protótipo, até o momento de tempo do quadro de áudio de perda, em resposta às correspondentes frequências identificadas. No entanto, a etapa de identificar frequências de componentes sinusoidais e/ou a etapa de criar o quadro de substituição pode compreender adicionalmente realizar pelo menos um de uma estimativa de frequência intensificada na identificação de frequências, e uma adaptação da criação do quadro de substituição em resposta à tonalidade do sinal de áudio. A estimativa de frequência intensificada compreende pelo menos um de uma aproximação de lobo principal uma intensificação harmônica, e uma intensificação de interquadro.
[00165] De acordo com uma modalidade adicional, é assumido que o sinal de áudio é composto de um número limitado de individual componentes sinusoidais.
[00166] De acordo com uma modalidade de exemplo, o método compreende extrair um quadro de protótipo a partir de um sinal reconstruído ou recebido anteriormente disponível usando uma função de janela, e em que o quadro de protótipo extraído pode ser transformado em uma representação de domínio de frequência.
[00167] De acordo com uma primeira modalidade alternativa, a estimativa de frequência intensificada compreende aproximar a forma de um lobo principal de um espectro de magnitude relacionado com uma função de janela, e pode compreender adicionalmente identificar um ou mais picos espectrais, k, e os correspondentes índices de transformada de domínio de frequência discreta Mk associados com um quadro de análise; derivando uma função P(q) que aproxima o espectro de magnitude relacionado com a função de janela, e para cada pico, k, com um correspondente índice de transformada de domínio de frequência discreta Mk, ajustando uma função de frequência deslocada P(q - qk) através de dois pontos de grade da transformada de domínio de frequência discreta que cerca um pico real esperado de um espectro contínuo de um sinal de modelo sinusoidal assumido associado com o quadro de análise.
[00168] De acordo com uma segunda modalidade alternativa, a estimativa de frequência intensificada é uma intensificação harmônica, compreendendo determinar se o sinal de áudio é harmônico, e derivar uma frequência fundamental, se o sinal é harmônico. A determinação pode compreender pelo menos um de realizar uma análise de autocorrelação do sinal de áudio e usando um resultado de uma previsão de passo de ciclo fechado, por exemplo, o ganho de passo. A etapa de derivar pode compreender o uso de um resultado adicional de uma previsão de passo de ciclo fechado, por exemplo, o atraso de passo. Adicionalmente de acordo com esta segunda modalidade alternativa, a etapa de derivar pode compreender verificar, para um índice harmônico j, se existe um pico em um espectro de magnitude dentro da vizinhança de uma frequência harmônica associada com o dito índice harmônico e uma frequência fundamental, o espectro de magnitude sendo associado com a etapa de identificação.
[00169] De acordo com uma terceira modalidade alternativa, a estimativa de frequência intensificada é uma intensificação de interquadro, compreendendo combinar frequências identificadas a partir de dois ou mais quadros de sinal de áudio. A combinação pode compreender uma média e/ou uma previsão, e um rastreamento de pico pode ser aplicado antes da média e/ou previsão.
[00170] De acordo com uma modalidade, a adaptação em resposta à tonalidade do sinal de áudio envolve adaptar um tamanho de um intervalo Mk localizado na vizinhança de a componente sinusoidal k, dependendo da tonalidade do sinal de áudio. Adicionalmente, a adaptação do tamanho de um intervalo pode compreender aumentar o tamanho do intervalo para um sinal de áudio tendo picos espectrais comparativamente mais distintos, e reduzindo o tamanho do intervalo for um sinal de áudio tendo picos espectrais comparativamente mais largos.
[00171] O método de acordo com modalidades pode compreender evoluir com o tempo componentes sinusoidais de um espectro de frequência de um quadro de protótipo avançando a fase de a componente sinusoidal, em resposta à frequência deste componente sinusoidal e em resposta à diferença de tempo entre o quadro de áudio de perda e o quadro de protótipo. Pode compreender adicionalmente alterar um coeficiente espectral do quadro de protótipo incluído no intervalo Mk localizado na vizinhança de um sinusoide k por um deslocamento de fase proporcional com a frequência sinusoidal fk e a diferença de tempo entre o quadro de áudio de perda e o quadro de protótipo.
[00172] Modalidades também podem compreender uma transformada de domínio de frequência inversa do espectro de frequência do quadro de protótipo, após as alterações descritas acima dos coeficientes espectrais.
[00173] Mais especificamente, o método de ocultação de perda de quadro de áudio de acordo com uma modalidade adicional pode envolver as seguintes etapas: 1) Analisar um segmento do sinal sintetizado anteriormente disponível para obter as frequências sinusoidais constituintes
Figure img0126
de um modelo sinusoidal. 2) Extrair um quadro de protótipo
Figure img0127
a partir do sinal sintetizado anteriormente disponível e calcular a DFT daquele quadro. 3) Calcular o deslocamento de fase θk para cada sinusoide k em resposta à frequência sinusoidal
Figure img0128
e o avanço de tempo
Figure img0129
entre o quadro de protótipo e o quadro de substituição, em que o tamanho do intervalo Mk pode ter sido adaptado em resposta à tonalidade do sinal de áudio. 4) Para cada sinusoide k que avança a fase do quadro de protótipo DFT com θk seletivamente para os índices de DFT relacionados com uma vizinhança em torno da frequência de sinusoide
Figure img0130
. 5) Calcular a DFT inversa do espectro obtida na etapa 4).
[00174] As modalidades descritas acima podem ser adicionalmente explicadas pelas seguintes hipóteses: d) A hipótese de que o sinal pode ser representado por um número limitado de sinusoides. e) A hipótese de que o quadro de substituição é suficientemente bem representado por estes sinusoides evoluídos no tempo, em comparação com algum instante de tempo anterior. f) A hipótese de uma aproximação do espectro de uma função de janela tal que o espectro do quadro de substituição pode ser acumulado por porções não sobrepostas de espectros de função de janela deslocada de frequência, as frequências de deslocamento que são as frequências de sinusoide.
[00175] O dito abaixo está relacionado com um método de controle para ECU de Fase, que foi mencionado anteriormente.
Adaptação do método de ocultação de perda de quadro
[00176] No caso de as etapas realizadas acima indicarem uma condição que sugere uma adaptação da operação de ocultação de perda de quadro o cálculo do espectro do quadro de substituição é modificado.
[00177] Enquanto o cálculo original do espectro de quadro de substituição é feito de acordo com a expressão
Figure img0131
, agora uma adaptação é introduzida pela modificação tanto da magnitude quanto da fase. A magnitude é modificada por meio de escalonamento com dois fatores α(m) e β(m) e a fase é modificada com um componente de fase aditivo 3(m). Isto leva ao seguinte cálculo modificado do quadro de substituição:
Figure img0132
[00178] Deve ser notado que os métodos de ocultação de perda de quadro originais (não adaptados) são usados se α(m) = 1, β(m) = 1, e 3(m) = 0. Estes respectivos valores assim são o padrão.
[00179] O objetivo geral com a introdução de adaptações de magnitude é evitar artefatos audíveis do método de ocultação de perda de quadro. Tais artefatos podem ser sons musicais ou tonais ou sons estranhos que surgem das repetições de sons transientes. Tais artefatos por sua vez levam às degradações de qualidade, evitar isto que é o objetivo das adaptações descritas. Um modo adequado para tais adaptações é modificar o espectro de magnitude do quadro de substituição para um grau adequado.
[00180] Uma modalidade da modificação do método de ocultação será descrita agora. A adaptação de magnitude preferivelmente é feita se o contador de perda de rajada nrajada excede algum limite thrrajada, por exemplo, thrrajada = 3. Naquele caso um valor menor do que 1 é usado para o fator de atenuação, por exemplo, α(m) = 0.1.
[00181] No entanto, foi descoberto que é benéfico realizar a atenuação com grau gradualmente crescente. Uma modalidade preferida que alcança isto é para definir um parâmetro logarítmico que especifica um aumento logarítmico na atenuação por quadro, att_per_frame. Então, no caso do contador de rajada exceder o limite o fator de atenuação gradualmente crescente é calculado por
Figure img0133
[00182] Aqui, a constante c é meramente uma constante de escalonamento que permite especificar o parâmetro att_per_frame por exemplo em decibéis (dB).
[00183] Uma adaptação preferida adicional é feita em resposta ao indicador se o sinal estimado como sendo música ou fala. Para conteúdo de música em comparação com conteúdo de fala é preferível aumentar o limite thrrajada e diminui a atenuação por quadro. Isto é equivalente com a realização de adaptação do método de ocultação de perda de quadro com um menor grau. Os fundamentos deste tipo de adaptação são que a música em geral é menos sensível às rajadas de perda mais longos do que a fala. Assim, o método de ocultação de perda de quadro original, isto é, não modificado ainda é preferível para este caso, pelo menos para um maior número de perdas de quadro em uma fileira.
[00184] Uma adaptação adicional do método de ocultação com relação à magnitude fator de atenuação preferivelmente é feita no caso de um transiente ter sido detectado com base naquele indicador Rl/r, banda(k) ou alternativamente Rl/r (m) ou Rl/r passaram de um limite. Naquele caso uma ação de adaptação adequada é para modificar o segundo fator de atenuação de magnitude β(m) tal que a atenuação total é controlada pelo produto dos dois fatores α(m) • β(m).
[00185] β(m) é definido em resposta a um transiente indicado. No caso de um deslocamento ser detectado o fator β(m) preferivelmente deve ser escolhido para refletir a diminuição de energia do deslocamento. Uma escolha adequada é definir β(m) para a mudança de ganho detectada:
Figure img0134
, para
Figure img0135
[00186] No caso de um surgimento ser detectado em vez disso é descoberto como vantajoso limitar o aumento de energia no quadro de substituição. Naquele caso o fator pode ser definido até algum valor fixo de, por exemplo, 1, o que quer dizer que não existe atenuação mas não qualquer amplificação também.
[00187] No dito acima deve ser notado que o fator de atenuação de magnitude é preferivelmente aplicada frequência seletivamente, isto é, com fatores individualmente calculados para cada banda de frequência. No caso de a abordagem de banda não ser usada, os correspondentes fatores de atenuação de magnitude ainda podem ser obtidos de um modo análogo. β(m) então pode ser definido individualmente para cada compartimento de DFT no caso de detecção transiente seletiva de frequência ser usada no nível de compartimento de DFT. Ou, no caso de nenhuma indicação transiente seletiva de frequência ser usada β(m) pode ser globalmente idêntica com todos m.
[00188] Uma adaptação preferida adicional do fator de atenuação de magnitude é feito em conjunto com uma modificação da fase por meio do componente de fase adicional 3(m). No caso para um dado m tal modificação de fase é usada, o fator de atenuação β(m) é reduzido ainda mais. Preferivelmente, mesmo o grau de modificação de fase é levado em conta. Se a modificação de fase é apenas moderada, β(m) é apenas escalonada levemente para baixo, enquanto se a modificação de fase é forte, β(m) é escalonado para baixo até um maior grau.
[00189] O objetivo geral com a introdução de adaptações de fase é para evitar tonalidade muito forte ou periodicidade de sinal nos quadros de substituição gerados, que por sua vez pode levar às degradações de qualidade. Um modo adequado para tais adaptações é para tornar aleatório ou tremer a fase para um grau adequada.
[00190] Tal tremor de fase é alcançado se o componente de fase adicional 3(m) é definido para um valor aleatório escalonado com algum fator de controle: & (m) = a (m) • aleatório^).
[00191] O valor aleatório obtido pela função aleatório^), por exemplo, é gerado por algum gerador de número pseudoaleatório. É assumido aqui que provê um número aleatório dentro do intervalo [0, 2π].
[00192] O fator de escalonamento a(m) na equação acima controla o grau em que a fase original θk é tremida. As seguintes modalidades se endereçam à adaptação de fase por meio de controle deste fator de escalonamento. O controle do fator de escalonamento é feito de um modo análogo como o controle dos fatores de modificação de magnitude descritos acima.
[00193] De acordo com uma primeira modalidade, o fator de escalonamento a(m) está adaptado em resposta ao contador de perda de rajada. Se o contador de perda de rajada nrajada excede algum limite thrrajada, por exemplo, thrrajada = 3, um valor maior do que 0 é usado, por exemplo, a(m) = 0,2.
[00194] No entanto, foi descoberto que é benéfico para realizar o tremor com grau gradualmente crescente. Uma modalidade preferida que alcança isto é para definir um parâmetro que especifica um aumento no tremor por quadro, dith_increase_per_frame. Então no caso de o contador de rajada excede o limite o fator de controle de tremor gradualmente crescente é calculado por
Figure img0136
[00195] Deve ser notado que na fórmula acima a(m) precisa ser limitado a um valor máximo de 1 para o qual tremor de fase completo é alcançado.
[00196] Deve ser notado que o valor limite de perda de rajada thrrajada usado para tremor de fase de iniciação pode ser o mesmo limite que aquele usado para atenuação de magnitude. No entanto, melhor qualidade pode ser obtida definindo estes limites para valores individualmente ótimos, que em geral quer dizer que estes limites podem ser diferentes.
[00197] Uma adaptação preferida adicional é feita em resposta ao indicador se o sinal é estimado para ser música ou fala. Para o conteúdo musical em comparação com o conteúdo de fala é preferível para aumentar o limite thrrajada quer dizer que tremor de fase para música como comparado à fala é feito apenas no caso de mais quadros perdidos em uma fileira. Isto é equivalente com a realização da adaptação do método de ocultação de perda de quadro para música com um menor grau. Os fundamentos deste tipo de adaptação é que a música em geral é menos sensível às rajadas de perda mais longa do que a fala. Assim, o método de ocultação de perda de quadro original, isto é, não modificado ainda é preferível para este caso, pelo menos para um maior número de perdas de quadro em uma fileira.
[00198] Uma modalidade adicional preferida é para adaptar o tremor de fase em resposta ao transiente detectado. Naquele caso um grau mais forte de tremor de fase pode ser usado para os compartimentos de DFT m para os quais um transiente é indicado tanto para aquele compartimento, os compartimentos de DFT da banda de frequência correspondente ou de todo o quadro.
[00199] Parte dos esquemas descritos se endereçam à otimização do método de ocultação de perda de quadro para sinais harmônicos e particularmente para fala de voz.
[00200] No caso de os métodos usarem uma estimativa de frequência intensificada como descrito acima não são realizados outra possibilidade de adaptação para o método de ocultação de perda de quadro que otimiza a qualidade para sinais de fala de voz é para comutar para algum outro método de ocultação de perda de quadro que especificamente é projetado e otimizado para fala em vez do que para sinais de áudio gerais contendo música e fala. Naquele caso, o indicador que o sinal compreende um sinal de fala de voz é usado para selecionar outro esquema de ocultação de perda de quadro de fala otimizada em vez do que os esquemas descritos acima.
[00201] Em sumário, deve ser entendido que a escolha de módulos ou unidades de interação, bem como a nomeação das unidades são apenas para propósito de exemplo, e pode ser configurado em uma pluralidade de modos alternativos de maneira a ser capaz de executar as ações de processo descritas.
[00202] Também deve ser notado que as unidades ou módulos descritos nesta descrição devem ser considerados como entidades lógicas e não com necessidade como entidades físicas separadas. Será percebido que o escopo da tecnologia descrita aqui engloba completamente outras modalidades que podem se tornar óbvias para os peritos na técnica, e que o escopo desta descrição não deve estar limitado de maneira apropriada.
[00203] Referência a um elemento no singular não está intencionada a significar "um e apenas um" a menos que seja declarado de maneira explícita, mas em vez disso "um ou mais." Todos os equivalentes estruturais e funcionais para os elementos das modalidades descritas acima que são conhecidas do perito na técnica são incorporadas de maneira expressa aqui por referência e são intencionadas de ser englobadas aqui. Além disso, não é necessário para um dispositivo ou método se endereçar a cada e todo problema que se deseja resolver pela tecnologia descrita aqui, para ser englobado aqui.
[00204] Na descrição anterior, para os propósitos de explicação e não de limitação, detalhes específicos são definidos tais como particulares arquiteturas, interfaces, técnicas, etc. de maneira a prover um entendimento completo da tecnologia descrita. No entanto, será aparente para os peritos na técnica que a tecnologia descrita pode ser praticada em outras modalidades e/ou combinações de modalidades que fogem destes detalhes específicos. Ou seja, os peritos na técnica serão capazes de derivar vários arranjos que, apesar de não ser descrito ou mostrado de maneira explícita aqui, incorporam os princípios da tecnologia descrita. Em alguns casos, descrições detalhadas de dispositivos, circuitos, e métodos bem conhecidos são omitidos de forma a não obscurecer a descrição da tecnologia descrita com detalhe desnecessário. Todas as declarações aqui citando princípios, aspectos, e modalidades da tecnologia descrita, bem como exemplos específicos das mesmas, são intencionados a englobar tanto equivalentes estruturais quanto funcionais dos mesmos. Adicionalmente, é intencionado que tais equivalentes incluem ambos os equivalentes conhecidos bem como equivalentes desenvolvidos no futuro, por exemplo, quaisquer elementos desenvolvidos que realizam a mesma função, independentemente da estrutura.
[00205] Assim, por exemplo, será percebido pelo perito na técnica que as figuras aqui podem representar visões conceituais dos circuitos ilustrativos ou outras unidades funcionais que incorporam os princípios da tecnologia, e/ou vários processos que podem ser substancialmente representados no meio legível por computador e executados por um computador ou processador, mesmo que tal computador ou processador não possa ser mostrado de maneira explícita nas figuras.
[00206] As funções de vários elementos incluindo blocos funcionais podem ser providas através do uso de hardware tal como hardware de circuito e/ou hardware capaz de executar software na forma de instruções codificadas armazenadas no meio legível por computador. Assim, tais funções e blocos funcionais ilustrados devem ser entendidos como sendo implementados por hardware e/ou implementados por computador, e assim implementados por máquina.
[00207] As modalidades descritas acima devem ser entendidas como uns poucos exemplos ilustrativos da presente invenção. Será entendido pelo perito na técnica que várias modificações, combinações e alterações podem ser feitas às modalidades sem fugir do escopo da presente invenção. Em particular, diferentes soluções de parte nas diferentes modalidades podem ser combinadas em outras configurações, onde for tecnicamente possível.
[00208] O conceito da invenção foi descrito principalmente acima com referência a umas poucas modalidades. No entanto, como é prontamente percebido por um perito na técnica, outras modalidades diferentes do que aquelas descritas acima são igualmente possíveis dentro do escopo do conceito da invenção, como definido pelas reivindicações de patente anexas.

Claims (25)

1. Método para ocultação de perda de quadro, o método sendo realizado por uma entidade de recepção (103, 200, 400, 800, 900), caracterizado por compreender as etapas de: receber um fluxo de bits de entrada; decodificar o fluxo de bits para formar um primeiro sinal; alimentar o primeiro sinal em um buffer para armazenamento temporário; detectar um quadro perdido, e em reposta à detecção do quadro perdido: realizar uma análise senoidal e evolução de fase do primeiro sinal em buffer, em que a análise senoidal compreende identificar frequências de componentes senoidais do primeiro sinal em buffer; construir um quadro de substituição para o quadro perdido com base na análise senoidal e evolução de fase do primeiro sinal em buffer, em que a construção do quadro de substituição compreende a evolução no tempo dos componentes senoidais do primeiro sinal em buffer, até o instante de tempo do quadro perdido, com base nas correspondentes frequências identificadas; determinar que um comprimento de erro em rajada N excede um primeiro limite não nulo; e adicionar (S104, S208), em associação com a construção do dito quadro de substituição para o dito quadro perdido e em resposta à determinação de que o comprimento de erro em rajada excede o primeiro limite não nulo, um componente de ruído para o quadro de substituição, em que o dito componente de ruído possui uma característica de frequência correspondendo a uma representação espectral de baixa resolução de um sinal de áudio ou de fala em um quadro recebido anteriormente. e em que o componente de ruído e o quadro de substituição são escalonados com fatores de escala que são dependentes do número de quadros consecutivamente perdidos tal que o componente de ruído seja gradualmente sobreposto no quadro de substituição com o aumento da magnitude como uma função do dito número de quadros consecutivamente perdidos.
2. Método de acordo com a reivindicação 1 caracterizado pelo fato de o espectro de quadro de substituição e o componente de ruído serem sobrepostos no domínio de frequência.
3. Método de acordo com qualquer uma das reivindicações 1 a 2, caracterizado pelo fato de a representação espectral de baixa resolução ser com base num espectro de magnitude do dito sinal no dito quadro recebido anteriormente.
4. Método de acordo com a reivindicação 3, caracterizado pelo fato de que compreende adicionalmente a etapa de: obter (S202a) adita representação de baixa resolução do dito espectro de magnitude tirando a média do grupo de frequência do dito espectro de magnitude do dito sinal no dito quadro recebido anteriormente.
5. Método de acordo com a reivindicação 3, caracterizado pelo fato de que compreende adicionalmente a etapa de: obter (S202b) a dita representação de baixa resolução do dito espectro de magnitude tirando-se a média do grupo de frequência de um grande número N de transformadas no domínio de frequência de baixa resolução do dito sinal no dito quadro recebido anteriormente.
6. Método de acordo com a reivindicação 4 ou reivindicação 5, caracterizado pelo fato de que larguras do grupo, usadas durante o dito ato de tirar a média do grupo de frequência, seguem bandas críticas da audição humana.
7. Método de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de a representação espectral de baixa resolução ser com base em um conjunto de parâmetros de codificação preditiva linear, LPC.
8. Método de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que a dita adição do componente de ruído ao quadro de substituição é realizada no domínio de frequência.
9. Método de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de a dita adição do componente de ruído ao quadro de substituição é realizada no domínio do tempo.
10. Método de acordo com qualquer uma das reivindicações 2 a 8, caracterizado pelo fato de o quadro de substituição ser gradualmente atenuado por um fator de atenuação α(M).
11. Método de acordo com a reivindicação 10, caracterizado pelo fato de que o quadro de substituição possui uma fase, e em que a dita fase é sobreposta com um valor de fase aleatório «9 (m).
12. Método de acordo com a reivindicação 10 ou reivindicação 11, caracterizado pelo fato de que compreende adicionalmente a etapa de: determinar (S204) um fator de escalonamento de magnitude β(M) para o componente de ruído tal que β(M) compense a perda de energia resultante a partir da aplicação do fator de atenuação α(M) ao quadro de substituição.
13. Método de acordo com a reivindicação 12, caracterizado pelo fato de o componente de ruído ser provido com um valor de fase aleatório n (m).
14. Método de acordo com qualquer uma das reivindicações 11 a 13, caracterizado pelo fato de que β(m) é determinado como:
Figure img0137
15. Método de acordo com a reivindicação 11 ou reivindicação 13, caracterizado pelo fato de que β(m) é determinado como:
Figure img0138
onde X (m) é um fator de atenuação dependente da frequência.
16. Método de acordo com a reivindicação 15, caracterizado pelo fato de que X(M) é igual a 1 para m abaixo de um limite, e X(M) é menor do que 1 para m acima do referido limite.
17. Método de acordo com qualquer uma das reivindicações 1 a 16, caracterizado pelo fato de que uma característica de passa baixa é imposta na dita representação espectral de baixa resolução.
18. Método de acordo com qualquer uma das reivindicações 12 a 17, caracterizado pelo fato de que tais fatores de escalonamento a(m) e β(m) são constantes do grupo de frequência.
19. Método de acordo com a reivindicação 12, caracterizado pelo fato de que compreende adicionalmente a etapa de: aplicar (S103, S206) um fator de atenuação de longo prazo Y a β(M) quando o dito comprimento de erro em rajada N exceder um segundo limite T2 pelo menos tão grande quanto o dito primeiro limite.
20. Método de acordo com a reivindicação 19, caracterizado pelo fato de que T2 > 10.
21. Método de acordo com qualquer uma das reivindicações 1 a 20, caracterizado pelo fato de que o dito componente de quadro de substituição é derivado por um método de ocultação de perda de quadro primária.
22. Entidade de recepção (103, 200, 400, 800, 900) para ocultação de perda de quadro, caracterizada por compreender circuitos de processamento (803), os circuitos de processamento sendo configurados para fazer com que a entidade de recepção realize um conjunto de operações compreendendo: receber um fluxo de bits de entrada; decodificar o fluxo de bits para formar um primeiro sinal; alimentar o primeiro sinal em um buffer para armazenamento temporário; detectar um quadro perdido, e em reposta à detecção do quadro perdido: realizar uma análise senoidal e evolução de fase do primeiro sinal em buffer, em que a análise senoidal compreende identificar frequências de componentes senoidais do primeiro sinal em buffer; construir um quadro de substituição para o quadro perdido com base na análise senoidal e evolução de fase do primeiro sinal em buffer, em que a construção do quadro de substituição compreende a evolução no tempo dos componentes senoidais do primeiro sinal em buffer, até o instante de tempo do quadro perdido, com base nas correspondentes frequências identificadas; determinar que um comprimento de erro em rajada N excede um primeiro limite não nulo; e adicionar (S104, S208), em associação com a construção do dito quadro de substituição para o dito quadro perdido e em resposta à determinação de que o comprimento de erro em rajada excede o primeiro limite não nulo, um componente de ruído para o quadro de substituição, em que o dito componente de ruído possui uma característica de frequência correspondendo a uma representação espectral de baixa resolução de um sinal de áudio ou de fala em um quadro recebido anteriormente. e em que o componente de ruído e o quadro de substituição são escalonados com fatores de escala que são dependentes do número de quadros consecutivamente perdidos tal que o componente de ruído seja gradualmente sobreposto no quadro de substituição com o aumento da magnitude como uma função do dito número de quadros consecutivamente perdidos.
23. Entidade de recepção de acordo com a reivindicação 22, sendo caracterizada por compreender adicionalmente um meio de armazenamento (804) que armazena o dito conjunto de operações, e em que os circuitos de processamento são configurados para recuperar o dito conjunto de operações a partir do meio de armazenamento para fazer com que a entidade de recepção realize o dito conjunto de operações.
24. Entidade de recepção de acordo com a reivindicação 22 ou reivindicação 23, caracterizado pelo fato de que o dito conjunto de operações é provido como um conjunto de instruções executáveis.
25. Meio de armazenamento não transitório legível por computador (1003) para ocultação de perda de quadro, caracterizado pelo fato de que compreende instruções legíveis por computador que, quando lidas por circuitos de processamento de uma entidade de recepção, faz com que a entidade de recepção realize um conjunto de operações compreendendo: receber um fluxo de bits de entrada; decodificar o fluxo de bits para formar um primeiro sinal; alimentar o primeiro sinal em um buffer para armazenamento temporário; detectar um quadro perdido, e em reposta à detecção do quadro perdido: realizar uma análise senoidal e evolução de fase do primeiro sinal em buffer, em que a análise senoidal compreende identificar frequências de componentes senoidais do primeiro sinal em buffer; construir um quadro de substituição para o quadro perdido com base na análise senoidal e evolução de fase do primeiro sinal em buffer, em que a construção do quadro de substituição compreende a evolução no tempo dos componentes senoidais do primeiro sinal em buffer, até o instante de tempo do quadro perdido, com base nas correspondentes frequências identificadas; determinar que um comprimento de erro em rajada N excede um primeiro limite não nulo; e adicionar (S104, S208), em associação com a construção do dito quadro de substituição para o quadro perdido e em resposta à determinação de que o comprimento de erro em rajada excede o primeiro limite não nulo, um componente de ruído para o quadro de substituição, em que o componente de ruído possui uma característica de frequência correspondendo a uma representação espectral de baixa resolução de um sinal de áudio ou de fala em um quadro recebido anteriormente. e em que o componente de ruído e o quadro de substituição são escalonados com fatores de escala que são dependentes do número de quadros consecutivamente perdidos tal que o componente de ruído seja gradualmente sobreposto no quadro de substituição com o aumento da magnitude como uma função do dito número de quadros consecutivamente perdidos.
BR112016027898-4A 2014-06-13 2015-06-08 Método, entidade de recepção, e, meio de armazenamento não transitório legível por computador para ocultação de perda de quadro BR112016027898B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462011598P 2014-06-13 2014-06-13
US62/011,598 2014-06-13
PCT/SE2015/050662 WO2015190985A1 (en) 2014-06-13 2015-06-08 Burst frame error handling

Publications (3)

Publication Number Publication Date
BR112016027898A2 BR112016027898A2 (pt) 2017-08-15
BR112016027898A8 BR112016027898A8 (pt) 2021-07-13
BR112016027898B1 true BR112016027898B1 (pt) 2023-04-11

Family

ID=53502813

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016027898-4A BR112016027898B1 (pt) 2014-06-13 2015-06-08 Método, entidade de recepção, e, meio de armazenamento não transitório legível por computador para ocultação de perda de quadro

Country Status (12)

Country Link
US (5) US9972327B2 (pt)
EP (3) EP3367380B1 (pt)
JP (3) JP6490715B2 (pt)
CN (3) CN111312261B (pt)
BR (1) BR112016027898B1 (pt)
DK (1) DK3664086T3 (pt)
ES (2) ES2897478T3 (pt)
MX (3) MX2021008185A (pt)
PL (1) PL3367380T3 (pt)
PT (1) PT3664086T (pt)
SG (2) SG11201609159PA (pt)
WO (1) WO2015190985A1 (pt)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT3664086T (pt) * 2014-06-13 2021-11-02 Ericsson Telefon Ab L M Gestão de erros de tramas em rajada
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
WO2020154367A1 (en) * 2019-01-23 2020-07-30 Sound Genetics, Inc. Systems and methods for pre-filtering audio content based on prominence of frequency content

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3601074B2 (ja) * 1994-05-31 2004-12-15 ソニー株式会社 信号処理方法及び信号処理装置
FI97182C (fi) * 1994-12-05 1996-10-25 Nokia Telecommunications Oy Menetelmä vastaanotettujen huonojen puhekehysten korvaamiseksi digitaalisessa vastaanottimessa sekä digitaalisen tietoliikennejärjestelmän vastaanotin
US6952668B1 (en) 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
EP1098297A1 (en) * 1999-11-02 2001-05-09 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
DE60100131T2 (de) * 2000-09-14 2003-12-04 Lucent Technologies Inc Verfahren und Vorrichtung zur Diversity-Betriebsteuerung in der Sprachübertragung
JP2002229593A (ja) 2001-02-06 2002-08-16 Matsushita Electric Ind Co Ltd 音声信号復号化処理方法
DE10130233A1 (de) * 2001-06-22 2003-01-02 Bosch Gmbh Robert Verfahren zur Störverdeckung bei digitaler Audiosignalübertragung
WO2003023763A1 (en) 2001-08-17 2003-03-20 Broadcom Corporation Improved frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
JP2003099096A (ja) 2001-09-26 2003-04-04 Toshiba Corp オーディオ復号処理装置及びこの装置に用いられる誤り補償装置
US20040122680A1 (en) * 2002-12-18 2004-06-24 Mcgowan James William Method and apparatus for providing coder independent packet replacement
US6987591B2 (en) * 2003-07-17 2006-01-17 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada Volume hologram
US7546508B2 (en) * 2003-12-19 2009-06-09 Nokia Corporation Codec-assisted capacity enhancement of wireless VoIP
EP1722359B1 (en) * 2004-03-05 2011-09-07 Panasonic Corporation Error conceal device and error conceal method
EP1746580B1 (en) * 2004-05-10 2010-03-24 Nippon Telegraph and Telephone Corporation Acoustic signal packet communication method, transmission method, reception method, and device and program thereof
KR100708123B1 (ko) * 2005-02-04 2007-04-16 삼성전자주식회사 자동으로 오디오 볼륨을 조절하는 방법 및 장치
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
CN101115051B (zh) * 2006-07-25 2011-08-10 华为技术有限公司 音频信号处理方法、系统以及音频信号收发装置
EP2054878B1 (en) * 2006-08-15 2012-03-28 Broadcom Corporation Constrained and controlled decoding after packet loss
JP2008058667A (ja) * 2006-08-31 2008-03-13 Sony Corp 信号処理装置および方法、記録媒体、並びにプログラム
CN101046964B (zh) * 2007-04-13 2011-09-14 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
JP2009063928A (ja) * 2007-09-07 2009-03-26 Fujitsu Ltd 補間方法、情報処理装置
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
US8321216B2 (en) * 2010-02-23 2012-11-27 Broadcom Corporation Time-warping of audio signals for packet loss concealment avoiding audible artifacts
PL2874149T3 (pl) * 2012-06-08 2024-01-29 Samsung Electronics Co., Ltd. Sposób i urządzenie do ukrywania błędu ramki oraz sposób i urządzenie do dekodowania audio
CN107731237B (zh) * 2012-09-24 2021-07-20 三星电子株式会社 时域帧错误隐藏设备
EP3576087B1 (en) 2013-02-05 2021-04-07 Telefonaktiebolaget LM Ericsson (publ) Audio frame loss concealment
US9478221B2 (en) 2013-02-05 2016-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced audio frame loss concealment
SG10201700846UA (en) 2013-02-05 2017-03-30 Ericsson Telefon Ab L M Method and apparatus for controlling audio frame loss concealment
CN103456307B (zh) * 2013-09-18 2015-10-21 武汉大学 音频解码器中帧差错隐藏的谱代替方法及系统
PT3664086T (pt) * 2014-06-13 2021-11-02 Ericsson Telefon Ab L M Gestão de erros de tramas em rajada

Also Published As

Publication number Publication date
US20200118573A1 (en) 2020-04-16
EP3367380A1 (en) 2018-08-29
CN106463122B (zh) 2020-01-31
CN106463122A (zh) 2017-02-22
US9972327B2 (en) 2018-05-15
MX2018015154A (es) 2021-07-09
MX361844B (es) 2018-12-18
JP6714741B2 (ja) 2020-06-24
JP2017525985A (ja) 2017-09-07
US20180182401A1 (en) 2018-06-28
EP3664086A1 (en) 2020-06-10
CN111312261A (zh) 2020-06-19
DK3664086T3 (da) 2021-11-08
JP6490715B2 (ja) 2019-03-27
US11100936B2 (en) 2021-08-24
US20230368802A1 (en) 2023-11-16
WO2015190985A1 (en) 2015-12-17
MX2021008185A (es) 2022-12-06
MX2016014776A (es) 2017-03-06
SG11201609159PA (en) 2016-12-29
JP6983950B2 (ja) 2021-12-17
US20210350811A1 (en) 2021-11-11
PL3367380T3 (pl) 2020-06-29
CN111292755B (zh) 2023-08-25
BR112016027898A8 (pt) 2021-07-13
ES2785000T3 (es) 2020-10-02
EP3367380B1 (en) 2020-01-22
PT3664086T (pt) 2021-11-02
US20160284356A1 (en) 2016-09-29
ES2897478T3 (es) 2022-03-01
EP3155616A1 (en) 2017-04-19
US11694699B2 (en) 2023-07-04
JP2019133169A (ja) 2019-08-08
CN111312261B (zh) 2023-12-05
SG10201801910SA (en) 2018-05-30
CN111292755A (zh) 2020-06-16
US10529341B2 (en) 2020-01-07
JP2020166286A (ja) 2020-10-08
BR112016027898A2 (pt) 2017-08-15
EP3664086B1 (en) 2021-08-11

Similar Documents

Publication Publication Date Title
JP6698792B2 (ja) オーディオフレーム損失のコンシールメントを制御する方法及び装置
US11694699B2 (en) Burst frame error handling
OA17529A (en) Method and apparatus for controlling audio frame loss concealment.

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 08/06/2015, OBSERVADAS AS CONDICOES LEGAIS