BR122017018553B1 - Método e aparelho para a determinação de um fator de escala otimizado - Google Patents
Método e aparelho para a determinação de um fator de escala otimizado Download PDFInfo
- Publication number
- BR122017018553B1 BR122017018553B1 BR122017018553-5A BR122017018553A BR122017018553B1 BR 122017018553 B1 BR122017018553 B1 BR 122017018553B1 BR 122017018553 A BR122017018553 A BR 122017018553A BR 122017018553 B1 BR122017018553 B1 BR 122017018553B1
- Authority
- BR
- Brazil
- Prior art keywords
- filter
- frequency
- band
- signal
- frequency band
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000005284 excitation Effects 0.000 claims abstract description 92
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 230000004044 response Effects 0.000 claims description 42
- 238000009499 grossing Methods 0.000 claims description 28
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 7
- 238000009877 rendering Methods 0.000 claims 2
- 238000001914 filtration Methods 0.000 abstract description 36
- 230000008569 process Effects 0.000 abstract description 22
- 230000006870 function Effects 0.000 description 32
- 238000003786 synthesis reaction Methods 0.000 description 25
- 230000015572 biosynthetic process Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 14
- 238000012937 correction Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 11
- 238000012952 Resampling Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 101100379142 Mus musculus Anxa1 gene Proteins 0.000 description 1
- IXKSXJFAGXLQOQ-XISFHERQSA-N WHWLQLKPGQPMY Chemical compound C([C@@H](C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)NC(=O)[C@@H](N)CC=1C2=CC=CC=C2NC=1)C1=CNC=N1 IXKSXJFAGXLQOQ-XISFHERQSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 230000007425 progressive decline Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 102220179712 rs369544006 Human genes 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/72—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
Abstract
A presente invenção refere-se a um processo de determinação de um fator de escala otimizado para aplicar em um sinal de excitação ou em um filtro no momento de um processo de extensão de banda de frequência de um sinal de audiofrequência, o processo de extensão de banda (E601) compreendendo uma etapa de decodificação ou de extração, em uma primeira banda de frequência, de um sinal de excitação e de parâmetros da primeira banda de frequência compreendendo coeficientes de um filtro de predição linear, uma etapa de geração de um sinal de excitação estendido pelo menos sobre uma segunda banda de frequência e uma etapa de filtragem por um filtro de predição linear para a segunda banda de frequência. O processo de determinação compreende as etapas de determinação (E602) de um filtro de predição linear chamado filtro adicional, de ordem inferior ao filtro de predição linear da primeira banda de frequência, os coeficientes do filtro adicional sendo obtidos a partir dos parâmetros decodificados ou extraídos da primeira banda de frequência e de cálculo (E603) do fator de escala otimizado em função pelo menos dos coeficientes do filtro adicional. A invenção se refere também a um dispositivo de determinação de (...).
Description
[001] O presente pedido é dividido do BR 11 2016 000337 3, de 07/01/2016
[002] A presente invenção refere-se ao domínio da codificação/decodificação e do processamento de sinais de audiofrequências (como sinais de palavra, de música ou outros) para sua transmissão ou sua armazenagem.
[003] Mais particularmente, a invenção se refere a um processo e a um dispositivo de determinação de um fator de escala otimizado servindo para ajustar o nível de um sinal de excitação ou de modo equivalente de um filtro no momento de uma extensão de banda de frequência em um decodificador ou em um processador realizando uma melhoria de sinal de audiofrequência.
[004] Há numerosas técnicas para comprimir (com perda) um sinal de audiofrequência como a palavra ou a música.
[005] Os métodos convencionais de codificação para as aplicações interativas são em geral classificados de codificação de forma de onda (MIC para "Modulação por Impulso e codificação", MICDA para "Modulação por Impulso e Codificação Diferencial Adaptativa", codificação por transformada ...), codificação paramétrica (LPC para "Linear Predictive Coding" em inglês, codificação sinusoidal ...) e codificação híbrida paramétrica com uma quantificação dos parâmetros por "análise por síntese" cuja codificação CELP (para "Code Excited Linear Prediction" em inglês) é o exemplo mais conhecido.
[006] Para as aplicações não interativas, o estado da técnica de codificação de sinal áudio (mono) é constituído pela codificação perceptual por transformada ou em sub-bandas, com uma codificação paramétrica das altas frequências por replicação de banda.
[007] Uma revista dos métodos convencionais de codificação da palavra e de áudio existe nas obras W.B. Kleijn and K.K. Paliwal (Eds.), Speech Coding and Synthesis, Elsevier, 1995; M. Bosi, R.E. Goldberg, Introduction to Digital Audio Coding and Standards, Springer 2002; J. Benesty, M.M. Sondhi, Y. Huang (Eds), Handbook of Speech Processing, Springer 2008.
[008] Há interesse mais particularmente aqui no codec (codificador e decodificador) normalizado 3GPP AMR-WB (para "Adaptive Multi- Rate Wideband" em inglês) que funciona com uma frequência de entrada/ saída de 16 kHz e onde o sinal está dividido em duas subbandas, a banda baixa (0-6,4 kHz) que é amostrada a 12,8 kHz e codificada por modelo CELP e a banda alta (6,4-7 kHz) que é reconstruída de modo paramétrico por «extensão de banda»( ou BWE para "Bandwidth Extension" em inglês) com ou sem informação suplementar de acordo com o modo da trama corrente. Se pode verificar aqui que a limitação da banda codificada do codec AMR-WB de 7kHZ está essencialmente ligada ao fato de que a resposta de frequência na emissão dos terminais de banda larga foi aproximada no momento da normalização (ETSI/3GPP depois UIT-T) de acordo com a máscara de frequência definida na norma UIT-T P.341 e mais precisamente utilizando um filtro chamado «P.341» definido na norma UIT-T G.191 que corta as frequências acima de 7 kHz (esse filtro respeita a máscara definida em P.341). No entanto, em teoria, é bem sabido que um sinal amostrado de 16 kHz pode ter uma banda áudio definida de 0 a 8000 Hz; o codec AMR-WB introduz, portanto, uma limitação da banda alta em comparação com a largura de banda teórica de 8 kHz.
[009] O codec de palavra 3GPP AMR-WB foi normalizado em 2001 principalmente para as aplicações de telefonia no modo circuito (CS) sobre GSM (2G) e UMTS (3G). Esse mesmo codec foi também normalizado em 2003 para UIT-T como recomendação G.722.2 "Wideband coding speech at around 16kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)".
[0010] Compreende nove débitos chamados modos de 6,6 a 23,85 kbit/s, e compreende mecanismos de transmissão contínua (DTX para "Discontinuous Transmission") com detecção de atividade vocal (VAD para "Voice Activity Detection") e geração de ruído de conforto (CNG para "Confort Noise Generation") a partir de tramas de descrição de silêncio (SID para "Silence Insertion Descriptor"), assim como mecanismos de correção de tramas perdidas (FEC para "Frame Erasure Concealment"), por vezes chamado PLC para "Packet Loss Concealment").
[0011] Não se retomam aqui os detalhes do algoritmo de codificação e de decodificação AMR-WB, existe uma descrição detalhada desse codec nas especificações 3GPP (TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) e UIT-T- G.722.2 (e os Anexos e Apêndice correspondentes) assim como no artigo de B. Bessette e outros intitulado « The adaptive multirate wideband speech codec (AMR-WB)», IEEE Transactions on Speech and Audio Processing, vol. 10, n° 8, 2002, pp.620-636 e os códigos fontes dos padrões 3GPP e UIT-T associados.
[0012] O princípio da extensão de banda no codec AMR-WB é bastante rudimentar. Com efeito, a banda alta (6.4-7 kHz) é gerada modelizando um ruído branco através de um invólucro temporal (aplicado na forma de ganhos por subtrama) e de frequência (pela aplicação de um filtro de síntese de predição linear ou LPC para "Linear Predictive Coding"). Essa técnica de extensão de banda é ilustrada na figura 1.
[0013] Um ruído branco UHBi(n), n = 0, ... ,79, é gerado a 16 kHz por sub trama de 5 ms por gerador de congruência linear (bloco 100). Esse ruído UHB1(n) é modelizado no tempo por aplicação de ganhos por sub-trama; essa operação está dividida em duas etapas de processamento (blocos 102, 106 ou 109):
[0014] Um primeiro fator é calculado (bloco 101) para colocar o ruído branco uHB1 (n) (bloco 102) em um nível semelhante ao da excitação, u(n), n = 0, ... ,63, decodificada a 12,8 kHz na banda baixa:
[0015] Se pode notar aqui que a normalização das energias é feita comparando blocos de tamanho diferente (64 para U(n) e 80 para UHB1(n), sem compensação das diferenças de frequências de amostragem (12,8 ou 16 kHz).
[0016] • A excitação na banda alta é obtida em seguida (bloco 106 ou 109) sob a forma: UHB (n) = 9HBUHB2 (n)
[0017] onde o ganho gm é obtido diferentemente de acordo com o débito. Se o débito da trama atual é <23,85 kbit/s, o ganho §HB é estimado «às cegas» (isto é, sem informação suplementar), nesse caso, o bloco 103 filtra o sinal decodificado de banda baixa por um filtro passa alto tendo uma frequência de corte com 400 Hz para obter um sinal Shp(n), n = 0, ... , 63 - esse filtro passa alto elimina a influência das frequências muito baixas que podem distorcer a estimativa feita no bloco 104 - depois é calculado o «tilt» (indicador de declive espectral) assinalado etilt do sinal Shp(n) por autocorrelação normalizada (bloco 104):
[0018] e finalmente é calculado ÔHB sob a forma:
[0019] ÇHB = WSP gsp + (1 — WSP) gBG
[0020] onde gSP = 1 - etilt é o ganho aplicado nas tramas ativas de palavra (SP para speech), gBG = 1,25gSP é o ganho aplicado nas tramas inativas de palavra associadas a um ruído de fundo (BG para Background) e WSP é uma função de ponderação que depende da detecção de atividade vocal (VAD). Se compreende que a estimativa do tilt (etilt) permite adaptar o nível da banda alta em função da natureza espectral do sinal; essa estimativa é particularmente importante quando o declive espectral do sinal decodificado CELP é tal que a energia média diminui quando a frequência aumenta (caso de um sinal de voz onde etilt está próximo de 1, portanto gSP = 1 - etilt é assim reduzido) . De notar também que o fator ÔHB na decodificação AMR-WB é limitado para assumir valores no intervalo [0,1, 1,0]. Com efeito, para os sinais cuja energia cresce quando a frequência aumenta (etilt próximo de -1, gSP próximo de 2), o ganho CJHB é habitualmente subestimado.
[0021] • Para 23,85 kbit/s, uma informação de correção é transmitida pelo codificador AMR-WB e decodificada (blocos 107, 108) para refinar o ganho estimado por sub-trama (4 bits todos os 5ms, ou 0,8 kbit/s). A excitação artificial uHB(n) é em seguida filtrada (bloco 111) por um filtro de síntese LPC (bloco 111) de função de transferência 1/AHB(z) e funcionando na frequência de amostragem de 16 kHz. A realização desse filtro depende do débito da trama corrente:
[0022] • Para 6,6 kbit/s, o filtro 1/AHB(z) é obtido ponderando por um fator y = 0,9 um filtro LPC de ordem 20, 1/Âext(z) que «extrapola» o filtro LPC de ordem de 16, 1/Â(z), decodificado na banda baixa (a 12,8 kHz) - os detalhes da extrapolação no domínio dos parâmetros ISF (para "Imittance Spectral Frequency" em inglês) são descritos na norma G.722.2 na seção 6.3.2.1; nesse caso,
[0023] 1/AHB (z) = 1/Âext (z/y)
[0024] • Para os débitos> 6,6 kbit/s, o filtro 1/AHB(z) é de ordem 16 e corresponde simplesmente a:
[0025] 1/AHB (z) = 1/Â (z/ y)
[0026] onde y = 0,6. De notar que nesse caso o filtro 1/Â(z/ y) é utilizado a 16 kHz, o que resulta em uma expansão (por homotetia) da resposta de frequência desse filtro de [0, 6,4 kHz] a [0, 8 kHz].
[0027] O resultado sHB(n), é finalmente processado por um filtro de passa banda (bloco 112) de tipo FIR ("Finite Impulse Response"), a fim de só manter a banda 6 - 7 kHz; a 23,85 kbit/s, um filtro passa baixo também de tipo FIR (bloco 113) é acrescentado ao processamento para atenuar ainda mais as frequências superiores de 7 kHz. A síntese de altas frequências (HF) é finalmente adicionada (bloco 130) à síntese de baixas frequências (BF) obtida com os blocos de 120 a 122 e reamostrada a 16 kHz (bloco 123). Assim mesmo se a banda se estende em teoria de 6,4 a 7 kHz no codec AMR-WB, a síntese HF está de preferência compreendida na banda 6-7 kHz antes da adição com a síntese BF.
[0028] Podem ser identificados vários inconvenientes na técnica de extensão de banda do codec AMR- WB, em particular:
[0029] • A estimativa de ganhos por sub-trama (bloco 101, 103 a 105) não é ótima. Em parte, é baseada em uma igualização da energia «absoluta» por sub-trama (bloco 101) entre sinais com frequências diferentes: a excitação artificial de 16 kHz (ruído branco) e um sinal de 12,8 kHz (excitação ACELP decodificada). Se pode notar em particular que essa aproximação induz implicitamente uma redução da excitação de banda alta (por uma razão 12,8/16 = 0,8); na realidade, é de notar também que nenhuma desacentuação (ou falta de ênfase) é efetuada na banda alta no codec AMR-WB, o que induz implicitamente uma amplificação, relativa próxima de 0,6 (que corresponde ao valor da resposta de frequência de 1/(1-0,68 z-1) para 6400 Hz). Efetivamente, os fatores de 1/0,8 e de 0,6 se compensam aproximadamente.
[0030] • Sobre a palavra, os testes de caracterização do codec 3GPP AMR-WB documentados na relação 3GPP TR 26.976 mostraram que o modo de 23,85 kbit/s tem uma qualidade pior do que a 23,05 kbit/s, sua qualidade é na verdade similar à do modo de 15,85 kbit/s. Mostra isso em particular que o nível do sinal HF artificial deve ser controlado de maneira muito prudente, porque a qualidade se degrada a 23,85 kbit/s enquanto os 4 bits por trama devem permitir uma aproximação melhor para a energia das altas frequências originais.
[0031] • O filtro passa baixo de 7 kHz (bloco 113) introduz uma distância de perto de 1 ms entre as bandas baixas e altas, o que pode potencialmente degradar a qualidade de alguns sinais dessincronizando ligeiramente as duas bandas para 23,85 kbit/s - essa dessincronização pode também colocar problema no momento de uma comutação de débito de 23,85 kbit/s para outros modos.
[0032] Um exemplo de extensão de banda por aproximação temporal é descrito na norma 3GPP TS 26.290 descrevendo o codec AMR-WB+ (normalizado em 2005). Esse exemplo é ilustrado nos esquemas blocos das figuras 2a (esquema global) e 2b (predição de ganho por correção de nível de respostas) que correspondem respectivamente às figuras 16 e 10 da especificação 3GPP TS 26.290.
[0033] No codec AMR-WB+, o sinal de entrada (mono) amostrado na frequência Fs (em Hz) está dividido em duas bandas de frequências disjuntas, onde dois filtros LPC são calculados e codificados separadamente:
[0034] • um filtro LPC, assinalado A(z), na banda baixa (0-Fs/4) - sua versão quantificada é assinalada Â(z)
[0035] • um outro filtro LPC assinalado AHF(z), na banda alta dobrada espectralmente (Fs/4-Fs/2) - sua versão quantificada é assinalada ÂHF(z)
[0036] A extensão da banda é feita no codec AMR- WB+ como detalhado nas seções 5.4 (codificação HF) e 6.2 (decodificação HF) da especificação 3GPP TS 26.290. Se resume aqui o princípio: a extensão consiste em utilizar a excitação decodificada de baixas frequências (LF excitação) e em modelizar essa excitação por um ganho temporal por sub-trama (bloco 205) e uma filtragem LPC de síntese (bloco 207); para além disso, melhorias dos processamentos (pósprocessamento da excitação (bloco 206) e alisamento da energia do sinal HF reconstruído (bloco 208) são implementados como ilustrado na figura 2a.
[0037] É importante notar que essa extensão em AMR-WB+ precisa da transmissão de informações suplementares: os coeficientes do filtro ÂHF (z) em 204 e um ganho de modelização temporal por subtrama (bloco 201). Uma particularidade do algoritmo de extensão de banda em AMR-WB+ é que o ganho por sub-trama é quantificado por uma aproximação preditiva; em outras palavras, não se codificam os ganhos diretamente, mas de preferência correções de ganho que são relativas a uma estimativa do ganho assinalado gmatch. Essa estimativa, gmatch, correspondendo efetivamente a um fator de igualização do nível entre os filtros Â(z) e ÂHF (z) na frequência de separação entre banda baixa e banda alta (Fs/4). O cálculo do fator gmatch (bloco 203) é detalhado na figura 10 da especificação 3GPP TS 26.290 aqui retomada na figura 2b. Não se irá pormenorizar mais essa figura aqui. Se irá fixar para resumir que os blocos de 210 a 213 servem para calcular a energia da resposta impulsiva de lembrando que o filtro ÂHF (z) modeliza uma banda alta espectral dobrada (por causa das propriedades espectrais do banco de filtro que separa as bandas baixa e alta). Já que os filtros são interpolados por sub-tramas, o ganho gmatch só é calculado uma vez por trama, e é interpolado por subtramas.
[0038] A técnica de codificação dos ganhos de extensão de banda em AMR-WB+ e mais precisamente a compensação de níveis dos filtros LPC no seu ponto de junção, é um método adaptado no contexto de uma extensão de banda por modelos LPC de banda baixa e alta e se pode notar que uma tal compensação de nível entre filtros LPC não está presente na extensão de banda do codec AMR-WB. No entanto, se pode verificar na prática que a igualização direta do nível entre os dois filtros LPC na frequência de separação não é um método ótimo e pode provocar uma sobreavaliação de energia de banda alta e artefatos audíveis em certos casos; se recorda que um filtro LPC representa um invólucro espectral, assim o princípio da igualização do nível entre dois filtros LPC para uma frequência determinada torna a ajustar o nível relativo de dois invólucros LPC. Ora uma tal igualização realizada em uma frequência exata não garante uma continuidade completa e coerência global da energia (de frequência) na proximidade do ponto de igualização quando o invólucro de frequência do sinal flutua de forma significativa nessa proximidade. Uma forma matemática de colocar o problema consiste em observar que a continuidade entre duas curvas pode ser garantida forçando-as a se juntarem em um mesmo ponto, mas nada garante que as propriedades locais (derivadas sucessivas) coincidam de modo a garantir uma coerência mais global. O risco assegurando uma continuidade pontual entre invólucros LPC bandas baixa e alta é fixar o invólucro de LPC de banda alta a um nível relativo demasiado forte ou demasiado fraco, o caso de um nível demasiado forte sendo mais prejudicial porque resulta em artefatos mais incômodos.
[0039] Por outro lado, a compensação de ganho em AMR-WB+ é antes de tudo uma predição do ganho conhecida do codificador e do decodificador e que serve para reduzir o débito necessário à transmissão de informação de ganho colocando à escala o sinal de excitação banda alta. Ora, no contexto de uma melhoria da codificação/decodificação AMR-WB de maneira interoperável, não é possível modificar a codificação existente dos ganhos por sub-tramas (0,8 kbit/s) da extensão de banda no modo 23,85 kbit/s de AMR-WB. Para além disso, para os débitos estritamente inferiores a 23,85 kbit/s, a compensação de níveis de filtros LPC de bandas baixa e alta pode ser aplicada na extensão de banda de uma decodificação compatível com AMR-WB, no entanto a experiência mostra que essa única técnica derivadada codificação AMR-WB+, aplicada sem otimização, pode gerar problemas de sobreavaliação de energia da banda alta (>6 kHz).
[0040] Existe, portanto, uma necessidade de melhorar a compensação de ganhos entre filtros de predição linear de banda de frequências diferentes para a extensão de banda de frequência em um codec de tipo AMR-WB ou uma versão interoperável desse codec sem sobreavaliar a energia em uma banda de frequência e sem necessitar de informações suplementares do codificador.
[0041] A presente invenção vem melhorar a situação.
[0042] Para esse fim, a invenção visa um processo de determinação de um fator de escala otimizado para aplicar em um sinal de excitação ou em um filtro no momento de um processo de extensão de banda de frequência de um sinal de audiofrequência, o processo de extensão de banda compreendendo uma etapa de decodificação ou de extração, em uma primeira banda de frequência, de um sinal de excitação e de parâmetros da primeira banda de frequência compreendendo coeficientes de um filtro de predição linear, uma etapa de geração de um sinal de excitação estendido sobre pelo menos uma segunda banda de frequência e uma etapa de filtragem por um filtro de predição linear para a segunda banda de frequência. O processo de determinação é tal que compreende as seguintes etapas:
[0043] - determinação de um filtro de predição linear chamado filtro adicional, de ordem inferior ao filtro de predição linear da primeira banda de frequência, os coeficientes do filtro adicional sendo obtidos a partir dos parâmetros decodificados ou extraídos da primeira banda de frequência; e
[0044] - cálculo do fator de escala otimizado pelo menos em função dos coeficientes do filtro adicional.
[0045] Assim, a utilização de um filtro adicional de ordem inferior ao filtro da primeira banda de frequência para igualizar, permite evitar as sobreavaliações de energia nas altas frequências que poderiam resultar de flutuações locais do invólucro e que podem perturbar a igualização dos filtros de predição.
[0046] A igualização de ganhos entre os filtros de predição linear da primeira e segunda banda de frequência é assim melhorada.
[0047] Em uma aplicação vantajosa do fator de escala otimizado assim obtido, o processo de extensão de banda compreende uma etapa de aplicação do fator de escala otimizado ao sinal de excitação estendido.
[0048] Em uma modalidade de realização adaptada, a aplicação do fator de escala otimizado é combinada para a etapa de filtragem na segunda banda de frequência.
[0049] Assim as etapas de filtragem e de aplicação do fator de escala otimizado são combinadas para uma única etapa de filtragem para reduzir a complexidade do processamento.
[0050] Em uma modalidade de realização particular, os coeficientes do filtro adicional são obtidos por truncatura da função de transferência do filtro de predição linear da primeira banda de frequência para obter uma ordem inferior.
[0051] Esse filtro adicional de ordem inferior é pois obtido de modo simples.
[0052] Além disso, de modo a obter um filtro estável, os coeficientes do filtro adicional são modificados em função de um critério de estabilidade do filtro adicional.
[0053] Em uma modalidade de realização particular, o cálculo do fator de escala otimizado compreende as seguintes etapas:
[0054] - cálculo das respostas de frequência dos filtros de predição linear da primeira e da segunda bandas de frequência para uma frequência comum;
[0055] - cálculo da resposta de frequência do filtro adicional para essa frequência comum;
[0056] - cálculo do fator de escala otimizado em função das respostas de frequência assim calculadas.
[0057] Assim, o fator de escala otimizado é calculado de modo a evitar os artefatos prejudiciais que poderiam sobrevir se a resposta de frequência de filtro de ordem superior da primeira banda na proximidade da frequência comum revelasse um pico ou um vale do sinal.
[0058] Em uma modalidade de realização particular, o processo compreende além disso as seguintes etapas implementadas para um débito de decodificação predeterminado:
[0059] - primeira colocação à escala do sinal de excitação estendido por um ganho calculado por sub-trama função de uma relação de energia entre o sinal de excitação decodificado e o sinal de excitação estendido;
[0060] - segunda colocação à escala do sinal de excitação proveniente da primeira colocação à escala por um ganho de correção decodificado;
[0061] - ajustamento da energia da excitação para a sub-trama corrente por um fator de ajustamento calculado em função da energia do sinal obtido após a segunda colocação à escala e em função do sinal obtido após aplicação do fator de escala otimizado.
[0062] Assim, podem ser utilizadas informações suplementares para melhorar a qualidade do sinal estendido para um modo de funcionamento predeterminado.
[0063] A invenção visa também um dispositivo de determinação de um fator de escala otimizado para aplicar em um sinal de excitação ou em um filtro em um dispositivo de extensão de banda de frequência de um sinal de audiofrequência, o dispositivo de extensão de banda compreendendo um módulo de decodificação ou de extração, em uma primeira banda de frequência, de um sinal de excitação e de parâmetros da primeira banda de frequência compreendendo coeficientes de um filtro de predição linear, um módulo de geração de um sinal de excitação estendido sobre pelo menos uma segunda banda de frequência e um módulo de filtragem por um filtro de predição linear para a segunda banda de frequência. O dispositivo de determinação é tal que compreende:
[0064] - um módulo de determinação de um filtro de predição linear chamado filtro adicional, de ordem inferior ao filtro de predição linear da primeira banda de frequência, os coeficientes do filtro adicional sendo obtidos a partir dos parâmetros decodificados ou extraídos da primeira banda de frequência; e
[0065] - um módulo de cálculo do fator de escala otimizado em função pelo menos dos coeficientes do filtro adicional.
[0066] A invenção visa um decodificador compreendendo um dispositivo tal como descrito.
[0067] Visa um programa informático compreendendo instruções de código para a implementação das etapas do processo de determinação de um fator de escala otimizado tal como descrito, quando essas instruções são executadas por um processador.
[0068] Finalmente a invenção se refere a um suporte de armazenagem, legível por um processador, integrado ou não no dispositivo de determinação de um fator de escala otimizado, eventualmente amovível, memorizando um programa informático que implementa um processo de determinação de um fator de escala otimizado tal como descrito anteriormente.
[0069] Outras características e vantagens da invenção vão aparecer mais claramente com a leitura da descrição seguinte, dada unicamente a título de exemplo não limitativo, e feita em referência aos desenhos anexos, nos quais:
[0070] - a figura 1 ilustra uma parte de um decodificador de tipo AMR-WB implementando etapas de extensão de banda de frequência do estado da técnica e tal como descrito anteriormente;
[0071] - as figuras 2a e 2b apresentam a codificação da banda alta no codec AMR-WB+ de acordo com o estado da técnica e tal como descrito anteriormente;
[0072] - a figura 3 ilustra um decodificador interoperável com a codificação AMR-WB e integrando um dispositivo de extensão de banda usado de acordo com uma modalidade de realização da invenção;
[0073] - a figura 4 ilustra um dispositivo de determinação de um fator de escala otimizado por sub-trama em função do débito, de acordo com uma modalidade de realização da invenção; e
[0074] - as figuras 5a e 5b ilustram as respostas de frequências dos filtros utilizados para o cálculo do fator de escala otimizado de acordo com uma modalidade de realização da invenção;
[0075] - a figura 6 ilustra na forma de um organograma, as etapas principais de um processo de determinação de um fator de escala otimizado de acordo com uma modalidade de realização da invenção;
[0076] - a figura 7 ilustra uma modalidade de realização no domínio de frequência de um dispositivo de determinação de fator de escala otimizado no momento de uma extensão de banda;
[0077] - a figura 8 ilustra uma realização material de um dispositivo de determinação de fator de escala otimizado no momento de uma extensão de banda de acordo com a invenção.
[0078] A figura 3 ilustra um exemplo de decodificador, compatível com a norma AMR-WB/G.722.2 onde se encontra uma extensão de banda compreendendo uma determinação de um fator de escala otimizado de acordo com uma modalidade de realização do processo da invenção, implementado pelo dispositivo de extensão de banda ilustrado pelo bloco 309.
[0079] Contrariamente à decodificação AMR-WB que funciona com uma frequência de amostragem de saída de 16 kHz, é considerado aqui um decodificador que pode funcionar com um sinal de saída (síntese) na frequência fs = 8, 16, 32 ou 48 kHz. De notar que é suposto aqui que a codificação foi efetuada de acordo com o algoritmo AMRWB com uma frequência interna de 12,8 kHz para a codificação CELP de banda baixa e a 23,85 kbit/s uma codificação de ganho por subtrama na frequência de 16 kHz; mesmo se a invenção é descrita aqui ao nível da decodificação, é suposto aqui que a codificação pode também funcionar com um sinal de entrada na frequência fs = 8, 16, 32 ou 48 kHz e operações de reamostragem adequada, ultrapassando o quadro da invenção, são implementadas na codificação em função do valor de fs. Se pode notar que quando fs =8 kHz, no caso de uma decodificação compatível com AMR-WB, não é necessário estender a banda baixa 0-6,4 kHz, porque a banda áudio reconstruída para a frequência fs é limitada a 0-4000 Hz.
[0080] Na figura 3, a decodificação CELP (BF para baixas frequências) funciona sempre na frequência interna de 12,8 kHz, como em AMR-WB, e a extensão de banda (HF para altas frequências) utilizada para a invenção funciona na frequência de 16 kHz, as sínteses BF e HF são combinadas (bloco 312) para a frequência fs após reamostragem adequada (bloco 306 e processamento interno no bloco 311). Em variantes de realização, a combinação das bandas baixa e alta poderá ser feita a 16 kHz, após ter reamostrado a banda baixa de 12,8 para 16 kHz, antes de tornar a mostrar o sinal combinado na frequência fs.
[0081] A decodificação de acordo com a figura 3 depende do modo (ou débito) AMR-WB associado à trama corrente recebida. A título indicativo e sem que isso afete o bloco 309, a decodificação da parte CELP de banda baixa compreende as seguintes etapas:
[0082] • Desmultiplexação dos parâmetros codificados (bloco 300) no caso de trama corretamente recebida (bfi=0 onde bfi é o «bad frame indicator» valendo 0 para uma trama recebida e 1 para uma trama perdida)
[0083] • Decodificação dos parâmetros ISF com interpolação e conversão em coeficientes LPC (bloco 301) como descrito na cláusula 6.1 da norma G722.2.
[0084] • Decodificação da excitação CELP (bloco 302), com uma parte adaptativa e fixa para reconstruir a excitação (exc ou u’(n)) em cada sub-trama de comprimento 64 para 12,8 kHz;
[0085] u’(n) = gpv(n) + gcc(n), n = 0, - ,63
[0086] seguindo as notações da cláusula 7.1.2.1 da recomendação ITU-T G.718 de um decodificador interoperável com o codificador/decodificador AMR-WB, referindo a decodificação CELP, onde v(n) ec(n) são respectivamente as palavras de código dos dicionários adaptativo e fixo, e gp e gc são os ganhos decodificados associados. Essa excitação u’(n) é utilizada no dicionário adaptativo da sub-trama seguinte; é em seguida pós-processada e é distinguida como em G.718 a excitação u’(n) (também assinalada exc) de sua versão pósprocessada modificada u(n) (também assinalada exc2) que serve de entrada ao filtro de síntese, 1/ Â(z), no bloco 303.
[0087] • Filtragem de síntese por 1/ Â(z) (bloco 303) onde o filtro LPC decodificado Â(z) é de ordem 16;
[0088] • Pós-processamento de banda estreita (bloco 304) de acordo com a cláusula 7.3 de G.718 se fs = 8 kHz.
[0089] • Desacentuação (bloco 305) pelo filtro 1/ (1-0.68z-1)
[0090] • Pós-processamento das baixas frequências (chamado «bass posfilter») (bloco 306) atenuando o ruído inter harmônico de baixas frequências tal como descrito na cláusula 7.14.1.1 de G.718. Esse processamento introduz um atraso que é tido em conta na decodificação da banda alta (>6,4 kHz).
[0091] • Reamostragem da frequência interna de 12,8 kHz na frequência de saída fs (bloco 307). Várias realizações são possíveis. Sem perda de generalidade, é considerado aqui a título de exemplo que se fs =8 ou 16 kHz, a reamostragem descrita na cláusula 7.6 de G.718 é retomada aqui, e se fs=32 ou 48 kHz, são utilizados filtros de resposta impulsiva finita (FIR) suplementares.
[0092] • Cálculo dos parâmetros do «noise gate» (bloco 308) que é realizado de forma preferencial como descrito na cláusula 7.14.3 de G.718 para «melhorar» a qualidade dos silêncios por redução do nível.
[0093] Em variantes que podem ser implementadas para a invenção, os pós-processamentos aplicados na excitação podem ser modificados (por exemplo, a dispersão de fase pode ser melhorada) ou esses pós-processamentos podem ser estendidos (por exemplo, uma redução do ruído inter harmônico pode ser implementada), sem afetar a natureza da extensão de banda.
[0094] Se pode notar que a utilização dos blocos 306, 308, 314 é opcional.
[0095] É de notar também que a decodificação da banda baixa descrita mais acima supõe uma trama corrente chamada «ativa» com um débito entre 6,6 e 23,85 kbit/s. Efetivamente, quando o modo DTX (transmissão contínua em francês) é ativado, algumas tramas podem ser codificadas como «inativas» e nesse caso se pode ou transmitir um descritor de silêncio (sobre 35 bits) ou não se transmitir nada. Em particular, se recorda que a trama SID descreve parâmetros variados: parâmetros ISF intermédios sobre 8 tramas, energia média sobre 8tramas, flag de "dithering" para a reconstrução de ruído não estacionário. Em todos os casos, para o decodificador, se encontra o mesmo modelo de decodificação que para uma trama ativa, com uma reconstrução da excitação, e de um filtro LPC para a trama corrente, o que permite aplicar a extensão de banda mesmo em tramas inativas. A mesma constatação é aplicada para a decodificação de «tramas perdidas » (ou FEC, PLC) onde é aplicado o modelo LPC.
[0096] Em uma modalidade de realização descrita aqui e em referência à figura 7, o decodificador permite estender a banda baixa decodificada (50-6400 Hz tendo em conta filtragem passa alto de 50 Hz no decodificador, 0-6400 Hz no caso geral) para uma banda estendida cuja largura varia, indo aproximadamente de 50-6900 Hz a 50-7700 Hz em função do modo implementado na trama corrente. Se pode assim falar de uma primeira banda de frequência de 0 a 6400 Hz e de uma segunda banda de frequência de 6400 a 8000 Hz. Na realidade, na modalidade de realização privilegiada, a extensão da excitação é efetuada no domínio de frequência em uma banda de 5000 a 8000 Hz, para permitir uma filtragem passa banda com largura de 6000 a 6900 ou 7700 Hz.
[0097] A 23,85 kbit/s, a informação de correção de ganho HF (0,8 kbit/s) transmitida a 23,85 kbit/s é aqui decodificada. Seu uso é detalhado mais adiante, em referência à figura 4. A parte síntese da banda alta é realizada no bloco 309 representando o dispositivo de extensão de banda utilizado para a invenção e que é detalhado na figura 7 em uma modalidade de realização.
[0098] Para alinhar as bandas baixas e altas decodificadas, é introduzido um atraso (bloco 310) para sincronizar as saídas dos blocos 306 e 307 e a banda alta sintetizada a 16 kHz é reamostrada de 16 kHz para a frequência fs (saída do bloco 311). O valor do atraso T depende da forma de sintetizar o sinal de banda alta, da frequência fs assim como do pós-processamento das baixas frequências. Assim, de modo geral o valor de T no bloco 310 deverá ser ajustado em função da implementação específica.
[0099] As bandas baixa e alta são em seguida combinadas (acrescentadas) no bloco 312 e a síntese obtida é pós-processada por filtragem passa alto a 50 Hz (de tipo IIR) de ordem 2 cujos coeficientes dependem da frequência fs (bloco 313) e pós-processamento de saída com aplicação opcional do «noise gate» de modo similar a G.718 (bloco 314).
[00100] Em referência à figura 3, se descreve presentemente uma modalidade de realização de um dispositivo de determinação de um fator de escala otimizado para aplicar em um sinal de excitação no momento de um processo de extensão de banda de frequência. Esse dispositivo está incluído no bloco de extensão de banda 309 descrito anteriormente.
[00101] Assim, o bloco 400, a partir de um sinal de excitação decodificado em uma primeira banda de frequência u(n), efetua uma extensão de banda para obter um sinal de excitação estendido uHB (n) em pelo menos uma segunda banda de frequência.
[00102] É de notar aqui, que a estimativa de fator de escala otimizado de acordo com a invenção é independente do modo de obter o sinal uHB (n). É, todavia, importante uma condição referindo sua energia. Com efeito, é preciso que a energia da banda alta de 6000 a 8000 Hz esteja a um nível similar à energia da banda de 4000 a 6000 Hz do sinal de excitação decodificado à saída do bloco 302. Para além disso, visto que o sinal de banda baixa é desacentuado (bloco 305), também é preciso aplicar a desacentuação ao sinal de excitação de banda alta, ou usando um filtro de desacentuação próprio, ou multiplicando por um fator constante que corresponde a uma diminuição média do filtro mencionado. Essa condição não é aplicada ao caso do débito 23,85 kbit/s que utiliza as informações suplementares transmitidas pelo codificador. Nesse caso a energia do sinal de excitação de banda alta deve ser coerente com a energia do sinal correspondente ao codificador, como explicado mais adiante.
[00103] A extensão de banda de frequência pode por exemplo ser implementada do mesmo modo que para o codificador de tipo AMRWB descrito em referência à figura 1 nos blocos de 100 a 102, a partir de um ruído branco.
[00104] Em uma outra modalidade de realização, essa extensão de banda pode ser efetuada a partir de uma combinação de um ruído branco e de um sinal de excitação decodificado como ilustrado e descrito posteriormente para os blocos de 700 a 707 da figura 7.
[00105] Outros métodos de extensão de banda de frequência com conservação do nível de energia entre o sinal de excitação decodificado e o sinal de excitação estendido como descrito mais abaixo, podem evidentemente ser considerados para o bloco 400.
[00106] Além disso, o módulo de extensão de banda pode também ser independente do decodificador e pode efetuar uma extensão de banda de um sinal áudio existente armazenado ou transmitido ao módulo de extensão, com uma análise do sinal áudio para extrair uma excitação e um filtro LPC. Nesse caso, o sinal de excitação de entrada do módulo de extensão, já não é um sinal decodificado, mas um sinal extraído após análise, assim como os coeficientes do filtro de predição linear da primeira banda de frequência usados no processo de determinação do fator de escala otimizado em uma implementação da invenção.
[00107] No exemplo ilustrado na figura 4, é considerado primeiramente o caso dos débitos <23,85kbit/s, para o qual a determinação do fator de escala otimizado está limitada ao bloco 401. Nesse caso é calculado um fator de escala otimizado, assinalado gHB2(m). Em uma modalidade de realização, esse cálculo é efetuado de modo preferencial por sub-trama e consiste em igualizar os níveis das respostas de frequências dos filtros LPC 1/ Â(z) e 1/ Â(z/Y) utilizados em baixas e altas frequências, como descrito posteriormente em referência à figura 7, com precauções suplementares para evitar os casos de sobreavaliações que podem resultar em uma energia demasiado grande da banda alta sintetizada e portanto produzir artefatos audíveis.
[00108] Em uma modalidade de realização alternativa, se poderá guardar o filtro de síntese HF extrapolado 1 /Âext(z/Y) tal como implementado no decodificador AMR-WB ou um decodificador interoperável com o codificador/decodificador AMR-WB, por exemplo de acordo com a recomendação ITU-T G.718, em vez do filtro 1/ Â(z/Y). A compensação de acordo com a invenção é efetuada então a partir dos filtros 1/Â(z) e 1/ Âext(z/Y).
[00109] A determinação do fator de escala otimizado é efetuada também pela determinação (em 401a) de um filtro de predição linear chamado filtro adicional, de ordem inferior ao filtro de predição linear da primeira banda de frequência 1/ Â(z), os coeficientes do filtro adicional sendo obtidos a partir dos parâmetros decodificado ou extraídos da primeira banda de frequência. O fator de escala otimizado é calculado em seguida (em 401b) pelo menos em função desses coeficientes para ser aplicado ao sinal de excitação estendido uHB(n).
[00110] O princípio da determinação do fator de escala otimizado, implementado no bloco 401 é ilustrado nas figuras 5a e 5b com exemplos concretos obtidos a partir de sinais amostrados a 16 kHz; os valores de amplitude de resposta de frequência, anotados mais adiante R, P, Q, de 3 filtros são calculados para a frequência comum de 6000 Hz (linha vertical a tracejado) na sub-trama corrente, cujo índice m não é lembrado aqui na notação dos filtros LPC interpolados por sub-trama para diminuir o texto. O valor de 6000 Hz é escolhido de modo que esteja perto da frequência de Nyquist da banda baixa, ou 6400 Hz. É preferível não tomar essa frequência de Nyquist para determinar o fator de escala otimizado. Com efeito a energia do sinal decodificado de baixas frequências é já tipicamente atenuada a 6400 Hz. Para além disso, a extensão de banda descrita aqui é efetuada sobre uma segunda banda de frequência chamada banda alta que vai de 6000 a 8000 Hz. De notar que em variantes da invenção, uma outra frequência de 6000 Hz poderá ser escolhida, sem perda de generalidade para determinar o fator de escala otimizado. Se poderá também considerar o caso em que os dois filtros LPC são definidos para as bandas separadas (como em AMR-WB+). Nesse caso R, P e Q serão calculados para a frequência de separação.
[00111] As figuras 5a e 5b ilustram como são definidas as quantidades R, P, Q.
[00112] A primeira etapa consiste em calcular as respostas de frequências R e P respectivamente do filtro de predição linear da primeira banda de frequência (banda baixa) e da segunda banda de frequência (banda alta) para a frequência de 6000 Hz. É calculado primeiramente:
[00113] onde M = 16 é de ordem do filtro LPC decodificado 1/ Â(z), e θ corresponde à frequência de 6000 Hz normalizada para a frequência de amostragem de 12,8 kHz, ou:
[00116] Em uma modalidade de realização privilegiada, as quantidades P e R são calculadas de acordo com o pseudocódigo seguinte:
[00117] px = py = 0
[00118] rx = ry = 0
[00119] para i=0 to 16
[00120] px = px + Ap[i]*exp_tab_p[i]
[00121] py = py + Ap[i]*exp_tab_p
[00122] rx = rx + Aq[i]*exp_tab_q[i]
[00123] ry = ry + Aq[i]*exp_tab_q
[00124] end for
[00125] P = 1/sqrt(px*px+py*py)
[00126] R = 1/sqrt(rx*rx+ry*ry)
[00127] onde Aq[i] = âi corresponde aos coeficientes de Â(z) (de ordem 16), Ap[i] = i âi corresponde ao coeficiente de Â(z/ ), sqrt() corresponde à operação de raiz quadrada e os quadros exp_tab_p e exp_tab_q de tamanho reais e imaginárias dos exponenciais frequência de 6000 Hz, com exp_tab_q[i]
[00128] O filtro de predição adicional é obtido por exemplo truncando de modo adequado o polinômio Â(z) da ordem 2.
[00129] Efetivamente a truncatura direta da ordem conduz ao filtro 1+â1+â2, o que pode ser problema porque nada garante em geral que esse filtro de ordem 2 seja estável. Em uma modalidade de realização privilegiada, é, pois, detectada a estabilidade do filtro 1+â1+â2 e é utilizado um filtro 1+â1’+â2’, cujos coeficientes são tirados de 1+â1+â2 em função da detecção de instabilidade. Mais precisamente, se inicializa: âi’ = âi, i=1,2
[00130] A estabilidade do filtro 1+â1+â2 pode ser verificada de diferente forma, se usa aqui uma conversão no domínio dos coeficientes PARCOR (ou coeficientes de reflexão) calculando: k1 = â1’/(1+â2’) k2 = â2’
[00131] A estabilidade é verificada se |ki| <1, i=1,2. Portanto é modificado de modo convencional o valor de ki antes de garantir a estabilidade do filtro, com as seguintes etapas:
[00132] onde min(.,.) e max(.,.) dão respectivamente o mínimo e o máximo de 2 operandos.
[00133] Se nota que os valores de limiares, 0,99 para k1 e 0,6 para k2, poderão ser ajustados em variantes da invenção. Se recorda que o primeiro coeficiente de reflexão, k1, caracteriza o declive espectral (ou tilt) do sinal modelizado da ordem 1; na invenção se satura o valor de k1 para um valor próximo do limite de estabilidade, a fim de preservar esse declive e conservar um tilt semelhante ao de 1/ Â(z). Se recorda também que o segundo coeficiente de reflexão, k2, caracteriza o nível de ressonância do modelo de sinal da ordem 2; uma vez que a utilização de um filtro de ordem 2 pretende eliminar a influência de tais ressonâncias em torno da frequência de 6000 Hz, é limitado mais fortemente o valor de k2, esse limite é fixado em 0,6.
[00134] Os coeficientes de 1+â1 ‘+â2 ‘ são então obtidos por: â1’ = (1+k2)k1 â2’ = k2
[00136] Com i~oG0 . Essa quantidade é calculada de modo preferencialmente de acordo com o pseudocódigo seguinte:
[00137] qx = qy = 0
[00138] para i=0 to 2
[00139] qx = qx + As[i]*exp_tab_q[i];
[00140] qy = qy + As[i]*exp_tab_q;
[00141] end for
[00142] Q = 1/sqrt(qx*qx+qy*qy)
[00143] onde As[i] = âi’.
[00144] Sem perda de generalidade, poderão ser calculados os coeficientes do filtro de ordem 2 de outra forma, por exemplo aplicando ao filtro LPC Â(z) de ordem 16 o procedimento de redução da ordem LPC chamada «STEP DOWN» descrita em J.D. Markel e A.H. Gray, Linear Prediction of Speech. Springer Verlag, 1976 ou efetuando duas iterações de algoritmo de Levinson-Dublin (ou STEP-UP) a partir das autocorrelações calculadas sobre o sinal sintetizado (decodificado) de 12,8 kHz e de abertura de janela.
[00145] Para alguns sinais, a quantidade Q, calculada a partir dos 3 primeiros coeficientes LPC decodificados, tem mais em conta a influência do declive espectral (ou tilt) no espectro e evita a influência de picos ou de vales «parasitas» próximos de 6000 Hz que podem distorcer ou aumentar o valor da quantidade R, calculada a partir de todos os coeficientes LPC.
[00146] Em uma modalidade de realização privilegiada, o fator de escala otimizado é deduzido das quantidades pré-calculadas R, P, Q de modo condicional como se segue:
[00147] Se o tilt (calculado como em AMR-WB no bloco 104, por autocorrelação normalizada sob a forma r(1)/r(0) onde r(i) é a autocorrelação) é negativo (tilt<0 como representado na figura 5b), o cálculo do fator de escala é feito do modo seguinte:
[00148] Para evitar artefatos devidos a variações demasiado bruscas de energia da banda alta, é aplicado um alisamento com o valor de R. Em uma modalidade de realização privilegiada, um alisamento exponencial é efetuado com um fator fixo no tempo (0,5) sob a forma: R = 0,5R + 0,5Rprev Rprev = R
[00149] onde Rprev corresponde ao valor de R na sub-trama anterior e o fator 0,5 é otimizado de forma empírica - evidentemente, o fator 0,5 poderá ser mudado para um outro valor e outros métodos de alisamento são também possíveis. De notar que o alisamento permite reduzir as variantes temporais e, portanto, evita artefatos.
[00150] O fator de escala otimizado é então dado por: gHB2(m) = max(min)(R,Q)P)/ P
[00151] Em uma modalidade de realização alternativa, poderá ser substituído o alisamento de R por um alisamento de gHB2 (m) tal que: gHB2(m) ^0,5gHB2(m) +0,5gHB2(m - 1)
[00152] Se o tilt (calculado como em AMR-WB no bloco 104) é positivo (tilt>0 como na figura 5a), o cálculo do fator de escala é feito do seguinte modo:
[00153] A quantidade R é alisada de modo adaptativo no tempo, com um alisamento mais forte quando R é fraco - como no caso anterior, esse alisamento permite reduzir as variantes temporais e, portanto, evita artefatos: R = (1 - α) R + αRprev com α = 1 - R2 Rprev = R
[00154] Em seguida, o fator de escala otimizado é dado por: gHB2(m) = min (R, P, Q) /P
[00155] Em uma modalidade de realização alternativa, poderá ser substituído o alisamento de R por um alisamento de gHB2(m) tal como calculado mais acima. gHB(m)=(1 - α)gHB(m)+αgHB(m - 1), m = 0,..., 3, α=1 -g2HB (m)
[00156] onde gHB (-1) é o fator de escala ou ganho calculado para a última sub-trama da trama anterior.
[00157] Se toma aqui o mínimo de R, P, Q para evitar sobreavaliar o fator de escala.
[00158] Em uma variante, a condição acima dependendo unicamente do tilt poderá ser estendida para ter em conta não só o parâmetro de tilt mas também outros parâmetros para refinar a decisão. Para além disso, o cálculo de gHB2 (m) poderá ser ajustado em função desses referidos parâmetros suplementares.
[00159] Um exemplo de parâmetro suplementar é o número de passagem por zero (ZCR, zero crossing rate) que pode ser definido como:
[00161] O parâmetro zcr dá geralmente os resultados similares ao tilt. Um bom critério de classificação é a razão entre zcrs calculada para o sinal sintetizado s(n) e zcru calculado para o sinal de excitação u(n) de 12800 Hz. Essa razão é entre 0 e 1, onde 0 significa que o sinal tem um espectro decrescente, 1 que o espectro é crescente (o que corresponde a (1 - tilt) /2. Nesse caso, uma razão zcrs /zcru >0,5 corresponde ao caso tilt <0, uma razão zcrs / zcru >0,5 corresponde ao tilt <0.
[00162] Em uma variante, se poderá utilizar uma função de um parâmetro tilthp onde tilthp é o tilt calculado para o sinal sintetizado s(n) filtrado por um filtro passa alto com uma frequência de corte por exemplo de 4800 Hz; nesse caso, a resposta 1 / Â(z/Y) de 6 a 8 kHz (aplicada a 16 kHz) corresponde à resposta ponderada de 1 / Â(z) de 4,8 a 6,4 kHz. Como 1 / Â(z/Y) tem uma resposta mais achatada, é preciso compensar essa mudança de tilt. A função de fator de escala de acordo com tilthp é então dada em uma modalidade de realização por: (1 - tilthp)2 +0,6. Se multiplica portanto Q e R por min(1,(1 - tilthp)2 +0,6) quando tilt >0 ou por max(1,(1 - tilthp)2 +0,6) quando tilt <0.
[00163] Se considera agora o caso do débito de 23,85kbit/s, para o qual é realizada uma correção de ganho pelos blocos de 403 a 408. Essa correção de ganho poderia aliás ser objeto de uma invenção separada. Nessa modalidade particular de acordo com a invenção, a informação de correção de ganho, anotada gHBcorr(m), transmitida pela codificação (compatível) AMR-WB com um débito de 0,8 kbit/s é utilizada para melhorar a qualidade para 23,85 kbit/s.
[00164] É suposto aqui que a codificação (compatível) AMR-WB efetuou uma quantificação de ganho de correção sobre 4 bits como descrito na cláusula UIT-T G.722.2/5.11 ou de modo equivalente na cláusula 3GPP TS 26.190/5.11.
[00165] No codificador AMR-WB, o ganho de correção é calculado comparando a energia do sinal original amostrado de 16 kHz e filtrado por um filtro passa banda 6-7 kHz, sHB(n), com a energia do ruído branco de 16 kHz filtrado por um filtro de síntese 1 / Â(z/y) e um filtro passa banda 6-7 kHz (antes da filtragem a energia do ruído é colocada a um nível semelhante ao da excitação a 12,8 kHz), sHB2 (n). O ganho é a raiz da razão de energia do sinal original sobre a energia do ruído dividido por dois. Em uma modalidade possível de realização se poderá mudar o filtro passa banda para um filtro com uma banda mais larga (por exemplo de 6 a 7,6kHz).
[00166] Para poder aplicar a informação de ganho recebida a 23,85 kbit/s (no bloco 407), é importante reconduzir a excitação para um nível semelhante ao esperado na codificação (compatível) AMR-WB. Assim, o bloco 404 efetua equação seguinte: UHBi(n) = gHB3 (m)uHB(n), n = 80m, ..., 80(m+1)-1
[00168] onde o fator 5 do denominador serve para compensar a diferença de largura de banda entre o sinal u(n) e o sinal uHB(n), sabendo que para a codificação AMR-WB a excitação HF é um ruído branco sobre a banda 0-8000 Hz.
[00169] O índice de 4 bits por sub-trama, anotado indexHF_ganho(m), enviado de 23,85 kbit/s é desmultiplexado do trem binário (bloco 405) e decodificado pelo bloco 406 do modo seguinte: gHBcorr(m) = 2.HP_gain (indexHF_ganho(m))
[00170] onde HP_gain (.) é o dicionário de quantificação de ganho HF definido na codificação AMR-WB e lembrado mais abaixo:
[00171] Tabela 1 (dicionário de ganho de 23,85
[00172] O bloco 407 efetua a colocação à escala do sinal de excitação de acordo com a equação seguinte: uHB2(n)= gHβcorr (m)uHB1 (n), n =80m, „., 80(m + 1)-1
[00173] Finalmente, é ajustada a energia da excitação ao nível da sub-trama corrente com as condições seguintes (bloco 408). É calculado:
[00174] O numerador representa aqui a energia de sinal banda alta que será obtida no modo 23.05. Como explicado antes, para os débitos <23,85 kbit/s é preciso manter o nível de energia entre o sinal de excitação decodificado e o sinal de excitação estendido uHB(n), mas essa tensão não é necessária no caso do débito de 23,85 kbit/s, visto que uHB(n) é nesse caso colocado à escala pelo ganho gHB3(m). Para evitar as duplas multiplicações certas operações de multiplicações aplicadas ao sinal no bloco 400 são aplicadas no bloco 402 multiplicando por g(m). O valor de g(m) depende do algoritmo de síntese de uHB(n) e deve ser ajustado de tal modo que o nível de energia entre o sinal de excitação decodificado de banda baixa e o sinal g (m)uHB (n) seja mantido.
[00175] Em uma modalidade de realização particular, que será descrita em detalhe mais tarde em referência à figura 7, g(m) = 0,6gHB1(m), onde gHB1(m) é um ganho que garante, para o sinal uHB, a mesma razão entre energia por sub-trama e energia por trama que para o sinal u(n) e 0,6 corresponde ao valor médio de amplitude de resposta de frequência do filtro de desacentuação de 5000 a 6400 Hz.
[00176] É suposto que no bloco 408 se tem uma informação sobre o tilt do sinal de banda baixa -em uma modalidade de realização privilegiada esse tilt é calculado como no codec AMR-WB de acordo com os blocos 103 e 104, no entanto outros métodos de estimativa do tilt são possíveis sem mudar o princípio da invenção.
[00177] Se fac(m) >1 ou tilt<0, se toma: uHB’(n) = UHB2(n), n = 80m, ..., 80(m + 1)-1
[00179] É de notar que o cálculo de fator de escala otimizado apresentado aqui, nomeadamente nos blocos 401 e 402, se distingue da igualização supracitada de níveis de filtros efetuada no codec AMRWB+ por vários aspetos:
[00180] • O fator de escala otimizado é calculado diretamente a partir das funções de transferência dos filtros LPC sem envolver filtragem temporal. Isso simplifica o processo.
[00181] • A igualização é feita preferencialmente a uma frequência diferente da frequência de Nyquist (6400 Hz) associada à banda baixa. Com efeito, a modelização LPC representa implicitamente a atenuação do sinal tipicamente causada pelas operações de reamostragem e, portanto, a resposta de frequência de um filtro LPC pode ser sujeita à frequência de Nyquist uma diminuição que não se encontra na frequência comum escolhida.
[00182] • A igualização assenta aqui sobre um filtro de ordem menos elevada (aqui de ordem 2) além dos 2 filtros para igualizar. Esse filtro adicional permite evitar os efeitos de flutuações espectrais locais (pico ou vale) que podem estar presentes na frequência comum para o cálculo da resposta de frequência dos filtros de predição.
[00183] • Para os blocos de 403 a 408, a vantagem da invenção é que a qualidade do sinal decodificado a 23,85 kbit/s de acordo com a invenção melhora em relação a um sinal decodificado a 23,05 kbit/s, o que não é o caso em um codificador AMR-WB. Na realidade, esse aspecto da invenção permite utilizar a informação suplementar (0,8 kbit/s) recebida a 23,85 kbit/s, mas de modo controlado (bloco 408), para melhorar a qualidade do sinal de excitação estendido ao débito de 23,85.
[00184] O dispositivo de determinação do fator de escala otimizado tal como ilustrado pelos blocos de 401 a 408 da figura 4, implementa um processo de determinação do fator de escala otimizado descrito agora em referência à figura 6.
[00185] As etapas principais são implementadas pelo bloco 401.
[00186] Assim, um sinal de excitação estendido uHB(n) é obtido no momento de um processo de extensão de banda de frequência E601 que compreende uma etapa de decodificação ou de extração em uma primeira banda de frequência chamada banda baixa, de um sinal de excitação e de parâmetros da primeira banda de frequência como por exemplo os coeficientes do filtro de predição linear da primeira banda de frequência.
[00187] Uma etapa E602 determina um filtro de predição linear chamado filtro adicional, de ordem inferior ao da primeira banda de frequência. Para determinar esse filtro, são utilizados os parâmetros decodificados ou extraídos da primeira banda de frequência.
[00188] Em uma modalidade de realização essa etapa é efetuada por truncatura da função de transferência do filtro de predição linear da banda baixa para obter uma ordem de filtro inferior, por exemplo 2. Esses coeficientes podem em seguida ser modificados em função de um critério de estabilidade como explicado anteriormente em referência à figura 4.
[00189] A partir dos coeficientes do filtro adicional assim determinado, é implementada uma etapa E603 para calcular o fator de escala otimizado para aplicar ao sinal de excitação estendido. Esse fator de escala otimizado é por exemplo calculado a partir da resposta de frequência do filtro adicional a uma frequência comum entre a banda baixa (primeira banda de frequência) e a banda alta (segunda banda de frequência). Um valor mínimo podendo ser escolhido entre a resposta de frequência desse filtro e as dos filtros banda baixa e banda alta.
[00190] Isso evita, pois, as sobreavaliações de energia que podiam existir nos métodos do estado da técnica.
[00191] Essa etapa de cálculo do fator de escala otimizado é por exemplo descrita anteriormente em referência à figura 4 e às figuras 5a e 5b.
[00192] A etapa E604 realizada pelo bloco 402 ou 409 (de acordo com a taxa de decodificação) para a extensão de banda, aplica o fator de escala otimizado assim calculado ao sinal de excitação estendido de modo a obter um sinal de extensão estendido otimizado uHB’(n).
[00193] Em uma modalidade de realização particular, o dispositivo de determinação do fator de escala otimizado 708 está integrado em um dispositivo de extensão de banda descrito agora em referência à figura 7. Esse dispositivo de determinação do fator de escala otimizado ilustrado pelo bloco 708 implementa o processo de determinação do fator de escala otimizado descrito anteriormente em referência à figura 6.
[00194] Nessa modalidade de realização, o bloco 400 de extensão de banda da figura 4 compreende os blocos de 700 a 707 da figura 7 descrita agora.
[00195] Assim, na entrada do dispositivo de extensão de banda, um sinal de excitação de banda baixa decodificado ou estimado por análise é recebido (u(n)). A extensão de banda utiliza aqui a excitação decodificada a 12,8 kHz (exc2 ou u(n)) na saída do bloco 302 da figura 3.
[00196] É de notar que nessa modalidade de realização, a geração da excitação sobreamostrada e estendida é efetuada em uma banda de frequência indo de 5 a 8 kHz incluindo, portanto, uma segunda banda de frequência (6,4-8kHz) superior à primeira banda de frequência (0-6,4 kHz).
[00197] A geração de um sinal de excitação estendido é efetuada pelo menos sobre a segunda banda de frequência, mas também sobre uma parte da primeira banda de frequência.
[00198] Evidentemente, os valores definindo essas bandas de frequências podem ser diferentes de acordo com o decodificador ou o dispositivo de processamento onde a invenção é aplicada.
[00199] Para esse exemplo de realização, esse sinal é transformado para obter um espectro de sinal de excitação U(k) pelo módulo de transformação tempo frequência 500.
[00200] Em uma modalidade de realização particular, a transformada utiliza uma DCT-IV (para "Discrete Cosine Transform" - Tipo IV em inglês) (bloco 700) sobre a trama corrente de 20 ms (256 amostras), sem gestão de janelas, o que volta a transformar diretamente u(n) com n = 0, ..., 255 de acordo com a fórmula seguinte:
[00201] onde N = 256 e k = 0, ... , 255
[00202] Se nota aqui a transformação sem gestão de janelas (ou de modo equivalente com uma janela retangular implícita do comprimento da trama) é possível porque o processamento é efetuado no domínio da excitação, e não no domínio do sinal, embora nenhum artefato (efeitos de bloco) seja audível, o que constitui uma vantagem importante dessa modalidade de realização da invenção.
[00203] Nessa modalidade de realização, a transformação DCT-IV é implementada por FFT segundo o algoritmo chamado «Evolved DCT(EDCT)» descrito no artigo de D.M. Zhang, H.T. Li, A Low Complexity Transform - Evolved DCT, IEEE 14a International Conference on Computational Science and Engineering (CSE), agosto 2011, pp 144-149, e implementado nas normas UIT-T G.718 Anexo B e G.729.1 Anexo E.
[00204] Em variantes da invenção e sem perda de generalidade, a transformação DCT-IV poderá ser substituída por outras transformações de tempos-frequências a curto prazo com o mesmo comprimento e no domínio da excitação, como uma FFT (para "Fast Fourier Transform" em inglês) ou uma DCT-II (Discrete Cosine Transform -Tipo II). De modo alternativo, poderá ser substituída a DCT-IV sobre a trama por uma transformação com recobrimento adição e gestão de janelas de comprimento superior ao comprimento da trama corrente, por exemplo utilizando uma MDCT (para "Modified Discrete Cosine Transform" em inglês). Nesse caso o atraso T no bloco 310 da figura 3, deverá ser ajustado (reduzido) de modo adequado em função do atraso adicional devido à análise/síntese por essa transformada.
[00205] O espectro DCT, U(k), de 256 amostras cobrindo a banda 0-6400 Hz (de 12,8 kHz), é em seguida estendido (bloco 701) em um espectro de 320 amostras cobrindo a banda 0-8000 Hz (de 16 kHz) na forma seguinte:
[00206] onde se toma de modo preferencial start_band = 160.
[00207] O bloco 701 funciona como módulo de geração de um sinal de excitação sobreamostrado e estendido e realiza uma reamostragem de 12,8 a 16 kHz no domínio de frequência, acrescentando % de amostras (k = 240, ..., 319) ao espectro, a razão entre 16 e 12,8 sendo de 5/4.
[00208] Para além disso, o bloco 701 realiza uma filtragem passa alto implícita na banda 0-5000 Hz visto que as 200 primeiras amostras de UHB1 (k) são colocadas a zero; como explicado mais tarde, essa filtragem passa alto é também completada por uma parte de atenuação progressiva dos valores espectrais de índices k = 200, ..., 255 na banda 5000-6400 Hz, essa atenuação progressiva é implementada no bloco 704 mas poderia ser realizada separadamente fora do bloco 704. De modo equivalente e em variantes da invenção, a implementação da filtragem passa alto separada em blocos de coeficientes de índice k = 0, ...,199 colocado a zero, de coeficientes k = 200, ..., 255 atenuados no domínio transformado, poderá, pois, ser efetuado em uma única etapa.
[00209] Nesse exemplo de realização e de acordo com a definição de UHB1 (k), se observa que a banda 5000-6000 Hz de UHB1(k) (que corresponde aos índices k = 200, ., 239) é copiada a partir da banda 5000-6000 Hz de U(k). Essa aproximação permite manter o espectro original nessa banda e evita introduzir distorções na banda 5000-6000 Hz no momento da adição da síntese HF com a síntese BF - em particular a fase do sinal (implicitamente representada no domínio DCT-IV) nessa banda é preservada.
[00210] A banda 6000-8000 Hz de UHB1 (k) é aqui definida copiando a banda 4000-6000 Hz de U(k) visto que o valor de start_band é fixado preferencialmente a 160.
[00211] Em uma variante da modalidade de realização, o valor de start_band se poderá tornar adaptativo em torno do valor de 160. Os detalhes da adaptação do valor start_band não são aqui descritos porque ultrapassam o quadro da invenção.
[00212] Para alguns sinais de banda larga (amostrados a 16 kHz), a banda alta (>6 kHz) pode ser barulhenta, harmônica ou compreender uma mistura de ruído e de harmônicas. Para além disso, o nível de harmonicidade na banda 6000-8000 Hz está geralmente correlacionado ao das bandas de frequências inferiores. Assim o bloco 702 de geração de ruído, realiza uma geração de ruído no domínio de frequência UHBN(k) para k = 240, ..., 319 (80 amostras) correspondente a uma segunda banda de frequência chamada de alta frequência para combinar em seguida esse ruído com o espectro UHB1 (k) no bloco 703.
[00213] Em uma modalidade de realização particular, o ruído (na banda 6000-8000 Hz) é gerado de modo pseudo-aleatório com um gerador de congruência linear sobre 16 bits:
[00214] com a convenção que UHBN (239) na trama corrente corresponde ao valor UHBN (319) da trama precedente. Em variantes da invenção, poderá ser substituída essa geração de ruído por outros métodos.
[00215] O bloco 703 de combinação pode ser realizado de diferentes maneiras. De modo privilegiado é considerado uma mixagem adaptativa da forma: UHB2 (k) = βUHBl (k) + αGHBNUHBN (k), k = 240, ..., 319
[00216] onde GHBN é um fator de normalização servindo para igualizar o nível de energia entre os dois sinais,
[00217] com £ = 0,01, e o coeficiente α (compreendido entre 0 e 1) é ajustado em função de parâmetros estimados a partir da banda baixa decodificada e o coeficiente β (compreendido entre 0 e 1) depende de α.
[00218] Em uma modalidade de realização privilegiada é calculada a energia do ruído em três bandas: 2000-4000 Hz, 4000-6000 Hz e 6000-8000 Hz, com:
[00219] e N(k1, k2) é o conjunto dos índices k para os quais o coeficiente de índice k é classificado como estando associado a ruído. Esse conjunto pode por exemplo ser obtido detectando os picos locais em U’(k) verificando |U’(k)| |U’(k -1)| e |U’(k)| |U’(k) + 1)| e considerando que essas linhas não estão associadas a ruído, ou (aplicando a negação da condição anterior): N(a,b)={a < k <b||U’(k)|<|U’(k-1)|ou U'(k)|<|U' (k + 1)|}
[00220] Se pode notar que outros métodos de cálculo da energia do ruído são possíveis, por exemplo tomando o valor médio do espectro sobre a banda considerada ou aplicando um alisamento a cada linha de frequência antes de calcular a energia por banda.
[00221] É fixado α de tal modo que a razão entre a energia do ruído nas bandas 4-6 kHz e 6-8 kHz seja a mesma que a entre as bandas 2-4 kHz e 4-6 kHz: onde
[00222] Em variantes da invenção, o cálculo de α poderá ser substituído por outros métodos. Por exemplo, em uma variante, se poderão extrair (calcular) diferentes parâmetros (ou «features» em inglês) caracterizando o sinal de banda baixa, cujo parâmetro «tilt» semelhante ao calculado no codec AMR-WB, e se estimará o fator α em função de uma regressão linear a partir desses diferentes parâmetros limitando seu valor entre 0 e 1. A regressão linear poderá por exemplo ser estimada de modo supervisionado estimando o fator α dando a banda alta original em uma base de aprendizagem. Se notará que o modo de cálculo de α não limita a natureza da invenção.
[00223] Em uma modalidade de realização privilegiada, se toma para preservar a energia do sinal estendido após mixagem.
[00224] Em uma variante os fatores β e α poderão ser adaptados para ter em conta o fato de que um ruído injetado em uma determinada banda do sinal é captada em geral como mais forte do que um sinal harmônico com a mesma energia na mesma banda. Assim se poderão modificar os fatores β e α como se segue:
[00225] β ^ β.f(α)
[00226] a ^ α.f(α)
[00227] onde f(α) é uma função decrescente de α, por exemplo, b = 1,1 a = 1,2, /(a) limitado de 0,3 a 1. É preciso notar que após multiplicação por /(α), α2 + β2 <1 embora a energia do sinal UHB2 (k) = βUHb1 (k) + aGHBNUHBN (k) é mais baixa do que a energia de UHB1(k) (a diferença de energia depende de a, quanto mais se acrescenta ruído, mais a energia é atenuada).
[00228] Em outras variantes da invenção se poderá ter:
[00229] β = 1 - α
[00230] o que permite preservar o nível de amplitude (quando os sinais combinados são do mesmo sinal); no entanto essa variante tem a desvantagem de resultar em uma energia global (ao nível de UHB2(k)) que não é monótona em função de α.
[00231] Se nota, portanto, aqui que o bloco 703 realiza o equivalente do bloco 101 da figura 1 para normalizar o ruído branco em função de uma excitação que aqui está por outro lado no domínio da frequência, já entendida na cadência de 16 kHz; para além disso, a mixagem está limitada à banda 6000-8000 Hz.
[00232] Em uma variante simples, se pode considerar uma realização do bloco 703, onde os espectros UHB1,(k) ou GHBNUHBN(k), são selecionados (comutados) de modo adaptativo, o que equivale a apenas permitir os valores 0 ou 1 para α; essa aproximação volta para classificar o tipo de excitação a produzir na banda 6000-8000 Hz.
[00233] O bloco 704 realiza de modo opcional, uma operação dupla de aplicação de resposta de frequência de filtro passa banda e de filtragem de desacentuação (ou falta de ênfase) no domínio de frequência.
[00234] Em uma variante da invenção, a filtragem de desacentuação se poderá realizar no domínio temporal, após o bloco 705 realmente antes do bloco 700; no entanto, nesse caso, a filtragem passa banda efetuada no bloco 704 pode deixar alguns componentes de baixa frequências de níveis muito fracos que se veem amplificar por desacentuação, o que pode modificar de modo ligeiramente perceptível a banda baixa decodificada. Por essa razão, é preferível realizar aqui a desacentuação no domínio de frequência. Na modalidade de realização privilegiada, os coeficientes de índice k = 0, ..., 199 são colocados a zero, assim a desacentuação é limitada aos coeficientes superiores.
[00236] onde Gdeemph(k) é a resposta de frequência do filtro 1/(1-0,68Z-1) sobre uma banda de frequência discreta restrita. Tendo em conta as frequências discretas (ímpares) da DCT-IV, se define aqui Gdeemph(k) como:
[00237] Se uma outra transformação que a DCT-IV utiliza, a definição de θk poderá ser ajustada (por exemplo para frequências pares).
[00238] É de notar que a desacentuação é aplicada em duas fases para k = 200, ..., 255 correspondendo à banda de frequência 5000-6400 Hz, onde a resposta 1/(1-0,68Z-1) é aplicada como a 12,8kHz, e para k = 256, ..., 319 correspondendo à banda de frequência 6400-8000 Hz, onde a resposta se estende de 16 kHz aqui com um valor constante na banda 6,4-8 kHz.
[00239] Se pode notar que no codec AMR-WB a síntese HF não é desacentuada. Na modalidade de realização apresentada aqui, o sinal de altas frequências é pelo contrário desacentuado de modo a reconduzi-lo em um domínio coerente com o sinal de baixas frequências (0,6-4 kHz) que sai do bloco 305 da figura 3. Isso é importante para a estimativa e para o ajustamento ulterior da energia da síntese HF.
[00240] Em uma variante da modalidade de realização, para reduzir a complexidade, se poderá fixar Gdeemph(k) em um valor constante independente de k, tomando por exemplo Gdeemph(k) = 0,6 o que corresponde aproximadamente ao valor médio de Gdeemph(k) para k = 200, ..., 319 nas condições da modalidade de realização descrita mais acima.
[00241] Em uma outra variante da modalidade de realização do dispositivo de extensão, a desacentuação poderá ser feita de modo equivalente no domínio temporal após DCT inverso.
[00242] Além da desacentuação, uma filtragem passa banda é aplicada com duas partes separadas: uma passa alto fixa, a outra passa baixo adaptativa (função do débito).
[00243] Essa filtragem é efetuada no domínio de frequência.
[00244] Em uma modalidade de realização privilegiada, é calculada a resposta artificial de filtro passa baixo no domínio de frequência como segue:
[00246] onde Nlp = 60 a 6,6 kbit/s, 40 a 8,85 kbit/s, 20 para débitos >8,85 bits/s.
[00249] É de notar que em variantes da invenção os valores de Ghp(k) poderão ser modificados guardando uma diminuição progressiva. Assim a filtragem passa baixo com largura de banda variável, Glp(k), poderá ser ajustada com valores ou com um suporte de frequência diferentes, sem mudar o princípio dessa etapa de filtragem.
[00250] É de notar também que a filtragem passa banda poderá ser adaptada definindo uma única etapa de filtragem combinando as filtragens passa alto e passa baixo.
[00251] Em uma outra modalidade de realização, a filtragem passa banda poderá ser realizada de modo equivalente no domínio temporal (como no bloco 112 da figura 1) com diferentes coeficientes de filtro de acordo com o débito, após uma etapa de DCT inversa. No entanto, se notará que é vantajoso realizar essa etapa diretamente no domínio de frequência porque a filtragem é efetuada no domínio da excitação LPC e, portanto, os problemas de convolução circular e de efeitos de borda são muito limitados nesse domínio.
[00252] É de notar também que no caso do débito de 23,85 kbit/s não se efetua a desacentuação da excitação UHB2(k) para ficar em acordo com o modo cujo ganho de correção é calculado no codificador AMR-WB e para evitar as multiplicações duplas. Nesse caso o bloco 704 realiza somente a filtragem passa baixo.
[00253] O bloco 705 de transformada inversa realiza uma DCT inversa em 320 amostras para encontrar a excitação de alta frequência amostrada a 16 kHz. Sua implementação é idêntica ao bloco 700, porque a DCT-IV é ortonormal, a não ser que o comprimento da transformada seja de 320 em vez de 256, e se obtém:
[00254] onde N16K = 320 e k = 0, ..., 319.
[00255] Essa excitação amostrada a 16 kHz é em seguida de modo opcional colocada à escala por ganhos definidos por sub-trama de 80 amostras (bloco 707).
[00256] Em uma modalidade de realização privilegiada, é calculado primeiro (bloco 706) um ganho gHB1(m) por sub-trama por razões de energia das sub-tramas tal que cada sub-trama de índice m = 0, 1, 2 ou 3 da trama corrente:
[00258] o que mostra que se garante no sinal uHB a mesma razão entre energia por sub-trama e energia por trama que no sinal u(n).
[00259] O bloco 707 efetua a colocação à escala do sinal combinado de acordo com a equação seguinte:
[00260] UHB(n)=gHBi(m)uHB0(n), n = 80m,... , 80(m+1)- 1
[00261] É de notar que a realização do bloco 706 difere da do bloco 101 da figura 1, porque a energia ao nível da trama corrente é tida em conta além daquela da sub-trama. Isso permite ter a razão da energia de cada sub-trama em relação à energia da trama. Se comparam, pois, razões de energia (ou energias relativas) em vez das energias absolutas entre banda baixa e banda alta.
[00262] Assim, essa etapa de colocação à escala permite manter na banda alta a razão de energia entre a subtrama e a trama do mesmo modo que na banda baixa.
[00263] É de notar aqui que no caso do débito 23,85 kbit/s os ganhos gHB1(m) são calculados, mas aplicados na etapa seguinte, como explicado em referência à figura 4, para evitar as multiplicações duplas. Nesse caso uHB(n) = uHB0(n).
[00264] De acordo com a invenção, o bloco 708 efetua em seguida um cálculo de fator de escala por sub-trama do sinal (etapas E602 a E603 da figura 6), como descrito anteriormente em referência à figura 6 e detalhado na figura 4 e 5.
[00265] Finalmente, a excitação corrigida uHB’(n) é filtrada pelo módulo de filtragem 710 que se pode realizar aqui tomando como função de transferência 1 / Â (z/Y), onde Y = 0,9 a 6,6 kbit/s e Y = 0,6 nos outros débitos, o que limita a ordem do filtro para a ordem 16.
[00266] Em uma variante, essa filtragem se poderá realizar do mesmo modo que a que é descrita para o bloco 111 da figura 1 do decodificador AMR-WB, no entanto a ordem do filtro passa a 20 no débito de 6,6, o que não muda de modo significativo a qualidade do sinal sintetizado. Em uma outra variante, se poderá efetuar a filtragem de síntese LPC no domínio de frequência, após ter calculado a resposta de frequência do filtro implementado no bloco 710.
[00267] Em uma variante de realização, a etapa de filtragem por um filtro 710 de predição linear para a segunda banda de frequência é combinado para a aplicação do fator de escala otimizado, o que permite reduzir a complexidade de processamento. Assim as etapas de filtragem 1/ Â(z/y) e de aplicação do fator de escala otimizado gHB2 são combinada em uma única etapa de filtragem gHB2 /Â(z/y) para reduzir a complexidade de processamento.
[00268] Em variantes de realização da invenção, a codificação da banda baixa (0-6,4 kHz) poderá ser substituída por um codificador CELP diferente do usado em AMR-WB, como por exemplo o codificador CELP em G.718 para 8 kbit/s. Sem perda de generalidade outros codificadores de banda larga ou funcionando em frequências superiores a 16 kHz, onde a codificação de banda baixa funciona a uma frequência interna de 12,8 kHz poderiam ser usados. Por outro lado, a invenção pode ser adaptada de modo evidente em outras frequências de amostragem de 12,8 kHz, quando um codificador de baixas frequências funciona em uma frequência de amostragem inferior à do sinal original ou reconstruído. Quando a decodificação de banda baixa não utiliza predição linear, não se dispõe de um sinal de excitação para estender, nesse caso se poderá realizar uma análise LPC do sinal reconstruído na trama corrente e se calculará uma excitação LPC de modo a poder aplicar a invenção.
[00269] Finalmente, em uma outra variante da invenção, a excitação (u(n)) é reamostrada, por exemplo por interpolação linear ou "spline" cúbico, de 12,8 a 16 kHz antes de transformação (por exemplo DCT-IV) de comprimento 320. Essa variante tem o defeito de ser mais complexa, porque a transformada (DCT-IV) da excitação é então calculada sobre uma largura maior e a reamostragem não se efetua no domínio da transformada.
[00270] Para além disso, em variantes da invenção, todos os cálculos necessários para a estimativa dos ganhos (GHBN, gHB1 (m), gHB2 (m), gHBN, ...) poderão ser efetuados em um domínio logarítmico.
[00271] Em variantes da extensão de banda, a excitação de banda baixa u(n) e o filtro LPC 1 /Â (z) serão estimados por trama, por análise LPC de um sinal de banda baixa cuja banda deve ser estendida. O sinal de excitação de banda baixa é então extraído por análise do sinal áudio.
[00272] Em uma modalidade possível de realização dessa variante, o sinal áudio de banda baixa é reamostrado antes da etapa de extração, embora a excitação extraída do sinal áudio (por predição linear) seja já reamostrada.
[00273] A extensão de banda ilustrada na figura 7, é aplicada nesse caso a uma banda baixa que não está decodificada, mas analisada.
[00274] A figura 8 representa um exemplo de realização material de um dispositivo de determinação de um fator de escala otimizado 800 de acordo com a invenção. Esse pode ser parte integrante de um decodificador de sinal de audiofrequência ou de um equipamento que recebe sinais de audiofrequências decodificados ou não.
[00275] Esse tipo de dispositivo compreende um processador PROC cooperando com um bloco de memória BM compreendendo uma memória de armazenagem e/ou de trabalho MEM.
[00276] Um tal dispositivo compreende um módulo de entrada E apto para receber um sinal áudio de excitação decodificado ou extraído em uma primeira banda de frequência chamada banda baixa (u(n) ou U (k)) e os parâmetros de um filtro de síntese de predição linear (Â( )). Compreende um módulo de saída S apto para transmitir o sinal de alta frequência sintetizado e otimizado (uHB’(n)) por exemplo para um modo de filtragem como o bloco 710 da figura 7 ou para um módulo de reamostragem como o módulo 311 da figura 3.
[00277] O bloco de memória pode vantajosamente compreender um programa de informática compreendendo instruções de código para a implementação das etapas do processo de determinação de um fator de escala otimizado para aplicar em um sinal de excitação ou em um filtro no sentido da invenção, quando essas instruções são executadas pelo processador PROC, e nomeadamente as etapas de determinação (E602) de um filtro de predição linear chamado filtro adicional, de ordem inferior ao filtro de predição linear da primeira banda de frequência, os coeficientes do filtro adicional sendo obtidos a partir dos parâmetros decodificados ou extraídos da primeira banda de frequência, de cálculo (E603) de um fator de escala otimizado em função pelo menos dos coeficientes do filtro adicional.
[00278] Tipicamente, a descrição da figura 6 retoma as etapas de um algoritmo de uma tal programa de informática. O programa de informática pode também ser armazenado em um suporte de memória legível por um leitor do dispositivo ou transferível no espaço de memória desse.
[00279] A memória MEM registra de modo geral, todos os dados necessários para a implementação do processo.
[00280] Em uma modalidade possível de realização, o dispositivo assim descrito pode também compreender as funções de aplicação do fator de escala otimizado no sinal de excitação estendido, de extensão de banda de frequência, de decodificação de banda baixa e outras funções de processamento descritas por exemplo na figura 3 e 4 além das funções de determinação de fator de escala otimizado de acordo com a invenção.
Claims (8)
1. MÉTODO PARA A DETERMINAÇÃO DE UM FATOR DE ESCALA OTIMIZADO, a ser aplicado a um sinal de excitação ou a um filtro em um método para estender uma banda de frequência de um sinal de audiofrequência, sendo o método caracterizado por compreender as etapas de: calcular uma resposta de frequência, R, de um filtro de predição linear de uma banda de frequência, alisar um valor da resposta de frequência R para obter Ralisado usando um método de alisamento selecionado dentre um grupo de métodos de alisamento incluindo ao menos dois métodos de alisamento, em função de um conjunto de parâmetros que compreende uma pluralidade de parâmetros, incluindo um valor de inclinação espectral ou “tilt”, sendo que o método de alisamento selecionado compreende um método de alisamento adaptativo que é adaptativo ao longo do tempo, e aplicar Ralisado ao sinal de excitação, ou ao filtro, para estender a banda de frequência do sinal de audiofrequência; determinar o fator de escala otimizado com base no Ralisado, uma resposta de frequência do filtro de predição linear ao longo de uma segunda banda de frequência mais alta do que a primeira banda de frequência e uma resposta de frequência de um filtro adicional obtido de um polinômio do filtro de predição linear; e aplicar o fator de escala otimizado ao sinal de excitação ou ao filtro para reduzir artefatos durante uma renderização do sinal de audiofrequência.
2. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo alisamento ser mais forte para valores de R menores.
3. MÉTODO, de acordo com a reivindicação 1 ou 2, caracterizado pelo alisamento adaptativo estar sob a forma: Ralisamento= (1-a )Rpré-calculado + a.Rprev, Onde a = 1—Rpré- calculado 2 , Onde Rprev cOrrespOnde aO valOr de RalisadO na sub-trama anterior, Rpré-calculado corresponde ao valor de R conforme calculado durante a etapa de cálculo de uma resposta de frequência, R, de um filtro de predição linear de uma banda de frequência.
4. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo conjunto de métodos de alisamento compreender adicionalmente um alisamento exponencial com um fator que é fixo ao longo do tempo.
5. MÉTODO, de acordo com a reivindicação 4, caracterizado pelo alisamento exponencial ser do tipo: Ralisado = 0,5 Rpré-calculado + 0,5 Rprev, onde Rprev corresponde ao valor de Ralisado na sub-trama anterior, Rpré-calculado corresponde ao valor de R conforme calculado durante a etapa de cálculo de uma resposta de frequência, R, de um filtro de predição linear de uma banda de frequência.
6. MÉTODO, de acordo com a reivindicação 4 ou 5, caracterizado por compreender adicionalmente a etapa de determinar o fator de escala otimizado, a referida etapa de determinação do fator de escala otimizado compreendendo o cálculo de máx(mín(Ralisado, Q),P)/P, onde P é a resposta de frequência do filtro de predição linear ao longo de uma segunda banda de frequências, a segunda banda de frequências sendo mais alta que a primeira banda de frequências, Q é a resposta de frequência de um filtro adicional obtido pelo truncamento do polinômio do filtro de predição linear.
8. APARELHO PARA A DETERMINAÇÃO DE UM FATOR DE ESCALA OTIMIZADO, a ser aplicado a um sinal de excitação ou a um filtro em um aparelho para estender uma banda de frequência de um sinal de audiofrequência, sendo o aparelho caracterizado por compreender: um processador para calcular uma resposta de frequência, R, de um filtro de predição linear em relação a uma primeira banda de frequência, um bloco de alisamento configurado para selecionar um método de alisamento para alisar um valor da resposta de frequência R, de modo a obter Ralisado, o método de alisamento sendo selecionado dentre um grupo de ao menos dois métodos de alisamento diferentes com base em um conjunto de uma pluralidade de parâmetros, incluindo um valor de uma inclinação espectral ou “tilt”, sendo que o conjunto de métodos de alisamento compreende um método de que é adaptativo ao longo do tempo; e uma saída que aplica Ralisado como sinal excitação, ou ao filtro, para estender a banda de frequência de um sinal de audiofrequência, sendo que o processador é ainda configurado para: determinar o fator de escala otimizado com base no Ralisado, uma resposta de frequência do filtro de predição linear ao longo de uma segunda banda de frequência mais alta do que a primeira banda de frequência e uma resposta de frequência de um filtro adicional obtido de um filtro de predição linear; e aplicar o fator de escala otimizado excitação ou ao filtro para reduzir artefatos renderização do sinal de audiofrequência.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1356909 | 2013-07-12 | ||
FR1356909A FR3008533A1 (fr) | 2013-07-12 | 2013-07-12 | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
PCT/FR2014/051720 WO2015004373A1 (fr) | 2013-07-12 | 2014-07-04 | Facteur d'échelle optimisé pour l'extension de bande de fréquence dans un décodeur de signaux audiofréquences |
BR112016000337-3A BR112016000337B1 (pt) | 2013-07-12 | 2014-07-04 | Método de extensão de banda realizado por um dispositivo de extensãode banda para formar um sinal de saída com artefatos reduzidos, dispositivo dedeterminação de um fator de escala otimizado para aplicar em um sinal deexcitação ou em um filtro em um dispositivo de extensão de banda de frequênciade um sinal e decodificador de sinal de audiofrequência |
Publications (1)
Publication Number | Publication Date |
---|---|
BR122017018553B1 true BR122017018553B1 (pt) | 2022-04-19 |
Family
ID=49753286
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR122017018553-5A BR122017018553B1 (pt) | 2013-07-12 | 2014-07-04 | Método e aparelho para a determinação de um fator de escala otimizado |
BR122017018557-8A BR122017018557B1 (pt) | 2013-07-12 | 2014-07-04 | Método e aparelho para a determinação de um fator de escala otimizado |
BR112016000337-3A BR112016000337B1 (pt) | 2013-07-12 | 2014-07-04 | Método de extensão de banda realizado por um dispositivo de extensãode banda para formar um sinal de saída com artefatos reduzidos, dispositivo dedeterminação de um fator de escala otimizado para aplicar em um sinal deexcitação ou em um filtro em um dispositivo de extensão de banda de frequênciade um sinal e decodificador de sinal de audiofrequência |
BR122017018556-0A BR122017018556B1 (pt) | 2013-07-12 | 2014-07-04 | Método para operar um aparelho para estender uma banda de frequência de um sinal de audiofrequência e aparelho para estender uma banda de frequência de um sinal de audiofrequência pela determinação de um fator de escala otimizado |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR122017018557-8A BR122017018557B1 (pt) | 2013-07-12 | 2014-07-04 | Método e aparelho para a determinação de um fator de escala otimizado |
BR112016000337-3A BR112016000337B1 (pt) | 2013-07-12 | 2014-07-04 | Método de extensão de banda realizado por um dispositivo de extensãode banda para formar um sinal de saída com artefatos reduzidos, dispositivo dedeterminação de um fator de escala otimizado para aplicar em um sinal deexcitação ou em um filtro em um dispositivo de extensão de banda de frequênciade um sinal e decodificador de sinal de audiofrequência |
BR122017018556-0A BR122017018556B1 (pt) | 2013-07-12 | 2014-07-04 | Método para operar um aparelho para estender uma banda de frequência de um sinal de audiofrequência e aparelho para estender uma banda de frequência de um sinal de audiofrequência pela determinação de um fator de escala otimizado |
Country Status (11)
Country | Link |
---|---|
US (8) | US10446163B2 (pt) |
EP (1) | EP3020043B1 (pt) |
JP (4) | JP6487429B2 (pt) |
KR (4) | KR102319881B1 (pt) |
CN (4) | CN107527629B (pt) |
BR (4) | BR122017018553B1 (pt) |
CA (4) | CA3108924A1 (pt) |
FR (1) | FR3008533A1 (pt) |
MX (1) | MX354394B (pt) |
RU (4) | RU2756435C2 (pt) |
WO (1) | WO2015004373A1 (pt) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2631906A1 (en) * | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
CN105976830B (zh) * | 2013-01-11 | 2019-09-20 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
TWI557726B (zh) * | 2013-08-29 | 2016-11-11 | 杜比國際公司 | 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法 |
US20160323425A1 (en) * | 2015-04-29 | 2016-11-03 | Qualcomm Incorporated | Enhanced voice services (evs) in 3gpp2 network |
US9830921B2 (en) * | 2015-08-17 | 2017-11-28 | Qualcomm Incorporated | High-band target signal control |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
TWI684368B (zh) * | 2017-10-18 | 2020-02-01 | 宏達國際電子股份有限公司 | 獲取高音質音訊轉換資訊的方法、電子裝置及記錄媒體 |
TWI702594B (zh) * | 2018-01-26 | 2020-08-21 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建技術之回溯相容整合 |
CN110660409A (zh) * | 2018-06-29 | 2020-01-07 | 华为技术有限公司 | 一种扩频的方法及装置 |
CN113812136A (zh) * | 2019-04-03 | 2021-12-17 | 杜比实验室特许公司 | 可缩放话音场景媒体服务器 |
US20230067510A1 (en) * | 2020-02-25 | 2023-03-02 | Sony Group Corporation | Signal processing apparatus, signal processing method, and program |
RU2747368C1 (ru) * | 2020-07-13 | 2021-05-04 | федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации | Способ мониторинга и управления информационной безопасностью подвижной сети связи |
Family Cites Families (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2568984C (en) * | 1991-06-11 | 2007-07-10 | Qualcomm Incorporated | Variable rate vocoder |
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
SE502244C2 (sv) * | 1993-06-11 | 1995-09-25 | Ericsson Telefon Ab L M | Sätt och anordning för avkodning av ljudsignaler i ett system för mobilradiokommunikation |
JP3189614B2 (ja) * | 1995-03-13 | 2001-07-16 | 松下電器産業株式会社 | 音声帯域拡大装置 |
US6002352A (en) * | 1997-06-24 | 1999-12-14 | International Business Machines Corporation | Method of sampling, downconverting, and digitizing a bandpass signal using a digital predictive coder |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
JP4792613B2 (ja) * | 1999-09-29 | 2011-10-12 | ソニー株式会社 | 情報処理装置および方法、並びに記録媒体 |
FI119576B (fi) * | 2000-03-07 | 2008-12-31 | Nokia Corp | Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin |
US6889182B2 (en) * | 2001-01-12 | 2005-05-03 | Telefonaktiebolaget L M Ericsson (Publ) | Speech bandwidth extension |
AUPR433901A0 (en) * | 2001-04-10 | 2001-05-17 | Lake Technology Limited | High frequency signal construction method |
US6732071B2 (en) * | 2001-09-27 | 2004-05-04 | Intel Corporation | Method, apparatus, and system for efficient rate control in audio encoding |
US7512535B2 (en) * | 2001-10-03 | 2009-03-31 | Broadcom Corporation | Adaptive postfiltering methods and systems for decoding speech |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
DE60204039T2 (de) * | 2001-11-02 | 2006-03-02 | Matsushita Electric Industrial Co., Ltd., Kadoma | Vorrichtung zur kodierung und dekodierung von audiosignalen |
US7542896B2 (en) * | 2002-07-16 | 2009-06-02 | Koninklijke Philips Electronics N.V. | Audio coding/decoding with spatial parameters and non-uniform segmentation for transients |
JP4676140B2 (ja) * | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | オーディオの量子化および逆量子化 |
US7299190B2 (en) * | 2002-09-04 | 2007-11-20 | Microsoft Corporation | Quantization and inverse quantization for audio |
DE602004030594D1 (de) * | 2003-10-07 | 2011-01-27 | Panasonic Corp | Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung |
WO2005040749A1 (ja) * | 2003-10-23 | 2005-05-06 | Matsushita Electric Industrial Co., Ltd. | スペクトル符号化装置、スペクトル復号化装置、音響信号送信装置、音響信号受信装置、およびこれらの方法 |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
ATE430360T1 (de) * | 2004-03-01 | 2009-05-15 | Dolby Lab Licensing Corp | Mehrkanalige audiodekodierung |
FI119533B (fi) * | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US20090319277A1 (en) * | 2005-03-30 | 2009-12-24 | Nokia Corporation | Source Coding and/or Decoding |
JP5129115B2 (ja) * | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 高帯域バーストの抑制のためのシステム、方法、および装置 |
TWI324336B (en) * | 2005-04-22 | 2010-05-01 | Qualcomm Inc | Method of signal processing and apparatus for gain factor smoothing |
FR2888699A1 (fr) * | 2005-07-13 | 2007-01-19 | France Telecom | Dispositif de codage/decodage hierachique |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
CN101385079B (zh) * | 2006-02-14 | 2012-08-29 | 法国电信公司 | 在音频编码/解码中用于知觉加权的设备 |
US20080004883A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Scalable audio coding |
US8032371B2 (en) * | 2006-07-28 | 2011-10-04 | Apple Inc. | Determining scale factor values in encoding audio data with AAC |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
US8260609B2 (en) | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
KR101565919B1 (ko) * | 2006-11-17 | 2015-11-05 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 방법 및 장치 |
KR100905585B1 (ko) * | 2007-03-02 | 2009-07-02 | 삼성전자주식회사 | 음성신호의 대역폭 확장 제어 방법 및 장치 |
US8392198B1 (en) * | 2007-04-03 | 2013-03-05 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Split-band speech compression based on loudness estimation |
PT2165328T (pt) * | 2007-06-11 | 2018-04-24 | Fraunhofer Ges Forschung | Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária |
KR101373004B1 (ko) * | 2007-10-30 | 2014-03-26 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
CN101281748B (zh) * | 2008-05-14 | 2011-06-15 | 武汉大学 | 用编码索引实现的空缺子带填充方法及编码索引生成方法 |
EP2301021B1 (en) * | 2008-07-10 | 2017-06-21 | VoiceAge Corporation | Device and method for quantizing lpc filters in a super-frame |
US8577673B2 (en) * | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
US8571231B2 (en) * | 2009-10-01 | 2013-10-29 | Qualcomm Incorporated | Suppressing noise in an audio signal |
EP4358082A1 (en) * | 2009-10-20 | 2024-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
CA2683983A1 (en) | 2009-10-21 | 2011-04-21 | Carbon Solutions Inc. | Stabilization and remote recovery of acid gas fractions from sour wellsite gas |
CN102044250B (zh) * | 2009-10-23 | 2012-06-27 | 华为技术有限公司 | 频带扩展方法及装置 |
US8484020B2 (en) * | 2009-10-23 | 2013-07-09 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
US8380524B2 (en) * | 2009-11-26 | 2013-02-19 | Research In Motion Limited | Rate-distortion optimization for advanced audio coding |
US8455888B2 (en) * | 2010-05-20 | 2013-06-04 | Industrial Technology Research Institute | Light emitting diode module, and light emitting diode lamp |
SG185606A1 (en) * | 2010-05-25 | 2012-12-28 | Nokia Corp | A bandwidth extender |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
US8862465B2 (en) * | 2010-09-17 | 2014-10-14 | Qualcomm Incorporated | Determining pitch cycle energy and scaling an excitation signal |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
CN103035248B (zh) * | 2011-10-08 | 2015-01-21 | 华为技术有限公司 | 音频信号编码方法和装置 |
EP3089164A1 (en) * | 2011-11-02 | 2016-11-02 | Telefonaktiebolaget LM Ericsson (publ) | Generation of a high band extension of a bandwidth extended audio signal |
EP2774148B1 (en) * | 2011-11-03 | 2014-12-24 | Telefonaktiebolaget LM Ericsson (PUBL) | Bandwidth extension of audio signals |
US8909539B2 (en) * | 2011-12-07 | 2014-12-09 | Gwangju Institute Of Science And Technology | Method and device for extending bandwidth of speech signal |
CN102930872A (zh) * | 2012-11-05 | 2013-02-13 | 深圳广晟信源技术有限公司 | 用于宽带语音解码中基音增强后处理的方法及装置 |
ES2924427T3 (es) * | 2013-01-29 | 2022-10-06 | Fraunhofer Ges Forschung | Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
CN104517611B (zh) * | 2013-09-26 | 2016-05-25 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
US10163447B2 (en) * | 2013-12-16 | 2018-12-25 | Qualcomm Incorporated | High-band signal modeling |
US9542955B2 (en) * | 2014-03-31 | 2017-01-10 | Qualcomm Incorporated | High-band signal coding using multiple sub-bands |
US9697843B2 (en) * | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
JP2017145792A (ja) | 2016-02-19 | 2017-08-24 | 株式会社ケーヒン | インテークマニホールドにおけるセンサ取付構造 |
RU2636700C1 (ru) * | 2016-03-18 | 2017-11-27 | Акционерное общество "Лаборатория Касперского" | Способ устранения уязвимостей устройств, имеющих выход в Интернет |
TWI596952B (zh) | 2016-03-21 | 2017-08-21 | 固昌通訊股份有限公司 | 耳道式耳機 |
-
2013
- 2013-07-12 FR FR1356909A patent/FR3008533A1/fr active Pending
-
2014
- 2014-07-04 JP JP2016524867A patent/JP6487429B2/ja active Active
- 2014-07-04 RU RU2017144515A patent/RU2756435C2/ru active
- 2014-07-04 CA CA3108924A patent/CA3108924A1/en active Pending
- 2014-07-04 CN CN201710730366.8A patent/CN107527629B/zh active Active
- 2014-07-04 RU RU2017144518A patent/RU2751104C2/ru active
- 2014-07-04 CN CN201710730367.2A patent/CN107492385B/zh active Active
- 2014-07-04 RU RU2016104466A patent/RU2668058C2/ru active
- 2014-07-04 CA CA3108921A patent/CA3108921C/en active Active
- 2014-07-04 CA CA2917795A patent/CA2917795C/en active Active
- 2014-07-04 CN CN201710729750.6A patent/CN107527628B/zh active Active
- 2014-07-04 BR BR122017018553-5A patent/BR122017018553B1/pt active IP Right Grant
- 2014-07-04 CN CN201480039594.5A patent/CN105378837B/zh active Active
- 2014-07-04 BR BR122017018557-8A patent/BR122017018557B1/pt active IP Right Grant
- 2014-07-04 KR KR1020177024524A patent/KR102319881B1/ko active IP Right Grant
- 2014-07-04 EP EP14749907.3A patent/EP3020043B1/fr active Active
- 2014-07-04 WO PCT/FR2014/051720 patent/WO2015004373A1/fr active Application Filing
- 2014-07-04 MX MX2016000255A patent/MX354394B/es active IP Right Grant
- 2014-07-04 RU RU2017144519A patent/RU2756434C2/ru active
- 2014-07-04 BR BR112016000337-3A patent/BR112016000337B1/pt active IP Right Grant
- 2014-07-04 BR BR122017018556-0A patent/BR122017018556B1/pt active IP Right Grant
- 2014-07-04 CA CA3109028A patent/CA3109028C/en active Active
- 2014-07-04 KR KR1020167003307A patent/KR102315639B1/ko active IP Right Grant
- 2014-07-04 KR KR1020177024526A patent/KR102423081B1/ko active IP Right Grant
- 2014-07-04 US US14/904,555 patent/US10446163B2/en active Active
- 2014-07-04 KR KR1020177024532A patent/KR102343019B1/ko active IP Right Grant
-
2017
- 2017-07-27 JP JP2017145792A patent/JP6515147B2/ja active Active
- 2017-09-13 JP JP2017175592A patent/JP6515157B2/ja active Active
- 2017-09-13 JP JP2017175593A patent/JP6515158B2/ja active Active
- 2017-09-26 US US15/715,733 patent/US10438599B2/en active Active
- 2017-09-26 US US15/715,819 patent/US10438600B2/en active Active
- 2017-09-26 US US15/715,785 patent/US10354664B2/en active Active
-
2019
- 2019-08-16 US US16/542,440 patent/US10943593B2/en active Active
- 2019-08-21 US US16/546,898 patent/US10943594B2/en active Active
- 2019-08-28 US US16/553,595 patent/US10672412B2/en active Active
- 2019-08-30 US US16/556,332 patent/US10783895B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR122017018553B1 (pt) | Método e aparelho para a determinação de um fator de escala otimizado | |
JP2016528539A5 (pt) | ||
BR112016017616B1 (pt) | Processo de extensão de banda de frequência de um sinal de audiofrequência, dispositivo de extensão de banda de frequência de um sinal de audiofrequência e decodificador de sinal de audiofrequência | |
BR122017028041B1 (pt) | Método e dispositivo para estender uma faixa de frequência em um decodificador de sinal de áudio | |
BR122017028149B1 (pt) | Método para estender uma faixa de frequência em um decodificador de sinal de audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B07A | Application suspended after technical examination (opinion) [chapter 7.1 patent gazette] | ||
B350 | Update of information on the portal [chapter 15.35 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 04/07/2014, OBSERVADAS AS CONDICOES LEGAIS. |