IT9068029A1 - Sistema di codifica del segnale vocale con sottocodice annidato - Google Patents

Sistema di codifica del segnale vocale con sottocodice annidato Download PDF

Info

Publication number
IT9068029A1
IT9068029A1 IT068029A IT6802990A IT9068029A1 IT 9068029 A1 IT9068029 A1 IT 9068029A1 IT 068029 A IT068029 A IT 068029A IT 6802990 A IT6802990 A IT 6802990A IT 9068029 A1 IT9068029 A1 IT 9068029A1
Authority
IT
Italy
Prior art keywords
excitation
signals
filtering
signal
contribution
Prior art date
Application number
IT068029A
Other languages
English (en)
Other versions
IT1241358B (it
IT9068029A0 (it
Inventor
De Iacovo Rosario Drogo
Roberto Montagna
Daniele Sereno
Original Assignee
Sip
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sip filed Critical Sip
Publication of IT9068029A0 publication Critical patent/IT9068029A0/it
Priority to IT68029A priority Critical patent/IT1241358B/it
Priority to US07/803,484 priority patent/US5353373A/en
Priority to JP3350519A priority patent/JP2832871B2/ja
Priority to CA002057384A priority patent/CA2057384C/en
Priority to DE199191121836T priority patent/DE492459T1/de
Priority to EP91121836A priority patent/EP0492459B1/en
Priority to ES91121836T priority patent/ES2038106T3/es
Priority to DE69126195T priority patent/DE69126195T2/de
Priority to AT91121836T priority patent/ATE153470T1/de
Publication of IT9068029A1 publication Critical patent/IT9068029A1/it
Priority to GR930300034T priority patent/GR930300034T1/el
Application granted granted Critical
Publication of IT1241358B publication Critical patent/IT1241358B/it
Priority to US08/197,129 priority patent/US5469527A/en
Priority to GR970402114T priority patent/GR3024475T3/el

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

Descrizione dell'invenzione avente per titolo:
"Sistema di codifica del segnale vocale con sottocodice annidato"
Riassunto
Si suddivide l'insieme dei possibili segnali di eccitazione in più sottoinsiemi, il primo dei quali fornisce al segnale codificato il contributo necessario per realizzare una trasmissione a una velocità minima garantita dalla rete, mentre gli altri forniscono un contributo tale che, aggiunto a quello del primo sottoinsieme, provoca un incremento di velocità per passi successivi. In ricezione, si genera il segnale decodificato utilizzando il contributo di eccitazione del solo primo sottoinsieme, se i segnali codificati sono ricevuti alla velocità minima, mentre per velocità superiori alla minima si utilizzano anche i contributi dei sottoinsiemi che hanno permesso tale incremento di velocità (Fig. 2).
Testo della descrizione
La presente invenzione si riferisce ai sistemi di codifica del segnale vocale, e più in particolare riguarda un sistema di codifica numerica con sottocodice annidato, utilizzante tecniche di analisi per sintesi.
L'espressione "codifica numerica con sottocodice annidato" o più brevemente "codifica annidata" indica che, all' interno di un flusso di bit costituente il segnale codificato, è presente un flusso parziale che può essere ancora decodificato dando una replica approssimata del segnale originale. Questi codici permettono quindi di far fronte non solo a perdite accidentali di parte dei bit trasmessi, ma anche a temporanee necessità di limitare la quantità di informazione trasmessa. E ' questa una situazione che si può presentare, in caso di sovraccarico, nelle moderne reti a pacchetto basate sul cosiddetto "modo di trasferimento asincrono", noto con ia sigla ATM, dalle iniziali dell'espressione inglese ’asynchronous transfer mode".
Utilizzando una codifica annidata, si può realizzare la limitazione di velocità scartando un certo numero di pacchetti in un nodo interessato, in ricezione, si riesce a recuperare il segnale originale, anche se a prezzo di una certa degradazione rispetto ai caso delia ricezione dell'intero flusso di bit. Questa soluzione è più semplice dell'uso di un insieme di codificatori/decodificatori strutturalmente diversi, operanti a velocità opportune e pilotati dalia segnalazione di rete per la scelta della velocità di trasmissione.
Tra i sistemi utilizzati per ia codifica del segnale vocale, la codifica PCM (in particolare il PCM uniforme con codifica del segno e dell'ampiezza del campione) è di per sè una codifica annidata, in quanto l'uso di un maggiore o minore numero di bit in una parola di codice determina una ricostruzione più o meno precisa del valore del campione.
Altri sistemi, come per esempio le codifiche DPCM (PCM differenziale) e ADPCM (PCM differenziale adattativo), in cui si sfruttano le informazioni passate per decodificare le informazioni attuali, o i sistemi basati su tecniche di quantizzazione vettoriale, come i sistemi di codifica mediante analisi per sintesi, non presentano nella loro forma base un sottocodice annidato, e in effetti la perdita di un certo numero di bit di codifica provoca una fortissima degradazione della qualità del segnale ricostruito.
Sono descritti in letteratura dispositivi di codifica-decodifica basati su tecniche DPCM o ADPCM modificati in modo da realizzare una codifica annidata. P. es., nella memoria "Embedded DPCM for variable bit rate transmission" presentata da D. J. Goodman alla conferenza ICC-80, memoria 42-2, si descrive un codificatore/decodificatore DPCM in cui il segnale da codificare viene quantizzato con un numero di livelli tale da dare origine alla velocità di trasmissione nominale prevista sulla linea, mentre i quantizzatori inversi dei codificatore e del decodificatore operano con il numero di livelli corrispondente alla velocità di trasmissione minima prevista. I predittori nel codificatore e nel decodificatore operano quindi su segnali identici, quantizzati con lo stesso passo. E' stato dimostrato che la degradazione di qualità ottenuta in questo modo è minore di quella che si avrebbe con la perdita dello stesso numero di bit in una trasmissione con codifica DPCM convenzionale. L'articolo suggerisce anche di utilizzare lo stesso principio per la trasmissione a pacchetti della voce, in quanto la cancellazione di bit provoca una degradazione molto più blanda rispetto alla perdita di pacchetti che è il modo con cui in generale si ottiene una diminuzione della velocità di trasmissione in condizioni di forte traffico.
Nella memoria "Missing packet recovery of low-bit-rate coded speech using a novel packet-based embedded coder", presentata da M.M. Lara-Barron e G. B. Lockhart alla Fifth European Signal Processing Conference (EUSIPCO-90), Barcellona, 18-21 Settembre 1990 è stato descritto un sistema di codifica di segnali vocali che realizza una codifica annidata ed è studiato espressamente per la trasmissione di pacchetti, in modo da limitare la degradazione nel caso di perdita di pacchetti interi invece che di bit singoli. La struttura generale del codificatore riproduce sostanzialmente quella del codificatore DPCM con codifica annidata descritto nella memoria di D. J. Goodman citata sopra. Il sistema si basa su una classificazione 'dei pacchetti in "pacchetti essenziali” e "pacchetti supplementari" e prevede che la rete, in caso di sovraccarico, scarti preferibilmente i pacchetti supplementari. Per tale classificazione si confronta un pacchetto corrente con la sua predizione per determinare la degradazione che deriverebbe dalla ricostruzione al ricevitore (espressa da un "indice di ricostruzione"), e si confronta a sua volta l'Indice di ricostruzione con una soglia. Se questi confronti indicano una degradazione elevata, cioè un pacchetto difficile da ricostruire, questo è considerato essenziale, altrimenti è considerato supplementare. I due tipi di pacchetti sono codificati e trasmessi normalmente attraverso la rete. La decisione "pacchetto essenziale’ o "pacchetto supplementare” determina il posizionamento di opportuni interruttori in modo tale che dopo la trasmissione di un pacchetto supplementare venga codificato il pacchetto predetto invece di quello originale, e che il pacchetto codificato venga inoltre fornito al decodificatore e al predatore per predire il pacchetto successivo. Al ricevitore, i pacchetti essenziali sono decodificati normalmente e forniti all'uscita. E‘ inoltre previsto un codificatore locale per aggiornare i parametri del decodificatore in caso di perdita di un pacchetto, utilizzando un pacchetto predetto. Inoltre alla ricezione di un pacchetto supplementare, questo viene ancora decodificato ed emesso in uscita normalmente, però viene fornito anche al predittore e al codificatore locali per mantenere allineati i parametri del codificatore con quelli del codificatore di trasmissione.
Ora, è noto che I sistemi di codifica DPCM/ADPCM presentano prestazioni buone per velocità sostanzialmente comprese nell'Intervallo 32 - 64 kbit/s, mentre a velocità inferiori le loro prestazioni sono tanto piu scadenti quanto più è bassa la velocità. A velocità inferiori si utilizzano tecniche di codifica diverse, in particolare tecniche di analisi per sintesi. Anche' queste però non realizzano di per sè una codifica annidata, nè è descritto In letteratura il modo di ottenerla. La memoria citata di M. M. Lara- Bar ron e G. B. Lockhart afferma che il metodo proposto si può applicare a qualsiasi codificatore a bassa velocità che utilizza le informazioni passate per decodificare i campioni di una trama corrente, e quindi in teoria tale metodo sarebbe utilizzabile anche in caso di trasmissione di segnali codificati secondo una tecnica di analisi per sintesi. Tuttavia, a parte il fatto che indicazioni di prestazioni sono date solo per la codifica ADPCM a 32 kbit/s, la struttura del trasmettitore e del ricevitore è quella tipica dei sistemi DPCM/ADPCM, che comprende oltre ai veri e propri circuiti di codifica in trasmissione e decodifica in ricezione, un decodificatore e un predittore in trasmissione e un predittore in ricezione: questi organi non sono previsti nei trasmettitori - ricevitori di un sistema che sfrutta tecniche di analisi per sintesi, e quindi la loro aggiunta, oltre a quella dei circuiti di determinazione dell'indice di ricostruzione, complicherebbe notevolmente la struttura di tali trasmettitori/ricevitori. Inoltre, siccome i circuiti di codifica e decodifica suddetti comprendono un certo numero di filtri numerici, sorge il problema del corretto aggiornamento delle memorie degli stessi.
Lo scopo delia presente invenzione è quello di fornire un procedimento e un dispositivo di codifica del segnale vocale, che permettano di ottenere una codifica annidata nel caso in cui si utilizzano tecniche di analisi per sintesi, mantenendo ia struttura tipica dei trasmettitori/ricevitori di tali sistemi.
Le caratteristiche del procedimento e del dispositivo secondo l'invenzione sono definite nelle rivendicazioni 1 - 3 e rispettivamente 4 - 6.
E' anche oggetto dell'invenzione un procedimento per la trasmissione di segnali codificati con tecniche di analisi per sintesi con il procedimento e nei dispositivo di codifica secondo l'invenzione. Le caratteristiche di tale procedimento di trasmissione sono definite nella rivendicazione 7.
Sono già noti sistemi di codifica che utilizzano la tecnica CELP (Codebook Excited Linear Prediction = codifica a predizione lineare con eccitazione mediante vocabolario) in cui il vocabolario di eccitazione è suddiviso in sottovocabolari. Un esempio è descritto da I. A. Gerson e M. A. Jasuk nella memoria "Vector Sum Excited Linear Prediction (VSELP) Speech Coding at 8 kbps" presentata alla International Conference on Acoustics, Speech and Signal Processing (ICASSP 90), Albuquerque (USA), 3-6 Aprile 1990. Tuttavia, questi sistemi sono impiegati in reti a velocità fissa, e quindi anche in ricezione l'eccitazione comprende sempre contributi di tutti i sottovocabolari e il problema di armonizzare i filtri al trasmettitore e ricevitore non si pone.
A maggior chiarimento si fa riferimento ai disegni allegati, che illustrano la realizzazione dell'invenzione nel caso di impiego della tecnica CELP e in cui:
- la fig. 1 è uno schema di principio di un codificatore CELP convenzionale;
- la fig. 2 è uno schema di principio di un codificatore secondo l'invenzione;
- la fig. 3 e 4 sono schemi di principio del sistema di filtraggio del ricevitore e del trasmettitore del sistema di fig. 2;
- la fig. 5 è uno schema funzionale del sistema di filtraggio del trasmettitore;
- la fig. 6 è uno schema parziale di una variante.
Prima di illustrare l'invenzione, si ricorda rapidamente la struttura di un sistema di codifica/decodifica di segnali vocali basato sulla tecnica CELP. Come è noto, in tale tecnica il segnale di eccitazione per il filtro di sintesi che simula l'apparato fonatorio è costituito da vettori, ottenuti p. es. da sequenze casuali di rumore bianco gaussiano, scelti all'interno di un opportuno vocabolario. In fase di codifica, per ogni gruppo di campioni di segnale vocale (trama), si deve cercare quel vettore (o quel gruppo di vettori) che, fornito al filtro di sintesi, minimizza una misura di distorsione percettivamente significativa, ottenuta mediante confronto dei campioni sintetizzati e dei corrispondenti campioni del segnate originario e contemporanea pesatura con una funzione che tiene conto di come la percezione umana valuta la distorsione introdotta. Questo modo di procedere è tipico di tutti i sistemi basati su tecniche di analisi per sintesi, che si differenziano per la natura del segnale di eccitazione.
Con riferimento alla fig. 1 , il trasmettitore di un sistema di codifica CELP può essere schematizzato essenzialmente da:
- un sistema filtrante F1 (filtro di sintesi) che simula l'apparato fonatorio e comprende la cascata di un filtro di sintesi a lungo termine LT1 e un filtro di sintesi a breve termine ST1 , i quali hanno il compito di introdurre nel segnale di eccitazione le caratteristiche legate alla struttura spettrale fine del segnale (in paticolare la periodicità dei suoni vocalizzati) e rispettivamente quelle legate all'inviluppo spettrale del segnale; tipiche funzioni di trasferimento per i due filtri sono rispettivamente
dove β e L sono il guadagno del filtro di sintesi a lungo termine e il ritardo, che nel caso di suoni vocalizzati è il periodo fondamentale o un suo multiplo, e
dove gli a, sono i coefficienti di predizione lineare, determinati a partire dai segnale d' ingresso s(n) utilizzando le ben note tecniche di predizione lineare;
- una memoria a sola lettura ROM1 che contiene il vocabolario di parole (o vettori) che, pesate con un fattore di scala γ in un moltiplicatore M, costituiscono il segnale di eccitazione e(n) che viene filtrato in F1 ; il fattore di scala può essere unico e determinato preventivamente per tutta la procedura di ricerca di una parola ottima, oppure durante la ricerca si può determinare e utilizzare un fattore di scala ottimo per ogni vettore;
- un sommatore SM1 , che effettua il confronto tra il segnale originario s(n) e il segnale filtrato s-i (n) e fornisce un segnale di errore d(n) costituito dalla differenza tra detti due segnali;
- un filtro SW di sagomatura spettrale del segnale di errore, in modo da rendere meno percettibili le differenze tra il segnale originario e il segnale ricostruito; tipicamente SW ha una funzione di trasferimento del tipo
questo filtro può essere anche inserito a monte di SM1 , su entrambi gli ingressi, cosicché SM1 dà direttamente l'errore pesato; in queste condizioni, la funzione di trasferimento di ST1 è rappresentata dal denominatore della relazione precedente; - un'unità elaborativa EL1 che effettua la ricerca del vettore di eccitazione ottimo che è quello che minimizza l'energia del segnale di errore pesato.
il segnale codificato, per ogni trama, è costituito dall'indice (dagli indici) i del vettore (dei vettori) che ha (hanno) minimizzato l'energia del segnale di errore pesato, dal fattore di scala γ, dal ritardo e dal guadagno di LT1 e dai coefficienti di ST1, opportunamente quantizzati. Chiaramente, i filtri di F1 dovranno essere riportati alle condizioni iniziali ad ogni nuova trama (e ad ogni vettore in una trama, se si utilizzano più vettori per trama).
in ricezione, sono previsti una seconda memoria a sola lettura ROM2, un moltiplicatore M2,. e un filtro di sintesi F2 comprendente la cascata di un filtro di sintesi a lungo termine LT2 e un filtro di sintesi a breve termine ST2, identici rispettivamente agli organi ROM1 , M1 , F1, LT1 , ST1 dei trasmettitore. La memoria ROM2, indirizzata dall'indice i, fornisce a F2 la stessa parola utilizzata in fase di codifica, e questa viene pesata in M2 e filtrata in F2 utilizzando il fattore di scala γ e i parametri deila sintesi a breve termine e a lungo termine corrispondenti a quelli utilizzati in trasmissione, ricostruiti a partire dal segnale codificato; il segnale di uscita del filtro F2, riconvertito se necessario in forma analogica, viene fornito ai dispositivi di utilizzazione.
Nel caso particolare di impiego in una rete ATM (o in generale in una rete a pacchetto) a valle del codificatore vi saranno organi per organizzare in pacchetti le informazioni da trasmettere e a monte del decodificatore vi saranno organi per estrarre dai pacchetti ricevuti le informazioni da decodificare. Questi organi sono ben noti ai tecnici, e le loro operazioni non influenzano le operazioni di codifica/decodifica.
Si descriverà ora, con riferimento alla fig. 2, la realizzazione della codifica annidata secondo l'invenzione supponendo, a titolo di esempio non limitativo, che tale codifica debba essere utilizzata in una rete ATM in cui è prevista la possibilità di scartare un certo numero di pacchetti per ridurre in caso di sovraccarico la velocità di trasmissione. Per semplicità e chiarezza di descrizione, si farà riferimento a una rete utilizzante codificatori della voce in grado di operare a 9,6, 8 o 6,4 kbit/s a seconda delle condizioni di traffico. Queste velocità rientrano nella gamma per cui si utilizzano tipicamente codificatori di analisi per sintesi.
Per realizzare la codifica annidata, il vocabolario di eccitazione viene spezzato in tre sottovocabolari. Il primo di questi conterrà un numero di parole tale che, se lo stesso fosse utilizzato in un codificatore CELP convenzionale come quello di fig. 1, si otterrebbe la velocità di trasmissione minima di 6,4 kbit/s; il secondo e il terzo sottovocabolario invece avranno dimensioni tali da dare origine ognuno a un flusso di bit corrispondente a velocità di trasmissione di 1 ,6 kbit/s. Con ROM11 , ROM12, ROM 13 sono indicate le memorie contenenti i sottovocabolari; M11 , M12, M13 indicano i moltiplicatori che realizzano la pesatura delle parole di codice per il rispettivo fattore di scala γ1 , γ2, γ3, dando segnali di eccitazioni e1 , e2, e3. Il trasmettitore opererà a 9,6 kbit/s, e quindi il segnale codificato comprenderà, per quanto riguarda l'eccitazione, i contributi relativi ai tre segnali detti sopra. Per mantenere limitato il numero complessivo di bit da trasmettere il sistema di filtraggio sarà vantaggiosamente identico (cioè utilizzerà gli stessi coefficienti di pesatura) per tutte e tre le eccitazioni. Nella figura si è quindi indicato un unico filtro di sintesi F3 collegato alle uscite dei moltiplicatori M11 , M12, M13 tramite un multiplexer MX. Per semplicità di disegno non si sono indicati i due predatori in F3. Nello schema si è anche supposto che la sagomatura spettrale sia fatta separatamente sul segnale d'ingresso s(n) e sui segnali di eccitazione, come detto precedentemente, cosicché il sommatore SM2 (analogo a SM1 , fig. 1 ) dà direttamente l'errore pesato dw. Il filtro SW è quindi Indicato solo sul percorso di s(n), in quanto il suo effetto sul segnale di eccitazione è realizzato con l'opportuna scelta del filtro di sintesi a breve termine in F3, come spiegato sopra. Con EL2 è Indicata l'unità etaborativa che effettua la ricerca delia parola ottima per i vari sottovocabolari e con C2 il dispositivo di codifica dell'eccitazione e dei parametri del sistema di filtraggio.
il codificatore C2 è seguito dall'organo PK che forma pacchetti di segnale vocale codificato nel modo conveniente per una trasmissione su una rete ATM. Il contributo di eccitazione dei diversi vocabolari sarà introdotto da PK in pacchetti separati ed etichettati in modo da essere distinguibili nei vari nodi della rete: in caso di sovraccarico un nodo interessato scarterà prima i pacchetti contenenti il contributo di eccitazione dovuto a e3 e poi quelli relativi al contributo di e2; i pacchetti con il contributo fornito da e1 verranno invece sempre inoltrati attraverso la rete, e costituiscono il flusso dati minimo garantito di 6,4 kbit/s.
Nel ricevitore, un organo DPK estrarrà dai pacchetti ricevuti i segnali vocali codificati e li fornirà al circuito di decodifica D2, analogo a D1 (Fig. 1), che è collegato a tre generatori dell'eccitazione ricostruita E11 , E12, E13. Ognuno di questi tre blocchi comprende una memoria a sola lettura e un moltiplicatore analoghi alla memoria ROM2 e al moltiplicatore M2 di fig. 1. A seconda della quantità di informazione ricevuta, verrà fornita al filtro di sintesi F4, analogo al filtro F2 di fig.
1 , solo l'eccitazione fornita da E11 (in caso vengano ricevuti 6,4 Kbit/s) oppure anche quella di E12 (8 kbit/s) oppure l'eccitazione fornita da E11 , E12, E13 (9,6 kblt/s). Ciò è schematizzato dal sommatore S3, che riceve direttamente i segnali emessi da E11 e riceve i segnali di uscita di E12, E13 tramite porte AND A12, A13 abilitate p. es. da DPK quando richiesto.
Per semplicità di disegno non si sono indicati i vari segnali di temporizzazione dei componenti dei trasmettitore e del ricevitore, nò gli organi che li generano; d'altra parte gli aspetti di temporizzazione non sono influenzati dall'invenzione.
Per mantenere una buona qualità del segnale ricostruito, è necessario che i filtri al trasmettitore e al ricevitore operino in modo per quanto possibile uniforme. Secondo l'invenzione, tenuto conto che almeno il flusso dati alla velocità minima viene garantito dalla rete, si è ottimizzato il codificatore per tale velocità minima. Ciò equivale a effettuare la codifica e la decodifica in una trama sfruttando il contributo di memoria dei filtri F3, F4 relativo alla sola prima eccitazione, mentre la seconda e la terza eccitazione sono sottoposte a un filtraggio senza memoria, in altri termini, la ricerca delia parola ottima nei tre sottovocabolari del trasmettitore è fatta tenendo conto delle trame precedenti per la ricerca in ROM11 , e tenendo conto della sola trama attuale per la ricerca in ROM12, ROM13. Di conseguenza, anche al ricevitore, il filtraggio dei segnali di eccitazione dovrà tener conto di queste modalità di codifica.
Lo schema di principio del ricevitore e del trasmettitore in queste condizioni è rappresentato nelle figure 3 e 4. Per meglio comprendere questo schema e quelli successivi si deve tener presente che un filtro numerico con memoria può essere schematizzato dalla connessione in parallelo di due filtri aventi la stessa funzione di trasferimento di quello considerato: il primo di questi è un filtro con ingresso nullo, e quindi la sua uscita costituisce il contributo della memoria dei filtraggi precedenti, mentre il secondo tratta effettivamente il segnale da filtrare ma viene inizializzato a ogni trama azzerandone la memoria (supponendo per semplicità che la lunghezza di un vettore coincida con quella di una trama). Si deve inoltre tener presente che un filtraggio senza memoria è un'operazione lineare, e quindi ad essa si può applicare il principio della sovrapposizione degli effetti: in altri termini, con riferimento alla fig.
2, nei casi di ricezione di una quantità di informazione superiore a quella minima, filtrare senza memoria il segnale risultante dalla somma dei tre segnali ed eventualmente equivale a sommare gli stessi segnali filtrati separatamente senza memoria.
Nella fig. 3 il sistema di filtraggio F4 della fìg. 2 è rappresentato suddiviso in tre sottosistemi F41, F42, F43 destinati a trattare rispettivamente le eccitazioni
Il sottosistema F41 deve effettuare un filtraggio con memoria, e quindi è stato rappresentato scomposto a sua volta in un elemento F41a che riceve in ingresso un segnale nullo e in un elemento F41 b che effettua il filtraggio senza memoria dell'eccitazione Le uscite dei due elementi F41a, F41b sono combinate nel sommatore SM31 la cui uscita ui porta il segnale vocale numerico ricostruito nel caso di trasmissione a 6,4 kbit/s. I due sottosistemi F42, F43 effettuano il filtraggio senza memoria di e quindi sono analoghi a F41b. L'uscita del filtro F42 è combinata con il segnale presente su u1 in un sommatore SM32, sulla cui uscita U2 è presente il segnale vocale numerico ricostruito nel caso di trasmissione a 8 kbit/s. Infine, l'uscita del filtro F43 è combinata con ii segnale presente su U2 in un sommatore SM33, sulla cui uscita U3 è presente il segnale vocale numerico ricostruito nel caso di trasmissione a 9,6 kbit/s.
Lo schema di fig. 4 è sostanzialmente simile: F31 (F31a, F31b), F32, F33 sono i sottosistemi che compongono F3, e SM21, SM22, SM23, SM24 è una catena di sommatori che genera il segnale dw di fig. 2. In particolare, in SM21 viene sottratto dal segnale d'ingresso pesato sw(n) l'uscita di F31a, cioè il contributo delle memorie del filtraggio dell'eccitazione ei , dando un primo segnale di errore parziale dw1 ; in SM22 si sottrae da dw1 il segnale di uscita di F31b, cioè il risultato del filtraggio senza memoria di e1 , dando un secondo segnale di errore parziale dw2; in SM23 si sottrae da dw2 il contributo dovuto al filtraggio senza memoria dì e2 dando un segnale dw3 da cui si sottrae in SM24 il contributo dovuto al filtraggio senza memoria di 63. Per facilitare la comprensione dello schema successivo, in F31 a, F3l b si è indicata esplicitamente la cascata dei predittori a lungo termine e a breve termine LT31a, ST31a e LT31b, ST31b. I predittori nei vari elementi hanno tutti funzioni di trasferimento date dalla (1) e dalla (2), secondo il caso.
La fig. 5 mostra la struttura del sistema di filtraggio F3, nell'ipotesi che la lunghezza di una trama coincida con la lunghezza dei vettori del vocabolario di eccitazione e che il ritardo L dei predittori a lungo termine abbia valore superiore alla lunghezza di un vettore: questa scelta per il ritardo è comunemente adottata nella realizzazione dei codificatori CELP. Nella fig. 5, gli organi corrispondenti alla fig. 4 sono indicati con gii stessi riferimenti.
L'elemento F31 a è semplicemente costituito dai due predittori a breve termine ST311 , ST312 e dal moltiplicatore M3, in serie a ST312, che effettua la moltiplicazione per il fattore β che compare nella (1). Il filtro di sintesi ST311 ha ingresso nullo, mentre ST312 riceve in ingresso, per l'elaborazione del campione n-esimo di una trama, il segnale di uscita PIT(n-L), relativo a L istanti di campionamento precedenti, di un filtro di sintesi a lungo termine LT3' che riceve i campioni di e1 (fig. 2) e che, con un filtro di sintesi a breve termine ST3', forma un sintetizzatore fittizio SIN3 utilizzato proprio per creare le memorie dell'elemento F31a.
Questa struttura ha le stesse funzioni della cascata di LT31 a e ST31a di fig. 4. Infatti all'istante a un filtro come LT31 a (con ingresso nullo) presenterebbe in uscita e fornirebbe a ST31a il segnale filtrato relativo all'istante n-L, pesato con il fattore β: questo stesso segnale si può ottenere ritardando di L istanti di campionamento in un elemento di ritardo DL1 il segnale di uscita di LT3't cosicché LT31 a può essere eliminato. ST31a, come spiegato sopra, potrà essere scomposto nei due filtri ST311 , ST312 rispettivamente con ingresso nullo e memoria e con ingresso PIT(n-L) e senza memoria. La memoria per ST31 1 sarà costituita dal segnale di uscita ZER(n) di ST3'. L'uscita di ST31 1 è collegata all'ingresso di un sommatore SM21 1 , dove viene sottratta dal segnale sw{n), e I' uscita della cascata di ST312 e M3 è collegata a un sommatore SM212, dove viene sottratta dal segnale di uscita di SM211 ; i due sommatori realizzano le funzioni indicate dal sommatore SM21 in fig. 5.
Per quanto riguarda l'elemento F31b senza la memoria relativa alle trame precedenti, esso si riduce al filtro di sintesi a breve termine ST31 b: infatti, con l'ipotesi fatta per il ritardo L, il filtro di sintesi a lungo termine LT31b lascerebbe passare inalterato il segnale d'ingresso, in quanto il campione di uscita da combinare con un campione d'ingresso sarebbe relativo alle trame precedenti. Per le stesse ragioni, I due filtri F32, F33 di fig. 4 comprendono i soli filtri di sintesi a breve termine, indicati qui con ST32, ST33.
Come si è detto, lo schema di fig. 5 ipotizza che la lunghezza di una trama coincida con la lunghezza dei vettori che costituiscono i vocabolari. In generale tuttavia le trame hanno durata dell'ordine di 20 ms (160 campioni di segnale vocale a una frequenza di campionamento di 8 kHz), e utilizzare vettori di tale lunghezza richiederebbe memorie molto grandi e originerebbe un'elevata complessità di calcolo per la minimizzazione dell'errore. In generale si preferisce quindi utilizzare vettori di lunghezza minore della durata di una trama (p. es.t 1/4) e suddividere le trame in sottotrame, di lunghezza uguale a quella di un vettore del vocabolario, cosicché per la codifica si utilizza un vettore di eccitazione per ogni sottotrama. La procedura di ricerca del vettore ottimo in ognuno dei vocabolari parziali va effettuata più volte in ogni trama. In una rete ATM l'eventuale variazione di velocità con perdite di pacchetti avviene passando da una trama alla successiva, mentre all'interno della trama la velocità è costante. All'interno di una trama si può allora ottimizzare il codificatore per la velocità effettivamente utilizzata in quella trama, cioè tener conto anche delle memorie dei filtri F32, F33. Il ritardo della predizione a lungo termine continuerà a essere maggiore della durata di un vettore. In queste condizioni anche i filtri F32, F33 avrebbero la struttura rappresentata per F31 in fig. 5, con l'unica differenza che al termine di ogni trama i segnali PIT e ZER relativi a Θ2, Θ3 dovranno essere azzerati, in quanto si tiene conto solo della memoria di F31 .
Per semplificare la struttura, in una variante dell'invenzione il filtraggio di sintesi delie eccitazioni e2. ea (e quindi §2, 63) non tiene conto delle caratteristiche a lungo termine: in questo caso infatti il sintetizzatore fittizio relativo a ognuna di tali eccitazioni si riduce ai filtro di sintesi a breve termine e il ramo che riceve il segnale PIT viene a mancare. Come si vede in fig. 6, in queste condizioni i sottosistemi di filtraggio F32, F33 comprendono i tre filtri ST32a, ST32b, ST32', e rispettivamente ST33a, ST33b, ST33', analoghi a ST311 , ST31 b e ST3' (fig. 5), e i sommatori SM231 , SM232 e SM241 , SM242 che costituiscono i sommatori S23 e S24. Con ZER2, ZER3 sono indicati segnali corrispondenti a ZER, cioè segnali che rappresentano il contributo di memoria per il filtraggio in F32, F33; con RSM infine è indicato il segnale di azzeramento per le memorie di ST32’, ST33' che viene generato all'inizio di ogni nuova trama dai convenzionali organi di temporizzazlone delle operazioni del sistema di codifica.
E‘ evidente che quanto descritto è dato unicamente a titolo di esempio non limitativo e che varianti e modifiche sono possibili senza uscire dal campo di protezione dell'invenzione. In particolare, anche se si è fatto riferimento a uno schema di codifica CELP, l'invenzione può essere applicata a qualsiasi sistema di codifica di analisi per sintesi, in quanto l'invenzione stessa è indipendente dalla natura del segnale di eccitazione, in .particolare, nel caso della codifica a impulsi multipli, che con la codifica CELP è quella maggiormente utilizzata, si allocherà un primo numero di impulsi per ottenere la trasmissione a 6,4 kbit, e si allocheranno poi gli impulsi necessari per arrivare alle altre velocità previste.

Claims (7)

  1. Rivendicazioni 1 . Procedimento per la codifica, mediante tecniche di analisi per sintesi, di segnali vocali convertiti in trame di campioni numerici, comprendente una fase di codifica in cui, per ogni trama, si genera un segnale codificato che contiene informazioni relative a un'eccitazione, scelta in un insieme di possibili segnali di eccitazione e sottoposta a un filtraggio di sintesi per introdurre nell'eccitazione stessa le caratteristiche spettrali a breve e lungo termine del segnale vocale e dare origine a un segnale sintetizzato, l'eccitazione scelta essendo quella che minimizza una misura di distorsione percettivamente significativa, ottenuta mediante confronto tra il segnale originario e il segnale sintetizzato e contemporanea sagomatura spettrale dei segnali confrontati, e una fase di decodifica in cui un'eccitazione, individuata a partire dal segnale codificato in un insieme di segnali identico a quello utilizzato per la codifica, viene sottoposta a un filtraggio di sintesi corrispondente a quello effettualo sull'eccitazione in fase di codifica, caratterizzato dal fatto che, per realizzare una codifica con sottocodice annidato per l'impiego in una rete in cui i segnali codificati sono organizzati In pacchetti che vengono trasmessi a una prima velocità di cifra e possono essere ricevuti a velocità di cifra inferiori alla prima velocità ma non inferiori a una velocità minima prefissata, le varie velocità differendo tra loro di passi discreti: - si suddivide l'insieme dei segnali di eccitazione per la codifica e la decodifica in più sottoinsiemi, il primo dei quali fornisce al segnale codificato il contributo di eccitazione necessario per ottenere la velocità di trasmissione minima, mentre gli altri sottoinsiemi forniscono in successione ognuno un contributo di eccitazione che corrisponde a uno di detti passi discreti ed è utilizzato in aggiunta a quello del primo sottoinsieme e di sottoinsiemi precedenti nella successione; - in fase di codifica si sottopongono a filtraggio i contributi forniti da tutti i sottoinsiemi di segnali di eccitazione, in maniera tale che, a ogni trama, si sfrutti la memoria dei risultati del filtraggio relativo a una o più trame precedenti solo quando si filtrano segnali di eccitazione appartenenti al primo sottoinsieme, mentre i segnali di eccitazione appartenenti a tutti gli altri sottoinsiemi vengono filtrati senza tener conto della memoria dei risultati del filtraggio relativo alla trama o alle trame precedenti; - sempre in fase di codifica, il contributo al segnale codificato fornito da sottoinsiemi diversi è inserito in pacchetti diversi distinguibili fra loro, ii passaggio dalla prima velocità a una delle velocità inferiori essendo ottenuto sopprimendo prima pacchetti contenenti il contributo di eccitazione corrispondente al passo di velocità che porta al raggiungimento della velocità massima e proseguendo via via con pacchetti contenenti il contributo di eccitazione corrispondente ai passi di incremento precedenti; - in fase di decodifica, si sottopongono al filtraggio di sintesi segnali di eccitazione appartenenti al primo sottoinsieme qualunque sia la velocità di cifra con cui viene ricevuto il segnale codificato relativo a una trama, e, se tale velocità è superiore a quella minima, si sottopongono a filtraggio anche segnali di eccitazione appartenenti al sottoinsieme o ai sottoinsiemi che forniscono il contributo corrispondente ai passi che portano al raggiungimento di tale velocità, il filtraggio dei segnali di eccitazione del primo sottoinsieme essendo un filtraggio con memoria e il filtraggio dei segnali di eccitazione degli altri sottoinsiemi essendo un filtraggio senza memoria.
  2. 2. Procedimento secondo la riv. 1, in cui l'eccitazione da utilizzare per la codifica in una trama comprende più segnali di eccitazione di ciascun sottoinsieme, caratterizzato dal fatto che in fase di codifica e di decodifica il filtraggio dei segnali di eccitazione tiene conto, per tutti i sottoinsiemi, delia memoria dei filtraggi precedenti effettuati sui segnali relativi alla stessa trama.
  3. 3. Procedimento secondo la riv. 1 o 2, caratterizzato dal fatto che il filtraggio di sintesi introduce neH'eccitazione le caratteristiche a lungo termine solo per i segnali appartenenti al primo sottoinsieme.
  4. 4. Dispositivo per la codifica/decodifica di segnali vocali mediante tecniche di analisi per sintesi, per la realizzazione del procedimento secondo le rivendicazioni 1 - 3, comprendente un codificatore costituito da: - un primo generatore di eccitazione (ROM11 , M11 , ROM12, M12, ROM13, M13), atto a fornire un insieme di segnali di eccitazione (ei , β2, β3) in cui viene scelta un'eccitazione da utilizzare per le operazioni di codifica relative a una trama di campioni del segnale vocale; - un primo sistema di filtraggio (F3) che impone sui segnali di eccitazione le caratteristiche spettrali a breve e lungo termine del segnale vocale e fornisce un segnale sintetizzato; - mezzi (SW, SM2, EL2, C2) per eseguire una misura percettivamente significativa della distorsione del segnale sintetizzato rispetto al segnale vocale e per generare segnali codificati comprendenti informazioni relative al segnale di eccitazione che minimizza detta distorsione, e - mezzi (PK) per organizzare una trasmissione dei segnali codificati sotto forma di un flusso di pacchetti; e un decodificatore comprendente: - mezzi (DPK) per estrarre da un flusso di pacchetti ricevuti i segnali codificati; - un secondo generatore di eccitazione (E11 , E12, E13), contenente un insieme di segnali di eccitazione in cui viene individuata, sulla base delle informazioni contenute nel segnale codificato, un'eccitazione corrispondente a quella utilizzata per la codifica durante una trama; e - un secondo sistema di filtraggio (F4), identico al primo (F3), che genera un segnale sintetizzato in decodifica; caratterizzato dal fatto che: - i mezzi (PK) per l'organizzazione delle trasmissione introducono in pacchetti diversi le informazioni di eccitazione dovute a sottoinsiemi di segnali di eccitazione diversi; - ogni generatore di segnali di eccitazione (ROM11 , M11 , ROM12, M12, ROM13, M13; E11 , E12, E13) comprende più generatori parziali ognuno dei quali è atto a fornire un sottoinsieme differente di segnali di eccitazione, il sottoinsieme fornito da un primo generatore parziale (ROM11 , M11 ; E11 ) nel primo e secondo generatore essendo atto a fornire al segnale codificato un contributo di informazioni necessario per ottenere una trasmissione dei pacchetti a una velocità di cifra minima, mentre i sottoinsiemi
    gli altri generatori parziali (ROM12, M12, ROM13, M13, E12, E13) sono atti a fornire contributi di informazioni che, aggiunti in successione al contributo fornito dal primo generatore parziale (ROM11 , M11 ; E11 ), originano un aumento della velocità di cifra per passi discreii; - il primo e il secondo sistema di filtraggio {F3, F4) comprendono ognuno una prima struttura filtrante (F31 , F41 ) che riceve i segnali di eccitazione appartenenti al primo sottoìnsleme e, durante i filtraggi relativi a una trama, li elabora mantenendo una memoria del filtraggi relativi a trame precedenti, e ulteriori strutture filtranti (F32, F33; F42, F43), associate ognuna a uno degli altri sottoinsiemi di segnali di eccitazione, che, durante i filtraggi relativi a una trama, elaborano i rispettivi segnali senza mantenere memoria dei filtraggi relativi alle trame precedenti; - i mezzi (SW, SM2, EL2) per la misura della distorsione forniscono ai mezzi (C2) di generazione del segnale codificato un'eccitazione comprendente contributi derivanti da tutti I sottoinsiemi dei segnali di eccitazione; e - il secondo sistema di filtraggio (F4) fornisce il segnate sintetizzato in decodifica elaborando un'eccitazione che comprende sempre un contributo del primo sottoinsieme di segnali di eccitazione e comprende contributi di uno 0 più degli ulteriori sottoinsiemi solo se if flusso di pacchetti relativo a un gruppo di campioni di segnale vocale viene ricevuto a velocità superiore alia velocità minima.
  5. 5. Dispositivo secondo la riv. 4, caratterizzato dal fatto che ogni sottoinsieme di eccitazione contribuisce al segnale codificato relativo a una trama con più segnali di eccitazione, e dette ulteriori strutture filtranti (F32, F33; F42, F43) comprendono elementi di memoria per memorizzare i risultati dei filtraggi effettuati su blocchi di campioni precedenti relativi alia stessa trama, tali elementi di memoria essendo azzerati all'inizio delle operazioni di filtraggio relative alla codifica di una nuova trama.
  6. 6. Dispositivo secondo la riv. 4 o 5, caratterizzato dal fatto che la prima struttura filtrante (F31, F41) del codificatore e del decodificatore contiene la cascata di un filtro di sintesi a breve termine e di un filtro di sintesi a lungo termine, e le ulteriori strutture filtranti (F32, F33; F42, F43) sono costituite da un filtro di sintesi a breve termine.
  7. 7. Procedimento di trasmissione di segnali vocali codificati e organizzati in pacchetti, in una rete in cui i pacchetti vengono trasmessi a una prima velocità di cifra e possono essere ricevuti a velocità di cifra inferiore alla prima velocità, ma non inferiore a una velocità minima garantita, a causa della perdita o della soppressione di pacchetti per far fronte a situazioni di congestione, i segnali vocali essendo codificati con tecniche di analisi per sintesi che prevedono il trattamento di un'eccitazione, scelta ali' interno di un insieme di possibili segnali di eccitazione, in un sistema di filtraggio (F3, F4) che inserisce nell'eccitazione le caratteristiche a lungo termine e a breve termine del segnale vocale, caratterizzato dal fatto che: - l'eccitazione scelta per la codifica in trasmissione comprende contributi forniti da una pluralità di rami di eccitazione (ROM11 , M11 , ROM12, M12, ROM13, M13), (I primo dei quati (ROM11, M11) fornisce un contributo necessario per la realizzazione di una trasmissione alla velocità minima, mentre ciascuno degli altri rami (ROM12, M12, ROM13, M13), fornisce il contributo necessario per incrementare la velocità di trasmissione, mediante una successione di passi prestabiliti, dalla velocità minima alla prima velocità; - durante le operazioni di codifica relative a una trama di campioni numerici del segnale vocale, si filtra l'eccitazione fornita dal primo ramo (ROM11 , M11 ) tenendo conto dei risultati dei filtraggi effettuati durante le operazioni di codifica relativa a trame precedenti e si filtra l'eccitazione fornita dagli altri rami (ROM12, M12, ROM13, M13) senza tener conto di tali risultati - si inseriscono i contributi forniti dai diversi rami in pacchetti diversi, contrassegnati in modo da essere distinguibili tra loro; dal fatto che nel transito lungo la rete la eventuale soppressione di pacchetti è effettuata solo su pacchetti contenenti il contributo di eccitazione fornito da rami diversi dal primo e avviene iniziando da quelli contenenti il contributo di eccitazione corrispondente al passo che ha portato la velocità di trasmissione al primo valore e proseguendo poi con i pacchetti contenenti contributi di eccitazione corrispondenti ognuno a un passo di incremento precedente; e dal fatto che - l'eccitazione da sottoporre al filtraggio per la decodifica in ricezione comprende sempre il contributo fornito da un primo ramo, corrispondente al primo ramo di eccitazione in trasmssione, e, se la velocità di cifra con cui sono ricevuti i pacchetti di una trama è superiore alla velocità minima, comprende anche i contributi dei rami di eccitazione corrispondenti al passo o al passi di incremento che portano a tale velocità; - il filtraggio dei contributi dei diversi rami di eccitazione, durante le operazioni di decodifica dei segnali retativi a una trama di campioni numerici del segnale vocale da codificare, è effettuato tenendo conto dei risultati dei filtraggi dei segnali relativi a trame precedenti per il primo ramo di eccitazione e senza tener conto di tali risultati per gli altri rami di eccitazione.
IT68029A 1990-12-20 1990-12-20 Sistema di codifica del segnale vocale con sottocodice annidato IT1241358B (it)

Priority Applications (12)

Application Number Priority Date Filing Date Title
IT68029A IT1241358B (it) 1990-12-20 1990-12-20 Sistema di codifica del segnale vocale con sottocodice annidato
US07/803,484 US5353373A (en) 1990-12-20 1991-12-04 System for embedded coding of speech signals
JP3350519A JP2832871B2 (ja) 1990-12-20 1991-12-11 音声信号の組み込み式コード化システム
CA002057384A CA2057384C (en) 1990-12-20 1991-12-11 System for embedded coding of speech signals
ES91121836T ES2038106T3 (es) 1990-12-20 1991-12-19 Sistema para codificacion integrada de señales vocales.
EP91121836A EP0492459B1 (en) 1990-12-20 1991-12-19 System for embedded coding of speech signals
DE199191121836T DE492459T1 (de) 1990-12-20 1991-12-19 System fuer eingebettetes kodieren von sprachsignalen.
DE69126195T DE69126195T2 (de) 1990-12-20 1991-12-19 System für eingebettetes Kodieren von Sprachsignalen
AT91121836T ATE153470T1 (de) 1990-12-20 1991-12-19 System für eingebettetes kodieren von sprachsignalen
GR930300034T GR930300034T1 (en) 1990-12-20 1993-06-07 System for embedded coding of speech signals
US08/197,129 US5469527A (en) 1990-12-20 1994-02-16 Method of and device for coding speech signals with analysis-by-synthesis techniques
GR970402114T GR3024475T3 (en) 1990-12-20 1997-08-19 System for embedded coding of speech signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT68029A IT1241358B (it) 1990-12-20 1990-12-20 Sistema di codifica del segnale vocale con sottocodice annidato

Publications (3)

Publication Number Publication Date
IT9068029A0 IT9068029A0 (it) 1990-12-20
IT9068029A1 true IT9068029A1 (it) 1992-06-21
IT1241358B IT1241358B (it) 1994-01-10

Family

ID=11307315

Family Applications (1)

Application Number Title Priority Date Filing Date
IT68029A IT1241358B (it) 1990-12-20 1990-12-20 Sistema di codifica del segnale vocale con sottocodice annidato

Country Status (9)

Country Link
US (2) US5353373A (it)
EP (1) EP0492459B1 (it)
JP (1) JP2832871B2 (it)
AT (1) ATE153470T1 (it)
CA (1) CA2057384C (it)
DE (2) DE69126195T2 (it)
ES (1) ES2038106T3 (it)
GR (2) GR930300034T1 (it)
IT (1) IT1241358B (it)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1241358B (it) * 1990-12-20 1994-01-10 Sip Sistema di codifica del segnale vocale con sottocodice annidato
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
FR2700632B1 (fr) * 1993-01-21 1995-03-24 France Telecom Système de codage-décodage prédictif d'un signal numérique de parole par transformée adaptative à codes imbriqués.
SG43128A1 (en) * 1993-06-10 1997-10-17 Oki Electric Ind Co Ltd Code excitation linear predictive (celp) encoder and decoder
US5621852A (en) 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5508708A (en) * 1995-05-08 1996-04-16 Motorola, Inc. Method and apparatus for location finding in a CDMA system
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
US5649051A (en) * 1995-06-01 1997-07-15 Rothweiler; Joseph Harvey Constant data rate speech encoder for limited bandwidth path
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JP2861889B2 (ja) * 1995-10-18 1999-02-24 日本電気株式会社 音声パケット伝送システム
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US6240384B1 (en) 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
US6765904B1 (en) 1999-08-10 2004-07-20 Texas Instruments Incorporated Packet networks
SE9601606D0 (sv) 1996-04-26 1996-04-26 Ericsson Telefon Ab L M Sätt vid radiotelekommunikationssystem
EP0895672B1 (en) * 1997-02-10 2006-11-22 Koninklijke Philips Electronics N.V. Communication network for transmitting speech signals
JP3134817B2 (ja) * 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
US6182030B1 (en) 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
US6801499B1 (en) * 1999-08-10 2004-10-05 Texas Instruments Incorporated Diversity schemes for packet communications
US6757256B1 (en) 1999-08-10 2004-06-29 Texas Instruments Incorporated Process of sending packets of real-time information
US6801532B1 (en) * 1999-08-10 2004-10-05 Texas Instruments Incorporated Packet reconstruction processes for packet communications
US6804244B1 (en) 1999-08-10 2004-10-12 Texas Instruments Incorporated Integrated circuits for packet communications
US6744757B1 (en) 1999-08-10 2004-06-01 Texas Instruments Incorporated Private branch exchange systems for packet communications
US6678267B1 (en) 1999-08-10 2004-01-13 Texas Instruments Incorporated Wireless telephone with excitation reconstruction of lost packet
WO2001041124A2 (en) * 1999-12-01 2001-06-07 Koninklijke Philips Electronics N.V. Method of and system for coding and decoding sound signals
US7574351B2 (en) * 1999-12-14 2009-08-11 Texas Instruments Incorporated Arranging CELP information of one frame in a second packet
EP1199812A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Perceptually improved encoding of acoustic signals
US7339605B2 (en) 2004-04-16 2008-03-04 Polycom, Inc. Conference link between a speakerphone and a video conference unit
US8948059B2 (en) 2000-12-26 2015-02-03 Polycom, Inc. Conference endpoint controlling audio volume of a remote device
US7864938B2 (en) 2000-12-26 2011-01-04 Polycom, Inc. Speakerphone transmitting URL information to a remote device
US8977683B2 (en) * 2000-12-26 2015-03-10 Polycom, Inc. Speakerphone transmitting password information to a remote device
US8964604B2 (en) 2000-12-26 2015-02-24 Polycom, Inc. Conference endpoint instructing conference bridge to dial phone number
US9001702B2 (en) 2000-12-26 2015-04-07 Polycom, Inc. Speakerphone using a secure audio connection to initiate a second secure connection
US8934382B2 (en) 2001-05-10 2015-01-13 Polycom, Inc. Conference endpoint controlling functions of a remote device
US8976712B2 (en) 2001-05-10 2015-03-10 Polycom, Inc. Speakerphone and conference bridge which request and perform polling operations
AU2002258135A1 (en) 2001-05-10 2002-11-18 Polycom Israel Ltd. Control unit for multipoint multimedia/audio system
JP3666430B2 (ja) * 2001-09-04 2005-06-29 ソニー株式会社 情報送信装置及び情報送信方法、並びに情報受信装置及び情報受信方法
US7978838B2 (en) 2001-12-31 2011-07-12 Polycom, Inc. Conference endpoint instructing conference bridge to mute participants
US8947487B2 (en) 2001-12-31 2015-02-03 Polycom, Inc. Method and apparatus for combining speakerphone and video conference unit operations
US8885523B2 (en) 2001-12-31 2014-11-11 Polycom, Inc. Speakerphone transmitting control information embedded in audio information through a conference bridge
US8102984B2 (en) * 2001-12-31 2012-01-24 Polycom Inc. Speakerphone and conference bridge which receive and provide participant monitoring information
US8934381B2 (en) * 2001-12-31 2015-01-13 Polycom, Inc. Conference endpoint instructing a remote device to establish a new connection
US8144854B2 (en) * 2001-12-31 2012-03-27 Polycom Inc. Conference bridge which detects control information embedded in audio information to prioritize operations
US8223942B2 (en) * 2001-12-31 2012-07-17 Polycom, Inc. Conference endpoint requesting and receiving billing information from a conference bridge
US7787605B2 (en) 2001-12-31 2010-08-31 Polycom, Inc. Conference bridge which decodes and responds to control information embedded in audio information
US8705719B2 (en) 2001-12-31 2014-04-22 Polycom, Inc. Speakerphone and conference bridge which receive and provide participant monitoring information
US7742588B2 (en) * 2001-12-31 2010-06-22 Polycom, Inc. Speakerphone establishing and using a second connection of graphics information
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
US7047188B2 (en) * 2002-11-08 2006-05-16 Motorola, Inc. Method and apparatus for improvement coding of the subframe gain in a speech coding system
JP4744438B2 (ja) * 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
US7796565B2 (en) * 2005-06-08 2010-09-14 Polycom, Inc. Mixed voice and spread spectrum data signaling with multiplexing multiple users with CDMA
US8126029B2 (en) * 2005-06-08 2012-02-28 Polycom, Inc. Voice interference correction for mixed voice and spread spectrum data signaling
US8199791B2 (en) * 2005-06-08 2012-06-12 Polycom, Inc. Mixed voice and spread spectrum data signaling with enhanced concealment of data
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
CN101000768B (zh) * 2006-06-21 2010-12-08 北京工业大学 嵌入式语音编解码的方法及编解码器

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4790016A (en) * 1985-11-14 1988-12-06 Gte Laboratories Incorporated Adaptive method and apparatus for coding speech
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
JPH01233499A (ja) * 1988-03-14 1989-09-19 Nec Corp 音声信号符号化復号化方法及びその装置
IL94119A (en) * 1989-06-23 1996-06-18 Motorola Inc Digital voice recorder
IL95753A (en) * 1989-10-17 1994-11-11 Motorola Inc Digits a digital speech
IT1241358B (it) * 1990-12-20 1994-01-10 Sip Sistema di codifica del segnale vocale con sottocodice annidato
US5185796A (en) * 1991-05-30 1993-02-09 Motorola, Inc. Encryption synchronization combined with encryption key identification

Also Published As

Publication number Publication date
EP0492459A2 (en) 1992-07-01
US5469527A (en) 1995-11-21
IT1241358B (it) 1994-01-10
EP0492459A3 (en) 1993-02-03
ATE153470T1 (de) 1997-06-15
US5353373A (en) 1994-10-04
EP0492459B1 (en) 1997-05-21
CA2057384C (en) 1996-09-17
JP2832871B2 (ja) 1998-12-09
DE69126195T2 (de) 1997-11-06
DE492459T1 (de) 1993-06-09
IT9068029A0 (it) 1990-12-20
CA2057384A1 (en) 1992-06-21
ES2038106T3 (es) 1997-07-01
GR3024475T3 (en) 1997-11-28
DE69126195D1 (de) 1997-06-26
ES2038106T1 (es) 1993-07-16
GR930300034T1 (en) 1993-06-07
JPH0728495A (ja) 1995-01-31

Similar Documents

Publication Publication Date Title
IT9068029A1 (it) Sistema di codifica del segnale vocale con sottocodice annidato
CA1222568A (en) Multipulse lpc speech processing arrangement
CA1181854A (en) Digital speech coder
JP4005359B2 (ja) 音声符号化及び音声復号化装置
Bradbury Linear predictive coding
EP0833305A2 (en) Low bit-rate pitch lag coder
USRE32580E (en) Digital speech coder
WO1998050910A1 (en) Speech coding
CA1241116A (en) Method of and device for speech signal coding and decoding by vector quantization techniques
EP0232456A1 (en) Digital speech processor using arbitrary excitation coding
US6611797B1 (en) Speech coding/decoding method and apparatus
EP1103953A2 (en) Method for concealing erased speech frames
Yong Study of voice packet reconstruction methods applied to CELP speech coding
Chou et al. Variable dimension vector quantization of linear predictive coefficients of speech
Wang et al. Phonetic segmentation for low rate speech coding
JPH0720897A (ja) ディジタルコーダにおけるスペクトルパラメータを量子化する方法および装置
EP0361432A2 (en) Method of and device for speech signal coding and decoding by means of a multipulse excitation
WO2000074036A1 (fr) Dispositif de codage/decodage de la voix et codage des parties non vocales, procede de decodage, et support enregistre d'enregistrement de programme
Iao Mixed wideband speech and music coding using a speech/music discriminator
Drygajilo Speech Coding Techniques and Standards
KR100221186B1 (ko) 음성 부호화 및 복호화 장치와 그 방법
Xydeas et al. Segmental prototype interpolation coding
Senensieb et al. A non-iterative algorithm for obtaining multi-pulse excitation for linear-predictive speech coders
WO2001009880A1 (en) Multimode vselp speech coder
Lin et al. LPC compressed speech at 850 bits-per-second

Legal Events

Date Code Title Description
0001 Granted
TA Fee payment date (situation as of event date), data collected since 19931001

Effective date: 19971124