EP1125283B1

EP1125283B1 - Verfahren zur quantisierung der parameter eines sprachkodierers

Info

Publication number: EP1125283B1
Application number: EP99946281A
Authority: EP
Inventors: Philippe Thomson-CSF Prop. Intel. GOURNAY; Frédéric Thomson-CSF Prop. Intel. CHARTIER
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 1998-10-06
Filing date: 1999-10-01
Publication date: 2002-08-07
Anticipated expiration: 2019-10-01
Also published as: DE69902480D1; DE69902480T2; JP2002527778A; TW463143B; JP4558205B2; FR2784218A1; ATE222016T1; MXPA01003150A; EP1125283A1; AU768744B2; AU5870299A; WO2000021077A1; US6687667B1; FR2784218B1; IL141911A0; KR20010075491A; CA2345373A1

Claims

Verfahren zur Kodierung und Dekodierung von Sprache für die Sprachübertragung unter Verwendung eines Vokoders mit sehr geringem Datendurchsatz, der einen Analyseteil (4, ..., 10) für die Kodierung und Übertragung der Parameter des Sprachsignals und einen Syntheseteil (11, ..., 16) für den Empfang und die Dekodierung der übertragenen Parameter sowie für die Rekonstruktion des Sprachsignals durch Verwendung von Synthesefiltern mit linearer Vorhersage enthält, wobei das Verfahren darin besteht, die Parameter zu analysieren, die den Pitch (8), die Übergangsfrequenz auf die stimmhaften Laute (9), die Energie (10) und die spektrale Hüllkurve des Sprachsignals (5) beschreiben, indem das Sprachsignal in aufeinanderfolgende Rahmen einer bestimmten Länge zerschnitten wird, dadurch gekennzeichnet, daß das Verfahren darin besteht, die Parameter in N aufeinanderfolgenden Rahmen zur Bildung eines Überrahmens zusammenzufassen (17), eine vektorielle Quantifizierung der Übergangsfrequenzen zu den stimmhaften Lauten während jedes Überrahmens durchzuführen (18) und ohne Verschlechterung nur die am häufigsten vorkommenden Konfigurationen zu übertragen, während die am wenigsten häufig vorkommenden Konfigurationen durch die hinsichtlich des absoluten Fehlers nächstliegende Konfiguration unter den häufiger vorkommenden ersetzt werden, den Pitch (19) zu kodieren, indem nur ein Pitchwert für jeden Überrahmen skalar quantifiziert wird, die Energie (20) zu kodieren, indem nur eine verringerte Anzahl von Werten durch Zusammenfassung dieser Werte in durch vektorielle Quantifizierung quantifizierte Unterpakete ausgewählt werden, wobei die nicht übertragenen Energiewerte im Syntheseteil durch Interpolation oder Extrapolation ausgehend von den übertragenen Werten wiedergewonnen werden, und durch vektorielle Quantifizierung (21) die Parameter der spektralen Hüllkurve für die Kodierung der Synthesefilter mit linearer Vorhersage zu kodieren, indem nur eine bestimmte Anzahl von Filtern ausgewählt wird, während die nicht übertragenen Parameter durch Interpolation oder Extrapolation ausgehend von den Parametern der übertragenen Filtern konstruiert werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der quantifizierte Pitchwert entweder der letzte Pitchwert der vollkommen stimmhaften stabilen Zonen oder ein durch die Übergangsfrequenz auf die stimmhaften Laute gewichteter Mittelwert in den Zonen ist, die nicht vollkommen stimmhaft sind.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß, wenn der Pitchwert der letzte eines Überrahmens ist, das Verfahren darin besteht, die anderen Werte durch Interpolation zu erzeugen.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß der im Syntheseteil verwendete Pitchwert derjenige des dekodierten Pitch ist, der durch einen Multiplikationskoeffizienten modifiziert wurde, um ein leichtes Tremolo in der rekonstruierten Sprache zu erzeugen.
Verfahren nach einem beliebigen der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Parameter über N=3 aufeinanderfolgende Rahmen zusammengefaßt sind.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß es vier Übergangsfrequenzen zur Stimmhaftigkeit gibt, die vektoriell mithilfe einer Quantifizierungstabelle (22) mit 32 Frequenzkonfigurationen in Dreiergruppen kodiert werden.
Verfahren nach einem beliebigen der Ansprüche 5 und 6, dadurch gekennzeichnet, daß es darin besteht, die Energie viermal je Rahmen zu messen, wobei nur sechs der zwölf Werte eines Überrahmens in Form von zwei Vektoren von drei Werten übertragen werden (23).
Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß es darin besteht, die Energie gemäß vier Schemata zu kodieren, (23), die je zwei Vektoren zusammenfassen, wobei ein erstes Schema definiert wird, wenn die zwölf Energievektoren im Überrahmen stabil sind, während die übrigen Schemata für jeden der Rahmen definiert werden, und das Schema zu übertragen, das den quadratischen Gesamtfehler minimiert.
Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß

im ersten Schema nur die Energiewerte mit den Nummern 1, 3 und 5 des ersten Vektors und die mit den Nummern 7, 9 und 11 des zweiten Vektors übertragen werden,

im zweiten Schema nur die Energiewerte mit den Nummern 0, 1 und 2 das ersten Vektors und die mit den Nummern 3, 7 und 11 des zweiten Vektors übertragen werden,

im dritten Schema nur die Energiewerte mit den Nummern 1, 4 und 5 des ersten Vektors und die mit den Nummern 6, 7 und 11 des zweiten Vektors übertragen werden,

und im vierten Schema nur die Energiewerte mit den Nummern 2, 5 und 8 des ersten Vektors und die mit den Nummern 9, 10 und 11 des zweiten Vektors übertragen werden.
Verfahren nach einem beliebigen der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß es darin besteht, die Kodierparameter für die Filter mit linearer Vorhersage gemäß vier Schemata so auszuwählen, daß entweder die Zonen, für die die spektrale Hüllkurve stabil ist, oder die Zonen, für die die spektrale Hüllkurve rasch im Verlauf der Rahmen 1, 2 oder 3 eines Überrahmens verliert, möglichst gut kodiert werden.
Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß es darin besteht, im Syntheseteil sechs Filter mit linearer Vorhersage und 10 Koeffizienten mit den Nummern 0 bis 5 zu verwenden (24) und

in einem ersten Schema nur die Koeffizienten der Filter 1, 3 und 5 zu übertragen, wenn die spektrale Hüllkurve stabil ist,

in einem zweiten Schema entsprechend dem ersten Rahmen nur die Koeffizienten der Filter 0, 1 und 4 zu übertragen,

in einem dritten Schema entsprechend dem zweiten Rahmen nur die Koeffizienten der Filter 2, 3 und 5 zu übertragen,

in einem vierten Schema entsprechend dem dritten Rahmen nur die Koeffizienten der Filter 1, 4 und 5 zu übertragen,

wobei das tatsächlich übertragene Schema dasjenige ist, das den quadratischen Gesamtfehler minimiert, und wobei die nicht übertragenen Koeffizienten der Filter im Syntheseteil durch Interpolation oder Extrapolation berechnet werden.
Verfahren nach einem beliebigen der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß die Koeffizienten LSF der Synthesefilter über 54 kodiert sind, denen noch zwei Bits für die Übertragung der Dezimierungsschemata hinzugefügt werden, daß die Energie mit zwei mal sechs Bits kodiert wird, denen noch zwei Bits für die Übertragung der Dezimierungsschemata hinzugefügt werden, daß der Pitch über sechs Bits kodiert wird und die Übergangs frequenz auf die stimmhaften Laute über fünf Bits kodiert wird, was insgesamt 81 Bits für die Überrahmen von 67,5 ms ergibt.