DE69017842T2 - Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. - Google Patents
Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.Info
- Publication number
- DE69017842T2 DE69017842T2 DE69017842T DE69017842T DE69017842T2 DE 69017842 T2 DE69017842 T2 DE 69017842T2 DE 69017842 T DE69017842 T DE 69017842T DE 69017842 T DE69017842 T DE 69017842T DE 69017842 T2 DE69017842 T2 DE 69017842T2
- Authority
- DE
- Germany
- Prior art keywords
- coefficients
- prediction
- filters
- configuration
- bits
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004936 stimulating effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf ein Verfahren sowie auf eine Vorrichtung zum Codieren von Prädiktionsfiltern für Vocoder mit sehr niedriger Datenrate.
- Das wohl bekannteste der Verfahren zur Zählung der Sprache mit niedriger Datenrate ist die LPC10-Methode der Sprachsynthese, wobei LPC10 die englische Abkürzung für "Linear predictive coding, order 10" ist. Gemäß dieser Methode erfolgt die Sprachsynthese dadurch, daß mittels eines periodischen Signales oder durch eine Geräuschquelle ein Filter angeregt wird, welcher die Aufgabe hat, dem Frequenzspektrum des Signales die Form einer derjenigen des ursprünglichen Sprachsignales nahegelegenen Welle zu verleihen.
- Der größere Teil der Datenrate, welcher 2400 Bits pro Sekunde beträgt, dient der Übertragung der Koeffizienten des Filters. Zu diesem Zweck wird die Binärreihe in Rahmen von 22,5 Millisekunden mit 54 Bits zerlegt, von denen 41 Bits für die Anpassung der Übertragungsfunktion des Filters verwendet werden.
- Ein bekanntes Verfahren zur Reduktion der Datenrate ist in dem Dokument "Variable rate speech compression by encoding subsets of the PARCOR coefficients" P. Papamichalis, Trans. on ASSP, Band ASSP-31, Nr. 3, Juni 1983 beschrieben. In diesem Dokument werden die Rahmen in Pakete aufeinanderfolgender Rahmen gruppiert und jedem Rahmen wird ein Prädiktionsfilter zugeordnet. Es wird lediglich der Koeffizientensatz für die Übertragung ausgewählt, der eine zuvor festgelegte Kostenfunktion auf ein Minimum herabsetzt.
- Ein anderes bekanntes Verfahren zur Reduktion der Datenrate, wie es beispielsweise in dem Patent US 4 852 179 beschrieben wird, besteht darin, die 41 einem Filter zugeordneten Bits auf 10 bis 12 Bits zu komprimieren, welche die Nummer eines zuvor definierten, zu einem Verzeichnis von 2¹&sup0; bis 2¹² unterschiedlichen Filtern gehörigen Filters darstellen, wobei dieser Filter der dem Ursprungsfilter am nahegelegensten ist. Dieses Verfahren weist jedoch einen ersten großen Nachteil auf, der in der Notwendigkeit der Herstellung eines Filterverzeichnisses besteht, dessen Inhalt ganz wesentlich von der Gruppe der Filter, die für seine Erstellung durch herkömmliche Datentechniken ("clustering") verwendet werden sowie von der Art abhängen, wobei dieses Verfahren in keiner Weise gut an die tatsächlichen Schallempfangsbedingungen angepaßt ist. Ein weiterer Nachteil dieses Verfahrens liegt darin begründet, daß es für seine Durchführung einen großen Speicher benötigt, um das Verzeichnis (2¹&sup0; bis 2¹² Koeffizientenpakete) zu speichern. Bedingt durch die Tatsache, daß in dem Verzeichnis der dem ursprünglichen Filter am nächsten befindliche Filter gesucht werden muß, werden die Berechnungszeiten korrelativ sehr lang. Schließlich bietet dieses Verfahren nicht die Möglichkeit, in zufriedenstellender Weise stabile Töne wiederzugeben. Dies ist auf die Tatsache zurückzuführen, daß selbst im Falle eines stationären Schalles die LPC Analyse praktisch niemals zweimal hintereinander den gleichen Ursprungsfilter, jedoch in dem Verzeichnis nacheinander nahegelegene, aber unterschiedliche Filter auswählt.
- Wie auch beim Fernsehen, wo die Wiedergabe eines Farbbildes im wesentlichen von der Qualität des Luminanzsignales und nicht von der des Chrominanzsignales abhängt, das aus diesem Grund mit einer geringeren Auflösung übertragen werden kann, so erscheint es auch in der Sprachsynthese ausreichend, lediglich die Kontur der Energie des Sprachsignales in hinreichendem Maße wiederzugeben, wobei seine Färbung (Stimmhaftigkeit, Spektralform) hinsichtlich seiner Wiedergabe von geringerer Bedeutung ist. Aus diesem Grund ist im Falle der bekannten Verfahren der Sprachsynthese der Suchvorgang nach Spektren basierend auf der Entwicklung der minimalen Distanz, welche die Spektren von der Ausgangssprache (des Redners) und von der synthetischen Sprache trennt, nicht vollkommen gerechtfertigt.
- So können beispielsweise verschiedene Darstellungen des von unterschiedlichen Rednern artikulierten oder unter verschiedenen Bedingungen aufgenommenen Tones "A" eine erweiterte Spektraldistanz haben, diese Töne bleiben jedoch immer "A"-Töne, die auch als solche erkannt werden können, und sollte es durch eine Verwechslungsmöglichkeit mit einem benachbarten Ton zu Zweideutigkeiten kommen, so wird der Zuhörer dies aufgrund des Kontextes stets selbst richtigstellen können. Denn die Erfahrung zeigt, daß wenn nicht mehr als etwa 30 statt der 41 Bits für die Koeffizienten des Prädiktionsfilters verwendet werden, die Wiedergabequalität zufriedenstellend bleibt, auch wenn ein beteiligter Zuhörer einen minimalen Unterschied zwischen den mit auf 30 oder 41 Bits festgelegten Prädiktionskoeffizienten synthetisierten Tönen wahrnehmen kann. Auf der anderen Seite erscheint es ausreichend, daß der Zuhörer, da die Übertragung aus der Entfernung erfolgt und der Empfänger aus diesem Grund nicht die Möglichkeit hat, diesen Unterschied zu machen, den synthetisierten Ton ganz genau erkennen kann.
- Außerdem erscheint es wichtig, daß der Prädiktionsfilter bei den stabilen Teilen des Signales (Selbstlaute) stabil bleibt und so nah als möglich bei dem ursprünglichen Prädiktionsfilter gelegen ist. Bei den instabilen Teilen (Übergang, stimmloser Ton) ist es hingegen nicht notwendig, daß der übertragene Prädiktor eine getreue Kopie des ursprünglichen Prädiktors ist.
- Das Ziel der Erfindung ist es, die im vorangegangenen aufgeführten Nachteile zu beheben.
- Zu diesem Zweck liegt der vorliegenden Erfindung die Aufgabe eines Verfahrens sowie einer Vorrichtung zum Codieren von Prädiktionsfiltern von Vocodern mit sehr niedriger Datenrate zugrunde, wie sie in den Patentansprüchen 1 und 9 beansprucht werden.
- Weitere Eigenschaften sowie Vorteile der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung ersichtlich, die unter Bezugnahme auf die beigefügten Zeichnungen erstellt wurde, hierin zeigen:
- - Figur 1 ein Prinzipschaltbild eines Sprachsynthesizers gemäß dem Stand der Technik;
- - Figur 2 eine Tabelle der vier möglichen Codierungen der Prädiktionsfilter des Vocoders gemäß der Erfindung;
- - Figur 3 ein Organigramm zur Darstellung der erfindungsgemäß durchgeführten Berechnung des Prädiktionsfehlers der Prädiktionsfilter;
- - Figur 4 einen Transformationsgraph der Reflexionskoeffizienten der Prädiktionsfilter;
- - Figur 5 den Quantifizierungsverlauf der Reflexionskoeffizienten der durch den Graph der Figur 3 transformierten Filter;
- - Figur 6 eine Vorrichtung zur Durchführung des erfindungsgemäßen Verfahrens.
- Der in Figur 1 dargestellte Sprachsynthesizer weist in bekannter Weise einen Prädiktionsfilter 1 auf, der mit seinem Eingang E&sub1; an einen periodischen Signalgeber 2 sowie an einen Rauschgenerator 3 über einen Umschalter 4 und einen Verstärker 5 mit verstellbaren Verstärkungsfaktor angeschlossenen ist, wobei letztgenannte miteinander in Reihe geschaltet sind. Der Umschalter 4 koppelt den Eingang des Prädiktionsfilters 1 mit dem Ausgang des periodischen Signalgebers 2 oder aber mit dem Ausgang des Rauschgenerators 3 in Abhängigkeit davon, ob der wiederzugebende Ton stimmhaft ist oder nicht. Die Amplitude des Tones wird von dem Verstärker 5 gesteuert. Der Filter 1 behält an seinem Ausgang S ein Sprachsignal in Abhängigkeit von an seinem Eingang E&sub2; angelegten Prädiktionskoeffizienten bei. Im Unterschied zu der Darstellung in der Figur 1, müssen die Sprachsynthesizer, auf welche das erfindungsgemäße Verfahren sowie die erfindungsgemäße Vorrichtung zum Codieren angewendet werden, drei Prädiktionsfilter 1 enthalten, die an eine jede Gruppe von drei aufeinanderfolgenden Rahmen von 22,5 ms des Sprachsignales abhängig davon angepaßt werden, ob der zu synthetisierende Ton stabil ist oder nicht. Diese Anordnung bietet beispielsweise die Möglichkeit, die Datenrate von 2400 Bits pro Sekunde auf 800 Bits pro Sekunde zu reduzieren, indem die Rahmen in Pakete von 3 x 22,5 = 67,5 Millisekunden von 54 Bits gruppiert werden, wobei 30 bis 35 Bits zum Beispiel für die Beschreibung der 10 Prädiktionskoeffizienten der drei aufeinanderfolgenden, der zur Durchführung des im vorangegangenen beschriebenen LPC10-Codierverfahrens notwendigen Filter verwendet werden und zwei von diesen Bits eingesetzt werden, um die Konfiguration zu definieren, die den drei zu generierenden Filtern abhängig davon, ob das zu erzeugende Sprachsignal stabil ist oder nicht, zuzuordnen sind. In der Tabelle der Figur 2, in welcher die vier möglichen Konfigurationen der drei Filter festgehalten sind, entspricht dem Zustand 00 der beiden Konfigurationsbits eine erste Konfiguration, bei welcher die drei Prädiktionsfilter für die drei Rahmen des Sprachsignales identisch sind. Im Falle der zweiten Konfiguration haben die Konfigurationsbits den Wert 01 und lediglich die ersten beiden Filter der Rahmen 1 und 2 sind identisch. Bei der dritten Konfiguration, die den Konfigurationsbits 10 entspricht, sind nur die beiden letzten Filter der Rahmen 2 und 3 identisch. Bei der vierten und letzten Konfiguration, welche den Konfigurationsbits 11 entspricht, sind die drei Filter der Rahmen 1 und 3 verschieden. Natürlich ist dies nicht die einzige Art der Konfiguration und es ist im Rahmen der Erfindung ebenso möglich, die Anzahl der Rahmen in einem Paket frei zu definieren. Um jedoch die Realisierung zu erleichtern, kann diese Zahl zwischen 2 und einschließlich 4 liegen. In diesen Fällen kann die Anzahl der möglichen Konfigurationen natürlich auf 8 oder maximal 16 erweitert werden. Die Definition der Filter erfolgt entsprechend den Schritten 5 bis 10 des in dem Organigramm der Figur 3 dargestellten Verfahrens. Gemäß einem ersten, in dem Organigramm mit der Bezugsziffer 5 bezeichneten Schritt des Verfahrens, werden die Autokorrelationskoeffizienten Ri,k des Signales entsprechend einer Gleichung folgender Form berechnet:
- Rik = WnSinSi,n-k
- wobei Sin ein Abtastwert n des Signales in dem Rahmen i ist und Wn das Bewertungsfenster bezeichnet. In dem zweiten, mit 6 bezeichneten Schritt, wird die Berechnung der den vorhergehenden Koeffizienten Ri(k) entsprechenden Reflexionskoeffizienten des Gitter-Prädiktionsfilters unter Anwendung eines Standardalgorithmus', wie beispielsweise des bekannten Algorithmus von LEROUX-GUEGUEN oder von SCHUR durchgeführt. In diesem Schritt werden die Koeffizienten Rik in die Koeffizienten Kij transformiert, wobei j eine positive Ganzzahl ist, welche die aufeinanderfolgenden Werte von 1 bis 10 annimmt. In dem dritten, mit der Bezugsziffer 7 bezeichneten Schritt werden die Koeffizienten k, deren Werte zwischen -1 und +1 definiert sind, in abgeänderte Koeffizienten transformiert, die sich zwischen "- unendlich" und "+ unendlich" bewegen und die Tatsache berücksichtigen, daß die Quantifizierung der Koeffizienten k exakt sein muß, wenn sie einen absoluten Wert nahe 1 haben und einen nicht ganz so getreuen Wert haben müssen, wenn sie sich beispielsweise nahe 0 bewegen. Jeder Koeffizient Kij wird beispielsweise entsprechend einer Gleichung folgender Form transformiert:
- Lij = Kij / (1 - Kij²)&supmin;² (2)
- deren Graph in der Figur 4 dargestellt ist oder aber gemäß den Gleichungen (Lij = Kij 1- Kij ) ; (Lij = arc cos Kij) ; (Lij = arc sin Kij) oder aber unter Anwendung der in dem Artikel von Georg S. Kang und Lawrence, J. Fransen vom Naval Research Laboratory Washington DC 20375, aus dem Jahr 1985 mit dem Titel "Application of line spectrum pairs to low bit rate speech encoder" beschriebenen Berechnungsmethode der LSP Koeffizienten. In dem vierten, mit 8 bezeichneten Schritt wird ein jeder Koeffizient Lij entsprechend nj Bits auf ungleiche Weise unter Berücksichtigung der Verteilung der Koeffizienten quantifiziert, um gemäß einer in dem Histogramm der Lij der Figur 5 dargestellten Verteilungskurve einen Wert Lij zu liefern. In dem Schritt 5 werden die Werte von Lij ihrerseits verwendet, um die Koeffizienten entsprechend der folgenden Gleichung zu berechnen:
- = / (1 + Lij²)&supmin;² (3)
- Diese Werte Kij stellen die quantifizierten Werte der Prädiktionskoeffizienten dar, aus welchen die Koeffizienten eines Prädiktors
- durch wie im folgenden definierte Rekursions- Gleichungen hergeleitet werden können:
- (z) = 1 (4)
- für p = 1, 2, . . . 10.
- mit
- In dem schließlich letzten, in 10 dargestellten Schritt wird die Berechnung der Energie des Prädiktionsfehlers unter Anwendung der folgenden Gleichung durchgeführt:
- oder aber mit
- Um den Algorithmus zu vervollständigen, müssen lediglich die vier im vorangegangenen beschriebenen Konfigurationen getestet werden, indem zwischen dem ersten und dem zweiten Schritt des Verfahrens ein zusätzlicher Schritt eingeschoben wird, welcher die möglichen Konfigurationen berücksichtigt, um letzten Endes nur diejenige Konfiguration beizubehalten, für die der erhaltene (über die drei Rahmen summierte) Gesamt-Prädiktionsfehler minimal ist.
- In der ersten Konfiguration wird für die drei Rahmen der gleiche Filter verwendet. Man verwendet nun für den Ablauf der Schritte 2 bis 6 einen einzelnen fiktiven vierten Filter, der ausgehend von den durch folgende Gleichung gegebenen Koeffizienten R4j berechnet wird:
- R4j = R1j + R2j + R3j (9)
- wobei j zwischen 0 und 10 variiert.
- Der Gesamt-Prädiktionsfehler beträgt nun E und der Algorithmus des Verfahrens betrachtet die drei Rahmen tatsächlich als einen einzigen Rahmen von einer dreimal größeren Dauer.
- Die Koeffizienten L1 bis L10 können nun mit beispielsweise jeweils 5,5,4,4,4,3,2,2,2,2 Bits, also insgesamt 33 Bits quantifiziert werden.
- Entsprechend der zweiten Konfiguration, bei welcher ein und derselbe Filter für die Rahmen 1 und 2 verwendet wird, wird der Algorithmus mit den Werten der wie im folgenden definierten Autokorrelationskoeffizienten R5j und R3j durchgeführt:
- R5,j = R1,j + R2,j
- wobei j für die ersten beiden Rahmen nacheinander die Werte von 1 bis 10 annimmt und R3,j (wobei j zwischen 1 und 10 variiert) für den letzten Rahmen.
- Der Prädiktionsfehler beträgt E + E , was bedeutet, daß die Rahmen 1 und 2 in einen einzigen Rahmen mit doppelter Dauer gruppiert werden, während der Rahmen 3 unverändert bleibt. Es besteht nun die Möglichkeit, die Koeffizienten L1 bis L10 für die Rahmen 1 und 2 mit jeweils 5,4,4,3,3,2,2,2,0,0 Bits (insgesamt 25 Bits, wobei die Koeffizienten L&sub9; und L&sub1;&sub0; nicht übertragen werden) und, um diejenigen des dritten Rahmens zu erhalten, deren Änderung unter Verwendung von jeweils 3,2,2,1,0,0,0,0,0,0 Bits (insgesamt 8 Bits), also 33 Bits für die drei Rahmen zu quantifizieren.
- Die Tatsache, daß die Koeffizienten L&sub9; und L&sub1;&sub0; nicht übertragen werden, ist nicht weiter störend, da ja in diesem Fall die Konfiguration sich verändernden Prädiktoren entspricht, deren Koeffizienten eine in Abhängigkeit von ihrem Rang abnehmende Wertigkeit aufweisen.
- In der dritten Konfiguration, bei der für die Rahmen 2 und 3 die gleichen Filter verwendet werden, wird dasselbe Verfahren wie auch im Falle der zweiten Konfiguration eingesetzt, indem die Koeffizienten Rij der Rahmen 2 und 4 wie beispielsweise R6j = R2j + R3j gruppiert werden. Man verwendet das gleiche Quantifizierungsverfahren, wobei jedoch der Prädiktor der Rahmen 2 und 3 und die Differenz für den Rahmen 1 codiert werden.
- Im Falle der schließlich letzten Konfiguration, bei der alle Filter verschieden sind, muß bedacht werden, daß die drei Rahmen entkoppelt sind und daß der Gesamtfehler gleich E + E + E ist. In diesem Fall werden die Koeffizienten L&sub1; bis L&sub1;&sub0; des Rahmens 2 jeweils mit 4,4,3,3,3,2,2,0,0 Bits, also 21 Bits, sowie die Differenzen für den ersten Rahmen mit 2,2,1,1,0,0,0,0,0,0 Bits, also 6 Bits und die Differenzen für den Rahmen 3 (6 zusätzliche Bits) quantifiziert. Diese letzte Konfiguration entspricht einer Codierung von 21 + 6 + 6 = 33 Bits.
- Die Vorrichtung zur Durchführung des Verfahrens, die in Figur 6 dargestellt ist, weist eine Vorrichtung 11 zum Berechnen der 10 Autokorrelationskoeffizienten für jeden Rahmen auf, der mit Verzögerungselementen gekoppelt ist, die durch drei Rahmenspeicher 12&sub1; bis 12&sub3; zum Speichern der im ersten Schritt des Verfahrens berechneten Koeffizienten Rij gebildet werden. Weiterhin enthält sie eine Vorrichtung 13 zum Berechnen der Koeffizienten Kij und Lij gemäß dem zweiten Schritt des Verfahrens. Ein Datenbus 14 überträgt die Werte der Koeffizienten Lij (i = 1 bis 3, j = 1 bis 10) sowie die Werte der die Energien darstellenden Koeffizienten Rio, wobei i = 1 bis 3 ist. Der Datenbus 14 verbindet die Verzögerungselemente 12&sub1; bis 12&sub3; und die Berechnungsvorrichtung 13 mit vier Berechnungsketten, die mit 15&sub1; bis 15&sub4; bezeichnet sind. Die Berechnungsketten 15&sub1; bis 15&sub3; enthalten jeweils eine Summiervorrichtung, bezeichnet mit 16&sub1; bis 16&sub3;, die mit den Verzögerungselementen 12&sub1; bis 12&sub3; verbunden ist, um die Koeffizienten R4j, Rsj und R6j gemäß den vier im vorangegangenen beschriebenen Konfigurationen zu berechnen. Die Ausgänge der Summiervorrichtungen 16&sub1; bis 16&sub3; sind mit Vorrichtungen 17&sub1; bis 17&sub3; zum Berechnen der Koeffizienten L4j, K4j, K5j, L5j, K6j und L6j verbunden. Die Koeffizienten L4j, L5j, L6j werden jeweils an Quantifizierungsvorrichtungen 18&sub1; bis 18&sub3; übertragen, um die Koeffizienten entsprechend dem vierten Schritt des Verfahrens zu berechnen. Diese Koeffizienten werden den mit der Bezugsziffer 19&sub1; bis 19&sub3; bezeichneten Vorrichtungen zum Berechnen des Gesamtfehlers zugeordnet, um jeweils Gesamt-Prädiktionsfehler E , E + E und schließlich E + E für eine jede der im vorangegangenen beschriebenen Konfigurationen 1 bis 3 zu liefern. Die Berechnungskette 15&sub4; enthält eine mit dem Datenbus 14 verbundene, Vorrichtung 18&sub4; zur gesonderten Quantifizierung der Koeffizienten Lij. Die am Ausgang der Quantifizierungsvorrichtung 18&sub4; erhaltenen Koeffizienten werden einer Vorrichtung 19&sub4; zur Berechnung des Gesamtfehlers zugeordnet, um den Gesamtfehler entsprechend der zuvor definierten Gleichung E + E + E zu berechnen. Jeder Ausgang der Vorrichtungen 19&sub1; bis 19&sub4; zum Berechnen des Gesamtfehlers der Berechnungsketten 15&sub1; bis 15&sub4; wird mit den jeweiligen Eingängen einer Vorrichtung 20 zum Suchen des minimalen Gesamtfehlers verbunden. Auf der anderen Seite wird ein jeder der Ausgänge der die Koeffizienten liefernden Quantifizierungsvorrichtung 18&sub1; bis 18&sub4; mit einem durch den Ausgang der Vorrichtung 20 zum Suchen des minimalen Gesamtfehlers gesteuerten Weichenvorrichtung 21 verbunden, um die zu übertragenden Koeffizienten auszuwählen, die dem mittels der Vorrichtung 20 berechneten minimalen Gesamtfehler entsprechen. In diesem Beispiel weist der Ausgang der Vorrichtung 35 Bits auf, wobei 33 Bits die Werte der am Ausgang der Weichenvorrichtung 21 erhaltenen Koeffizienten und 2 Bits eine der vier möglichen, mittels der Vorrichtung 20 zum Suchen des minimalen Gesamtfehlers angezeigten Konfigurationen darstellen.
- Es versteht sich von selbst, daß die Erfindung sich nicht auf die eben beschriebenen Beispiele beschränkt und daß sie darüber hinaus andere, vor allem von den den Filtern zugeordneten Koeffizienten abhängige Ausführungsvarianten bereithält; diese Koeffizienten können andere sein als die im vorangegangenen definierten Koeffizienten Lij und auch die Anzahl dieser Koeffizienten kann von der Zahl 10 abweichen. Es versteht sich ebenso von selbst, daß die Erfindung darüber hinaus für die Definition von Rahmenpaketen mit einer von drei Rahmen abweichenden Anzahl an Rahmen oder mit einer von der Zahl vier abweichenden Anzahl von Filterkonfigurationen anwendbar ist, und daß diese Varianten natürlich zu einer Gesamtzahl von Quantifizierungsbits führen müssen, die von den (33 + 2) Bits mit einer je Konfiguration unterschiedlichen Verteilung abweichen.
Claims (9)
1. Verfahren zum Codieren von Prädiktionsfiltern von
Vocodern mit sehr niedriger Datenrate, bei welchem das
Sprachsignal in binäre Rahmen mit vorbestimmter Dauer zerlegt wird,
die Rahmen in Pakete aufeinanderfolgender Rahmen gruppiert
werden (12&sub1; ... 12&sub3;) und jeweils jedem in einem Paket
enthaltenen Rahmen ein Prädiktionsfilter (1) zugeordnet wird,
dadurch gekennzeichnet, daß es außerdem darin besteht, für
jedes Rahmenpaket mögliche Konfigurationen zu definieren,
die den Filtern des Pakets abhängig davon, ob das Signal
stimmhaft ist oder nicht, zuzuordnen sind, für jede
Konfiguration die Prädiktionskoeffizienten und die Fehlerenergie
(19) der Prädiktion zu berechnen (17, 18), um die
Konfiguration und die Prädiktionskoeffizienten beizubehalten (20) für
die der über die Rahmen des Pakets summierte
Gesamt-Prädiktionsfehler minimal ist, und die Koeffizienten jedes
Prädiktionsfilters (5 ... 9) abhängig von der beibehaltenen
Konfiguration zu quantifizieren.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die Anzahl der Rahmen in einem Paket zwischen 2 und
einschließlich 4 liegt (12&sub1; ... 12&sub3;).
3. Verfahren nach den Ansprüchen 1 und 2, dadurch
gekennzeichnet, daß die Anzahl der Konfigurationen 4, 8 oder 16
beträgt.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß es
darin besteht, die Wahl der Konfigurationen auf 4 zu
begrenzen, eine erste Konfiguration, bei der die Prädiktionsfilter
identisch sind, eine zweite und eine dritte Konfiguration,
bei denen nur zwei Prädiktionsfilter identisch sind und eine
vierte Konfiguration, bei der die drei Prädiktionsfilter
verschieden sind.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch
gekennzeichnet, daß es darin besteht, für die Berechnung der
Prädiktionskoeffizienten in jedem Rahmen die
Autokorrelationskoeffizienten Ri,k des abgetasteten Sprachsignals zu
berechnen und für die Bestimmung der Reflexionskoeffizienten
jedes Prädiktionsfilters den Algorithmus von Leroux-Gueguen
oder von Schur anzuwenden.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch
gekennzeichnet, daß die Reflexionskoeffizienten Li,j der
Filter mit der Anzahl 10 vorhanden sind und in einer
Gesamtlänge von 33 Bits unabhängig von der Konfiguration codiert
sind.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß
die Reflexionskoeffizienten L&sub1; bis L&sub1;&sub0; der Filter jeweils
als Länge haben:
(5, 5, 4, 4, 4, 3, 2, 2, 2, 2) Bits gemäß der ersten
Konfiguration,
(5, 4, 4, 3, 3, 2, 2, 2, 0, 0) Bits und (3, 2, 2, 1, 0, 0,
0, 0, 0, 0) Bits gemäß der zweiten und der dritten
Konfiguration
(4, 4, 3, 3, 3, 2, 2, 0, 0) Bits für die Codierung der
Zwischenrahmen (Rahmen 2) gemäß der vierten Konfiguration und
(2, 2, 1, 1, 0, 0, 0, 0, 0, 0) Bits für die zwei anderen
Rahmen (Rahmen 1, Rahmen 3) gemäß der vierten Konfiguration.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß
die Reflexionskoeffizienten der Filter durch die Gleichung
Li,j = Ki,j/(1-kij²)&supmin;²
bestimmt werden.
9. Vorrichtung zur Durchführung des Verfahrens nach einem
der Ansprüche 1 bis 8, gekennzeichnet durch eine Vorrichtung
(11) zum Berechnen der Autokorrelationskoeffizienten für
jeden Rahmen, der mit Rahmenspeichern (12&sub1;, 12&sub2;, 12&sub3;) zum
Speichern der Autokorrelationskoeffizienten gekoppelt ist,
eine Vorrichtung (13) zum Berechnen der
Reflexionskoeffizienten der Prädiktionsfilter, die mit ihren Eingängen an
die Rahmenspeicher (12&sub1; bis 12&sub3;) und mit ihren Ausgängen an
Berechnungsketten (15&sub1; ... 15&sub3;) von Prädiktionsfehlern
angeschlossen sind, um mittels einer Vorrichtung (20) zum
Suchen des minimalen Gesamtfehlers die zu übertragenden
Reflexionskoeffizienten der Filter auszuwählen, die dem
minimalen Gesamtfehler entsprechen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8914897A FR2654542B1 (fr) | 1989-11-14 | 1989-11-14 | Procede et dispositif de codage de filtres predicteurs de vocodeurs tres bas debit. |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69017842D1 DE69017842D1 (de) | 1995-04-20 |
DE69017842T2 true DE69017842T2 (de) | 1995-08-17 |
Family
ID=9387367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69017842T Expired - Lifetime DE69017842T2 (de) | 1989-11-14 | 1990-11-09 | Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. |
Country Status (6)
Country | Link |
---|---|
US (1) | US5243685A (de) |
EP (1) | EP0428445B1 (de) |
CA (1) | CA2029768C (de) |
DE (1) | DE69017842T2 (de) |
ES (1) | ES2069044T3 (de) |
FR (1) | FR2654542B1 (de) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2661541A1 (fr) * | 1990-04-27 | 1991-10-31 | Thomson Csf | Procede et dispositif de codage bas debit de la parole. |
FR2690551B1 (fr) * | 1991-10-15 | 1994-06-03 | Thomson Csf | Procede de quantification d'un filtre predicteur pour vocodeur a tres faible debit. |
FR2738383B1 (fr) * | 1995-09-05 | 1997-10-03 | Thomson Csf | Procede de quantification vectorielle de vocodeurs bas debit |
US5884259A (en) * | 1997-02-12 | 1999-03-16 | International Business Machines Corporation | Method and apparatus for a time-synchronous tree-based search strategy |
FR2778041A1 (fr) * | 1998-04-24 | 1999-10-29 | Thomson Csf | Procede de neutrodynage du tube d'un emetteur |
FR2788390B1 (fr) | 1999-01-12 | 2003-05-30 | Thomson Csf | Emetteur de radiodiffusion en ondes courtes a haut rendement optimise pour les emissions de type numerique |
FR2790343B1 (fr) | 1999-02-26 | 2001-06-01 | Thomson Csf | Systeme pour l'estimation du gain complexe d'un canal de transmission |
FR2799592B1 (fr) | 1999-10-12 | 2003-09-26 | Thomson Csf | Procede de construction et de codage simple et systematique de codes ldpc |
FR2815492B1 (fr) * | 2000-10-13 | 2003-02-14 | Thomson Csf | Systeme et procede de radiodiffusion assurant une continuite de service |
FR2826208B1 (fr) | 2001-06-19 | 2003-12-05 | Thales Sa | Systeme et procede de transmission d'un signal audio ou phonie |
FR2826492B1 (fr) * | 2001-06-22 | 2003-09-26 | Thales Sa | Procede et systeme de pre et de post-traitement d'un signal audio pour la transmission sur un canal fortement perturbe |
FR2832879B1 (fr) * | 2001-11-23 | 2006-08-18 | Thales Sa | Procede et egalisation par segmentations des donnees |
FR2832880B1 (fr) * | 2001-11-23 | 2004-04-09 | Thales Sa | Procede et dispositif d'egalisation par blocs avec adaptation au canal de transmission |
FR2832877B1 (fr) * | 2001-11-23 | 2006-08-18 | Thales Sa | Procede et dispositif d'egalisation par blocs avec interpolation amelioree |
JP6250073B2 (ja) * | 2014-01-24 | 2017-12-20 | 日本電信電話株式会社 | 線形予測分析装置、方法、プログラム及び記録媒体 |
JP6250072B2 (ja) * | 2014-01-24 | 2017-12-20 | 日本電信電話株式会社 | 線形予測分析装置、方法、プログラム及び記録媒体 |
US9972301B2 (en) * | 2016-10-18 | 2018-05-15 | Mastercard International Incorporated | Systems and methods for correcting text-to-speech pronunciation |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4797925A (en) * | 1986-09-26 | 1989-01-10 | Bell Communications Research, Inc. | Method for coding speech at low bit rates |
JPS63211987A (ja) * | 1987-02-27 | 1988-09-05 | Sony Corp | 予測符号化装置 |
US4868867A (en) * | 1987-04-06 | 1989-09-19 | Voicecraft Inc. | Vector excitation speech or audio coder for transmission or storage |
US4852179A (en) * | 1987-10-05 | 1989-07-25 | Motorola, Inc. | Variable frame rate, fixed bit rate vocoding method |
US4817157A (en) * | 1988-01-07 | 1989-03-28 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
US4963034A (en) * | 1989-06-01 | 1990-10-16 | Simon Fraser University | Low-delay vector backward predictive coding of speech |
-
1989
- 1989-11-14 FR FR8914897A patent/FR2654542B1/fr not_active Expired - Lifetime
-
1990
- 1990-10-31 US US07/606,856 patent/US5243685A/en not_active Expired - Lifetime
- 1990-11-09 DE DE69017842T patent/DE69017842T2/de not_active Expired - Lifetime
- 1990-11-09 EP EP90403195A patent/EP0428445B1/de not_active Expired - Lifetime
- 1990-11-09 ES ES90403195T patent/ES2069044T3/es not_active Expired - Lifetime
- 1990-11-13 CA CA002029768A patent/CA2029768C/fr not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69017842D1 (de) | 1995-04-20 |
FR2654542A1 (fr) | 1991-05-17 |
CA2029768A1 (fr) | 1991-05-15 |
US5243685A (en) | 1993-09-07 |
CA2029768C (fr) | 2001-01-09 |
EP0428445B1 (de) | 1995-03-15 |
EP0428445A1 (de) | 1991-05-22 |
FR2654542B1 (fr) | 1992-01-17 |
ES2069044T3 (es) | 1995-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69017842T2 (de) | Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. | |
DE69309557T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE2626793C3 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE69932460T2 (de) | Sprachkodierer/dekodierer | |
DE69029232T2 (de) | System und Methode zur Sprachkodierung | |
DE2524497C3 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
DE2659096C2 (de) | ||
DE69023402T2 (de) | Verfahren zur Sprachkodierung und -dekodierung. | |
DE69032168T2 (de) | Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden | |
DE69731588T2 (de) | Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem | |
DE69009545T2 (de) | Verfahren zur Sprachanalyse und -synthese. | |
DE69910240T2 (de) | Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals | |
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE19647298C2 (de) | Kodiersystem | |
DE69013738T2 (de) | Einrichtung zur Sprachcodierung. | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE69729527T2 (de) | Verfahren und Vorrichtung zur Kodierung von Sprachsignalen | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE602005003358T2 (de) | Audiokodierung | |
DE69121411T2 (de) | Methode und gerät zur codierung von analogen signalen | |
DE69033510T3 (de) | Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
DE3019823C2 (de) | ||
DE2622423A1 (de) | Vocodersystem | |
DE68917584T2 (de) | Zur Sprachqualitätsverbesserung geeignetes Kodiergerät unter Anwendung einer Doppelanlage zur Pulserzeugung. | |
DE68923771T2 (de) | Sprachübertragungssystem unter Anwendung von Mehrimpulsanregung. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) |