DE69017842T2 - Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. - Google Patents

Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.

Info

Publication number
DE69017842T2
DE69017842T2 DE69017842T DE69017842T DE69017842T2 DE 69017842 T2 DE69017842 T2 DE 69017842T2 DE 69017842 T DE69017842 T DE 69017842T DE 69017842 T DE69017842 T DE 69017842T DE 69017842 T2 DE69017842 T2 DE 69017842T2
Authority
DE
Germany
Prior art keywords
coefficients
prediction
filters
configuration
bits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69017842T
Other languages
English (en)
Other versions
DE69017842D1 (de
Inventor
Pierre-Andre Laurent
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thomson CSF SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson CSF SA filed Critical Thomson CSF SA
Publication of DE69017842D1 publication Critical patent/DE69017842D1/de
Application granted granted Critical
Publication of DE69017842T2 publication Critical patent/DE69017842T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren sowie auf eine Vorrichtung zum Codieren von Prädiktionsfiltern für Vocoder mit sehr niedriger Datenrate.
  • Das wohl bekannteste der Verfahren zur Zählung der Sprache mit niedriger Datenrate ist die LPC10-Methode der Sprachsynthese, wobei LPC10 die englische Abkürzung für "Linear predictive coding, order 10" ist. Gemäß dieser Methode erfolgt die Sprachsynthese dadurch, daß mittels eines periodischen Signales oder durch eine Geräuschquelle ein Filter angeregt wird, welcher die Aufgabe hat, dem Frequenzspektrum des Signales die Form einer derjenigen des ursprünglichen Sprachsignales nahegelegenen Welle zu verleihen.
  • Der größere Teil der Datenrate, welcher 2400 Bits pro Sekunde beträgt, dient der Übertragung der Koeffizienten des Filters. Zu diesem Zweck wird die Binärreihe in Rahmen von 22,5 Millisekunden mit 54 Bits zerlegt, von denen 41 Bits für die Anpassung der Übertragungsfunktion des Filters verwendet werden.
  • Ein bekanntes Verfahren zur Reduktion der Datenrate ist in dem Dokument "Variable rate speech compression by encoding subsets of the PARCOR coefficients" P. Papamichalis, Trans. on ASSP, Band ASSP-31, Nr. 3, Juni 1983 beschrieben. In diesem Dokument werden die Rahmen in Pakete aufeinanderfolgender Rahmen gruppiert und jedem Rahmen wird ein Prädiktionsfilter zugeordnet. Es wird lediglich der Koeffizientensatz für die Übertragung ausgewählt, der eine zuvor festgelegte Kostenfunktion auf ein Minimum herabsetzt.
  • Ein anderes bekanntes Verfahren zur Reduktion der Datenrate, wie es beispielsweise in dem Patent US 4 852 179 beschrieben wird, besteht darin, die 41 einem Filter zugeordneten Bits auf 10 bis 12 Bits zu komprimieren, welche die Nummer eines zuvor definierten, zu einem Verzeichnis von 2¹&sup0; bis 2¹² unterschiedlichen Filtern gehörigen Filters darstellen, wobei dieser Filter der dem Ursprungsfilter am nahegelegensten ist. Dieses Verfahren weist jedoch einen ersten großen Nachteil auf, der in der Notwendigkeit der Herstellung eines Filterverzeichnisses besteht, dessen Inhalt ganz wesentlich von der Gruppe der Filter, die für seine Erstellung durch herkömmliche Datentechniken ("clustering") verwendet werden sowie von der Art abhängen, wobei dieses Verfahren in keiner Weise gut an die tatsächlichen Schallempfangsbedingungen angepaßt ist. Ein weiterer Nachteil dieses Verfahrens liegt darin begründet, daß es für seine Durchführung einen großen Speicher benötigt, um das Verzeichnis (2¹&sup0; bis 2¹² Koeffizientenpakete) zu speichern. Bedingt durch die Tatsache, daß in dem Verzeichnis der dem ursprünglichen Filter am nächsten befindliche Filter gesucht werden muß, werden die Berechnungszeiten korrelativ sehr lang. Schließlich bietet dieses Verfahren nicht die Möglichkeit, in zufriedenstellender Weise stabile Töne wiederzugeben. Dies ist auf die Tatsache zurückzuführen, daß selbst im Falle eines stationären Schalles die LPC Analyse praktisch niemals zweimal hintereinander den gleichen Ursprungsfilter, jedoch in dem Verzeichnis nacheinander nahegelegene, aber unterschiedliche Filter auswählt.
  • Wie auch beim Fernsehen, wo die Wiedergabe eines Farbbildes im wesentlichen von der Qualität des Luminanzsignales und nicht von der des Chrominanzsignales abhängt, das aus diesem Grund mit einer geringeren Auflösung übertragen werden kann, so erscheint es auch in der Sprachsynthese ausreichend, lediglich die Kontur der Energie des Sprachsignales in hinreichendem Maße wiederzugeben, wobei seine Färbung (Stimmhaftigkeit, Spektralform) hinsichtlich seiner Wiedergabe von geringerer Bedeutung ist. Aus diesem Grund ist im Falle der bekannten Verfahren der Sprachsynthese der Suchvorgang nach Spektren basierend auf der Entwicklung der minimalen Distanz, welche die Spektren von der Ausgangssprache (des Redners) und von der synthetischen Sprache trennt, nicht vollkommen gerechtfertigt.
  • So können beispielsweise verschiedene Darstellungen des von unterschiedlichen Rednern artikulierten oder unter verschiedenen Bedingungen aufgenommenen Tones "A" eine erweiterte Spektraldistanz haben, diese Töne bleiben jedoch immer "A"-Töne, die auch als solche erkannt werden können, und sollte es durch eine Verwechslungsmöglichkeit mit einem benachbarten Ton zu Zweideutigkeiten kommen, so wird der Zuhörer dies aufgrund des Kontextes stets selbst richtigstellen können. Denn die Erfahrung zeigt, daß wenn nicht mehr als etwa 30 statt der 41 Bits für die Koeffizienten des Prädiktionsfilters verwendet werden, die Wiedergabequalität zufriedenstellend bleibt, auch wenn ein beteiligter Zuhörer einen minimalen Unterschied zwischen den mit auf 30 oder 41 Bits festgelegten Prädiktionskoeffizienten synthetisierten Tönen wahrnehmen kann. Auf der anderen Seite erscheint es ausreichend, daß der Zuhörer, da die Übertragung aus der Entfernung erfolgt und der Empfänger aus diesem Grund nicht die Möglichkeit hat, diesen Unterschied zu machen, den synthetisierten Ton ganz genau erkennen kann.
  • Außerdem erscheint es wichtig, daß der Prädiktionsfilter bei den stabilen Teilen des Signales (Selbstlaute) stabil bleibt und so nah als möglich bei dem ursprünglichen Prädiktionsfilter gelegen ist. Bei den instabilen Teilen (Übergang, stimmloser Ton) ist es hingegen nicht notwendig, daß der übertragene Prädiktor eine getreue Kopie des ursprünglichen Prädiktors ist.
  • Das Ziel der Erfindung ist es, die im vorangegangenen aufgeführten Nachteile zu beheben.
  • Zu diesem Zweck liegt der vorliegenden Erfindung die Aufgabe eines Verfahrens sowie einer Vorrichtung zum Codieren von Prädiktionsfiltern von Vocodern mit sehr niedriger Datenrate zugrunde, wie sie in den Patentansprüchen 1 und 9 beansprucht werden.
  • Weitere Eigenschaften sowie Vorteile der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung ersichtlich, die unter Bezugnahme auf die beigefügten Zeichnungen erstellt wurde, hierin zeigen:
  • - Figur 1 ein Prinzipschaltbild eines Sprachsynthesizers gemäß dem Stand der Technik;
  • - Figur 2 eine Tabelle der vier möglichen Codierungen der Prädiktionsfilter des Vocoders gemäß der Erfindung;
  • - Figur 3 ein Organigramm zur Darstellung der erfindungsgemäß durchgeführten Berechnung des Prädiktionsfehlers der Prädiktionsfilter;
  • - Figur 4 einen Transformationsgraph der Reflexionskoeffizienten der Prädiktionsfilter;
  • - Figur 5 den Quantifizierungsverlauf der Reflexionskoeffizienten der durch den Graph der Figur 3 transformierten Filter;
  • - Figur 6 eine Vorrichtung zur Durchführung des erfindungsgemäßen Verfahrens.
  • Der in Figur 1 dargestellte Sprachsynthesizer weist in bekannter Weise einen Prädiktionsfilter 1 auf, der mit seinem Eingang E&sub1; an einen periodischen Signalgeber 2 sowie an einen Rauschgenerator 3 über einen Umschalter 4 und einen Verstärker 5 mit verstellbaren Verstärkungsfaktor angeschlossenen ist, wobei letztgenannte miteinander in Reihe geschaltet sind. Der Umschalter 4 koppelt den Eingang des Prädiktionsfilters 1 mit dem Ausgang des periodischen Signalgebers 2 oder aber mit dem Ausgang des Rauschgenerators 3 in Abhängigkeit davon, ob der wiederzugebende Ton stimmhaft ist oder nicht. Die Amplitude des Tones wird von dem Verstärker 5 gesteuert. Der Filter 1 behält an seinem Ausgang S ein Sprachsignal in Abhängigkeit von an seinem Eingang E&sub2; angelegten Prädiktionskoeffizienten bei. Im Unterschied zu der Darstellung in der Figur 1, müssen die Sprachsynthesizer, auf welche das erfindungsgemäße Verfahren sowie die erfindungsgemäße Vorrichtung zum Codieren angewendet werden, drei Prädiktionsfilter 1 enthalten, die an eine jede Gruppe von drei aufeinanderfolgenden Rahmen von 22,5 ms des Sprachsignales abhängig davon angepaßt werden, ob der zu synthetisierende Ton stabil ist oder nicht. Diese Anordnung bietet beispielsweise die Möglichkeit, die Datenrate von 2400 Bits pro Sekunde auf 800 Bits pro Sekunde zu reduzieren, indem die Rahmen in Pakete von 3 x 22,5 = 67,5 Millisekunden von 54 Bits gruppiert werden, wobei 30 bis 35 Bits zum Beispiel für die Beschreibung der 10 Prädiktionskoeffizienten der drei aufeinanderfolgenden, der zur Durchführung des im vorangegangenen beschriebenen LPC10-Codierverfahrens notwendigen Filter verwendet werden und zwei von diesen Bits eingesetzt werden, um die Konfiguration zu definieren, die den drei zu generierenden Filtern abhängig davon, ob das zu erzeugende Sprachsignal stabil ist oder nicht, zuzuordnen sind. In der Tabelle der Figur 2, in welcher die vier möglichen Konfigurationen der drei Filter festgehalten sind, entspricht dem Zustand 00 der beiden Konfigurationsbits eine erste Konfiguration, bei welcher die drei Prädiktionsfilter für die drei Rahmen des Sprachsignales identisch sind. Im Falle der zweiten Konfiguration haben die Konfigurationsbits den Wert 01 und lediglich die ersten beiden Filter der Rahmen 1 und 2 sind identisch. Bei der dritten Konfiguration, die den Konfigurationsbits 10 entspricht, sind nur die beiden letzten Filter der Rahmen 2 und 3 identisch. Bei der vierten und letzten Konfiguration, welche den Konfigurationsbits 11 entspricht, sind die drei Filter der Rahmen 1 und 3 verschieden. Natürlich ist dies nicht die einzige Art der Konfiguration und es ist im Rahmen der Erfindung ebenso möglich, die Anzahl der Rahmen in einem Paket frei zu definieren. Um jedoch die Realisierung zu erleichtern, kann diese Zahl zwischen 2 und einschließlich 4 liegen. In diesen Fällen kann die Anzahl der möglichen Konfigurationen natürlich auf 8 oder maximal 16 erweitert werden. Die Definition der Filter erfolgt entsprechend den Schritten 5 bis 10 des in dem Organigramm der Figur 3 dargestellten Verfahrens. Gemäß einem ersten, in dem Organigramm mit der Bezugsziffer 5 bezeichneten Schritt des Verfahrens, werden die Autokorrelationskoeffizienten Ri,k des Signales entsprechend einer Gleichung folgender Form berechnet:
  • Rik = WnSinSi,n-k
  • wobei Sin ein Abtastwert n des Signales in dem Rahmen i ist und Wn das Bewertungsfenster bezeichnet. In dem zweiten, mit 6 bezeichneten Schritt, wird die Berechnung der den vorhergehenden Koeffizienten Ri(k) entsprechenden Reflexionskoeffizienten des Gitter-Prädiktionsfilters unter Anwendung eines Standardalgorithmus', wie beispielsweise des bekannten Algorithmus von LEROUX-GUEGUEN oder von SCHUR durchgeführt. In diesem Schritt werden die Koeffizienten Rik in die Koeffizienten Kij transformiert, wobei j eine positive Ganzzahl ist, welche die aufeinanderfolgenden Werte von 1 bis 10 annimmt. In dem dritten, mit der Bezugsziffer 7 bezeichneten Schritt werden die Koeffizienten k, deren Werte zwischen -1 und +1 definiert sind, in abgeänderte Koeffizienten transformiert, die sich zwischen "- unendlich" und "+ unendlich" bewegen und die Tatsache berücksichtigen, daß die Quantifizierung der Koeffizienten k exakt sein muß, wenn sie einen absoluten Wert nahe 1 haben und einen nicht ganz so getreuen Wert haben müssen, wenn sie sich beispielsweise nahe 0 bewegen. Jeder Koeffizient Kij wird beispielsweise entsprechend einer Gleichung folgender Form transformiert:
  • Lij = Kij / (1 - Kij²)&supmin;² (2)
  • deren Graph in der Figur 4 dargestellt ist oder aber gemäß den Gleichungen (Lij = Kij 1- Kij ) ; (Lij = arc cos Kij) ; (Lij = arc sin Kij) oder aber unter Anwendung der in dem Artikel von Georg S. Kang und Lawrence, J. Fransen vom Naval Research Laboratory Washington DC 20375, aus dem Jahr 1985 mit dem Titel "Application of line spectrum pairs to low bit rate speech encoder" beschriebenen Berechnungsmethode der LSP Koeffizienten. In dem vierten, mit 8 bezeichneten Schritt wird ein jeder Koeffizient Lij entsprechend nj Bits auf ungleiche Weise unter Berücksichtigung der Verteilung der Koeffizienten quantifiziert, um gemäß einer in dem Histogramm der Lij der Figur 5 dargestellten Verteilungskurve einen Wert Lij zu liefern. In dem Schritt 5 werden die Werte von Lij ihrerseits verwendet, um die Koeffizienten entsprechend der folgenden Gleichung zu berechnen:
  • = / (1 + Lij²)&supmin;² (3)
  • Diese Werte Kij stellen die quantifizierten Werte der Prädiktionskoeffizienten dar, aus welchen die Koeffizienten eines Prädiktors
  • durch wie im folgenden definierte Rekursions- Gleichungen hergeleitet werden können:
  • (z) = 1 (4)
  • für p = 1, 2, . . . 10.
  • mit
  • In dem schließlich letzten, in 10 dargestellten Schritt wird die Berechnung der Energie des Prädiktionsfehlers unter Anwendung der folgenden Gleichung durchgeführt:
  • oder aber mit
  • Um den Algorithmus zu vervollständigen, müssen lediglich die vier im vorangegangenen beschriebenen Konfigurationen getestet werden, indem zwischen dem ersten und dem zweiten Schritt des Verfahrens ein zusätzlicher Schritt eingeschoben wird, welcher die möglichen Konfigurationen berücksichtigt, um letzten Endes nur diejenige Konfiguration beizubehalten, für die der erhaltene (über die drei Rahmen summierte) Gesamt-Prädiktionsfehler minimal ist.
  • In der ersten Konfiguration wird für die drei Rahmen der gleiche Filter verwendet. Man verwendet nun für den Ablauf der Schritte 2 bis 6 einen einzelnen fiktiven vierten Filter, der ausgehend von den durch folgende Gleichung gegebenen Koeffizienten R4j berechnet wird:
  • R4j = R1j + R2j + R3j (9)
  • wobei j zwischen 0 und 10 variiert.
  • Der Gesamt-Prädiktionsfehler beträgt nun E und der Algorithmus des Verfahrens betrachtet die drei Rahmen tatsächlich als einen einzigen Rahmen von einer dreimal größeren Dauer.
  • Die Koeffizienten L1 bis L10 können nun mit beispielsweise jeweils 5,5,4,4,4,3,2,2,2,2 Bits, also insgesamt 33 Bits quantifiziert werden.
  • Entsprechend der zweiten Konfiguration, bei welcher ein und derselbe Filter für die Rahmen 1 und 2 verwendet wird, wird der Algorithmus mit den Werten der wie im folgenden definierten Autokorrelationskoeffizienten R5j und R3j durchgeführt:
  • R5,j = R1,j + R2,j
  • wobei j für die ersten beiden Rahmen nacheinander die Werte von 1 bis 10 annimmt und R3,j (wobei j zwischen 1 und 10 variiert) für den letzten Rahmen.
  • Der Prädiktionsfehler beträgt E + E , was bedeutet, daß die Rahmen 1 und 2 in einen einzigen Rahmen mit doppelter Dauer gruppiert werden, während der Rahmen 3 unverändert bleibt. Es besteht nun die Möglichkeit, die Koeffizienten L1 bis L10 für die Rahmen 1 und 2 mit jeweils 5,4,4,3,3,2,2,2,0,0 Bits (insgesamt 25 Bits, wobei die Koeffizienten L&sub9; und L&sub1;&sub0; nicht übertragen werden) und, um diejenigen des dritten Rahmens zu erhalten, deren Änderung unter Verwendung von jeweils 3,2,2,1,0,0,0,0,0,0 Bits (insgesamt 8 Bits), also 33 Bits für die drei Rahmen zu quantifizieren.
  • Die Tatsache, daß die Koeffizienten L&sub9; und L&sub1;&sub0; nicht übertragen werden, ist nicht weiter störend, da ja in diesem Fall die Konfiguration sich verändernden Prädiktoren entspricht, deren Koeffizienten eine in Abhängigkeit von ihrem Rang abnehmende Wertigkeit aufweisen.
  • In der dritten Konfiguration, bei der für die Rahmen 2 und 3 die gleichen Filter verwendet werden, wird dasselbe Verfahren wie auch im Falle der zweiten Konfiguration eingesetzt, indem die Koeffizienten Rij der Rahmen 2 und 4 wie beispielsweise R6j = R2j + R3j gruppiert werden. Man verwendet das gleiche Quantifizierungsverfahren, wobei jedoch der Prädiktor der Rahmen 2 und 3 und die Differenz für den Rahmen 1 codiert werden.
  • Im Falle der schließlich letzten Konfiguration, bei der alle Filter verschieden sind, muß bedacht werden, daß die drei Rahmen entkoppelt sind und daß der Gesamtfehler gleich E + E + E ist. In diesem Fall werden die Koeffizienten L&sub1; bis L&sub1;&sub0; des Rahmens 2 jeweils mit 4,4,3,3,3,2,2,0,0 Bits, also 21 Bits, sowie die Differenzen für den ersten Rahmen mit 2,2,1,1,0,0,0,0,0,0 Bits, also 6 Bits und die Differenzen für den Rahmen 3 (6 zusätzliche Bits) quantifiziert. Diese letzte Konfiguration entspricht einer Codierung von 21 + 6 + 6 = 33 Bits.
  • Die Vorrichtung zur Durchführung des Verfahrens, die in Figur 6 dargestellt ist, weist eine Vorrichtung 11 zum Berechnen der 10 Autokorrelationskoeffizienten für jeden Rahmen auf, der mit Verzögerungselementen gekoppelt ist, die durch drei Rahmenspeicher 12&sub1; bis 12&sub3; zum Speichern der im ersten Schritt des Verfahrens berechneten Koeffizienten Rij gebildet werden. Weiterhin enthält sie eine Vorrichtung 13 zum Berechnen der Koeffizienten Kij und Lij gemäß dem zweiten Schritt des Verfahrens. Ein Datenbus 14 überträgt die Werte der Koeffizienten Lij (i = 1 bis 3, j = 1 bis 10) sowie die Werte der die Energien darstellenden Koeffizienten Rio, wobei i = 1 bis 3 ist. Der Datenbus 14 verbindet die Verzögerungselemente 12&sub1; bis 12&sub3; und die Berechnungsvorrichtung 13 mit vier Berechnungsketten, die mit 15&sub1; bis 15&sub4; bezeichnet sind. Die Berechnungsketten 15&sub1; bis 15&sub3; enthalten jeweils eine Summiervorrichtung, bezeichnet mit 16&sub1; bis 16&sub3;, die mit den Verzögerungselementen 12&sub1; bis 12&sub3; verbunden ist, um die Koeffizienten R4j, Rsj und R6j gemäß den vier im vorangegangenen beschriebenen Konfigurationen zu berechnen. Die Ausgänge der Summiervorrichtungen 16&sub1; bis 16&sub3; sind mit Vorrichtungen 17&sub1; bis 17&sub3; zum Berechnen der Koeffizienten L4j, K4j, K5j, L5j, K6j und L6j verbunden. Die Koeffizienten L4j, L5j, L6j werden jeweils an Quantifizierungsvorrichtungen 18&sub1; bis 18&sub3; übertragen, um die Koeffizienten entsprechend dem vierten Schritt des Verfahrens zu berechnen. Diese Koeffizienten werden den mit der Bezugsziffer 19&sub1; bis 19&sub3; bezeichneten Vorrichtungen zum Berechnen des Gesamtfehlers zugeordnet, um jeweils Gesamt-Prädiktionsfehler E , E + E und schließlich E + E für eine jede der im vorangegangenen beschriebenen Konfigurationen 1 bis 3 zu liefern. Die Berechnungskette 15&sub4; enthält eine mit dem Datenbus 14 verbundene, Vorrichtung 18&sub4; zur gesonderten Quantifizierung der Koeffizienten Lij. Die am Ausgang der Quantifizierungsvorrichtung 18&sub4; erhaltenen Koeffizienten werden einer Vorrichtung 19&sub4; zur Berechnung des Gesamtfehlers zugeordnet, um den Gesamtfehler entsprechend der zuvor definierten Gleichung E + E + E zu berechnen. Jeder Ausgang der Vorrichtungen 19&sub1; bis 19&sub4; zum Berechnen des Gesamtfehlers der Berechnungsketten 15&sub1; bis 15&sub4; wird mit den jeweiligen Eingängen einer Vorrichtung 20 zum Suchen des minimalen Gesamtfehlers verbunden. Auf der anderen Seite wird ein jeder der Ausgänge der die Koeffizienten liefernden Quantifizierungsvorrichtung 18&sub1; bis 18&sub4; mit einem durch den Ausgang der Vorrichtung 20 zum Suchen des minimalen Gesamtfehlers gesteuerten Weichenvorrichtung 21 verbunden, um die zu übertragenden Koeffizienten auszuwählen, die dem mittels der Vorrichtung 20 berechneten minimalen Gesamtfehler entsprechen. In diesem Beispiel weist der Ausgang der Vorrichtung 35 Bits auf, wobei 33 Bits die Werte der am Ausgang der Weichenvorrichtung 21 erhaltenen Koeffizienten und 2 Bits eine der vier möglichen, mittels der Vorrichtung 20 zum Suchen des minimalen Gesamtfehlers angezeigten Konfigurationen darstellen.
  • Es versteht sich von selbst, daß die Erfindung sich nicht auf die eben beschriebenen Beispiele beschränkt und daß sie darüber hinaus andere, vor allem von den den Filtern zugeordneten Koeffizienten abhängige Ausführungsvarianten bereithält; diese Koeffizienten können andere sein als die im vorangegangenen definierten Koeffizienten Lij und auch die Anzahl dieser Koeffizienten kann von der Zahl 10 abweichen. Es versteht sich ebenso von selbst, daß die Erfindung darüber hinaus für die Definition von Rahmenpaketen mit einer von drei Rahmen abweichenden Anzahl an Rahmen oder mit einer von der Zahl vier abweichenden Anzahl von Filterkonfigurationen anwendbar ist, und daß diese Varianten natürlich zu einer Gesamtzahl von Quantifizierungsbits führen müssen, die von den (33 + 2) Bits mit einer je Konfiguration unterschiedlichen Verteilung abweichen.

Claims (9)

1. Verfahren zum Codieren von Prädiktionsfiltern von Vocodern mit sehr niedriger Datenrate, bei welchem das Sprachsignal in binäre Rahmen mit vorbestimmter Dauer zerlegt wird, die Rahmen in Pakete aufeinanderfolgender Rahmen gruppiert werden (12&sub1; ... 12&sub3;) und jeweils jedem in einem Paket enthaltenen Rahmen ein Prädiktionsfilter (1) zugeordnet wird, dadurch gekennzeichnet, daß es außerdem darin besteht, für jedes Rahmenpaket mögliche Konfigurationen zu definieren, die den Filtern des Pakets abhängig davon, ob das Signal stimmhaft ist oder nicht, zuzuordnen sind, für jede Konfiguration die Prädiktionskoeffizienten und die Fehlerenergie (19) der Prädiktion zu berechnen (17, 18), um die Konfiguration und die Prädiktionskoeffizienten beizubehalten (20) für die der über die Rahmen des Pakets summierte Gesamt-Prädiktionsfehler minimal ist, und die Koeffizienten jedes Prädiktionsfilters (5 ... 9) abhängig von der beibehaltenen Konfiguration zu quantifizieren.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Anzahl der Rahmen in einem Paket zwischen 2 und einschließlich 4 liegt (12&sub1; ... 12&sub3;).
3. Verfahren nach den Ansprüchen 1 und 2, dadurch gekennzeichnet, daß die Anzahl der Konfigurationen 4, 8 oder 16 beträgt.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß es darin besteht, die Wahl der Konfigurationen auf 4 zu begrenzen, eine erste Konfiguration, bei der die Prädiktionsfilter identisch sind, eine zweite und eine dritte Konfiguration, bei denen nur zwei Prädiktionsfilter identisch sind und eine vierte Konfiguration, bei der die drei Prädiktionsfilter verschieden sind.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß es darin besteht, für die Berechnung der Prädiktionskoeffizienten in jedem Rahmen die Autokorrelationskoeffizienten Ri,k des abgetasteten Sprachsignals zu berechnen und für die Bestimmung der Reflexionskoeffizienten jedes Prädiktionsfilters den Algorithmus von Leroux-Gueguen oder von Schur anzuwenden.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Reflexionskoeffizienten Li,j der Filter mit der Anzahl 10 vorhanden sind und in einer Gesamtlänge von 33 Bits unabhängig von der Konfiguration codiert sind.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Reflexionskoeffizienten L&sub1; bis L&sub1;&sub0; der Filter jeweils als Länge haben:
(5, 5, 4, 4, 4, 3, 2, 2, 2, 2) Bits gemäß der ersten Konfiguration,
(5, 4, 4, 3, 3, 2, 2, 2, 0, 0) Bits und (3, 2, 2, 1, 0, 0, 0, 0, 0, 0) Bits gemäß der zweiten und der dritten Konfiguration
(4, 4, 3, 3, 3, 2, 2, 0, 0) Bits für die Codierung der Zwischenrahmen (Rahmen 2) gemäß der vierten Konfiguration und (2, 2, 1, 1, 0, 0, 0, 0, 0, 0) Bits für die zwei anderen Rahmen (Rahmen 1, Rahmen 3) gemäß der vierten Konfiguration.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Reflexionskoeffizienten der Filter durch die Gleichung
Li,j = Ki,j/(1-kij²)&supmin;²
bestimmt werden.
9. Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8, gekennzeichnet durch eine Vorrichtung (11) zum Berechnen der Autokorrelationskoeffizienten für jeden Rahmen, der mit Rahmenspeichern (12&sub1;, 12&sub2;, 12&sub3;) zum Speichern der Autokorrelationskoeffizienten gekoppelt ist, eine Vorrichtung (13) zum Berechnen der Reflexionskoeffizienten der Prädiktionsfilter, die mit ihren Eingängen an die Rahmenspeicher (12&sub1; bis 12&sub3;) und mit ihren Ausgängen an Berechnungsketten (15&sub1; ... 15&sub3;) von Prädiktionsfehlern angeschlossen sind, um mittels einer Vorrichtung (20) zum Suchen des minimalen Gesamtfehlers die zu übertragenden Reflexionskoeffizienten der Filter auszuwählen, die dem minimalen Gesamtfehler entsprechen.
DE69017842T 1989-11-14 1990-11-09 Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. Expired - Lifetime DE69017842T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR8914897A FR2654542B1 (fr) 1989-11-14 1989-11-14 Procede et dispositif de codage de filtres predicteurs de vocodeurs tres bas debit.

Publications (2)

Publication Number Publication Date
DE69017842D1 DE69017842D1 (de) 1995-04-20
DE69017842T2 true DE69017842T2 (de) 1995-08-17

Family

ID=9387367

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69017842T Expired - Lifetime DE69017842T2 (de) 1989-11-14 1990-11-09 Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.

Country Status (6)

Country Link
US (1) US5243685A (de)
EP (1) EP0428445B1 (de)
CA (1) CA2029768C (de)
DE (1) DE69017842T2 (de)
ES (1) ES2069044T3 (de)
FR (1) FR2654542B1 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2661541A1 (fr) * 1990-04-27 1991-10-31 Thomson Csf Procede et dispositif de codage bas debit de la parole.
FR2690551B1 (fr) * 1991-10-15 1994-06-03 Thomson Csf Procede de quantification d'un filtre predicteur pour vocodeur a tres faible debit.
FR2738383B1 (fr) * 1995-09-05 1997-10-03 Thomson Csf Procede de quantification vectorielle de vocodeurs bas debit
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
FR2778041A1 (fr) * 1998-04-24 1999-10-29 Thomson Csf Procede de neutrodynage du tube d'un emetteur
FR2788390B1 (fr) 1999-01-12 2003-05-30 Thomson Csf Emetteur de radiodiffusion en ondes courtes a haut rendement optimise pour les emissions de type numerique
FR2790343B1 (fr) 1999-02-26 2001-06-01 Thomson Csf Systeme pour l'estimation du gain complexe d'un canal de transmission
FR2799592B1 (fr) 1999-10-12 2003-09-26 Thomson Csf Procede de construction et de codage simple et systematique de codes ldpc
FR2815492B1 (fr) * 2000-10-13 2003-02-14 Thomson Csf Systeme et procede de radiodiffusion assurant une continuite de service
FR2826208B1 (fr) 2001-06-19 2003-12-05 Thales Sa Systeme et procede de transmission d'un signal audio ou phonie
FR2826492B1 (fr) * 2001-06-22 2003-09-26 Thales Sa Procede et systeme de pre et de post-traitement d'un signal audio pour la transmission sur un canal fortement perturbe
FR2832879B1 (fr) * 2001-11-23 2006-08-18 Thales Sa Procede et egalisation par segmentations des donnees
FR2832880B1 (fr) * 2001-11-23 2004-04-09 Thales Sa Procede et dispositif d'egalisation par blocs avec adaptation au canal de transmission
FR2832877B1 (fr) * 2001-11-23 2006-08-18 Thales Sa Procede et dispositif d'egalisation par blocs avec interpolation amelioree
JP6250073B2 (ja) * 2014-01-24 2017-12-20 日本電信電話株式会社 線形予測分析装置、方法、プログラム及び記録媒体
JP6250072B2 (ja) * 2014-01-24 2017-12-20 日本電信電話株式会社 線形予測分析装置、方法、プログラム及び記録媒体
US9972301B2 (en) * 2016-10-18 2018-05-15 Mastercard International Incorporated Systems and methods for correcting text-to-speech pronunciation

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797925A (en) * 1986-09-26 1989-01-10 Bell Communications Research, Inc. Method for coding speech at low bit rates
JPS63211987A (ja) * 1987-02-27 1988-09-05 Sony Corp 予測符号化装置
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
US4963034A (en) * 1989-06-01 1990-10-16 Simon Fraser University Low-delay vector backward predictive coding of speech

Also Published As

Publication number Publication date
DE69017842D1 (de) 1995-04-20
FR2654542A1 (fr) 1991-05-17
CA2029768A1 (fr) 1991-05-15
US5243685A (en) 1993-09-07
CA2029768C (fr) 2001-01-09
EP0428445B1 (de) 1995-03-15
EP0428445A1 (de) 1991-05-22
FR2654542B1 (fr) 1992-01-17
ES2069044T3 (es) 1995-05-01

Similar Documents

Publication Publication Date Title
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.
DE69309557T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69932460T2 (de) Sprachkodierer/dekodierer
DE69029232T2 (de) System und Methode zur Sprachkodierung
DE2524497C3 (de) Verfahren und Schaltungsanordnung zur Sprachsynthese
DE2659096C2 (de)
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE69032168T2 (de) Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE69009545T2 (de) Verfahren zur Sprachanalyse und -synthese.
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE19647298C2 (de) Kodiersystem
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE602005003358T2 (de) Audiokodierung
DE69121411T2 (de) Methode und gerät zur codierung von analogen signalen
DE69033510T3 (de) Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE3019823C2 (de)
DE2622423A1 (de) Vocodersystem
DE68917584T2 (de) Zur Sprachqualitätsverbesserung geeignetes Kodiergerät unter Anwendung einer Doppelanlage zur Pulserzeugung.
DE68923771T2 (de) Sprachübertragungssystem unter Anwendung von Mehrimpulsanregung.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)