DE2834751C2

DE2834751C2 -

Info

Publication number: DE2834751C2
Application number: DE2834751A
Authority: DE
Inventors: Panajis A. Athen Gr Delmousos
Original assignee: BUNDESREPUBLIK DEUTSCHLAND VERTRETEN DURCH DIE ZENTRALSTELLE fur DAS CHIFFRIERWESEN 5300 BONN DE
Current assignee: BUNDESREPUBLIK DEUTSCHLAND VERTRETEN DURCH DIE ZEN
Priority date: 1977-08-09
Filing date: 1978-08-08
Publication date: 1988-05-19
Also published as: GB2004443B; GR58359B; CH639218A5; GB2004443A; DE2834751A1

Description

Die Erfindung betrifft ein Verfahren zum Kodieren und Dekodieren von Sprachsignalen der im Oberbegriff des Anspruchs 1 angegebenen Art.

Eine Umsetzung des analogen elektrischen Äquivalentes der Stimme in digitale Form ist beispielsweise für Übersetzungen mit Computern notwendig. Wegen der hohen Bitrate von cirka 60 000 Bit/Sekunde, die eine einfache Abtastung und Umsetzung in digitale Form braucht, sind verschiedene Stimm- Kodierungsverfahren entstanden.

Diese Verfahren beruhen auf unterschiedlichen Prinzipien, wie beispielsweise auf einer Teilung des analogen elektrischen Äquivalents der Stimme, das nachfolgend als AEÄS abgekürzt wird, in mehrere Frequenzbänder, beispielsweise in 32 Frequenzbänder und einer Kodierung der Nummer jedes Bandes sowie der Umhüllenden. Zur Wiederherstellung des AEÄS wird nach dieser Kodierung die Intensität einer den Bändern entsprechenden Anzahl von Oszillatoren variiert.

Diese bekannten Sprachkodierverfahren ergeben eine Bitrate von weniger als 6000 Bit/Sekunde. Die praktische Ausführung dieser Verfahren ist jedoch ausgesprochen schwierig und kostspielig.

Es ist auch bekannt, beispielsweise auf dem Taschenbuch der Informatik, 3. Auflage, Band 3, Seiten 272 bis 280, Springer- Verlag Berlin, Heidelberg, New York, 1974, zur Spracherkennung die Eigenschaften der Konsonanten und Vokale auszunützen. Die Konsonanten und Vokalen entsprechenden Signalabschnitte der menschlichen Sprache werden als Phoneme bezeichnet. Es wurde festgestellt, daß zur Kennzeichnung der Phoneme, je nach Sprache, weniger als 12 binäre Merkmale ausreichen, die nach unterschiedlichen Verfahren aus dem Sprachsignal gewonnen werden können. Ein entsprechender Phonem-Erkenner setzt sich demnach aus mehreren Merkmalserkennern zusammen. Alternativ dazu kann die Phonemerkennung durch einen Vergleich mit einem Satz bekannter Signale aus einem Phonemvorrat erfolgen.

Diese bekannten Arten der Spracherkennung auf der Grundlage der Phonemerfassung sind sehr aufwendig, nicht zuletzt wegen des unvermeidlichen großen Bedarfs an Rechnerkapazität.

Ein eingangs genanntes Verfahren zum Kodieren und Dekodieren von Sprachsignalen ist aus der DE-PS 14 87 540 bekannt. Bei diesem bekannten Verfahren wird aus dem analogen elektrischen Äquivalent von Sprachsignalen ein Abschnitt ausgewählt, der als kernsegement einheitliche Merkmale für die Erkennung durch Bestimmung dessen Maxima- und Minimaverlaufs liefert, wobei die Differenzwerte zwischen den Maxima und Minima durch fortlaufende Division zu typischen Reihen zusammengefaßt werden.

Zur Dekodierung ist es vorgesehen, durch Wiederholungen des jeweils letzten Kernsegments bis zum nächsten Kernsegment die Lücken zwischen den Kernsegmenten wieder aufzufüllen, wobei die Wiederholungen der Größe der Kernsegmente als Hüllkurve folgen.

Nachteilig an diesem bekannten Verfahren ist es, daß die Qualität des dekodierten Sprachsignals im Vergleich zum originalen Sprachsignal stark zu wünschen übrig läßt.

Die Aufgabe der Erfindung besteht darin, ein eingangs genanntes Verfahren zum Kodieren und Dekodieren von Sprachsignalen zu schaffen, das eine bessere Wiedergabequalität des dekodierten Sprachsignals gewährleistet.

Diese Aufgabe wird mit den kennzeichnenden Merkmale des Anspruchs 1 gelöst. Vorteilhafte Ausgestaltungen des erfindungsgemäßen Verfahrens sind in den Unteransprüchen angegeben.

Die vorliegenden Erfindung macht sich zunutze, daß die Phoneme eine Signalform aufweisen, die aus ähnlichen, sich wiederholenden, Gruppen bildenden Signalunterabschnitten bestehen, welche sich von der Gesamtintensität jedes Unterabschnitts unterscheiden. Für einige Phoneme, wie beispielsweise ch und τ, weisen die Signalunterabschnitte Rauschform auf, sind also nicht wiederholbarer Natur. In diesem Fall wird das Phonem als Signalunterabschnitt mit vorbestimmter, konstanter Zeitlänge gefiniert. Während des Sprechens weist jedes Phonem gewöhnlich eine Dauer von 58 bis 200 ms auf, und jede Gruppe bzw. jeder Signalunterabschnitt eines Phonems bzw. Signalabschnitts kann kleiner als 4 ms sein. Wenn die Gruppe aus nur einer Signalperiode besteht, kann sie in Ausnahmefällen auch größer als 8 ms sein.

Die Gruppen bzw. Signalunterabschnitte sind für dieselbe Person und denselben Intensitätsbereich des Sprechens bis auf eine Variation ihrer Intensität unter sich ähnlich. Die Intensität der Signalunterabschnitte innerhalb desselben Phonems beginnt bei einem bestimmten Wert, erreicht gewöhnlich ihren maximalen Wert bei der zweiten oder dritten Wiederholung des Signalunterabschnitts und vermindert sich danach gegen Ende des Phonems, wo sie schließlich einen minimalen Wert einnimmt.

Die Bildung des Phonems aus ähnlichen Signalunterabschnitten ermöglicht es, ein Phonem aus dem AEÄS eines Signalunterabschnitts und Intensitätsdaten jedes Signalunterabschnitts, wie beispielsweise die maximale Intensität, das Integral der Intensität oder ein Teilintegral der Intensität zu bestimmen.

Es werden die Signalunterabschnitte der Phoneme abgetastet und die analogen Abtastwerte ebenso in digitale umgesetzt, wie die Intensität jedes Signalunterabschnitts. Zudem werden Daten bezüglich der Dauer jedes Signalsunterabschnitts oder die Anzahl der Signalunterabschnitte jedes Phonems sowie Phonemwechselzeichen bestimmt, die ein digitales Signal vorbestimmter Form sind, das die Daten jedes Phonems separiert. Während der Dekodierung werden innerhalb der Dauer eines Phonems die Abtastdaten des Unterabschnitts fortwährend wiederholt, und nach der Umwandlung in analoge Form wird die Intensität, entsprechend der Intensität, welche jeder Unterabschnitt bei der Kodierung hatte, ausgesteuert.

Das erfindungsgemäße Verfahren zeichnet sich durch seine Einfachheit aus, kann größenteils mit logischen Schaltkreisen realisiert werden und liefert ein dekodiertes Sprachsignal hoher Güte.

Die Bitzahl jeder Abtastung kann durch eine Intensitätsnormierung der Stimme, die im weiteren als Ausgleich bezeichnet wird, um ein oder zwei Stufen vermindert werden. Dabei wird im Falle von zwei Stufen vorteilhafterweise wie folgt vorgegangen:

a) Es wird eine teilweise Integration des AEÄS während einer Zeitdauer von mehreren Phonemen vorgenommen, was als Bildung der Langzeitintensität bezeichnet werden soll.
b) Durch einen Verstärker mit digital veränderbarer Verstärkung wird die Intensität des AEÄS mit/durch den digitalen Wert der Langzeitintensität der Stimme multipliziert oder dividiert, so daß ein AEÄS/LZ entsteht, wobei das Langzeitintegral während der Zeit mehrerer Phonemen einen konstanten Wert aufweist.
c) Das AEÄS/LZ, welches durch die Multiplikation oder Division mit der Langzeitintensität entstanden ist, wird während der Dauer eines Phonems integriert und das Resultat wird als Phonemintensität bezeichnet.
d) Durch einen zweiten Verstärker mit digital veränderbarer Verstärkung wird die Intensität des AEÄS/LZ mit/durch den digitalen Wert der Phonemintensität multipliziert oder dividiert, wodurch das AEÄS/Ph entsteht, wobei die Phonemintensität im Intervall eines Phonems einen konstanten Wert aufweist.

Im Fall einer einzigen Stufe werden die Schritte a) und b) ausgelassen und es wird direkt das AEÄS/Ph-Signal gebildet. Das dazu notwendige Integral über ein Phonem kann durch eine andere Intensitätsgröße ersetzt werden. Um dieselbe Resultatsform für eine einzige Stufe zu erhalten, muß die digitale Umsetzung des Integrationsresultats bei einer Stufe eine Bitzahl aufweisen, welche der im Fall von zwei Stufen erhaltenen Summe der Bitzahlen entspricht. Die Abtastung wird in beiden Fällen vom AEÄS/Ph-Signal vorgenommen.

Der Code jedes Phonems besteht aus:

a) Dem Phonemwechselzeichen, welches beispielsweise aus neun logischen Einsen und einer logischen Null oder aus neun logischen Nullen und einer logischen Eins besteht (8-10 Bit pro Phonem);
b) den digitalen Daten der Phonemintensität PhID (4 Bit pro Phonem) für eine Ausgleichsstufe oder den digitalen Daten der Langzeitintensität (2-3 Bit pro Phonem) sowie den digitalen Daten der Phonemintensität PhID (1-3 Bit pro Phonem) bei zwei Ausgleichsstufen;
c) den Daten der Anzahl von Abtastungen eines Signalunterabschnitts oder einer Signalunterabschnitts-Zahl des Phonems (6 Bit pro Phonem);
d) den digitalen Daten der Abtastwerte eines Signalunterabschnitts (4 Bit pro Abtastung oder 230 Bit pro Phonem für 8 ms-Gruppen), und
e) den Daten der Signalunterabschnittsintensität GID (2 Bit pro ein oder zwei Gruppen).

Die angegebenen Bitzahlen für oben genannte Daten des Kodes sind rein indikativ und können je nach der benötigten Qualität der Stimme sowie der maximalen zulässigkeit Frequenz geändert werden.

Die Daten des kodierten Phonems werden seriell im Speicher geordnet und mit einer bestimmten Verzögerung, beispielsweise 200-300 Bit gespeichert oder für die weitere Bearbeitung oder Übertragung weitergeleitet.

Für die Dekodierung der Stimme werden die Kodierdaten zunächst geordnet und dann in entsprechende Speicher oder Schieberegister eingetragen.

Die digitalen Daten der Abtastung des Signalunterabschnitts werden in fortlaufender Wiederholung während der Dauer des Phonems abgegeben. Durch einen Digital/Analog-Wandler, im weiteren mit DAC abgekürzt, werden diese Daten in das AEÄS/G des abgetasteten Signalunterabschnitts umgesetzt, welches nur innerhalb eines Signalunterabschnitts Änderungen aufweist.

Über einen Verstärker, dessen Verstärkung entsprechend den Daten der jeweiligen Signalunterabschnittsintensität digital gesteuert wird, wird das AEÄS/G dividiert oder multipliziert, so daß ein AEÄS/Ph entsteht, das nur innerhalb des Intervalls eines Phonems Änderungen aufweist. Dieses AEÄS/Ph wird zum Eingang eines zweiten Verstärkers geführt, dessen Verstärkung mit den digitalen Daten der Phonemintensität PhID dividiert oder multipliziert wird, und für den Fall einer einzigen Stufe das ursprüngliche AEÄS ergibt.

Für den Fall zweier Stufen liegt das AEÄS/LZ vor, welches über einen mit dem ersten und zweiten Verstärker ähnlichen dritten Verstärker durch Dividieren oder Multiplizieren das ursprüngliche AEÄS ergibt. Die Reihenfolge der umgekehrten Ausgleiche bzw. Modulationen der drei AEÄS spielt keine Rolle. So kann beispielsweise erst der zweite und dann der erste Verstärker verwendet werden.

Eine noch weitergehende Verminderung der Bitzahl pro Signalunterabschnitt, und damit auch der Bitzahl pro Phonem, läßt sich dadurch erreichen, daß das Frequenzband der Stimme in zwei Bereiche geteilt und jeder Bereich separat kodiert wird. Die Dekodierung geschieht dann ebenfalls separat für jeden Bereich, wobei die Zusammensetzung der beiden Bereiche zum AEÄS/Ph nach der Digital/Analogumsetzung und nach den Ausgleichen erfolgt. Die Kodierung der Stimme erfolgt in diesem Fall vorteilhafterweise wie folgt:

Das Frequenzband der Stimme wird durch zwei Filter in Bereiche I und II aufgeteilt, wobei der Bereich I die niedrigen Frequenzen unterhalb von 1/b f _max durchläßt, wobei b vorzugsweise zwischen 2 und 5 beträgt, und wobei der Bereich II die Frequenzen 1/b f _max bis f _max durchläßt. Der Bereich I wird wie oben beschrieben, kodiert, jedoch mit b-mal größeren Abtastintervallen. Im Bereich II wird nach dem oben angegebenen Ausgleich der Signalunterabschnitt, der im Bereich I abgetastet wurde, in Zeitintervalle von etwa 2 ms geteilt, das erste Zeitintervall wird mit einer Abtastzeit von etwas weniger als 1/(2 f _max) abgetastet, und die Abtastwerte werden sodann digitalisiert. Durch ein System teilweiser Integration der übrigen Teile dieses Signalunterabschnitts sowie nach einer Umsetzung des Integrationswertes in digitale Form werden die digitalen Daten der übrigen Zeitintervalle dieses Unterabschnitts erhalten.

Im Falle der beiden Frequenzbereiche I und II besteht der Kode eines Phonems aus:

a) Dem Phonemwechselzeichen (8-10 Bit);
b) der Signalunterabschnittslänge, d. h. den Daten der Anzahl von Abtastungen des Signalunterabschnitts im Bereich I oder der Anzahl der Signalunterabschnitte des Phonems (6 Bit);
c) den Daten der Phonemintensität für jeden Bereich (4 Bit);
d) den digitalen Daten der Abtastung eines Teils des Signalunterabschnitts innerhalb einer bestimmten Zeit (z. B. 2 ms) für den Bereich II, wobei die Zahl der Abtastungen immer einen festen Wert einnimmt, beispielsweise 12 bis 16 Bit;
e) den Daten des Teilintegrals der Intensität der übrigen Teile des abgetasteten Unterabschnitts, wobei die Zahl dieser Teile immer auf einen konstanten Wert, beispielsweise 4 festgelegt ist und für kleinere Signalunterabschnitte die nicht existierenden Teile als mit der Intensität Null existierend werden;
f) den digitalen Daten der Abtastung eines Signalunterabschnitts, beispielsweise des vierten im Bereich I (4 Bit pro Abtastung bzw. etwa 58 Bit für eine Unterabschnittslänge von 8 ms), und
g) den Daten der Intensität der Signalunterabschnitte des Bereichs I und II (2 Bit für jeden Bereich pro Signalunterabschnitt bzw. pro zwei Signalunterabschnitten).

Die Daten a) bis e) weisen immer konstante Bitzahlen auf. Die zur Erzeugung des AEÄS/Ph-Signals erforderlichen Ausgleiche können auch vor der Aufteilung des Frequenzbands in zwei Bereiche erfolgen, wobei nach der Zusammensetzung der umgekehrte Ausgleich bzw. die umgekehrte Modulation erfolgen muß,

Die Daten der Kodierung werden wie folgt im Speicher geordnet:

An erster Stelle steht das Phonemwechselzeichen und nachfolgend alle die Daten, welche feste Bitzahlen aufweisen, nämlich von b) bis e), und zwar immer nach derselben Reihenfolge, wobei die Anordnung innerhalb der Reihenfolge an sich keine Rolle spielt. Es schließen sich die Abtastdaten des Bereichs I an, beispielsweise des vierten Signalunterabschnitts und am Schluß die Daten der Signalunterabschnittsintensitäten. Die Daten werden mit einer minimalen Verzögerung m zwischen 100 und 300 Bit abgegeben.

Die Dekodierung der Stimme für den Bereich I erfolgt wie oben beschrieben. Bei der Ordnung dieser Daten werden jedoch diejenigen des Bereichs I von denen des Bereichs II entsprechend der Reihenfolge abgetrennt, nach der diese bei der Kodierung geordnet worden sind. Außerdem werden bei der Signalunterabschnittsintensität die zwei ersten Bit für den einen Frequenzbereich und die zwei zweiten Bit für den anderen Frequenzbereich vorgesehen. Für den Bereich II werden die Abtastdaten des ersten Teils des Signalunterabschnitts so lange in dauernder Wiederholung abgegeben, wie das Phonem andauert und dann über einen Digital-Analog-Umsetzer (DAC) in analoge Form umgesetzt.

Dann schließt sich der umgekehrte Ausgleich durch einen Verstärker mit steuerbarer Verstärkung wie oben angegeben entsprechend den Daten der übrigen Teile des Signalunterabschnitts an. Dieser umgekehrte Ausgleich wird für jeden Signalunterabschnitt mit Hilfe der vom Bereich I gegebenen Angaben über die Signalunterabschnittslänge wiederholt. Das Resultat dieses Ausgleiches, das AEÄS/GII wird über einen zweiten Verstärker zum Signal AEÄS/PhII gemäß den beiden übrigen Bit der Signalunterabschnittsintensität wie im Bereich I ausgeglichen bzw. moduliert. Durch einen dritten Verstärker wird das AEÄS/PhII-Signal zum ursprünglichen AEÄS des Bereichs II ausgeglichen bzw. moduliert. Letztendlich wird das ursprüngliche AEÄS-Signal durch ein Zusammensetzen der AEÄS- Signale der beiden Bereiche I und II gebildet. Die Bitzahl pro Phonem beträgt etwa die Hälfte der benötigten Bit gegenüber der Kodierung in einem einzigen Frezquenzbereich.

Nachfolgend soll die Erfindung anhand der Zeichnung näher erläutert werden; in dieser zeigt

Fig. 1 ein Blockdiagramm einer Sprachkodierungsvorrichtung, die in Übereinstimmung mit dem erfindungsgemäßen Verfahren betrieben wird, und

Fig. 2 ein Blockdiagramm einer Vorrichtung zur Sprachdekodierung, die in Übereinstimmung mit dem erfindungsgemäßen Verfahren betrieben wird.

Die Kodierungsvorrichtung von Fig. 1 arbeitet nach dem erfindungsgemäßen Verfahren auf der Grundlage eines einzigen Frequenzbereichs und einer einzigen Ausgleichsstufe.

Mit einem Integrator In 1 wird eine Teilintegration über die ersten (m-1) Signalunterabschnitte des AEÄS-Signals durchgeführt. Das Resultat der Integration wird mittels eines Analog/Digital-Wandlers ADC 2 digitalisiert und für die Dauer eines Phonems in einem nachgeschalteten Flip-Flop 4 FF 1 für die Dauer eines Phonems gespeichert. Mit diesem Wert der Phonemintensität bzw. der Signalabschnittsintensität wird die Verstärkung eines Verstärkers V 1 gesteuert, an dessen Eingang das AEÄS anliegt. Durch die Variation der Verstärkung wird am Ausgang des Verstärkers V 1 das AEÄS/Ph-Signal erzeugt, dessen Normierungsgröße das Resultat der Integration durch den Integrator IN 1während der Dauer eines Phonems ist und einen konstanten Wert bildet.

Ein Tiefpaßfilter F 1 am Ausgang des Verstärkers V 1 läßt diejenigen Frequenzen nicht durch, die größer sind als die in der Kodierung enthaltene maximale Frequenz f _max. Ein AD- Wandler ADC 1 wandelt das AEÄS/Ph-Signal am Ausgang des Tiefpaßfilters F 1 in digitale Form um. In Abtastintervallen entsprechend den Zeitintervallen T _D werden die momentanen Werte an den Ausgängen Q 1 . . . Q 4 des AD-Wandlers ADC 1 einem Schieberegister SR 1 über dessen Eingänge 1 . . . 4 zugeführt und in ihm gespeichert. Dabei ist die Zeit T _D etwas kleiner als 1/(2·f _max). Ein Integrator In 2 führt eine Integration des AEÄS/Ph-Signals über einen oder über zwei Signalunterabschnitte durch, und das Resultat wird durch einen weiteren AD-Wandler ADC 3 mit parallelen Ausgängen Q 1 und Q 2 in digitale Form umgesetzt und für je einen oder zwei Signalunterabschnitte im Schieberegister SR 2 über dessen Paralleleingänge 1 und 2 für die entsprechende Zeit gespeichert (Unterabschnittsintensitätsdaten GID).

Eine Schaltung GW für die Anzeige des Signalunterabschnittswechsels erzeugt am Anfang jedes Signalunterabschnitts einen Impuls G-I. Wenn keine Signalunterabschnitte detektierbar sind, erzeugt diese Schaltung GW einen Impuls in bestimmten Zeitintervallen, beispielsweise zwischen 8 und 9 ms. Falls die sich wiederholenden Signalunterabschnitte kleiner als 4 ms sind, erzeugt die Schaltung GW einen Impuls für jeden zweiten Signalunterabschnitt. Der Signalunterabschnittswechsel wird durch einen Ladestromimpuls an einem Kondenstor erkannt, wenn dieser über eine Diode vom AEÄS/Ph-Signal geladen wird. Dieser Kondensator wird während der Dauer jedes Signalunterabschnitts mittels Widerstandes um einen kleinen Betrag entladen. Der Impuls G-I fällt immer mit dem Anfang einer Periode T _E des Ausgangssystems zusammen. Der Signalunterabschnittswechsel wird noch um ein Vielfaches schärfer erkennbar, wenn er vom AEÄS über einen Verstärker detektiert wird, dessen Verstärkung analog mit der Eingangsspannung variiert wird oder über einen Exponentialverstärker. In diesem Fall ist es zweckmäßig, anstelle des Integrals für den Ausgleich des AEÄS dessen Maximalwert zu benutzten.

Eine Phonemwechselschaltung PhW gibt in Verbindung mit der Schaltung GW und einer Zentraleinheit CU 1 bei jedem Phonemwechsel einem Phonemwechselimpuls ab. Die Funktion dieser Schaltung basiert auf der Korrelation zwischen zwei aufeinanderfolgenden Signalunterabschnitten. Die Abtastdaten jedes Signalunterabschnitts vom Schieberregister SR 1 erscheinen an dessen Ausgängen Q 1 . . . Q 4 und werden an Eingängen DI in den Speicher der Schaltung PhW geladen, bis die Korrelation mit den Abtastdaten des darauffolgenden Signalunterabschnitts stattgefunden hat.

Für die Korrelation wird der analoge Wert jeder Abtastung eines Signalunterabschnitts mit dem digitalen Wert der entspechenden Abtastung des vorausgehenden Signalunterabschnitts multipliziert, die um dieselbe Zeitdauer von seinem Anfang entfernt war. Diese Multiplikation wird von einem digital steuerbaren Verstärker ausgeführt, dessen Verstärkung durch die Daten im Speicher der Schaltung PhW geändert wird. Danach werden diese Produktresultate addiert und das Summenresultat durch die Produktanzahl dividiert, was einen Maximalwert ergibt, solange sich die Signalunterabschnitte ähneln. Eine plötzliche Verminderung des Summenwertes zeigt einen Phonemwechsel an, woraufhin der Phonemwechselimpuls Ph-I erzeugt wird. Der Ph-I-Impuls wird somit am Ende des ersten Signalunterabschnitts eines Phonems erzeugt, wenn die Korrelation zwischen dem Phonem und dem letzten Signalunterabschnitt des vorausgehenden Phonems zu Ende ist. Der Phonemwechselimpuls Ph-I wird immer zusammen mit einem Unterabschnittwechselimpuls G-I erzeugt.

Die Abtastdaten des n-ten Siganlunterabschnitts (z. B. n = 4) werden vom Serienausgang Q 1 des Schieberregisters SR 1 in einen Speicher M 1 (z. B. 256 Bit) über seinen Dateneingang DI eingetragen, und die Anzahl der Abtastungen an diesem Unterabschnitt wird in der Zentraleinheit CU 1 festgehalten und während des Wechsels des Unterabschnitts zu n+1 an den ersten Paralleleingängen DI eines Schieberregisters SR 3 eingetragen. Die nächsten Eingänge DI des Schieberegisters SR 3 sind mit den parallelen Ausgängen Q 1 . . . Q 4 der Speicherschaltung 4 FF 1 verbunden, um die Phonemintensität einzutragen. Der folgende Eingang ist mit -V _SS der Stromversorgung und die übrigen Eingänge mit +V _DD der Stromversorgung verbunden, um die acht bis zehn Bit für das Phonemwechselzeichen einzutragen. Falls die Vorschub-Taktimpulse T₁ des Schieberegisters SR 3 verzögert beginnen, kann die Anzahl seiner Eingänge, welche auf logisch Eins für das Phonemwechselzeichen gesetzt sind, entsprechend vermindert werden.

Alle Daten, die im Schieberegister SR 3 sowie im Speicher M 1 eingetragen sind, und diejenigen, welche nach dem Signalunterabschnitt n im Schieberegister SR 2 eingetragen werden, werden mit Beginn des n+1-ten Unterabschnitts und bis zum Phonemende über einen elektronischen Schalter ES in den Speicher M 2 (z. B. 512 Bit) geschrieben. Die Daten der folgenden Phoneme werden aufeinanderfolgend im Speicher M 2 eingetragen, bis dieser vollgeschrieben ist, wonach die übrigen Eintragungen im Zyklus von Beginn an durch Löschen der vorausgehenden Daten eingetragen werden. Der elektronische Schalter ES verbindet vom n+1-ten Signalunterabschnitt ab den Dateneingang DI des Speichers M 2 erst mit dem Ausgang D 0 des Schieberegisters SR 3, darauffolgend mit dem Datenausgang D 0 des Speichers M 1 und schließlich mit dem Datenausgang D 0 des Schieberegisters SR 2, um nacheinander das Phonemwechselzeichen, die Daten der Phonemintensität, die Anzahl der Abtastungen, welche eine feste Bit-Zahl hat, dann die Abtastdaten des Signalunterabschnitts n und schließlich die Unterabschnittsintensitäten einzutragen.

Die gesamte Steuerung des Eintragens der Daten für Phonemwechsel, Phonemintensität, Zahl der Abtastungen, Abtastdaten und Signalunterabschnittsintensitätsdaten in die Speicher 4 FF 1, die Schieberegister SR 1, SR 2 und SR 3 und nachfolgend in den Speicher M 2, sowie die verschiedenen Taktimpulse C 1 und die programmierten Impulse T _i für die Ein- und Ausgabe der Daten an den verschiedenen Schaltkreisen sowie das Zählen der Unterabschnitte wird von der Zentraleinheit CU 1 ausgeführt. Diese gibt ebenfalls die Adresse für das Scheiben und Lesen von bzw. aus den Speichern M 1 und M 2 an. Die Zentraleinheit CU 1 weist eine Zähleinrichtung auf, welche die Differenz zwischen den Leseadressen und den Schreibadressen steuert.

Die Zentraleinheit CU 1 kann einen Mikroprozessor umfasssen oder aus integrierten Schaltkreisen eines Oszillators, Zählern, eines voreinstellbaren Vor- und Rückwärtszählers und Gattern bestehen, welche auf bekannte Art und Weise die notwendigen Befehle erzeugen. Die Impulse G-I und Ph-I bilden für die Zentralenheit CU 1 die Signalunterabschnittwechsel- und die Phonemwechsel-Information.

Der Speicher M 2 wird mit der Frequenz f _E gelesen, welche der Datenausgangsfrequenz entspricht. Das Lesen findet immer zwischen zwei Schreiboperationen statt, so daß niemals der Schreib- und der Lesebefehl gleichzeitig ausgeführt werden. Das Lesen findet mit einer Verzögerung von mehr als m bit vom Schreiben statt (z. B. m= 256 Bit). Die Zentraleinheit CU 1 gibt während der Lesezeit die Leseadressen und während der übrigen Zeit die Schreibadressen an den Speicher M 2 ab.

Die Ausgangssteuerung AR umfaßt ein Flip-Flop, ein Schieberegister und ein 8 Eingangs-NAND-Gatter und gibt seriell am Datenausgang SD 0 des Systems die Daten des Speichers M 2 ab. Wenn ein von sieben aufeinanderfolgenden logischen Einsen bestimmter Phonemwechsel auftritt, gibt die Ausgangssteuerung AR an die Zentraleinheit ein logische-Eins-Signal ab. Falls die Differenz der Leseadressen von den Schreibadressen kleiner wird als m, stoppt dieses logische-Eins-Signal der Ausgangssteuerung AR über die Zentraleinheit CU 1 das Lesen des Speichers M 2, bis die Differenz wieder größer als m wird, während die Ausgangssteuerung AR bis zum Wiederbeginn des Lesens dauernd eine logische Eins abgibt.

Wenn die Zentraleinheit CU 1 einen Mikroprozessor mit einer Wortlänge von a Bit umfaßt, die AD-Wandler ADC 1 und ADC 2 a- Bit-Wandler sind, und der AD-Wandler ACD 3 ein a/2-Bit- Wandler ist, können die Speicher M 1 und M 2 mit a parallelen Ein- und Ausgängen organisiert sein. In diesem Fall weist die Ausgangssteuerung AR anstelle des Flip-Flops ein zusätzliches Schieberegister mit a parallelen Eingängen und einem Serienausgang für die Serienausgabe der Daten des Systems auf.

Fig. 2 zeigt ein Blockdiagramm einer nach dem erfindungsgemäßen Verfahren arbeitenden Dekodiervorrichtung.

Die Daten der kodierten Sprache werden zuerst in ein Schieberegister SR 4 geführt, welches das Phonemwechselzeichen detektiert. Wenn mehr als sieben aufeinanderfolgende logische Einsen detektiert werden und darauf die erste logische Null auftritt, wird dies als Beginn eines neuen Phonems bzw. eines neuen Signalabschnitts interpretiert. Die Abschnittsintensitätsdaten und die Signalunterabschnittslängen-Daten, welche auf die logische Null folgen, werden in ein Schieberegister SR 5 eingetragen. Darauf werden die Abtastdaten, deren Anzahl durch die Signalunterabschnittslängen-Daten in das Schieberegister SR 5 eingegeben ist, abwechselnd für jedes Phonem bzw. für jeden Signalabschnitt in die Speicher M 3 und M 4 geschrieben. Nach Beendigung des Einschreibens der Anzahl von Abtastungen werden die Signalunterabschnittsintensitäts- Daten abwechselnd in zwei Speicher M 5 und M 6 eingetragen, bis das Phonemwechselzeichen erscheint. Durch das Eintragen über ein Schieberegister SR 6 entsteht eine Verzögerung von sieben Bit, welche das Eintragen der ersten sieben logischen Einsen des Phonemwechselzeichens verhindert.

Die Speicher M 3, M 4, M 5 und M 6 können separate Speicher sein. Alternativ dazu kann ein einziger Speicher für M 3 und M 4 sowie ein einziger Speicher für M 5 und M 6 vorgesehen sein, wobei M 3, M 4 bzw. M 5 und M 6 Teile eines Speichers mit bestimmten Adressen sind.

Nach dem Eintragen der Abtastdaten werden die Signalabschnitts- bzw. Phonemintensitätsdaten in eine Datenspeicherschaltung, beispielsweise ein mehrfaches Flip-Flop 4 FF 2 umgeschrieben, und die Daten der Anzahl von Abtastungen werden in einer Datenspeicherschaltung gespeichert oder an einem voreinstellbaren Vor- und Rückwärtszähler innerhalb der Zentraleinheit eingestellt und bis zum Einschreiben der Daten des nächsten Signalabschnitts bzw. Phonems beibehalten. Wenn die Abtastdaten in die Speicher M 3 bzw. M 4 eingetragen sind, beginnt das Lesen in aufeinanderfolgenden Zyklen. Die im Schieberegister SR 5 gespeicherte Anzahl von Abtastungen gibt der Zentraleinheit CU 2 die Daten für die Länge der Wiederholung des gesamten Zyklus. Der Ausgang des Speichers M 3 oder M 4 gibt, parallel, über das Schieberegisiter SR 7 die digitalen Daten jeder Abtastung an eine Datenspeicherschaltung 4 FF 3 weiter. Ein DA-Wandler DAC 1 setzt die digitalen Daten der Abtastungen in analoge Signale um, und für jeden Abtastzyklus wird das so entstandene AEÄS/G-Signal des Signalunterabschnitts n wiederholt.

Nach einem Tiefpaßfilter F 2 wird das analoge Signal AEÄS/G zum Eingang eines Verstärkers V 2 geführt, dessen Verstärkung durch die Daten der Signalunterabschnittsintensitäten, welche in den Speichern M 5 oder M 6 eingetragen sind, digital verändert wird. Ein Schieberegister SR 8 gibt die Daten der jeweiligen Signalunterabschnittsintensität parallel an einen Schaltkreis 2 FF 1 weiter, welcher diese während der Dauer einer oder zweier Signalunterabschnitte behält. Am Ausgang des Vestärkers V 2 erscheint das AEÄS/Ph-Signal, welches über einen zweiten Verstärker V 3 geführt wird, dessen Verstärkung digital durch die Phonem- bzw. Signalabschnittsintensitätsdaten verändert wird, wodurch das ursprüngliche AEÄS-Signal wiedergewonnen wird.

Ein zweites Tiefpaßfilter F 3 dämpft die höheren Frequenzen, die wegen der schnellen Änderungen an den Verstärkern 2 und 3 entstehen können. Wenn die Speicher M 3, M 4, M 5 und M 6 mit Parallelausgängen versehen sind, können die Schieberegister SR 7 und SR 8 entfallen.

Die gesamte Steuerung für das Eintragen der Abschnittsintensitätsdaten, der Anzahl von Abtastungen, der abwechselnden Einträge in die Speicher M 3 bzw. M 4 und M 5 bzw. M 6 sowie die verschiedenen Taktimpulse C 1 und die programmierten Impulse T _i für die Ein- und Ausgabe der Daten an den verschiedenen Schaltkreisen, wird von der Zentraleinheit CU 2 ausgeführt. Die Zentraleinheit CU 2 gibt die Adressen 0 . . . 7 und 0 . . . 6 an die Speicher M 3 und M 4 bzw. M 5 und M 6. Weiterhin kann die Zentraleinheit CU 2 einen Mikroprozessor umfassen oder aus integrierten Schaltkreisen von Zählern, Schieberegistern, Flip-Flops und Gattern bestehen, welche auf bekannte Art und Weise die notwendigen Befehle liefern. Der Oszillator, der die Taktimpulse gibt, wird in bekannter Weise mit der Frequenz des Eingangssignals synchronisiert.

Claims

1. Verfahren zum Kodieren und Dekodieren von Sprachsignalen, bei dem das analoge elektrische Aquivalent durch einen Wandler für die Kodierung erzeugt und dieses Signal in Abschnitte mit charakteristischem Amplitudenverlauf zerlegt wird, und bei dem es für die Dekodierung vorgesehen ist, einen ausgewählten Signalunterabschnitt mehrfach zu wiederholen, dadurch gekennzeichnet, daß zur Kodierung

a) das analoge elektrische Sprachsignal (AEÄS) in Phonemen entsprechende zeitliche Signalabschnitte unterteilt wird,
b) sich darin wiederholende, Gruppen bildende Signalunterabschnitte ähnlicher Form, aus welchen die Phonemen- Signalabschnitte zusammengesetzt sind, detektiert werden.
c) Signalunterabschnitte vorbestimmter Zeitlänge definiert werden, falls keine sich darin wiederholenden Signalunterabschnitte detektierbar sind,
d) die Zeitdauer der Signalunterabschnitte für jeden Signalabschnitt gemessen, digitalisiert und abgespeichert wird,
e) signalunterabschnitt-spezifische Intensitätswerte gemessen, digitalisiert und abgespeichert werden,
f) ein signalabschnitt-spezifischer Intensitätswert gemessen, digitalisiert und abgespeichert wird,
g) mindestens ein Signalunterabschnitt pro Signalabschnitt nach einem vorbestimmten Auswahlkriterium ausgewählt, die Intensität des hierin enthaltenen Signals mit der signalabschnitt-spezifischen Intensität normiert, das so normierte Signal mit vorbestimmter Rate abgetastet wird und die Abtastwerte digitalisiert und abgespeichert werden, und
h) zwischen jeweils zwei Signalabschnitts-Grenzsignalen der digitalisierten Zeitdauerwert der Signalabschnitte, die digitalisierten signalunterabschnitt-spezifischen Intensitätswerte, die digitalisierten signalabschnitt- spezifischen Intensitätsewerte und die mit der signalabschnitt spezifischen Intensität normierten, digitalisierten Abtastwerte des Signals mindestens eines ausgewählten Signalunterabschnitts für jeden Signalabschnitt in vorbestimmter Reihenfolge zusammengestellt werden,

und daß zur Dekodierung

i) innerhalb der Dauer eines Phonems die Abtastdaten des abgetasteten Unterabschnitts fortwährend wiederholt und nach der Umsetzung in analoge Form die Intensität entsprechend der Intensität, welche jeder Unterabschnitt bei der Kodierung hatte, ausgesteuert wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die einzelnen Signalabschnitte identifiziert und ein Signalabschnitts- Grenzanzeigesignal dadurch als Impuls erzeugt wird, daß die Intensität jedes Signalunterabschnitts mit dem signalabschnitt-spezifischen Intensitätswert normiert, die normierte Intensität mit einer vorbestimmten Abtastrate abgetastet und gespeichert wird, die digitalen Abtastwerte jeweils eines Signalunterabschnitts mit den zeitentsprechenden analogen Abtastwerten des nächstfolgenden Signalunterabschnitts multipliziert, die resultierenden Produktwerte jedes Signalunterabschnitts addiert, aufeinanderfolgende Paare der Summenwerte verglichen werden und das Signalabschnitts- Grenzanzeigesignal erzeugt wird, wenn der Vergleich eine vorausbestimmte Ungleichheit erfüllt.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß einzelne Signalunterabschnitte identifiziert werden, indem an einer spitzenwert-anzeigenden Dioden-Kondensator- Schaltung jeder Kondensatorladestromimpuls erfaßt, das Zeitintervall zwischen aufeinanderfolgenden Ladestromimpulsen gemessen und ein Signalunterabschnitts-Grenzanzeige-Signal bei Auftreten eines Ladestromimpulses als Impuls dann erzeugt wird, wenn das Zeitintervall zwischen einem ersten und einem zweiten vorausbestimmten Grenzwert liegt, wobei andernfalls das Signalunterabschnitts- Grenzanzeigesignal entweder in einer vorbestimmten Zeitabfolge erzeugt wird, wenn das Zeitintervall den zweiten vorbestimmten Grenzwert überschreitet, oder es wird beim Auftreten jedes zweiten Ladestromimpulses erzeugt, wenn das Zeitintervall kleiner als der erste Wert ist.

4. Verfahren nach einem der Ansprüche 2 oder 3, dadurch gekennzeichnet, daß das Zusammenstellen der digitalisierten Werte mittels einer Zentraleinheit gesteuert wird, die durch die Signalabschnitts-Grenzanzeigesignale sowie die Signalunterabschnitts- Grenzanzeigesignale zeitgesteuert werden.

5. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß für jeden Signalabschnitt die digitalisierten Abstastwerte des ausgewählten Signalunterabschnitts seriell oder parallel in einen ersten Speicher geladen, die Signale für die Signalabschnittsgrenze, die Zeitdauer und das digitalisierte signalabschnitt- spezifische Intensitätssignal in ein Schieberegister eingetragen, und diese vom Schieberegister in einen zweiten Speicher geschrieben werden, woraufhin die Abtastwerte vom ersten Speicher und dann die digitalisierten unterabschnitt- spezifischen Intensitätswerte mit einer vorbestimmten Verzögerung in den zweiten Speicher geschrieben werden.

6. Verfahren nach Anspruch 5, dadurch gekennzeichent, daß die Signalabschnittsdaten in den zweiten Speicher seriell eingeschrieben werden, wobei - wenn der Speicher vollgeschrieben ist - mit den nächsten Daten - beginnend mit den ersten Einschreibadressen - die vorherigen Daten zyklisch überschrieben werden, während an den Ausgängen des zweiten Speichers das Lesen der Ausgangsdaten mit der Datenausgangsfreguenz erfolgt, und zwar jeweils zwischen zwei Einschreiboperationen und mit einer Verzögerung gegenüber dem Einschreiben, dergestalt, daß das Lesen unterbrochen wird, wenn das Phonemwechselzeichen erscheint und eine bestimmte Anzahl von Bits noch nicht erreicht ist, und am Ausgang solange dauernd das Signal "Logische 0" oder "Logische 1" angeboten wird, bis die Verzögerung die bestimmte Anzahl von Bits erreicht, wonach das Lesen fortgesetzt wird.

7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Dekodierung

a) Signalabschnitts-Grenzsignale detektiert und zusammen mit den signalabschnitt-spezifischen digitalisierten Intensitätswerten, den Zeitdauerdaten, den Abtastwerten und den unterabschnitt-spezifischen digitalisierten Intensitätswerten abgespeichert werden,
b) die Abtastwerte in geordnetem Zyklus wiederholt und in analoge Form umgewandelt werden, um sich wiederholende Unterabschnittsignale normierter Intensität in Übereinstimmung mit den Zeitdauerdaten zu erzeugen,
c) die analogen Unterabschnittsignale mit den unterabschnitt- spezifischen Intensitätswerten moduliert werden, um Signalabschnitte normierter Intensität zu erzeugen, und
d) die Signalabschnitte mit den signalabschnitt- spezifischen Intensitätswerten moduliert werden, um das Sprachsignal zu regenerieren.

8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das analoge elektrische Sprachsignal in zwei Frequenzbereiche (I,II) von Null bis f _n und f _n bis f _max, mit f _max/f _n = 2 bis 5 unterteilt und die Kodierung jedes Frequenzbereichs (I, II) vorgenommen wird, wobei der abzutastende Unterabschnitt im höherfrequenten Bereich (II) in mehrere Zeitsegmente unterteilt, die Abtastung nur am ersten Segment mit vorgegebener Abtastfrequenz vorgenommen wird, und für die übrigen Zeitsegmente segment-spezifische Intensitätswerte bestimmt und die Daten des einen Frequenzbereichs (II) auf der Grundlage einer vorbestimmten konstanten Bitzahl mit denjenigen der Kodierung des anderen Frequenzbereichs (I) kombiniert.

9. Verfahren nach Anspruch 7 und 8, dadurch gekennzeichnet, daß zur Dekodierung

a) die eine konstante Bitzahl einnehmenden kodierten Daten des einen Frequenzbereichs (II, f _n bis f _max), mittels eines Schieberegisters von den Daten des anderen Frequenzbereichs (I, f _o bis f _m) getrennt werden,
b) die Daten der beiden Frequenzbereiche (I, II) getrennt abgespeichert und diejenigen des anderen Frequenzbereichs (I, f _o bis f _n) dekodiert werden,
c) die Abtastdaten des ersten Zeitsegments während der Dauer eines Signalabschnitts zyklisch wiederholt und in analoge Form umgewandelt werden, so daß sich wiederholende Zeitsegmentsignale normierter Intensität entstehen,
d) diese analoge Zeitsegmentsignale mit den Intensitätsdaten der übrigen Zeitsegmente moduliert werden, womit normierte Unterabschnittssignale entstehen, die daraufhin mit den unterabschnitt-spezifischen Intensitätswerten moduliert werden, womit normierte Signalabschnitte im einen Frequenzbereich (II) entstehen, die daraufhin mit den signalabschnitt-spezifischen Intensitätswerten moduliert werden, womit der Signalabschnitt im einen Frequenzbereich (II) gewonnen wird, und
e) die Signalabschnitte der beiden Frequenzbereiche (I, II) zur Gewinnung des regenerierten Sprachsignals zusammengesetzt werden.