DE3416238C2

DE3416238C2 - Extremschmalband-Übertragungssystem und Verfahren für eine Übertragung von Nachrichten

Info

Publication number: DE3416238C2
Application number: DE3416238A
Authority: DE
Inventors: Bruce A Fette
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1983-05-02
Filing date: 1984-05-02
Publication date: 1995-09-14
Anticipated expiration: 2004-05-03
Also published as: JPS59225635A; DE3416238A1; US4707858A

Description

Die vorliegende Erfindung betrifft ein Extremschmalband- Übertragungssystem gemäß dem Oberbegriff des Patentanspruchs 1 sowie ein Verfahren für eine extrem schmalbandige Übertra gung von Nachrichten gemäß dem Oberbegriff des Patentanspruchs 12.

Ein derartiges System sowie ein derartiges Verfahren ist in der Druckschrift DE-A-23 47 738 beschrieben.

In Übertragungssystemen ist es äußerst wünschenswert, Nachrichten mittels Sprache auszutauschen. Andererseits ist es erwünscht, digitale Schaltungen zu verwenden, da ein Großteil dieser Schaltungen auf einem einzigen inte grierten Schaltungschip untergebracht werden können, was den erforderlichen Raum- und Energiebedarf wesentlich verringert. Digitale Darstellungen der menschlichen Spra che erfordern jedoch im allgemeinen eine verhältnismäßig große Bandbreite, so daß sie für viele Arten von Übertra gungsmedien, etwa Telefonleitungen oder dergleichen, nicht geeignet sind. Die Bit-Übertragungsgeschwindigkeit (Band breite) von Nachrichten soll deshalb so niedrig wie mög lich sein. Unter "Schmalband" wird üblicherweise eine Bit-Übertragungsgeschwindigkeit von etwa 2000 Bits pro Sekunde verstanden. Bekannte Vorrichtungen arbeiten über 300 Bits pro Sekunde und alles, was darunter liegt, soll als "Extremschmalband" bezeichnet werden.

Aus DE-A-23 47 738 ist ein Spracherkennungsverfahren sowie eine entsprechende Vorrichtung bekannt, bei denen von einer Vorver arbeitungsschaltung zunächst Übungsworte empfangen werden, von dieser durch Filterung in einzelne Spektralkomponentensignale zerlegt werden und an eine Merkmalsanalysiereinrichtung weitergegeben werden. Die Merkmalsanalysiereinrichtung stellt einer Verarbeitungseinrichtung eine Reihe von, die eingegebenen Übungswörter charakterisierenden, Merkmalssignale zur Verfügung, aus denen die Verarbeitungseinrichtung entsprechende Merkmalsmatrizen erstellt und abspeichert. Wird in einem nachfolgenden Schritt ein Befehlswort eingegeben, so wird von diesem Befehlswort in gleicher Weise eine Merkmalsmatrix erstellt, und ebenfalls in der Verarbeitungseinrichtung abgespeichert. Durch Vergleich der Merkmalsmatrix des Befehlsworts mit allen abgespeicherten Übungswortmatrizen kann anhand von Korrelationsberechnungen dasjenige Übungswort aufgefunden werden, das mit größter Wahrscheinlichkeit dem eingegebenen Befehlswort entspricht. Auf diese Weise wird ein Signal bereitgestellt, das angibt, welcher Befehl von einem Sprecher eingegeben wurde.

Der Erfindung liegt die Aufgabe zugrunde, ein Übertragungssy stem sowie ein Verfahren zur Übertragung von Nachrichten anzu geben, bei denen die zu übertragende Information mit sehr ge ringer Bandbreite übertragen werden kann.

Diese Aufgabe wird durch die Gegenstände der Patentansprüche 1 und 12 gelöst.

Die vorliegende Erfindung betrifft ein Extremschmalband-Übertragungssystem, bei dem durch Analyse nicht nur festgestellt wird, welches Wort (bzw. welcher Befehl) gesprochen wurde, sondern zusätzlich festgestellt wird, von welchem Sprecher dieses Wort abgegeben wurde. Nachdem somit sowohl die Bedeutung als auch die Herkunft des Wortes feststeht, kann die Übertragung des Wortes durch eine lediglich die Bedeutung des Wortes repräsentierende Information und eine die Stimme des Sprechers charakterisierende Information ersetzt werden, was zu extrem niedrigen Anforderungen hinsichtlich der notwendigen Über tragungsbandbreite führt.

Der Empfänger kann anhand der gesendeten Information eindeutig dessen Inhalt bestimmen und wird darüber hinaus in die Lage versetzt, den Sprecher zu identifizieren. Für den Fall, daß auf der Empfangsseite die Sprachcharakteristiken des jeweiligen Sprechers bekannt sind, ist es möglich, auf der Empfangsseite eine entsprechend realistische synthetisierte Stimme zu erzeugen.

Bevorzugte Ausführungsformen der vorliegenden Erfindung werden anhand der beiliegenden Zeichnungen näher erläutert. Dabei zeigen die Zeichnungen im einzelnen:

Fig. 1 ein vereinfachtes Blockschaltbild eines Extremschmalbandnachrichten- oder Übertra gungssystems gemäß einer bevorzugten Ausführungsform der Er findung,

Fig. 2 ein Blockschaltbild der LPC-Analysierein heit des Systems nach Fig. 1,

Fig. 3 ein Blockschaltbild der CPU-Einheit des Systems nach Fig. 1,

Fig. 4 ein Blockschaltbild der Worterkennungsein richtung des Systems nach Fig. 1,

Fig. 5 ein Blockschaltbild der Synthetisiervorrichtung des Systems nach Fig. 1,

Fig. 6 ein Flußdiagramm zur Veranschaulichung des Beginns und der Beendigung einer Wortidenti fikation in der Worterkennungseinrichtung der Fig. 4,

Fig. 7 ein Flußdiagramm beziehungsweise ein Syntax baum bestimmt für militärische Zwecke und

Fig. 8 vier typische Anzeigebilder im Zusammenhang mit dem Flußdiagramm der Fig. 7.

Fig. 1 zeigt das Extremschmalband-Übertragungssystem ge mäß einem Ausführungsbeispiel der Erfindung. Ein Ortstermi nal 10 und ein entferntes Terminal 12 sind über ein geeig netes Mittel, etwa Telefonleitungen oder dergleichen, ver bunden. Das Ortsterminal 10 weist ein Mikrofon 14 zum Um wandeln der menschlichen Sprache in elektrische Signale in üblicher Art auf und ist mit einer Analysiereinrichtung (LPC-Analysier einrichtung) 15 und einer Worterkennungseinrichtung 16 verbunden. LPC-Analyse bedeutet Analyse einer linearen vorhersagbaren Kodierung. Die LPC-Analysiereinrichtung 15 ist an eine CPU 18 angeschlossen, die wiederum mit einem Rechner 20 in Verbindung steht, der ein Tastenfeld, einen Austauschplattenspeicher (Floppydiskspeicher) und eine Sichtanzeige aufweist. Die Worterkennungseinrichtung 16 ist mit dem Rechner 20 verbunden. Eine Synthetisiervorrichtung 22 ist ebenfalls mit dem Rechner verbunden. Der Ausgang der Synthetisiervorrichtung 22 ist mit einem Kopfhörer 23 oder einem anderen Wandler geeigneter Art zum Umwandeln elektrischer Signale in Schall verbunden.

Fig. 2 zeigt ein detaillierteres Blockschaltbild der LPC-Analysiereinrichtung 15 in Form eines vollständigen digitalen Sprachverarbeitungssystems, wie es in US-A-4 441 200 beschrieben ist. Die LPC-Analysiereinrichtung ist nur ein Teil des in Fig. 2 ver anschaulichten Systems und ist im einzelnen in der US-A-4 378 469 erläutert. Das vollständige Verarbeitungssystem ist deshalb beschrieben, weil es einen Teil der LPC-Analysiereinrichtung 15 darstellt und darüber hinaus zur Synthetisierung der menschlichen Stimme verwendet werden kann. Im vorliegenden System wird der Synthetisierer der LPC-Analysier einrichtung 15 nicht verwendet. Der Fachmann erkennt jedoch, daß diese Einheit ohne weiteres an Stelle der Synthetisier vorrichtung 22 eingesetzt werden kann.

Gemäß Fig. 2 werden Tonfrequenzsignale von dem Mikrofon 14 über eine AVR-Schaltung 25 mit automatischer Ver stärkungsregelung und über einen Tiefpaßfilter 26 einer Abtast- und Halteschaltung 28 zugeführt. Diese arbeitet mit einem Analog-/Digitalwandler 30 zusammen, um für jede durch die Abtast- und Halteschaltung 28 durchgeführte Abtastung ein 12-Bit-Wort abzugeben. Diese Digitalwerte von dem A/D-Wandler 30 werden der eigentlichen LPC-Analysier einrichtung (Einrichtung 32) zugeführt, die in der vorgenannten Patentschrift im einzelnen beschrieben ist. Die Einrichtung 32 gibt mehrere Signale ab, die unterschiedliche Eigenschaften darstellen, die eine menschliche Stimme charakterisieren, wie den Tonhöhenfrequenzbereich, und eine Abschätzung der vokalen Spurlänge sowie wahlweise einsetzbare zusätzliche Eigenschaften, wie z. B. die glottale Erregungsform im Frequenz bereich und den Heiserkeitsgrad. Die Signale von der Einrichtung 32 umfassen auch einen RMS-Durchschnittswert und eine vorbestimmte Anzahl von LPC-Koeffizienten, nämlich in diesem Ausführungsbeispiel zehn. Alle diese Signale von der Einrichtung 32 werden über eine Schnittstelle 34 der CPU 18 zur Speicherung und Ver arbeitung zugeführt. Ein detaillierteres Blockschaltbild der CPU 18 ist in Fig. 3 gezeigt. Bei diesem Ausführungs beispiel ist die CPU 18 eine im Handel erhältliche CMT-68K-CPU. Da die in Fig. 3 veranschaulichte CPU 18 im Handel erhältlich ist, kennt der Fachmann die Arbeitsweise. Da alle Blöcke ausreichend definiert sind, wird deren Funktion nicht im einzelnen beschrieben.

Obwohl die verschiedensten Einrichtungen als Worterken nungseinrichtung 16 verwendet werden können, kommt bei der vorliegenden Ausführungsform die im Handel erhältliche Einheit VRM102 zum Einsatz, die anhand der Fig. 4 erläu tert wird. Die Tonfrequenzsignale vom Mikrofon 14 werden an den Audioeingang angelegt und über einen Vorverstär ker 35 zum 16-Filter-Analysierer 37 geleitet. Der 16-Fil ter-Analysierer 37 führt grundsätzlich die Analysierfunk tion der LPC-Analysiereinheit durch und der Fachmann er kennt, daß eine Worterkennungseinheit auch auf Signale der LPC-Analysiereinrichtung 15 basieren kann. Das Ausgangssignal des 16-Filter-Analysierers 37 wird über einen Gleichrich ter 39 an einen 8-Bit-Analog-/Digitalwandler 40 angelegt. Dieser A/D-Wandler 40 ist mit einem 6802 Mikroprozessor 42, einem 4K-RAM-Speicher 43 und einem 4K-ROM-Speicher 45 ver bunden. Die Worterkennungseinrichtung 16 besitzt auch mehrere Anschlüsse und Puffer zum Nachrichtenaustausch mit dem Rechner 20, dessen Funktion bekannt ist und hier nicht im einzelnen beschrieben wird.

Spektralamplituden des Gleichrichters 39 werden alle 5 ms durch den A/D-Wandler 40 ausgelesen. Das System mißt die Spektraldifferenz zwischen dem augenblicklichen Spektrum und dem Hintergrundrauschen. Überschreitet diese Diffe renz einen ersten Schwellenwert, dann markiert das System den möglichen Beginn eines Wortes und spektrale Abtastun gen werden in dem 4K-RAM-Speicher 43 aufgezeichnet. Nun wird die Empfind lichkeit auf Spektraländerungen erhöht und neue Spektren werden immer dann aufgezeichnet, wenn eine gegen einen zweiten Schwellenwert gemessene geringfügige Änderung zwischen dem augenblicklichen und dem letzten Spektrum auftritt. Bei jeder signifikanten Änderung wird ein im Rechner 20 angeordneter Abtastzähler (NSAMP) erhöht. Diese Zählung muß ein Minimum von MINSAM (näm lich 16 unterschiedliche Spektralformen) erreichen, bevor das System ein Wort als gültig erklärt, sonst wird der Schall als Hintergrundrauschen angesehen. Jeder 5-ms-Rahmen, der keine signifikante Spektraländerung aufweist, ist ein Hinweis auf das Wortende. Vergehen 160 ms ohne Spektrums änderung, dann wird das letzte Spektrum als wahrscheinli ches Wortende erklärt und eine Musterübereinstimmungsprü fung beginnt. Ein Flußdiagramm dieses Verfahrens ist in Fig. 6 veranschaulicht.

Der Ablauf beginnt mit einem Zustand 47, der mit "Ruhezu stand, kein Wort" bezeichnet ist. Der Abtastzähler (NSAMP) beginnt bei Null zu zählen und wenn die Differenz zwischen dem augenblicklichen Spektrum und dem Hintergrundrauschen den Schwellenwert t1 überschreitet, dann läuft das Verfah ren zum Zustand 48, der mit "möglicher Wortbeginn" be zeichnet ist. Überschreitet die Differenz zwischen dem augenblicklichen und dem letzten Spektrum nicht den zwei ten Schwellenwert t2, dann geht der Ablauf zum Zustand 49, der mit "NSCNG = NSCHG + 1" bezeichnet ist. Ist die Zeit seit der letzten Spektraländerung kurz, dann kehrt der Ablauf zurück zum Zustand 48, um die Messung von Spektral änderungen zwischen dem augenblicklichen und dem letzten Spektrum fortzusetzen. Ist die Zeit seit der letzten Spek traländerung lang - bei dem vorliegenden Ausführungsbei spiel etwa 160 ms - dann folgt im Ablauf der Zustand 50, der mit "mögliches Wortende" bezeichnet ist. Ist die Zäh lung in dem Abtastzähler geringer als 16, dann kehrt der Ablauf zurück zum Zustand 47 und beginnt erneut und die Spektraländerungen werden als zu kurz für ein Wort be trachtet, so daß sie Hintergrundrauschen darstellen müs sen. Überschreitet die Zählung des Abtastzählers den Wert 16, dann folgt der Zustand 52, mit "Wortende, stelle Über einstimmung des Musters mit Ausgangswert her". Somit stellt das System fest, daß ein Wort gesprochen wurde und es be ginnt die Musterübereinstimmungsprüfung.

Sobald die Spektraländerung zwischen dem augenblicklichen und letzten Spektrum den Schwellenwert t2 überschreitet, folgt Zustand 51, der mit "Bringe signifikantes Spektral modell auf neuesten Stand" beschrieben ist. Ist der Ein gangspuffer des Abtastzählers NSAMP nicht gefüllt, dann kehrt der Ablauf zum Zustand 48 für die nächste 5-ms-Ab tastung zurück. Wird der Eingangspuffer des Abtastzählers NSAMP bei einer großen Spektraländerung gefüllt, dann geht der Ablauf direkt zum Zustand 50, wo dies als Wortende bestimmt wird und es folgt Zustand 52, in dem die Her stellung der Musterübereinstimmung beginnt. Wird der Ein gangspuffer des Abtastzählers NSAMP aufgrund eines kurzen Wortes nicht gefüllt, dann ergeben sich schließlich keine Spektraländerungen in den Abtastungen und der Ablauf geht zum Zustand 49 über, wie zuvor beschrieben.

Bei dem Terminal des vorliegenden Ausführungsbeispiels ist eine vorbestimmte Anzahl von Sprechern autorisiert, das Terminal zu verwenden und Beispiele vorbestimmter Wörter und Phrasen, wie sie von jedem Sprecher gesprochen wurden, sind in dem Floppy-Disk-Speicher des Rechners 20 gespeichert. Die Worterkennungseinrichtung 16 dient bei einer etwas vereinfachten Ausführungsform zur Unterstützung bei der Sprechererkennung. Wenn ein spezieller Sprecher auf das System zugreift, identifiziert er sich sprachlich durch Name, Stellung und Personalnummer oder mittels anderer Identifizierungskriterien. Der Beginn und das Ende jedes Wortes wird von der Worterkennungseinrichtung 16 festgestellt, die den Rechner 20 von dem gesprochenen Wort in Kenntnis setzt. Eine elektrische Darstellung von LPC-Parameterdaten der LPC-Analysiereinrichtung 15 wird über den gesprochenen Bereich jedes Wortes gemittelt und dann in der CPU 18 mit einem gespeicherten Beispiel vom Rechner 20 auf Übereinstimmung geprüft. Die Ergebnisse der Übereinstimmungsprüfung werden mit einem Schwellenwert verglichen, um eine Entscheidung über die Identität des Sprechers herbeizuführen.

Während der Benutzer das System weiter verwendet, erkennt der Rechner 20 Stellen in Sätzen, bei denen die jeweilige Anzahl möglicher nächster Wörter verhältnismäßig gering ist, wie dies im folgenden beschrieben wird. An diesen syntaktischen Knoten lädt der Rechner 20 Muster oder Schablonen, d. h. gespeicherte Modelle von Wörtern aller Sprecher für diese nächsten möglichen Wörter. Beim nächsten gesprochenen Wort erkennt die Worterkennungseinrichtung diese Tatsache und ver gleicht die in das System geladenen Muster mit der Dar stellung des gerade gesprochenen Wortes. Die Worterkennungs einrichtung zeigt das gesprochene Wort auf der Anzeige des Rechners 20 und auch den Sprecher an. Der Rechner 20 be sitzt einen Abstimmzähler für jeden der möglichen autori sierten Sprecher. Der Zähler des angezeigten Sprechers wird bei jedem erkannten Wort bis maximal zu einem Wert 25 inkrementiert und die Zähler aller nichtangezeigten Spre cher werden abwärts gezählt bis zu einer unteren Grenze von Null. Wird beispielsweise eine Geheiminformation an gefordert, dann werden die Zähler geprüft und als identi fizierter Sprecher derjenige bestimmt, dessen Zählung über 15 liegt, während alle anderen Zählungen unter 8 liegen müssen. Werden diese Bedingungen nicht erfüllt, dann wird die Geheiminformation abgelehnt. Das System kann den Be nutzer im weiteren Identifikationsalgorithmus auffordern, beliebige Wörter zu sprechen, bis ein eindeutiger Gewin ner mit entsprechendem Abstand angezeigt wird, oder das System kann in seinem normalen Ablauf fortfahren und zu einem späteren Zeitpunkt die Information nochmals anfor dern. Das System kann eine Änderung des Sprechers inner halb von maximal 10 Wörtern erkennen. Auch ist der Spre cheridentifikationsalgorithmus dem Benutzer im allgemei nen erkennbar und er weiß nicht, daß seine Stimme während des normalen Ablaufs analysiert wird.

Die Verifikationssubsystemsoftware wird von den Floppy-Disks des Rechners 20 geladen und dieses Laden wird durch Prüfsummentests verifiziert. Als nächstes werden statistische Muster jedes bekannten Sprechers geladen. Während der unbekannte Sprecher spricht, werden Langzeitstatistiken der LPC-Reflexionskoeffizienten in Echtzeit über die letzten 30 Sekunden der Sprache berech net. Diese Statistiken schließen eine Mittelwert- und Standardabweichung der Tonhöhe und die ersten 10 Reflexions koeffizienten ein. Am Ende jedes Wortes, wie es durch die Worterkennungseinrichtung bestimmt wurde, berechnet die CPU 18 die Mehalanobis-Abstandsmetrik zwischen dem unbekann ten Wort und dem Muster jedes Sprechers. Der Mehalanobis- Abstand gewichtet den Abstand mittels eines Eigenvektors, um den bekannten Speicher von der übrigen Bevölkerung zu unterscheiden. Schließlich teilt die CPU 18 den Sprecher mit der besten Übereinstimmung mit und bestimmt die Genauigkeit der Schätzung durch den Mehalanobis-Abstand unter Verhältnisbildung zur Standard abweichung dieses Sprechers und durch das Verhältnis zu der nächstbesten Übereinstimmung. Zweideutige Ergebnisse, d. h., wenn die Übereinstimmung innerhalb eines vorbe stimmten Unsicherheitsbereichs liegt, bewirken, daß das System eine Entscheidung zurückstellt, wodurch die Ge nauigkeit erhöht wird. Schließlich wird am Ende des Nach richtenaustausches dem Sprecher die Möglichkeit gegeben, sein Stimmenmodell durch die zusammengesetzten Statisti ken dieses Nachrichtenaustausches auf den neuesten Stand zu bringen.

Die LPC-Analysiereinrichtung 15 und die CPU 18 besitzen auch eine Trainings-Mode, durch den die entsprechenden Statistiken eines gegebenen Sprechers erhalten werden und in der die Eigen vektoren und Werte des Modells dieses Sprechers berechnet werden. Das System kann diese Daten zur Speicherung auf den Floppy-Disks des Rechners 20 laden. Während die Worterkennungseinrichtung 16 als getrennte Einheit des Systems veranschaulicht wird, ist dem Fachmann klar, daß sie in einfacher Weise auch in die LPC-Analysiereinrichtung 15 oder die CPU 18 eingefügt sein kann, so daß diese Einheiten die Aufgaben der Erkennung des Beginns und Endes eines Wortes, des spezifischen Wortes und des Spre chers durchführen können. Auch können Schablonen oder Wortmodelle, die allgemein repräsentativ für jedes speziel le zu erkennende Wort sind, an Stelle eines Wortmodells für jedes von jedem Sprecher gesprochene zu erkennende Wort verwendet werden, wobei nur die speziellen Wörter durch die Einrichtung erkannt würden, nicht jedoch jeder spezielle Sprecher.

Ein typisches Beispiel einer militärischen Verwendung des vorliegenden Systems sei nun in Verbindung mit den Fig. 7 und 8 erläutert. Bei dieser speziellen Ausführungsform ist das System so aufgebaut, daß es den Verwender mit ein bezieht, um ein geographisches Truppenmodell, Nachschub und ein geographisches Umfeld auf den neuesten Stand zu bringen. Bei der grundsätzlichen Situation dieses Ausführungsbeispiels fordert der Benutzer über den Terminal Informationen an und, falls er richtig erkannt und geprüft wurde, wird eine Information von einer entfernten Quelle zur Verfügung gestellt. Das System soll die Fähigkeit besitzen, zu zoomen. Bei der speziellen Anwendung des Systems werden 55 Wörter und ein Syntaxnetzwerk mit semantischen Zuordnungen zu jedem Knoten des Netzwerks verwendet, wie dies in Fig. 7 veranschaulicht ist. Ein Syntax netzwerk leitet interaktiv die Auswahl von möglichen, nächsten Wörtern von allen dem System bekannten Wörtern innerhalb des Kontextes aller Sätze, die das System versteht. Der Sprecher kann jederzeit sagen "Löschen" um einen neuen Satz zu beginnen, oder er kann sagen "Auslöschen" um in ei nem Satz ein Wort zu ersetzen. Wörter wie "UH, THE", Atem geräusche und Zungenschlagen sind Modellwörter, die ge speichert werden und die von dem System absichtlich igno riert werden. Das System hilft dem Benutzer interaktiv, wenn dieser spricht. Erwartet das System von ihm, daß er einen Satz beginnt, d. h., wenn die Worterkennungseinrichtung 16 den Anfang eines ersten Wortes feststellt, dann listet es alle möglichen ersten Wörter des Satzes auf, wie dies in Fig. 8A angegeben ist. Nach Sprechen des ersten Wor tes wird auf dem Schirm das festgestellte Wort angezeigt und es werden alle möglichen zweiten Wörter gemäß Fig. 8B aufgelistet. Dies setzt sich fort bis zum Ende des Satzes, wenn die Daten für eine Übertragung über den Extremschmal band-Nachrichtenkanal zusammengesetzt werden. Der Sprecher kann mit der Zeit sehen, welche nächsten Wörter erwartet werden. Der Rechner 20 überwacht die Genauigkeit der Wort übereinstimmungen. Fällt irgendein Wort unter einen adap tiven Schwellenwert, dann wiederholt die Synthetisiervor richtung 22 den Satz und bittet um eine Bestätigung vor der Durchführung. Werden alle Wörter klar erkannt, dann gibt die Synthetisiervorrichtung 22 den Satz nach Vervoll ständigung wieder, während der Rechner die Nachricht sendet.

Nach Verarbeitung jedes gesprochenen Wortes wird dieses in dem Speicher des Rechners 20 abgelegt, wo die gesamte Nachricht in ein Digitalsignal mit minimaler oder fast minimaler Bitzahl codiert wird. Die Wörter können in codierter Form gespeichert werden, so daß sich der erforderliche Speicherplatz reduziert. Da das System eine vorbestimmte Anzahl von Wörtern enthält, die es er kennen kann, d. h., eine vorbestimmte Anzahl von Wortmo dellen oder Mustern, kann die Codierung in der Wahl einer speziel len Nummer für jedes der Wörter bestehen. So kann im Bei spiel der Fig. 8 den Wörtern "shift focus" die Nr. 12 und dem Wort "south" die Nr. 18 zugeordnet werden, während die Ziff. 2 durch die Nummer 21 dargestellt wird usw. Da diese Wörter durch die gleichen Nummern in dem entfernten Terminal 12 dargestellt werden, wandelt der Rech ner 20 diese Nummern in ein Digitalsignal um und überträgt das Signal zu dem entfernten Terminal 12, wo das Signal in Nummern und dann in Wörter zurückgewandelt wird.

Ein zweites Codierungsverfahren, das bei dem vorliegenden Ausführungsbeispiel angewandt wird, besteht darin, jeden Buchstaben jedes Wortes in der ASC II-Codierung zu codieren. Dieses Codierungsverfahren hat einige Vorteile, obwohl es einige wenige Bits mehr pro Wort benötigt. Ei ner dieser Vorteile besteht darin, daß das ausgesandte Signal direkt zu den meisten üblichen Druckern übertragen werden kann. In der ASC II-Codierung wird jeder Buchstabe durch 8 Bits dargestellt. Wenn somit die Musternachricht der Fig. 8 "shift focus south 22 miles" ist, dann ist die für die Übertragung die ser Nachricht in der ASC II-Codierung erforderliche Bit zahl gleich 260. Werden 20 Bits zur Beschreibung von Ei genschaften der Stimme des Sprechers verwendet und er fordern Synchronisationsfehlererkennung und Steuersignale weitere 30 Bits, dann ist die vollständige Nachricht etwa 310 Bits lang. Es ist somit möglich eine Nachricht mit ei ner Länge von etwa 4 Sekunden und mit 310 Bits, d. h., mit etwa 77 Bits pro Sekunde zu übertragen.

Wird wie zuvor beschrieben ein Codierungssystem verwendet, bei dem jedem Wort eine spezielle Nummer zugeteilt ist, dann ist die Situation folgende: nimmt man an, daß die gesprochene Nachricht eine von 100 möglichen Nachrichten typen mit jeweils gleicher Wahrscheinlichkeit ist, dann sind 7 Bits erforderlich, um den grammatikalischen Aufbau der Nachricht zu beschreiben. Werden in dem System 200 auswählbare Wörter gespeichert, die ausgewählt wer den können, um verschiedene Positionen in der Nachricht einzunehmen, dann definieren 8 Bits welches Wort in je der gewünschten Position in der Nachricht verwendet wurde. Für die zuvor angegebene Musternachricht definieren 7 Bits die Nachricht Syntax, 40 Bits definieren die 5 auswählbaren Wörter an Positionen innerhalb der Nachricht, und etwa 20 Bits können die Eigenschaften der Stimme des Sprechers angeben, so daß sich eine Gesamtzahl von 67 Bits ergibt. Werden wiederum etwa 30 Bits für die Synchronisa tionsfehlerkorrektur und Steuersignale angesetzt, dann umfaßt die gesamte Nachricht etwa 97 Bits oder etwa 25 Bits pro Sekunde.

Die Synthetisiervorrichtung 22 des vorliegenden Ausführungs beispiels ist im Handel erhältlich und wird von der Firma Mikromint Inc. als Mikrovoxsynthesizer vertrieben. Der Fachmann erkennt selbstverständlich, daß die LPC-Analysier einrichtung 15 einen Synthetisierer aufweist (vgl. Fig. 2) und an Stelle der Synthetisiervorrichtung 22 verwendet werden kann, wenn die Sprechererkennung in dem System eingeschlossen ist und wenn es erwünscht ist, daß die synthetisierte Stimme der Stimme des ursprünglichen Sprechers gleicht. Von der Beschreibung der Synthetisiereinheit 22 ergibt sich für den Fachmann ein vollkommenes Verständnis der Arbeitsweise des in der LPC-Analysiervorrichtung 15 vorhandenen Syntheti sierers. Eine vollständigere Beschreibung des Synthetisierers, der in der LPC-Analysiereinrichtung 15 enthalten ist, ergibt sich aus der zuvor genannten Patentanmeldung und aus der US-A-4 392 018.

Die Synthetisiervorrichtung 22 besteht aus einem unabhängigen Mikroprozessor, der ASCII Text in gesprochenes Englisch umwandelt. Sie besteht insbesondere aus einem M 65 02 Mikro prozessor 55, einer 9600 PBS UART-Schnittstelle, einem RAM-Speicher 59 mit einer Speicherkapazität von 2 K-Bits, einem EPROM 61 mit 8 K-Bits, einem SCO1 Votrax-Stimmsynthetisierer (Sprachsynthetisierer) 63, einem taktenden und programmierbaren Teiler 65 und verschiedenen Puffern, Steuerungen und Verstärkern. Die Synthetisiervorrichtung 22 verwendet einen Algorithmus, der Eingangsdaten in Wörter umsetzt, dann die englischen Ausspracheregeln verwendet, um eine Lautenfolge zu erzeugen. Diese steuert dann den Sprachsynthetisierer 63. Der Sprachsynthetisierer 63 besitzt einen ROM-Speicher der Laute als eine Folge von 1 bis 4 Tönen von spezifischer Dauer und mit spezifischem Spektrum erzeugt. Die Funktion der Synthetisiervorrichtung 22 beruht auf den Buchstaben zu Laut-Umsetzungsregeln, die in dem Mikroprozessor 55 angewandt werden, sowie auf der Sprachesynthese in dem Sprachsynthetisierer 63. Der Mikroprozessor 55 liest bis zu 1500 Zeichen in seinen in ternen Seitenpuffer von der seriellen Schnittstelle 57. Er identifiziert Phrasengruppen durch ihre Punktion und Wörter durch ihre Zwischenraumbegrenzer. Er verwendet die Phrasengruppengrenzen um eine geeignete deklarative oder fragende Tonhöhen- und Dauerbeugung auf die Phrase anzuwenden. Bei jedem Wort wird jedes Zeichen von links nach rechts abgetastet. Wird ein Zeichen gefun den, bei dem die linken und rechten Kontexterfordernisse (benachbarte Zeichen) erfüllt sind, dann wird die erste anwendbare Regel für das Zeichen verwendet, um es in ei nen Laut umzusetzen.

Der Sprachsynthetisierer 63 ist ein CMOS-Typ, der aus einem digitalen Codeumsetzer und einem elektronischen Modell des Vokaltrakts besteht. Intern ist eine Lautsteuerung vorgesehen, die eine 6-Bit-Laut- und 2-Bit-Tonhöhencodierung in eine Matrix von spektralen Parametern umsetzt, die das Vokal traktmodell zur Synthetisierung der Sprache einstellt. Die Ausgangstonhöhe der Laute wird durch die Frequenz des von dem getakteten Teiler 65 abgegebenen Taktsignal gesteuert. Fei ne Schwankungen der Tonhöhe können induziert werden, um eine Beugung hinzuzufügen, was verhindert, daß die syntheti sierte Stimme monoton und maschinell klingt. Während der vorliegende Algorithmus einen englischen Text in Sprache umwandelt, ist es für den Fachmann verständlich, daß der Sprachalgorithmus auch für eine andere Sprache geschrie ben sein kann. 64 Laute definieren die englische Sprache und jeder Laut wird durch eine 6-Bit-Codierung gekennzeich net, die von dem Mikroprozessor 55 an den Sprachsyntheti sierer 63 angelegt wird. Die Lautsteuerung setzt dann die Bits in die zuvor erwähnten Spektralparameter um.

Damit die synthetisierte Sprache möglichst gut dem identi fizierten ursprünglichen Sprecher gleicht, können verschie dene Codierungen senderseitig zu dem empfangenden Gerät übertragen werden, wobei Daten über die spezielle Aussprache des Sprechers bezüglich dieser Worte beinhaltet sein können. Dies kann sehr einfach dadurch erreicht werden, daß eine Sprecheridentifikationscodierung ausgesandt wird, die der Empfänger zum Aufsuchen der Vokaltraktlänge und des mittleren Tonhöhenbereichs verwendet. Alternativ dazu kann der Sender auch Polynomkoeffizienten, die die Tonhöhenkontur für den Satz beschreiben, und einen Vokalspurlängenmodifizierer senden. Diese Polynomkoeffizienten ermöglichen, daß der richtige Tonhöhenbereich, der richtige Ton höhenabfall und die Betonung mit sehr wenigen Bits übertragen werden können. Der Vokalspurlängenmodifizierer ermöglicht es dem Synthetisierer, eine Polynominterpolation der LPC- Reflektionskoeffizienten durchzuführen, wodurch der Vokaltrakt länger oder kürzer gemacht werden kann als bei dem gespeicherten Muster, das bei den Buchstaben/Ton- Regeln verwendet wird.

Es wurde somit ein Extremschmalband-Übertragungssystem offenbart, bei dem die menschliche Stimme in Digitalsignale mit weniger als 300 Bits pro Sekunde umgesetzt werden kann.

Claims

1. Extremschmalband-Übertragungssystem mit einem Wandler zum Umwandeln menschlicher Sprache in elektrische Signale, mit:
einer Analysiereinrichtung (15), die elektrische Signale von dem Wandler (14) empfängt und eine Vielzahl von Signalen abgibt, die eine Vielzahl von Eigenschaften repräsentieren, die eine menschliche Stimme charakterisieren,
einer Speichereinrichtung, in der Signale speicherbar sind, die eine Vielzahl gesprochener Wörter repräsentieren,
einer Worterkennungseinrichtung (16), die mit der Analysiereinrichtung (15) und mit der Speichereinrichtung verbunden ist und zumindest einen Teil der Vielzahl von Signalen von der Analysiereinrichtung empfängt, um diese mit den gespeicherten Signalen zu vergleichen, und um Signale abzugeben, die bestimmte gesprochene Wörter repräsentieren, dadurch gekennzeichnet, daß die Worterkennungseinrichtung eine Sprechererkennungseinrichtung aufweist und die von der Worterkennungseinrichtung abgegebenen Signale auch repräsentativ für den momentanen Sprecher sind, und daß
eine Digitalwandlereinrichtung vorgesehen ist, die mit der Worterkennungseinrichtung (16) verbunden ist, um die, die bestimmten gesprochenen Wörter darstellenden Signale zu empfangen und diese in digitales Format umzuwandeln, wobei ein Teil der Bits die Nachricht und ein anderer Teil der Bits den jeweiligen Sprecher charakterisieren.

2. Extremschmalband-Übertragungssystem, dadurch gekennzeichnet, daß zumindest der den Nachrichtenanteil repräsentierende Teil der Bits in ein Übertragungsgeschwindigkeitsformat von weniger als 300 Bit pro Sekunde umgewandelt wird.

3. Extremschmalband-Übertragungssystem nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß von der Digitalwandlereinrichtung in einen für die Übertragung bestimmten Datenstrom auch Bits eingefügt werden, welche die Stimme des jeweiligen Sprechers charakterisieren.

4. Extremschmalband-Übertragungssystem nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß eine Einrichtung zum Übertragen der Digitalsignale von der Digitalwandlereinrichtung zu einer entfernt angeordneten Einheit (12), sowie eine Einrichtung zum Empfangen von ankommenden Signalen und eine Synthetisiervorrichtung (22) zum Umwandeln der Digitalsignale in synthetisierte menschliche Sprache, die charakteristisch für die Stimme des jeweiligen Sprechers ist, vorhanden sind.

5. Extremschmalband-Übertragungssystem nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Analysiereinrichtung (15) eine Linear-Predictive-Code-Anlaysierschaltung (32) aufweist.

6. Extremschmalband-Übertragungssystem nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Worterkennungseinrichtung (16) eine Einrichtung (42, 43, 45) zum Erkennen des Beginns und des Endes eines gesprochenen Wortes aufweist.

7. Extremschmalband-Übertragungssystem nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Speichereinrichtung Signale gespeichert hat, die eine Vielzahl von Wörtern darstellen, die von einer Vielzahl unterschiedlicher Sprecher gesprochen worden sind und daß die Sprechererkennungseinrichtung empfangene Signale mit den gespeicherten Signalen vergleicht, um dadurch Signale abzugeben, die bestimmte Wörter repräsentieren, die von einem bestimmten Sprecher abgegeben wurden.

8. Extremschmalband-Übertragungssystem nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Sprechererkennungseinrichtung eine Schaltung zum Modifizieren gespeicherter Wörter eines Sprechers nach einer Sprechererkennung aufweist.

9. Extremschmalband-Übertragungssystem nach mindestens einem der vorhergehenden Ansprüche 5 bis 8, dadurch gekennzeichnet, daß die Sprechererkennungseinrichtung eine Schaltung zur Mittelwertbildung der von der LPC-Schaltung gelieferten LPC-Koeffizienten aufweist.

10. Extremschmalband-Übertragungssystem nach Anspruch 9, dadurch gekennzeichnet, daß die Sprechererkennungseinrichtung eine Schaltung zum Zurückstellen einer Entscheidung bezüglich der Identität des Sprechers aufweist, wenn der Vergleich eines gesprochenen Wortes mit den gespeicherten Signalen, die eine Vielzahl von Wörtern, wie sie von einer Vielzahl von unterschiedlicher Sprecher gesprochen worden, repräsentieren, innerhalb eines vorbestimmten Unsicherheitsbereichs liegt.

11. Extremschmalband-Übertragungssystem nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Digitalwandlereinrichtung eine Einrichtung zum Umwandeln von Buchstaben eines jeden bestimmten gesprochenen Wortes in ASCII-Code für die Übertragung enthält.

12. Verfahren für eine extrem schmalbandige Übertragung von Nachrichten mit folgenden Schritten:
Umwandeln menschlicher Sprache in elektrische Signale,
Analysieren der elektrischen Signale um eine Vielzahl von Signalen zu erhalten, die eine Vielzahl von Eigenschaften repräsentieren, welche eine menschliche Stimme charakterisieren,
Speichern von Signalen, die eine Vielzahl gesprochener Wörter repräsentieren,
Vergleichen von zumindest einigen der Vielzahl von Signalen mit den gespeicherten Signalen um bestimmte Wörter der menschlichen Sprache festzustellen und Bereitstellen von Signalen, die die bestimmten Wörter repräsentieren, gekennzeichnet durch folgende weitere Verfahrensschritte:
Feststellen der Identität des jeweiligen Sprechers und Berücksichtigen dieser Identitätsinformation in den bereitgestellten Signalen und
Umwandeln der bereitgestellten Signale in digitales Format, wobei ein Teil der Bits die durch die Wörter gebildete Nachricht und ein anderer Teil der Bits den jeweiligen Sprecher repräsentieren.

13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß der den Nachrichtenanteil repräsentierende Teil der Bits ein Übertragungsgeschwindigkeitsformat von weniger als 300 Bit pro Sekunde aufweist.

14. Verfahren nach Anspruch 12 oder 13, dadurch gekennzeichnet, daß in den für die Übertragung vorgesehenen Datenstrom auch Bits eingefügt werden, welche die Stimme des jeweiligen Sprechers charakterisieren.

15. Verfahren nach mindestens einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, daß in dem Speicherschritt eine Vielzahl von Wörtern, wie sie von einer Vielzahl unterschiedlicher Sprecher gesprochen wurden, gespeichert werden.

16. Verfahren nach mindestens einem der Ansprüche 12 bis 15, dadurch gekennzeichnet, daß der Beginn und das Ende jedes gesprochenen Wortes vor dem Vergleichsschritt festgestellt wird.

17. Verfahren nach mindestens einem der Ansprüche 12 bis 16, dadurch gekennzeichnet, daß der Schritt des Analysierens das Erstellen von LPC-Koeffizienten und das Ausmitteln dieser Koeffizienten vor dem Vergleichsschritt mit umfaßt.

18. Verfahren nach mindestens einem der Ansprüche 12 bis 17, dadurch gekennzeichnet, daß in dem Vergleichsschritt eine Entscheidung bezüglich des individuellen Sprechers zurückgestellt wird, wenn der Vergleich eines gesprochenen Wortes mit den gespeicherten Signalen die die Vielzahl der von unterschiedlichen Sprechern gesprochenen Wörtern repräsentieren, innerhalb eines bestimmten Unsicherheitsbereiches liegt.

19. Verfahren nach mindestens einem der Ansprüche 12 bis 18, dadurch gekennzeichnet, daß im Anschluß an die Feststellung des jeweiligen Sprechers und gemäß der von diesem Sprecher zuletzt abgegebenen Sprache eine Modifizierung an den gespeicherten Signalen vorgenommen wird.

20. Verfahren nach mindestens einem der Ansprüche 12 bis 19, gekennzeichnet durch das Speichern einer Vielzahl vorgegebener Nachrichten und das Anzeigen einer Liste möglicher nächster Worte im Anschluß an das Erkennen des Endes eines Wortes, an den Sprecher.

21. Verfahren nach mindestens einem der Ansprüche 12 bis 20, gekennzeichnet durch das Empfangen eines digitalen elektrischen Signals, das von einer entfernten Einheit übertragen wurde und durch das Umwandeln dieses empfangenen Signals in eine gesprochene Nachricht in synthetische Sprache, die etwa die charakteristischen Eigenschaften des ursprünglichen Sprechers an der entfernten Einheit aufweist.