DE3416238C2 - Extremschmalband-Übertragungssystem und Verfahren für eine Übertragung von Nachrichten - Google Patents
Extremschmalband-Übertragungssystem und Verfahren für eine Übertragung von NachrichtenInfo
- Publication number
- DE3416238C2 DE3416238C2 DE3416238A DE3416238A DE3416238C2 DE 3416238 C2 DE3416238 C2 DE 3416238C2 DE 3416238 A DE3416238 A DE 3416238A DE 3416238 A DE3416238 A DE 3416238A DE 3416238 C2 DE3416238 C2 DE 3416238C2
- Authority
- DE
- Germany
- Prior art keywords
- signals
- speaker
- word
- words
- spoken
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005540 biological transmission Effects 0.000 title claims description 29
- 238000000034 method Methods 0.000 title claims description 24
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 2
- 230000003595 spectral effect Effects 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 239000000872 buffer Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 239000003607 modifier Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 101000716803 Homo sapiens Protein SCO1 homolog, mitochondrial Proteins 0.000 description 1
- 102100020866 Protein SCO1 homolog, mitochondrial Human genes 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Computer And Data Communications (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Description
Die vorliegende Erfindung betrifft ein Extremschmalband-
Übertragungssystem gemäß dem Oberbegriff des Patentanspruchs
1 sowie ein Verfahren für eine extrem schmalbandige Übertra
gung von Nachrichten gemäß dem Oberbegriff des Patentanspruchs
12.
Ein derartiges System sowie ein derartiges Verfahren ist in
der Druckschrift DE-A-23 47 738 beschrieben.
In Übertragungssystemen ist es äußerst wünschenswert,
Nachrichten mittels Sprache auszutauschen. Andererseits
ist es erwünscht, digitale Schaltungen zu verwenden, da
ein Großteil dieser Schaltungen auf einem einzigen inte
grierten Schaltungschip untergebracht werden können, was
den erforderlichen Raum- und Energiebedarf wesentlich
verringert. Digitale Darstellungen der menschlichen Spra
che erfordern jedoch im allgemeinen eine verhältnismäßig
große Bandbreite, so daß sie für viele Arten von Übertra
gungsmedien, etwa Telefonleitungen oder dergleichen, nicht
geeignet sind. Die Bit-Übertragungsgeschwindigkeit (Band
breite) von Nachrichten soll deshalb so niedrig wie mög
lich sein. Unter "Schmalband" wird üblicherweise eine
Bit-Übertragungsgeschwindigkeit von etwa 2000 Bits pro
Sekunde verstanden. Bekannte Vorrichtungen arbeiten über
300 Bits pro Sekunde und alles, was darunter liegt, soll
als "Extremschmalband" bezeichnet werden.
Aus DE-A-23 47 738 ist ein Spracherkennungsverfahren sowie eine
entsprechende Vorrichtung bekannt, bei denen von einer Vorver
arbeitungsschaltung zunächst Übungsworte empfangen werden, von
dieser durch Filterung in einzelne Spektralkomponentensignale
zerlegt werden und an eine Merkmalsanalysiereinrichtung
weitergegeben werden. Die Merkmalsanalysiereinrichtung stellt
einer Verarbeitungseinrichtung eine Reihe von, die eingegebenen
Übungswörter charakterisierenden, Merkmalssignale zur Verfügung,
aus denen die Verarbeitungseinrichtung entsprechende
Merkmalsmatrizen erstellt und abspeichert. Wird in einem
nachfolgenden Schritt ein Befehlswort eingegeben, so wird von
diesem Befehlswort in gleicher Weise eine Merkmalsmatrix
erstellt, und ebenfalls in der Verarbeitungseinrichtung
abgespeichert. Durch Vergleich der Merkmalsmatrix des
Befehlsworts mit allen abgespeicherten Übungswortmatrizen kann
anhand von Korrelationsberechnungen dasjenige Übungswort
aufgefunden werden, das mit größter Wahrscheinlichkeit dem
eingegebenen Befehlswort entspricht. Auf diese Weise wird ein
Signal bereitgestellt, das angibt, welcher Befehl von einem
Sprecher eingegeben wurde.
Der Erfindung liegt die Aufgabe zugrunde, ein Übertragungssy
stem sowie ein Verfahren zur Übertragung von Nachrichten anzu
geben, bei denen die zu übertragende Information mit sehr ge
ringer Bandbreite übertragen werden kann.
Diese Aufgabe wird durch die Gegenstände der Patentansprüche
1 und 12 gelöst.
Die vorliegende Erfindung betrifft ein
Extremschmalband-Übertragungssystem, bei dem
durch Analyse nicht nur festgestellt wird, welches Wort (bzw.
welcher Befehl) gesprochen wurde, sondern zusätzlich festgestellt wird, von welchem
Sprecher dieses Wort abgegeben wurde. Nachdem somit sowohl die
Bedeutung als auch die Herkunft des Wortes feststeht, kann die
Übertragung des Wortes durch eine lediglich die Bedeutung des
Wortes repräsentierende Information und eine die Stimme des
Sprechers charakterisierende Information ersetzt werden, was zu
extrem niedrigen Anforderungen hinsichtlich der notwendigen Über
tragungsbandbreite führt.
Der Empfänger kann anhand der gesendeten Information eindeutig
dessen Inhalt bestimmen und wird darüber hinaus in die Lage
versetzt, den Sprecher zu identifizieren. Für den Fall,
daß auf der Empfangsseite die Sprachcharakteristiken des
jeweiligen Sprechers bekannt sind, ist es möglich, auf der
Empfangsseite eine entsprechend realistische synthetisierte
Stimme zu erzeugen.
Bevorzugte Ausführungsformen der vorliegenden Erfindung werden
anhand der beiliegenden Zeichnungen näher erläutert. Dabei
zeigen die Zeichnungen im einzelnen:
Fig. 1 ein vereinfachtes Blockschaltbild eines
Extremschmalbandnachrichten- oder Übertra
gungssystems gemäß einer bevorzugten Ausführungsform der Er
findung,
Fig. 2 ein Blockschaltbild der LPC-Analysierein
heit des Systems nach Fig. 1,
Fig. 3 ein Blockschaltbild der CPU-Einheit des
Systems nach Fig. 1,
Fig. 4 ein Blockschaltbild der Worterkennungsein
richtung des Systems nach Fig. 1,
Fig. 5 ein Blockschaltbild der Synthetisiervorrichtung
des Systems nach Fig. 1,
Fig. 6 ein Flußdiagramm zur Veranschaulichung des
Beginns und der Beendigung einer Wortidenti
fikation in der Worterkennungseinrichtung der
Fig. 4,
Fig. 7 ein Flußdiagramm beziehungsweise ein Syntax
baum bestimmt für militärische Zwecke und
Fig. 8 vier typische Anzeigebilder im Zusammenhang
mit dem Flußdiagramm der Fig. 7.
Fig. 1 zeigt das Extremschmalband-Übertragungssystem ge
mäß einem Ausführungsbeispiel der Erfindung. Ein Ortstermi
nal 10 und ein entferntes Terminal 12 sind über ein geeig
netes Mittel, etwa Telefonleitungen oder dergleichen, ver
bunden. Das Ortsterminal 10 weist ein Mikrofon 14 zum Um
wandeln der menschlichen Sprache in elektrische Signale
in üblicher Art auf und ist mit einer Analysiereinrichtung (LPC-Analysier
einrichtung) 15 und einer Worterkennungseinrichtung 16 verbunden.
LPC-Analyse bedeutet Analyse einer linearen vorhersagbaren
Kodierung. Die LPC-Analysiereinrichtung
15 ist an eine CPU 18
angeschlossen, die wiederum mit einem Rechner 20 in Verbindung
steht, der ein Tastenfeld, einen Austauschplattenspeicher
(Floppydiskspeicher) und eine Sichtanzeige aufweist.
Die Worterkennungseinrichtung 16 ist mit dem Rechner
20 verbunden. Eine Synthetisiervorrichtung
22 ist ebenfalls mit dem Rechner verbunden.
Der Ausgang der Synthetisiervorrichtung 22 ist mit einem Kopfhörer
23 oder einem anderen Wandler geeigneter Art zum Umwandeln
elektrischer Signale in Schall verbunden.
Fig. 2 zeigt ein detaillierteres Blockschaltbild
der LPC-Analysiereinrichtung 15 in Form eines vollständigen
digitalen Sprachverarbeitungssystems, wie es in US-A-4 441 200
beschrieben ist. Die
LPC-Analysiereinrichtung ist nur ein Teil des in Fig. 2 ver
anschaulichten Systems und ist im einzelnen in der
US-A-4 378 469 erläutert. Das vollständige Verarbeitungssystem
ist deshalb beschrieben, weil es einen Teil
der LPC-Analysiereinrichtung 15 darstellt und darüber hinaus
zur Synthetisierung der menschlichen
Stimme verwendet werden kann.
Im vorliegenden System wird der Synthetisierer der LPC-Analysier
einrichtung 15 nicht verwendet. Der Fachmann erkennt jedoch,
daß diese Einheit ohne weiteres an Stelle der Synthetisier
vorrichtung 22 eingesetzt werden kann.
Gemäß Fig. 2 werden Tonfrequenzsignale von dem Mikrofon
14 über eine AVR-Schaltung 25 mit automatischer Ver
stärkungsregelung und über einen Tiefpaßfilter 26 einer Abtast-
und Halteschaltung 28 zugeführt. Diese arbeitet mit einem
Analog-/Digitalwandler 30 zusammen, um für jede durch die
Abtast- und Halteschaltung 28 durchgeführte Abtastung ein
12-Bit-Wort abzugeben. Diese Digitalwerte
von dem A/D-Wandler 30 werden der eigentlichen LPC-Analysier
einrichtung (Einrichtung 32)
zugeführt, die in der vorgenannten Patentschrift im einzelnen
beschrieben ist. Die Einrichtung 32 gibt
mehrere Signale ab, die unterschiedliche Eigenschaften
darstellen, die eine menschliche Stimme charakterisieren,
wie den Tonhöhenfrequenzbereich, und eine Abschätzung der
vokalen Spurlänge sowie wahlweise einsetzbare zusätzliche
Eigenschaften, wie z. B. die glottale Erregungsform im Frequenz
bereich und den Heiserkeitsgrad. Die Signale von der
Einrichtung 32 umfassen auch einen RMS-Durchschnittswert
und eine vorbestimmte Anzahl von LPC-Koeffizienten,
nämlich in diesem Ausführungsbeispiel zehn. Alle
diese Signale von der Einrichtung 32 werden über
eine Schnittstelle 34 der CPU 18 zur Speicherung und Ver
arbeitung zugeführt. Ein detaillierteres Blockschaltbild
der CPU 18 ist in Fig. 3 gezeigt. Bei diesem Ausführungs
beispiel ist die CPU 18 eine im Handel erhältliche
CMT-68K-CPU. Da die in Fig. 3 veranschaulichte CPU 18
im Handel erhältlich ist, kennt der Fachmann die Arbeitsweise.
Da alle Blöcke ausreichend definiert sind, wird deren
Funktion nicht im einzelnen beschrieben.
Obwohl die verschiedensten Einrichtungen als Worterken
nungseinrichtung 16 verwendet werden können, kommt bei der
vorliegenden Ausführungsform die im Handel erhältliche
Einheit VRM102 zum Einsatz, die anhand der Fig. 4 erläu
tert wird. Die Tonfrequenzsignale vom Mikrofon 14 werden
an den Audioeingang angelegt und über einen Vorverstär
ker 35 zum 16-Filter-Analysierer 37 geleitet. Der 16-Fil
ter-Analysierer 37 führt grundsätzlich die Analysierfunk
tion der LPC-Analysiereinheit durch und der Fachmann er
kennt, daß eine Worterkennungseinheit auch auf Signale der
LPC-Analysiereinrichtung 15 basieren kann. Das Ausgangssignal
des 16-Filter-Analysierers 37 wird über einen Gleichrich
ter 39 an einen 8-Bit-Analog-/Digitalwandler 40 angelegt.
Dieser A/D-Wandler 40 ist mit einem 6802 Mikroprozessor 42,
einem 4K-RAM-Speicher 43 und einem 4K-ROM-Speicher 45 ver
bunden. Die Worterkennungseinrichtung 16 besitzt auch mehrere
Anschlüsse und Puffer zum Nachrichtenaustausch mit dem
Rechner 20, dessen Funktion bekannt ist und hier
nicht im einzelnen beschrieben wird.
Spektralamplituden des Gleichrichters 39 werden alle 5 ms
durch den A/D-Wandler 40 ausgelesen. Das System mißt die
Spektraldifferenz zwischen dem augenblicklichen Spektrum
und dem Hintergrundrauschen. Überschreitet diese Diffe
renz einen ersten Schwellenwert, dann markiert das System
den möglichen Beginn eines Wortes und spektrale Abtastun
gen werden in dem
4K-RAM-Speicher 43 aufgezeichnet. Nun wird die Empfind
lichkeit auf Spektraländerungen erhöht und neue Spektren
werden immer dann aufgezeichnet, wenn eine gegen einen
zweiten Schwellenwert gemessene geringfügige Änderung
zwischen dem augenblicklichen und dem letzten Spektrum
auftritt. Bei jeder signifikanten Änderung wird ein im
Rechner 20 angeordneter Abtastzähler (NSAMP) erhöht.
Diese Zählung muß ein Minimum von MINSAM (näm
lich 16 unterschiedliche Spektralformen) erreichen, bevor
das System ein Wort als gültig erklärt, sonst wird der
Schall als Hintergrundrauschen angesehen. Jeder 5-ms-Rahmen,
der keine signifikante Spektraländerung aufweist, ist ein
Hinweis auf das Wortende. Vergehen 160 ms ohne Spektrums
änderung, dann wird das letzte Spektrum als wahrscheinli
ches Wortende erklärt und eine Musterübereinstimmungsprü
fung beginnt. Ein Flußdiagramm dieses Verfahrens ist in
Fig. 6 veranschaulicht.
Der Ablauf beginnt mit einem Zustand 47, der mit "Ruhezu
stand, kein Wort" bezeichnet ist. Der Abtastzähler (NSAMP)
beginnt bei Null zu zählen und wenn die Differenz zwischen
dem augenblicklichen Spektrum und dem Hintergrundrauschen
den Schwellenwert t1 überschreitet, dann läuft das Verfah
ren zum Zustand 48, der mit "möglicher Wortbeginn" be
zeichnet ist. Überschreitet die Differenz zwischen dem
augenblicklichen und dem letzten Spektrum nicht den zwei
ten Schwellenwert t2, dann geht der Ablauf zum Zustand 49,
der mit "NSCNG = NSCHG + 1" bezeichnet ist. Ist die Zeit
seit der letzten Spektraländerung kurz, dann kehrt der
Ablauf zurück zum Zustand 48, um die Messung von Spektral
änderungen zwischen dem augenblicklichen und dem letzten
Spektrum fortzusetzen. Ist die Zeit seit der letzten Spek
traländerung lang - bei dem vorliegenden Ausführungsbei
spiel etwa 160 ms - dann folgt im Ablauf der Zustand 50,
der mit "mögliches Wortende" bezeichnet ist. Ist die Zäh
lung in dem Abtastzähler geringer als 16, dann kehrt der
Ablauf zurück zum Zustand 47 und beginnt erneut und die
Spektraländerungen werden als zu kurz für ein Wort be
trachtet, so daß sie Hintergrundrauschen darstellen müs
sen. Überschreitet die Zählung des Abtastzählers den Wert 16,
dann folgt der Zustand 52, mit "Wortende, stelle Über
einstimmung des Musters mit Ausgangswert her". Somit stellt
das System fest, daß ein Wort gesprochen wurde und es be
ginnt die Musterübereinstimmungsprüfung.
Sobald die Spektraländerung zwischen dem augenblicklichen
und letzten Spektrum den Schwellenwert t2 überschreitet,
folgt Zustand 51, der mit "Bringe signifikantes Spektral
modell auf neuesten Stand" beschrieben ist. Ist der Ein
gangspuffer des Abtastzählers NSAMP nicht gefüllt, dann
kehrt der Ablauf zum Zustand 48 für die nächste 5-ms-Ab
tastung zurück. Wird der Eingangspuffer des Abtastzählers
NSAMP bei einer großen Spektraländerung gefüllt, dann geht
der Ablauf direkt zum Zustand 50, wo dies als Wortende
bestimmt wird und es folgt Zustand 52, in dem die Her
stellung der Musterübereinstimmung beginnt. Wird der Ein
gangspuffer des Abtastzählers NSAMP aufgrund eines kurzen
Wortes nicht gefüllt, dann ergeben sich schließlich keine
Spektraländerungen in den Abtastungen und der Ablauf geht
zum Zustand 49 über, wie zuvor beschrieben.
Bei dem Terminal des vorliegenden Ausführungsbeispiels
ist eine vorbestimmte Anzahl von Sprechern autorisiert,
das Terminal zu verwenden und Beispiele vorbestimmter
Wörter und Phrasen, wie sie von jedem Sprecher gesprochen
wurden, sind in dem Floppy-Disk-Speicher des Rechners
20 gespeichert. Die Worterkennungseinrichtung 16 dient
bei einer etwas vereinfachten Ausführungsform
zur Unterstützung bei der Sprechererkennung. Wenn ein spezieller
Sprecher auf das System zugreift, identifiziert er sich
sprachlich durch Name, Stellung und Personalnummer oder mittels
anderer Identifizierungskriterien. Der Beginn und das
Ende jedes Wortes wird von der Worterkennungseinrichtung 16
festgestellt, die den Rechner 20 von dem gesprochenen
Wort in Kenntnis setzt. Eine elektrische Darstellung
von LPC-Parameterdaten der LPC-Analysiereinrichtung 15
wird über den gesprochenen Bereich jedes Wortes gemittelt
und dann in der CPU 18 mit einem gespeicherten Beispiel
vom Rechner 20 auf Übereinstimmung geprüft. Die Ergebnisse
der Übereinstimmungsprüfung werden mit einem Schwellenwert
verglichen, um eine Entscheidung über die Identität
des Sprechers herbeizuführen.
Während der Benutzer das System weiter verwendet, erkennt
der Rechner 20 Stellen in Sätzen, bei denen die jeweilige Anzahl möglicher
nächster Wörter verhältnismäßig gering ist, wie dies im folgenden
beschrieben wird. An diesen syntaktischen Knoten lädt der
Rechner 20 Muster oder Schablonen, d. h. gespeicherte
Modelle von Wörtern aller Sprecher für diese nächsten
möglichen Wörter. Beim nächsten gesprochenen Wort erkennt
die Worterkennungseinrichtung diese Tatsache und ver
gleicht die in das System geladenen Muster mit der Dar
stellung des gerade gesprochenen Wortes. Die Worterkennungs
einrichtung zeigt das gesprochene Wort auf der Anzeige des
Rechners 20 und auch den Sprecher an. Der Rechner 20 be
sitzt einen Abstimmzähler für jeden der möglichen autori
sierten Sprecher. Der Zähler des angezeigten Sprechers
wird bei jedem erkannten Wort bis maximal zu einem Wert 25 inkrementiert
und die Zähler aller nichtangezeigten Spre
cher werden abwärts gezählt bis zu einer unteren Grenze
von Null. Wird beispielsweise eine Geheiminformation an
gefordert, dann werden die Zähler geprüft und als identi
fizierter Sprecher derjenige bestimmt, dessen Zählung über
15 liegt, während alle anderen Zählungen unter 8 liegen
müssen. Werden diese Bedingungen nicht erfüllt, dann wird
die Geheiminformation abgelehnt. Das System kann den Be
nutzer im weiteren Identifikationsalgorithmus auffordern,
beliebige Wörter zu sprechen, bis ein eindeutiger Gewin
ner mit entsprechendem Abstand angezeigt wird, oder das
System kann in seinem normalen Ablauf fortfahren und zu
einem späteren Zeitpunkt die Information nochmals anfor
dern. Das System kann eine Änderung des Sprechers inner
halb von maximal 10 Wörtern erkennen. Auch ist der Spre
cheridentifikationsalgorithmus dem Benutzer im allgemei
nen erkennbar und er weiß nicht, daß seine Stimme während
des normalen Ablaufs analysiert wird.
Die Verifikationssubsystemsoftware wird von den Floppy-Disks
des Rechners 20 geladen und dieses Laden wird
durch Prüfsummentests verifiziert. Als nächstes werden
statistische Muster jedes bekannten Sprechers
geladen. Während der unbekannte Sprecher spricht, werden
Langzeitstatistiken der LPC-Reflexionskoeffizienten in
Echtzeit über die letzten 30 Sekunden der Sprache berech
net. Diese Statistiken schließen eine Mittelwert- und
Standardabweichung der Tonhöhe und die ersten 10 Reflexions
koeffizienten ein. Am Ende jedes Wortes, wie es durch die
Worterkennungseinrichtung bestimmt wurde, berechnet die
CPU 18 die Mehalanobis-Abstandsmetrik zwischen dem unbekann
ten Wort und dem Muster jedes Sprechers. Der Mehalanobis-
Abstand gewichtet den Abstand mittels eines Eigenvektors,
um den bekannten Speicher von der übrigen
Bevölkerung zu unterscheiden. Schließlich teilt
die CPU 18 den Sprecher mit der besten Übereinstimmung
mit und bestimmt die Genauigkeit der Schätzung durch
den Mehalanobis-Abstand unter Verhältnisbildung zur Standard
abweichung dieses Sprechers und durch das Verhältnis
zu der nächstbesten Übereinstimmung. Zweideutige Ergebnisse,
d. h., wenn die Übereinstimmung innerhalb eines vorbe
stimmten Unsicherheitsbereichs liegt, bewirken, daß das
System eine Entscheidung zurückstellt, wodurch die Ge
nauigkeit erhöht wird. Schließlich wird am Ende des Nach
richtenaustausches dem Sprecher die Möglichkeit gegeben,
sein Stimmenmodell durch die zusammengesetzten Statisti
ken dieses Nachrichtenaustausches auf den neuesten Stand
zu bringen.
Die LPC-Analysiereinrichtung 15 und die CPU 18 besitzen auch
eine Trainings-Mode, durch den die entsprechenden Statistiken
eines gegebenen Sprechers erhalten werden und in der die Eigen
vektoren und Werte des Modells dieses Sprechers berechnet
werden. Das System kann diese Daten zur Speicherung auf
den Floppy-Disks des Rechners 20 laden.
Während die Worterkennungseinrichtung 16 als getrennte Einheit
des Systems veranschaulicht wird, ist dem Fachmann klar,
daß sie in einfacher Weise auch in die LPC-Analysiereinrichtung
15 oder die CPU 18 eingefügt sein kann, so daß diese
Einheiten die Aufgaben der Erkennung des Beginns und
Endes eines Wortes, des spezifischen Wortes und des Spre
chers durchführen können. Auch können Schablonen oder
Wortmodelle, die allgemein repräsentativ für jedes speziel
le zu erkennende Wort sind, an Stelle eines Wortmodells
für jedes von jedem Sprecher gesprochene zu erkennende
Wort verwendet werden, wobei nur die speziellen Wörter
durch die Einrichtung erkannt würden, nicht jedoch
jeder spezielle Sprecher.
Ein typisches Beispiel einer militärischen Verwendung des
vorliegenden Systems sei nun in Verbindung mit den Fig. 7
und 8 erläutert. Bei dieser speziellen Ausführungsform
ist das System so aufgebaut, daß es den Verwender mit ein
bezieht, um ein geographisches Truppenmodell, Nachschub und ein
geographisches Umfeld auf den neuesten Stand zu bringen.
Bei der grundsätzlichen Situation dieses Ausführungsbeispiels
fordert der Benutzer über den Terminal Informationen
an und, falls er richtig erkannt und geprüft wurde, wird eine
Information von einer entfernten Quelle zur Verfügung gestellt.
Das System soll die Fähigkeit besitzen, zu zoomen.
Bei der speziellen Anwendung
des Systems werden 55 Wörter und ein Syntaxnetzwerk mit
semantischen Zuordnungen zu jedem Knoten des Netzwerks
verwendet, wie dies in Fig. 7 veranschaulicht ist. Ein Syntax
netzwerk leitet interaktiv die Auswahl von möglichen,
nächsten Wörtern von allen dem System bekannten Wörtern
innerhalb des Kontextes aller Sätze, die das System versteht. Der
Sprecher kann jederzeit sagen "Löschen" um einen neuen Satz
zu beginnen, oder er kann sagen "Auslöschen" um in ei
nem Satz ein Wort zu ersetzen. Wörter wie "UH, THE", Atem
geräusche und Zungenschlagen sind Modellwörter, die ge
speichert werden und die von dem System absichtlich igno
riert werden. Das System hilft dem Benutzer interaktiv,
wenn dieser spricht. Erwartet das System von ihm, daß er
einen Satz beginnt, d. h., wenn die Worterkennungseinrichtung
16 den Anfang eines ersten Wortes feststellt, dann listet
es alle möglichen ersten Wörter des Satzes auf, wie dies
in Fig. 8A angegeben ist. Nach Sprechen des ersten Wor
tes wird auf dem Schirm das festgestellte Wort angezeigt
und es werden alle möglichen zweiten Wörter gemäß Fig. 8B
aufgelistet. Dies setzt sich fort bis zum Ende des Satzes,
wenn die Daten für eine Übertragung über den Extremschmal
band-Nachrichtenkanal zusammengesetzt werden. Der Sprecher
kann mit der Zeit sehen, welche nächsten Wörter erwartet
werden. Der Rechner 20 überwacht die Genauigkeit der Wort
übereinstimmungen. Fällt irgendein Wort unter einen adap
tiven Schwellenwert, dann wiederholt die Synthetisiervor
richtung 22 den Satz und bittet um eine Bestätigung vor der
Durchführung. Werden alle Wörter klar erkannt, dann
gibt die Synthetisiervorrichtung 22 den Satz nach Vervoll
ständigung wieder, während der Rechner die Nachricht
sendet.
Nach Verarbeitung jedes gesprochenen Wortes wird dieses
in dem Speicher des Rechners 20 abgelegt, wo die gesamte
Nachricht in ein Digitalsignal mit minimaler oder
fast minimaler Bitzahl codiert wird. Die Wörter
können in codierter Form gespeichert werden, so daß sich
der erforderliche Speicherplatz reduziert. Da das System
eine vorbestimmte Anzahl von Wörtern enthält, die es er
kennen kann, d. h., eine vorbestimmte Anzahl von Wortmo
dellen oder Mustern, kann die Codierung in der Wahl einer speziel
len Nummer für jedes der Wörter bestehen. So kann im Bei
spiel der Fig. 8 den Wörtern "shift focus" die Nr. 12
und dem Wort "south" die Nr. 18 zugeordnet werden, während
die Ziff. 2 durch die Nummer 21 dargestellt wird usw. Da
diese Wörter durch die gleichen Nummern in dem entfernten
Terminal 12 dargestellt werden, wandelt der Rech
ner 20 diese Nummern in ein Digitalsignal um und überträgt
das Signal zu dem entfernten Terminal 12, wo das Signal
in Nummern und dann in Wörter zurückgewandelt wird.
Ein zweites Codierungsverfahren, das bei dem vorliegenden
Ausführungsbeispiel angewandt wird, besteht darin,
jeden Buchstaben jedes Wortes in der ASC II-Codierung zu
codieren. Dieses Codierungsverfahren hat einige Vorteile,
obwohl es einige wenige Bits mehr pro Wort benötigt. Ei
ner dieser Vorteile besteht darin, daß das ausgesandte
Signal direkt zu den meisten üblichen
Druckern übertragen werden kann. In der ASC
II-Codierung wird jeder Buchstabe durch 8 Bits dargestellt.
Wenn somit die Musternachricht der Fig. 8 "shift focus
south 22 miles" ist, dann ist die für die Übertragung die
ser Nachricht in der ASC II-Codierung erforderliche Bit
zahl gleich 260. Werden 20 Bits zur Beschreibung von Ei
genschaften der Stimme des Sprechers verwendet und er
fordern Synchronisationsfehlererkennung und Steuersignale
weitere 30 Bits, dann ist die vollständige Nachricht etwa
310 Bits lang. Es ist somit möglich eine Nachricht mit ei
ner Länge von etwa 4 Sekunden und mit 310 Bits, d. h., mit
etwa 77 Bits pro Sekunde zu übertragen.
Wird wie zuvor beschrieben ein Codierungssystem verwendet,
bei dem jedem Wort eine spezielle Nummer zugeteilt ist,
dann ist die Situation folgende: nimmt man an, daß die
gesprochene Nachricht eine von 100 möglichen Nachrichten
typen mit jeweils gleicher Wahrscheinlichkeit ist, dann
sind 7 Bits erforderlich, um den grammatikalischen
Aufbau der Nachricht zu beschreiben. Werden in dem System
200 auswählbare Wörter gespeichert, die ausgewählt wer
den können, um verschiedene Positionen in der Nachricht
einzunehmen, dann definieren 8 Bits welches Wort in je
der gewünschten Position in der Nachricht verwendet wurde.
Für die zuvor angegebene Musternachricht definieren
7 Bits die Nachricht Syntax, 40 Bits definieren die 5
auswählbaren Wörter an Positionen innerhalb der Nachricht,
und etwa 20 Bits können die Eigenschaften der Stimme des
Sprechers angeben, so daß sich eine Gesamtzahl von 67 Bits
ergibt. Werden wiederum etwa 30 Bits für die Synchronisa
tionsfehlerkorrektur und Steuersignale angesetzt, dann
umfaßt die gesamte Nachricht etwa 97 Bits oder etwa 25
Bits pro Sekunde.
Die Synthetisiervorrichtung 22 des vorliegenden Ausführungs
beispiels ist im Handel erhältlich und wird von der Firma
Mikromint Inc. als Mikrovoxsynthesizer vertrieben. Der
Fachmann erkennt selbstverständlich, daß die LPC-Analysier
einrichtung 15 einen Synthetisierer aufweist (vgl. Fig. 2)
und an Stelle der Synthetisiervorrichtung 22 verwendet werden kann,
wenn die Sprechererkennung in dem System eingeschlossen ist
und wenn es erwünscht ist, daß die synthetisierte Stimme
der Stimme des ursprünglichen Sprechers gleicht.
Von der Beschreibung der Synthetisiereinheit 22 ergibt sich
für den Fachmann ein vollkommenes Verständnis der Arbeitsweise
des in der LPC-Analysiervorrichtung 15 vorhandenen Syntheti
sierers. Eine vollständigere Beschreibung des Synthetisierers,
der in der LPC-Analysiereinrichtung 15 enthalten ist,
ergibt sich aus der zuvor genannten Patentanmeldung und
aus der US-A-4 392 018.
Die Synthetisiervorrichtung 22 besteht aus einem unabhängigen
Mikroprozessor, der ASCII Text in gesprochenes Englisch
umwandelt. Sie besteht insbesondere aus einem M 65 02 Mikro
prozessor 55, einer 9600 PBS UART-Schnittstelle, einem
RAM-Speicher 59 mit einer Speicherkapazität von 2 K-Bits, einem
EPROM 61 mit 8 K-Bits, einem SCO1 Votrax-Stimmsynthetisierer
(Sprachsynthetisierer) 63, einem taktenden und programmierbaren
Teiler 65 und verschiedenen Puffern, Steuerungen und Verstärkern.
Die Synthetisiervorrichtung 22 verwendet einen Algorithmus, der
Eingangsdaten in Wörter umsetzt,
dann die englischen Ausspracheregeln verwendet, um
eine Lautenfolge zu erzeugen. Diese
steuert dann den Sprachsynthetisierer 63. Der
Sprachsynthetisierer 63 besitzt einen ROM-Speicher der
Laute als eine Folge von 1 bis 4 Tönen
von spezifischer Dauer und mit spezifischem Spektrum
erzeugt. Die Funktion der Synthetisiervorrichtung 22 beruht
auf den Buchstaben zu Laut-Umsetzungsregeln, die
in dem Mikroprozessor 55 angewandt werden, sowie auf der
Sprachesynthese in dem Sprachsynthetisierer 63. Der
Mikroprozessor 55 liest bis zu 1500 Zeichen in seinen in
ternen Seitenpuffer von der seriellen Schnittstelle 57.
Er identifiziert Phrasengruppen durch ihre Punktion
und Wörter durch ihre Zwischenraumbegrenzer. Er verwendet
die Phrasengruppengrenzen um eine geeignete deklarative
oder fragende Tonhöhen- und Dauerbeugung auf die Phrase
anzuwenden. Bei jedem Wort wird jedes Zeichen von links nach
rechts abgetastet. Wird ein Zeichen gefun
den, bei dem die linken und rechten Kontexterfordernisse
(benachbarte Zeichen) erfüllt sind, dann wird die erste
anwendbare Regel für das Zeichen verwendet, um es in ei
nen Laut umzusetzen.
Der Sprachsynthetisierer 63 ist ein CMOS-Typ, der aus einem
digitalen Codeumsetzer und einem elektronischen Modell des
Vokaltrakts besteht. Intern ist eine Lautsteuerung vorgesehen,
die eine 6-Bit-Laut- und 2-Bit-Tonhöhencodierung in eine
Matrix von spektralen Parametern umsetzt, die das Vokal
traktmodell zur Synthetisierung der Sprache einstellt. Die
Ausgangstonhöhe der Laute wird durch die Frequenz des von dem
getakteten Teiler 65 abgegebenen Taktsignal gesteuert. Fei
ne Schwankungen der Tonhöhe können induziert werden, um
eine Beugung hinzuzufügen, was verhindert, daß die syntheti
sierte Stimme monoton und maschinell klingt. Während der
vorliegende Algorithmus einen englischen Text in Sprache
umwandelt, ist es für den Fachmann verständlich, daß der
Sprachalgorithmus auch für eine andere Sprache geschrie
ben sein kann. 64 Laute definieren die englische Sprache
und jeder Laut wird durch eine 6-Bit-Codierung gekennzeich
net, die von dem Mikroprozessor 55 an den Sprachsyntheti
sierer 63 angelegt wird. Die Lautsteuerung setzt dann die
Bits in die zuvor erwähnten Spektralparameter um.
Damit die synthetisierte Sprache möglichst gut dem identi
fizierten ursprünglichen Sprecher gleicht, können verschie
dene Codierungen senderseitig zu dem empfangenden Gerät
übertragen werden, wobei Daten über die spezielle Aussprache
des Sprechers bezüglich dieser Worte beinhaltet sein können.
Dies kann sehr einfach dadurch erreicht werden, daß eine
Sprecheridentifikationscodierung ausgesandt wird, die der
Empfänger zum Aufsuchen der Vokaltraktlänge und des mittleren
Tonhöhenbereichs verwendet. Alternativ dazu kann der
Sender auch Polynomkoeffizienten, die die Tonhöhenkontur
für den Satz beschreiben, und einen
Vokalspurlängenmodifizierer senden. Diese Polynomkoeffizienten
ermöglichen, daß der richtige Tonhöhenbereich, der richtige Ton
höhenabfall und die Betonung mit sehr wenigen Bits übertragen
werden können. Der Vokalspurlängenmodifizierer ermöglicht es
dem Synthetisierer, eine Polynominterpolation der LPC-
Reflektionskoeffizienten durchzuführen, wodurch der
Vokaltrakt länger oder kürzer gemacht werden kann als bei
dem gespeicherten Muster, das bei den Buchstaben/Ton-
Regeln verwendet wird.
Es wurde somit ein Extremschmalband-Übertragungssystem
offenbart, bei dem die menschliche Stimme in
Digitalsignale mit weniger als
300 Bits pro Sekunde umgesetzt werden kann.
Claims (21)
1. Extremschmalband-Übertragungssystem mit einem Wandler
zum Umwandeln menschlicher Sprache in elektrische Signale,
mit:
einer Analysiereinrichtung (15), die elektrische Signale von dem Wandler (14) empfängt und eine Vielzahl von Signalen abgibt, die eine Vielzahl von Eigenschaften repräsentieren, die eine menschliche Stimme charakterisieren,
einer Speichereinrichtung, in der Signale speicherbar sind, die eine Vielzahl gesprochener Wörter repräsentieren,
einer Worterkennungseinrichtung (16), die mit der Analysiereinrichtung (15) und mit der Speichereinrichtung verbunden ist und zumindest einen Teil der Vielzahl von Signalen von der Analysiereinrichtung empfängt, um diese mit den gespeicherten Signalen zu vergleichen, und um Signale abzugeben, die bestimmte gesprochene Wörter repräsentieren, dadurch gekennzeichnet, daß die Worterkennungseinrichtung eine Sprechererkennungseinrichtung aufweist und die von der Worterkennungseinrichtung abgegebenen Signale auch repräsentativ für den momentanen Sprecher sind, und daß
eine Digitalwandlereinrichtung vorgesehen ist, die mit der Worterkennungseinrichtung (16) verbunden ist, um die, die bestimmten gesprochenen Wörter darstellenden Signale zu empfangen und diese in digitales Format umzuwandeln, wobei ein Teil der Bits die Nachricht und ein anderer Teil der Bits den jeweiligen Sprecher charakterisieren.
einer Analysiereinrichtung (15), die elektrische Signale von dem Wandler (14) empfängt und eine Vielzahl von Signalen abgibt, die eine Vielzahl von Eigenschaften repräsentieren, die eine menschliche Stimme charakterisieren,
einer Speichereinrichtung, in der Signale speicherbar sind, die eine Vielzahl gesprochener Wörter repräsentieren,
einer Worterkennungseinrichtung (16), die mit der Analysiereinrichtung (15) und mit der Speichereinrichtung verbunden ist und zumindest einen Teil der Vielzahl von Signalen von der Analysiereinrichtung empfängt, um diese mit den gespeicherten Signalen zu vergleichen, und um Signale abzugeben, die bestimmte gesprochene Wörter repräsentieren, dadurch gekennzeichnet, daß die Worterkennungseinrichtung eine Sprechererkennungseinrichtung aufweist und die von der Worterkennungseinrichtung abgegebenen Signale auch repräsentativ für den momentanen Sprecher sind, und daß
eine Digitalwandlereinrichtung vorgesehen ist, die mit der Worterkennungseinrichtung (16) verbunden ist, um die, die bestimmten gesprochenen Wörter darstellenden Signale zu empfangen und diese in digitales Format umzuwandeln, wobei ein Teil der Bits die Nachricht und ein anderer Teil der Bits den jeweiligen Sprecher charakterisieren.
2. Extremschmalband-Übertragungssystem, dadurch
gekennzeichnet, daß zumindest der den Nachrichtenanteil
repräsentierende Teil der Bits in ein
Übertragungsgeschwindigkeitsformat von weniger als 300 Bit
pro Sekunde umgewandelt wird.
3. Extremschmalband-Übertragungssystem nach Anspruch 1
oder 2, dadurch gekennzeichnet, daß von der
Digitalwandlereinrichtung in einen für die Übertragung
bestimmten Datenstrom auch Bits eingefügt werden, welche
die Stimme des jeweiligen Sprechers charakterisieren.
4. Extremschmalband-Übertragungssystem nach mindestens
einem der vorhergehenden Ansprüche, dadurch
gekennzeichnet, daß eine Einrichtung zum Übertragen
der Digitalsignale von der Digitalwandlereinrichtung zu
einer entfernt angeordneten Einheit (12), sowie eine
Einrichtung zum Empfangen von ankommenden Signalen
und eine Synthetisiervorrichtung (22) zum Umwandeln der
Digitalsignale in synthetisierte menschliche Sprache, die
charakteristisch für die Stimme des jeweiligen Sprechers
ist, vorhanden sind.
5. Extremschmalband-Übertragungssystem nach mindestens
einem der vorhergehenden Ansprüche, dadurch
gekennzeichnet, daß die Analysiereinrichtung (15) eine
Linear-Predictive-Code-Anlaysierschaltung (32) aufweist.
6. Extremschmalband-Übertragungssystem nach mindestens
einem der vorhergehenden Ansprüche, dadurch
gekennzeichnet, daß die Worterkennungseinrichtung (16)
eine Einrichtung (42, 43, 45) zum Erkennen des Beginns und
des Endes eines gesprochenen Wortes aufweist.
7. Extremschmalband-Übertragungssystem nach mindestens
einem der vorhergehenden Ansprüche, dadurch
gekennzeichnet, daß die Speichereinrichtung Signale
gespeichert hat, die eine Vielzahl von Wörtern darstellen,
die von einer Vielzahl unterschiedlicher Sprecher
gesprochen worden sind und daß die
Sprechererkennungseinrichtung empfangene Signale mit den
gespeicherten Signalen vergleicht, um dadurch Signale
abzugeben, die bestimmte Wörter repräsentieren, die von
einem bestimmten Sprecher abgegeben wurden.
8. Extremschmalband-Übertragungssystem nach mindestens
einem der vorhergehenden Ansprüche, dadurch
gekennzeichnet, daß die Sprechererkennungseinrichtung eine
Schaltung zum Modifizieren gespeicherter Wörter eines
Sprechers nach einer Sprechererkennung aufweist.
9. Extremschmalband-Übertragungssystem nach mindestens
einem der vorhergehenden Ansprüche 5 bis 8, dadurch
gekennzeichnet, daß die Sprechererkennungseinrichtung eine
Schaltung zur Mittelwertbildung der von der LPC-Schaltung
gelieferten LPC-Koeffizienten aufweist.
10. Extremschmalband-Übertragungssystem nach Anspruch 9,
dadurch gekennzeichnet, daß die
Sprechererkennungseinrichtung eine Schaltung zum
Zurückstellen einer Entscheidung bezüglich der Identität
des Sprechers aufweist, wenn der Vergleich eines
gesprochenen Wortes mit den gespeicherten Signalen, die
eine Vielzahl von Wörtern, wie sie von einer Vielzahl
von unterschiedlicher Sprecher gesprochen worden,
repräsentieren, innerhalb eines vorbestimmten
Unsicherheitsbereichs liegt.
11. Extremschmalband-Übertragungssystem nach mindestens
einem der vorhergehenden Ansprüche, dadurch
gekennzeichnet, daß die Digitalwandlereinrichtung eine
Einrichtung zum Umwandeln von Buchstaben eines jeden
bestimmten gesprochenen Wortes in ASCII-Code für die
Übertragung enthält.
12. Verfahren für eine extrem schmalbandige Übertragung
von Nachrichten mit folgenden Schritten:
Umwandeln menschlicher Sprache in elektrische Signale,
Analysieren der elektrischen Signale um eine Vielzahl von Signalen zu erhalten, die eine Vielzahl von Eigenschaften repräsentieren, welche eine menschliche Stimme charakterisieren,
Speichern von Signalen, die eine Vielzahl gesprochener Wörter repräsentieren,
Vergleichen von zumindest einigen der Vielzahl von Signalen mit den gespeicherten Signalen um bestimmte Wörter der menschlichen Sprache festzustellen und Bereitstellen von Signalen, die die bestimmten Wörter repräsentieren, gekennzeichnet durch folgende weitere Verfahrensschritte:
Feststellen der Identität des jeweiligen Sprechers und Berücksichtigen dieser Identitätsinformation in den bereitgestellten Signalen und
Umwandeln der bereitgestellten Signale in digitales Format, wobei ein Teil der Bits die durch die Wörter gebildete Nachricht und ein anderer Teil der Bits den jeweiligen Sprecher repräsentieren.
Umwandeln menschlicher Sprache in elektrische Signale,
Analysieren der elektrischen Signale um eine Vielzahl von Signalen zu erhalten, die eine Vielzahl von Eigenschaften repräsentieren, welche eine menschliche Stimme charakterisieren,
Speichern von Signalen, die eine Vielzahl gesprochener Wörter repräsentieren,
Vergleichen von zumindest einigen der Vielzahl von Signalen mit den gespeicherten Signalen um bestimmte Wörter der menschlichen Sprache festzustellen und Bereitstellen von Signalen, die die bestimmten Wörter repräsentieren, gekennzeichnet durch folgende weitere Verfahrensschritte:
Feststellen der Identität des jeweiligen Sprechers und Berücksichtigen dieser Identitätsinformation in den bereitgestellten Signalen und
Umwandeln der bereitgestellten Signale in digitales Format, wobei ein Teil der Bits die durch die Wörter gebildete Nachricht und ein anderer Teil der Bits den jeweiligen Sprecher repräsentieren.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet,
daß der den Nachrichtenanteil repräsentierende Teil der
Bits ein Übertragungsgeschwindigkeitsformat von weniger
als 300 Bit pro Sekunde aufweist.
14. Verfahren nach Anspruch 12 oder 13, dadurch
gekennzeichnet, daß in den für die Übertragung
vorgesehenen Datenstrom auch Bits eingefügt werden, welche
die Stimme des jeweiligen Sprechers charakterisieren.
15. Verfahren nach mindestens einem der Ansprüche 12 bis
14, dadurch gekennzeichnet, daß in dem Speicherschritt
eine Vielzahl von Wörtern, wie sie von einer Vielzahl
unterschiedlicher Sprecher gesprochen wurden, gespeichert
werden.
16. Verfahren nach mindestens einem der Ansprüche 12 bis
15, dadurch gekennzeichnet, daß der Beginn und das Ende
jedes gesprochenen Wortes vor dem Vergleichsschritt
festgestellt wird.
17. Verfahren nach mindestens einem der Ansprüche 12 bis
16, dadurch gekennzeichnet, daß der Schritt des
Analysierens das Erstellen von LPC-Koeffizienten und das
Ausmitteln dieser Koeffizienten vor dem Vergleichsschritt
mit umfaßt.
18. Verfahren nach mindestens einem der Ansprüche 12 bis
17, dadurch gekennzeichnet, daß in dem Vergleichsschritt
eine Entscheidung bezüglich des individuellen Sprechers
zurückgestellt wird, wenn der Vergleich eines gesprochenen
Wortes mit den gespeicherten Signalen die die Vielzahl der
von unterschiedlichen Sprechern gesprochenen Wörtern
repräsentieren, innerhalb eines bestimmten
Unsicherheitsbereiches liegt.
19. Verfahren nach mindestens einem der Ansprüche 12 bis
18, dadurch gekennzeichnet, daß
im Anschluß an die Feststellung des
jeweiligen Sprechers und gemäß der von diesem Sprecher
zuletzt abgegebenen Sprache eine Modifizierung
an den gespeicherten Signalen vorgenommen wird.
20. Verfahren nach mindestens einem der Ansprüche 12 bis
19, gekennzeichnet durch das Speichern einer Vielzahl
vorgegebener Nachrichten und das Anzeigen einer Liste
möglicher nächster Worte im Anschluß an das Erkennen des
Endes eines Wortes, an den Sprecher.
21. Verfahren nach mindestens einem der Ansprüche 12 bis
20, gekennzeichnet durch das Empfangen eines digitalen
elektrischen Signals, das von einer entfernten Einheit
übertragen wurde und durch das Umwandeln dieses
empfangenen Signals in eine gesprochene Nachricht in
synthetische Sprache, die etwa die charakteristischen
Eigenschaften des ursprünglichen Sprechers an der
entfernten Einheit aufweist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/490,701 US4707858A (en) | 1983-05-02 | 1983-05-02 | Utilizing word-to-digital conversion |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3416238A1 DE3416238A1 (de) | 1984-12-20 |
DE3416238C2 true DE3416238C2 (de) | 1995-09-14 |
Family
ID=23949123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3416238A Expired - Fee Related DE3416238C2 (de) | 1983-05-02 | 1984-05-02 | Extremschmalband-Übertragungssystem und Verfahren für eine Übertragung von Nachrichten |
Country Status (3)
Country | Link |
---|---|
US (1) | US4707858A (de) |
JP (1) | JPS59225635A (de) |
DE (1) | DE3416238C2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10117367B4 (de) * | 2001-04-06 | 2005-08-18 | Siemens Ag | Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60239798A (ja) * | 1984-05-14 | 1985-11-28 | 日本電気株式会社 | 音声信号符号化/復号化装置 |
JPS61252596A (ja) * | 1985-05-02 | 1986-11-10 | 株式会社日立製作所 | 文字音声通信方式及び装置 |
JPS63158596A (ja) * | 1986-12-23 | 1988-07-01 | 株式会社東芝 | 音韻類似度計算装置 |
US5009143A (en) * | 1987-04-22 | 1991-04-23 | Knopp John V | Eigenvector synthesizer |
EP0290190B1 (de) * | 1987-04-30 | 1991-10-09 | Oki Electric Industry Company, Limited | Anordnung zum Vergleichen von Mustern |
FR2642882B1 (fr) * | 1989-02-07 | 1991-08-02 | Ripoll Jean Louis | Appareil de traitement de la parole |
JPH03120598A (ja) * | 1989-10-03 | 1991-05-22 | Canon Inc | 音声認識方法及び装置 |
CA2056110C (en) * | 1991-03-27 | 1997-02-04 | Arnold I. Klayman | Public address intelligibility system |
US5748843A (en) * | 1991-09-20 | 1998-05-05 | Clemson University | Apparatus and method for voice controlled apparel manufacture |
US5475798A (en) * | 1992-01-06 | 1995-12-12 | Handlos, L.L.C. | Speech-to-text translator |
US5402520A (en) * | 1992-03-06 | 1995-03-28 | Schnitta; Bonnie S. | Neural network method and apparatus for retrieving signals embedded in noise and analyzing the retrieved signals |
US5675705A (en) * | 1993-09-27 | 1997-10-07 | Singhal; Tara Chand | Spectrogram-feature-based speech syllable and word recognition using syllabic language dictionary |
US5696879A (en) * | 1995-05-31 | 1997-12-09 | International Business Machines Corporation | Method and apparatus for improved voice transmission |
JPH08335091A (ja) * | 1995-06-09 | 1996-12-17 | Sony Corp | 音声認識装置、および音声合成装置、並びに音声認識合成装置 |
JPH09149133A (ja) * | 1995-11-22 | 1997-06-06 | Fujitsu Ltd | テレビ会議システムのための音声入力端末および音声合成端末 |
US6035273A (en) * | 1996-06-26 | 2000-03-07 | Lucent Technologies, Inc. | Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes |
FR2752477B1 (fr) * | 1996-08-16 | 1998-09-25 | Vernois Goulven Jean Alain | Systeme de transmission de messages oraux |
US5774857A (en) * | 1996-11-15 | 1998-06-30 | Motorola, Inc. | Conversion of communicated speech to text for tranmission as RF modulated base band video |
US6317714B1 (en) | 1997-02-04 | 2001-11-13 | Microsoft Corporation | Controller and associated mechanical characters operable for continuously performing received control data while engaging in bidirectional communications over a single communications channel |
US6167374A (en) * | 1997-02-13 | 2000-12-26 | Siemens Information And Communication Networks, Inc. | Signal processing method and system utilizing logical speech boundaries |
US6041300A (en) * | 1997-03-21 | 2000-03-21 | International Business Machines Corporation | System and method of using pre-enrolled speech sub-units for efficient speech synthesis |
US6092039A (en) * | 1997-10-31 | 2000-07-18 | International Business Machines Corporation | Symbiotic automatic speech recognition and vocoder |
FR2771544B1 (fr) * | 1997-11-21 | 2000-12-29 | Sagem | Procede de codage de la parole et terminaux pour la mise en oeuvre du procede |
US6119086A (en) * | 1998-04-28 | 2000-09-12 | International Business Machines Corporation | Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens |
US6490563B2 (en) * | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
US6993480B1 (en) | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
GB2348035B (en) * | 1999-03-19 | 2003-05-28 | Ibm | Speech recognition system |
GB2348342B (en) * | 1999-03-25 | 2004-01-21 | Roke Manor Research | Improvements in or relating to telecommunication systems |
US6785649B1 (en) * | 1999-12-29 | 2004-08-31 | International Business Machines Corporation | Text formatting from speech |
US7219056B2 (en) * | 2000-04-20 | 2007-05-15 | International Business Machines Corporation | Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate |
DE10127558A1 (de) * | 2001-06-06 | 2002-12-12 | Philips Corp Intellectual Pty | Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit Überprüfung der Benutzungsberechtigung von Sprach-, Gestik-, Mimik- und/oder Verhaltensprofilen zur Synthese |
US7177801B2 (en) * | 2001-12-21 | 2007-02-13 | Texas Instruments Incorporated | Speech transfer over packet networks using very low digital data bandwidths |
US8050434B1 (en) | 2006-12-21 | 2011-11-01 | Srs Labs, Inc. | Multi-channel audio enhancement system |
JP4246792B2 (ja) * | 2007-05-14 | 2009-04-02 | パナソニック株式会社 | 声質変換装置および声質変換方法 |
US9622053B1 (en) | 2015-11-23 | 2017-04-11 | Raytheon Company | Methods and apparatus for enhanced tactical radio performance |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1435779A (en) * | 1972-09-21 | 1976-05-12 | Threshold Tech | Word recognition |
JPS5919358B2 (ja) * | 1978-12-11 | 1984-05-04 | 株式会社日立製作所 | 音声内容伝送方式 |
US4392018A (en) * | 1981-05-26 | 1983-07-05 | Motorola Inc. | Speech synthesizer with smooth linear interpolation |
US4378469A (en) * | 1981-05-26 | 1983-03-29 | Motorola Inc. | Human voice analyzing apparatus |
US4424415A (en) * | 1981-08-03 | 1984-01-03 | Texas Instruments Incorporated | Formant tracker |
EP0071716B1 (de) * | 1981-08-03 | 1987-08-26 | Texas Instruments Incorporated | Allophonvokoder |
US4441200A (en) * | 1981-10-08 | 1984-04-03 | Motorola Inc. | Digital voice processing system |
US4590604A (en) * | 1983-01-13 | 1986-05-20 | Westinghouse Electric Corp. | Voice-recognition elevator security system |
US4556944A (en) * | 1983-02-09 | 1985-12-03 | Pitney Bowes Inc. | Voice responsive automated mailing system |
-
1983
- 1983-05-02 US US06/490,701 patent/US4707858A/en not_active Expired - Lifetime
-
1984
- 1984-04-26 JP JP59085062A patent/JPS59225635A/ja active Pending
- 1984-05-02 DE DE3416238A patent/DE3416238C2/de not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10117367B4 (de) * | 2001-04-06 | 2005-08-18 | Siemens Ag | Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten |
Also Published As
Publication number | Publication date |
---|---|
JPS59225635A (ja) | 1984-12-18 |
DE3416238A1 (de) | 1984-12-20 |
US4707858A (en) | 1987-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3416238C2 (de) | Extremschmalband-Übertragungssystem und Verfahren für eine Übertragung von Nachrichten | |
DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. | |
EP1113420B1 (de) | Verfahren zur Spracherkennung und Kontrolle einer Sprachsyntheseneinheit oder Kommunikationssystem | |
DE69031165T2 (de) | System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen | |
DE60031432T2 (de) | System, verfahren und hergestellter gegenstand zur detektion von emotionen in sprachsignalen mittels statistischer analyse von sprachsignalparametern | |
DE60020865T2 (de) | System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE4397100C2 (de) | Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE60020434T2 (de) | Erzeugung und Synthese von Prosodie-Mustern | |
DE3781393T2 (de) | Verfahren und einrichtung zur komprimierung von sprachsignaldaten. | |
DE2918533A1 (de) | Spracherkennungssystem | |
DE60313706T2 (de) | Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
DE602004006641T2 (de) | Audio-dialogsystem und sprachgesteuertes browsing-verfahren | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE10018134A1 (de) | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen | |
EP1051701B1 (de) | Verfahren zum übermitteln von sprachdaten | |
DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE60020504T2 (de) | Anpassung eines spracherkenners an korrigierte texte | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8339 | Ceased/non-payment of the annual fee |