DE3416238A1 - Extremschmalband-uebertragungssystem - Google Patents
Extremschmalband-uebertragungssystemInfo
- Publication number
- DE3416238A1 DE3416238A1 DE19843416238 DE3416238A DE3416238A1 DE 3416238 A1 DE3416238 A1 DE 3416238A1 DE 19843416238 DE19843416238 DE 19843416238 DE 3416238 A DE3416238 A DE 3416238A DE 3416238 A1 DE3416238 A1 DE 3416238A1
- Authority
- DE
- Germany
- Prior art keywords
- signals
- words
- spoken
- word
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Description
In Übertragungssystemen ist es äußerst wünschenswert, Nachrichten mittels Sprache auszutauschen. Andererseits
ist es erwünscht, digitale Schaltungen zu verwenden, da ein Großteil dieser Schaltungen auf einem einzigen integrierten
Schaltungschip untergebracht werden können, was den erforderlichen Raum- und Energiebedarf, wesentlich
verringert. Digitale Darstellungen der menschlichen Spraehe erfordern jedoch im allgemeinen eine verhältnismäßig
große Bandbreite, so daß sie für viele Arten von Übertragungsmedien, etwa Telefonleitungen oder dergleichen, nicht
geeignet sind. Die Bit-Übertragungsgeschwindigkeit (Bandbreite) von Nachrichten soll deshalb so niedrig wie möglieh
sein. Unter "Schmalband" wird üblicherweise eine Bit-Übertragungsgeschwindigkeit von etwa 2 000 Bits pro
Sekunde verstanden. Bekannte Vorrichtungen arbeiten über
300 Bits pro Sekunde und alles, was darunter liegt, soll als "Extremschmalband" bezeichnet werden.
Die vorliegende Erfindung betrifft ein Extremschmalband-Übertragungssystem
und ein Verfahren zum Nachrichtenaustausch in einem extremen Schmalband, wobei menschliche
Sprache in elektrische Signale umgewandelt und analysiert wird, so daß sich Signale ergeben, die Eigenschaften darstellen,
welche das spezielle menschliche Sprechen charak-■^
terisieren. Die Wörter der Nachricht werden dann mit Wörtern in einem Speicher verglichen, so daß das spezielle
Wort»srkannt wird und falls erwünscht auch der spezielle Sprecher,
der dieses Wort ausgesprochen hat. Ein das spezielle Wort darstellendes Digitalsignal, das eine ASCII- oder
° numerische Kodierung sein kann und die Position des Wortes im Speicher angibt, wird mit Digitalsignalen kombiniert,
die die Stimme des Sprechers charakterisieren, damit sich eine Nachricht ergibt mit einer Bit-Geschwindigkeit
wesentlich unter 300 Bit pro Sekunde, wobei die Nachrieht zu einem entfernten Endgerät übertragen wird. Dieses
Endgerät synthetisiert die menschliche Stimme, so daß die Nachricht derart ertönt, als wenn die ursprüngliche
Stimme sprechen würde. Verschiedene Verfahren und Einrichtungen dienen dazu, die korrekte Erkennung jedes Wortes
und des speziellen Sprechers zu gewährleisten einschließlich einer Mittelwertbildung von LPC-Koeffizienten, Hinausschieben
einer Entscheidung bezüglich der Identität des Sprechers, wenn der Vergleich der gesprochenen mit den gespeicherten
Wörtern innerhalb eines vorbestimmten Unsicher- SQ heitsbereichs liegt und Modifizieren beziehungsweise auf
den neuesten Stand Bringen der gespeicherten Wörter eines individuellen Sprechers, nachdem dieser erkannt wurde.
Der Erfindung liegt die Aufgabe zugrunde, ein neues und verbessertes Extremschmalband-Übertragungssystem anzugeben
.
•^ " · I» *l · «1 I· AM«*·»
Ferner soll ein verbessertes Verfahren des Nachrichtenaustausches mittels Extremschmalband aufgezeigt werden.
An der empfangenden Endstation soll eine Stimme synthetisiert werden, die gleich derjenigen des ursprünglichen
Sprechers ist.
Die Erkennung des Sprechers soll äußerst genau erfolgen.
Ein Ausführungsbeispiel der Erfindung wird nachstehend unter Bezugnahme auf die Zeichnung beschrieben. Es zeigen
Figur 1 ein vereinfachtes Blockschaltbild eines Extremschmalbandnachrichten- oder übertragungssystems
der Ausführungsform der Er
findung,
Figur 2 ein Blockschaltbild der LPC-Analysierein-. ' heit des Systems nach Figur 1,
Figur 3 ein Blockschaltbild der CPU-Einheit des Systems nach Figur 1 ,
Figur 4 ein Blockschaltbild der Worterkennungseinheit
des Systems nach Figur 1, Figur 5 ein Blockschaltbild der Synthetisiereinheit
des Systems nach Figur 1, Figur 6 ein Flußdiagramm zur Veranschaulichung des
Beginns und der Beendigung einer Wortidentifikation in der Worterkennungseinheit der
Figur 4,
Figur 7 ein Flußdiagramm beziehungsweise ein Syntax-'
baum bestimmt für militärische Zwecke und
Figur 8 vier typische Anzeigebilder im Zusammenhang mit dem Flußdiagramm der Figur 7-
Figur 1 zeigt das Extremschmalband-Übertragungssystem gemaß
dem Ausführungsbeispiel der Erfindung. Ein Ortsterminal 10 und ein entferntes Terminal 12 sind über ein geeignetes
Mittel, etwa Telefonleitungen oder dergleichen, ver-
M ' ' 3A16238
bunden. Das Ortsterrninal 10 weist ein Mikrofon 14 zum Umwandeln
der menschlichen Sprache in elektrische Signale in üblicher Art auf und ist mit einer LPC-Analysiereinheit
15 und einer Worterkennungseinheit 16 verbunden. LPC-Analyse bedeutet Analyse einer linearen vorhersagbaren
Kodierung. Die LPC-Analysiereinheit oder -schaltungsplatte 15 ist an eine zentrale Verarbeitungseinheit CPU
angeschlossen, die wiederum mit einem Rechner 20 in Verbindung steht, der ein Tastenfeld, einen Austauschplattenspeicher
(Floppydiscspeicher) und eine Sichtanzeige aufweist. Die Worterkennungseinheit 16 ist mit dem Personalrechner
20 und eine Synthetisiereinheit oder -schaltungsplatte 22 ist ebenfalls mit dem Rechner 20 verbunden.
Der Ausgang der Synthetisiereinheit 22 liegt an Kopfhörern 23 oder einem anderen Wandler geeigneter Art zum Umwandeln
elektrischer Signale von der Synthetisiereinheit 22 in Schall.
Figur 2 zeigt in größerer Einzelheit ein Blockschaltbild der LPC-Analysiereinheit 15 in Form eines vollständigen
digitalen Sprachverarbeitungssystems, wie es im einzelnen
in der noch schwebenden US-Patentanmeldung mit der Bezeichnung "Digital Voice Processing System" und dem Aktenzeichen
309 640 vom 8. Oktober 1981 beschrieben ist. Die LPC-Analysiereinheit ist nur ein Teil des in Figur 2 veranschaulichten
Systems und ist im einzelnen in der US-PS 4 378 469 erläutert. Das vollständige Verarbeitungssystem
ist deshalb beschrieben, weil es einen Teil der LPC-Analysiereinheit 15 darstellt und der Synthetisierteil
der Einheit 15 zur Synthetisierung der menschlichen Stimme verwendet werden kann, so daß sie am entfernten
Terminal 12 wie das Sprechen eines Sprechers ertönt. Im vorliegenden System wird der Synthetisierer der
Einheit 15 nicht verwendet. Der Fachmann erkennt jedoch, daß diese Einheit ohne weiteres an Stelle der Synthetisiereinheit
22 eingesetzt werden kann.
Gemäß Figur 2 werden Tonfrequenzsignale von dem Mikrofon
14 über eine AVR-Schaltung 25 mit automatischer Verstärkungsregelung
und ein Tiefpaßfilter 26 einer Abtast- und Halteschaltung 28 zugeführt. Diese arbeitet mit einem
Analog-/Digitalwandler 30 zusammen, um für jede durch die Abtast- und Halteschaltung 28 durchgeführte Abtastung eine
12 Bit-Digitaldarstellung abzugeben. Diese Digitalwerte von dem A/D-Wandler 30 werden einer LPC-Analysiereinheit
zugeführt, die in der vorgenannten Patentschrift im einzelnen beschrieben ist. Die LPC-Analysiereinheit 32 gibt
mehrere Signale ab, die unterschiedliche Eigenschaften darstellen, die eine menschliche Stimme charakterisieren,
wie den Tonhöhenfrequenzbereich und eine Abschätzung der vokalen Spurlänge sowie wahlweise einsetzbare zusätzliche
Eigenschaften, wie die glottale Erregungsform im Frequenzbereich und der Heiserkeitsgrad etc. Die Signale von der
LPC-Analysiereinheit 32 umfassen auch einen RMS-Durchschnxttswert
und eine vorbestimmte Anzahl von LPC-Koeffizienten, nämlich in diesem Ausführungsbeispiel zehn. Alle
diese Signale von der LPC-Analysiereinheit 32 werden über eine Schnittstelle 34 der CPU 18 zur Speicherung und Verarbeitung
zugeführt. Ein detaillierteres Blockschaltbild der CPU 18 ist in Figur 3 gezeigt. Bei diesem Ausführungsbeispiel ist die CPU 18 die im Handel erhältliche
CMT-68K-CPU. Da die in Figur 3 veranschaulichte CPU 18 im Handel erhältlich ist, kennt der Fachmann die Arbeitsweise.
Da alls Blöcke ausreichend definiert sind, soll deren Funktion nicht im einzelnen beschrieben werden.
Obwohl die verschiedensten Einrichtungen als Worterkennungseinheit
16 verwendet werden können, kommt bei der vorliegenden Ausführungsform die im Handel erhältliche
Einheit VRM102 zum Einsatz, die anhand der Figur 4 erläutert
wird. Die Tonfrequenzsignale vom Mikrofon 14 werden an den Audioeingang angelegt und über einen Vorverstärker
35 zum 16 Filter-Analysierer 37 geleitet. Der 16 Filter-Analysierer 37 führt grundsätzlich die Analysierfunk-
tion der LPC-Analysiereinheit durch und der Fachmann erkennt,
daß eine Worterkennungseinheit auch auf Signale der LPC-Analysiereinheit 15 basieren kann. Das Ausgangssignal
des 16 Filter-Analysierers 37 wird über einen Gleichrich- ^ ter 39 an einen 8 Bit-Analog-/Digitalwandler 40 angelegt.
Dieser A/D-Wandler 40 ist mit einem 6802 Mikroprozessor 42, einem 4K-RAM-Speicher 43 und einem 4K-ROM-Speicher 45 verbunden.
Die Worterkennungseinheit 16 besitzt auch mehrere Anschlüsse und Puffer zum Nachrichtenaustausch mit dem
Personalrechner 20, dessen Funktion bekannt ist und hier nicht im einzelnen beschrieben wird.
Spektralamplituden des Gleichrichters 39 werden alle 5 ms durch den A/D-Wandler 40 ausgelesen. Das System mißt die
!5 Spektraldifferenz zwischen dem augenblicklichen Spektrum
und dem Hintergrundrauschen, überschreitet diese Differenz
einen ersten Schwellenwert, dann markiert das System den möglichen Beginn eines Wortes und spektrale Abtastungen
werden in dem "UNBEKANNTEN"-Schablbnenspeicher 4K-HAM-Speicher 43 aufgezeichnet. Nun wird die Empfindlichkeit
auf Spektraländerungen erhöht und neue Spektren werden immer dann aufgezeichnet, wenn eine gegen einen
zweiten Schwellenwert gemessene geringfügige Änderung zwischen dem augenblicklichen und dem letzten Spektrum
auftritt. Bei jeder signifikanten Änderung wird ein im Personalrechner 20 angeordneter Abtastzähler (NSAMP) aufgezählt.
Diese Zählung muß ein Minimum von MINSAM, nämlich 16 unterschiedliche Spektralformen erreichen, bevor
das System ein Wort als gültig erklärt, sonst wird der Schall als Hintergrundrauschen bestimmt. Jeder 5 ms-Rahmen,
der keine signifikante Spektraländerung aufweist, ist ein Hinweis auf das Wortende. Vergehen 160 ms ohne Spektrumsänderung, dann wird das letzte Spektrum als wahrscheinliches
Wortende erklärt und eine Musterübereinstimmungsprüfung beginnt. Ein Flußdiagramm dieses Verfahrens ist in
Fig. 6 veranschaulicht.
^ Der Ablauf beginnt mit einem Zustand 47, der mit "Ruhezustand,
kein Wort" bezeichnet ist. Der Abtastzähler (NSAMP) beginnt bei Null zu zählen und wenn die Differenz zwischen
dem augenblicklichen Spektrum und dem Hintergrundrauschen den Schwellenwert t-1 überschreitet, da-nn läuft das Verfahren
zum Zustand 48, der mit "möglicher Wortbeginn" bezeichnet ist. überschreitet die Differenz zwischen dem
augenblicklichen und dem letzten Spektrum nicht den zweiten Schwellenwert t2, dann geht der Ablauf zum Kreis 49,
der mit "NSCNG = NSCHG + 1" bezeichnet ist. Ist die Zeit
seit der letzten Spektraländerung kurz, dann kehrt der Ablauf zurück zum Zustand 48, um die Messung von Spektraländerungen
zwischen dem augenblicklichen und dem letzten Spektrum fortzusetzen. Ist die Zeit seit der letzten Spektraländerung
lang - bei dem vorliegenden Ausführungsbeispiel etwa 16O ms - dann folgt im Ablauf der Zustand 50,
der mit "mögliches Wortende" bezeichnet ist. Ist die Zählung in dem Abtastzähler geringer als 16, dann kehrt der
Ablauf zurück zum Zustand 47 und beginnt erneut und die Spektraländerungen werden als zu kurz für ein Wort betrachtet,
so daß sie Hintergrundrauschen darstellen müssen, überschreitet die Zählung des Abtastzählers den Wert 16,
dann folgt der Zustand 52, · mit "Wortende, stelle Übereinstimmung
des Musters mit Ausgangswert her". Somit stellt das System fest, daß ein Wort gesprochen wurde und es beginnt
die Musterübereinstimmungsprüfung.
Sobald die Spektraländerung zwischen dem augenblicklichen und letzten Spektrum den Schwellenwert t2 überschreitet,
folgt Zustand 51, der mit "Bringe signifikantes Spektralmodell auf neuesten Stand" beschrieben ist. Ist der Eingangspuffer
des Abtastzählers NSAMP nicht gefüllt, dann kehrt der Ablauf zum Zustand 48 für die nächste 5 ms-Abtastung
zurück. Wird der Eingangspuffer des Abtastzählers NSAMP bei einer großen Spektraländerung gefüllt, dann geht
der Ablauf direkt zum Zustand 50, wo dies als Wortende bestimmt wird und es folgt Zustand 52, in dem die Herstellung
der Musterübereinstimmung beginnt. Wird der Ein-
gangspuffer des Abtastzählers NSAMP aufgrund eines kurzen Wortes nicht gefüllt, dann ergeben sich schließlich keine
Spektraländerungen in den Abtastungen und der Ablauf geht
zum Zustand 49 wie zuvor beschrieben,
5
Bei dem Terminal des vorliegenden Ausführungsbeispiels ist eine vorbestimmte Anzahl von Sprechern autorisiert,
das Terminal zu verwenden und Beispiele vorbestimmter Wörter und Phrasen, wie sie von jedem Sprecher gesprochen
wurden, sind in dem Austauschscheibenspeicher des Rechners 20 gespeichert..Die Worterkennungseinheit 16 dient
zur Unterstützung bei der Sprechererkennung bei einer etwas vereinfachten Ausführungsform. Wenn ein spezieller
Sprecher auf das System zugreift, identifiziert er sich
1^ sprachlich durch Name, Stand und Personalnummer oder irgendeine
andere Identifizierungszahl. Der Beginn und das Ende jedes Wortes wird von der Worterkennungseinheit 16
festgestellt, die den Personalrechner 20 von dem gesprochenen
Wort in Kenntnis setzt. Eine elektrische Darstellung
von LPC-Parameterdaten der LPC-Analysiereinheit 15
wird über den gesprochenen Bereich jedes Wortes gemittelt,
dann in der CPU 18 mit einem gespeicherten Beispiel vom Rechner 20 zur Übereinstimmung gebracht. Die Ergebnisse
der Übereinstimmungsprüfung werden mit einem Schwellenwert verglichen, um eine Entscheidung über die Identität
des Sprechers herbeizuführen.
Während der Benutzer das System weiter verwendet, erkennt
der Rechner 20 Stellen in Sätzen, wo die Anzahl möglicher nächster Wörter verhältnismäßig gering ist, wie dies jetzt
beschrieben wird. An diesen syntaktischen Knoten lädt der Personalrechner 20 Muster oder Schablonen, d.h. gespeicherte Modelle von Wörtern aller Sprecher für diese nächsten
möglichen Wörter. Beim nächsten gesprochenen Wort erkennt die Worterkennungseinheit diese Tatsache und vergleicht
die in das System geladenen Muster mit der Darstellung des gerade gesprochenen Wortes. Die Worterkennungs-
* einheit zeigt das gesprochene Wort an der Sichtanzeige des
Rechners 20 und auch den Sprecher an. Der Rechner 20 besitzt einen Abstimmzähler für jeden der möglichen autorisierten
Sprecher. Der Zähler des angezeigten Sprechers wird mit jedem erkannten Wort aufgezählt bis zu einem Maximum
von 25 und die Zähler aller nichtangezeigten Sprecher werden abwärts gezählt bis zu einer unteren Grenze
von Null. Wird beispielsweise eine Geheiminformation angefordert, dann werden die Zähler geprüft und als identifizierter
Sprecher derjenige bestimmt, dessen Zählung über 15 liegt, während alle anderen Zählungen unter 8 liegen
müssen. Werden diese Bedingungen nicht erfüllt, dann wird die Geheiminformation abgelehnt. Das System kann den Benutzer
im weiteren Identifikationsalgorithmus auffordern, beliebige Wörter zu sprechen, bis ein eindeutiger Gewinner
mit entsprechendem Abstand angezeigt wird, oder das System kann in seinem normalen Ablauf fortfahren und zu
einem späteren Zeitpunkt die Information nochmals anfordern. Das System kann eine Änderung des Sprechers innerhalb
von maximal 10 Wörtern erkennen. Auch ist der Sprecheridentifikationsalgorithmus
dem Benutzer im allgemeinen erkennbar und er weiß nicht, daß seine Stimme während
des normalen Ablaufs analysiert wird.
Die Verifikationssubsystemsoftware wird von den Austauschplatten
des Rechners 20 geladen und dieses Laden wird durch PrüfSummentests verifiziert. Als nächstes werden
statistische Muster jedes bekannten Sprechers ebenfalls geladen. Während der unbekannte Sprecher spricht, werden
Langzeitstatistiken der LPC-Reflexionskoeffizienten in
Echtzeit über die letzten 30 Sekunden der Sprache berechnet. Diese Statistiken schließen eine Mittelwert- und
Standardabweichung der Tonhöhe und die ersten 10 Reflexionskoeffizienten ein. Am Ende jedes Wortes, wie es durch die
Worterkennungseinheit 16 bestimmt wurde, berechnet die CPU 18 die Mehalanobisabstandsmetrik zwischen dem unbekannten
Wort und dem Muster jedes Sprechers. Der Mehalanobis-
abstand gewichtet den Abstand mit der Fähigkeit jedes Messungs-Eigenfektors, um den bekannten Sprecher von der
allgemeinen Bevölkerung zu unterscheiden. Schließlich informiert die CPU über den Sprecher mit der besten überein-Stimmung
und bestimmt die Genauigkeit der Schätzung durch den Mehalanobisabstand unter Verhältnisbildung zur Standardabweichung
dieses Sprechers und durch das Verhältnis zu der nächstbesten Übereinstimmung. Zweideutige Ergebnisse
d.h., wenn die Übereinstimmung innerhalb eines vorbestimmten Unsicherheitsbereichs liegt, bewirken, daß das
System eine Entscheidung zurückstellt, wodurch die Genauigkeit erhöht wird. Schließlich wird am Ende des Nachrichtenaustausches
dem Sprecher die Möglichkeit gegeben, sein Stimmenmodell durch die zusammengesetzten Statistiken
dieses Nachrichtenaustausches auf den neuesten Stand zu bringen.
Die LPC-Analysiereinheit 15 und die CPU 18 besitzen auch
eine Trainingsarbeitsweise bei der sich diese Statistiken eines gegebenen Sprechers ergeben und in der die Eigenfektoren
und Werte des Modells dieses Sprechers berechnet werden. Das System kann diese Daten zur Speicherung auf
den Austauschplatten des Rechners 20 aufwärts laden. Während die Worterkennungseinheit 16 als getrennte Einheit
des Systems veranschaulicht wird, weis der Fachmann, daß sie in einfacher Weise auch in die LPC-Analysiereinheit
15 oder die CPU 18 eingefügt sein kann, so daß diese Einheiten die Aufgaben der Erkennung des Beginns und
Endes eines Wortes, des spezifischen Wortes und des Sprechers durchführen können. Auch können Schablonen oder
Wortmodelle, die allgemein repräsentativ für jedes spezielle zu erkennende Wort sind, an Stelle eines Wortmodells
für jedes von jedem Sprecher gesprochene zu erkennende Wort verwendet werden, wobei nur die speziellen Wörter
durch die Einrichtung erkannt würden und nicht jedoch jeder spezielle Sprecher.
Ein typisches Beispiel einer militärischen Verwendung des
vorliegenden Systems sei nun in Verbindung mit den Fig. und 8 erläutert. Bei dieser speziellen Ausführungsform
ist das System so aufgebaut, daß es den Verwender mit einbezieht,
ein geographisches Truppenmodell, Nachschub und geographische Umwelt auf den neuesten Stand zu bringen.
Bei der grundsätzlichen Situation dieses Ausführungsbeispiels fordert der Benutzer Information von dem Terminal
an und, falls er richtig erkannt und geprüft wurde, wird die Information von einer entfernten Quelle gegeben. Es
sei für dieses spezielle Ausführungsbeispiel angenommen, daß das System um einen halben Bildschirm nach links, rechts
oben oder unten schwenken kann, oder nach Norden, Süden Osten oder Westen bei η-Meilen. Es soll ferner die Fähigkeit
besitzen, eine Fokusierte oder eine breitere Darstellung zu bieten, und zeigt wesentliche geographische Merkmale,,
etwa eines eines Landesstaates einer Stadt' von Grenzen, Straßen oder Hügel an. Bei der speziellen Anwendung
des Systems werden 55 Wörter und ein Syntaxnetzwerk mit semantischen Zuordnungen zu jedem Knoten des Netzwerks
verwendet, wie dies Fig. 7 veranschaulicht. Ein Syntaxnetzwerk leitet interaktiv die Auswahl von möglichen,
nächsten Wörtern von allen dem System bekannten Wörtern im Kontext aller Sätze, die das System versteht. Der Sprecher
kann jederzeit sagen "Löschen" um einen neuen Satz zu beginnen, oder er kann sagen "Auslöschen" um in einem
Satz ein Wort zu ersetzen. Wörter wie "UH, THE",Atemgeräusch und Zungenschlägen sind Modellwörter, die gespeichert
werden und die von dem System absichtlich ignoriert werden. Das System hilft dem Benutzer interaktiv,
wenn dieser spricht. Erwartet das System von ihm, daß er einen Satz beginnt, d.h., wenn die Worterkennungseinheit
16 den Anfang eines ersten Wortes feststellt, dann listet es alle möglichen ersten Wörter des Satzes auf, wie dies
in Fig. 8 A angegeben ist. Nach Sprechen des ersten Wortes wird auf dem Schirm das festgestellte Wort angezeigt
und es werden alle möglichen zweiten Wörter gemäß Fig. 8B aufgelistet. Dies setzt sich fort bis zum Ende des Satzes,
wenn die Daten für eine übertragung über dem Extremschmal-
band Nachrichtenkanal zusammengesetzt werden. Der Sprecher kann mit der Zeit sehen, welche nächsten Wörter erwartet
werden. Der Rechner 20 überwacht die Genauigkeit der Wortübereinstimmungen. Fällt irgendein Wort unter einen adaptiven
Schwellenwert, dann wiederholt die Synthetisiereinheit 22 den Satz und fragt nach fizierung vor der
Durchführung. Werden alle Wörter ganz klar erkannt, dann gibt die Synthetisiereinheit22 den Satz nach Vervollständigung
als Echo wieder, während der Rechner die Nachricht aussendet."
Nach Verarbeitung jedes gesprochenen Wortes wird dieses in den Speicher im Rechner 20 gebracht, wo die gesamte
Nachricht in ein Digitalsignal für eine minimale oder fast minimale Anzahl von Bits codiert wird. Die Wörter
können in codierter Form gespeichert werden, so -daß sich der erforderliche Speicherplatz reduziert. Da das System
eine vorbestimmte Anzahl von Wörtern enthält, die es erkennen kann, d.h., eine vorbestimmte Anzahl von Wortmodellen
oder Mustern, -so kann die Codierung in einer speziellen Nummer für jedes der Wörter bestehen. So kann im Beispiel
der Fig. 8 den Wörtern "shift focus " die Nr. 12 und dem Wort "south" die Nr. 18 zugeordnet werden, während
die Ziff. 2 durch die Nummer 21 dargestellt wird usw. Da diese Wörter durch die gleichen Nummern in dem entfernten
Terminal 12 dargestellt werden, wandetl der Personalrechner 20 diese Nummern in ein Digitalsignal um und überträgt
das Signal zu dem entfernten Terminal 12, wo das Signal in Nummern und dann in Wörter zurückgewandelt wird.
Ein zweites Codierungsverfahren, das bei dem vorliegenden Ausführungsbeispiel angewandt wird, besteht darin,
jeden Buchstaben jedes Wortes in der ASC Il-Codlerung zu
codieren. Dieses Codierungsverfahren hat einige Vorteile,
obwohl es einige wenige Bits mehr pro Wort benötigt. Einer dieser Vorteile besteht darin, daß das ausgesandte
Signal direkt zu den meisten heutigen elektrisch arbeitenden Druckvorrichtungen übertragen werden kann. In der ASC
- i/j-
II Codierung wird jeder Buchstabe durch 8 Bits dargestellt. Wenn somit die Musternachricht der Fig. 8 (shift focus
south 22 miles" ist, dann ist die für die Übertragung dieser Nachricht in der ASC II Codierung erforderliche Bitzahl
gleich 260. Werden 20 Bits zur Beschreibung von Eigenschaften der Stimme des Sprechers verwendet und erfordern
Synchronisationsfehlererkennung und Steuersignale weitere 30 Bits, dann ist die vollständige Nachricht etwa
310 Bits lang. Es ist somit möglich eine Nachricht mit einer Länge von etwa 4 Sekunden und mit 310 Bits, d.h., mit
etwa 77 Bits pro Sekunde zu übertragen.
Wird wie zuvor beschrieben ein Codierungssystem verwendet, bei dem jedem Wort eine spezielle Nummer zugeteilt ist,
dann ist die Situation folgende: nimmt man an, daß die gesprochene Nachricht eine von 100 möglichen Nachrichtentypen
mit jeweils gleicher Wahrscheinlichkeit ist, dann sind 7 Bits erforderlich um, um den gramatikalischen
Aufbau der Nachricht zu beschreiben. Werden 20 auswählbare Wörter in dem System gespeichert die ausgewählt werden
können, um verschiedene Positionen in der Nachricht einzunehmen, dann definieren 8 Bits welches Wort in jeder
gewünschten Position in der Nachricht verwendet wurde. Für die Musternachricht, wie Sie zuvor angegeben wurde,
nämlich für "shift focus south 22 miles" definieren 7 Bits die Nachricht Syntax, 40 Bits definieren die 5
auswählbaren Wörtern an Positionen innerhalb der Nachricht, wo eines von mehreren Wörtern ausgewählt werden kann,
und etwa 20 Bits können die Eigenschaften der Stimme der Sprecher angeben, so daß sich eine Gesamtzahl von 67 Bits
ergibt. Werden wiederum etwa 30 Bits für die Synchronisationsfehlerkorrektur und Steuersignale angesetzt, dann
umfaßt die gesamte Nachricht etwa 97 Bits oder etwa 25 Bits pro Sekunde.
Die Synthetisiereinheit 22 des vorliegenden Ausführungsbeispiels ist im Handel erhältlich und wird von der Firma
Mikromint Inc. als Mikrovoxsynthesizer vertrieben. Der Fachmann erkennt selbstverständlich, daß die LPC-Analysiereinheit
15 einen Synthetisierer aufweist, (vgl. Fig. 2) und an Stelle der Synthetisiereinheit 22 verwendet, wenn
die Sprechererkennung in dem System eingeschlossen ist und wenn es erwünscht ist, daß die syntetisierte Stimme
der Stimme des ursprünglichen Sprechers gleicht. Die Synthetisiereinheit 22 wurde jedoch hier beschrieben und
zwar der Einfachheit und des besseren Verständnis halber.
^q Von der Beschreibung der Synthetisiereinheit 22 ergibt sich
für den Fachmann ein vollkommenes Verständnis der Arbeitsweise des in der LPC-Analysiereinheit 15 vorhandenen Synthetisierers.
Eine vollständigere Beschreibung des Synthetisierers der in der LPC-Analysiereinheit 15 enthalten ist,
.,g ergibt sich aus der zuvor genannten Patentanmeldung und
aus der US-Patentanmeldung mit der Bezeichnung "Speech Synthesizer With Smooth Linear Interpolation", mit dem
Aktenzeichen 267 203, eingereicht am 26 Mai 1981.
Die Syrthetisiereinheit 22 ist ein freistehender inteligenter
Mikroprozessor, der ASCII Text in gesprochenes Englisch umwandelt. Sie besteht aus einem M 65 02 Mikroprozessor 55,
einer 9600 BPS UART-Teinheit 57 als serielle Schnittstelle einem RAM-Speicher 59 mit einer Speicherkapazität von 2K
p. Bits einem löschbaren, programmierbaren Nur-Lesespeicher
EPROM 61 mit 8 K-Bits, einem SCO1 Votrax-Stimmsyntetisierer
63, einem taktenden und programmierbaren Teiler 65 und verschiedenen Puffern, Steuerungen und Verstärkern. Die
Synthetisiereinheit 22 verwendet einen Algorythmus, der
grammatikalisch Serieneingangsdaten in Wörter umsetzt,
3U
dann die englischen Ausspracheregeln verwendet und einen Lautstrom aus dem ausgesprochenen zu erzeugen. Dieser
Lautstrom steuert dann den Sprachsyntttätisierer 63- Der
Sprachsynthetisierer63 besitzt einen ROM-Speicher der
Laute als eine Folge von 1 bis 4 Tönen in stätigem Zu-35
stand von spezifischer Dauer und mit spezifischem Spektrum erzeugt. Die Funktion der Synthetisiereinheit 22 beruht
auf den Buchstaben zu Laut-Umsetzungsregeln, die
in dem Mikroprozessor 55 angewandt werden, sowie auf der Laut-Sprachensyntese in dem Sprachsynthetisierer 63- Der
Mikroprozessor 55 liest bis zu 1500 Zeichen' in seinen internen Seitenpuffer von der seriellen Schnittstelle 57..
Er identifiziert Phrasengruppen durch ihre Punktuation und Wörter durch ihre Zwischenraumbegrenzer. Er verwendet
die Phrasengruppengrenzen um eine geeignete deklarative oder fragende Tonhöhen- und Dauerbeugung auf die Phrase
anzuwenden. Pro Wort wird jedes Zeichen von links nach rechts über das Wort abgetastet. Wird ein Zeichen gefunden,
bei dem die linken und rechten Kontexterfordernisse, (benachbarte Zeichen) erfüllt sind, dann wird die erste
anwendbare Regel für das Zeichen verwendet, um es in einen Laut umzusetzen.
Der Sprachsynthetisierer 63 ist ein CMOS-Typ, der aus einem
digitalen Codeumsetzer und einem elektronischen Modell der Vokalspur besteht. Intern ist eine Lautsteuerung vorgesehen,
die eine 6-Bit-Laut- und 2-Bit-Tonhöhencodierung in eine Matrix von spektralen Parametern umsetzt, die das Vokalspurmodell
zur Synthetisierung der Sprache einstellt. Die Ausgangstonhöhe der Laute wird durch die Frequenz des gegetakteten
Teiler 65 abgegebenen Taktsignal gesteuert. Feine Schwankungen der Tonhöhe können induziert werden, um
eine Beugung hinzuzufügen, was verhindert, daß die synthetisierte Stimme monoton und maschinell klingt. Während der
vorliegende Algorrhythmus einen englischen Text in Sprache umwandelt, ist es für den Fachmann verständlich, daß die
Sprachalgorhythmus genauso in anderen Sprachen geschrieben sein können. 64 Laute definieren die englische Sprache
und jeder Laut wird durch eine 6-Bit-Codierung gekennzeichnet, die von dem Mikroprozessor 55 an den Sprachsynthetisierer
63 angelegt wird. Die Lautsteuerung setzt dann die Bits in die zuvor erwähnten Spektralparameter um.
Damit die synthetisierte Sprache möglichst gut dem identifizierten
ursprünglichen Sprecher gleicht, können verschiedene Codierungen senderseitig zu dem empfangenden Gerät
übertragen werden, wobei Daten über die spezielle Aussprache des Sprechers bezüglich dieser Worte beinhalten.
Dies kann sehr einfach dadurch erreicht werden, daß eine Sprecheridentifikationscodierung ausgesandt wird, die der
Empfänger zum Aufsuchen der Vokalspurlänge und des mittleren Tonhöhenbereichs verwendet. Alternativ dazu kann der
Sender auch Polynomkoeffizienten aussenden, die die Tonhöhenkontur über der Länge des Satzes beschreibt, sowie einen
Vokalspurlängenmodifizierer. Diese Polynomkoeffizienten
ermöglichen, daß der richtige Tonhöhenbereich, Tonhöhenabfall und die Betonung mit sehr wenigen Bits übertragen
werden. Der Vokalspurlängenmodifizierer ermöglicht es
dem Syntetisierer eine Polynominterpolation der LPC-Reflektionskoeffizient durchzuführen, wodurch die
Vokalspur langer oder kürzer gemacht werden kann als bei dem gespeicherten Muster, das bei den Buchstaben- Zu-Ton-Regeln
verwendet wird.
Es wurde somit ein Extremschmalband-Übertragungssystem offenbart, bei dem jedes Terminal menschliche Stimme in
Digitalsignale mit einer Geschwindigkeit von weniger als 300 Bits pro Sekunde umsetzt. Das Terminal besitzt ferner
die Fähigkeit Digitalsignale zu empfangen, die repräsentativ für eine menschliche Stimme sind, und die
menschliche Stimme mit den gleichen Eigenschaften wie die des ursprünglichenSprechers zu synthetisieren. Außerdem
besitzt jedes Terminal die Fähigkeit Wörter und den speziellen Sprecher mit sehr hoher Genauigkeit zu erkennen
.
30
30
-η-
- Leerseite -
Claims (20)
- GRÜNECKER, KINKELD.SY, STOCKMAIR & PARTNERPATENTANWÄLTE N patent λγτομνκϊ sA. GRUNECKER. an. w»DR H. KINKELDEY. oa-niDR. W. STOCKMAIR. m. jns.ase <c«.tDR K. SCHUMANN, e>«v-»w3P H. JAKOS. mn. i~aDR Q. BEZOLD. wl o*mW. MEISTER, an.-»*H. HILGERS. on- *«DR H. MEYER-PLATH. c«.i~a80OO MÜNCHEN 22 MAXIMILIANS MÜSSE 5930. April 1984 P 18 69715 MOTOROLA, INC. 1303 E. Algonquin Road, Schaumburg, Illinois 6OI96, USAExtremschmalband-übertragungssystemPatentansprüche[1.yExtremschmalband-Übertragungssystem mit einem Wandler zum Umwandeln menschlicher Sprache in elektrische Signale, gekennzeichnet durch:eine Analysiervorrichtung (15), die elektrische Signale vom Wandler (14) empfängt und eine Vielzahl von Signalen abgibt, die eine Vielzahl von Eigenschaften darstellen, die eine menschliche Stimme charakteri-sieren;eine Speichervorrichtung (20) in der Signale gespeichert sind, die eine Vielzahl gesprochener Wörter darstellen;eine Worterkennungsvorrichtung (16), die mit der Analysiervorrichtung (15) und mit der Speichervorrichtung (20) zum Empfang von zumindest eines Teiles der Vielzahl von Signalen zum Vergleichen des empfangenen Teiles der Vielzahl von Signalen mit den gespeicherten Signalen verbunden ist, und Signale abgibt, die speziell gesprochene Wörter darstellen, undeine Digitalumwandlungsvorrichtung, die mit der Worterkennungsvorrichtung (16) zum Empfang der spezifisch gesprochenen Wörter darstellenden Signale verbunden ist, zum Umwandeln der empfangenen Signale in eine Digitalform mit einer Geschwindigkeit von weniger als 300 Bit pro Sekunde.
- 2. Extremschmalband-Übertragungssystem nach Ansrpuch 1, dadurch gekennzeichnet, daß die Analysiervorrichtung (15) eine Analysierschaltung (32) für eine linear vorhersagbare Codierung aufweist.
- 3. Extremschmalband-Übertragungssystem nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Worterkennungsvorrichtung (16) eine Vorrichtung (42, 43, 45) zum Erkennen des Beginns und des Endes eines gesprochenen Wortes aufweist.
- 4. Extremschmalband-Übertragungssystem nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Speichervorrichtung (20) Signale gespeichert hat, die eine Vielzahl von Wörtern darstellen, die von einer Vielzahl unterschiedlicher Induviduen gesprochen wurden, und daß eine Sprechererkennungsvorrichtung (18)mit der Speichervorrichtung ;(20) und der Analysiervorrichtung (15) vorgesehen ist, die zumindest einen Teil der Vielzahl von Signalen von der Analysiervorrichtung (15) empfängt, die empfangenen Signale mit den gespeicherten Signalen vergleicht und Signale abgibt, die spezielle Wörter darstellen, die von einer spezifischen, der unterschiedlichen Individuen gesprochen wurden.
- 5. Extremschmalband-Übertragungssystem nach Anspruch 4, dadurch gekennzeichnet, daß die Sprechererkennungsvorrichtung (18) eine Schaltung zum Modifizieren gespeicherter Wörter eines Individium nach einer Sprechererkennung aufweist.
- 6. Extremschmalband-Übertragungssystem nach Anspruch 5, dadurch gekennzeichnet, daß die Analysiervorrichtung (15) eine Schaltung (32) zum Erhalten von LPC-Koeffizienten einer linearen vorhersagbaren Codierung und die Sprechererkennungsvorrichtung (18) eine Schaltung zur Mittelwertbildung der LPC-Koeffizienten aufweist.
- 7. Extremschmalband-Übertragungssystem nach Anspruch 6,dadurch gekennzeichnet,' daß die Sprechererkennungsvorrichtung (18) eine Schaltung (20) zum Zurückstellen einer Entscheidung bezüglich der Identität des Sprechers aufweist, wenn er der Vergleich eines gesprochenen Wortes mit gespeicherten Signalen, die eine Vielzahl von einer Vielzahl von unterschiedlichen Induviduen gesprochenen Wörtern darstellen, innerhalb eines vorbestimmten Unsicherheitsbereichs liegt.
- 8. Extremschmalband-Übertragungssystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Signalumwandungsvorrichtung (20) eine Einrichtung zum Umwandeln von Buchstaben jedes spezifischen gesprochenen Wortes in ASCII Digi-talcodierungen für eine übertragung
- 9. Extremschmalband-iibertragungssystem nach einem der Ansprüche 4 bis 7, gekennzeichnet durch eine Nachrichtenformatierungsvorrichtung (20), die mit der Sprechererkennungsvorrichtung (18) und der Worterkennungsvorrichtung (16) zum Formatieren jeder in den Wandler gesprochenen Nachricht in ein elektrisches Digitalsignal verbunden ist, das eine Vielzahl von . Bits enthält, die die Nachricht darstellen, sowie eine Vielzahl von Bits, die den Sprecher charakterisieren.
- 10. Extremschmalband-Übertragungssystem nach Anspruch 9, dadurch gekennzeichne t, daß die Nachricht-IQ formatierungsvorrichtung auch Bits verarbeitet, die Eigenschaften darstellen, die die Stimme des Sprechers charakterisieren.
- 11. Extremschmalband-Übertragungssystem nach Anspruch 10, gekennzeichnet, durch eine Vorrichtung(20) zum übertragen der Digitalsignale von der Umwandlungsvorrichtung zu einer entfernt angeordneten Einheit (12), eine Vorrichtung (20) zum Empfangen von Digitalsignalen und einer Synihetisiervorrichtung (22) zum Umwandeln der Digitalsignale in die synthetisierte menschliche Sprache, die charakteristisch für die Stimme des Sprechers ist.
- 12. Extremschmalband-Übertragungsverfahren, g e k e η η OQ zeichnet durch die SchritteUmwandeln von menschlicher Sprache in elektrische Signale /nc Analysieren der elektrischen Signale, um eine Vielzahl von Signalen abzugeben, die eine Vielzahl von Eigenschaften darstellen, die eine menschliche Stimme charakterisieren/Speichern von Signalen, die eine Vielzahl von gesprochenen Wörtern darstellen,Vergleichen zumindest einiger der Vielzahl von Signalen mit den gespeicherten Signalen, um spezifische Wörter in der menschlichen Sprache zu bestimmen und Signale abzugeben, die die spezifischen Wörter darstellen, undUmwandeln der abgegebenen Signale, die spezifische Wörter darstellen in eine Digitalform mit einer Geschwindigkeit geringer als 300 Bits pro Sekunde.,g
- 13. Verfahren nach Anspruch 12, gekennzeichnet durch Erkennen des Beginns und des Endes jedes gesprochenen Worts vor dem Vergleichen.
- 14. Verfahren nach Anspruch 12 oder 13, dadurch g e _n kennzeichnet, daß das Speichern eine Speiehern von Signalen umfaßt, die eine Vielzahl von von einer Vielzahl unterschiedlicher Induviduen gesprochenen Wörtern darstellen und daß das Vergleichen das Zuführen von Signalen umfaßt, die repräsentativ sind __ für das individuelle Sprechen der spezifischen Wörter.
- 15- Verfahren nach einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, daß beim Analysieren Koeffizienten mit linearer vorhersagbarer Codierungerzeugt und die Koeffizienten vor dem Vergleichen ge-30mittelt werden.
- 16. Verfahren nach einem der Ansprüche 12 bis 15, dadurch gekennzeichnet, daß das Vergleichen dasZurückstellen einer Entscheidung bezüglich des induvi-35duellen Sprechens umfaßt, wenn der Vergleich eines gesprochenen Wortes mit gespeicherten Signalen, die für eine Vielzahl von durch eine Vielzahl von unterschied-lichen Induviduen gesprochenen Wörtern sind, innerhalb eines vorbestimmten Unsicherheitsbereichs liegt.
- 17. Verfahren nach einem der Ansprüche 12 bis 16, g e -kennzeichnet durch Modifizieren gespeicherter Signale, die eine Vielzahl von von einem Induviduum gesprochenen Wörtern darstellen, nachdem dieses spezielle Induviduumerkannt worden ist/ und gemäß der zuletzt gesprochenen Sprache des Individuums. 10
- 18. Verfahren nach einem der Ansprüche 12 bis 17, dadurch gekennzeichnet, daß eine Vielzahl vorbestimmter Nachrichten gespeichert und dem Sprecher eine Liste möglicher nächster Wörter nach Erkennung des Endes eines Wortes angezeigt wird.
- 19. Verfahren nach einem der Ansprüche 12 bis 18, gekennzeichnet durch Formatieren der menschlichen Sprache nach Umwandlung in die Digitalform in ein elektrisches Digitalsignal mit einer Vielzahl von Bits, die eine Nachricht darstellen und eine Vielzahl von Bits, die charakteristische Eigenschaften der menschlichen Stimme darstellen, und übertragen des elektrischen Digitalsignals zu einem entfernten Terminal.
- 20. Verfahren nach Anspruch 19, gekennzeichnet durch Empfangen eines von einem entfernten Terminal ausgesandten elektrischen Digitalsignals und Umwandeln des empfangenen Signals in eine gesprocheneNachricht in einem synthetisierten Stimme, die angenähert die charakteristischen Eigenschaften des ursprünglichen Sprechers am entfernten Terminal hat.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/490,701 US4707858A (en) | 1983-05-02 | 1983-05-02 | Utilizing word-to-digital conversion |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3416238A1 true DE3416238A1 (de) | 1984-12-20 |
DE3416238C2 DE3416238C2 (de) | 1995-09-14 |
Family
ID=23949123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3416238A Expired - Fee Related DE3416238C2 (de) | 1983-05-02 | 1984-05-02 | Extremschmalband-Übertragungssystem und Verfahren für eine Übertragung von Nachrichten |
Country Status (3)
Country | Link |
---|---|
US (1) | US4707858A (de) |
JP (1) | JPS59225635A (de) |
DE (1) | DE3416238C2 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1990009656A1 (fr) * | 1989-02-07 | 1990-08-23 | Alcept | Appareil de traitement de la parole |
FR2771544A1 (fr) * | 1997-11-21 | 1999-05-28 | Sagem | Procede de codage de la parole et terminaux pour la mise en oeuvre du procede |
EP1248251A2 (de) * | 2001-04-06 | 2002-10-09 | Siemens Aktiengesellschaft | Verfahren und System zur automatischen Umsetzung von Textnachrichten in Sprachnachrichten |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60239798A (ja) * | 1984-05-14 | 1985-11-28 | 日本電気株式会社 | 音声信号符号化/復号化装置 |
JPS61252596A (ja) * | 1985-05-02 | 1986-11-10 | 株式会社日立製作所 | 文字音声通信方式及び装置 |
JPS63158596A (ja) * | 1986-12-23 | 1988-07-01 | 株式会社東芝 | 音韻類似度計算装置 |
US5009143A (en) * | 1987-04-22 | 1991-04-23 | Knopp John V | Eigenvector synthesizer |
EP0290190B1 (de) * | 1987-04-30 | 1991-10-09 | Oki Electric Industry Company, Limited | Anordnung zum Vergleichen von Mustern |
JPH03120598A (ja) * | 1989-10-03 | 1991-05-22 | Canon Inc | 音声認識方法及び装置 |
CA2056110C (en) * | 1991-03-27 | 1997-02-04 | Arnold I. Klayman | Public address intelligibility system |
US5748843A (en) * | 1991-09-20 | 1998-05-05 | Clemson University | Apparatus and method for voice controlled apparel manufacture |
US5475798A (en) * | 1992-01-06 | 1995-12-12 | Handlos, L.L.C. | Speech-to-text translator |
US5402520A (en) * | 1992-03-06 | 1995-03-28 | Schnitta; Bonnie S. | Neural network method and apparatus for retrieving signals embedded in noise and analyzing the retrieved signals |
US5675705A (en) * | 1993-09-27 | 1997-10-07 | Singhal; Tara Chand | Spectrogram-feature-based speech syllable and word recognition using syllabic language dictionary |
US5696879A (en) * | 1995-05-31 | 1997-12-09 | International Business Machines Corporation | Method and apparatus for improved voice transmission |
JPH08335091A (ja) * | 1995-06-09 | 1996-12-17 | Sony Corp | 音声認識装置、および音声合成装置、並びに音声認識合成装置 |
JPH09149133A (ja) * | 1995-11-22 | 1997-06-06 | Fujitsu Ltd | テレビ会議システムのための音声入力端末および音声合成端末 |
US6035273A (en) * | 1996-06-26 | 2000-03-07 | Lucent Technologies, Inc. | Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes |
FR2752477B1 (fr) * | 1996-08-16 | 1998-09-25 | Vernois Goulven Jean Alain | Systeme de transmission de messages oraux |
US5774857A (en) * | 1996-11-15 | 1998-06-30 | Motorola, Inc. | Conversion of communicated speech to text for tranmission as RF modulated base band video |
US6317714B1 (en) | 1997-02-04 | 2001-11-13 | Microsoft Corporation | Controller and associated mechanical characters operable for continuously performing received control data while engaging in bidirectional communications over a single communications channel |
US6167374A (en) * | 1997-02-13 | 2000-12-26 | Siemens Information And Communication Networks, Inc. | Signal processing method and system utilizing logical speech boundaries |
US6041300A (en) * | 1997-03-21 | 2000-03-21 | International Business Machines Corporation | System and method of using pre-enrolled speech sub-units for efficient speech synthesis |
US6092039A (en) * | 1997-10-31 | 2000-07-18 | International Business Machines Corporation | Symbiotic automatic speech recognition and vocoder |
US6119086A (en) * | 1998-04-28 | 2000-09-12 | International Business Machines Corporation | Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens |
US6490563B2 (en) * | 1998-08-17 | 2002-12-03 | Microsoft Corporation | Proofreading with text to speech feedback |
US6993480B1 (en) | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
GB2348035B (en) * | 1999-03-19 | 2003-05-28 | Ibm | Speech recognition system |
GB2348342B (en) * | 1999-03-25 | 2004-01-21 | Roke Manor Research | Improvements in or relating to telecommunication systems |
US6785649B1 (en) * | 1999-12-29 | 2004-08-31 | International Business Machines Corporation | Text formatting from speech |
US7219056B2 (en) * | 2000-04-20 | 2007-05-15 | International Business Machines Corporation | Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate |
DE10127558A1 (de) * | 2001-06-06 | 2002-12-12 | Philips Corp Intellectual Pty | Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit Überprüfung der Benutzungsberechtigung von Sprach-, Gestik-, Mimik- und/oder Verhaltensprofilen zur Synthese |
US7177801B2 (en) * | 2001-12-21 | 2007-02-13 | Texas Instruments Incorporated | Speech transfer over packet networks using very low digital data bandwidths |
US8050434B1 (en) | 2006-12-21 | 2011-11-01 | Srs Labs, Inc. | Multi-channel audio enhancement system |
WO2008142836A1 (ja) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | 声質変換装置および声質変換方法 |
US9622053B1 (en) | 2015-11-23 | 2017-04-11 | Raytheon Company | Methods and apparatus for enhanced tactical radio performance |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2347738A1 (de) * | 1972-09-21 | 1974-03-28 | Threshold Tech | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben |
US4378469A (en) * | 1981-05-26 | 1983-03-29 | Motorola Inc. | Human voice analyzing apparatus |
US4392018A (en) * | 1981-05-26 | 1983-07-05 | Motorola Inc. | Speech synthesizer with smooth linear interpolation |
US4441200A (en) * | 1981-10-08 | 1984-04-03 | Motorola Inc. | Digital voice processing system |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5919358B2 (ja) * | 1978-12-11 | 1984-05-04 | 株式会社日立製作所 | 音声内容伝送方式 |
US4424415A (en) * | 1981-08-03 | 1984-01-03 | Texas Instruments Incorporated | Formant tracker |
DE3277095D1 (en) * | 1981-08-03 | 1987-10-01 | Texas Instruments Inc | Allophone vocoder |
US4590604A (en) * | 1983-01-13 | 1986-05-20 | Westinghouse Electric Corp. | Voice-recognition elevator security system |
US4556944A (en) * | 1983-02-09 | 1985-12-03 | Pitney Bowes Inc. | Voice responsive automated mailing system |
-
1983
- 1983-05-02 US US06/490,701 patent/US4707858A/en not_active Expired - Lifetime
-
1984
- 1984-04-26 JP JP59085062A patent/JPS59225635A/ja active Pending
- 1984-05-02 DE DE3416238A patent/DE3416238C2/de not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2347738A1 (de) * | 1972-09-21 | 1974-03-28 | Threshold Tech | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben |
US4378469A (en) * | 1981-05-26 | 1983-03-29 | Motorola Inc. | Human voice analyzing apparatus |
US4392018A (en) * | 1981-05-26 | 1983-07-05 | Motorola Inc. | Speech synthesizer with smooth linear interpolation |
US4441200A (en) * | 1981-10-08 | 1984-04-03 | Motorola Inc. | Digital voice processing system |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1990009656A1 (fr) * | 1989-02-07 | 1990-08-23 | Alcept | Appareil de traitement de la parole |
FR2771544A1 (fr) * | 1997-11-21 | 1999-05-28 | Sagem | Procede de codage de la parole et terminaux pour la mise en oeuvre du procede |
WO1999027521A1 (fr) * | 1997-11-21 | 1999-06-03 | Sagem S.A. | Procede de codage de la parole et terminaux pour la mise en oeuvre du procede |
EP1248251A2 (de) * | 2001-04-06 | 2002-10-09 | Siemens Aktiengesellschaft | Verfahren und System zur automatischen Umsetzung von Textnachrichten in Sprachnachrichten |
EP1248251A3 (de) * | 2001-04-06 | 2009-10-07 | Siemens Aktiengesellschaft | Verfahren und System zur automatischen Umsetzung von Textnachrichten in Sprachnachrichten |
Also Published As
Publication number | Publication date |
---|---|
DE3416238C2 (de) | 1995-09-14 |
JPS59225635A (ja) | 1984-12-18 |
US4707858A (en) | 1987-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3416238A1 (de) | Extremschmalband-uebertragungssystem | |
EP1113420B1 (de) | Verfahren zur Spracherkennung und Kontrolle einer Sprachsyntheseneinheit oder Kommunikationssystem | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE60004862T2 (de) | Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
DE60020865T2 (de) | System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener | |
DE60031432T2 (de) | System, verfahren und hergestellter gegenstand zur detektion von emotionen in sprachsignalen mittels statistischer analyse von sprachsignalparametern | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE2918533A1 (de) | Spracherkennungssystem | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE60201939T2 (de) | Vorrichtung zur sprecherunabhängigen Spracherkennung , basierend auf einem Client-Server-System | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE60122751T2 (de) | Verfahren und vorrichtung für die objektive bewertung der sprachqualität ohne referenzsignal | |
DE3337353A1 (de) | Sprachanalysator auf der grundlage eines verborgenen markov-modells | |
DE602004006641T2 (de) | Audio-dialogsystem und sprachgesteuertes browsing-verfahren | |
DE60133537T2 (de) | Automatisches umtrainieren eines spracherkennungssystems | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE60108104T2 (de) | Verfahren zur Sprecheridentifikation | |
DE60008893T2 (de) | Sprachgesteuertes tragbares Endgerät | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
EP1590797B1 (de) | Kommunikationssystem, kommunikationsendeinrichtung und vorrichtung zum erkennen fehlerbehafteter text-nachrichten | |
DE102010040553A1 (de) | Spracherkennungsverfahren | |
EP2047668A1 (de) | Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe | |
DE69723449T2 (de) | Verfahren und system zur sprache-in-sprache-umsetzung | |
DE3105518A1 (de) | Verfahren zur synthese von sprache mit unbegrenztem wortschatz und schaltungsanordnung zur durchfuehrung des verfahrens |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8339 | Ceased/non-payment of the annual fee |