DE3513243C2 - - Google Patents
Info
- Publication number
- DE3513243C2 DE3513243C2 DE19853513243 DE3513243A DE3513243C2 DE 3513243 C2 DE3513243 C2 DE 3513243C2 DE 19853513243 DE19853513243 DE 19853513243 DE 3513243 A DE3513243 A DE 3513243A DE 3513243 C2 DE3513243 C2 DE 3513243C2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- memory
- language
- ssy
- sesps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04K—SECRET COMMUNICATION; JAMMING OF COMMUNICATION
- H04K1/00—Secret communication
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Sprachübertragung
und Sprachspeicherung nach dem Oberbegriff des Patentan
spruches 1.
Aus der DE-PS 24 35 654 ist ein Verfahren und Vorrichtung
zur Analyse und Synthese von menschlicher Sprache bekannt,
wobei die Sprachanalyse mit einer elektrischen Nachbildung
des menschlichen Vokaltraktes erfolgt, indem dort Parameter
für die Wiedergewinnung der Sprache darstellende Signale
gewonnen werden. Diese Signale werden zur Sprachsynthese
einrichtung übertragen, wo sie decodiert und zur Ansteuerung
eines Vokaltraktmodells verwendet werden. Danach folgt
eine Digital/Analog-Wandlung und die akustische Ausgabe
der Sprache. Wie aus der Zeichnung und der Beschreibung
hervorgeht, ist die gesamte Anordnung relativ kompliziert
und aufwendig. Gegenüber dem in dieser Patentschrift
genannten Stand der Technik wird der Aufgabe entsprechend
eine Reduzierung des Rechenaufwandes erreicht und auch eine
gegenüber einer direkten Digitalisierung der Sprache,
beispielsweise in PCM geringere Übertragungsrate. Diese
Übertragungsrate ist aber mit ca. 4000 Bit/Sek, wie dies
in Spalte 10 von Zeile 40 bis 46 angegeben ist, immer noch
relativ hoch.
Ein Verfahren zur Synthese von Sprache mit unbegrenztem
Wortschatz und eine Schaltungsanordnung zur Durchführung
des Verfahrens ist aus der EP-OS 00 58 130 bekannt. Dabei
werden die von Schriftzeichen oder Tastenbetätigungen
erzeugten digitalen Signale und Signalfolgen so umgesetzt,
daß die Syntheseinrichtung einen Lautelementespeicher an
steuern kann. In diesem Lautelementespeicher sind die
Charakteristika von ca. 40 bis 100 Lautelementen abgelegt,
womit eine verständliche Sprache produziert wird, wenn diese
Lautelemente in einer entsprechenden Folge aneinander
gereiht werden. Um dies zu erreichen, werden Schriftzeichen
oder andere Eingangsignale in sogenannte Lautschriftzeichen
folgen umgewandelt, wozu ein sogenanntes Transkriptions
system dient. Damit wird auch ungeübten Benutzern die
Anwendung erleichtert, weil Texte mit üblichen Schrift
zeichen eingebbar sind. Bei diesem Verfahren wird davon
ausgegangen, daß den einzugebenden Signalfolgen bereits
eine vorbestimmte Bedeutung zugeordnet ist und diese
Bedeutung sprachlich ausgegeben wird. Eine Spracherkennung
und eine daraus resultierende Wiedergabe von Sprache ist
bei dieser Anordnung nicht vorgesehen.
Aus der Europäischen Offenlegungsschrift EP 00 71 716 A2 ist
ein sogenannter Allophone-Vocoder bekannt. Die von einem Mikro
fon aufgenommene Sprache wird analog/digital gewandelt und es
werden daraus Phoneme gebildet. Diese Phoneme werden einem Ver
gleicher zugeführt. Der Vergleicher vergleicht die Phoneme der
aufgenommenen Sprache mit gleichartig strukturierten Phonemen,
welche in einem Speicher abgelegt sind. Dieser mit Library be
zeichnete Speicher enthält also eine große Anzahl von einzelnen
Phonemen, welche sprachliche Äußerungen genau beschreiben. Beim
Finden einer Übereinstimmung durch den Vergleicher werden die
aus dem Speicher ausgelesenen Phoneme für eine Speicherung oder
Wiedergabe von Sprache benutzt. Dabei kann es sich um eine di
rekte Sprachwiedergabe handeln, um eine Sprachspeicherung für
eine spätere Wiedergabe oder um eine Sprachübertragung. Außer
dem ist vorgesehen, Phoneme in eine alphabetische Ausdruckswei
se umzuformen, so daß eine Information über einen Drucker aus
gegeben werden kann.
Die Entnahme von Phonemen findet bei dieser Ausführungsform ei
nes Vocoders nur dann statt, wenn der Vergleicher eine eindeu
tige Übereinstimmung feststellt. Auf Seite 14 im 2. Absatz ist
beschrieben, daß ein nicht erkanntes Phonem in der Phonem-Se
quenz nicht existiert. Dazu wird bemerkt, daß durch die natür
liche Filterung des menschlichen Ohres und die Fehlererkennung
im geistigen Prozeß des Zuhörers die vom Erkennungsalgorithmus
erzeugten Fehler verringert werden. Eine Leerstelle für eine
Nichterkannt-Entscheidung des Vergleichers resultiert nur in ei
ner Vergrößerung des Geräusches. Dadurch könnte die syntheti
sche Sprache verzerrt klingen und Rauhigkeiten aufweisen. Durch
das Verschlucken von Lauten könnte eine Verfremdung eintreten.
Ausgehend vom vorgenannten Stand der Technik besteht die Auf
gabe der Erfindung darin, ein Verfahren zur Sprachübertragung
und zur Sprachspeicherung anzugeben, wobei keine Qualitätsver
luste auftreten, wenn zum Erzielen einer niedrigen Bitrate und
einer niedrigen Speicherkapazität für Sprachspeicherung ein
Sprachelementespeicher (Phoneme-Speicher) angewendet wird.
Zur Lösung dieser Aufgabe ist eine Merkmalskombination vorgese
hen, wie sie im Patentanspruch 1 angegeben ist.
Damit wird in vorteilhafter Weise erreicht, daß auch beim nicht
eindeutigen Erkennen von Sprachelementen einer empfangenen
Sprachinformation keine Lücken in der Sprachsequenz entstehen.
Die Qualität der synthetisch erzeugten Sprache wird dadurch
stark verbessert.
Mit in den Unteransprüchen angegebenen Weiterbildungen der Er
findung wird unter anderem erreicht, daß die Möglichkeit einer
einfachen Sprachverschlüsselung besteht, um das unbefugte Abhö
ren von Nachrichten nahezu unmöglich zu machen.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend
anhand von Zeichnungen näher erläutert.
Es zeigt
Fig. 1 das Prinzipschaltbild einer Anordnung zur Durch
führung des Verfahrens,
Fig. 2 eine erweiterte Anordnung zur Übertragung zu
sätzlicher Signale,
Fig. 3 das Prinzipschaltbild einer nach 2 verschiedenen
Verfahren arbeitenden Sprachsyntheseeinrichtung.
Die am Eingang E erscheinenden Sprachsignale werden einer
Analyseeinrichtung ANA zugeführt, die nach einem bekannten
Spracherkennungsprinzip arbeitet und für jedes erkannte Sprach
element eine digitale Beschreibung ausgibt. Die dabei
entstehenden Bitmuster und -folgen werden einem Vergleicher
VG angeboten. Gleichzeitig wird ein Adressengenerator ADG
gestartet, der in einem beliebigen Zyklus den Sprachelemente
speicher SESPE der Erkennungseinrichtung adressiert. In diesem
Sprachelementespeicher SESPE ist für jedes-Sprachelement
eine Speicherzelle oder ein Speicherbereich vorgesehen,
worin Bitmuster und Bitmusterfolgen nach den gleichen Regeln
abgelegt sind, wie sie von der Analyseeinrichtung ANA
ausgegeben werden. Wird beim zyklischen Adressieren des
Sprachelementespeichen SESPE ein Bitmuster oder eine
Bitmusterfolge ausgelesen, die den von der Analyseeinrichtung ANA
erzeugten Signalen ähnlich sind, so stellt der Vergleicher
VG dies fest, und der Adreßgenerator ADG wird angehalten.
Außerdem wird durch das Erkennungssignal des Vergleichers
VG ein UND-Gatter geöffnet, so daß die am Ausgang des
Adreßgenerators ADG parallel anstehende Adresse durch einen
Parallel/Seriell-Wandler PSW seriell gewandelt auf die
Übertragungsleitung UeL gegeben werden kann. Die von der
Spracherkennungseinrichtung SPE auf diese Weise erzeugte
Adreßinformation wird mit einer sehr niedrigen Bitrate
weitergegeben, und kann entweder für eine direkte Wiedergabe
zur Steuerung einer Sprachsyntheseeinrichtung SSY benutzt
werden oder in einen Sprachinformationsspeicher SPISP für
eine spätere Wiedergabe eingespeichert werden.
Für die Wiedergewinnung der Sprache werden die von der
Übertragungsleitung UeL ankommenden seriellen Signal
folgen in einem Seriell/Parallel-Wandler SPW
zunächst in eine parallele Form gebracht und dienen
zur Ansteuerung des in der Sprachsyntheseeinrichtung SSY
befindlichen Sprachelementespeichers SESPS. Die nachein
ander ankommenden Adreßinformationen führen dazu, daß
der jeweilige Inhalt einer ein Lautelement beschreibenden
Speicherzelle zur Synthesesteuerung SYN gegeben wird. Damit
werden in bekannter Weise die entsprechenden Frequenz
generatoren nacheinander angesteuert, so daß das Sprach
signal in einer analogen Form über einen Verstärker V
einem elektroakustischem Wandler EAW zugeführt werden
kann.
In der Fig. 2 sind zusätzlich zu den in der Fig. 1 darge
stellten und bereits beschriebenen Einrichtungen weitere Kom
ponenten vorgesehen, womit die für die Wiedergabe der
Sprache notwendige Information so erweitert wird, daß die
Sprachqualität und die Verständlichkeit wesentlich gesteigert
werden kann. Der Vergleicher VG ist so ausgelegt, daß er
nicht nur, wie bereits beschrieben, ein positives Signal
J ausgibt, wenn eine Bitkombination im Sprachelemente
speicher SESPE gefunden wurde, sondern auch ein negatives
Signal N erscheint, wenn von der Analyseeinrichtung ANA
eine Bitmusterfolge erzeugt wurde, die in ähnlicher Form in
Sprachelementespeicher SESPE nicht vorgefunden werden kann.
Mit diesem Negativ-Signal N wird ein Multiplexer MUX umge
schaltet. Ein von der Sprachanalyse-Einrichtung ANA ermitteltes
Korrelationsergebnis gelangt zu einer Sprachcodiereinrichtung
SCE. Es wird in einem Direktcode-Zwischenspeicher DCSP vor
übergehend gepuffert und gelangt über einen Parallel-
Seriell-Wandler PSW zu dem inzwischen umgeschalteten
Multiplexer MUX. Die nun auf der Übertragungsleitung UeL
gesendete Information stellt keine Adresse sondern eine
verschlüsselte Sprachprobe dar. Mit einem besonderen Code,
der dieser verschlüsselten Sprachprobe vorangestellt wird,
erfolgt eine Umschaltung des in der Sprachsyntheseeinrichtung
SSY befindlichen Demultiplexers DEMUX. Von dort aus wird
ein zusätzliches Umschaltemittel U in seine Arbeitslage
gesteuert, so daß nicht der Inhalt des in der Sprach
syntheseeinrichtung SSY befindlichen Sprachelementespeichers
SESPS zur Synthesesteuerung SYN gelangt, sondern diese direkt
mit dem Demultiplexer DEMUX verbunden wird. In diesem
Fall wird dann der Direktcode unmittelbar von der Synthese
steuerung SYN in ein analoges Sprachelement verwandelt,
das wie vorher beschrieben über einen Verstärker V an den
elektroakustischen Wandler EAW gelangt.
Es ist außerdem vorgesehen, daß die Sprachanalyseeinheit ANA
Zusatzinformationen ZI erzeugt, die seriell direkt über die
Übertragungsleitung UeL zur Synthesesteuerung SYN gelangen,
wobei Multiplexer MUX und Demultiplexer DEMUX entsprechend
umgeschaltet werden. Mit dieser Zusatzinformation ist es
möglich, die Wiedergewinnung der Sprache so zu beeinflussen,
daß sprachliche Eigenheiten, die die Verständlichkeit
erhöhen,wie beispielsweise Tonhöhe, berücksichtigt werden
können.
Bei der in Fig. 3 dargestellten Sprachsyntheseeinrichtung SSY
ist vorgesehen, daß die Spracherzeugung nach zwei ver
schiedenen Prinzipien geschieht. Je nach der ankommenden Sig
nalkategorie wird der Demultiplexer DEMUX so geschaltet,
daß die Information zu den entsprechenden Einrichtungen
gelangt. Handelt es sich um Adreßinformationen, so wird wie
bereits beschrieben, ein in der Sprachsyntheseeinrichtung SSY
vorhandener Sprachelementespeicher SESPS damit angesteuert.
Die nachgeschaltete Vollsynthesesteuerung VSY erzeugt aus
dem Sprachelemente beschreibenden Inhalt des Sprachelemente
speichers SESPS analoge Sprachsignale, die über einen Ver
stärker V einen elektroakustischen Wandler EAW zugeführt
werden. Dabei können, wie bereits beschrieben, Zusatzinformationen
ZI berücksichtigt werden, so daß die bei der Spracherkennung
festgestellten Charakteristika der Sprache wiedergegeben
werden können. Der Demultiplexer DEMUX kann jedoch auch so
geschaltet werden, daß die ankommende Information direkt
zu einer Decodiereinrichtung DEC gelangt, womit auf direktem
Wege Sprachsignale darstellende Frequenzen erzeugt werden
können, die wie vorher beschrieben, ausgegeben werden.
Claims (6)
1. Verfahren zur Sprachübertragung und Sprachspeicherung, wobei
die ankommenden Sprachsignale von einer nach dem Prinzip der
Sprachelementeerkennung arbeitenden Spracherkennungseinrichtung
erkannt werden, die auszugebende Sprache von einer Sprachsyn
theseeinrichtung erzeugt wird, und die ankommenden Sprachsi
gnale durch einen Vergleicher mit vorgegebenen, in einem Sprach
elementespeicher vorhandenen Informationen über die Beschaf
fenheit der Sprachelemente und deren Varianten verglichen wer
den, um Eingangsinformationen für die Sprachsyntheseeinrichtung
zu erhalten,
dadurch gekennzeichnet,
daß beim Vorliegen eines sicheren Vergleichsergebnisses am Aus gang des Vergleichers (VG) die beim Auffinden der betreffenden Speicherzellen entstehenden Adressen direkt zum Ansteuern je weils einer Speicherzelle eines in der Sprachsyntheseeinrich tung (SSY) befindlichen Sprachelementespeichers (SESPS) dienen, worin die Informationen über das betreffende Sprachelement ab gelegt sind,
oder daß beim Vorliegen eines unsicheren Vergleichsergebnisses von einer Analyseeinrichtung (ANA) ein Direktcode gebildet wird, der die betreffende Sprachprobe unmittelbar beschreibt und zur Sprachsyntheseeinrichtung (SSY) gegeben wird, wobei diese umgeschaltet wird und dann nach einem der Analyse ent sprechenden Syntheseverfahren (z. B. LPC Linear Predictive Coding) arbeitet.
daß beim Vorliegen eines sicheren Vergleichsergebnisses am Aus gang des Vergleichers (VG) die beim Auffinden der betreffenden Speicherzellen entstehenden Adressen direkt zum Ansteuern je weils einer Speicherzelle eines in der Sprachsyntheseeinrich tung (SSY) befindlichen Sprachelementespeichers (SESPS) dienen, worin die Informationen über das betreffende Sprachelement ab gelegt sind,
oder daß beim Vorliegen eines unsicheren Vergleichsergebnisses von einer Analyseeinrichtung (ANA) ein Direktcode gebildet wird, der die betreffende Sprachprobe unmittelbar beschreibt und zur Sprachsyntheseeinrichtung (SSY) gegeben wird, wobei diese umgeschaltet wird und dann nach einem der Analyse ent sprechenden Syntheseverfahren (z. B. LPC Linear Predictive Coding) arbeitet.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß die direkt-codierten Sprachproben nicht so codiert
sind, wie die im Sprachelementespeicher (SESPE) der Spracherkennungseinrichtung (SPE) abgeleg
ten Sprachelemente beschrieben sind.
3. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß das Verfahren in digitalen Nachrichtensystemen als
Alternative zur dort angewandten Codierung (z. B. PCM)
angewendet und dann lediglich der Adreßcode übertragen
wird, wenn eine Sprechererkennung ausgeschlossen sein
soll.
4. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß das Schema der Adressierung der Sprachelemente
speicher (SESPE, SESPS) änderbar ist, so daß ver
schlüsselte Nachrichten übertragen werden können.
5. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß das Schema der Adressierung der Sprachelemente
speicher (SESPE, SESPS) zur Verschlüsselung in
programmierbaren Festwertspeichern abgelegt ist, wovon
vereinbarungsgemäß jeweils gleichartige bei der Sprach
erkennungeinrichtung (SPE) und bei der Sprachsynthese
einrichtung (SSY) eingesetzt werden müssen.
6. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß zusätzlich zu den Adreßdaten für die Ansteuerung
des Sprachelementespeichers (SESPS) der Sprachsynthese
einrichtung (SSY) Zusatzinformationen (ZI) übertragen
werden, womit bei der Synthese Modifizierungen der ausge
gebenen Sprache (Tonhöhe etc.) möglich sind.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19853513243 DE3513243A1 (de) | 1985-04-13 | 1985-04-13 | Verfahren zur sprachuebertragung und sprachspeicherung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19853513243 DE3513243A1 (de) | 1985-04-13 | 1985-04-13 | Verfahren zur sprachuebertragung und sprachspeicherung |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3513243A1 DE3513243A1 (de) | 1986-10-16 |
DE3513243C2 true DE3513243C2 (de) | 1993-03-11 |
Family
ID=6267899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19853513243 Granted DE3513243A1 (de) | 1985-04-13 | 1985-04-13 | Verfahren zur sprachuebertragung und sprachspeicherung |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE3513243A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6304845B1 (en) | 1998-02-03 | 2001-10-16 | Siemens Aktiengesellschaft | Method of transmitting voice data |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19860133C2 (de) * | 1998-12-17 | 2001-11-22 | Cortologic Ag | Verfahren und Vorrichtung zur Sprachkompression |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2435654C2 (de) * | 1974-07-24 | 1983-11-17 | Gretag AG, 8105 Regensdorf, Zürich | Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache |
DE3105518A1 (de) * | 1981-02-11 | 1982-08-19 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur synthese von sprache mit unbegrenztem wortschatz und schaltungsanordnung zur durchfuehrung des verfahrens |
DE3277095D1 (en) * | 1981-08-03 | 1987-10-01 | Texas Instruments Inc | Allophone vocoder |
-
1985
- 1985-04-13 DE DE19853513243 patent/DE3513243A1/de active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6304845B1 (en) | 1998-02-03 | 2001-10-16 | Siemens Aktiengesellschaft | Method of transmitting voice data |
Also Published As
Publication number | Publication date |
---|---|
DE3513243A1 (de) | 1986-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Harris | A study of the building blocks in speech | |
DE2918533C2 (de) | ||
DE19610019C2 (de) | Digitales Sprachsyntheseverfahren | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE1965480A1 (de) | Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
EP1105867B1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE10054583A1 (de) | Verfahren und Vorrichtung zur Behandlung von Sprachinformationen | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE69233622T2 (de) | Vorrichtung zur Erzeugung von Ansagen | |
DE112010005706B4 (de) | Spracherkennungsvorrichtung | |
DE3513243C2 (de) | ||
Buron | Generation of a 1000-word vocabulary for a pulse-excited vocoder operating as an audio response unit | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
House | The influence of silence on perceiving the preceding tonal contour | |
DE1547002A1 (de) | Vorrichtung,die auf gesprochene Informationen anspricht,insbesondere phonetische Schreibmaschine | |
DE2335818C3 (de) | Elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen | |
DE60311482T2 (de) | Verfahren zur steuerung der dauer bei der sprachsynthese | |
DE19837661C2 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten | |
EP1170723A2 (de) | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: TELENORMA TELEFONBAU UND NORMALZEIT GMBH, 6000 FRA |
|
8110 | Request for examination paragraph 44 | ||
8127 | New person/name/address of the applicant |
Owner name: TELENORMA GMBH, 6000 FRANKFURT, DE |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |