DE3513243C2 - - Google Patents

Info

Publication number
DE3513243C2
DE3513243C2 DE19853513243 DE3513243A DE3513243C2 DE 3513243 C2 DE3513243 C2 DE 3513243C2 DE 19853513243 DE19853513243 DE 19853513243 DE 3513243 A DE3513243 A DE 3513243A DE 3513243 C2 DE3513243 C2 DE 3513243C2
Authority
DE
Germany
Prior art keywords
speech
memory
language
ssy
sesps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19853513243
Other languages
English (en)
Other versions
DE3513243A1 (de
Inventor
Erhard Dipl.-Ing. 6368 Bad Vilbel De Reitz
Joachim Dipl.-Ing. 6000 Frankfurt De Zinke
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telenorma GmbH
Original Assignee
Telenorma GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telenorma GmbH filed Critical Telenorma GmbH
Priority to DE19853513243 priority Critical patent/DE3513243A1/de
Publication of DE3513243A1 publication Critical patent/DE3513243A1/de
Application granted granted Critical
Publication of DE3513243C2 publication Critical patent/DE3513243C2/de
Granted legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Sprachübertragung und Sprachspeicherung nach dem Oberbegriff des Patentan­ spruches 1.
Aus der DE-PS 24 35 654 ist ein Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache bekannt, wobei die Sprachanalyse mit einer elektrischen Nachbildung des menschlichen Vokaltraktes erfolgt, indem dort Parameter für die Wiedergewinnung der Sprache darstellende Signale gewonnen werden. Diese Signale werden zur Sprachsynthese­ einrichtung übertragen, wo sie decodiert und zur Ansteuerung eines Vokaltraktmodells verwendet werden. Danach folgt eine Digital/Analog-Wandlung und die akustische Ausgabe der Sprache. Wie aus der Zeichnung und der Beschreibung hervorgeht, ist die gesamte Anordnung relativ kompliziert und aufwendig. Gegenüber dem in dieser Patentschrift genannten Stand der Technik wird der Aufgabe entsprechend eine Reduzierung des Rechenaufwandes erreicht und auch eine gegenüber einer direkten Digitalisierung der Sprache, beispielsweise in PCM geringere Übertragungsrate. Diese Übertragungsrate ist aber mit ca. 4000 Bit/Sek, wie dies in Spalte 10 von Zeile 40 bis 46 angegeben ist, immer noch relativ hoch.
Ein Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und eine Schaltungsanordnung zur Durchführung des Verfahrens ist aus der EP-OS 00 58 130 bekannt. Dabei werden die von Schriftzeichen oder Tastenbetätigungen erzeugten digitalen Signale und Signalfolgen so umgesetzt, daß die Syntheseinrichtung einen Lautelementespeicher an­ steuern kann. In diesem Lautelementespeicher sind die Charakteristika von ca. 40 bis 100 Lautelementen abgelegt, womit eine verständliche Sprache produziert wird, wenn diese Lautelemente in einer entsprechenden Folge aneinander­ gereiht werden. Um dies zu erreichen, werden Schriftzeichen oder andere Eingangsignale in sogenannte Lautschriftzeichen­ folgen umgewandelt, wozu ein sogenanntes Transkriptions­ system dient. Damit wird auch ungeübten Benutzern die Anwendung erleichtert, weil Texte mit üblichen Schrift­ zeichen eingebbar sind. Bei diesem Verfahren wird davon ausgegangen, daß den einzugebenden Signalfolgen bereits eine vorbestimmte Bedeutung zugeordnet ist und diese Bedeutung sprachlich ausgegeben wird. Eine Spracherkennung und eine daraus resultierende Wiedergabe von Sprache ist bei dieser Anordnung nicht vorgesehen.
Aus der Europäischen Offenlegungsschrift EP 00 71 716 A2 ist ein sogenannter Allophone-Vocoder bekannt. Die von einem Mikro­ fon aufgenommene Sprache wird analog/digital gewandelt und es werden daraus Phoneme gebildet. Diese Phoneme werden einem Ver­ gleicher zugeführt. Der Vergleicher vergleicht die Phoneme der aufgenommenen Sprache mit gleichartig strukturierten Phonemen, welche in einem Speicher abgelegt sind. Dieser mit Library be­ zeichnete Speicher enthält also eine große Anzahl von einzelnen Phonemen, welche sprachliche Äußerungen genau beschreiben. Beim Finden einer Übereinstimmung durch den Vergleicher werden die aus dem Speicher ausgelesenen Phoneme für eine Speicherung oder Wiedergabe von Sprache benutzt. Dabei kann es sich um eine di­ rekte Sprachwiedergabe handeln, um eine Sprachspeicherung für eine spätere Wiedergabe oder um eine Sprachübertragung. Außer­ dem ist vorgesehen, Phoneme in eine alphabetische Ausdruckswei­ se umzuformen, so daß eine Information über einen Drucker aus­ gegeben werden kann.
Die Entnahme von Phonemen findet bei dieser Ausführungsform ei­ nes Vocoders nur dann statt, wenn der Vergleicher eine eindeu­ tige Übereinstimmung feststellt. Auf Seite 14 im 2. Absatz ist beschrieben, daß ein nicht erkanntes Phonem in der Phonem-Se­ quenz nicht existiert. Dazu wird bemerkt, daß durch die natür­ liche Filterung des menschlichen Ohres und die Fehlererkennung im geistigen Prozeß des Zuhörers die vom Erkennungsalgorithmus erzeugten Fehler verringert werden. Eine Leerstelle für eine Nichterkannt-Entscheidung des Vergleichers resultiert nur in ei­ ner Vergrößerung des Geräusches. Dadurch könnte die syntheti­ sche Sprache verzerrt klingen und Rauhigkeiten aufweisen. Durch das Verschlucken von Lauten könnte eine Verfremdung eintreten.
Ausgehend vom vorgenannten Stand der Technik besteht die Auf­ gabe der Erfindung darin, ein Verfahren zur Sprachübertragung und zur Sprachspeicherung anzugeben, wobei keine Qualitätsver­ luste auftreten, wenn zum Erzielen einer niedrigen Bitrate und einer niedrigen Speicherkapazität für Sprachspeicherung ein Sprachelementespeicher (Phoneme-Speicher) angewendet wird.
Zur Lösung dieser Aufgabe ist eine Merkmalskombination vorgese­ hen, wie sie im Patentanspruch 1 angegeben ist.
Damit wird in vorteilhafter Weise erreicht, daß auch beim nicht eindeutigen Erkennen von Sprachelementen einer empfangenen Sprachinformation keine Lücken in der Sprachsequenz entstehen. Die Qualität der synthetisch erzeugten Sprache wird dadurch stark verbessert.
Mit in den Unteransprüchen angegebenen Weiterbildungen der Er­ findung wird unter anderem erreicht, daß die Möglichkeit einer einfachen Sprachverschlüsselung besteht, um das unbefugte Abhö­ ren von Nachrichten nahezu unmöglich zu machen.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand von Zeichnungen näher erläutert. Es zeigt
Fig. 1 das Prinzipschaltbild einer Anordnung zur Durch­ führung des Verfahrens,
Fig. 2 eine erweiterte Anordnung zur Übertragung zu­ sätzlicher Signale,
Fig. 3 das Prinzipschaltbild einer nach 2 verschiedenen Verfahren arbeitenden Sprachsyntheseeinrichtung.
Die am Eingang E erscheinenden Sprachsignale werden einer Analyseeinrichtung ANA zugeführt, die nach einem bekannten Spracherkennungsprinzip arbeitet und für jedes erkannte Sprach­ element eine digitale Beschreibung ausgibt. Die dabei entstehenden Bitmuster und -folgen werden einem Vergleicher VG angeboten. Gleichzeitig wird ein Adressengenerator ADG gestartet, der in einem beliebigen Zyklus den Sprachelemente­ speicher SESPE der Erkennungseinrichtung adressiert. In diesem Sprachelementespeicher SESPE ist für jedes-Sprachelement eine Speicherzelle oder ein Speicherbereich vorgesehen, worin Bitmuster und Bitmusterfolgen nach den gleichen Regeln abgelegt sind, wie sie von der Analyseeinrichtung ANA ausgegeben werden. Wird beim zyklischen Adressieren des Sprachelementespeichen SESPE ein Bitmuster oder eine Bitmusterfolge ausgelesen, die den von der Analyseeinrichtung ANA erzeugten Signalen ähnlich sind, so stellt der Vergleicher VG dies fest, und der Adreßgenerator ADG wird angehalten. Außerdem wird durch das Erkennungssignal des Vergleichers VG ein UND-Gatter geöffnet, so daß die am Ausgang des Adreßgenerators ADG parallel anstehende Adresse durch einen Parallel/Seriell-Wandler PSW seriell gewandelt auf die Übertragungsleitung UeL gegeben werden kann. Die von der Spracherkennungseinrichtung SPE auf diese Weise erzeugte Adreßinformation wird mit einer sehr niedrigen Bitrate weitergegeben, und kann entweder für eine direkte Wiedergabe zur Steuerung einer Sprachsyntheseeinrichtung SSY benutzt werden oder in einen Sprachinformationsspeicher SPISP für eine spätere Wiedergabe eingespeichert werden.
Für die Wiedergewinnung der Sprache werden die von der Übertragungsleitung UeL ankommenden seriellen Signal­ folgen in einem Seriell/Parallel-Wandler SPW zunächst in eine parallele Form gebracht und dienen zur Ansteuerung des in der Sprachsyntheseeinrichtung SSY befindlichen Sprachelementespeichers SESPS. Die nachein­ ander ankommenden Adreßinformationen führen dazu, daß der jeweilige Inhalt einer ein Lautelement beschreibenden Speicherzelle zur Synthesesteuerung SYN gegeben wird. Damit werden in bekannter Weise die entsprechenden Frequenz­ generatoren nacheinander angesteuert, so daß das Sprach­ signal in einer analogen Form über einen Verstärker V einem elektroakustischem Wandler EAW zugeführt werden kann.
In der Fig. 2 sind zusätzlich zu den in der Fig. 1 darge­ stellten und bereits beschriebenen Einrichtungen weitere Kom­ ponenten vorgesehen, womit die für die Wiedergabe der Sprache notwendige Information so erweitert wird, daß die Sprachqualität und die Verständlichkeit wesentlich gesteigert werden kann. Der Vergleicher VG ist so ausgelegt, daß er nicht nur, wie bereits beschrieben, ein positives Signal J ausgibt, wenn eine Bitkombination im Sprachelemente­ speicher SESPE gefunden wurde, sondern auch ein negatives Signal N erscheint, wenn von der Analyseeinrichtung ANA eine Bitmusterfolge erzeugt wurde, die in ähnlicher Form in Sprachelementespeicher SESPE nicht vorgefunden werden kann. Mit diesem Negativ-Signal N wird ein Multiplexer MUX umge­ schaltet. Ein von der Sprachanalyse-Einrichtung ANA ermitteltes Korrelationsergebnis gelangt zu einer Sprachcodiereinrichtung SCE. Es wird in einem Direktcode-Zwischenspeicher DCSP vor­ übergehend gepuffert und gelangt über einen Parallel- Seriell-Wandler PSW zu dem inzwischen umgeschalteten Multiplexer MUX. Die nun auf der Übertragungsleitung UeL gesendete Information stellt keine Adresse sondern eine verschlüsselte Sprachprobe dar. Mit einem besonderen Code, der dieser verschlüsselten Sprachprobe vorangestellt wird, erfolgt eine Umschaltung des in der Sprachsyntheseeinrichtung SSY befindlichen Demultiplexers DEMUX. Von dort aus wird ein zusätzliches Umschaltemittel U in seine Arbeitslage gesteuert, so daß nicht der Inhalt des in der Sprach­ syntheseeinrichtung SSY befindlichen Sprachelementespeichers SESPS zur Synthesesteuerung SYN gelangt, sondern diese direkt mit dem Demultiplexer DEMUX verbunden wird. In diesem Fall wird dann der Direktcode unmittelbar von der Synthese­ steuerung SYN in ein analoges Sprachelement verwandelt, das wie vorher beschrieben über einen Verstärker V an den elektroakustischen Wandler EAW gelangt.
Es ist außerdem vorgesehen, daß die Sprachanalyseeinheit ANA Zusatzinformationen ZI erzeugt, die seriell direkt über die Übertragungsleitung UeL zur Synthesesteuerung SYN gelangen, wobei Multiplexer MUX und Demultiplexer DEMUX entsprechend umgeschaltet werden. Mit dieser Zusatzinformation ist es möglich, die Wiedergewinnung der Sprache so zu beeinflussen, daß sprachliche Eigenheiten, die die Verständlichkeit erhöhen,wie beispielsweise Tonhöhe, berücksichtigt werden können.
Bei der in Fig. 3 dargestellten Sprachsyntheseeinrichtung SSY ist vorgesehen, daß die Spracherzeugung nach zwei ver­ schiedenen Prinzipien geschieht. Je nach der ankommenden Sig­ nalkategorie wird der Demultiplexer DEMUX so geschaltet, daß die Information zu den entsprechenden Einrichtungen gelangt. Handelt es sich um Adreßinformationen, so wird wie bereits beschrieben, ein in der Sprachsyntheseeinrichtung SSY vorhandener Sprachelementespeicher SESPS damit angesteuert. Die nachgeschaltete Vollsynthesesteuerung VSY erzeugt aus dem Sprachelemente beschreibenden Inhalt des Sprachelemente­ speichers SESPS analoge Sprachsignale, die über einen Ver­ stärker V einen elektroakustischen Wandler EAW zugeführt werden. Dabei können, wie bereits beschrieben, Zusatzinformationen ZI berücksichtigt werden, so daß die bei der Spracherkennung festgestellten Charakteristika der Sprache wiedergegeben werden können. Der Demultiplexer DEMUX kann jedoch auch so geschaltet werden, daß die ankommende Information direkt zu einer Decodiereinrichtung DEC gelangt, womit auf direktem Wege Sprachsignale darstellende Frequenzen erzeugt werden können, die wie vorher beschrieben, ausgegeben werden.

Claims (6)

1. Verfahren zur Sprachübertragung und Sprachspeicherung, wobei die ankommenden Sprachsignale von einer nach dem Prinzip der Sprachelementeerkennung arbeitenden Spracherkennungseinrichtung erkannt werden, die auszugebende Sprache von einer Sprachsyn­ theseeinrichtung erzeugt wird, und die ankommenden Sprachsi­ gnale durch einen Vergleicher mit vorgegebenen, in einem Sprach­ elementespeicher vorhandenen Informationen über die Beschaf­ fenheit der Sprachelemente und deren Varianten verglichen wer­ den, um Eingangsinformationen für die Sprachsyntheseeinrichtung zu erhalten, dadurch gekennzeichnet,
daß beim Vorliegen eines sicheren Vergleichsergebnisses am Aus­ gang des Vergleichers (VG) die beim Auffinden der betreffenden Speicherzellen entstehenden Adressen direkt zum Ansteuern je­ weils einer Speicherzelle eines in der Sprachsyntheseeinrich­ tung (SSY) befindlichen Sprachelementespeichers (SESPS) dienen, worin die Informationen über das betreffende Sprachelement ab­ gelegt sind,
oder daß beim Vorliegen eines unsicheren Vergleichsergebnisses von einer Analyseeinrichtung (ANA) ein Direktcode gebildet wird, der die betreffende Sprachprobe unmittelbar beschreibt und zur Sprachsyntheseeinrichtung (SSY) gegeben wird, wobei diese umgeschaltet wird und dann nach einem der Analyse ent­ sprechenden Syntheseverfahren (z. B. LPC Linear Predictive Coding) arbeitet.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die direkt-codierten Sprachproben nicht so codiert sind, wie die im Sprachelementespeicher (SESPE) der Spracherkennungseinrichtung (SPE) abgeleg­ ten Sprachelemente beschrieben sind.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Verfahren in digitalen Nachrichtensystemen als Alternative zur dort angewandten Codierung (z. B. PCM) angewendet und dann lediglich der Adreßcode übertragen wird, wenn eine Sprechererkennung ausgeschlossen sein soll.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Schema der Adressierung der Sprachelemente­ speicher (SESPE, SESPS) änderbar ist, so daß ver­ schlüsselte Nachrichten übertragen werden können.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Schema der Adressierung der Sprachelemente­ speicher (SESPE, SESPS) zur Verschlüsselung in programmierbaren Festwertspeichern abgelegt ist, wovon vereinbarungsgemäß jeweils gleichartige bei der Sprach­ erkennungeinrichtung (SPE) und bei der Sprachsynthese­ einrichtung (SSY) eingesetzt werden müssen.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zusätzlich zu den Adreßdaten für die Ansteuerung des Sprachelementespeichers (SESPS) der Sprachsynthese­ einrichtung (SSY) Zusatzinformationen (ZI) übertragen werden, womit bei der Synthese Modifizierungen der ausge­ gebenen Sprache (Tonhöhe etc.) möglich sind.
DE19853513243 1985-04-13 1985-04-13 Verfahren zur sprachuebertragung und sprachspeicherung Granted DE3513243A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19853513243 DE3513243A1 (de) 1985-04-13 1985-04-13 Verfahren zur sprachuebertragung und sprachspeicherung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19853513243 DE3513243A1 (de) 1985-04-13 1985-04-13 Verfahren zur sprachuebertragung und sprachspeicherung

Publications (2)

Publication Number Publication Date
DE3513243A1 DE3513243A1 (de) 1986-10-16
DE3513243C2 true DE3513243C2 (de) 1993-03-11

Family

ID=6267899

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19853513243 Granted DE3513243A1 (de) 1985-04-13 1985-04-13 Verfahren zur sprachuebertragung und sprachspeicherung

Country Status (1)

Country Link
DE (1) DE3513243A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304845B1 (en) 1998-02-03 2001-10-16 Siemens Aktiengesellschaft Method of transmitting voice data

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19860133C2 (de) * 1998-12-17 2001-11-22 Cortologic Ag Verfahren und Vorrichtung zur Sprachkompression

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2435654C2 (de) * 1974-07-24 1983-11-17 Gretag AG, 8105 Regensdorf, Zürich Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache
DE3105518A1 (de) * 1981-02-11 1982-08-19 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur synthese von sprache mit unbegrenztem wortschatz und schaltungsanordnung zur durchfuehrung des verfahrens
DE3277095D1 (en) * 1981-08-03 1987-10-01 Texas Instruments Inc Allophone vocoder

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304845B1 (en) 1998-02-03 2001-10-16 Siemens Aktiengesellschaft Method of transmitting voice data

Also Published As

Publication number Publication date
DE3513243A1 (de) 1986-10-16

Similar Documents

Publication Publication Date Title
Harris A study of the building blocks in speech
DE2918533C2 (de)
DE19610019C2 (de) Digitales Sprachsyntheseverfahren
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE1965480A1 (de) Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE10054583A1 (de) Verfahren und Vorrichtung zur Behandlung von Sprachinformationen
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE69233622T2 (de) Vorrichtung zur Erzeugung von Ansagen
DE112010005706B4 (de) Spracherkennungsvorrichtung
DE3513243C2 (de)
Buron Generation of a 1000-word vocabulary for a pulse-excited vocoder operating as an audio response unit
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
DE4111781A1 (de) Computersystem zur spracherkennung
House The influence of silence on perceiving the preceding tonal contour
DE1547002A1 (de) Vorrichtung,die auf gesprochene Informationen anspricht,insbesondere phonetische Schreibmaschine
DE2335818C3 (de) Elektrische Anordnung zur automatischen Erzeugung von gesprochenen Sätzen
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
DE19837661C2 (de) Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten
EP1170723A2 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese

Legal Events

Date Code Title Description
8127 New person/name/address of the applicant

Owner name: TELENORMA TELEFONBAU UND NORMALZEIT GMBH, 6000 FRA

8110 Request for examination paragraph 44
8127 New person/name/address of the applicant

Owner name: TELENORMA GMBH, 6000 FRANKFURT, DE

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee