DE3513243C2

DE3513243C2 -

Info

Publication number: DE3513243C2
Application number: DE19853513243
Authority: DE
Inventors: Erhard Dipl.-Ing. 6368 Bad Vilbel De Reitz; Joachim Dipl.-Ing. 6000 Frankfurt De Zinke
Original assignee: Telenorma GmbH
Current assignee: Telenorma GmbH
Priority date: 1985-04-13
Filing date: 1985-04-13
Publication date: 1993-03-11
Also published as: DE3513243A1

Description

Die Erfindung betrifft ein Verfahren zur Sprachübertragung und Sprachspeicherung nach dem Oberbegriff des Patentan spruches 1.

Aus der DE-PS 24 35 654 ist ein Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache bekannt, wobei die Sprachanalyse mit einer elektrischen Nachbildung des menschlichen Vokaltraktes erfolgt, indem dort Parameter für die Wiedergewinnung der Sprache darstellende Signale gewonnen werden. Diese Signale werden zur Sprachsynthese einrichtung übertragen, wo sie decodiert und zur Ansteuerung eines Vokaltraktmodells verwendet werden. Danach folgt eine Digital/Analog-Wandlung und die akustische Ausgabe der Sprache. Wie aus der Zeichnung und der Beschreibung hervorgeht, ist die gesamte Anordnung relativ kompliziert und aufwendig. Gegenüber dem in dieser Patentschrift genannten Stand der Technik wird der Aufgabe entsprechend eine Reduzierung des Rechenaufwandes erreicht und auch eine gegenüber einer direkten Digitalisierung der Sprache, beispielsweise in PCM geringere Übertragungsrate. Diese Übertragungsrate ist aber mit ca. 4000 Bit/Sek, wie dies in Spalte 10 von Zeile 40 bis 46 angegeben ist, immer noch relativ hoch.

Ein Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und eine Schaltungsanordnung zur Durchführung des Verfahrens ist aus der EP-OS 00 58 130 bekannt. Dabei werden die von Schriftzeichen oder Tastenbetätigungen erzeugten digitalen Signale und Signalfolgen so umgesetzt, daß die Syntheseinrichtung einen Lautelementespeicher an steuern kann. In diesem Lautelementespeicher sind die Charakteristika von ca. 40 bis 100 Lautelementen abgelegt, womit eine verständliche Sprache produziert wird, wenn diese Lautelemente in einer entsprechenden Folge aneinander gereiht werden. Um dies zu erreichen, werden Schriftzeichen oder andere Eingangsignale in sogenannte Lautschriftzeichen folgen umgewandelt, wozu ein sogenanntes Transkriptions system dient. Damit wird auch ungeübten Benutzern die Anwendung erleichtert, weil Texte mit üblichen Schrift zeichen eingebbar sind. Bei diesem Verfahren wird davon ausgegangen, daß den einzugebenden Signalfolgen bereits eine vorbestimmte Bedeutung zugeordnet ist und diese Bedeutung sprachlich ausgegeben wird. Eine Spracherkennung und eine daraus resultierende Wiedergabe von Sprache ist bei dieser Anordnung nicht vorgesehen.

Aus der Europäischen Offenlegungsschrift EP 00 71 716 A2 ist ein sogenannter Allophone-Vocoder bekannt. Die von einem Mikro fon aufgenommene Sprache wird analog/digital gewandelt und es werden daraus Phoneme gebildet. Diese Phoneme werden einem Ver gleicher zugeführt. Der Vergleicher vergleicht die Phoneme der aufgenommenen Sprache mit gleichartig strukturierten Phonemen, welche in einem Speicher abgelegt sind. Dieser mit Library be zeichnete Speicher enthält also eine große Anzahl von einzelnen Phonemen, welche sprachliche Äußerungen genau beschreiben. Beim Finden einer Übereinstimmung durch den Vergleicher werden die aus dem Speicher ausgelesenen Phoneme für eine Speicherung oder Wiedergabe von Sprache benutzt. Dabei kann es sich um eine di rekte Sprachwiedergabe handeln, um eine Sprachspeicherung für eine spätere Wiedergabe oder um eine Sprachübertragung. Außer dem ist vorgesehen, Phoneme in eine alphabetische Ausdruckswei se umzuformen, so daß eine Information über einen Drucker aus gegeben werden kann.

Die Entnahme von Phonemen findet bei dieser Ausführungsform ei nes Vocoders nur dann statt, wenn der Vergleicher eine eindeu tige Übereinstimmung feststellt. Auf Seite 14 im 2. Absatz ist beschrieben, daß ein nicht erkanntes Phonem in der Phonem-Se quenz nicht existiert. Dazu wird bemerkt, daß durch die natür liche Filterung des menschlichen Ohres und die Fehlererkennung im geistigen Prozeß des Zuhörers die vom Erkennungsalgorithmus erzeugten Fehler verringert werden. Eine Leerstelle für eine Nichterkannt-Entscheidung des Vergleichers resultiert nur in ei ner Vergrößerung des Geräusches. Dadurch könnte die syntheti sche Sprache verzerrt klingen und Rauhigkeiten aufweisen. Durch das Verschlucken von Lauten könnte eine Verfremdung eintreten.

Ausgehend vom vorgenannten Stand der Technik besteht die Auf gabe der Erfindung darin, ein Verfahren zur Sprachübertragung und zur Sprachspeicherung anzugeben, wobei keine Qualitätsver luste auftreten, wenn zum Erzielen einer niedrigen Bitrate und einer niedrigen Speicherkapazität für Sprachspeicherung ein Sprachelementespeicher (Phoneme-Speicher) angewendet wird.

Zur Lösung dieser Aufgabe ist eine Merkmalskombination vorgese hen, wie sie im Patentanspruch 1 angegeben ist.

Damit wird in vorteilhafter Weise erreicht, daß auch beim nicht eindeutigen Erkennen von Sprachelementen einer empfangenen Sprachinformation keine Lücken in der Sprachsequenz entstehen. Die Qualität der synthetisch erzeugten Sprache wird dadurch stark verbessert.

Mit in den Unteransprüchen angegebenen Weiterbildungen der Er findung wird unter anderem erreicht, daß die Möglichkeit einer einfachen Sprachverschlüsselung besteht, um das unbefugte Abhö ren von Nachrichten nahezu unmöglich zu machen.

Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand von Zeichnungen näher erläutert. Es zeigt

Fig. 1 das Prinzipschaltbild einer Anordnung zur Durch führung des Verfahrens,

Fig. 2 eine erweiterte Anordnung zur Übertragung zu sätzlicher Signale,

Fig. 3 das Prinzipschaltbild einer nach 2 verschiedenen Verfahren arbeitenden Sprachsyntheseeinrichtung.

Die am Eingang E erscheinenden Sprachsignale werden einer Analyseeinrichtung ANA zugeführt, die nach einem bekannten Spracherkennungsprinzip arbeitet und für jedes erkannte Sprach element eine digitale Beschreibung ausgibt. Die dabei entstehenden Bitmuster und -folgen werden einem Vergleicher VG angeboten. Gleichzeitig wird ein Adressengenerator ADG gestartet, der in einem beliebigen Zyklus den Sprachelemente speicher SESPE der Erkennungseinrichtung adressiert. In diesem Sprachelementespeicher SESPE ist für jedes-Sprachelement eine Speicherzelle oder ein Speicherbereich vorgesehen, worin Bitmuster und Bitmusterfolgen nach den gleichen Regeln abgelegt sind, wie sie von der Analyseeinrichtung ANA ausgegeben werden. Wird beim zyklischen Adressieren des Sprachelementespeichen SESPE ein Bitmuster oder eine Bitmusterfolge ausgelesen, die den von der Analyseeinrichtung ANA erzeugten Signalen ähnlich sind, so stellt der Vergleicher VG dies fest, und der Adreßgenerator ADG wird angehalten. Außerdem wird durch das Erkennungssignal des Vergleichers VG ein UND-Gatter geöffnet, so daß die am Ausgang des Adreßgenerators ADG parallel anstehende Adresse durch einen Parallel/Seriell-Wandler PSW seriell gewandelt auf die Übertragungsleitung UeL gegeben werden kann. Die von der Spracherkennungseinrichtung SPE auf diese Weise erzeugte Adreßinformation wird mit einer sehr niedrigen Bitrate weitergegeben, und kann entweder für eine direkte Wiedergabe zur Steuerung einer Sprachsyntheseeinrichtung SSY benutzt werden oder in einen Sprachinformationsspeicher SPISP für eine spätere Wiedergabe eingespeichert werden.

Für die Wiedergewinnung der Sprache werden die von der Übertragungsleitung UeL ankommenden seriellen Signal folgen in einem Seriell/Parallel-Wandler SPW zunächst in eine parallele Form gebracht und dienen zur Ansteuerung des in der Sprachsyntheseeinrichtung SSY befindlichen Sprachelementespeichers SESPS. Die nachein ander ankommenden Adreßinformationen führen dazu, daß der jeweilige Inhalt einer ein Lautelement beschreibenden Speicherzelle zur Synthesesteuerung SYN gegeben wird. Damit werden in bekannter Weise die entsprechenden Frequenz generatoren nacheinander angesteuert, so daß das Sprach signal in einer analogen Form über einen Verstärker V einem elektroakustischem Wandler EAW zugeführt werden kann.

In der Fig. 2 sind zusätzlich zu den in der Fig. 1 darge stellten und bereits beschriebenen Einrichtungen weitere Kom ponenten vorgesehen, womit die für die Wiedergabe der Sprache notwendige Information so erweitert wird, daß die Sprachqualität und die Verständlichkeit wesentlich gesteigert werden kann. Der Vergleicher VG ist so ausgelegt, daß er nicht nur, wie bereits beschrieben, ein positives Signal J ausgibt, wenn eine Bitkombination im Sprachelemente speicher SESPE gefunden wurde, sondern auch ein negatives Signal N erscheint, wenn von der Analyseeinrichtung ANA eine Bitmusterfolge erzeugt wurde, die in ähnlicher Form in Sprachelementespeicher SESPE nicht vorgefunden werden kann. Mit diesem Negativ-Signal N wird ein Multiplexer MUX umge schaltet. Ein von der Sprachanalyse-Einrichtung ANA ermitteltes Korrelationsergebnis gelangt zu einer Sprachcodiereinrichtung SCE. Es wird in einem Direktcode-Zwischenspeicher DCSP vor übergehend gepuffert und gelangt über einen Parallel- Seriell-Wandler PSW zu dem inzwischen umgeschalteten Multiplexer MUX. Die nun auf der Übertragungsleitung UeL gesendete Information stellt keine Adresse sondern eine verschlüsselte Sprachprobe dar. Mit einem besonderen Code, der dieser verschlüsselten Sprachprobe vorangestellt wird, erfolgt eine Umschaltung des in der Sprachsyntheseeinrichtung SSY befindlichen Demultiplexers DEMUX. Von dort aus wird ein zusätzliches Umschaltemittel U in seine Arbeitslage gesteuert, so daß nicht der Inhalt des in der Sprach syntheseeinrichtung SSY befindlichen Sprachelementespeichers SESPS zur Synthesesteuerung SYN gelangt, sondern diese direkt mit dem Demultiplexer DEMUX verbunden wird. In diesem Fall wird dann der Direktcode unmittelbar von der Synthese steuerung SYN in ein analoges Sprachelement verwandelt, das wie vorher beschrieben über einen Verstärker V an den elektroakustischen Wandler EAW gelangt.

Es ist außerdem vorgesehen, daß die Sprachanalyseeinheit ANA Zusatzinformationen ZI erzeugt, die seriell direkt über die Übertragungsleitung UeL zur Synthesesteuerung SYN gelangen, wobei Multiplexer MUX und Demultiplexer DEMUX entsprechend umgeschaltet werden. Mit dieser Zusatzinformation ist es möglich, die Wiedergewinnung der Sprache so zu beeinflussen, daß sprachliche Eigenheiten, die die Verständlichkeit erhöhen,wie beispielsweise Tonhöhe, berücksichtigt werden können.

Bei der in Fig. 3 dargestellten Sprachsyntheseeinrichtung SSY ist vorgesehen, daß die Spracherzeugung nach zwei ver schiedenen Prinzipien geschieht. Je nach der ankommenden Sig nalkategorie wird der Demultiplexer DEMUX so geschaltet, daß die Information zu den entsprechenden Einrichtungen gelangt. Handelt es sich um Adreßinformationen, so wird wie bereits beschrieben, ein in der Sprachsyntheseeinrichtung SSY vorhandener Sprachelementespeicher SESPS damit angesteuert. Die nachgeschaltete Vollsynthesesteuerung VSY erzeugt aus dem Sprachelemente beschreibenden Inhalt des Sprachelemente speichers SESPS analoge Sprachsignale, die über einen Ver stärker V einen elektroakustischen Wandler EAW zugeführt werden. Dabei können, wie bereits beschrieben, Zusatzinformationen ZI berücksichtigt werden, so daß die bei der Spracherkennung festgestellten Charakteristika der Sprache wiedergegeben werden können. Der Demultiplexer DEMUX kann jedoch auch so geschaltet werden, daß die ankommende Information direkt zu einer Decodiereinrichtung DEC gelangt, womit auf direktem Wege Sprachsignale darstellende Frequenzen erzeugt werden können, die wie vorher beschrieben, ausgegeben werden.

Claims

1. Verfahren zur Sprachübertragung und Sprachspeicherung, wobei die ankommenden Sprachsignale von einer nach dem Prinzip der Sprachelementeerkennung arbeitenden Spracherkennungseinrichtung erkannt werden, die auszugebende Sprache von einer Sprachsyn theseeinrichtung erzeugt wird, und die ankommenden Sprachsi gnale durch einen Vergleicher mit vorgegebenen, in einem Sprach elementespeicher vorhandenen Informationen über die Beschaf fenheit der Sprachelemente und deren Varianten verglichen wer den, um Eingangsinformationen für die Sprachsyntheseeinrichtung zu erhalten, dadurch gekennzeichnet,
daß beim Vorliegen eines sicheren Vergleichsergebnisses am Aus gang des Vergleichers (VG) die beim Auffinden der betreffenden Speicherzellen entstehenden Adressen direkt zum Ansteuern je weils einer Speicherzelle eines in der Sprachsyntheseeinrich tung (SSY) befindlichen Sprachelementespeichers (SESPS) dienen, worin die Informationen über das betreffende Sprachelement ab gelegt sind,
oder daß beim Vorliegen eines unsicheren Vergleichsergebnisses von einer Analyseeinrichtung (ANA) ein Direktcode gebildet wird, der die betreffende Sprachprobe unmittelbar beschreibt und zur Sprachsyntheseeinrichtung (SSY) gegeben wird, wobei diese umgeschaltet wird und dann nach einem der Analyse ent sprechenden Syntheseverfahren (z. B. LPC Linear Predictive Coding) arbeitet.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die direkt-codierten Sprachproben nicht so codiert sind, wie die im Sprachelementespeicher (SESPE) der Spracherkennungseinrichtung (SPE) abgeleg ten Sprachelemente beschrieben sind.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Verfahren in digitalen Nachrichtensystemen als Alternative zur dort angewandten Codierung (z. B. PCM) angewendet und dann lediglich der Adreßcode übertragen wird, wenn eine Sprechererkennung ausgeschlossen sein soll.

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Schema der Adressierung der Sprachelemente speicher (SESPE, SESPS) änderbar ist, so daß ver schlüsselte Nachrichten übertragen werden können.

5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Schema der Adressierung der Sprachelemente speicher (SESPE, SESPS) zur Verschlüsselung in programmierbaren Festwertspeichern abgelegt ist, wovon vereinbarungsgemäß jeweils gleichartige bei der Sprach erkennungeinrichtung (SPE) und bei der Sprachsynthese einrichtung (SSY) eingesetzt werden müssen.

6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zusätzlich zu den Adreßdaten für die Ansteuerung des Sprachelementespeichers (SESPS) der Sprachsynthese einrichtung (SSY) Zusatzinformationen (ZI) übertragen werden, womit bei der Synthese Modifizierungen der ausge gebenen Sprache (Tonhöhe etc.) möglich sind.