DE3513243A1

DE3513243A1 - Verfahren zur sprachuebertragung und sprachspeicherung

Info

Publication number: DE3513243A1
Application number: DE19853513243
Authority: DE
Inventors: Erhard Dipl.-Ing. 6368 Bad Vilbel Reitz; Joachim Dipl.-Ing. 6000 Frankfurt Zinke
Original assignee: Telefonbau und Normalzeit GmbH
Current assignee: Telenorma GmbH
Priority date: 1985-04-13
Filing date: 1985-04-13
Publication date: 1986-10-16
Also published as: DE3513243C2

Description

Verfahren zur Sprachübertragung und Sprachspeicherung
Die Erfindung betrifft ein Verfahren zur Sprachübertragung und Sprachspeicherung nach dem Oberbegriff des Patentanspruches 1.
Aus der DE-PS 24 35 654 ist ein Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache bekannt, wobei die Sprachanalyse mit einer elektrischen Nachbildung desmenschlichen Vokaltraktes erfolgt, indem dort Parameter für die Wiedergewinnung der Sprache darstellende Signale gewonnen werden. Diese Signale werden zur Sprachsyntheseeinrichtung übertragen, wo sie decodiert und zur Ansteuerung eines Vokaltraktmodells verwendet werden. Danach folgt eine Digital/Analog-Wandlung und die akustische Ausgabe der Sprache. Wie aus der Zeichnung und der Beschreibung hervor geht, ist die gesamte Anordnung relativ kompliziert und aufwendig. Gegenüber dem in dieser Patentschrift genannten Stand der'Technik wird der Aufgabe entsprechend eine Reduzierung des Rechenaufwandes erreicht und auch eine gegenüber einer direkten Digitalisierung der Sprache, beispielsweise in PCM geringere Übertragungsrate. Diese Übertragungsrate ist aber mit ca. 4.000 Bit/Sek, wie dies in Spalte 10 von Zeile 40 bis 46 angegeben ist, immer noch relativ hoch.
Ein Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und eine Schaltungsanordnung zur Durchführung des Verfahrens ist aus der EP-OS 0058130 bekannt. Dabei werden die von Schriftzeichen oder Tastenbetätigungen erzeugten digitalen Signale und Signalfolgen so umgesetzt, daß die Syntheseinrichtung einen Lautelementespeicher ansteuern kann. In diesem Lautelementespeicher sind die Charakteristika von ca. 40 bis 100 Lautelementen abgelegt, womit eine verständliche Sprache produziertwird, wenn diese Lautelemente in einer entsprechenden Folge aneinandergereiht werden. Um dies zu erreichen, werden Schriftzeichen oder andere Eingangsignale in sogenannte Lautschriftzeichenfolgen umgewandelt, wozu ein sogenanntes Transkriptionssystem dient. Damit wird auch ungeübten Benutzern die Anwendung erleichtert, weil Texte mit üblichen Schriftzeichen eingebbar sind. Bei diesem Verfahren wird davon ausgegangen, daß den einzugebenden Signalfolgen bereits eine vorbestimmte Bedeutung zugeordnet ist und diese Bedeutung sprachlich ausgegeben wird. Eine Spracherkennung und eine daraus resultierende Wiedergabe von Sprache ist bei dieser Anordnung nicht vorgesehen.
Die Aufgabe der Erfindung besteht darin, ein Verfahren zur Sprachübertragung und zur Sprachspeicherung anzugeben, wobei die Sprachübertragung mit einer sehr niedrigen Bitrate durchgeführt werden kann und bei einer Sprachspeicherung in Halbleiterspeichern eine extrem niedrige Speicherkapazität benötigt wird. Diese Aufgabe wird durch eine Merkmalskombination gelöst, wie sie im Patentanspruch 1 angegeben ist.
Damit wird in vorteilhafter Weise erreicht, daß nur noch Adressen übertragen oder gespeichert werden müssen, mit denen Sprachelementespeicher angesteuert werden können, worin die zur Erzeugung künstlicher Sprache notwendigen Angaben für jedes einzelene Sprachelement digital abgelegt sind. Ein derartiges Ubertragungs- und Speicherverfahren eignet sich auch zur Anwendung in digital durchschaltenden Vermittlungsanlagen. Allerdings ist es dann nicht mehr möglich, den Gesprächspartner an seiner Stimme zu erkennen.
Mit den in den Unteransprüchen angegebenen Weiterbildungen der Erfindung wird u.a. erreicht, daß die Möglichkeit einer einfachen Sprachverschlüsselung besteht, um das unbefugte Abhören von Nachrichten nahezu unmöglich zu machen. -Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand von Zeichnungen näher erläutert.
Es zeigt: Fig. 1 das Prinzipschaltbild einer Anordnung zur Durchführung des Verfahrens, Fig. 2 eine erweiterte Anordnung zur Übertragung zusätzlicher Signale, Fig. 3 das Prinzipschaltbild einer nach 2 verschiedenen Verfahren arbeitenden Sprachsyntheseeinrichtung.
Die am Eingang E erscheinenden Sprachsignale werden einer Analyseeinrichtung ANA zugeführt, die nach einem bekannten Spracherkennungsprinzip arbeitet und für jedes erkannte Sprachelement eine digitale Beschreibung ausgibt. Die dabei entstehenden Bitmuster und -folgen werden einem Vergleicher VG angeboten. Gleichzeitig wird ein Adressengenerator ADG gestartet, der in einem beliebigen Zyklus den Sprachelementespeicher SESPE der Erkennungseinrichung adressiert. In diesem Sprachelementespeicher SESPE ist für jedes Sprachelement eine Speicherzelle oder ein Speicherbereich vorgesehen, worin Bitmuster und Bitmusterfolgen nach den gleichen Regeln abgelegt sind, wie sie von der Analyseeinrichtung ANA ausgegeben werden. Wird beim zyklischen Adressieren des Sprachelementespeichers SESPE einBitmuster oder eine Bitmusterfolge ausgelesen, die den von der Analpeeinrichtung ANA erzeugten signalen ährlich sind, so stellt der Vergleicher VG dies fest, und der Adreßgenerator ADG wird angehalten.
Außerdem wird durch das Erkennungssignal des Vergleichers VG ein UND-Gatter geöffnet, so daß die am Ausgang des Adreßgenerators ADG parallel anstehende Adresse durch einen Parallel/Seriell-Wandler PSW seriell gewandelt auf die Übertragungsleitung UeL gegeben werden kann. Die von der Spracherkennungseinrichtung SPE auf diese Weise erzeugte Adreßinformation wird mit einer sehr niedrigen Bitrate weitergegeben, und kann entweder für eine direkte Wiedergabe zur Steuerung einer Sprachsyntheseeinrichtung SSY benutzt werden oder in einen Sprachinformationsspeicher SPISP für eine spätere Wiedergabe eingespeichert werden.
Für die Wiedergewinnung der Sprache werden die von der Übertragungsleitung UeL ankommenden seriellen Signalfolgen in einem Seriell/Parallel-Wandler SPW zunächt in eine parallele Form gebracht und dienen zur Ansteuerung des in der Sprachsyntheseeinrichtung SSY befindlichen Sprachelementespeichers SESPS. Die nacheinander ankommenden Adreßinformationen führen dazu, daß der jeweilige Inhalt einer ein Lautelement beschreibenden Speicherzelle zur Synthesesteuerung SYN geben wird. Damit werden in bekannter Weise die entsprechenden Frequenzgeneratoren nacheinander angesteuert, so daß das Sprachsignal in einer analogen Form über einen Verstärker V einem elektroakustischem Wandler EAW zugeführt werden kann.
In der Fig. 2 sind zusätzlich zu den in der Fig. 1 dargestellten und bereits beschriebenen Einrichtungen weitere Komponenten vorgesehen, womit die für die Wiedergabe der Sprache notwendige Information so erweitert wird, daß die Sprachqualität und die Verständlichkeit wesentlich gesteigert werden kann. Der Vergleicher VG ist so ausgelegt, daß er nicht nur wie bereits beschrieben ein positives Signal J ausgibt, wenn eine Bitkombination im Sprachelementespeicher SESPE gefunden wurde, sondern auch ein negatives Signal N erscheint, wenn von der Analyseeinrichtung ANA eine Bitmusterfolge erzeugt wurde, die in ähnlicher Form im Sprachelementespeicher SESPE nicht vorgefunden werden kann.
Mit diesem Negativ-Signal N wird ein Multiplexer MUX umgeschaltet. Ein von der Sprachanalyse-Einrichtung ANA ermitteltes Korrelationsergebnis gelangt zu einer Sprachcodiereinrichtung SCE. Es wird in einem Direktcode-Zwischenspeicher DCSP vorübergehend gepuffert und gelangt über einen Parallel-Seriell-Wandler PSW zu dem inzwischen umgeschalteten Multiplexer MUX. Die nun auf der Übertragungsleitung UeL gesendete Information stellt keine Adresse sondern eine verschlüsselte Sprachprobe dar. Mit einem besonderen Code, der dieser verschlüsselten Sprachprobe vorangestellt wird, erfolgt eine Umschaltung des in der Sprachsyntheseeinrichtung SSY befindlichen Demultiplexers DEMUX. Von dort aus wird ein zusätzliches Umschaltemittel U in seine Arbeitslage gesteuert, so daß nicht der Inhalt des in der Sprachsyntheseeinrichtung SSY befindlichen Sprachelementespeichers SESPS zur Synthesesteuerung SYN gelangt, sondern diese direkt mit dem Demultiplexer DEMUX verbunden wird. In diesem Fall wird dann der Direktcode unmittelbar von der Synthesesteuerung SYN in ein analoges Sprachelemente verwandelt, das wie vorher beschrieben über einen Verstärker V an den elektroakustischen Wandler EAW gelangt.
Es ist außerdem vorgesehen, daß die Sprachanalyseeinheit ANA Zusatzinformationen ZI erzeugt, die seriell direkt über die Übertragungsleitung UeL zur Synthesesteuerung SYN gelangen, wobei Multiplexer MUX und Demultiplexer DEMUX entsprechend umgeschaltet werden. Mit dieser Zusatzinformation ist es möglich, die Wiedergewinnung der Sprache so zu beeinflussen, daß sprachliche Eigenheiten, die die Verständlichkeit erhöhen,wie beispielsweise Tonhöhe, berücksichtigt werden können.
Bei der in Fig. 3 dargestellten Sprachsyntheseeinrichtung SSY ist vorgesehen, daß die Spracherzeugung nach zwei verschiedenen Prinzipien geschieht. Je nach der ankommenden Signalkategorie wird der Demultiplexer DEMUX so geschaltet, daß die Information zu den entsprechenden Einrichtungen gelangt. Handelt es sich um Adreßinformationen, so wird wie bereits beschrieben, ein in der Sprachsyntheseeinrichtung SSY vorhandener Sprachelementespeicher SESPS damit angesteuert.
Die nachgeschaltete Vollsynthesesteuerung VSY erzeugt aus dem Sprachelemente beschreibenden Inhalt des Sprachelementespeichers SESPS analoge Sprachsignale, die über einen Verstärker V einem elektroakustischen Wandler EAW zugeführt werden. Dabei können wie bereits beschrieben Zusatzinfortriationen ZI berücksichtigt werden, so daß die bei der Spracherkennung festgestellten Charakteristika der Sprache wiedergegeben werden können. Der Demultiplexer DEMUX kann jedoch auch so geschaltet werden, daß die ankommende Insormation direkt zu einer Decodiereinrichtunz DvC gelangt, womit auf direktem Wege Sprachsignale darstellende Frequenzen erzeugt werden können, die wie vorher beschrieben ausgegeben werden.
- Leerseite -

Claims

Verfahren zur Sprachübertragung und Sprachspeicherung Patentansprüche 1. Verfahren zur Sprachübertragung und Sprachspeicherung, wobei die ankommenden Sprachsignale von einer Spracherkennungseinrichtung erkannt werden und die auszugebende Sprache von einer Sprachsyntheseeinrichtung erzeugt wird, dadurch gekennzeichnet, daß die Spracherkennung von einer nach dem Prinzip der Sprachelementeerkennung arbeitenden Spracherkennungseinrichtung (SPE) durchgeführt wird, wobei die ankommenden Sprachsignale durch einen Vergleicher (VG) mit vorgegebenen, in einem Sprachelementespeicher (SESPE) vorhandenen Informationen über die Beschaffenheit der Sprachelemente und deren Varianten verglichen werden, und daß die beim Auffinden der betreffenden Speicherzellen entstehenden Adressen direkt zum Ansteuern jeweils einer Speicherzelle eines in der Sprachsyntheseeinrichtung (SSY) befindlichen Sprachelementespeichers (SESPS) dienen, worin die Information über das betreffende Sprachelement abgelegt ist.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei von der Spracherkennungseinrichtung (SPE) nicht eindeutig erkannten Sprachelementen ein Direktcode gebildet wird, der die betreffende Sprachprobe unmittelbar beschreibt und zur Sprachsyntheseeinrichtung (SSY) gegeben wird, wobei diese umgeschaltet wird und dann nach einem der Analyse entsprechenden Syntheseverfahren (z.B. LPC Linear Predictive Coding) arbeitet.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die direkt-codierten Sprachproben nicht so codiert sind, wie die im Sprachelementespeicher (SESPE) abgelegten Sprachelemente beschrieben sind.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Verfahren in digitalen Nachrichtensystemen als Alternative zur dort angewandten Codierung (z.B. PCM) angewendet und dann lediglich der Adreßcode übertragen wird, wenn eine Sprechererkenn q ausgeschlossen sein soll.
5. Verfahren nach einem der Ansprüche 1 oder 4, dadurch gekennzeichnet, daß das Schema der Adressierung der Sprachelementespeicher (SESPE,SESPS) änderbar ist, so daß verschlüsselte Nachrichten übertragen werden können.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß das Schema der Adressierung der Sprachelementespeicher (SESPE, SESPS) zur Verschlüsselung in programmierbaren Festwertspeichern abgelegt ist, wovon vereinbarungsgemäß jeweils gleichartige bei der Spracherkennungeinrichtung (SPE) und bei der Sprachsyntheseeinrichtung (SSY) eingesetzt werden müssen.
7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zusätzlich zu den Adreßdaten für die Ansteuerung des Sprachelementespeichers (SESPS) der Sprachsyntheseeinrichtung (SSY) Zusatzinformationen (ZI) übertragen werden, womit bei derSyntheseModifizierungen der ausgegebenen Sprache (Tonhöhe etc.) möglich sind.