DE19806927A1

DE19806927A1 - Verfahren und Einrichtung zur Übertragung natürlicher Sprache

Info

Publication number: DE19806927A1
Application number: DE1998106927
Authority: DE
Inventors: Juergen Heger
Original assignee: ABB Research Ltd Switzerland; ABB Research Ltd Sweden
Current assignee: ABB Research Ltd Switzerland; ABB Research Ltd Sweden
Priority date: 1998-02-19
Filing date: 1998-02-19
Publication date: 1999-08-26

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Einrichtung zur Übertragung menschlicher, natürlicher Sprache über beliebige analoge oder digitale Übertragungs kanäle zur Verbreitung von sprachlichen Mitteilungen oder für Dialoge. Sowohl Glasfa ser-, Infrarot- oder Funk-Übertragungskanäle, sowie auch drahtgebundene Übertra gungskanäle sind geeignet.

Ein Hauptziel des Verfahrens ist die Reduzierung der erforderlichen Übertragungs bandbreite.

Die Übertragung von Sprache erfordert eine vom Qualitätsanspruch abhängige Lei stungsfähigkeit des Übertragungskanals. Die Übertragung der naturgemäß analogen Sprachsignale kann über analoge oder digitale Kanäle erfolgen. In letzterem Fall muß die Sprache auf der Eingangsseite des Übertragungskanals durch einen A/D-Wandler digitalisiert werden und auf der Ausgangsseite wieder durch einen D/A-Wandler in analoge Form überführt werden. Generell gilt, daß für digitale Kanäle eine Übertra gungsrate erforderlich ist, die größer als das zweifache der höchsten zu übertragenden Frequenz ist. Für höchste Ansprüche muß das gesamte hörbare Spektrum von ca. 20 Hz bis 16 kHz übertragen werden, in digitalisierter Form ist eine Bandbreite von 40 bis 44 kbps (kilo bits pro Sekunde) erforderlich (CD-Qualität). Bei Verzicht auf akustische Informationen, die nicht den eigentlichen Inhalt von Sprache betreffen, genügen Über tragungskanäle, die wesentlich schmalbandiger (bei analoger Signalübertragung) sein können bzw. eine kleinere Übertragungsleistung (bei digitalen Kanälen) haben können. Für Telefonie genügen 2-4 kHz bzw. 4-8 kbps. Bei weiterer Reduktion wird die Sprache zunehmend unverständlicher.

Eine Reduktion der zu übertragenden Informationsmenge ist mit Hilfe von mathemati schen Algorithmen möglich, durch welche die Sprache auf der Senderseite komprimiert wird und auf der Empfängerseite mit dem entsprechenden Dekomprimierungsalgorith mus wieder erzeugt wird. Zwei wesentliche Verfahren sind hier zu unterscheiden; näm lich die Signalformkodierung und die Quellenkodierung. Algorithmen der Signalformko dierung (z. B. ADPCM = Adaptive Differential Pulse Code Modulation) entfernen redun dante Informationen. Es wird zum Beispiel nicht mehr der digitalisierte Absolutwert des analogen Signals übertragen, sondern nur noch der Unterschied aufeinanderfolgender Werte. Mit solchen Algorithmen kann eine Reduktion der Bandbreite um einen Faktor 5 bis 10 erreicht werden. Diese Form der Datenreduzierung ist nicht an Sprache gebun den.

Algorithmen der Quellenkodierung (z. B. LPC = Linear Predictive Coder) berücksichti gen Besonderheiten der menschlichen Sprache. Es werden z. B. die relevanten Koeffi zienten des Vokaltrakts, der die Sprache produziert, extrahiert und diese anstelle des eigentlichen Sprachsignals benutzt. Die damit erreichbaren Datenraten liegen bei ca. 1000 bps (bits pro Sekunde) und sind damit nicht wesentlich kleiner als die mit Signal formkodierung erreichbaren Raten.

Bei jedem Komprimierungsverfahren müssen die Algorithmen in Echtzeit ausgeführt werden, bei Dialogsystemen darf durch die Komprimierung und Dekomprimierung keine wesentliche Verzögerung zwischen ursprünglichem und wiederhergestelltem Signal erfolgen; d. h. der Zeitverlust muß kleiner als 1/5 Sekunde sein. Die damit verbundenen Anforderungen an die Leistungsfähigkeit von Mikroprozessoren sind heute erfüllbar.

Die notwendige Leistungsfähigkeit der Übertragungskanäle kann mit den bekannten Verfahren nicht wesentlich unter einen Wert von 1000 bps reduziert werden, wobei mit zunehmender Reduktion die Qualität der Sprache deutlich leidet.

Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Einrichtung zur Sprachübertragung anzugeben, die bei akzeptabler Sprachqualität eine weitere Reduk tion der Übertragungsbandbreite ermöglichen.

Diese Aufgabe wird durch ein Verfahren zur Übertragung natürlicher Sprache mit den im Anspruch 1 angegebenen Merkmalen gelöst. Vorteilhafte Ausgestaltungen und eine Einrichtung zur Durchführung sind in weiteren Ansprüchen angegeben.

Das Verfahren ermöglicht im Vergleich zu den vorgenannten Komprimierungsverfahren eine Reduzierung der notwendigen Bandbreite um etwa den Faktor 10, da sich die zu übertragende Informationsmenge auf nur etwa 100 bps bzw. bei höheren Qualitätsan sprüchen auf 200 bis 400 bps reduziert. Das Verfahren läßt sich mit heute verfügbaren Hardware- und Softwarekomponenten durchführen. Der absehbare Fortschritt in der Mikroprozessortechnik und der Algorithmenentwicklung für die Spracherkennung läßt erwarten, daß die Durchführung noch weiter erleichtert wird und die Sprachqualität sich noch steigern läßt. Zu den Vorteilen des Verfahrens zählt, daß nicht nur eine Bandbrei tenreduzierung, sondern auch eine Veränderung der Sprache, wie beispielsweise eine dialektbereinigte Wiedergabe möglich sind. Weitere Vorteile und Ausgestaltungsmög lichkeiten ergeben sich aus der nachstehenden Beschreibung des Verfahrens anhand einer in der Zeichnung dargestellten Einrichtung zur Durchführung des Verfahrens.

Die Zeichnungsfigur 1 zeigt als Blockschema die Hard- und Softwarekomponenten für eine Sprachübertragung in einer Richtung. Es versteht sich, daß für einen Dialogver kehr auch ein gleichartiger Rückkanal vorhanden sein muß.

Das Blockschema zeigt Hard- und/oder Softwarekomponenten 1 bis 6 eines Übertra gungssystems, in das natürliche Sprache 10 eingebbar ist und das empfangsseitig synthetisierte Sprache 11 ausgibt.

Ein Mikrophon der Spracheingabe 1 wandelt Schallwellen in elektrische Signale um, die einer Spracherkennungseinheit 2 zugeleitet werden. Die Spracherkennungseinheit 2 ist dafür eingerichtet, gesprochene Worte oder Wortteile, wie Silben, Phoneme oder ande re Grundbestandteile zu erkennen. Information über die von der Spracherkennungsein heit 2 identifizierten Sprachkomponenten wird an eine sendeseitige Transaktionseinheit 3 weitergeleitet, die eine Verschlüsselung und Sendung der Information durchführt.

Auf der Empfangsseite erfolgen in einer empfangsseitigen Transaktionseinheit 4 Emp fang und Entschlüsselung der übertragenen Information und in einer nachgeschalteten Sprachsyntheseeinheit 5 wird daraus mittels eines Sprachgenerierungsalgorithmus wieder eine Sprache synthetisiert und mittels einer Sprachausgabe 6 über einen Laut sprecher ausgegeben.

Die Natürlichkeit der Sprache kann in verschiedenen Stufen verbessert werden, indem auf der Eingangsseite mit dem Spracherkennungsalgorithmus weitere, insbesondere prosodische Informationen, z. B. über Lautstärke, Betonung und Stimmlage extrahiert werden, diese mitübertragen und auf der Empfängerseite vom Sprachgenerierungsal gorithmus benutzt werden.

Auch einer Forderung, die beim Empfänger wiedergegebene Sprache mit der Stimme des Sprechers auszugeben, kann entsprochen werden. Hierzu müssen vom Spracher kennungsalgorithmus die typischen Phoneme des Sprechers aufgenommen werden.

Dies kann vor dem eigentlichen Gespräch erfolgen und muß nur einmal für jeden Spre cher geschehen. Diese Phoneme müssen zu Beginn der Übertragung zur Empfänger seite übertragen werden und können dann zur Synthetisierung benutzt werden, wo durch die Sprachausgabe mit der Stimme des Sprechers erfolgt. Durch Benutzung an derer Phonemsätze auf der Empfängerseite kann die Sprache mit einer beliebigen Stimme erfolgen, wenn das wünschenswert ist. Beispielsweise lassen sich auf diese Weise auch dialektbedingte Verständnisprobleme beseitigen.

Untersuchungen wurden bezüglich der erforderlichen Übertragungsrate durchgeführt. Dabei wurde ein Wortschatz von 200 000 Worten und eine Sprechgeschwindigkeit von bis 2 Worten je Sekunde, bzw. maximal 10 zu übertragende Phoneme pro Sekunde zugrundegelegt.

Es zeigte sich, daß zur Erkennung und Übertragung ganzer Worte eine Datenrate von etwa 40 bps ausreichen; 200 000 Worte lassen sich mit 18 bit durchnumerieren. Die Übertragung von prosodischen Informationen kann dadurch erfolgen, daß pro Wort ein Betonungstyp, z. B. Stimme am Wortende senken oder heben, mitübertragen wird, wo durch die Datenrate nicht wesentlich erhöht wird. Mit 4 bit für einen Betonungstyp las sen sich bereits 16 Betonungsmuster festlegen.

Bezüglich der erforderlichen Datenrate zur Phonemerkennung und -Übertragung wurde festgestellt, daß etwa 70 bps ausreichend sind. Da die natürliche Sprache in allen Sprachen der Welt aus weniger als 100 Phonemen besteht, sind zur Charakterisierung 7 bit ausreichend. Die deutsche Sprache und die englische Sprache enthalten bei spielsweise jeweils etwa 70 Phoneme.

Wenn prosodische Informationen hinzugefügt werden, erhöht sich diese Datenrate ent sprechend den Anforderungen an die Natürlichkeit der Sprache. Werden beispielsweise von jedem Phonem 5 Betonungsstufen gefordert, sind 9 bit zur Charakterisierung not wendig, statt 7 bit. Die Rate erhöht sich von 70 auf 90 bps.

Wenn die Sprachsynthetisierung auf der Basis der Phoneme des Sprechers erfolgen soll, sind zu Beginn einmalig diese Phoneme zu übertragen. Dies erfordert die Übertra gung des digitalisierten und komprimierten Phonemsatzes, wozu etwa 10 000 bis 20 000 bit erforderlich sind.

Bei Übertragungskanälen mit sehr niedriger Übertragungsrate kann der dafür notwen dige Zeitbedarf störend sein. Bei regelmäßiger Kommunikation zwischen gleichen Sprechern können zur Vermeidung solcher Verzögerungen sprecherspezifische oder andere Phonemsätze auf der Empfängerseite gespeichert und durch eine übertragene Kennung zu Beginn aktiviert werden.

In Fig. 1 ist mit Bezugszeichen 12 eine sowohl sendeseitig wie auch empfangsseitig mögliche Ausgabe der übertragenen Sprachinformation in schriftlicher Form bezeich net. Eine solche textuelle Ausgabe kann beispielsweise mittels Drucker oder Bildschirm erfolgen. Die Ausgabe kann auch zum Zweck einer Informationsspeicherung erfolgen.

Claims

1. Verfahren zur Übertragung natürlicher Sprache, bei dem je Übertragungs richtung nachstehende Schritte erfolgen:

a) Umwandlung der von einem Sprecher erzeugten Schallsignale in elektrische Sprachsignale,
b) Analyse der elektrischen Sprachsignale mit Hilfe eines Spracherkennungssy stems, wobei Informationen über Silben, Phoneme oder andere Bestandteile der gesprochenen Worte erzeugt werden,
c) Übertragung dieser Sprachinformationen,
d) empfangsseitige Synthetisierung von Sprachsignalen aus den Sprachinforma tionen und
e) Umwandlung der elektrischen Sprachsignale in Schallsignale.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Spracherken nung ein Algorithmus verwendet wird, der zusätzlich prosodische Informationen, insbe sondere bezüglich Lautstärke, Betonung und Stimmlage extrahiert, diese mitübertragen wird und empfangsseitig ein Sprachgenerierungsalgorithmus verwendet wird, der die prosodischen Informationen nutzt.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß sprecher spezifische Phoneme vor einer Sprachübertragung erfaßt, der Empfangsseite vor der Sprachübertragung jeweils mitgeteilt und bei der Sprachsynthese genutzt werden.

4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß sprecher spezifische Phoneme wenigstens eines Sprechers erfaßt und auf der Empfangsseite gespeichert werden, und daß vor einer Sprachübertragung eine Kennung zur emp fangsseitigen Aktivierung der jeweiligen sprecherspezifischen Phoneme für die Sprach synthese übertragen wird.

5. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeich net, daß eine textuelle Ausgabe der zu übertragenden und/oder übertragenen Sprachin formationen durchgeführt wird.

6. Einrichtung zur Durchführung einer Sprachübertragung nach einem der vor-

stehenden Verfahren, die enthält:

a) eine Spracherkennungseinheit (2), der mittels einer Spracheingabe (1) elektri sche Sprachsignale eingebbar sind und die Sprachkomponenten identifiziert,
b) eine sendeseitige Transaktionseinheit (3) zur Verschlüsselung und Sendung der Sprachkomponenten über einen Übertragungskanal,
c) eine empfangsseitige Transaktionseinheit (4) zum Empfang und Entschlüsseln der Sprachkomponenten und
d) eine Sprachsyntheseeinheit (5), in der aus empfangenen Sprachinformationen elektrische Sprachsignale synthetisiert werden und die mittels einer Sprach ausgabe (6) als synthetische Sprache (11) ausgebbar sind.

7. Einrichtung nach Anspruch 6, dadurch gekennzeichnet, daß eine sen deseitige und/oder empfangsseitige Ausgabe (12) für die Sprachkomponenten vorhanden ist.