DE19806927A1 - Verfahren und Einrichtung zur Übertragung natürlicher Sprache - Google Patents

Verfahren und Einrichtung zur Übertragung natürlicher Sprache

Info

Publication number
DE19806927A1
DE19806927A1 DE1998106927 DE19806927A DE19806927A1 DE 19806927 A1 DE19806927 A1 DE 19806927A1 DE 1998106927 DE1998106927 DE 1998106927 DE 19806927 A DE19806927 A DE 19806927A DE 19806927 A1 DE19806927 A1 DE 19806927A1
Authority
DE
Germany
Prior art keywords
speech
transmission
voice
signals
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE1998106927
Other languages
English (en)
Inventor
Juergen Heger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ABB Research Ltd Switzerland
ABB Research Ltd Sweden
Original Assignee
ABB Research Ltd Switzerland
ABB Research Ltd Sweden
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ABB Research Ltd Switzerland, ABB Research Ltd Sweden filed Critical ABB Research Ltd Switzerland
Priority to DE1998106927 priority Critical patent/DE19806927A1/de
Publication of DE19806927A1 publication Critical patent/DE19806927A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Einrichtung zur Übertragung menschlicher, natürlicher Sprache über beliebige analoge oder digitale Übertragungs­ kanäle zur Verbreitung von sprachlichen Mitteilungen oder für Dialoge. Sowohl Glasfa­ ser-, Infrarot- oder Funk-Übertragungskanäle, sowie auch drahtgebundene Übertra­ gungskanäle sind geeignet.
Ein Hauptziel des Verfahrens ist die Reduzierung der erforderlichen Übertragungs­ bandbreite.
Die Übertragung von Sprache erfordert eine vom Qualitätsanspruch abhängige Lei­ stungsfähigkeit des Übertragungskanals. Die Übertragung der naturgemäß analogen Sprachsignale kann über analoge oder digitale Kanäle erfolgen. In letzterem Fall muß die Sprache auf der Eingangsseite des Übertragungskanals durch einen A/D-Wandler digitalisiert werden und auf der Ausgangsseite wieder durch einen D/A-Wandler in analoge Form überführt werden. Generell gilt, daß für digitale Kanäle eine Übertra­ gungsrate erforderlich ist, die größer als das zweifache der höchsten zu übertragenden Frequenz ist. Für höchste Ansprüche muß das gesamte hörbare Spektrum von ca. 20 Hz bis 16 kHz übertragen werden, in digitalisierter Form ist eine Bandbreite von 40 bis 44 kbps (kilo bits pro Sekunde) erforderlich (CD-Qualität). Bei Verzicht auf akustische Informationen, die nicht den eigentlichen Inhalt von Sprache betreffen, genügen Über­ tragungskanäle, die wesentlich schmalbandiger (bei analoger Signalübertragung) sein können bzw. eine kleinere Übertragungsleistung (bei digitalen Kanälen) haben können. Für Telefonie genügen 2-4 kHz bzw. 4-8 kbps. Bei weiterer Reduktion wird die Sprache zunehmend unverständlicher.
Eine Reduktion der zu übertragenden Informationsmenge ist mit Hilfe von mathemati­ schen Algorithmen möglich, durch welche die Sprache auf der Senderseite komprimiert wird und auf der Empfängerseite mit dem entsprechenden Dekomprimierungsalgorith­ mus wieder erzeugt wird. Zwei wesentliche Verfahren sind hier zu unterscheiden; näm­ lich die Signalformkodierung und die Quellenkodierung. Algorithmen der Signalformko­ dierung (z. B. ADPCM = Adaptive Differential Pulse Code Modulation) entfernen redun­ dante Informationen. Es wird zum Beispiel nicht mehr der digitalisierte Absolutwert des analogen Signals übertragen, sondern nur noch der Unterschied aufeinanderfolgender Werte. Mit solchen Algorithmen kann eine Reduktion der Bandbreite um einen Faktor 5 bis 10 erreicht werden. Diese Form der Datenreduzierung ist nicht an Sprache gebun­ den.
Algorithmen der Quellenkodierung (z. B. LPC = Linear Predictive Coder) berücksichti­ gen Besonderheiten der menschlichen Sprache. Es werden z. B. die relevanten Koeffi­ zienten des Vokaltrakts, der die Sprache produziert, extrahiert und diese anstelle des eigentlichen Sprachsignals benutzt. Die damit erreichbaren Datenraten liegen bei ca. 1000 bps (bits pro Sekunde) und sind damit nicht wesentlich kleiner als die mit Signal­ formkodierung erreichbaren Raten.
Bei jedem Komprimierungsverfahren müssen die Algorithmen in Echtzeit ausgeführt werden, bei Dialogsystemen darf durch die Komprimierung und Dekomprimierung keine wesentliche Verzögerung zwischen ursprünglichem und wiederhergestelltem Signal erfolgen; d. h. der Zeitverlust muß kleiner als 1/5 Sekunde sein. Die damit verbundenen Anforderungen an die Leistungsfähigkeit von Mikroprozessoren sind heute erfüllbar.
Die notwendige Leistungsfähigkeit der Übertragungskanäle kann mit den bekannten Verfahren nicht wesentlich unter einen Wert von 1000 bps reduziert werden, wobei mit zunehmender Reduktion die Qualität der Sprache deutlich leidet.
Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Einrichtung zur Sprachübertragung anzugeben, die bei akzeptabler Sprachqualität eine weitere Reduk­ tion der Übertragungsbandbreite ermöglichen.
Diese Aufgabe wird durch ein Verfahren zur Übertragung natürlicher Sprache mit den im Anspruch 1 angegebenen Merkmalen gelöst. Vorteilhafte Ausgestaltungen und eine Einrichtung zur Durchführung sind in weiteren Ansprüchen angegeben.
Das Verfahren ermöglicht im Vergleich zu den vorgenannten Komprimierungsverfahren eine Reduzierung der notwendigen Bandbreite um etwa den Faktor 10, da sich die zu übertragende Informationsmenge auf nur etwa 100 bps bzw. bei höheren Qualitätsan­ sprüchen auf 200 bis 400 bps reduziert. Das Verfahren läßt sich mit heute verfügbaren Hardware- und Softwarekomponenten durchführen. Der absehbare Fortschritt in der Mikroprozessortechnik und der Algorithmenentwicklung für die Spracherkennung läßt erwarten, daß die Durchführung noch weiter erleichtert wird und die Sprachqualität sich noch steigern läßt. Zu den Vorteilen des Verfahrens zählt, daß nicht nur eine Bandbrei­ tenreduzierung, sondern auch eine Veränderung der Sprache, wie beispielsweise eine dialektbereinigte Wiedergabe möglich sind. Weitere Vorteile und Ausgestaltungsmög­ lichkeiten ergeben sich aus der nachstehenden Beschreibung des Verfahrens anhand einer in der Zeichnung dargestellten Einrichtung zur Durchführung des Verfahrens.
Die Zeichnungsfigur 1 zeigt als Blockschema die Hard- und Softwarekomponenten für eine Sprachübertragung in einer Richtung. Es versteht sich, daß für einen Dialogver­ kehr auch ein gleichartiger Rückkanal vorhanden sein muß.
Das Blockschema zeigt Hard- und/oder Softwarekomponenten 1 bis 6 eines Übertra­ gungssystems, in das natürliche Sprache 10 eingebbar ist und das empfangsseitig synthetisierte Sprache 11 ausgibt.
Ein Mikrophon der Spracheingabe 1 wandelt Schallwellen in elektrische Signale um, die einer Spracherkennungseinheit 2 zugeleitet werden. Die Spracherkennungseinheit 2 ist dafür eingerichtet, gesprochene Worte oder Wortteile, wie Silben, Phoneme oder ande­ re Grundbestandteile zu erkennen. Information über die von der Spracherkennungsein­ heit 2 identifizierten Sprachkomponenten wird an eine sendeseitige Transaktionseinheit 3 weitergeleitet, die eine Verschlüsselung und Sendung der Information durchführt.
Auf der Empfangsseite erfolgen in einer empfangsseitigen Transaktionseinheit 4 Emp­ fang und Entschlüsselung der übertragenen Information und in einer nachgeschalteten Sprachsyntheseeinheit 5 wird daraus mittels eines Sprachgenerierungsalgorithmus wieder eine Sprache synthetisiert und mittels einer Sprachausgabe 6 über einen Laut­ sprecher ausgegeben.
Die Natürlichkeit der Sprache kann in verschiedenen Stufen verbessert werden, indem auf der Eingangsseite mit dem Spracherkennungsalgorithmus weitere, insbesondere prosodische Informationen, z. B. über Lautstärke, Betonung und Stimmlage extrahiert werden, diese mitübertragen und auf der Empfängerseite vom Sprachgenerierungsal­ gorithmus benutzt werden.
Auch einer Forderung, die beim Empfänger wiedergegebene Sprache mit der Stimme des Sprechers auszugeben, kann entsprochen werden. Hierzu müssen vom Spracher­ kennungsalgorithmus die typischen Phoneme des Sprechers aufgenommen werden.
Dies kann vor dem eigentlichen Gespräch erfolgen und muß nur einmal für jeden Spre­ cher geschehen. Diese Phoneme müssen zu Beginn der Übertragung zur Empfänger­ seite übertragen werden und können dann zur Synthetisierung benutzt werden, wo­ durch die Sprachausgabe mit der Stimme des Sprechers erfolgt. Durch Benutzung an­ derer Phonemsätze auf der Empfängerseite kann die Sprache mit einer beliebigen Stimme erfolgen, wenn das wünschenswert ist. Beispielsweise lassen sich auf diese Weise auch dialektbedingte Verständnisprobleme beseitigen.
Untersuchungen wurden bezüglich der erforderlichen Übertragungsrate durchgeführt. Dabei wurde ein Wortschatz von 200 000 Worten und eine Sprechgeschwindigkeit von bis 2 Worten je Sekunde, bzw. maximal 10 zu übertragende Phoneme pro Sekunde zugrundegelegt.
Es zeigte sich, daß zur Erkennung und Übertragung ganzer Worte eine Datenrate von etwa 40 bps ausreichen; 200 000 Worte lassen sich mit 18 bit durchnumerieren. Die Übertragung von prosodischen Informationen kann dadurch erfolgen, daß pro Wort ein Betonungstyp, z. B. Stimme am Wortende senken oder heben, mitübertragen wird, wo­ durch die Datenrate nicht wesentlich erhöht wird. Mit 4 bit für einen Betonungstyp las­ sen sich bereits 16 Betonungsmuster festlegen.
Bezüglich der erforderlichen Datenrate zur Phonemerkennung und -Übertragung wurde festgestellt, daß etwa 70 bps ausreichend sind. Da die natürliche Sprache in allen Sprachen der Welt aus weniger als 100 Phonemen besteht, sind zur Charakterisierung 7 bit ausreichend. Die deutsche Sprache und die englische Sprache enthalten bei­ spielsweise jeweils etwa 70 Phoneme.
Wenn prosodische Informationen hinzugefügt werden, erhöht sich diese Datenrate ent­ sprechend den Anforderungen an die Natürlichkeit der Sprache. Werden beispielsweise von jedem Phonem 5 Betonungsstufen gefordert, sind 9 bit zur Charakterisierung not­ wendig, statt 7 bit. Die Rate erhöht sich von 70 auf 90 bps.
Wenn die Sprachsynthetisierung auf der Basis der Phoneme des Sprechers erfolgen soll, sind zu Beginn einmalig diese Phoneme zu übertragen. Dies erfordert die Übertra­ gung des digitalisierten und komprimierten Phonemsatzes, wozu etwa 10 000 bis 20 000 bit erforderlich sind.
Bei Übertragungskanälen mit sehr niedriger Übertragungsrate kann der dafür notwen­ dige Zeitbedarf störend sein. Bei regelmäßiger Kommunikation zwischen gleichen Sprechern können zur Vermeidung solcher Verzögerungen sprecherspezifische oder andere Phonemsätze auf der Empfängerseite gespeichert und durch eine übertragene Kennung zu Beginn aktiviert werden.
In Fig. 1 ist mit Bezugszeichen 12 eine sowohl sendeseitig wie auch empfangsseitig mögliche Ausgabe der übertragenen Sprachinformation in schriftlicher Form bezeich­ net. Eine solche textuelle Ausgabe kann beispielsweise mittels Drucker oder Bildschirm erfolgen. Die Ausgabe kann auch zum Zweck einer Informationsspeicherung erfolgen.

Claims (8)

1. Verfahren zur Übertragung natürlicher Sprache, bei dem je Übertragungs­ richtung nachstehende Schritte erfolgen:
  • a) Umwandlung der von einem Sprecher erzeugten Schallsignale in elektrische Sprachsignale,
  • b) Analyse der elektrischen Sprachsignale mit Hilfe eines Spracherkennungssy­ stems, wobei Informationen über Silben, Phoneme oder andere Bestandteile der gesprochenen Worte erzeugt werden,
  • c) Übertragung dieser Sprachinformationen,
  • d) empfangsseitige Synthetisierung von Sprachsignalen aus den Sprachinforma­ tionen und
  • e) Umwandlung der elektrischen Sprachsignale in Schallsignale.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Spracherken­ nung ein Algorithmus verwendet wird, der zusätzlich prosodische Informationen, insbe­ sondere bezüglich Lautstärke, Betonung und Stimmlage extrahiert, diese mitübertragen wird und empfangsseitig ein Sprachgenerierungsalgorithmus verwendet wird, der die prosodischen Informationen nutzt.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß sprecher­ spezifische Phoneme vor einer Sprachübertragung erfaßt, der Empfangsseite vor der Sprachübertragung jeweils mitgeteilt und bei der Sprachsynthese genutzt werden.
4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß sprecher­ spezifische Phoneme wenigstens eines Sprechers erfaßt und auf der Empfangsseite gespeichert werden, und daß vor einer Sprachübertragung eine Kennung zur emp­ fangsseitigen Aktivierung der jeweiligen sprecherspezifischen Phoneme für die Sprach­ synthese übertragen wird.
5. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeich­ net, daß eine textuelle Ausgabe der zu übertragenden und/oder übertragenen Sprachin­ formationen durchgeführt wird.
6. Einrichtung zur Durchführung einer Sprachübertragung nach einem der vor-
stehenden Verfahren, die enthält:
  • a) eine Spracherkennungseinheit (2), der mittels einer Spracheingabe (1) elektri­ sche Sprachsignale eingebbar sind und die Sprachkomponenten identifiziert,
  • b) eine sendeseitige Transaktionseinheit (3) zur Verschlüsselung und Sendung der Sprachkomponenten über einen Übertragungskanal,
  • c) eine empfangsseitige Transaktionseinheit (4) zum Empfang und Entschlüsseln der Sprachkomponenten und
  • d) eine Sprachsyntheseeinheit (5), in der aus empfangenen Sprachinformationen elektrische Sprachsignale synthetisiert werden und die mittels einer Sprach­ ausgabe (6) als synthetische Sprache (11) ausgebbar sind.
7. Einrichtung nach Anspruch 6, dadurch gekennzeichnet, daß eine sen­ deseitige und/oder empfangsseitige Ausgabe (12) für die Sprachkomponenten vorhanden ist.
DE1998106927 1998-02-19 1998-02-19 Verfahren und Einrichtung zur Übertragung natürlicher Sprache Withdrawn DE19806927A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1998106927 DE19806927A1 (de) 1998-02-19 1998-02-19 Verfahren und Einrichtung zur Übertragung natürlicher Sprache

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1998106927 DE19806927A1 (de) 1998-02-19 1998-02-19 Verfahren und Einrichtung zur Übertragung natürlicher Sprache

Publications (1)

Publication Number Publication Date
DE19806927A1 true DE19806927A1 (de) 1999-08-26

Family

ID=7858269

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1998106927 Withdrawn DE19806927A1 (de) 1998-02-19 1998-02-19 Verfahren und Einrichtung zur Übertragung natürlicher Sprache

Country Status (1)

Country Link
DE (1) DE19806927A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000019412A1 (en) * 1998-09-30 2000-04-06 Symantec Corporation Voice communication by phoneme recognition and text to speech
DE10116142A1 (de) * 2000-04-05 2001-12-20 Univ Ilmenau Tech Verfahren zur Spracherkennung von Telefonsignalen
DE10216322A1 (de) * 2002-04-13 2003-11-06 Guettler Gerhard Stimmenkonverter

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1962759A1 (de) * 1968-12-16 1970-06-18 Gilbert Ferrieu Vocoder
US5029211A (en) * 1988-05-30 1991-07-02 Nec Corporation Speech analysis and synthesis system
WO1994018668A1 (en) * 1993-02-04 1994-08-18 Nokia Telecommunications Oy A method of transmitting and receiving coded speech
EP0664537A2 (de) * 1993-11-03 1995-07-26 Telia Ab Verfahren und Anordnung zur automatischen Extraktion prosodischer Information
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1962759A1 (de) * 1968-12-16 1970-06-18 Gilbert Ferrieu Vocoder
US5029211A (en) * 1988-05-30 1991-07-02 Nec Corporation Speech analysis and synthesis system
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
WO1994018668A1 (en) * 1993-02-04 1994-08-18 Nokia Telecommunications Oy A method of transmitting and receiving coded speech
EP0664537A2 (de) * 1993-11-03 1995-07-26 Telia Ab Verfahren und Anordnung zur automatischen Extraktion prosodischer Information

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000019412A1 (en) * 1998-09-30 2000-04-06 Symantec Corporation Voice communication by phoneme recognition and text to speech
DE10116142A1 (de) * 2000-04-05 2001-12-20 Univ Ilmenau Tech Verfahren zur Spracherkennung von Telefonsignalen
DE10216322A1 (de) * 2002-04-13 2003-11-06 Guettler Gerhard Stimmenkonverter
DE10216322B4 (de) * 2002-04-13 2004-07-15 Güttler, Gerhard, Prof. Dr. Stimmenkonverter

Similar Documents

Publication Publication Date Title
DE60120734T2 (de) Vorrichtung zur erweiterung der bandbreite eines audiosignals
Un et al. The residual-excited linear prediction vocoder with transmission rate below 9.6 kbits/s
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69631318T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hintergrundrauschen in einem digitalen Übertragungssystem
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE602004005784T2 (de) Verbesserte Anregung für Höherband-Kodierung in einem Codec basierend auf Frequenzbandtrennungs-Kodierungsverfahren
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
WO2007073949A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
EP1051701B1 (de) Verfahren zum übermitteln von sprachdaten
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE60127550T2 (de) Verfahren und system für adaptive verteilte spracherkennung
DE60124079T2 (de) Sprachverarbeitung
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
EP0635177B1 (de) Verfahren zum übertragen und/oder speichern digitalisierter, datenreduzierter audiosignale
DE19806927A1 (de) Verfahren und Einrichtung zur Übertragung natürlicher Sprache
EP0658874A1 (de) Verfahren und Schaltungsanordnung zur Vergrösserung der Bandbreite von schmalbandigen Sprachsignalen
DE60315544T2 (de) Telekommunikationsendgerät zur Veränderung eines übertragenen Sprachsignals bei einer bestehenden Fernsprechverbindung
DE60115042T2 (de) Kommunikationsvorrichtung und Verfahren zum Senden und Empfangen von Sprachsignalen unter Kombination eines Spracherkennungsmodules mit einer Kodiereinheit
EP2380171A2 (de) Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen
DE602004002845T2 (de) Sprachaktivitätsdetektion unter Verwendung von komprimierten Sprachsignal-Parametern
DE10136491B4 (de) Verfahren und Vorrichtung zur Verbesserung der Sprachqualität auf transparenten Telekommunikations-Übertragungswegen
EP1390947B1 (de) Verfahren zum signalempfang in einem digitalen kommunikationssystem
Edwards et al. Better vocoders are coming
EP1181685A1 (de) Verfahren und anordnung zur sprachkodierung mittels phonetischer dekodierung und übertragung von sprechermerkmalen
DE10254183A1 (de) Verfahren zur Wiedergabe von gesendeten Textnachrichten

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8139 Disposal/non-payment of the annual fee