DE19806927A1 - Verfahren und Einrichtung zur Übertragung natürlicher Sprache - Google Patents
Verfahren und Einrichtung zur Übertragung natürlicher SpracheInfo
- Publication number
- DE19806927A1 DE19806927A1 DE1998106927 DE19806927A DE19806927A1 DE 19806927 A1 DE19806927 A1 DE 19806927A1 DE 1998106927 DE1998106927 DE 1998106927 DE 19806927 A DE19806927 A DE 19806927A DE 19806927 A1 DE19806927 A1 DE 19806927A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- transmission
- voice
- signals
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Description
Die Erfindung bezieht sich auf ein Verfahren und eine Einrichtung zur Übertragung
menschlicher, natürlicher Sprache über beliebige analoge oder digitale Übertragungs
kanäle zur Verbreitung von sprachlichen Mitteilungen oder für Dialoge. Sowohl Glasfa
ser-, Infrarot- oder Funk-Übertragungskanäle, sowie auch drahtgebundene Übertra
gungskanäle sind geeignet.
Ein Hauptziel des Verfahrens ist die Reduzierung der erforderlichen Übertragungs
bandbreite.
Die Übertragung von Sprache erfordert eine vom Qualitätsanspruch abhängige Lei
stungsfähigkeit des Übertragungskanals. Die Übertragung der naturgemäß analogen
Sprachsignale kann über analoge oder digitale Kanäle erfolgen. In letzterem Fall muß
die Sprache auf der Eingangsseite des Übertragungskanals durch einen A/D-Wandler
digitalisiert werden und auf der Ausgangsseite wieder durch einen D/A-Wandler in
analoge Form überführt werden. Generell gilt, daß für digitale Kanäle eine Übertra
gungsrate erforderlich ist, die größer als das zweifache der höchsten zu übertragenden
Frequenz ist. Für höchste Ansprüche muß das gesamte hörbare Spektrum von ca. 20
Hz bis 16 kHz übertragen werden, in digitalisierter Form ist eine Bandbreite von 40 bis
44 kbps (kilo bits pro Sekunde) erforderlich (CD-Qualität). Bei Verzicht auf akustische
Informationen, die nicht den eigentlichen Inhalt von Sprache betreffen, genügen Über
tragungskanäle, die wesentlich schmalbandiger (bei analoger Signalübertragung) sein
können bzw. eine kleinere Übertragungsleistung (bei digitalen Kanälen) haben können.
Für Telefonie genügen 2-4 kHz bzw. 4-8 kbps. Bei weiterer Reduktion wird die Sprache
zunehmend unverständlicher.
Eine Reduktion der zu übertragenden Informationsmenge ist mit Hilfe von mathemati
schen Algorithmen möglich, durch welche die Sprache auf der Senderseite komprimiert
wird und auf der Empfängerseite mit dem entsprechenden Dekomprimierungsalgorith
mus wieder erzeugt wird. Zwei wesentliche Verfahren sind hier zu unterscheiden; näm
lich die Signalformkodierung und die Quellenkodierung. Algorithmen der Signalformko
dierung (z. B. ADPCM = Adaptive Differential Pulse Code Modulation) entfernen redun
dante Informationen. Es wird zum Beispiel nicht mehr der digitalisierte Absolutwert des
analogen Signals übertragen, sondern nur noch der Unterschied aufeinanderfolgender
Werte. Mit solchen Algorithmen kann eine Reduktion der Bandbreite um einen Faktor 5
bis 10 erreicht werden. Diese Form der Datenreduzierung ist nicht an Sprache gebun
den.
Algorithmen der Quellenkodierung (z. B. LPC = Linear Predictive Coder) berücksichti
gen Besonderheiten der menschlichen Sprache. Es werden z. B. die relevanten Koeffi
zienten des Vokaltrakts, der die Sprache produziert, extrahiert und diese anstelle des
eigentlichen Sprachsignals benutzt. Die damit erreichbaren Datenraten liegen bei ca.
1000 bps (bits pro Sekunde) und sind damit nicht wesentlich kleiner als die mit Signal
formkodierung erreichbaren Raten.
Bei jedem Komprimierungsverfahren müssen die Algorithmen in Echtzeit ausgeführt
werden, bei Dialogsystemen darf durch die Komprimierung und Dekomprimierung keine
wesentliche Verzögerung zwischen ursprünglichem und wiederhergestelltem Signal
erfolgen; d. h. der Zeitverlust muß kleiner als 1/5 Sekunde sein. Die damit verbundenen
Anforderungen an die Leistungsfähigkeit von Mikroprozessoren sind heute erfüllbar.
Die notwendige Leistungsfähigkeit der Übertragungskanäle kann mit den bekannten
Verfahren nicht wesentlich unter einen Wert von 1000 bps reduziert werden, wobei mit
zunehmender Reduktion die Qualität der Sprache deutlich leidet.
Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Einrichtung zur
Sprachübertragung anzugeben, die bei akzeptabler Sprachqualität eine weitere Reduk
tion der Übertragungsbandbreite ermöglichen.
Diese Aufgabe wird durch ein Verfahren zur Übertragung natürlicher Sprache mit den
im Anspruch 1 angegebenen Merkmalen gelöst. Vorteilhafte Ausgestaltungen und eine
Einrichtung zur Durchführung sind in weiteren Ansprüchen angegeben.
Das Verfahren ermöglicht im Vergleich zu den vorgenannten Komprimierungsverfahren
eine Reduzierung der notwendigen Bandbreite um etwa den Faktor 10, da sich die zu
übertragende Informationsmenge auf nur etwa 100 bps bzw. bei höheren Qualitätsan
sprüchen auf 200 bis 400 bps reduziert. Das Verfahren läßt sich mit heute verfügbaren
Hardware- und Softwarekomponenten durchführen. Der absehbare Fortschritt in der
Mikroprozessortechnik und der Algorithmenentwicklung für die Spracherkennung läßt
erwarten, daß die Durchführung noch weiter erleichtert wird und die Sprachqualität sich
noch steigern läßt. Zu den Vorteilen des Verfahrens zählt, daß nicht nur eine Bandbrei
tenreduzierung, sondern auch eine Veränderung der Sprache, wie beispielsweise eine
dialektbereinigte Wiedergabe möglich sind. Weitere Vorteile und Ausgestaltungsmög
lichkeiten ergeben sich aus der nachstehenden Beschreibung des Verfahrens anhand
einer in der Zeichnung dargestellten Einrichtung zur Durchführung des Verfahrens.
Die Zeichnungsfigur 1 zeigt als Blockschema die Hard- und Softwarekomponenten für
eine Sprachübertragung in einer Richtung. Es versteht sich, daß für einen Dialogver
kehr auch ein gleichartiger Rückkanal vorhanden sein muß.
Das Blockschema zeigt Hard- und/oder Softwarekomponenten 1 bis 6 eines Übertra
gungssystems, in das natürliche Sprache 10 eingebbar ist und das empfangsseitig
synthetisierte Sprache 11 ausgibt.
Ein Mikrophon der Spracheingabe 1 wandelt Schallwellen in elektrische Signale um, die
einer Spracherkennungseinheit 2 zugeleitet werden. Die Spracherkennungseinheit 2 ist
dafür eingerichtet, gesprochene Worte oder Wortteile, wie Silben, Phoneme oder ande
re Grundbestandteile zu erkennen. Information über die von der Spracherkennungsein
heit 2 identifizierten Sprachkomponenten wird an eine sendeseitige Transaktionseinheit
3 weitergeleitet, die eine Verschlüsselung und Sendung der Information durchführt.
Auf der Empfangsseite erfolgen in einer empfangsseitigen Transaktionseinheit 4 Emp
fang und Entschlüsselung der übertragenen Information und in einer nachgeschalteten
Sprachsyntheseeinheit 5 wird daraus mittels eines Sprachgenerierungsalgorithmus
wieder eine Sprache synthetisiert und mittels einer Sprachausgabe 6 über einen Laut
sprecher ausgegeben.
Die Natürlichkeit der Sprache kann in verschiedenen Stufen verbessert werden, indem
auf der Eingangsseite mit dem Spracherkennungsalgorithmus weitere, insbesondere
prosodische Informationen, z. B. über Lautstärke, Betonung und Stimmlage extrahiert
werden, diese mitübertragen und auf der Empfängerseite vom Sprachgenerierungsal
gorithmus benutzt werden.
Auch einer Forderung, die beim Empfänger wiedergegebene Sprache mit der Stimme
des Sprechers auszugeben, kann entsprochen werden. Hierzu müssen vom Spracher
kennungsalgorithmus die typischen Phoneme des Sprechers aufgenommen werden.
Dies kann vor dem eigentlichen Gespräch erfolgen und muß nur einmal für jeden Spre
cher geschehen. Diese Phoneme müssen zu Beginn der Übertragung zur Empfänger
seite übertragen werden und können dann zur Synthetisierung benutzt werden, wo
durch die Sprachausgabe mit der Stimme des Sprechers erfolgt. Durch Benutzung an
derer Phonemsätze auf der Empfängerseite kann die Sprache mit einer beliebigen
Stimme erfolgen, wenn das wünschenswert ist. Beispielsweise lassen sich auf diese
Weise auch dialektbedingte Verständnisprobleme beseitigen.
Untersuchungen wurden bezüglich der erforderlichen Übertragungsrate durchgeführt.
Dabei wurde ein Wortschatz von 200 000 Worten und eine Sprechgeschwindigkeit von
bis 2 Worten je Sekunde, bzw. maximal 10 zu übertragende Phoneme pro Sekunde
zugrundegelegt.
Es zeigte sich, daß zur Erkennung und Übertragung ganzer Worte eine Datenrate von
etwa 40 bps ausreichen; 200 000 Worte lassen sich mit 18 bit durchnumerieren. Die
Übertragung von prosodischen Informationen kann dadurch erfolgen, daß pro Wort ein
Betonungstyp, z. B. Stimme am Wortende senken oder heben, mitübertragen wird, wo
durch die Datenrate nicht wesentlich erhöht wird. Mit 4 bit für einen Betonungstyp las
sen sich bereits 16 Betonungsmuster festlegen.
Bezüglich der erforderlichen Datenrate zur Phonemerkennung und -Übertragung wurde
festgestellt, daß etwa 70 bps ausreichend sind. Da die natürliche Sprache in allen
Sprachen der Welt aus weniger als 100 Phonemen besteht, sind zur Charakterisierung
7 bit ausreichend. Die deutsche Sprache und die englische Sprache enthalten bei
spielsweise jeweils etwa 70 Phoneme.
Wenn prosodische Informationen hinzugefügt werden, erhöht sich diese Datenrate ent
sprechend den Anforderungen an die Natürlichkeit der Sprache. Werden beispielsweise
von jedem Phonem 5 Betonungsstufen gefordert, sind 9 bit zur Charakterisierung not
wendig, statt 7 bit. Die Rate erhöht sich von 70 auf 90 bps.
Wenn die Sprachsynthetisierung auf der Basis der Phoneme des Sprechers erfolgen
soll, sind zu Beginn einmalig diese Phoneme zu übertragen. Dies erfordert die Übertra
gung des digitalisierten und komprimierten Phonemsatzes, wozu etwa 10 000 bis
20 000 bit erforderlich sind.
Bei Übertragungskanälen mit sehr niedriger Übertragungsrate kann der dafür notwen
dige Zeitbedarf störend sein. Bei regelmäßiger Kommunikation zwischen gleichen
Sprechern können zur Vermeidung solcher Verzögerungen sprecherspezifische oder
andere Phonemsätze auf der Empfängerseite gespeichert und durch eine übertragene
Kennung zu Beginn aktiviert werden.
In Fig. 1 ist mit Bezugszeichen 12 eine sowohl sendeseitig wie auch empfangsseitig
mögliche Ausgabe der übertragenen Sprachinformation in schriftlicher Form bezeich
net. Eine solche textuelle Ausgabe kann beispielsweise mittels Drucker oder Bildschirm
erfolgen. Die Ausgabe kann auch zum Zweck einer Informationsspeicherung erfolgen.
Claims (8)
1. Verfahren zur Übertragung natürlicher Sprache, bei dem je Übertragungs
richtung nachstehende Schritte erfolgen:
- a) Umwandlung der von einem Sprecher erzeugten Schallsignale in elektrische Sprachsignale,
- b) Analyse der elektrischen Sprachsignale mit Hilfe eines Spracherkennungssy stems, wobei Informationen über Silben, Phoneme oder andere Bestandteile der gesprochenen Worte erzeugt werden,
- c) Übertragung dieser Sprachinformationen,
- d) empfangsseitige Synthetisierung von Sprachsignalen aus den Sprachinforma tionen und
- e) Umwandlung der elektrischen Sprachsignale in Schallsignale.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Spracherken
nung ein Algorithmus verwendet wird, der zusätzlich prosodische Informationen, insbe
sondere bezüglich Lautstärke, Betonung und Stimmlage extrahiert, diese mitübertragen
wird und empfangsseitig ein Sprachgenerierungsalgorithmus verwendet wird, der die
prosodischen Informationen nutzt.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß sprecher
spezifische Phoneme vor einer Sprachübertragung erfaßt, der Empfangsseite vor der
Sprachübertragung jeweils mitgeteilt und bei der Sprachsynthese genutzt werden.
4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß sprecher
spezifische Phoneme wenigstens eines Sprechers erfaßt und auf der Empfangsseite
gespeichert werden, und daß vor einer Sprachübertragung eine Kennung zur emp
fangsseitigen Aktivierung der jeweiligen sprecherspezifischen Phoneme für die Sprach
synthese übertragen wird.
5. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeich
net, daß eine textuelle Ausgabe der zu übertragenden und/oder übertragenen Sprachin
formationen durchgeführt wird.
6. Einrichtung zur Durchführung einer Sprachübertragung nach einem der vor-
stehenden Verfahren, die enthält:
- a) eine Spracherkennungseinheit (2), der mittels einer Spracheingabe (1) elektri sche Sprachsignale eingebbar sind und die Sprachkomponenten identifiziert,
- b) eine sendeseitige Transaktionseinheit (3) zur Verschlüsselung und Sendung der Sprachkomponenten über einen Übertragungskanal,
- c) eine empfangsseitige Transaktionseinheit (4) zum Empfang und Entschlüsseln der Sprachkomponenten und
- d) eine Sprachsyntheseeinheit (5), in der aus empfangenen Sprachinformationen elektrische Sprachsignale synthetisiert werden und die mittels einer Sprach ausgabe (6) als synthetische Sprache (11) ausgebbar sind.
7. Einrichtung nach Anspruch 6, dadurch gekennzeichnet, daß eine sen
deseitige und/oder empfangsseitige Ausgabe (12) für die Sprachkomponenten
vorhanden ist.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1998106927 DE19806927A1 (de) | 1998-02-19 | 1998-02-19 | Verfahren und Einrichtung zur Übertragung natürlicher Sprache |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1998106927 DE19806927A1 (de) | 1998-02-19 | 1998-02-19 | Verfahren und Einrichtung zur Übertragung natürlicher Sprache |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19806927A1 true DE19806927A1 (de) | 1999-08-26 |
Family
ID=7858269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1998106927 Withdrawn DE19806927A1 (de) | 1998-02-19 | 1998-02-19 | Verfahren und Einrichtung zur Übertragung natürlicher Sprache |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19806927A1 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000019412A1 (en) * | 1998-09-30 | 2000-04-06 | Symantec Corporation | Voice communication by phoneme recognition and text to speech |
DE10116142A1 (de) * | 2000-04-05 | 2001-12-20 | Univ Ilmenau Tech | Verfahren zur Spracherkennung von Telefonsignalen |
DE10216322A1 (de) * | 2002-04-13 | 2003-11-06 | Guettler Gerhard | Stimmenkonverter |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1962759A1 (de) * | 1968-12-16 | 1970-06-18 | Gilbert Ferrieu | Vocoder |
US5029211A (en) * | 1988-05-30 | 1991-07-02 | Nec Corporation | Speech analysis and synthesis system |
WO1994018668A1 (en) * | 1993-02-04 | 1994-08-18 | Nokia Telecommunications Oy | A method of transmitting and receiving coded speech |
EP0664537A2 (de) * | 1993-11-03 | 1995-07-26 | Telia Ab | Verfahren und Anordnung zur automatischen Extraktion prosodischer Information |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
-
1998
- 1998-02-19 DE DE1998106927 patent/DE19806927A1/de not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1962759A1 (de) * | 1968-12-16 | 1970-06-18 | Gilbert Ferrieu | Vocoder |
US5029211A (en) * | 1988-05-30 | 1991-07-02 | Nec Corporation | Speech analysis and synthesis system |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
WO1994018668A1 (en) * | 1993-02-04 | 1994-08-18 | Nokia Telecommunications Oy | A method of transmitting and receiving coded speech |
EP0664537A2 (de) * | 1993-11-03 | 1995-07-26 | Telia Ab | Verfahren und Anordnung zur automatischen Extraktion prosodischer Information |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000019412A1 (en) * | 1998-09-30 | 2000-04-06 | Symantec Corporation | Voice communication by phoneme recognition and text to speech |
DE10116142A1 (de) * | 2000-04-05 | 2001-12-20 | Univ Ilmenau Tech | Verfahren zur Spracherkennung von Telefonsignalen |
DE10216322A1 (de) * | 2002-04-13 | 2003-11-06 | Guettler Gerhard | Stimmenkonverter |
DE10216322B4 (de) * | 2002-04-13 | 2004-07-15 | Güttler, Gerhard, Prof. Dr. | Stimmenkonverter |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60120734T2 (de) | Vorrichtung zur erweiterung der bandbreite eines audiosignals | |
Un et al. | The residual-excited linear prediction vocoder with transmission rate below 9.6 kbits/s | |
DE69910240T2 (de) | Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals | |
DE69631318T2 (de) | Verfahren und Vorrichtung zur Erzeugung von Hintergrundrauschen in einem digitalen Übertragungssystem | |
DE69727895T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE602004005784T2 (de) | Verbesserte Anregung für Höherband-Kodierung in einem Codec basierend auf Frequenzbandtrennungs-Kodierungsverfahren | |
DE602005001048T2 (de) | Erweiterung der Bandbreite eines schmalbandigen Sprachsignals | |
WO2007073949A1 (de) | Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen | |
EP1051701B1 (de) | Verfahren zum übermitteln von sprachdaten | |
DE69635141T2 (de) | Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung | |
DE60127550T2 (de) | Verfahren und system für adaptive verteilte spracherkennung | |
DE60124079T2 (de) | Sprachverarbeitung | |
CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
EP0635177B1 (de) | Verfahren zum übertragen und/oder speichern digitalisierter, datenreduzierter audiosignale | |
DE19806927A1 (de) | Verfahren und Einrichtung zur Übertragung natürlicher Sprache | |
EP0658874A1 (de) | Verfahren und Schaltungsanordnung zur Vergrösserung der Bandbreite von schmalbandigen Sprachsignalen | |
DE60315544T2 (de) | Telekommunikationsendgerät zur Veränderung eines übertragenen Sprachsignals bei einer bestehenden Fernsprechverbindung | |
DE60115042T2 (de) | Kommunikationsvorrichtung und Verfahren zum Senden und Empfangen von Sprachsignalen unter Kombination eines Spracherkennungsmodules mit einer Kodiereinheit | |
EP2380171A2 (de) | Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen | |
DE602004002845T2 (de) | Sprachaktivitätsdetektion unter Verwendung von komprimierten Sprachsignal-Parametern | |
DE10136491B4 (de) | Verfahren und Vorrichtung zur Verbesserung der Sprachqualität auf transparenten Telekommunikations-Übertragungswegen | |
EP1390947B1 (de) | Verfahren zum signalempfang in einem digitalen kommunikationssystem | |
Edwards et al. | Better vocoders are coming | |
EP1181685A1 (de) | Verfahren und anordnung zur sprachkodierung mittels phonetischer dekodierung und übertragung von sprechermerkmalen | |
DE10254183A1 (de) | Verfahren zur Wiedergabe von gesendeten Textnachrichten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8139 | Disposal/non-payment of the annual fee |