DE10216322A1 - Stimmenkonverter - Google Patents

Stimmenkonverter

Info

Publication number
DE10216322A1
DE10216322A1 DE2002116322 DE10216322A DE10216322A1 DE 10216322 A1 DE10216322 A1 DE 10216322A1 DE 2002116322 DE2002116322 DE 2002116322 DE 10216322 A DE10216322 A DE 10216322A DE 10216322 A1 DE10216322 A1 DE 10216322A1
Authority
DE
Germany
Prior art keywords
voice
converter
output
text
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2002116322
Other languages
English (en)
Other versions
DE10216322B4 (de
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE2002116322 priority Critical patent/DE10216322B4/de
Publication of DE10216322A1 publication Critical patent/DE10216322A1/de
Application granted granted Critical
Publication of DE10216322B4 publication Critical patent/DE10216322B4/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Es wird ein Stimmenkonverter (1) angegeben mit einem Eingang (8), einem Ausgang und dazwischen einem Umsetzer (4, 6, 7). DOLLAR A Man möchte eine Wandlung einer Stimme in eine möglichst naturgetreue andere Stimme erreichen. DOLLAR A Hierzu weist der Umsetzer (4, 6, 7) eine Spracherkennungseinrichtung (4), die Sprache in eine Zwischeninformation (6) wandelt, und eine Vorleseeinrichtung (7) auf, die die Zwischeninformation (6) mit einer synthetisch erzeugten Stimme vorliest.

Description

  • Die Erfindung betrifft einen Stimmenkonverter mit einem Eingang, einem Ausgang und dazwischen einem Umsetzer.
  • Ein Stimmenkonverter dient dazu, eine Sprache mit einer Stimme auszugeben, die sich von der Stimme des Sprechers unterscheidet. Beispielsweise möchte sich eine Frau am Telefon mit einer männlichen Stimme melden können, um die Gefahr von Belästigungen klein zu halten.
  • Es ist bekannt, Stimmen dadurch zu verändern, daß man den Umsetzer als Frequenzwandler ausbildet. Dies führt jedoch zu unbefriedigenden Ergebnissen. Man kann zwar die Tonlage der Stimme ändern. Dabei verändern sich aber gleichzeitig die Obertöne der Stimme, so daß am Ausgang eine als künstliche Stimme klar erkennbare Stimme ausgegeben wird.
  • Der Erfindung liegt die Aufgabe zugrunde, eine Wandlung einer Stimme in eine möglichst naturgetreue andere Stimme zu erreichen.
  • Diese Aufgabe wird bei einem Stimmenkonverter der eingangs genannten Art dadurch gelöst, daß der Umsetzer eine Spracherkennungseinrichtung, die Sprache in eine Zwischeninformation wandelt, und eine Vorleseeinrichtung aufweist, die die Zwischeninformation mit einer synthetisch erzeugten Stimme vorliest.
  • Mit dieser Ausgestaltung des Stimmenkonverters ist es möglich, eine Stimme, die an den Eingang gelangt und deswegen als Eingangsstimme bezeichnet wird, in eine Stimme am Ausgang, die als Ausgangsstimme bezeichnet wird, zu wandeln, ohne daß zwischen der Eingangsstimme und der Ausgangsstimme eine physikalische Beziehung im Sinne einer Frequenzumwandlung oder ähnlichem steht. Die Eingangsstimme wird vielmehr in eine Zwischeninformation gewandelt, d. h. die Eingangsstimme wird inhaltlich ausgewertet. Die Auswertung kann sich dabei allerdings darauf beschränken, eine Zwischeninformation zur Verfügung zu stellen, die später vorgelesen werden kann. Beispielsweise kann die Zwischeninformation in der Abfolge von einzelnen Wörtern bestehen, die auf beliebige Art und Weise dargestellt werden können, wobei die Darstellung immer darauf ausgerichtet sein muß, daß die Vorleseeinrichtung die Wörter später vorlesen kann. Vorleseeinrichtungen, die mit einer synthetisch erzeugten Stimme Informationen wiedergeben, sind an sich bekannt. Sie werden beispielsweise in Navigationssystemen eingesetzt, um dem Fahrer eines Fahrzeugs Anweisungen zu geben, in welche Richtung er sein Fahrzeug steuern muß.
  • Vorzugsweise weist die Vorleseeinrichtung mehrere auswählbare Stimmen auf. Man kann daher den Stimmenkonverter so betreiben, daß er entweder mit einer Stimme oder mit einer anderen Stimme "spricht". Die Bandbreite der Verwendung wird dadurch vergrößert.
  • Vorzugsweise weist die Vorleseeinrichtung eine Datenbank auf, in der mehrere Stimmen als Voice Fonts gespeichert sind. Ein Voice Font ist sozusagen das Vokabular einer Stimme, aus dem man die Sprachwiedergabe mit dieser Stimme zusammensetzen kann. Das Vokabular muß dabei nicht unbedingt nur ganze Wörter enthalten. Es enthält vielfach auch Wortbestandteile oder Lautabschnitte, die man dann zu Wörtern zusammensetzen kann. Voice Fonts werden beispielsweise auf der Basis einer echten Stimme erzeugt, indem das Klangspektrum der echten Stimme in bestimmter Hinsicht ausgewertet wird. Durch die Verwendung eines Voice Font lassen sich einzelne Stimmen sehr schnell und zuverlässig zusätzlich in die Datenbank einspeisen. Sie ermöglichen einen nahezu natürlichen Klang der Ausgangsstimme.
  • Vorzugsweise weist die Vorleseeinrichtung eine Auswahleinrichtung auf, die für jede Stimme ein wahrnehmbares Symbol aufweist, das einer Betätigungseinrichtung zugeordnet ist. Beispielsweise kann für jede Stimme ein Bild einer Person vorhanden sein, der diese Stimme zugeordnet ist. Dieses Bild kann auf einem Druckknopf oder auf einem berührungsempfindlichen Bildschirm (Touch Screen) erscheinen. Durch eine Berührung des Symbols wird dann die entsprechende Stimme ausgewählt. Die Verwendung eines entsprechenden Bildsymbols erleichtert dem Benutzer die Auswahl, d. h. er muß nicht lange nachdenken, welche Stimme nach der erfolgten Auswahl am Ausgang zu hören sein wird.
  • Hierbei ist bevorzugt, daß mindestens eine der Stimmen männlich charakterisiert und mindestens eine der Stimmen weiblich charakterisiert ist. Männliche Stimmen und weibliche Stimmen unterscheiden sich im allgemeinen. Durch verschiedene Klangmerkmale, wie Grundfrequenz und Obertongehalt, kann man eine Stimme ausgesprochen männlich oder ausgesprochen weiblich machen. Durch die Aufteilung der Stimmen in männliche Stimmen und weibliche Stimmen läßt sich eine größere Freiheit bei der Verwendung des Stimmenkonverters erreichen.
  • Bevorzugterweise ist die Zwischeninformation als Text ausgebildet. Man kann dann für die Spracherkennungseinrichtung einen handelsüblichen Sprachen-Textkonverter (Speech-to-Text Converter) verwenden, wie er beispielsweise von IBM angeboten wird. Nach erfolgter Wandlung steht die Sprache als Text zur Verfügung. Dies muß nicht notwendigerweise heißen, daß dieser Text auch in einem ASCII-Format niedergelegt wird. Die einzelnen Wörter sind aber in Textform so vorhanden, daß sie beispielsweise in einer Datenbank nachgeschlagen werden können. Mit Hilfe dieser als Text vorliegenden Information läßt sich dann die Vorleseeinrichtung betrieben, die als Text-Sprachen-Konverter ausgebildet ist (Text- to-Speech Converter) und beispielsweise von ATT Natural Voices unter der Bezeichnung "Text-to-Speech" (TTS) Engine angeboten wird. Diese TTS-Engine beinhaltet für die deutsche Sprache zwei Voice Fonts, die als "Reiner" und "Klara" bezeichnet werden und eine weitgehend natürliche Sprachwiedergabe erlauben.
  • Vorzugsweise arbeitet der Umsetzer mit einer konstanten Verzögerung. Mit anderen Worten ist eine Verzögerungseinrichtung im Umsetzer enthalten. Diese Verzögerungseinrichtung bewirkt beim Erkennen des Beginns einer gesprochenen Wortfolge eine bestimmte Verzögerungszeit im Bereich von maximal einiger 100 ms. Unter Konstanthaltung dieser Verzögerungszeit werden nachfolgend sämtliche Transformationen von Sprache zu Zwischeninformation (Text) und von Text zu Sprache stattfinden. Damit ergeben sich für die praktische Anwendung kaum erkennbare Totzeiten bei Wechsel des Sprechers. Da die Verzögerungszeit konstant ist, also in allen Umwandlugnsfällen auftritt, nimmt der Empfänger der Sprache, also der Zuhörer, nicht wahr, daß eine Umsetzung stattfindet.
  • Vorzugsweise weist der Umsetzer eine Geräusch-Erzeugungseinrichtung und einen Mischer auf, der zu der Stimme ein Hintergrundgeräusch hinzufügt. Damit läßt sich eine weitere Verschleierung des wahren Sprechers bewirken. Man kann beispielsweise das Hintergrundgeräusch einer Werkstatt oder einer Fabrik mit einblenden, so daß ein Anrufer getäuscht wird.
  • Die Erfindung betrifft auch eine Fernsprecheinrichtung mit einem derartigen Stimmenkonverter. Ein derartiger Stimmenkonverter ist vor allem dann sinnvoll, wenn die Person, deren Stimme umgesetzt werden soll, für den Gesprächspartner nicht sichtbar ist. Die Verwendung eines Stimmenkonverters in einer Fernsprecheinrichtung trägt diesen Anforderungen in besonderem Maße Rechnung. Die Fernsprecheinrichtung kann dabei sowohl ein normales Telefon sein als auch eine Sprechanlage in einem Haus, mit der beispielsweise die Eingangstür überwacht werden soll.
  • Die Erfindung betrifft auch ein virtuelles Büro mit einem derartigen Stimmenkonverter, bei dem der Stimmenkonverter an einer Telefonanlage angeschlossen ist. Mit dem Stimmenkonverter kann ein virtuelles Büro generiert werden, in dem eine vorbestimmte Menge von virtuellen Büromitarbeiterinnen oder Büromitarbeitern die Telefongesprächsführung machen. Man kann sich beispielsweise ein Ein-Mann-Büro vorstellen, bei dem sich der Chef als seine eigene Sekretärin meldet und dann an sich selbst vermittelt. Ein anderes Beispiel wäre ein Kleinbüro mit dem Erscheinungsbild eines mittelgroßen Unternehmens. Mit Hilfe des Stimmenkonverters kann sich ein kleiner Personalbestand, beispielsweise Chef, ein Mitarbeiter und eine Sekretärin, als Firma mit drei Abteilungen und 20 Mitarbeiterinnen oder Mitarbeitern darstellen. Durch die Möglichkeit der Geräusch-Erzeugungseinrichtung lassen sich dann branchenspezifische Geräuschhintergründe erzeugen, beispielsweise das Geräusch einer Werkstatt oder einer Fabrik.
  • Die Erfindung wird im folgenden anhand eines bevorzugten Ausführungsbeispiels in Verbindung mit der Zeichnung näher beschrieben. Hierin zeigt die einzige Figur einen Stimmenkonverter.
  • Ein Stimmenkonverter 1 weist einen Eingang 2 auf, beispielsweise ein Mikrofon, das Bestandteil eines Telefonapparates 3 sein kann. Ein Benutzer, dessen Stimme verändert werden soll, spricht in das Mikrofon des Telefonapparates 3. Das Ausgangssignal des Mikrofons 2 wird einem Sprache-Text-Wandler 4 zugeführt, der mit Hilfe einer Datenbank 5, die benutzerspezifisch ist, die eingehende Sprache in einen Text 6 wandelt und als Zwischeninformation ausgibt. Der Text muß hierbei nicht unbedingt geschrieben werden. Er muß aber in einer Form zur Verfügung stehen, die von einer Vorleseeinrichtung 7 "verstanden" wird, d. h. die Vorleseeinrichtung 7 muß den Text 6 in eine Stimme zurückverwandeln können, die über einen Lautsprecher 8 ausgegeben werden kann. Der Lautsprecher kann dabei auch der Lautsprecher eines weiteren Telefonapparats 9 sein, wie dies schematisch dargestellt ist. Zwischen der Vorleseeinrichtung 7 und dem Lautsprecher 8 ist eine Leitungsverbindung 10 dargestellt. In diese Leitungsverbindung 10 können natürlich noch nicht näher dargestellte Hilfselemente angeordnet sein, wie Verstärker, Vermittlungseinrichtungen oder ähnliches.
  • Die Vorleseeinrichtung arbeitet zusammen mit einer Datenbank 11, in der mehrere Voice Fonts 12a-12d gespeichert sind. Jeder Voice Font beinhaltet hierbei die Informationen, die notwendig sind, damit die Vorleseeinrichtung 7 aus dem Text 6 eine verständliche Sprachinformation erzeugen kann, mit anderen Worten eine Stimme. Der Datenbank 11 ist eine Auswahleinrichtung 13 zugeordnet, die beispielsweise einen berührungsempfindlichen Bildschirm aufweist, auf dem eine der Anzahl von Voice Fonts 12a-12d entsprechenden Symbolen 14a-14d, beispielsweise die Darstellung von Gesichtern oder Personen (Mann, Frau, Mädchen, Junge) erscheint. Durch Antippen eines derartigen Symbols 14a-14d kann der Benutzer die Stimme auswählen, mit der die Vorleseeinrichtung 7 den Text 6 wiedergibt.
  • Die Vorleseeinrichtung 7 weist eine Verzögerungseinrichtung 15 auf, die mit dem Eingang der Spracherkennungseinrichtung 4 gekoppelt ist und eine vorbestimmte Zeitverzögerung einstellt, d. h. beim Erkennen des Beginns einer gesprochenen Wörterfolge ergibt sich eine vorbestimmte Verzögerungszeit im Bereich von maximal einiger 100 Millisekunden, die verstreicht, bevor die Vorleseeinrichtung 7 den Text 6 mit der vorgewählten Stimme ausgibt. Die Verzögerungszeit wird im folgenden konstant gehalten, so daß sich bei der Ausgabeeinrichtung 8 praktisch keine erkennbaren Totzeiten ergeben.
  • Zusätzlich weist die Vorleseeinrichtung 7 einen Mischer 16 auf, an der weitere Klangquellen angeschlossen werden können, beispielsweise eine Geräuscherzeugungseinrichtung 17, die ein Hintergrundgeräusch erzeugt. Ein derartiges Hintergrundgeräusch kann beispielsweise das Geräusch einer Werkstatt oder einer Fabrik oder eines Büros sein.
  • Die Spracherkennungseinrichtung 4 kann gebildet sein durch einen handelsüblichen Sprachen-Text-Konverter (Speech-to-Text Converter), beispielsweise angeboten von IBM unter www-3.IBM.com/software/speech. Die Vorleseeinrichtung kann durch einen handelsüblichen Text- Sprachen-Konverter gebildet sein, beispielsweise die ATT Natural Voices Text-to-Speech (TTS) Engine, die unter www.ATT.com angeboten wird. Die TTS-Engine beinhaltet zwei Voice Fonts, die vom Hersteller als "Reiner" und "Klara" bezeichnet werden und sowohl für eine männliche Stimme als auch für eine weibliche Stimme eine weitgehend natürliche Sprachwiedergabe erlauben. Mit derartigen Software-Produkten läßt sich ein herkömmlicher Personal Computer verwenden, um den Stimmenkonverter zu realisieren.
  • Der Stimmenkonverter 1 arbeitet wie folgt:
    ein Benutzer spricht in das Mikrofon 2 seines Telefons. Die Sprache wird analysiert und mit Hilfe der Datenbank 5 in einen Text 6 umgewandelt. Der Text wird in der Vorleseeinrichtung 7 mit einer durch die Voice Fonts 12a-12d definierten Stimme vorgelesen und über den Lautsprecher 8 eines Telefons 9 (oder auf andere Weise) ausgegeben.
  • Mit einem derartigen Stimmenkonverter sind eine Reihe von Effekten möglich. Man kann beispielsweise ein virtuelles Büro generieren, in dem jedenfalls über das Telefon einem Anrufer eine tatsächlich nicht existierende Situation vorgespielt werden kann. Beispielsweise kann sich der Chef als eigene Sekretärin melden und dann an sich selbst vermitteln. Durch das Einblenden entsprechender Hintergrundgeräusche kann man eine in Wahrheit nicht vorhandene Geschäftstätigkeit vortäuschen.
  • Ein Kleinbüro kann mit dem Erscheinungsbild eines mittelgroßen Unternehmens dargestellt werden. Ein Chef mit einem Mitarbeiter und einer Sekretärin kann sich als mittelgroße Firma, beispielsweise drei Abteilungen und 20 Mitarbeiterinnen und Mitarbeitern ausgeben. Die Auswahl der einzelnen Stimmen erfolgt über die Auswahleinrichtung 13. Auch hier ist es möglich, das Büro mit einem branchenspezifischen Geräuschhintergrund einer Werkstatt oder einer Fabrik zu versehen.
  • Man kann als Voice Font die Stimme eines prominenten Schauspielers, Sängers, Sportlers oder ähnlichen verwenden und Anrufer damit verblüffen. Die Stimme des Prominenten gibt dann den vom Benutzer selbst gesprochenen Text wieder, wobei aufgrund der beiden Umwandlungen von Sprache in Text und Text in Sprache kleine, kaum merkbare Zeitverzögerungen entstehen können.
  • Aus Sicherheitsgründen können sich eine Frau oder Kinder, die Belästigungen durch Telefon fürchten, sich mit einer männlichen und energischen Stimme melden.
  • Die Verwendung von Text als Zwischeninformation hat den Vorteil, daß man handelsübliche Komponenten verwenden kann, um Sprache in Text und Text in Sprache zu wandeln. Die Sprache ist jedoch nicht die einzig mögliche Zwischeninformation. Wenn die beiden Datenbanken 5 für die Sprachen-Text-Wandlung und 11 für die Text-Sprachen-Wandlung gewisse Übereinstimmungen aufweisen, recht es in manchen Fällen auch aus, wenn die Spracherkennungseinrichtung 4 die entsprechenden Indizes für die Datenbank 11 ermittelt, so daß die Vorleseeinrichtung 7 aufgrund der Indizes in der Datenbank 11 nachschlagen kann.

Claims (10)

1. Stimmenkonverter mit einem Eingang, einem Ausgang und dazwischen einem Umsetzer, dadurch gekennzeichnet, daß der Umsetzer (4, 6, 7) eine Spracherkennungseinrichtung (4), die Sprache in eine Zwischeninformation (6) wandelt, und eine Vorleseeinrichtung (7) aufweist, die die Zwischeninformation (6) mit einer synthetisch erzeugten Stimme vorliest.
2. Stimmenkonverter nach Anspruch 1, dadurch gekennzeichnet, daß die Vorleseeinrichtung (7) mehrere auswählbare Stimmen aufweist.
3. Stimmenkonverter nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Vorleseeinrichtung (7) eine Datenbank (11) aufweist, in der mehrere Stimmen als Voice Fonts (12a-12d) gespeichert sind.
4. Stimmenkonverter nach einem Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Vorleseeinrichtung (7) eine Auswahleinrichtung (13) aufweist, die für jede Stimme ein wahrnehmbares Symbol (14a-14b) aufweist, das einer Betätigungseinrichtung zugeordnet ist.
5. Stimmenkonverter nach einem Ansprüche 2 bis 4, dadurch gekennzeichnet, daß mindestens eine der Stimmen männlich charakterisiert und mindestens eine der Stimmen weiblich charakterisiert ist.
6. Stimmenkonverter nach einem Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Zwischeninformation (6) als Text ausgebildet ist.
7. Stimmenkonverter nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß der Umsetzer (4, 6, 7) mit einer konstanten Verzögerung (15) arbeitet.
8. Stimmenkonverter nach einem Ansprüche 1 bis 7, dadurch gekennzeichnet, daß der Umsetzer (4, 6, 7) eine Geräusch-Erzeugungseinrichtung (17) und einen Mischer (16) aufweist, der zu der Stimme ein Hintergrundgeräusch hinzufügt.
9. Fernsprecheinrichtung mit einem Stimmenkonverter nach einem Ansprüche 1 bis 8.
10. Virtuelles Büro mit einem Stimmenkonverter nach einem der Ansprüche 1 bis 8, bei dem der Stimmenkonverter an einer Telefonanlage (4, 9) angeschlossen ist.
DE2002116322 2002-04-13 2002-04-13 Stimmenkonverter Expired - Lifetime DE10216322B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2002116322 DE10216322B4 (de) 2002-04-13 2002-04-13 Stimmenkonverter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2002116322 DE10216322B4 (de) 2002-04-13 2002-04-13 Stimmenkonverter

Publications (2)

Publication Number Publication Date
DE10216322A1 true DE10216322A1 (de) 2003-11-06
DE10216322B4 DE10216322B4 (de) 2004-07-15

Family

ID=28798400

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2002116322 Expired - Lifetime DE10216322B4 (de) 2002-04-13 2002-04-13 Stimmenkonverter

Country Status (1)

Country Link
DE (1) DE10216322B4 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19806927A1 (de) * 1998-02-19 1999-08-26 Abb Research Ltd Verfahren und Einrichtung zur Übertragung natürlicher Sprache
DE19957221A1 (de) * 1999-11-27 2001-05-31 Alcatel Sa Exponentielle Echo- und Geräuschabsenkung in Sprachpausen

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19806927A1 (de) * 1998-02-19 1999-08-26 Abb Research Ltd Verfahren und Einrichtung zur Übertragung natürlicher Sprache
DE19957221A1 (de) * 1999-11-27 2001-05-31 Alcatel Sa Exponentielle Echo- und Geräuschabsenkung in Sprachpausen

Also Published As

Publication number Publication date
DE10216322B4 (de) 2004-07-15

Similar Documents

Publication Publication Date Title
DE69831991T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE60316125T2 (de) Verfahren und betrieb eines sprach-dialogsystems
DE60305645T2 (de) System und Verfahren zur Text-zu-Sprache Umsetzung mit einer Funktion zur Bereitstellung zusätzlicher Information
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
DE19956747C1 (de) Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP2047668A1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE4138016A1 (de) Einrichtung zur erzeugung einer ansageinformation
EP1224531B1 (de) Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe
DE10216322B4 (de) Stimmenkonverter
EP1251680A1 (de) Sprachgesteuerter Verzeichnisdienst für Verbindung an ein Datennetzwerk
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
EP1110203A1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
DE69910412T2 (de) Sprachgesteuerte navigation für einen elektronischen post leser
DE1547002A1 (de) Vorrichtung,die auf gesprochene Informationen anspricht,insbesondere phonetische Schreibmaschine
DE10212128A1 (de) Wortzählvorrichtung
DE10048069A1 (de) Elektronische Textübertragungsvorrichtung
DE102004011426B3 (de) Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion
Leventhal Effect of sentence context on word perception.
EP1170723A2 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8330 Complete disclaimer