DE60216069T2 - Sprache-zu-sprache erzeugungssystem und verfahren - Google Patents

Sprache-zu-sprache erzeugungssystem und verfahren Download PDF

Info

Publication number
DE60216069T2
DE60216069T2 DE60216069T DE60216069T DE60216069T2 DE 60216069 T2 DE60216069 T2 DE 60216069T2 DE 60216069 T DE60216069 T DE 60216069T DE 60216069 T DE60216069 T DE 60216069T DE 60216069 T2 DE60216069 T2 DE 60216069T2
Authority
DE
Germany
Prior art keywords
speech
language
expression
text
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60216069T
Other languages
English (en)
Other versions
DE60216069D1 (de
Inventor
Donald Mt. Kisco TANG
Liqin Shen
Qin Shi
Wei Haidian District ZHANG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of DE60216069D1 publication Critical patent/DE60216069D1/de
Publication of DE60216069T2 publication Critical patent/DE60216069T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • Gebiet der Erfindung
  • Diese Erfindung betrifft allgemein das Gebiet der maschinellen Übersetzung und konkret ein Sprache/Sprache- und Ausdruck-Erzeugungssystem und -Verfahren.
  • Hintergrund der Erfindung
  • Die maschinelle Übersetzung ist eine Technik zur Umwandlung des Textes oder der gesprochenen Sprache einer Sprache in den Text bzw. die Sprache einer anderen Sprache unter Verwendung eines Computers. Anders ausgedrückt, die maschinelle Übersetzung soll ohne Mitwirkung menschlicher Arbeit automatisch eine Sprache in eine andere Sprache übersetzen, indem die riesige Speicherkapazität und digitale Verarbeitungsfähigkeit von Computern dafür verwendet wird, um basierend auf der Theorie der Sprachbildung und Strukturanalyse mit mathematischen Verfahren Wörterbuch und Syntax zu erzeugen.
  • Allgemein gesagt handelt es sich bei derzeitigen maschinellen Übersetzungssystemen um ein textbasiertes Übersetzungssystem, das den Text einer Sprache in den Text einer anderen Sprache übersetzt. Mit der gesellschaftlichen Weiterentwicklung wird jedoch das sprachbasierte Übersetzungssystem benötigt. Durch Verwendung der derzeitigen Spracherkennungstechnik, der textbasierten Übersetzungstechnik und der TTS-Technik (englisch: „text-to-speech", Sprachausgabe) kann eine in einer ersten Sprache gesprochene Sprache mit der Spracherkennungstechnik erkannt und in den Text der Sprache umgewandelt werden; danach wird der Text der ersten Sprache in den Text einer zweiten Sprache übersetzt, auf der Basis dessen die gesprochene Sprache der zweiten Sprache unter Verwendung der TTS-Technik erzeugt wird.
  • Vorhandene TTS-Systeme erzeugen jedoch normalerweise eine ausdruckslose und monoton gesprochene Sprache. Für ein typisches derzeit verfügbares TTS-System werden die Standardaussprachen aller Wörter (in Silben) zunächst aufgezeichnet und analysiert, und danach werden relevante Parameter für Standard-„Ausdrücke" auf Wortebene in einem Wörterbuch gespeichert. Aus den Teilsilben wird mit in einem Wörterbuch definierten Standardsteuerparametern unter Verwendung der üblichen Glättungstechniken zur Aneinanderreihung der Teile ein synthetisches Wort erzeugt. Eine derartige Spracherzeugung kann keine gesprochene Sprache erschaffen, die voll von auf der Bedeutung des Satzes und auf den Emotionen des Sprechers basierenden Ausdrücken ist.
  • Die internationale Patentanmeldung WO 97/34292 beschreibt ein Verfahren und eine Vorrichtung zur Sprache/Sprache-Übersetzung. Grundlegende Klanginformationen aus der Eingangssprache beeinflussen die Prosodieerzeugung der synthetischen gesprochenen Sprache.
  • Deshalb stellt die Ausführungsform der vorliegenden Erfindung ein Sprache/Sprache- und Ausdruck-System und -Verfahren bereit.
  • Gemäß der Ausführungsform der vorliegenden Erfindung verwendet ein Sprache/Sprache- und Ausdruck-System und -Verfahren von dem originalen Sprachsignal erhaltene Ausdrucksparameter, um ein Standard-TTS-System zu steuern und eine Ausdruckssprache zu erzeugen.
  • Gemäß einem Aspekt der Erfindung wird ein wie in Anspruch 1 beschriebenes Sprache/Sprache-Erzeugungssystem bereitgestellt.
  • Gemäß einem zweiten Aspekt der Erfindung wird ein wie in Anspruch 6 beschriebenes Sprache/Sprache-Erzeugungssystem bereitgestellt.
  • Gemäß einem dritten Aspekt der Erfindung wird ein wie in Anspruch 10 beschriebenes Verfahren zur Sprache/Sprache-Erzeugung bereitgestellt.
  • Gemäß einem vierten Aspekt der Erfindung wird ein wie in Anspruch 16 beschriebenes Verfahren zur Sprache/Sprache-Erzeugung bereitgestellt.
  • Das Sprache/Sprache- und Ausdruck-System und -Verfahren der vorliegenden Ausführungsform kann die Qualität gesprochener Sprache von Übersetzungssystemen oder TTS-Systemen verbessern.
  • Die oben erwähnten und weitere Ziele und Merkmale der Erfindung könnten in der folgenden ausführlichen Beschreibung mit zugehörigen Zeichnungen besser veranschaulicht werden. Die ausführliche Beschreibung und die Ausführungsformen sollen lediglich die Erfindung veranschaulichen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Schaubild eines Sprache/Sprache- und Ausdruck- Systems gemäß der vorliegenden Erfindung;
  • 2 ist ein Schaubild eines Ausdrucksparameter-Detektionsmittels in 1 gemäß einer Ausführungsform der vorliegenden Erfindung;
  • 3 ist ein Schaubild, das ein Ausdrucksparameter-Abbildungsmittel in 1 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
  • 4 ist ein Schaubild, das ein Sprache/Sprache- und Ausdruck-System gemäß einer anderen Ausführungsform der vorliegenden Erfindung zeigt;
  • 5 ist ein Flussdiagramm, das Vorgänge zur Ausdruckssprache/Sprache-Übersetzung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
  • 6 ist ein Flussdiagramm, das Vorgänge zur Detektion von Ausdrucksparametern gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
  • 7 ist ein Flussdiagramm, das Vorgänge zum Abbilden detektierender Ausdrucksparameter und zum Anpassen von TTS-Parametern gemäß einer Ausführungsform der vorliegenden Erfindung zeigt; und
  • 8 ist ein Flussdiagramm, das Vorgänge zur Ausdruckssprache/Sprache-Übersetzung gemäß einer anderen Ausführungsform der vorliegenden Erfindung zeigt.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Wie in 1 gezeigt, umfasst ein Sprache/Sprache- und Ausdruck-System gemäß einer Ausführungsform der vorliegenden Erfindung: ein Spracherkennungsmittel 101, ein maschinelles Übersetzungsmittel 102, ein Text/Sprache-Erzeugungsmittel 103, ein Ausdrucksparameter-Detektionsmittel 104 und ein Ausdrucksparameter-Abbildungsmittel 105. Das Spracherkennungsmittel 101 wird zum Erkennen der gesprochenen Sprache der Sprache A und zum Erzeugen des entsprechenden Textes der Sprache A verwendet; das maschinelle Übersetzungsmittel 102 wird zum Übersetzen des Textes aus Sprache A in Sprache B verwendet; das Text/Sprache-Erzeugungsmittel 103 wird zum Erzeugen der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B verwendet; das Ausdrucksparameter-Detektionsmittel 104 wird zum Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache der Sprache A verwendet; und das Ausdrucksparameter-Abbildungsmittel 105 wird zum Abbilden der von dem Ausdrucksparameter-Detektionsmittel aus Sprache A extrahierten Ausdrucksparameter auf Sprache B und zum Steuern des Text/Sprache-Erzeugungsmittels durch die Ergebnisse des Abbildens verwendet, um den Ausdruck der Sprache zu synthetisieren.
  • Wie den Fachleuten bekannt ist, gibt es nach dem Stand der Technik viele Möglichkeiten, Spracherkennungsmittel, maschinelle Übersetzungsmittel und TTS-Mittel praktisch auszuführen. Deshalb beschreiben wir anhand von 2 und 3 lediglich das Ausdrucksparameter-Detektionsmittel und das Ausdrucksparameter-Abbildungsmittel gemäß einer Ausführungsform dieser Erfindung.
  • Zunächst wurden die Schlüsselparameter, die den Ausdruck von gesprochener Sprache widerspiegeln, vorgestellt.
  • Die Schlüsselparameter von gesprochener Sprache, die den Ausdruck steuern, können auf unterschiedlichen Ebenen definiert werden.
    • 1. Auf Wortebene sind die Schlüsselausdrucksparameter: Geschwindigkeit (Dauer), Lautstärke (Energiepegel) und Tonlage (einschließlich Stimmlage und Tonfall). Da ein Wort allgemein aus mehreren Buchstaben/Silben besteht (die meisten Wörter auf Chinesisch haben zwei oder mehr Buchstaben/Silben), müssen derartige Ausdrucksparameter ebenfalls in der Form von Vektoren oder zeitlich festgelegten Folgen auf Silbenebene definiert werden. Wenn zum Beispiel eine Person wütend spricht, ist die Wortlautstärke äußerst hoch, die Tonlage des Wortes ist höher als unter normalen Bedingungen und dessen Hüllkurve ist nicht glatt, und viele der Tonlagenmarkierungspunkte verschwinden sogar. Und gleichzeitig nimmt die Dauer ab. Ein anderes Beispiel ist, dass wir, wenn wir einen Satz auf normale Weise sprechen, wohl einige Wörter in dem Satz betonen würden und die Tonlage, die Energie und die Dauer dieser Wörter sich ändern würden.
    • 2. Auf Satzebene konzentrieren wir uns auf die Intonation. Die Hüllkurve eines Ausrufesatzes unterscheidet sich von der einer Feststellung.
  • Im Folgenden soll anhand der 2 und 3 beschrieben werden, wie das Ausdrucksparameter-Detektionsmittel und das Ausdrucksparameter-Abbildungsmittel gemäß dieser Erfindung funktionieren. Das heißt, wie man Ausdrucksparameter extrahiert und die extrahierten Ausdrucksparameter dazu verwendet, um das Text/Sprache-Erzeugungsmittel zu steuern, um einen Ausdruck der Sprache zu synthetisieren.
  • Wie in 2 gezeigt, beinhaltet das Ausdrucksparameter-Detektionsmittel der Erfindung die folgenden Komponenten:
  • Teil A: Analyse der Tonlage, Dauer und Lautstärke des Sprechers. In Teil A werten wir das Ergebnis der Spracherkennung aus, um das Abgleichungsergebnis zwischen gesprochener Sprache und Wörtern (oder Buchstaben) zu erhalten. Und Aufzeichnen in der folgenden Struktur:
    Figure 00070001
  • Dann verwenden wir ein Kurzzeitanalyseverfahren, um Parameter zu erhalten wie z.B.:
    • 1. Kurzzeitenergie jedes Kurzzeitfensters.
    • 2. Detektion der Tonlagenkontur des Wortes.
    • 3. Dauer der Wörter.
  • Gemäß diesen Parametern gehen wir einen Schritt weiter, um die folgenden Parameter zu erhalten:
    • 1. Durchschnittliche Kurzzeitenergie in dem Wort.
    • 2. Top-N-Kurzzeitenergie in dem Wort.
    • 3. Tonlagenumfang, maximale Tonlage, minimale Tonlage und Wert der Tonlage in dem Wort.
    • 4. Die Dauer des Wortes.
  • Teil B: Gemäß dem Text aus dem Ergebnis der Spracherkennung verwenden wir ein Standard-TTS-System für Sprache A, um die gesprochene Sprache der Sprache A ohne Ausdruck zu erzeugen, und dann analysieren wir die Parameter des ausdruckslosen TTS. Die Parameter sind die Referenz der Analyse des Ausdrucks der Sprache.
  • Teil C: Wir analysieren die Abweichung der Parameter für diese Wörter in einem Satz und bilden Ausdrucks- und Standardsprache. Der Grund hierfür ist, dass verschiedene Menschen mit unterschiedlicher Lautstärke und Tonlage in verschiedenen Geschwindigkeiten sprechen. Selbst für eine Person sind diese Parameter nicht gleich, wenn sie denselben Satz zu unterschiedlichen Zeitpunkten spricht. Deshalb benutzen wir die relativen Parameter, um die Rolle der Wörter in einem Satz entsprechend der Referenzsprache zu analysieren.
  • Wir verwenden ein normalisiertes Parameterverfahren, um die relativen Parameter aus den absoluten Parametern zu erhalten. Die relativen Parameter sind:
    • 1. Die relative durchschnittliche Kurzzeitenergie in dem Wort.
    • 2. Die relative Top-N-Kurzzeitenergie in dem Wort.
    • 3. Den relativen Tonlagenumfang, die relative maximale Tonlage, die relative minimale Tonlage in dem Wort.
    • 4. Die relative Dauer des Wortes.
  • Teil D: Analyse der Ausdruckssprachparameter auf Wortebene und auf Satzebene gemäß der von den Standardsprachparametern stammenden Referenz.
    • 1. Auf Wortebene vergleichen wir die relativen Parameter des Ausdrucks der Sprache mit denen der Referenzsprache, um zu sehen, welche Wortparameter heftig abweichen.
    • 2. Auf Satzebene sortieren wir die Wörter gemäß ihrer Abweichungsgröße und ihrer Worteigenschaft und erhalten die Schlüsselausdruckswörter in den Sätzen.
  • Teil E: Gemäß dem Ergebnis des Vergleichens der Parameter und dem Wissen darüber, welcher bestimmte Ausdruck die Abweichung welchen Parameters verursacht, erhalten wir die Ausdrucksinformationen des Satzes, d.h., wir detektieren die Ausdrucksparameter und zeichnen die Parameter gemäß der folgenden Struktur auf:
    Figure 00090001
    Figure 00100001
  • Wenn wir zum Beispiel „í⎕!" wütend auf Chinesisch aussprechen, verschwinden viele Tonlagen und die absolute Lautstärke ist höher als die Referenz und gleichzeitig ist die relative Lautstärke äußerst scharf, und die Dauer ist viel kürzer als die Referenz. Somit kann man schlussfolgern, dass der Ausdruck auf Satzebene wütend ist. Das Schlüsselausdruckswort ist „íš{".
  • Im Folgenden soll unter Bezugnahme auf 3A und 3B beschrieben werden, wie das Ausdrucksparameter-Abbildungsmittel gemäß einer Ausführungsform dieser Erfindung strukturiert ist. Das Ausdrucksparameter-Abbildungsmittel umfasst:
  • Teil A: Abbilden der Struktur von Ausdrucksparametern von Sprache A auf Sprache B gemäß dem Ergebnis der maschinellen Übersetzung. Das Schlüsselverfahren besteht darin, herauszufinden, welche Wörter in Sprache B mit welchen Wörtern in Sprache A übereinstimmen, die für das Zeigen von Ausdruck wichtig sind. Das Abbildungsergebnis sieht wie folgt aus:
    Figure 00100002
    Figure 00110001
  • Teil B: Basierend auf dem Ergebnis des Abbildens von Ausdrucksinformationen werden die Anpassungsparameter, die das TTS für Sprache steuern können, erzeugt. Auf diese Weise verwenden wir eine Ausdrucksparametertabelle von Sprache B, um anzugeben, welche Wörter welchen Satz von Parametern verwenden, die den Ausdrucksparametern entsprechen. Die Parameter in der Tabelle sind die relativen Anpassungsparameter.
  • Der Prozess ist in 3B gezeigt. Die Ausdrucksparameter werden durch Umwandlungstabellen mit zwei Ebenen umgewandelt (Wortebenenumwandlungstabelle und Satzebenenumwandlungstabelle), und sie werden zu den Parametern für das Anpassen des Text/Sprache-Erzeugungsmittels.
  • Die Umwandlungstabellen der beiden Ebenen sind:
    • 1. Die Wortebenen-Umwandlungstabelle zur Umwandlung von Ausdrucksparametern in die Parameter, die das TTS anpassen.
  • Die Struktur der Tabelle ist wie folgt:
    Figure 00120001
    • 2. Die Satzebenen-Umwandlungstabelle zur Angabe der Prosodieparameter der Satzebene gemäß dem Emotionstyp des Satzes, um die Parameter in dem Wortebenen-Anpassungs-TTS anzupassen.
    Figure 00130001
  • Das Sprache/Sprache-System gemäß der vorliegenden Erfindung wurde oben stehend in Verbindung mit Ausführungsformen beschrieben. Wie den Fachleuten bekannt ist, kann die vorliegende Erfindung ebenso dafür verwendet werden, um unterschiedliche Dialekte derselben Sprache zu übersetzen. Wie in 4 gezeigt, ähnelt das System dem in 1. Der einzige Unterschied besteht darin, dass die Übersetzung zwischen unterschiedlichen Dialekten derselben Sprache das maschinelle Übersetzungsmittel nicht benötigt. Konkret wird das Spracherkennungsmittel 101 zum Erkennen der gesprochenen Sprache der Sprache A und zum Erzeugen des entsprechenden Textes der Sprache A verwendet; das Text/Sprache-Erzeugungsmittel 103 wird zum Erzeugen der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B verwendet; das Ausdrucksparameter-Detektionsmittel 104 wird zum Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache des Dialekts A verwendet; und das Ausdrucksparameter-Abbildungsmittel 105 wird zum Abbilden der von dem Ausdrucksparameter-Detektionsmittel 104 aus Dialekt A extrahierten Ausdrucksparameter auf Dialekt B und zum Steuern des Text/Sprache-Erzeugungsmittels mit den Ergebnissen des Abbildens verwendet, um einen Ausdruck der Sprache zu synthetisieren.
  • Das Sprache/Sprache- und Ausdruck-System gemäß der vorliegenden Erfindung wurde in Verbindung mit 1 bis 4 beschrieben. Das System erzeugt eine Ausdruckssprachausgabe unter Verwendung von Ausdrucksparametern, die aus den originalen Sprachsignalen extrahiert wurden, um das Standard-TTS-System zu steuern.
  • Die vorliegende Erfindung stellt ebenso ein Sprache/Sprache- und Ausdruck-Verfahren bereit. Im Folgenden soll anhand der 5 bis 8 eine Ausführungsform eines Sprache/Sprache-Übersetzungsvorgangs gemäß der Erfindung beschrieben werden.
  • Wie in 5 gezeigt, umfasst ein Sprache/Sprache- und Ausdruck-Verfahren gemäß einer Ausführungsform der Erfindung die folgenden Schritte: Erkennen der gesprochenen Sprache der Sprache A und Erzeugen des entsprechenden Textes der Sprache A (501); Übersetzen des Textes aus Sprache A in Sprache B (502); Erzeugen der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B (503); Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache der Sprache A (504); und Abbilden der durch die Detektionsschritte aus Sprache A extrahierten Ausdrucksparameter auf Sprache B und Steuern des Text/Sprache-Erzeugungsvorgangs durch die Ergebnisse des Abbildens, um einen Ausdruck der Sprache zu synthetisieren (505).
  • Im Folgenden sollen anhand der 6 und 7 der Ausdrucksdetektionsvorgang und der Ausdrucksabbildungsvorgang gemäß einer Ausführungsform der vorliegenden Erfindung beschrieben werden. Das heißt, wie man Ausdrucksparameter extrahiert und die extrahierten Ausdrucksparameter dafür verwendet, den bestehenden TTS-Vorgang zu steuern, um Ausdruckssprache zu synthetisieren.
  • Wie in 6 gezeigt, umfasst der Ausdrucksdetektionsvorgang die folgenden Schritte:
  • Schritt 601: Analyse der Tonlage, Dauer und Lautstärke des Sprechers. In Schritt 601 werten wir das Ergebnis der Spracherkennung aus, um das Abgleichungsergebnis zwischen gesprochener Sprache und Wörtern (oder Buchstaben) zu erhalten. Dann verwenden wir ein Kurzzeitanalyseverfahren, um Parameter zu erhalten wie z.B.:
    • 1. Kurzzeitenergie jedes Kurzzeitfensters.
    • 2. Detektion der Tonlagenkontur des Wortes.
    • 3. Dauer der Wörter.
  • Gemäß diesen Parametern gehen wir einen Schritt weiter, um die folgenden Parameter zu erhalten:
    • 1. Durchschnittliche Kurzzeitenergie in dem Wort.
    • 2. Top-N-Kurzzeitenergie in dem Wort.
    • 3. Tonlagenumfang, maximale Tonlage, minimale Tonlage und Tonlagenzahl in dem Wort.
    • 4. Die Dauer des Wortes.
  • Schritt 602: Gemäß dem Text, der das Ergebnis der Spracherkennung ist, verwenden wir ein Standard-TTS-System für Sprache A, um die gesprochene Sprache der Sprache A ohne Ausdruck zu erzeugen. Dann analysieren wir die Parameter des ausdruckslosen TTS. Die Parameter sind die Referenz der Analyse der Ausdruckssprache.
  • Schritt 603: Analyse der Abweichung der Parameter für diese Wörter in dem Satz, die sich aus der Ausdrucks- und der Standardsprache ergibt. Der Grund hierfür ist, dass unterschiedliche Menschen eventuell mit unterschiedlicher Lautstärke und unterschiedlicher Tonlage in verschiedenen Geschwindigkeiten sprechen. Selbst für eine Person sind diese Parameter nicht gleich, wenn sie denselben Satz zu unterschiedlichen Zeitpunkten spricht. Deshalb benutzen wir die relativen Parameter, um die Rolle der Wörter in dem Satz entsprechend der Referenzsprache zu analysieren.
  • Wir verwenden ein normalisiertes Parameterverfahren, um die relativen Parameter aus den absoluten Parametern zu erhalten. Die relativen Parameter sind:
    • 1. Die relative durchschnittliche Kurzzeitenergie in dem Wort.
    • 2. Die relative Top-N-Kurzzeitenergie in dem Wort.
    • 3. Den relativen Tonlagenumfang, die relative maximale Tonlage, die relative minimale Tonlage in dem Wort.
    • 4. Die relative Dauer des Wortes.
  • Schritt 604: Analyse der Ausdruckssprachparameter auf Wortebene und auf Satzebene gemäß der von den Standardsprachparametern stammenden Referenz.
    • 1. Auf Wortebene vergleichen wir die relativen Parameter des Ausdrucks der Sprache mit denen der Referenzsprache, um zu sehen, welche Parameter welcher Wörter heftig abweichen.
    • 2. Auf Satzebene sortieren wir die Wörter gemäß ihrer Abweichungsgröße und ihrer Worteigenschaft, um die Schlüsselausdruckswörter in den Sätzen zu erhalten.
  • Schritt 605: Gemäß dem Ergebnis des Vergleichens der Parameter und dem Wissen darüber, welcher bestimmte Ausdruck die Abweichung welchen Parameters verursacht, erhalten wir die Ausdrucksinformationen des Satzes, oder anders ausgedrückt, wir detektieren die Ausdrucksparameter.
  • Als Nächstes beschreiben wir in Verbindung mit 7 den Ausdrucks-Abbildungsvorgang gemäß einer Ausführungsform der vorliegenden Erfindung. Der Vorgang umfasst die folgenden Schritte:
  • Schritt 701: Abbilden der Struktur von Ausdrucksparametern von Sprache A auf Sprache B gemäß dem Ergebnis der maschinellen Übersetzung. Das Schlüsselverfahren besteht darin, die Wörter in Sprache B herauszufinden, die mit denen in Sprache A übereinstimmen, die für das Übertragen von Ausdruck wichtig sind.
  • Schritt 702: Gemäß dem Ergebnis des Abbildens von Ausdrucksinformationen werden die Anpassungsparameter, die das TTS für Sprache B steuern könnten, erzeugt. Dadurch verwenden wir eine Ausdrucksparametertabelle von Sprache B, gemäß derer die Wort- bzw. Silbensyntheseparameter bereitgestellt werden.
  • Das Sprache/Sprache-Verfahren gemäß der vorliegenden Erfindung wurde in Verbindung mit Ausführungsformen beschrieben. Wie den Fachleuten bekannt ist, kann die vorliegende Erfindung ebenso dafür verwendet werden, um unterschiedliche Dialekte derselben Sprache zu übersetzen. Wie in 8 gezeigt, ähneln die Vorgänge denen in 5. Der einzige Unterschied besteht darin, dass die Übersetzung zwischen unterschiedlichen Dialekten derselben Sprache den Textübersetzungsvorgang nicht benötigt. Konkret umfasst der Vorgang die folgenden Schritte: Erkennen der gesprochenen Sprache des Dialekts A und Erzeugen des entsprechenden Textes (801); Erzeugen der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B (802); Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache des Dialekts A (803); und Abbilden der durch die Detektionsschritte aus Dialekt A extrahierten Ausdrucksparameter auf Dialekt B und danach Anwenden der Ergebnisse des Abbildens auf den Text/Sprache-Erzeugungsvorgang, um einen Ausdruck der Sprache zu synthetisieren (804).
  • Das Sprache/Sprache- und Ausdruck-System und -Verfahren gemäß der bevorzugten Ausführungsform wurde in Verbindung mit Figuren beschrieben. Für Fachleute sind alternative Ausführungsformen vorstellbar, ohne von dem Schutzumfang der vorliegenden Erfindung abzuweichen. Die vorliegende Erfindung schließt all diese modifizierten und alternativen Ausführungsformen ein. Der Schutzumfang der vorliegenden Erfindung wird durch die beigefügten Ansprüche begrenzt.

Claims (10)

  1. Sprache/Sprache-Erzeugungssystem, das Folgendes umfasst: ein Spracherkennungsmittel (101) zum Erkennen der gesprochenen Sprache der Sprache A und zum Erzeugen des entsprechenden Textes der Sprache A; ein maschinelles Übersetzungsmittel (102) zum Übersetzen des Textes aus Sprache A in Sprache B; ein erstes Text/Sprache-Erzeugungsmittel (103) zum Erzeugen der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B, wobei das Sprache/Sprache-Erzeugungssystem gekennzeichnet ist durch: ein zweites Text/Sprache-Erzeugungsmittel zum weiteren Erzeugen einer gesprochenen Referenzsprache der Sprache A ohne Ausdruck; ein Ausdrucksparameter-Detektionsmittel (104) zum Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache der Sprache A durch Vergleich mit der gesprochenen Referenzsprache der Sprache A, die keinerlei Ausdruck hat; und ein Ausdrucksparameter-Abbildungsmittel (105) zum Abbilden der von dem Ausdrucksparameter-Detektionsmittel aus Sprache A extrahierten Ausdrucksparameter auf Sprache B und zum Steuern des ersten Text/Sprache-Erzeugungsmittels durch die Ergebnisse des Abbildens, um eine Ausdruckssprache zu synthetisieren.
  2. System nach Anspruch 1, dadurch gekennzeichnet dass: das Ausdrucksparameter-Detektionsmittel die Ausdrucksparameter auf unterschiedlichen Ebenen extrahiert.
  3. System gemäß Anspruch 2, dadurch gekennzeichnet, dass das Ausdrucksparameter-Detektionsmittel die Ausdrucksparameter auf Wortebene extrahiert.
  4. System gemäß Anspruch 2, dadurch gekennzeichnet, dass das Ausdrucksparameter-Detektionsmittel die Ausdrucksparameter auf Satzebene extrahiert.
  5. System gemäß einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das Ausdrucksparameter-Abbildungsmittel die Ausdrucksparameter von Sprache A auf Sprache B abbildet und dann die Ausdrucksparameter der Sprache B in die Parameter zur Anpassung des ersten Text/Sprache-Erzeugungsmittels durch die Umwandlung auf Wortebenen und die Umwandlung auf Satzebene umwandelt.
  6. Sprache/Sprache-Erzeugungssystem, das Folgendes umfasst: ein Spracherkennungsmittel (101) zum Erkennen der gesprochenen Sprache des Dialekts A und zum Erzeugen des entsprechenden Textes; ein erstes Text/Sprache-Erzeugungsmittel (103) zum Erzeugen der gesprochenen Sprache eines anderen Dialekts B entsprechend dem Text, wobei das Sprache/Sprache-Erzeugungssystem gekennzeichnet ist durch: ein zweites Text/Sprache-Erzeugungsmittel zum weiteren Erzeugen einer gesprochenen Referenzsprache des Dialekts A ohne Ausdruck; ein Ausdrucksparameter-Detektionsmittel (104) zum Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache des Dialekts A durch Vergleich mit der gesprochenen Referenzsprache des Dialekts A; und ein Ausdrucksparameter-Abbildungsmittel zum Abbilden der von dem Ausdrucksparameter-Detektionsmittel aus Dialekt A extrahierten Ausdrucksparameter auf Dialekt B und zum Steuern des ersten Text/Sprache-Erzeugungsmittels durch die Ergebnisse des Abbildens, um eine Ausdruckssprache zu synthetisieren.
  7. System gemäß Anspruch 6, dadurch gekennzeichnet, dass das Ausdrucksparameter-Detektionsmittel die Ausdrucksparameter auf Wortebene oder Satzebene extrahiert.
  8. System gemäß einem der Ansprüche 6 bis 7, dadurch gekennzeichnet, dass das Ausdrucksparameter-Abbildungsmittel die Ausdrucksparameter vom Dialekt A auf Dialekt B abbildet und dann die Ausdrucksparameter des Dialekts B in die Parameter zur Anpassung des Text/Sprache-Erzeugungsmittels durch die Umwandlung auf Wortebene und die Umwandlung auf Satzebene umwandelt.
  9. Sprache/Sprache-Erzeugungsverfahren, das die folgenden die Schritte umfasst: Erkennen (501) der gesprochenen Sprache der Sprache A und Erzeugen des entsprechenden Textes der Sprache A; Übersetzen (502) des Texts aus Sprache A in Sprache B; Erzeugen (503) der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B mit einem ersten Text/Sprache-Erzeugungsvorgang, wobei das Ausdruckssprache/Sprache-Erzeugungsverfahren dadurch gekennzeichnet ist, dass es ferner die folgenden Schritte umfasst: Erzeugen der gesprochenen Sprache der Sprache A entsprechend dem Text der Sprache A; Extrahieren (504) von Ausdrucksparametern aus der gesprochenen Sprache der Sprache A durch Vergleich mit der erzeugten gesprochenen Sprache der Sprache A; und Abbilden (505) der durch die Detektionsschritte aus Sprache A extrahierten Ausdrucksparameter auf Sprache B und Steuern des ersten Text/Sprache-Erzeugungsvorgangs durch die Ergebnisse des Abbildens, um eine Ausdruckssprache zu synthetisieren.
  10. Sprache/Sprache-Erzeugungsverfahren, das die folgenden Schritte umfasst: Erkennen (501) der gesprochenen Sprache des Dialekts A und Erzeugen des entsprechenden Textes; Erzeugen (503) der gesprochenen Sprache eines anderen Dialekts B entsprechend dem Text mit einem ersten Text/Sprache-Erkennungsvorgang, wobei das Sprache/Sprache-Erzeugungsverfahren dadurch gekennzeichnet ist, dass es weitere Schritte umfasst: Erzeugen der gesprochenen Sprache des Dialekts A entsprechend dem Text des Dialekts A; Extrahieren (504) von Ausdrucksparametern aus der gesprochenen Sprache des Dialekts A durch Vergleich mit der erzeugten gesprochenen Sprache des Dialekts A; und Abbilden (505) der durch die Detektionsschritte aus Dialekt A extrahierten Ausdrucksparameter auf Dialekt B und Steuern des ersten Text/Sprache-Erzeugungsvorgangs durch die Ergebnisse des Abbildens, um eine Ausdruckssprache zu synthetisieren.
DE60216069T 2001-04-11 2002-03-15 Sprache-zu-sprache erzeugungssystem und verfahren Expired - Lifetime DE60216069T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN01116524 2001-04-11
CNB011165243A CN1159702C (zh) 2001-04-11 2001-04-11 具有情感的语音-语音翻译系统和方法
PCT/GB2002/001277 WO2002084643A1 (en) 2001-04-11 2002-03-15 Speech-to-speech generation system and method

Publications (2)

Publication Number Publication Date
DE60216069D1 DE60216069D1 (de) 2006-12-28
DE60216069T2 true DE60216069T2 (de) 2007-05-31

Family

ID=4662524

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60216069T Expired - Lifetime DE60216069T2 (de) 2001-04-11 2002-03-15 Sprache-zu-sprache erzeugungssystem und verfahren

Country Status (8)

Country Link
US (2) US7461001B2 (de)
EP (1) EP1377964B1 (de)
JP (1) JP4536323B2 (de)
KR (1) KR20030085075A (de)
CN (1) CN1159702C (de)
AT (1) ATE345561T1 (de)
DE (1) DE60216069T2 (de)
WO (1) WO2002084643A1 (de)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
KR100906136B1 (ko) 2003-12-12 2009-07-07 닛본 덴끼 가부시끼가이샤 정보 처리용 로봇
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
TWI281145B (en) * 2004-12-10 2007-05-11 Delta Electronics Inc System and method for transforming text to speech
EP1856628A2 (de) * 2005-03-07 2007-11-21 Linguatec Sprachtechnologien GmbH Verfahren und anordnungen zur erweiterung von maschinenbearbeitbaren textinformationen
US8224647B2 (en) 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US20070174326A1 (en) * 2006-01-24 2007-07-26 Microsoft Corporation Application of metadata to digital media
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US20080003551A1 (en) * 2006-05-16 2008-01-03 University Of Southern California Teaching Language Through Interactive Translation
US8706471B2 (en) * 2006-05-18 2014-04-22 University Of Southern California Communication system using mixed translating while in multilingual communication
US8032355B2 (en) * 2006-05-22 2011-10-04 University Of Southern California Socially cognizant translation by detecting and transforming elements of politeness and respect
US8032356B2 (en) * 2006-05-25 2011-10-04 University Of Southern California Spoken translation system using meta information strings
US9685190B1 (en) * 2006-06-15 2017-06-20 Google Inc. Content sharing
CN101346758B (zh) * 2006-06-23 2011-07-27 松下电器产业株式会社 感情识别装置
US8510113B1 (en) * 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US7860705B2 (en) * 2006-09-01 2010-12-28 International Business Machines Corporation Methods and apparatus for context adaptation of speech-to-speech translation systems
US20080147409A1 (en) * 2006-12-18 2008-06-19 Robert Taormina System, apparatus and method for providing global communications
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
US20080300855A1 (en) * 2007-05-31 2008-12-04 Alibaig Mohammad Munwar Method for realtime spoken natural language translation and apparatus therefor
JP2009048003A (ja) * 2007-08-21 2009-03-05 Toshiba Corp 音声翻訳装置及び方法
CN101178897B (zh) * 2007-12-05 2011-04-20 浙江大学 利用基频包络剔除情感语音的说话人识别方法
CN101226742B (zh) * 2007-12-05 2011-01-26 浙江大学 基于情感补偿的声纹识别方法
US20090157407A1 (en) * 2007-12-12 2009-06-18 Nokia Corporation Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files
JP2009186820A (ja) * 2008-02-07 2009-08-20 Hitachi Ltd 音声処理システム、音声処理プログラム及び音声処理方法
JP2009189797A (ja) * 2008-02-13 2009-08-27 Aruze Gaming America Inc ゲーミングマシン
CN101685634B (zh) * 2008-09-27 2012-11-21 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
KR101589433B1 (ko) * 2009-03-11 2016-01-28 삼성전자주식회사 동시 통역 시스템
US8515749B2 (en) * 2009-05-20 2013-08-20 Raytheon Bbn Technologies Corp. Speech-to-speech translation
US20100049497A1 (en) * 2009-09-19 2010-02-25 Manuel-Devadoss Smith Johnson Phonetic natural language translation system
CN102054116B (zh) * 2009-10-30 2013-11-06 财团法人资讯工业策进会 情绪分析方法、情绪分析系统及情绪分析装置
US8566078B2 (en) * 2010-01-29 2013-10-22 International Business Machines Corporation Game based method for translation data acquisition and evaluation
US8412530B2 (en) * 2010-02-21 2013-04-02 Nice Systems Ltd. Method and apparatus for detection of sentiment in automated transcriptions
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
KR101101233B1 (ko) * 2010-07-07 2012-01-05 선린전자 주식회사 교통카드 기능을 구비한 휴대폰 충전용 젠더
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
JP5066242B2 (ja) * 2010-09-29 2012-11-07 株式会社東芝 音声翻訳装置、方法、及びプログラム
JP2012075039A (ja) * 2010-09-29 2012-04-12 Sony Corp 制御装置、および制御方法
US8566100B2 (en) 2011-06-21 2013-10-22 Verna Ip Holdings, Llc Automated method and system for obtaining user-selected real-time information on a mobile communication device
US9213695B2 (en) * 2012-02-06 2015-12-15 Language Line Services, Inc. Bridge from machine language interpretation to human language interpretation
US9390085B2 (en) 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
CN103543979A (zh) * 2012-07-17 2014-01-29 联想(北京)有限公司 一种输出语音的方法、语音交互的方法及电子设备
US20140058879A1 (en) * 2012-08-23 2014-02-27 Xerox Corporation Online marketplace for translation services
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
JP2015014665A (ja) * 2013-07-04 2015-01-22 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
JP6320982B2 (ja) * 2014-11-26 2018-05-09 ネイバー コーポレーションNAVER Corporation 翻訳文エディタ提供装置、並びに翻訳文エディタ提供方法
CN105139848B (zh) * 2015-07-23 2019-01-04 小米科技有限责任公司 数据转换方法和装置
CN105208194A (zh) * 2015-08-17 2015-12-30 努比亚技术有限公司 语音播报装置及方法
CN105551480B (zh) * 2015-12-18 2019-10-15 百度在线网络技术(北京)有限公司 方言转换方法及装置
CN105635452B (zh) * 2015-12-28 2019-05-10 努比亚技术有限公司 移动终端及其联系人标识方法
CN105931631A (zh) * 2016-04-15 2016-09-07 北京地平线机器人技术研发有限公司 语音合成系统和方法
US9747282B1 (en) 2016-09-27 2017-08-29 Doppler Labs, Inc. Translation with conversational overlap
CN106782521A (zh) * 2017-03-22 2017-05-31 海南职业技术学院 一种语音识别系统
CN106910514A (zh) * 2017-04-30 2017-06-30 上海爱优威软件开发有限公司 语音处理方法及系统
US11328130B2 (en) * 2017-11-06 2022-05-10 Orion Labs, Inc. Translational bot for group communication
US10565994B2 (en) * 2017-11-30 2020-02-18 General Electric Company Intelligent human-machine conversation framework with speech-to-text and text-to-speech
CN108363377A (zh) * 2017-12-31 2018-08-03 广州展讯信息科技有限公司 一种应用于驾考系统的数据采集装置及方法
CN113168526B (zh) * 2018-10-09 2024-08-27 奇跃公司 用于虚拟和增强现实的系统和方法
US11159597B2 (en) * 2019-02-01 2021-10-26 Vidubly Ltd Systems and methods for artificial dubbing
US11202131B2 (en) 2019-03-10 2021-12-14 Vidubly Ltd Maintaining original volume changes of a character in revoiced media stream
CN109949794B (zh) * 2019-03-14 2021-04-16 山东远联信息科技有限公司 一种基于互联网技术的智能语音转换系统
CN110956950A (zh) * 2019-12-02 2020-04-03 联想(北京)有限公司 一种数据处理方法、装置和电子设备
CN112562733A (zh) * 2020-12-10 2021-03-26 平安普惠企业管理有限公司 媒体数据处理方法及装置、存储介质、计算机设备
US11361780B2 (en) * 2021-12-24 2022-06-14 Sandeep Dhawan Real-time speech-to-speech generation (RSSG) apparatus, method and a system therefore

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4352634A (en) 1980-03-17 1982-10-05 United Technologies Corporation Wind turbine blade pitch control system
JPS56164474A (en) 1981-05-12 1981-12-17 Noriko Ikegami Electronic translating machine
GB2165969B (en) 1984-10-19 1988-07-06 British Telecomm Dialogue system
JPH01206463A (ja) 1988-02-14 1989-08-18 Kenzo Ikegami 電子翻訳装置
JPH02183371A (ja) 1989-01-10 1990-07-17 Nec Corp 自動通訳装置
JPH04141172A (ja) 1990-10-01 1992-05-14 Toto Ltd 蒸気及び冷気発生切換装置
JPH04355555A (ja) 1991-05-31 1992-12-09 Oki Electric Ind Co Ltd 音声伝送方法
JPH0772840B2 (ja) 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE516526C2 (sv) 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
SE504177C2 (sv) 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk
SE9600959L (sv) * 1996-03-13 1997-09-14 Telia Ab Metod och anordning vid tal-till-talöversättning
SE506003C2 (sv) * 1996-05-13 1997-11-03 Telia Ab Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation
JPH10187178A (ja) 1996-10-28 1998-07-14 Omron Corp 歌唱の感情分析装置並びに採点装置
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
SE519679C2 (sv) 1997-03-25 2003-03-25 Telia Ab Metod vid talsyntes
SE520065C2 (sv) 1997-03-25 2003-05-20 Telia Ab Anordning och metod för prosodigenerering vid visuell talsyntes
JPH11265195A (ja) 1998-01-14 1999-09-28 Sony Corp 情報配信システム、情報送信装置、情報受信装置、情報配信方法
JP3884851B2 (ja) 1998-01-28 2007-02-21 ユニデン株式会社 通信システムおよびこれに用いられる無線通信端末装置

Also Published As

Publication number Publication date
EP1377964B1 (de) 2006-11-15
CN1379392A (zh) 2002-11-13
ATE345561T1 (de) 2006-12-15
EP1377964A1 (de) 2004-01-07
WO2002084643A1 (en) 2002-10-24
US20080312920A1 (en) 2008-12-18
JP2005502102A (ja) 2005-01-20
CN1159702C (zh) 2004-07-28
US20040172257A1 (en) 2004-09-02
US7962345B2 (en) 2011-06-14
JP4536323B2 (ja) 2010-09-01
DE60216069D1 (de) 2006-12-28
KR20030085075A (ko) 2003-11-01
US7461001B2 (en) 2008-12-02

Similar Documents

Publication Publication Date Title
DE60216069T2 (de) Sprache-zu-sprache erzeugungssystem und verfahren
DE69519328T2 (de) Verfahren und Anordnung für die Umwandlung von Sprache in Text
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE10042944C2 (de) Graphem-Phonem-Konvertierung
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60000138T2 (de) Erzeugung von mehreren Aussprachen eines Eigennames für die Spracherkennung
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69022237T2 (de) Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
DE69826446T2 (de) Stimmumwandlung
DE69618503T2 (de) Spracherkennung für Tonsprachen
DE69506037T2 (de) Audioausgabeeinheit und Methode
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69620399T2 (de) Sprachsynthese
DE69028072T2 (de) Verfahren und Einrichtung zur Sprachsynthese
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE69033084T2 (de) Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung
DE19610019C2 (de) Digitales Sprachsyntheseverfahren
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE202017106303U1 (de) Bestimmen phonetischer Beziehungen
DE69519229T2 (de) Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)