DE60216069T2

DE60216069T2 - Sprache-zu-sprache erzeugungssystem und verfahren

Info

Publication number: DE60216069T2
Application number: DE60216069T
Authority: DE
Inventors: Donald Mt. Kisco TANG; Liqin Shen; Qin Shi; Wei Haidian District ZHANG
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-04-11
Filing date: 2002-03-15
Publication date: 2007-05-31
Anticipated expiration: 2022-03-16
Also published as: EP1377964B1; CN1379392A; ATE345561T1; EP1377964A1; WO2002084643A1; US20080312920A1; JP2005502102A; CN1159702C; US20040172257A1; US7962345B2; JP4536323B2; DE60216069D1; KR20030085075A; US7461001B2

Description

Gebiet der Erfindung
Diese Erfindung betrifft allgemein das Gebiet der maschinellen Übersetzung und konkret ein Sprache/Sprache- und Ausdruck-Erzeugungssystem und -Verfahren.
Hintergrund der Erfindung
Die maschinelle Übersetzung ist eine Technik zur Umwandlung des Textes oder der gesprochenen Sprache einer Sprache in den Text bzw. die Sprache einer anderen Sprache unter Verwendung eines Computers. Anders ausgedrückt, die maschinelle Übersetzung soll ohne Mitwirkung menschlicher Arbeit automatisch eine Sprache in eine andere Sprache übersetzen, indem die riesige Speicherkapazität und digitale Verarbeitungsfähigkeit von Computern dafür verwendet wird, um basierend auf der Theorie der Sprachbildung und Strukturanalyse mit mathematischen Verfahren Wörterbuch und Syntax zu erzeugen.
Allgemein gesagt handelt es sich bei derzeitigen maschinellen Übersetzungssystemen um ein textbasiertes Übersetzungssystem, das den Text einer Sprache in den Text einer anderen Sprache übersetzt. Mit der gesellschaftlichen Weiterentwicklung wird jedoch das sprachbasierte Übersetzungssystem benötigt. Durch Verwendung der derzeitigen Spracherkennungstechnik, der textbasierten Übersetzungstechnik und der TTS-Technik (englisch: „text-to-speech", Sprachausgabe) kann eine in einer ersten Sprache gesprochene Sprache mit der Spracherkennungstechnik erkannt und in den Text der Sprache umgewandelt werden; danach wird der Text der ersten Sprache in den Text einer zweiten Sprache übersetzt, auf der Basis dessen die gesprochene Sprache der zweiten Sprache unter Verwendung der TTS-Technik erzeugt wird.
Vorhandene TTS-Systeme erzeugen jedoch normalerweise eine ausdruckslose und monoton gesprochene Sprache. Für ein typisches derzeit verfügbares TTS-System werden die Standardaussprachen aller Wörter (in Silben) zunächst aufgezeichnet und analysiert, und danach werden relevante Parameter für Standard-„Ausdrücke" auf Wortebene in einem Wörterbuch gespeichert. Aus den Teilsilben wird mit in einem Wörterbuch definierten Standardsteuerparametern unter Verwendung der üblichen Glättungstechniken zur Aneinanderreihung der Teile ein synthetisches Wort erzeugt. Eine derartige Spracherzeugung kann keine gesprochene Sprache erschaffen, die voll von auf der Bedeutung des Satzes und auf den Emotionen des Sprechers basierenden Ausdrücken ist.
Die internationale Patentanmeldung WO 97/34292 beschreibt ein Verfahren und eine Vorrichtung zur Sprache/Sprache-Übersetzung. Grundlegende Klanginformationen aus der Eingangssprache beeinflussen die Prosodieerzeugung der synthetischen gesprochenen Sprache.
Deshalb stellt die Ausführungsform der vorliegenden Erfindung ein Sprache/Sprache- und Ausdruck-System und -Verfahren bereit.
Gemäß der Ausführungsform der vorliegenden Erfindung verwendet ein Sprache/Sprache- und Ausdruck-System und -Verfahren von dem originalen Sprachsignal erhaltene Ausdrucksparameter, um ein Standard-TTS-System zu steuern und eine Ausdruckssprache zu erzeugen.
Gemäß einem Aspekt der Erfindung wird ein wie in Anspruch 1 beschriebenes Sprache/Sprache-Erzeugungssystem bereitgestellt.
Gemäß einem zweiten Aspekt der Erfindung wird ein wie in Anspruch 6 beschriebenes Sprache/Sprache-Erzeugungssystem bereitgestellt.
Gemäß einem dritten Aspekt der Erfindung wird ein wie in Anspruch 10 beschriebenes Verfahren zur Sprache/Sprache-Erzeugung bereitgestellt.
Gemäß einem vierten Aspekt der Erfindung wird ein wie in Anspruch 16 beschriebenes Verfahren zur Sprache/Sprache-Erzeugung bereitgestellt.
Das Sprache/Sprache- und Ausdruck-System und -Verfahren der vorliegenden Ausführungsform kann die Qualität gesprochener Sprache von Übersetzungssystemen oder TTS-Systemen verbessern.
Die oben erwähnten und weitere Ziele und Merkmale der Erfindung könnten in der folgenden ausführlichen Beschreibung mit zugehörigen Zeichnungen besser veranschaulicht werden. Die ausführliche Beschreibung und die Ausführungsformen sollen lediglich die Erfindung veranschaulichen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Schaubild eines Sprache/Sprache- und Ausdruck- Systems gemäß der vorliegenden Erfindung;
2 ist ein Schaubild eines Ausdrucksparameter-Detektionsmittels in 1 gemäß einer Ausführungsform der vorliegenden Erfindung;
3 ist ein Schaubild, das ein Ausdrucksparameter-Abbildungsmittel in 1 gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
4 ist ein Schaubild, das ein Sprache/Sprache- und Ausdruck-System gemäß einer anderen Ausführungsform der vorliegenden Erfindung zeigt;
5 ist ein Flussdiagramm, das Vorgänge zur Ausdruckssprache/Sprache-Übersetzung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
6 ist ein Flussdiagramm, das Vorgänge zur Detektion von Ausdrucksparametern gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
7 ist ein Flussdiagramm, das Vorgänge zum Abbilden detektierender Ausdrucksparameter und zum Anpassen von TTS-Parametern gemäß einer Ausführungsform der vorliegenden Erfindung zeigt; und
8 ist ein Flussdiagramm, das Vorgänge zur Ausdruckssprache/Sprache-Übersetzung gemäß einer anderen Ausführungsform der vorliegenden Erfindung zeigt.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Wie in 1 gezeigt, umfasst ein Sprache/Sprache- und Ausdruck-System gemäß einer Ausführungsform der vorliegenden Erfindung: ein Spracherkennungsmittel 101, ein maschinelles Übersetzungsmittel 102, ein Text/Sprache-Erzeugungsmittel 103, ein Ausdrucksparameter-Detektionsmittel 104 und ein Ausdrucksparameter-Abbildungsmittel 105. Das Spracherkennungsmittel 101 wird zum Erkennen der gesprochenen Sprache der Sprache A und zum Erzeugen des entsprechenden Textes der Sprache A verwendet; das maschinelle Übersetzungsmittel 102 wird zum Übersetzen des Textes aus Sprache A in Sprache B verwendet; das Text/Sprache-Erzeugungsmittel 103 wird zum Erzeugen der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B verwendet; das Ausdrucksparameter-Detektionsmittel 104 wird zum Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache der Sprache A verwendet; und das Ausdrucksparameter-Abbildungsmittel 105 wird zum Abbilden der von dem Ausdrucksparameter-Detektionsmittel aus Sprache A extrahierten Ausdrucksparameter auf Sprache B und zum Steuern des Text/Sprache-Erzeugungsmittels durch die Ergebnisse des Abbildens verwendet, um den Ausdruck der Sprache zu synthetisieren.
Wie den Fachleuten bekannt ist, gibt es nach dem Stand der Technik viele Möglichkeiten, Spracherkennungsmittel, maschinelle Übersetzungsmittel und TTS-Mittel praktisch auszuführen. Deshalb beschreiben wir anhand von 2 und 3 lediglich das Ausdrucksparameter-Detektionsmittel und das Ausdrucksparameter-Abbildungsmittel gemäß einer Ausführungsform dieser Erfindung.
Zunächst wurden die Schlüsselparameter, die den Ausdruck von gesprochener Sprache widerspiegeln, vorgestellt.
Die Schlüsselparameter von gesprochener Sprache, die den Ausdruck steuern, können auf unterschiedlichen Ebenen definiert werden.

1. Auf Wortebene sind die Schlüsselausdrucksparameter: Geschwindigkeit (Dauer), Lautstärke (Energiepegel) und Tonlage (einschließlich Stimmlage und Tonfall). Da ein Wort allgemein aus mehreren Buchstaben/Silben besteht (die meisten Wörter auf Chinesisch haben zwei oder mehr Buchstaben/Silben), müssen derartige Ausdrucksparameter ebenfalls in der Form von Vektoren oder zeitlich festgelegten Folgen auf Silbenebene definiert werden. Wenn zum Beispiel eine Person wütend spricht, ist die Wortlautstärke äußerst hoch, die Tonlage des Wortes ist höher als unter normalen Bedingungen und dessen Hüllkurve ist nicht glatt, und viele der Tonlagenmarkierungspunkte verschwinden sogar. Und gleichzeitig nimmt die Dauer ab. Ein anderes Beispiel ist, dass wir, wenn wir einen Satz auf normale Weise sprechen, wohl einige Wörter in dem Satz betonen würden und die Tonlage, die Energie und die Dauer dieser Wörter sich ändern würden.
2. Auf Satzebene konzentrieren wir uns auf die Intonation. Die Hüllkurve eines Ausrufesatzes unterscheidet sich von der einer Feststellung.

Im Folgenden soll anhand der 2 und 3 beschrieben werden, wie das Ausdrucksparameter-Detektionsmittel und das Ausdrucksparameter-Abbildungsmittel gemäß dieser Erfindung funktionieren. Das heißt, wie man Ausdrucksparameter extrahiert und die extrahierten Ausdrucksparameter dazu verwendet, um das Text/Sprache-Erzeugungsmittel zu steuern, um einen Ausdruck der Sprache zu synthetisieren.
Wie in 2 gezeigt, beinhaltet das Ausdrucksparameter-Detektionsmittel der Erfindung die folgenden Komponenten:
Teil A: Analyse der Tonlage, Dauer und Lautstärke des Sprechers. In Teil A werten wir das Ergebnis der Spracherkennung aus, um das Abgleichungsergebnis zwischen gesprochener Sprache und Wörtern (oder Buchstaben) zu erhalten. Und Aufzeichnen in der folgenden Struktur:
Dann verwenden wir ein Kurzzeitanalyseverfahren, um Parameter zu erhalten wie z.B.:

1. Kurzzeitenergie jedes Kurzzeitfensters.
2. Detektion der Tonlagenkontur des Wortes.
3. Dauer der Wörter.

Gemäß diesen Parametern gehen wir einen Schritt weiter, um die folgenden Parameter zu erhalten:

1. Durchschnittliche Kurzzeitenergie in dem Wort.
2. Top-N-Kurzzeitenergie in dem Wort.
3. Tonlagenumfang, maximale Tonlage, minimale Tonlage und Wert der Tonlage in dem Wort.
4. Die Dauer des Wortes.

Teil B: Gemäß dem Text aus dem Ergebnis der Spracherkennung verwenden wir ein Standard-TTS-System für Sprache A, um die gesprochene Sprache der Sprache A ohne Ausdruck zu erzeugen, und dann analysieren wir die Parameter des ausdruckslosen TTS. Die Parameter sind die Referenz der Analyse des Ausdrucks der Sprache.
Teil C: Wir analysieren die Abweichung der Parameter für diese Wörter in einem Satz und bilden Ausdrucks- und Standardsprache. Der Grund hierfür ist, dass verschiedene Menschen mit unterschiedlicher Lautstärke und Tonlage in verschiedenen Geschwindigkeiten sprechen. Selbst für eine Person sind diese Parameter nicht gleich, wenn sie denselben Satz zu unterschiedlichen Zeitpunkten spricht. Deshalb benutzen wir die relativen Parameter, um die Rolle der Wörter in einem Satz entsprechend der Referenzsprache zu analysieren.
Wir verwenden ein normalisiertes Parameterverfahren, um die relativen Parameter aus den absoluten Parametern zu erhalten. Die relativen Parameter sind:

1. Die relative durchschnittliche Kurzzeitenergie in dem Wort.
2. Die relative Top-N-Kurzzeitenergie in dem Wort.
3. Den relativen Tonlagenumfang, die relative maximale Tonlage, die relative minimale Tonlage in dem Wort.
4. Die relative Dauer des Wortes.

Teil D: Analyse der Ausdruckssprachparameter auf Wortebene und auf Satzebene gemäß der von den Standardsprachparametern stammenden Referenz.

1. Auf Wortebene vergleichen wir die relativen Parameter des Ausdrucks der Sprache mit denen der Referenzsprache, um zu sehen, welche Wortparameter heftig abweichen.
2. Auf Satzebene sortieren wir die Wörter gemäß ihrer Abweichungsgröße und ihrer Worteigenschaft und erhalten die Schlüsselausdruckswörter in den Sätzen.

Teil E: Gemäß dem Ergebnis des Vergleichens der Parameter und dem Wissen darüber, welcher bestimmte Ausdruck die Abweichung welchen Parameters verursacht, erhalten wir die Ausdrucksinformationen des Satzes, d.h., wir detektieren die Ausdrucksparameter und zeichnen die Parameter gemäß der folgenden Struktur auf:
Wenn wir zum Beispiel „í⎕!" wütend auf Chinesisch aussprechen, verschwinden viele Tonlagen und die absolute Lautstärke ist höher als die Referenz und gleichzeitig ist die relative Lautstärke äußerst scharf, und die Dauer ist viel kürzer als die Referenz. Somit kann man schlussfolgern, dass der Ausdruck auf Satzebene wütend ist. Das Schlüsselausdruckswort ist „íš{".
Im Folgenden soll unter Bezugnahme auf 3A und 3B beschrieben werden, wie das Ausdrucksparameter-Abbildungsmittel gemäß einer Ausführungsform dieser Erfindung strukturiert ist. Das Ausdrucksparameter-Abbildungsmittel umfasst:
Teil A: Abbilden der Struktur von Ausdrucksparametern von Sprache A auf Sprache B gemäß dem Ergebnis der maschinellen Übersetzung. Das Schlüsselverfahren besteht darin, herauszufinden, welche Wörter in Sprache B mit welchen Wörtern in Sprache A übereinstimmen, die für das Zeigen von Ausdruck wichtig sind. Das Abbildungsergebnis sieht wie folgt aus:
Teil B: Basierend auf dem Ergebnis des Abbildens von Ausdrucksinformationen werden die Anpassungsparameter, die das TTS für Sprache steuern können, erzeugt. Auf diese Weise verwenden wir eine Ausdrucksparametertabelle von Sprache B, um anzugeben, welche Wörter welchen Satz von Parametern verwenden, die den Ausdrucksparametern entsprechen. Die Parameter in der Tabelle sind die relativen Anpassungsparameter.
Der Prozess ist in 3B gezeigt. Die Ausdrucksparameter werden durch Umwandlungstabellen mit zwei Ebenen umgewandelt (Wortebenenumwandlungstabelle und Satzebenenumwandlungstabelle), und sie werden zu den Parametern für das Anpassen des Text/Sprache-Erzeugungsmittels.
Die Umwandlungstabellen der beiden Ebenen sind:

1. Die Wortebenen-Umwandlungstabelle zur Umwandlung von Ausdrucksparametern in die Parameter, die das TTS anpassen.

Die Struktur der Tabelle ist wie folgt:

2. Die Satzebenen-Umwandlungstabelle zur Angabe der Prosodieparameter der Satzebene gemäß dem Emotionstyp des Satzes, um die Parameter in dem Wortebenen-Anpassungs-TTS anzupassen.

Das Sprache/Sprache-System gemäß der vorliegenden Erfindung wurde oben stehend in Verbindung mit Ausführungsformen beschrieben. Wie den Fachleuten bekannt ist, kann die vorliegende Erfindung ebenso dafür verwendet werden, um unterschiedliche Dialekte derselben Sprache zu übersetzen. Wie in 4 gezeigt, ähnelt das System dem in 1. Der einzige Unterschied besteht darin, dass die Übersetzung zwischen unterschiedlichen Dialekten derselben Sprache das maschinelle Übersetzungsmittel nicht benötigt. Konkret wird das Spracherkennungsmittel 101 zum Erkennen der gesprochenen Sprache der Sprache A und zum Erzeugen des entsprechenden Textes der Sprache A verwendet; das Text/Sprache-Erzeugungsmittel 103 wird zum Erzeugen der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B verwendet; das Ausdrucksparameter-Detektionsmittel 104 wird zum Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache des Dialekts A verwendet; und das Ausdrucksparameter-Abbildungsmittel 105 wird zum Abbilden der von dem Ausdrucksparameter-Detektionsmittel 104 aus Dialekt A extrahierten Ausdrucksparameter auf Dialekt B und zum Steuern des Text/Sprache-Erzeugungsmittels mit den Ergebnissen des Abbildens verwendet, um einen Ausdruck der Sprache zu synthetisieren.
Das Sprache/Sprache- und Ausdruck-System gemäß der vorliegenden Erfindung wurde in Verbindung mit 1 bis 4 beschrieben. Das System erzeugt eine Ausdruckssprachausgabe unter Verwendung von Ausdrucksparametern, die aus den originalen Sprachsignalen extrahiert wurden, um das Standard-TTS-System zu steuern.
Die vorliegende Erfindung stellt ebenso ein Sprache/Sprache- und Ausdruck-Verfahren bereit. Im Folgenden soll anhand der 5 bis 8 eine Ausführungsform eines Sprache/Sprache-Übersetzungsvorgangs gemäß der Erfindung beschrieben werden.
Wie in 5 gezeigt, umfasst ein Sprache/Sprache- und Ausdruck-Verfahren gemäß einer Ausführungsform der Erfindung die folgenden Schritte: Erkennen der gesprochenen Sprache der Sprache A und Erzeugen des entsprechenden Textes der Sprache A (501); Übersetzen des Textes aus Sprache A in Sprache B (502); Erzeugen der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B (503); Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache der Sprache A (504); und Abbilden der durch die Detektionsschritte aus Sprache A extrahierten Ausdrucksparameter auf Sprache B und Steuern des Text/Sprache-Erzeugungsvorgangs durch die Ergebnisse des Abbildens, um einen Ausdruck der Sprache zu synthetisieren (505).
Im Folgenden sollen anhand der 6 und 7 der Ausdrucksdetektionsvorgang und der Ausdrucksabbildungsvorgang gemäß einer Ausführungsform der vorliegenden Erfindung beschrieben werden. Das heißt, wie man Ausdrucksparameter extrahiert und die extrahierten Ausdrucksparameter dafür verwendet, den bestehenden TTS-Vorgang zu steuern, um Ausdruckssprache zu synthetisieren.
Wie in 6 gezeigt, umfasst der Ausdrucksdetektionsvorgang die folgenden Schritte:
Schritt 601: Analyse der Tonlage, Dauer und Lautstärke des Sprechers. In Schritt 601 werten wir das Ergebnis der Spracherkennung aus, um das Abgleichungsergebnis zwischen gesprochener Sprache und Wörtern (oder Buchstaben) zu erhalten. Dann verwenden wir ein Kurzzeitanalyseverfahren, um Parameter zu erhalten wie z.B.:

1. Durchschnittliche Kurzzeitenergie in dem Wort.
2. Top-N-Kurzzeitenergie in dem Wort.
3. Tonlagenumfang, maximale Tonlage, minimale Tonlage und Tonlagenzahl in dem Wort.
4. Die Dauer des Wortes.

Schritt 602: Gemäß dem Text, der das Ergebnis der Spracherkennung ist, verwenden wir ein Standard-TTS-System für Sprache A, um die gesprochene Sprache der Sprache A ohne Ausdruck zu erzeugen. Dann analysieren wir die Parameter des ausdruckslosen TTS. Die Parameter sind die Referenz der Analyse der Ausdruckssprache.
Schritt 603: Analyse der Abweichung der Parameter für diese Wörter in dem Satz, die sich aus der Ausdrucks- und der Standardsprache ergibt. Der Grund hierfür ist, dass unterschiedliche Menschen eventuell mit unterschiedlicher Lautstärke und unterschiedlicher Tonlage in verschiedenen Geschwindigkeiten sprechen. Selbst für eine Person sind diese Parameter nicht gleich, wenn sie denselben Satz zu unterschiedlichen Zeitpunkten spricht. Deshalb benutzen wir die relativen Parameter, um die Rolle der Wörter in dem Satz entsprechend der Referenzsprache zu analysieren.
Wir verwenden ein normalisiertes Parameterverfahren, um die relativen Parameter aus den absoluten Parametern zu erhalten. Die relativen Parameter sind:

Schritt 604: Analyse der Ausdruckssprachparameter auf Wortebene und auf Satzebene gemäß der von den Standardsprachparametern stammenden Referenz.

1. Auf Wortebene vergleichen wir die relativen Parameter des Ausdrucks der Sprache mit denen der Referenzsprache, um zu sehen, welche Parameter welcher Wörter heftig abweichen.
2. Auf Satzebene sortieren wir die Wörter gemäß ihrer Abweichungsgröße und ihrer Worteigenschaft, um die Schlüsselausdruckswörter in den Sätzen zu erhalten.

Schritt 605: Gemäß dem Ergebnis des Vergleichens der Parameter und dem Wissen darüber, welcher bestimmte Ausdruck die Abweichung welchen Parameters verursacht, erhalten wir die Ausdrucksinformationen des Satzes, oder anders ausgedrückt, wir detektieren die Ausdrucksparameter.
Als Nächstes beschreiben wir in Verbindung mit 7 den Ausdrucks-Abbildungsvorgang gemäß einer Ausführungsform der vorliegenden Erfindung. Der Vorgang umfasst die folgenden Schritte:
Schritt 701: Abbilden der Struktur von Ausdrucksparametern von Sprache A auf Sprache B gemäß dem Ergebnis der maschinellen Übersetzung. Das Schlüsselverfahren besteht darin, die Wörter in Sprache B herauszufinden, die mit denen in Sprache A übereinstimmen, die für das Übertragen von Ausdruck wichtig sind.
Schritt 702: Gemäß dem Ergebnis des Abbildens von Ausdrucksinformationen werden die Anpassungsparameter, die das TTS für Sprache B steuern könnten, erzeugt. Dadurch verwenden wir eine Ausdrucksparametertabelle von Sprache B, gemäß derer die Wort- bzw. Silbensyntheseparameter bereitgestellt werden.
Das Sprache/Sprache-Verfahren gemäß der vorliegenden Erfindung wurde in Verbindung mit Ausführungsformen beschrieben. Wie den Fachleuten bekannt ist, kann die vorliegende Erfindung ebenso dafür verwendet werden, um unterschiedliche Dialekte derselben Sprache zu übersetzen. Wie in 8 gezeigt, ähneln die Vorgänge denen in 5. Der einzige Unterschied besteht darin, dass die Übersetzung zwischen unterschiedlichen Dialekten derselben Sprache den Textübersetzungsvorgang nicht benötigt. Konkret umfasst der Vorgang die folgenden Schritte: Erkennen der gesprochenen Sprache des Dialekts A und Erzeugen des entsprechenden Textes (801); Erzeugen der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B (802); Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache des Dialekts A (803); und Abbilden der durch die Detektionsschritte aus Dialekt A extrahierten Ausdrucksparameter auf Dialekt B und danach Anwenden der Ergebnisse des Abbildens auf den Text/Sprache-Erzeugungsvorgang, um einen Ausdruck der Sprache zu synthetisieren (804).
Das Sprache/Sprache- und Ausdruck-System und -Verfahren gemäß der bevorzugten Ausführungsform wurde in Verbindung mit Figuren beschrieben. Für Fachleute sind alternative Ausführungsformen vorstellbar, ohne von dem Schutzumfang der vorliegenden Erfindung abzuweichen. Die vorliegende Erfindung schließt all diese modifizierten und alternativen Ausführungsformen ein. Der Schutzumfang der vorliegenden Erfindung wird durch die beigefügten Ansprüche begrenzt.

Claims

Sprache/Sprache-Erzeugungssystem, das Folgendes umfasst: ein Spracherkennungsmittel (101) zum Erkennen der gesprochenen Sprache der Sprache A und zum Erzeugen des entsprechenden Textes der Sprache A; ein maschinelles Übersetzungsmittel (102) zum Übersetzen des Textes aus Sprache A in Sprache B; ein erstes Text/Sprache-Erzeugungsmittel (103) zum Erzeugen der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B, wobei das Sprache/Sprache-Erzeugungssystem gekennzeichnet ist durch: ein zweites Text/Sprache-Erzeugungsmittel zum weiteren Erzeugen einer gesprochenen Referenzsprache der Sprache A ohne Ausdruck; ein Ausdrucksparameter-Detektionsmittel (104) zum Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache der Sprache A durch Vergleich mit der gesprochenen Referenzsprache der Sprache A, die keinerlei Ausdruck hat; und ein Ausdrucksparameter-Abbildungsmittel (105) zum Abbilden der von dem Ausdrucksparameter-Detektionsmittel aus Sprache A extrahierten Ausdrucksparameter auf Sprache B und zum Steuern des ersten Text/Sprache-Erzeugungsmittels durch die Ergebnisse des Abbildens, um eine Ausdruckssprache zu synthetisieren.
System nach Anspruch 1, dadurch gekennzeichnet dass: das Ausdrucksparameter-Detektionsmittel die Ausdrucksparameter auf unterschiedlichen Ebenen extrahiert.
System gemäß Anspruch 2, dadurch gekennzeichnet, dass das Ausdrucksparameter-Detektionsmittel die Ausdrucksparameter auf Wortebene extrahiert.
System gemäß Anspruch 2, dadurch gekennzeichnet, dass das Ausdrucksparameter-Detektionsmittel die Ausdrucksparameter auf Satzebene extrahiert.
System gemäß einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das Ausdrucksparameter-Abbildungsmittel die Ausdrucksparameter von Sprache A auf Sprache B abbildet und dann die Ausdrucksparameter der Sprache B in die Parameter zur Anpassung des ersten Text/Sprache-Erzeugungsmittels durch die Umwandlung auf Wortebenen und die Umwandlung auf Satzebene umwandelt.
Sprache/Sprache-Erzeugungssystem, das Folgendes umfasst: ein Spracherkennungsmittel (101) zum Erkennen der gesprochenen Sprache des Dialekts A und zum Erzeugen des entsprechenden Textes; ein erstes Text/Sprache-Erzeugungsmittel (103) zum Erzeugen der gesprochenen Sprache eines anderen Dialekts B entsprechend dem Text, wobei das Sprache/Sprache-Erzeugungssystem gekennzeichnet ist durch: ein zweites Text/Sprache-Erzeugungsmittel zum weiteren Erzeugen einer gesprochenen Referenzsprache des Dialekts A ohne Ausdruck; ein Ausdrucksparameter-Detektionsmittel (104) zum Extrahieren von Ausdrucksparametern aus der gesprochenen Sprache des Dialekts A durch Vergleich mit der gesprochenen Referenzsprache des Dialekts A; und ein Ausdrucksparameter-Abbildungsmittel zum Abbilden der von dem Ausdrucksparameter-Detektionsmittel aus Dialekt A extrahierten Ausdrucksparameter auf Dialekt B und zum Steuern des ersten Text/Sprache-Erzeugungsmittels durch die Ergebnisse des Abbildens, um eine Ausdruckssprache zu synthetisieren.
System gemäß Anspruch 6, dadurch gekennzeichnet, dass das Ausdrucksparameter-Detektionsmittel die Ausdrucksparameter auf Wortebene oder Satzebene extrahiert.
System gemäß einem der Ansprüche 6 bis 7, dadurch gekennzeichnet, dass das Ausdrucksparameter-Abbildungsmittel die Ausdrucksparameter vom Dialekt A auf Dialekt B abbildet und dann die Ausdrucksparameter des Dialekts B in die Parameter zur Anpassung des Text/Sprache-Erzeugungsmittels durch die Umwandlung auf Wortebene und die Umwandlung auf Satzebene umwandelt.
Sprache/Sprache-Erzeugungsverfahren, das die folgenden die Schritte umfasst: Erkennen (501) der gesprochenen Sprache der Sprache A und Erzeugen des entsprechenden Textes der Sprache A; Übersetzen (502) des Texts aus Sprache A in Sprache B; Erzeugen (503) der gesprochenen Sprache der Sprache B entsprechend dem Text der Sprache B mit einem ersten Text/Sprache-Erzeugungsvorgang, wobei das Ausdruckssprache/Sprache-Erzeugungsverfahren dadurch gekennzeichnet ist, dass es ferner die folgenden Schritte umfasst: Erzeugen der gesprochenen Sprache der Sprache A entsprechend dem Text der Sprache A; Extrahieren (504) von Ausdrucksparametern aus der gesprochenen Sprache der Sprache A durch Vergleich mit der erzeugten gesprochenen Sprache der Sprache A; und Abbilden (505) der durch die Detektionsschritte aus Sprache A extrahierten Ausdrucksparameter auf Sprache B und Steuern des ersten Text/Sprache-Erzeugungsvorgangs durch die Ergebnisse des Abbildens, um eine Ausdruckssprache zu synthetisieren.
Sprache/Sprache-Erzeugungsverfahren, das die folgenden Schritte umfasst: Erkennen (501) der gesprochenen Sprache des Dialekts A und Erzeugen des entsprechenden Textes; Erzeugen (503) der gesprochenen Sprache eines anderen Dialekts B entsprechend dem Text mit einem ersten Text/Sprache-Erkennungsvorgang, wobei das Sprache/Sprache-Erzeugungsverfahren dadurch gekennzeichnet ist, dass es weitere Schritte umfasst: Erzeugen der gesprochenen Sprache des Dialekts A entsprechend dem Text des Dialekts A; Extrahieren (504) von Ausdrucksparametern aus der gesprochenen Sprache des Dialekts A durch Vergleich mit der erzeugten gesprochenen Sprache des Dialekts A; und Abbilden (505) der durch die Detektionsschritte aus Dialekt A extrahierten Ausdrucksparameter auf Dialekt B und Steuern des ersten Text/Sprache-Erzeugungsvorgangs durch die Ergebnisse des Abbildens, um eine Ausdruckssprache zu synthetisieren.