EP0919052B1

EP0919052B1 - Verfahren und system zur sprache-in-sprache-umsetzung

Info

Publication number: EP0919052B1
Application number: EP97919840A
Authority: EP
Inventors: Bertil Lyberg
Original assignee: Telia AB
Current assignee: Telia AB
Priority date: 1996-05-13
Filing date: 1997-04-08
Publication date: 2003-07-09
Anticipated expiration: 2017-04-08
Also published as: DE69723449T2; SE506003C2; NO985179L; SE9601811L; DE69723449D1; EP0919052A1; WO1997043756A1; NO985179D0; DK0919052T3; SE9601811D0; NO318557B1

Claims

System zur Sprache-in-Sprache-Umsetzung zum Erzeugen am Ausgang desselben von gesprochenen Antworten auf am System eingegebenen Spracheingaben mit Spracherkennungsmitteln für die Spracheingabe; Interpretationsmitteln zum Interpretieren des Inhaltes der erkannten Spracheingabe; und einer Datenbank, welche Sprachinformationsdaten zur Verwendung bei der Formulierung der gesprochenen Antworten enthält, wobei der Ausgang der Interpretationsmittel dazu verwendet wird auf die Datenbank zuzugreifen und Sprachinformationsdaten aus dieser zu erhalten,
dadurch gekennzeichnet, daß das System weiterhin Extraktionsmittel zum Extrahieren der Satzrhythmusinformation aus dem Spracheingang; Mittel zum Erzielen einer Dialektinformation aus der Satzrhythmusinformation; und eine Einrichtung für eine Textin-Sprache-Umsetzung zum Umsetzen der Sprachinformationsdaten, die aus der Datenbank erhalten worden sind, in eine gesprochene Antwort unter Verwendung der Dialektinformation aufweist, wobei der Dialekt der gesprochenen Antwort an denjenigen des Spracheingangs angepaßt wird, wobei die Mittel zum Erzielen der Dialektinformation aus der Sprachrhythmusinformation aufweisen erste Analysemittel zum Bestimmen des Intonationsmusters aus dem Grundton des Spracheingangs und dabei der Maximum- und Minimum-Werte der Grundtonkurve und deren entsprechende Positionen; zweite Analysemittel zum Bestimmen des Intonationsmusters der Grundtonkurve des Sprachmodells und dabei der Maximum- und Minimum-Werte der Grundtonkurve und ihrer entsprechenden Positionen; Vergleichsmittel zum Vergleichen des Intonationsmusters des Spracheingangs mit dem Intonationsmuster des Sprachmodells zum Identifizieren der Zeitdifferenz zwischen dem Auftreten der Maximum- und Minimum-Werte der Grundtonkurven des Spracheingangs in Relation zu den Maximum- und Minimum-Werten der Grundtonkurve des Sprachmodells, wobei die identifizierte Zeitdifferenz die Dialektcharakteristika des Spracheingangs anzeigt.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 1,
dadurch gekennzeichnet, daß die Spracherkennungsmittel für das Identifizieren einer Anzahl von Phonemen aus einem Segment des Spracheingangs angepaßt sind und Interpretationsmittel zum Interpretieren der Phoneme als möglicher Worte oder Wortkombinationen aufweisen, um ein Sprachmodell zu errichten, wobei das Sprachmodell Wortund Satzakzente gemäß einem standardisierten Muster für die Sprache des Spracheingangs hat.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 2,
dadurch gekennzeichnet, daß die Satzrhythmusinformation, die aus dem Spracheingang extrahiert worden ist, die Grundtonkurve des Spracheingangs ist.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 3,
dadurch gekennzeichnet, daß die Zeitdifferenz in Relation zu einem Intonationsmuster-Referenzpunkt bestimmt wird.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 4,
dadurch gekennzeichnet, daß der Intonationsmuster-Referenzpunkt, bezogen auf welchen die Zeitdifferenz gemessen wird, der Punkt ist, an welchem eine Konsonant-/Vokal-Grenze auftritt.
System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche,
dadurch gekennzeichnet, daß das System ferner Mittel zum Erzielen von Information über die Satzakzente aus der Satzrhythmusinformation aufweist.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 6,
dadurch gekennzeichnet, daß die Spracherkennungsmittel Überprüfungsmittel zum lexikalen Überprüfen der Worte in dem Sprachmodell und zum Überprüfen der Syntax der Phrasen in dem Sprachmodell haben, wobei die Worte und Phrasen, welche linguistisch nicht möglich sind, aus dem Sprachmodell ausgeschlossen werden, in dem die Überprüfungsmittel so ausgebildet sind, daß sie die orthographische und phonetische Transkription der Worte in dem Sprachmodell überprüfen, indem die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation, Information bezüglich der Art betonter Silben und Information bezüglich des Ortes des Sekundärakzentes aufweist.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 7,
dadurch gekennzeichnet, daß die Akzentinformation sich auf den tonalen Wortakzent I und Akzent II bezieht.
System zur Sprache-in-Sprache-Umsetzung nach einem der Ansprüche 6 bis 8,
dadurch gekennzeichnet, daß die Satzakzentinformation bei der Interpretation des Inhaltes des erkanntes Spracheingangs verwendet wird.
System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche,
dadurch gekennzeichnet, daß Satzbetonungen bestimmt werden und bei der Interpretation des Inhaltes des erkannten Spracheingangs verwendet werden.
System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche,
dadurch gekennzeichnet, daß das System ferner Dialogverwaltungsmittel zum Verwalten eines Dialogs mit der Datenbank hat, wobei der Dialog durch die Interpretationsmittel initiiert wird.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 11,
dadurch gekennzeichnet, daß der Dialog mit der Datenbank zu der Anwendung von Sprachinformationsdaten bei den Text-in-Sprache-Umsetzungsmitteln führt.
System zur Sprache-in-Sprache-Umsetzung nach Anspruch 10 oder 11,
dadurch gekennzeichnet, daß der Dialog mit der Datenbank unter Verwendung von SQL durchgeführt wird.
Mit Stimme antwortendes Kommunikationssystem mit einem System zur Sprache-in-Sprache-Umsetzung nach einem der vorstehenden Ansprüche.
Verfahren zum Schaffen einer gesprochenen Antwort auf einen Spracheingang in einem mit Stimme antwortenden Kommunikationssystem, wobei die Antwort einen Dialekt aufweist, der an denjenigen des Spracheingangs angepaßt ist, wobei das Verfahren die Schritte aufweist Erkennen und Interpretieren des Spracheingangs und Verwenden der Interpretation zum Erzielen von Sprachinformationsdaten aus einer Datenbank zur Verwendung bei der Formulierung der gesprochenen Antwort,
dadurch gekennzeichnet, daß das Verfahren weiterhin die Schritte aufweist Extrahieren der Satzrhythmusinformation aus dem Spracheingang, Erzielen von Dialektinformation aus der Satzrhythmusinformation und Umwandeln der Sprachinformationsdaten, die von der Datenbank erhalten worden sind, in die gesprochene Antwort unter Verwendung der Dialektinformation, die Schritte Bestimmen des Intonationsmusters des Grundtons des Spracheingangs und dadurch der Maximum- und Minimum-Werte der Grundtonkurve und deren entsprechende Positionen; Bestimmen des Intonationsmusters der Grundtonkurve des Sprachmodells und dadurch der Maximum- und Minimumwerte der Grundtonkurve und deren jeweiliger Positionen; Vergleichen des Intonationsmusters des Spracheingangs mit dem Intonationsmuster des Sprachmodells, um die Zeitdifferenz zwischen dem Auftreten des Maximum- und Minimum-Wertes der Grundtonkurven für den Spracheingang in Relation zu den Maximum- und Minimum-Werten der Grundtonkurve des Sprachmodells zu identifizieren, wobei die identifizierte Zeitdifferenz die Dialektcharakteristika des Spracheingangs anzeigt.
Verfahren nach Anspruch 15,
dadurch gekennzeichnet, daß die Erkennung und Interpretation die Schritte Identifizieren einer Anzahl von Phonemen aus einem Segment des Spracheingangs und Interpretieren der Phoneme als mögliche Worte oder Wortkombinationen zum Errichten eines Sprachmodells aufweist, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisierten Muster für die Sprache des Spracheingangs hat.
Verfahren nach Anspruch 16,
dadurch gekennzeichnet, daß die Satzrhythmusinformation, welche aus dem Spracheingang extrahiert worden ist, die Grundtonkurve des Spracheingangs ist.
Verfahren nach Anspruch 15,
dadurch gekennzeichnet, daß die Zeitdifferenz in Relation zu einem Intonationsmuster-Referenzpunkt bestimmt wird.
Verfahren nach Anspruch 18,
dadurch gekennzeichnet, daß der Intonationsmuster-Referenzpunkt, gegenüber welchem die Zeitdifferenz gemessen wird, der Punkt ist, an welchem eine Konsonant/Vokal-Grenze auftritt.
Verfahren nach einem der Ansprüche 15 bis 19,
gekennzeichnet durch den Schritt Erzielen von Information bezüglich der Satzakzente aus der Satzrhythmusinformation.
Verfahren nach Anspruch 20,
dadurch gekennzeichnet, daß die Worte in dem Sprachmodell lexikalisch überprüft werden, daß die Phrasen in dem Sprachmodell bezüglich der Syntax überprüft werden, daß die Worte und Phrasen, die linguistisch nicht möglich sind, aus dem Sprachmodell ausgeschlossen werden, daß die orthographische und phonetische Transkription der Worte in dem Sprachmodell überprüft wird und daß die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation der Art betonter Silben und Information bezüglich des Ortes des Sekundärakzentes aufweist.
Verfahren nach Anspruch 21,
dadurch gekennzeichnet, daß die Akzentinformation sich auf den tonalen Wortakzent I und Akzent II bezieht.
Verfahren nach einem der Ansprüche 20 bis 22,
gekennzeichnet durch den Schritt Verwenden der Satzakzentinformation bei der Interpretation des Spracheingangs.
Verfahren nach einem der Ansprüche 15 bis 23,
gekennzeichnet durch den Schritt Initiieren eines Dialoges mit der Datenbank zum Erzielen von Sprachinformationsdaten zum Formulieren der gesprochenen Antwort, wobei der Dialog auf die Interpretation des Spracheingangs folgend, initiiert wird.
Verfahren nach Anspruch 24,
dadurch gekennzeichnet, daß der Dialog mit der Datenbank zu der Anwendung von Sprachinformationsdaten bei den Text-in-Sprache-Umsetzungsmitteln führt.
Mit Stimme antwortendes Kommunikationssystem, das so ausgebildet ist, daß es ein Verfahren wie in einem der Ansprüche 15 bis 25 beansprucht, verwenden kann, um eine gesprochene Antwort auf einen Spracheingang am System zu erzeugen.