EP1344211B1

EP1344211B1 - Vorrichtung und verfahren zur differenzierten sprachausgabe

Info

Publication number: EP1344211B1
Application number: EP01991746A
Authority: EP
Inventors: Georg Obert; Klaus Bengler
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2000-12-20
Filing date: 2001-11-21
Publication date: 2011-02-16
Anticipated expiration: 2021-11-21
Also published as: US7698139B2; DE50115798D1; US20030225575A1; EP1344211A1; WO2002050815A1; JP2004516515A; DE10063503A1; ES2357700T3

Abstract

Die Vorrichtung und das Verfahren dienen zu einer differenzierten Sprachausgabe. Die in einem Fahrzeug vorhandenen Systeme wie Bordcomputer, Navigationssystem u. a. sind mit einer Sprachausgabevorrichtung verbindbar, wobei Sprachausgaben von verschiedenen Systemen über Stimmcharakteristika unterscheidbar sind.

Description

Die vorliegende Erfindung betrifft eine Vorrichtung zur differenzierten Sprachausgabe bzw Spracherzeugung und ein zugehöriges Verfahren, Systeme zur Verwendung mit der Sprachausgabevorrichtung und Kombinationen einer Sprachausgabevorrichtung mit mindestens zwei Systemen, insbesondere zum Einsatz in einem Fahrzeug.
In Fahrzeugen werden einzelne Systeme eingesetzt, die über eine akustische Mensch-Maschine-Schnittstelle zur Sprachausgabe verfügen. Bei diesen Systemen ist jeweils ein Sprachausgabemodul direkt zugeordnet. Die verwendeten sprachproduzierenden Verfahren beruhen meist auf Puls-Code-Modulation (= PCM), wobei eine nachfolgende Komprimierung (z. B. MPEG) angeschlossen sein kann. Andere Systeme verwenden Sprachsyntheseverfahren, die hauptsächlich über das Zusammenstellen von Silbensegmenten (Phoneme) Worte und Sätze bilden (Signalmanipulation).
Bei den genannten Sprachausgabeverfahren besteht auch eine Sprecherabhängigkeit, die es erfordert, bei Erweiterung des Wort- oder Textumfanges immer wieder den gleichen menschlichen Sprecher für Aufnahmen zu bemühen. Des weiteren erfordern PCM-Verfahren genauso wie eine qualitativ hochwertige Phonemsynthese durch Signalmanipulation erheblichen Speicherplatz, um Texte oder Silbensegmente abzulegen. Bei beiden Verfahren nimmt der Speicherplatz noch erheblich zu, wenn unterschiedliche Landessprachen ausgegeben werden sollen.
Weiterhin sind Verfahren bekannt, die auf einer Vollsynthese der Sprache beruhen. Bekannt sind insbesondere Verfahren, die den menschlichen Vokaltrakt als elektrische Entsprechung umsetzen und mit einem Tongenerator und mehreren nachgeschalteten Filtern arbeiten (Quelle-Filter-Modell). Ein nach diesem Verfahren arbeitendes Gerät ist ein sog. Formantsynthetisator (z. B. KLATTALK). Ein solcher Formantsynthetisator hat den Vorteil, daß die stimmcharakteristischen Eigenschaften beeinflußbar sind.
Die EP-A-0 901 000 beschreibt eine Vorrichtung zur Verarbeitung von Nachrichten mit Empfangsmitteln zum Empfang von versandten Nachrichten, einem Speicher zur Speicherung einer Mehrzahl von unterschiedlichen Artikulierungen (tone of voice bzw. voice tone) und Zuweisungsmitteln zur Zuweisung einer Artikulierung aus der Mehrzahl der Artikulierungen zu mindestens einer empfangenen Nachricht. Eine andere Artikulierung wird einer anderen empfangenen Nachricht zugewiesen und Ausgabemittel geben die erste Nachricht mit einer ersten Artikulierung und die zweite Nachricht mit einer zweiten Artikulierung aus.
RUTLEDGE J C ET AL: "SYNTHESIZING STYLED SPEECH USING THE KLATT SYNTHESIZER" PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS; SPEECH; AND SIGNAL PROCESSING (ICASSP): DETROIT; MAY 9 -12, 1995. SPEECH, NEW YORK, IEEE, US, Bd. 1, 9. Mai 1995 (1995-05-09), Seiten 648-651, XP000658077 ISBN: 0-7803-2432-3 beschäftigt sich allgemein mit der Arbeitsweise und den experimentellen Erfahrungen beim Aufbau von vokaltraktbasierten Stimmensynthesizern (Klatt-Syntheziser) zur Synthese von verschiedenen Sprachstilen mit verschiedenen Stimmcharakteristiken.
Der Erfindung liegt insbesondere die Aufgabe zugrunde, eine zentrale Sprachausgabevorrichtung mit einer Vielzahl von Systemen bereitzustellen, bei der ein einziger Sprachgenerator mit kleinem Parameterspeicher von den Systemen angesteuert wird.
Diese Aufgabe wird vorrichtungsmäßig mit den Merkmalen des Patentanspruchs 1 gelöst. Vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche.
Die Erfindung hat den Vorteil, dass mit einer einzigen Sprachausgabeeinrichtung bzw. Sprachsyntheseeinrichtung Sprachausgaben für verschiedene Systeme möglich sind, wobei jedes System durch stimmcharakteristische Unterschiede identifizierbar ist.
Gemäß einer bevorzugten Ausführungsform der Erfindung ist für jedes System ein Parametersatz zugeordnet, der von der Sprachsyntheseeinrichtung bei einer Sprachausgabe von diesem System verwendet wird. Beispielsweise wird ein erster Parametersatz für einen Bordcomputer, ein zweiter Parametersatz für ein Navigationssystem, ein dritter Parametersatz für Verkehrsinformationen, ein vierter Parametersatz für ein TTS-System (Text to Speech-System), wie E-Mail und ein oder mehrere weitere Parametersätze für zusätzliche Systeme bereitgestellt.
Abhängig von dem zugeordneten Parametersatz erzeugt die Sprachsyntheseeinrichtung die Sprachausgabe beispielsweise mit einer weichen weiblichen Stimme, z.B. für Sprachausgaben eines Navigationssystems, oder mit einer harten männlichen Bassstimme, z. B. für die Sprachausgabe von Verkehrsmeldungen.
Gemäß einer bevorzugten Ausführungsform der Erfindung wird ein Verfahren und eine Vorrichtung für eine Vollsynthese der Sprache verwendet, vorzugsweise ein Formantsynthetisator. Dabei werden die Steuerparameter für den Synthetisator in Klassen geteilt. Eine Klasse von dynamischen Parametern steuert die Artikulation, wie die Bewegung des Sprachtraktes beim Sprechen. Eine zweite Klasse von statischen Parametern steuert sprechercharakteristische Merkmale, wie die Generatorgrundfrequenz und feststehende Formanten, die bei einem Kind, einer Frau oder einem männlichen Sprecher durch die unterschiedliche geometrische Dimension des Sprachtraktes gebildet werden.
Bei einem erweiterten Modell des Formantsynthetisators ist eine getrennte Generierung von stimmhaften und stimmlosen Lauten möglich. Dabei können durch weitere Parameter zusätzliche Resonatoren oder Dämpfungsglieder eingeschaltet oder die dynamischen Parameter für die Artikulation beeinflußt werden.
Die erfindungsgemäße Vorrichtung bzw. das erfindungsgemäße Verfahren ist insbesondere einsetzbar in Systemen eines Fahrzeuges. Jedes System hat für eine Sprachausgabe zwei Möglichkeiten, die Sprachausgabe zu steuern. Die erste Möglichkeit der Sprachausgabe umfaßt das Senden einer Ausgabe von Steuerbefehlen für die Sprachartikulation, wobei die Abfolge der Steuerparameter für Wörter, Sätze und Satzfolgen im System abgespeichert sind. Die zweite Möglichkeit zur Steuerung der Sprachausgabe erfolgt über eine zweite Ausgabe, die einen Parametersatz umschaltet, der für die Sprechercharakteristik bestimmend ist.
Alternativ oder zusätzlich ist es auch möglich, diesen Parameterdatensatz direkt im System zu speichern und bei einer erforderlichen Sprachausgabe den Parameterdatensatz in die Sprachsyntheseeinrichtung zu laden.
Gemäß einer weiteren bevorzugten Ausführungsform, die alternativ oder zusätzlich zu den vorstehenden Ausführungsformen einsetzbar ist, können zur Unterscheidung der Informationsquellen, d. h. der Systeme, die eine Sprachausgabe durchführen, die Generator- und Formantparameter zusätzlich dynamisch geändert werden. Dadurch können hörbare Unterschiede in der Prosodie erreicht werden, wie die Dauer und/oder Betonung von Silbensegmenten und/oder der Satzmelodie. Im speziellen kann eine prosodische Modulation in Abhängigkeit z. B. von einer Verkehrslage oder einer Verkehrssituation für die Sprachausgabe von Ansagetexten genutzt werden. Schließlich kann die Brisanz einer Information durch Modulation der Stimme ausgedrückt werden.
Die Erfindung hat den Vorteil, daß z. B. in einem Fahrzeug nur ein einziger Sprachgenerator mit kleinem Parameterspeicher von mehreren Informationsquellen angesteuert werden kann. Die Informationsquellen können dabei mit unterschiedlichen Stimmcharakteristiken ausgestattet werden.
Bei dem Einsatz einer Vollsyntheseeinrichtung, z. B. einer Vokaltrakt-Syntheseeinrichtung ergibt sich, daß das Verfahren sprecherunabhängig ist und keine hochwertigen Studioaufzeichnungen benötigt werden.
Bei einem erweiterten Formantsynthetisator kann erfindungsgemäß auch emotionaler Ausdruck in der Stimme mitgegeben werden.
Durch vorgefertigte Parameterschablonen kann sehr einfach die Stimmcharakteristik verändert werden. Das Verfahren eignet sich auch für die Umsetzung freier Texte in Sprache (Text to Speech), z. B. das Vorlesen von E-Mail.
Die Erfindung wird nachstehend anhand eines Ausführungsbeispiels und der Zeichnung näher erläutert.
Fig. 1 zeigt eine Prinzipdarstellung einer bevorzugten Ausführungsform der Erfindung zur differenzierten Sprachausgabe mit mehreren erfindungsgemäßen Systemen.
Die in Fig. 1 dargestellte bevorzugte Ausführungsform der Erfindung weist eine Sprachausgabeeinheit 1 mit einer Sprachsyntheseeinrichtung 10 auf, die in dem Beispiel ein Vokaltraktsynthesemodul ist und auf einer Vollsynthese der Sprache beruht. Beispielsweise kann ein Formantsynthetisator wie KLATTALK eingesetzt werden. Die Sprachsyntheseeinrichtung 10 ist mit einem Verstärker 12 verbunden, dessen Ausgang 14 ein Audiosignal liefert, das über einen Lautsprecher (nicht dargestellt) Sprache ausgibt. Der Sprachsyntheseeinrichtung 10 sind N Parametersätze 21, 22 bis 2N zugeordnet, die in dem gezeigten Beispiel in einem Speicher 20 der Sprachausgabeeinheit 1 gespeichert sind. Weiterhin sind N Systeme 31, 32 bis 3N gezeigt, die jeweils über eine Datenverbindung, wie einzelne Leitungen, ein Bussystem oder Datenkanäle, mit der Sprachausgabeeinheit 1 verbunden sind. Jedes System kann über die Sprachausgabeeinheit eine Sprachausgabe durchführen. Im einzelnen ist ein Bordcomputer 31 mit einem zugehörigen Parametersatz für den Bordcomputer 21, ein Navigationssystem 32 mit einem zugehörigen Parametersatz für die Navigation 22, ein Verkehrsinformationssystem 33 mit einem zugehörigen Parametersatz für die Verkehrsinformation 23, ein E-Mail-System wie TTS-System 34 mit einem zugehörigen Parametersatz für E-Mail 24 vorhanden. Es können weitere Systeme 3N mit einem jeweiligen zugeordneten Parametersatz 2N vorgesehen werden. In dem gezeigten Beispiel ist es möglich, unter Verwendung einer einzigen Sprachausgabeeinheit 1 das Navigationssystem 32 zum Beispiel mit einer weichen weiblichen Stimme sprechen zu lassen, die durch den Parametersatz für das Navigationssystem 22 bestimmt ist. Weiter kann beispielsweise für Verkehrsmeldungen ein Parametersatz 23 vorgesehen sein, mit dem eine harte männliche Baßstimme bei der Sprachausgabe verwendet wird.
Die Reihenfolge der Sprachausgaben kann zeitlich nacheinander erfolgen entsprechend dem Eingang des Auftrags zur Sprachausgabe von den Systemen. Vorzugsweise werden Informationen mit höherer Priorität, z.B. Verkehrsinformationen bei Gefahrsituationen wie Falschfahrer zuerst per Sprachausgabe ausgegeben. Besonders bevorzugt werden Informationen mit höchster Priorität, z.B. Informationen vom Bordcomputer über Fehlfunktionen des Fahrzeuges oder einsetzende Fahrbahnglätte sofort ausgegeben, wobei eine laufende Sprachausgabe unterbrochen werden kann. Die unterbrochene Sprachausgabe kann anschließend zu Ende geführt oder wiederholt werden.
Die Erfindung hat den Vorteil, daß Systeme mit akustischer Anzeige dem Fahrer, ohne ihn von seiner Aufgabe abzulenken, wie das bei visuellen Anzeigen der Fall ist, Auskunft von verschiedenen Systemen bereitzustellen. Durch den Einsatz einer Sprachsyntheseeinrichtung, die von verschiedenen Bordcomputern verwendbar ist, lassen sich Kosten sparen. Gegenüber bisher verwendeten sprachproduzierenden Verfahren bei beispielsweise Navigationssystemen läßt sich der Speicherplatzbedarf verringern.
Die Erfindung ist insbesondere in vorteilhafter Weise einsetzbar in Kraftfahrzeugen.

Claims

Vorrichtung zur differenzierten Sprachausgabe (1), die mit einem ersten System (31) und mindestens einem weiteren System (32,33 bis 3N) verbindbar ist, wobei der Sprachausgabe des ersten Systems (31) eine erste Stimmcharakteristik zugeordnet ist und der weiteren Sprachausgabe des weiteren Systems (32,33 bis 3N) eine weitere Stimmcharakteristik zugeordnet ist, die sich von der ersten Stimmcharakteristik hörbar unterscheidet, gekennzeichnet durch eine Sprachsyntheseeinrichtung (10), die Steuerparameter erhält, die eine erste Klasse von dynamischen Parametern und eine zweite Klasse von statischen Parametern aufweisen, wobei die dynamischen Parameter die Artikulation, entsprechend der Bewegung eines Sprachtraktes, und die statischen Parameter die stimmcharakteristischen Merkmale steuert, wobei die statischen Parameter für die Systeme als zugeordnete Parametersätze in einem Speicher (20) der Sprachausgabevorrichtung gespeichert sind und abhängig von einem Auswahlsignal eines Systems ein zugeordneter Parametersatz von der Sprachsyntheseeinrichtung (10) für die Sprachausgabe verwendet wird, und die dynamischen Parameter entsprechend der Abfolge von Wörtern, Sätzen und Satzfolgen in jedem System abgespeichert sind.
Vorrichtung nach Anspruch 1, wobei die statischen Parameter eine Generatorgrundfrequenz und/oder feststehende Formanten aufweisen, die vorzugsweise der unterschiedlichen geometrischen Dimension des Sprachtraktes bei einem Kind, einer Frau oder einem männlichen Sprecher entsprechen.
Vorrichtung nach Anspruch 2, wobei Generator- und/oder Formantparameter für die Sprachausgabe von verschiedenen Systemen änderbar sind und vorzugsweise hörbare Unterschiede in der Prosodie wie der Dauer und/oder Betonung von Silbensegmenten und/oder der Satzmelodie bewirkt werden.
Vorrichtung nach einem der Ansprüche 1 bis 3, wobei die Sprachsyntheseeinrichtung (10) ein Formantsynthetisator ist, mit dem die stimmcharakteristischen Eigenschaften beeinflußbar sind.
Vorrichtung nach Anspruch 4, wobei der Formantsynthetisator geeignet ist, stimmhafte und stimmlose Laute getrennt zu generieren, und wobei insbesondere durch weitere Parameter zusätzliche Resonatoren oder Dämpfungsglieder einschaltbar sind und/oder die dynamischen Parameter für die Artikulation beeinflußbar sind.
Vorrichtung nach einem der Ansprüche 1 bis 5, die Sprachsyntheseeinrichtung (10) mit einem Verstärker (12) verbunden ist und über einen Audioausgang (14) des Verstärkers (12) eine Sprachausgabe erfolgt.
System zur Verwendung mit einer Vorrichtung nach einem der Ansprüche 1 bis 6, mit einem ersten Ausgang zur Ausgabe von dynamischen Parametern und einem zweiten Ausgang zum Ausgeben eines Auswahlsignals zum Umschalten eines Parametersatzes in der Sprachausgabevorrichtung (10).
System zur Verwendung mit einer Vorrichtung nach einem der Ansprüche 1 bis 6, mit einem Ausgang zur Ausgabe von dynamischen Parametern und statischen Parametern vorzugsweise als ein Parametersatz an die Sprachausgabevorrichtung (10).
Kombination einer Vorrichtung nach einem der Ansprüche 1 bis 6 mit mindestens einem ersten und einem weiteren System, wie ein Bordcomputer (31), ein Navigationssystem (32), ein Verkehrsinformationssystem (33), ein E-Mail-System (34), oder ein Informationssystem (3N), vorzugsweise zur Verwendung in einem Fahrzeug.
Verfahren zur differenzierten Sprachausgabe unter Verwendung einer Vorrichtung nach einem der Ansprüche 1 bis 6.