-
Die Erfindung betrifft ein Verfahren und ein System zum Durchführen einer Sprachübertragung.
-
Ein System zur Sprachübertragung (TTS – text to speech) kann u. a. in einem Kraftfahrzeug in verschiedenen Anwendungsbereichen eingesetzt werden, beispielsweise bei einem Navigationssystem, zum Vorlesen von E-Mails oder zur globalen sprachgestützten Bedienung. Dabei ist jedoch kein nach außen geführtes, inhärentes Maß, das eine Prädiktion einer Qualität der Sprachübertragung zulässt, vorgesehen. Weiterhin sind keine derartigen Systeme bekannt, die die Qualität der Sprachübertragung selbstständig ermitteln und Informationen darüber ausgeben, wie gut die Sprachübertragung vermutlich klingen wird. Somit kann keine Differenzierung eines Verhaltens des Systems in Abhängigkeit von einer geschätzten Qualität der Sprachübertragung durchgeführt werden. So ist beispielsweise denkbar, dass der Text ”Hauptstraße” ebenso synthetisiert und wiedergegeben wird wie der Text ”Rue d'Argenteuil”, auch wenn letzterer wahrscheinlich sehr schlecht klingen wird. Dem Kunden eines Premium-Fahrzeugs werden damit zum Teil lächerliche Sprachübertragungen präsentiert, wobei beispielsweise der geschriebene Text ”Grace Kelly” als ”Grahke Kehli” wiedergegeben wird.
-
Diesbezüglich sind aus der Druckschrift
US 2002/184029 A1 eine Vorrichtung und ein Verfahren zur Sprachsynthese bekannt. Eine Lokal- und Fern-Rückmeldungsschleife für eine Sprachsynthese sind in der Druckschrift
US 2010/312564 A1 beschrieben. Eine verteilte Spracheinheit für ein TTS-System ist aus der Druckschrift
US 2014/200894 A1 bekannt.
-
Vor diesem Hintergrund werden ein Verfahren und ein System mit den Merkmalen der unabhängigen Patentansprüche vorgestellt. Ausführungsformen des Verfahrens und des Systems gehen aus den abhängigen Patentansprüchen und der Beschreibung hervor.
-
Das erfindungsgemäße Verfahren ist zum Durchführen einer Sprachübertragung vorgesehen. Dabei wird eine geschriebene Version eines Texts, der mindestens einen Ausdruck, bspw. mindestens eine Silbe bzw. mindestens einen Laut, umfasst, bereitgestellt. Die geschriebene Version wird von mindestens einer Datenverarbeitungseinheit unter Nutzung einer ersten Transkription bei einer ersten Sprachsynthese in eine gesprochene Version des Texts übertragen bzw. transkribiert, die für den mindestens einen Ausdruck bzw. Laut eine erste Variante für eine akustische Aussprache umfasst. Für diese erste Variante der Aussprache des mindestens einen Ausdrucks bzw. Lauts wird eine Qualitätskontrolle durchgeführt, mit der ein Wert für eine Qualität der ersten Variante für die Aussprache des mindestens einen Ausdrucks bzw. Lauts vorhergesagt wird. Falls für die erste Variante der Aussprache des mindestens einen Ausdrucks bzw. Lauts eine Qualität innerhalb der gebildeten gesprochenen Version des Texts geringer als ein hierfür vorgesehener Schwellwert ist, wird für den mindestens einen Ausdruck bzw. Laut eine alternative zweite Variante für die Aussprache ermittelt, die bei der Ausgabe dieses mindestens einen Ausdrucks bzw. Lauts verwendet wird.
-
Das Verfahren wird für einen Text, der mehrere Ausdrücke umfasst, durchgeführt. Dabei wird für mindestens einen ersten Ausdruck, dessen Wert der Qualität für die erste Variante der Aussprache mindestens so groß wie der Schwellwert ist, bei der Ausgabe dieses mindestens einen ersten Ausdrucks die erste Variante verwendet. Dagegen wird für mindestens einen weiteren zweiten Ausdruck, dessen Wert der Qualität für die erste Variante der Aussprache geringer als der Schwellwert ist, bei der Ausgabe dieses mindestens einen weiteren zweiten Ausdrucks die zweite Variante verwendet.
-
In einer Ausgestaltung wird die Qualität für die jeweilige Variante der Aussprache des mindestens einen Ausdrucks anhand einer zeitlichen Länge bzw. Dauer für die Variante der Aussprache beurteilt.
-
Alternativ oder ergänzend wird die Qualität für die jeweilige Variante der Aussprache des mindestens einen Ausdrucks anhand einer Tauglichkeit zur Repräsentation eines Worts durch den mindestens einen Ausdruck beurteilt.
-
Es ist ebenfalls möglich, dass die Qualität für die jeweilige Variante der Aussprache des mindestens einen Ausdrucks anhand einer Art von Schriftzeichen, die der mindestens eine Ausdruck umfasst, beurteilt wird. In diesem Fall ist bspw. vorgesehen, dass ein Verhältnis von Vokalen zu Konsonanten innerhalb des mindestens einen Ausdrucks ermittelt wird, wobei der Wert für die Qualität umso größer ist, je größer das Verhältnis der Vokale zu den Konsonanten ist.
-
In weiterer Ausgestaltung des Verfahrens ist es möglich, dass für die ermittelte zweite Variante zur Aussprache des Ausdrucks bzw. des Lauts ebenfalls eine Qualitätskontrolle durchgeführt wird. Falls dabei festgestellt wird, dass für die zweite Variante der Aussprache des mindestens einen Ausdrucks eine Qualität innerhalb der gebildeten gesprochenen Version des Texts ebenfalls geringer als ein hierfür vorgesehener Schwellwert ist, für den mindestens einen Ausdruck eine alternative dritte Variante für die Aussprache ermittelt wird, die bei der Ausgabe dieses mindestens einen Ausdrucks verwendet wird. Im Rahmen des Verfahrens können so viele Varianten zur Aussprache des mindestens einen Ausdrucks ermittelt und auf ihre Qualität hin kontrolliert werden, bis eine Variante ermittelt wird, für deren Aussprache ein Wert für die Qualität prognostiziert wird, der mindestens so groß wie der Schwellwert hierfür ist.
-
In Ausgestaltung des Verfahrens kann zum Bilden der alternativen zweiten Variante für die Aussprache des mindestens einen Ausdrucks eine alternative zweite Transkription bei einer zweiten Sprachsynthese verwendet werden. Es ist auch möglich, dass die alternative zweite Variante für die Aussprache des mindestens einen Ausdrucks und somit des Lauts aus einer Datenbank ermittelt wird. Weiterhin besteht die Möglichkeit, dass der mindestens eine Ausdruck zum Bereitstellen der alternativen zweiten Variante für die Aussprache buchstabiert und somit artikuliert wird.
-
Das erfindungsgemäße System ist zum Durchführen einer Sprachübertragung ausgebildet und umfasst mindestens eine Datenverarbeitungseinheit. Dabei ist vorgesehen, dass eine geschriebene Version eines Texts, der mindestens einen Ausdruck, bspw. mindestens eine Silbe bzw. mindestens einen Laut, umfasst, dem System bereitgestellt wird. Die mindestens eine Datenverarbeitungseinheit ist dazu ausgebildet, die geschriebene Version in eine gesprochene Version des Texts unter Nutzung einer ersten Transkription zu übertragen bzw. zu transkribieren, die für den mindestens einen Ausdruck eine erste Variante für eine Aussprache umfasst. Die mindestens eine Datenverarbeitungseinheit ist weiterhin dazu ausgebildet, für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualitätskontrolle durchzuführen, mit der ein Wert für eine Qualität der ersten Variante für die Aussprache des mindestens einen Ausdrucks vorhergesagt wird. Falls ermittelt wird, dass für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualität innerhalb der gebildeten gesprochenen Version des Texts geringer als ein hierfür vorgesehener Schwellwert ist, ist die mindestens eine Datenverarbeitungseinheit dazu ausgebildet, für den mindestens einen Ausdruck eine alternative zweite Variante für die Aussprache zu ermitteln, die bei der Ausgabe dieses mindestens einen Ausdrucks verwendet wird.
-
Mit dem Verfahren ist ein Qualitätsindikator für eine Sprachübertragung von geschriebenem zu gesprochenem Text (TTS, text to speech) zur Beeinflussung der Aussprache vorgesehen.
-
Dabei ist das System zur Sprachübertragung in der Lage, eine selbständige Vorhersage bzw. Prädiktion für die Qualität des ausgegebenen gesprochenen Texts zu treffen. Ein vorhersagbarer Wert für die Qualität wird über eine Schnittstelle zugänglich gemacht und ist somit verwertbar. In Abhängigkeit des vorhergesagten Werts für die Qualität ist u. a. eine Beeinflussung eines Folgeverhaltens möglich. Falls der für die Qualität geschätzte Wert des Texts schlecht sein sollte und somit eine schlechte geschätzte Ausgabequalität aufweist, kann mindestens eine Folgemaßnahme ergriffen werden.
-
So ist bei einer ersten derartigen Folgemaßnahme vorgesehen, zum Bereitstellen einer Ausweichvariante bzw. Rückfallebene (fallback) auf einen definierten Text, bspw. einen Satz, mit einer bekannten Qualität zurückzugreifen, wobei es sich auch um eine Sprachaufzeichnung handeln kann. Bei einer zweiten Folgemaßnahme wird als Ausweichvariante eine alternative Sprachübertragung bereitgestellt. Bei einer dritten Folgemaßnahme werden bei einer Ausweichvariante unterschiedliche alternative Phonetiken bzw. Aussprachen des Texts vorgeschlagen. Als weitere Folgemaßnahme kann über eine Verbindung zum Internet eine Online-Sprachübertragung, bspw. über ein Audio-Streaming oder über einen mit Phonemen angereicherten Text, angestoßen werden. Außerdem ist als eine mögliche Folgemaßnahme denkbar, ein akustisches Signal, bspw. einen Signalton (Audio), bereitzustellen. Im Fall einer Ganzwort-Eingabe des Texts über ein Eingabegerät, bspw. ein berührungsempfindliches Touchpad, kann unter Umsetzung einer weiteren Folgemaßnahme in einen Buchstabiermodus gewechselt werden. Weiterhin kann als Folgemaßnahme vorgesehen sein, den Nutzer ebenfalls durch ein Signal darauf hinzuweisen, langsamer zu sprechen.
-
Durch den im Rahmen des Verfahrens bereitgestellten Wert bzw. eine Maßangabe über die Qualität der Sprachübertragung sind Unterscheidungen für mindestens eine zu ergreifende Folgemaßnahme und somit für ein Folgeverhalten anhand des Werts möglich. So kann beispielweise bei einem geringen Wert für die Qualität, sofern durch das System ermittelt wird, dass die gesprochene Ausgabe des Texts nicht optimal klingen wird, auf diese gesprochene Ausgabe verzichtet werden. Dabei kann eine alternative gesprochene Ausgabe des Texts in bekannter Qualität abgespielt werden. Dadurch kann das System flexibel konstruiert werden, wobei mit unterschiedlichsten Eingaben des ursprünglichen geschriebenen Texts fehlertolerant umgegangen werden kann.
-
Weiterhin sind verschiedene Varianten zur Umsetzung des Verfahrens denkbar. Üblicherweise basiert die Sprachübertragung (TTS) auf einem Regelwerk zur Wortbildung in einer jeweiligen Sprache und einer Suche nach einer optimalen Kombination von Lautelementen aus einer Datenbank der Sprachübertragung zu einer Aussprache für den Text. Dabei umfasst die Sprachübertragung bereits inhärent ein Qualitätskriterium, Ergebnisse von ermittelten Werten für die Qualität werden nach außen gemeldet, wobei ein Nutzer darüber informiert werden kann. Außerdem können die Ergebnisse auch intern verwendet werden.
-
Das System zur Sprachübertragung basiert auf einer Verkettung von Lauten, die unterschiedliche Längen aufweisen können, so kann als Laut und somit als Ausdruck bspw. ”ch” von ”Pferdchen”, ”Apfel” von ”Apfelbaum” oder einfach nur ”a” von ”Wal” oder ”Wall” verwendet und/oder berücksichtigt werden. Hier besteht die Möglichkeit, Laute unterschiedlicher Dauer, von extrem kurzen Lauten bis sehr langen Lauten, die vollständige Wörter abbilden, zu verwenden und/oder zu berücksichtigen. Je länger ein Laut dargestellt ist, bspw. ”Dampfschifffahrt”, desto besser ist er geeignet, im Rahmen der Sprachübertragung ein konkretes Wort wiederzugeben, desto schlechter ist dieser Laut in einem beliebigen Kontext verwendbar. So können nachfolgende Laute berücksichtigt werden:
- – ”mode”
- – ”de”
- – ”r”
- – ”n”
-
Soll als Text das Wort ”Mode” mit diesen Lauten dargestellt werden, ist natürlich der erste Laut ”mode” dafür am besten geeignet und wird vermutlich auch die beste Qualität aufweisen. Soll nun aber als Text das Wort ”Morden” synthetisiert werden, kann der Laut ”mode” nicht verwendet werden, stattdessen muss auf die nächstkürzeren bzw. nächstkleineren Laute zurückgegriffen werden: ”mo”-”r”-”de”-”n”, aus denen dann das Wort zusammengesetzt wird.
-
Das Verfahren kann in Ausgestaltung mindestens eine der drei nachfolgend beschriebenen Maßnahmen umfassen, dabei kann jeweils eine Maßnahme eigenständig realisiert werden. Es ist jedoch auch möglich, dass mehrere Maßnahmen kombiniert werden und demnach auch zusammen operieren können. Mindestens eine der beschriebenen Maßnahmen kann bei einer Ausgestaltung des Verfahrens berücksichtigt werden. Alle Maßnahmen haben gemein, dass ein vorhergesagter Wert für die Qualität ermittelt und an die Umgebung des Systems übermittelt wird.
-
Eine Maßnahme bzw. Möglichkeit zur Bewertung einer Qualität eines Lauts ist, die zeitliche Dauer bzw. Länge des Lauts als Maß heranzuziehen.
-
Eine Art und somit u. a. die Dauer eines Lauts ist in der Regel von einem Kontext abhängig. So wird bspw. ”modern” im Sinn von ”verwesen” anders als im Sinn von ”neu”, ”aktuell” oder ”zeitgemäß” ausgesprochen. Weiterhin hängt die Art auch von einer Satzart, bspw. Fragesatz oder Ausrufesatz und von einer Stellung eines Worts, das den Laut umfasst, innerhalb eines Satzes ab. Entsprechend werden die Laute annotiert, damit dem System zur Sprachübertragung später eine Information darüber bereitgestellt wird, welchem Quellmaterial ein jeweiliger Laut entnommen wurde, so kann im Fall des Lauts ”pf” berücksichtigt werden, ob dieser in einem letzten Wort eines Fragesatzes oder in der Mitte des Worts auftaucht.
-
Bei einer weiteren Maßnahme bzw. Möglichkeit zur Bewertung der Qualität wird also eine Tauglichkeit eines Lauts zur Repräsentation eines Worts dargestellt und/oder berücksichtigt, wobei ermittelt wird, wie gut der annotierte Laut mit anderen Lauten innerhalb eines jeweils aktuell zu verarbeitenden Texts harmoniert.
-
So kann eine Quelle für einen Laut den Text ”magst du Seepferdchen?” bereitstellen, woraus der Text: ”Seepferdchen finde ich nicht gut.” zu synthetisieren ist.
-
In diesem Fall ist der Laut aus der Quelle nicht für die Sprachübertragung des Textes geeignet, da eine Tonlage in der ersten Silbe entsprechend einer Frage im Deutschen nach oben geht, wohingegen im zu synthetisierenden Text jedoch eine neutrale Tonlage benötigt wird. Sollte das System zur Sprachübertragung nun keinen Laut ”See” aus einem neutralen Satz aufweisen, kann es entweder nur den Laut ”See” aus dem Fragekontext nehmen, oder auf einen kürzeren bzw. kleineren Laut zurückweichen.
-
Eine dritte Maßnahme bzw. Möglichkeit ergibt sich durch Eigenheiten einer jeweils verwendeten Sprache. So sind im Deutschen beispielsweise Wörter ohne Vokale äußerst unüblich. Auch ist es nicht üblich, Wörter mit Buchstaben eines fremden Alphabets, bspw. polnisch, tschechisch, französisch oder spanisch zu sprechen. Solche sprach-unüblichen Erscheinungen für eine Aussprache eines Ausdrucks und somit eines Lauts können über einen Algorithmus als Ausnahmen erfasst und verwertbar gemacht werden.
-
Weitere Vorteile und Ausgestaltungen der Erfindung ergeben sich aus der Beschreibung und den beiliegenden Zeichnungen.
-
Es versteht sich, dass die voranstehend genannten und die nachstehend noch zu erläuternden Merkmale nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der vorliegenden Erfindung zu verlassen.
-
Die Erfindung ist anhand von Ausführungsformen in der Zeichnung schematisch dargestellt und wird unter Bezugnahme auf die Zeichnung schematisch und ausführlich beschrieben.
-
1 zeigt in schematischer Darstellung eine Ausführungsform des erfindungsgemäßen Systems bei Durchführung einer Ausführungsform des erfindungsgemäßen Verfahrens.
-
Die in 1 schematisch dargestellte Ausführungsform des erfindungsgemäßen Systems 2 umfasst eine Datenverarbeitungseinheit 4 zum Durchführen einer Sprachübertragung bzw. einer Sprachsynthese. Diese Datenverarbeitungseinheit 4 umfasst ein Transkriptionsmodul 6, eine Datenbank 8 mit einem Lautinventar für zu artikulierende bzw. auszusprechende Ausdrücke und ein phonoakustisches Modul 10 zum Bereitstellen einer phonoakustischen Stufe. Als weitere Komponenten weist das System 2 ein Sprachausgabemodul 14 und ein Qualitätsvorhersagemodul 16 auf, die jeweils über eine weitere Datenverarbeitungseinheit bereitgestellt und/oder umgesetzt werden.
-
Bei Durchführung der Ausführungsform des Verfahrens wird eine geschriebene Version 12 eines Texts, der mindestens einen Ausdruck, bspw. mindestens eine Silbe bzw. mindestens einen Laut umfasst, der Datenverarbeitungseinheit 4 bereitgestellt. Die geschriebene Version 12 wird von dem Transkriptionsmodul 6 unter Nutzung einer ersten Transkription in eine gesprochene Version des Texts übertragen bzw. transkribiert. Hierbei wird mit dem phonoakustischen Modul 10 unter Berücksichtigung des Lautinventars aus der Datenbank 8 für den mindestens einen Ausdruck eine erste Variante für eine Aussprache, hier eine erste Variante für einen Laut zum Artikulieren des mindestens einen Ausdrucks ermittelt.
-
Darauf wird von einem Sprachausgabemodul 14 unter Berücksichtigung der ersten Variante für die Aussprache des mindestens einen Ausdrucks eine gesprochene Version des Texts erzeugt. Außerdem wird mit einem Qualitätsvorhersagemodul 16 für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualitätskontrolle durchgeführt, mit der ein Wert für eine Qualität der ersten Variante für die Aussprache des mindestens einen Ausdrucks vorhergesagt wird. Dabei wird der Wert für die Qualität von einem Vergleichsmodul 18 mit einem hierfür vorgesehenen Schwellwert verglichen.
-
Falls sich hierbei ergibt, dass der Wert der Qualität für die erste Variante der Aussprache des mindestens einen Ausdrucks mindestens so groß wie der hierfür vorgesehene Schwellwert ist, wird diese erste Variante über einen Lautsprecher 20 akustisch ausgegeben.
-
Falls sich jedoch bei der Qualitätskontrolle ergibt, dass die Qualität für die erste Variante der Aussprache des mindestens einen Ausdrucks geringer als der hierfür vorgesehene Schwellwert ist, wird unter Durchführung einer Folgemaßnahme 22 für den mindestens einen Ausdruck eine alternative zweite Variante 24 für die Aussprache ermittelt, für die ebenfalls eine Qualitätskontrolle 26 durchgeführt wird, wobei ein Wert für die zweite Variante 24 für die Aussprache des Ausdrucks ebenfalls mit einem hierfür vorgesehenen Schwellwert verglichen wird. Falls der Wert der zweiten Variante 24 mindestens so groß wie der Schwellwert ist, wird diese zweite Variante über den Lautsprecher 20 akustisch ausgegeben. Das System 2 umfasst ein weiteres Modul 28, das hier mindestens eine weitere Option repräsentiert. Mit dem Modul 28 ist es u. a. möglich, eine definierte Audiodatei (”Alternativd1.wav”) abzuspielen, das System 2 in einen Buchstabiermodus (”SpellModeActive = 1”) zu versetzen oder eine andere Reaktion durchzuführen.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- US 2002/184029 A1 [0003]
- US 2010/312564 A1 [0003]
- US 2014/200894 A1 [0003]