DE102016009296A1 - Verfahren zum Durchführen einer Sprachübertragung - Google Patents

Verfahren zum Durchführen einer Sprachübertragung Download PDF

Info

Publication number
DE102016009296A1
DE102016009296A1 DE102016009296.3A DE102016009296A DE102016009296A1 DE 102016009296 A1 DE102016009296 A1 DE 102016009296A1 DE 102016009296 A DE102016009296 A DE 102016009296A DE 102016009296 A1 DE102016009296 A1 DE 102016009296A1
Authority
DE
Germany
Prior art keywords
expression
variant
pronunciation
quality
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102016009296.3A
Other languages
English (en)
Inventor
Gerd Gruchalski
Jan Dusik
Niels Kunstmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audi AG
Original Assignee
Audi AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audi AG filed Critical Audi AG
Priority to DE102016009296.3A priority Critical patent/DE102016009296A1/de
Publication of DE102016009296A1 publication Critical patent/DE102016009296A1/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Durchführen einer Sprachübertragung, bei dem eine geschriebene Version (12) eines Texts, der mindestens einen Ausdruck umfasst, bereitgestellt wird, wobei die geschriebene Version (12) in eine gesprochene Version des Texts unter Nutzung einer Transkription transkribiert wird, die für den mindestens einen Ausdruck eine erste Variante für eine Aussprache umfasst, wobei für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualitätskontrolle durchgeführt wird, mit der ein Wert für eine Qualität der ersten Variante für die Aussprache des mindestens einen Ausdrucks vorhergesagt wird, wobei für den Fall, dass für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualität geringer als ein hierfür vorgesehener Schwellwert ist, für den mindestens einen Ausdruck eine alternative zweite Variante für die Aussprache ermittelt wird, die bei der Ausgabe dieses mindestens einen Ausdrucks verwendet wird.

Description

  • Die Erfindung betrifft ein Verfahren und ein System zum Durchführen einer Sprachübertragung.
  • Ein System zur Sprachübertragung (TTS – text to speech) kann u. a. in einem Kraftfahrzeug in verschiedenen Anwendungsbereichen eingesetzt werden, beispielsweise bei einem Navigationssystem, zum Vorlesen von E-Mails oder zur globalen sprachgestützten Bedienung. Dabei ist jedoch kein nach außen geführtes, inhärentes Maß, das eine Prädiktion einer Qualität der Sprachübertragung zulässt, vorgesehen. Weiterhin sind keine derartigen Systeme bekannt, die die Qualität der Sprachübertragung selbstständig ermitteln und Informationen darüber ausgeben, wie gut die Sprachübertragung vermutlich klingen wird. Somit kann keine Differenzierung eines Verhaltens des Systems in Abhängigkeit von einer geschätzten Qualität der Sprachübertragung durchgeführt werden. So ist beispielsweise denkbar, dass der Text ”Hauptstraße” ebenso synthetisiert und wiedergegeben wird wie der Text ”Rue d'Argenteuil”, auch wenn letzterer wahrscheinlich sehr schlecht klingen wird. Dem Kunden eines Premium-Fahrzeugs werden damit zum Teil lächerliche Sprachübertragungen präsentiert, wobei beispielsweise der geschriebene Text ”Grace Kelly” als ”Grahke Kehli” wiedergegeben wird.
  • Diesbezüglich sind aus der Druckschrift US 2002/184029 A1 eine Vorrichtung und ein Verfahren zur Sprachsynthese bekannt. Eine Lokal- und Fern-Rückmeldungsschleife für eine Sprachsynthese sind in der Druckschrift US 2010/312564 A1 beschrieben. Eine verteilte Spracheinheit für ein TTS-System ist aus der Druckschrift US 2014/200894 A1 bekannt.
  • Vor diesem Hintergrund werden ein Verfahren und ein System mit den Merkmalen der unabhängigen Patentansprüche vorgestellt. Ausführungsformen des Verfahrens und des Systems gehen aus den abhängigen Patentansprüchen und der Beschreibung hervor.
  • Das erfindungsgemäße Verfahren ist zum Durchführen einer Sprachübertragung vorgesehen. Dabei wird eine geschriebene Version eines Texts, der mindestens einen Ausdruck, bspw. mindestens eine Silbe bzw. mindestens einen Laut, umfasst, bereitgestellt. Die geschriebene Version wird von mindestens einer Datenverarbeitungseinheit unter Nutzung einer ersten Transkription bei einer ersten Sprachsynthese in eine gesprochene Version des Texts übertragen bzw. transkribiert, die für den mindestens einen Ausdruck bzw. Laut eine erste Variante für eine akustische Aussprache umfasst. Für diese erste Variante der Aussprache des mindestens einen Ausdrucks bzw. Lauts wird eine Qualitätskontrolle durchgeführt, mit der ein Wert für eine Qualität der ersten Variante für die Aussprache des mindestens einen Ausdrucks bzw. Lauts vorhergesagt wird. Falls für die erste Variante der Aussprache des mindestens einen Ausdrucks bzw. Lauts eine Qualität innerhalb der gebildeten gesprochenen Version des Texts geringer als ein hierfür vorgesehener Schwellwert ist, wird für den mindestens einen Ausdruck bzw. Laut eine alternative zweite Variante für die Aussprache ermittelt, die bei der Ausgabe dieses mindestens einen Ausdrucks bzw. Lauts verwendet wird.
  • Das Verfahren wird für einen Text, der mehrere Ausdrücke umfasst, durchgeführt. Dabei wird für mindestens einen ersten Ausdruck, dessen Wert der Qualität für die erste Variante der Aussprache mindestens so groß wie der Schwellwert ist, bei der Ausgabe dieses mindestens einen ersten Ausdrucks die erste Variante verwendet. Dagegen wird für mindestens einen weiteren zweiten Ausdruck, dessen Wert der Qualität für die erste Variante der Aussprache geringer als der Schwellwert ist, bei der Ausgabe dieses mindestens einen weiteren zweiten Ausdrucks die zweite Variante verwendet.
  • In einer Ausgestaltung wird die Qualität für die jeweilige Variante der Aussprache des mindestens einen Ausdrucks anhand einer zeitlichen Länge bzw. Dauer für die Variante der Aussprache beurteilt.
  • Alternativ oder ergänzend wird die Qualität für die jeweilige Variante der Aussprache des mindestens einen Ausdrucks anhand einer Tauglichkeit zur Repräsentation eines Worts durch den mindestens einen Ausdruck beurteilt.
  • Es ist ebenfalls möglich, dass die Qualität für die jeweilige Variante der Aussprache des mindestens einen Ausdrucks anhand einer Art von Schriftzeichen, die der mindestens eine Ausdruck umfasst, beurteilt wird. In diesem Fall ist bspw. vorgesehen, dass ein Verhältnis von Vokalen zu Konsonanten innerhalb des mindestens einen Ausdrucks ermittelt wird, wobei der Wert für die Qualität umso größer ist, je größer das Verhältnis der Vokale zu den Konsonanten ist.
  • In weiterer Ausgestaltung des Verfahrens ist es möglich, dass für die ermittelte zweite Variante zur Aussprache des Ausdrucks bzw. des Lauts ebenfalls eine Qualitätskontrolle durchgeführt wird. Falls dabei festgestellt wird, dass für die zweite Variante der Aussprache des mindestens einen Ausdrucks eine Qualität innerhalb der gebildeten gesprochenen Version des Texts ebenfalls geringer als ein hierfür vorgesehener Schwellwert ist, für den mindestens einen Ausdruck eine alternative dritte Variante für die Aussprache ermittelt wird, die bei der Ausgabe dieses mindestens einen Ausdrucks verwendet wird. Im Rahmen des Verfahrens können so viele Varianten zur Aussprache des mindestens einen Ausdrucks ermittelt und auf ihre Qualität hin kontrolliert werden, bis eine Variante ermittelt wird, für deren Aussprache ein Wert für die Qualität prognostiziert wird, der mindestens so groß wie der Schwellwert hierfür ist.
  • In Ausgestaltung des Verfahrens kann zum Bilden der alternativen zweiten Variante für die Aussprache des mindestens einen Ausdrucks eine alternative zweite Transkription bei einer zweiten Sprachsynthese verwendet werden. Es ist auch möglich, dass die alternative zweite Variante für die Aussprache des mindestens einen Ausdrucks und somit des Lauts aus einer Datenbank ermittelt wird. Weiterhin besteht die Möglichkeit, dass der mindestens eine Ausdruck zum Bereitstellen der alternativen zweiten Variante für die Aussprache buchstabiert und somit artikuliert wird.
  • Das erfindungsgemäße System ist zum Durchführen einer Sprachübertragung ausgebildet und umfasst mindestens eine Datenverarbeitungseinheit. Dabei ist vorgesehen, dass eine geschriebene Version eines Texts, der mindestens einen Ausdruck, bspw. mindestens eine Silbe bzw. mindestens einen Laut, umfasst, dem System bereitgestellt wird. Die mindestens eine Datenverarbeitungseinheit ist dazu ausgebildet, die geschriebene Version in eine gesprochene Version des Texts unter Nutzung einer ersten Transkription zu übertragen bzw. zu transkribieren, die für den mindestens einen Ausdruck eine erste Variante für eine Aussprache umfasst. Die mindestens eine Datenverarbeitungseinheit ist weiterhin dazu ausgebildet, für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualitätskontrolle durchzuführen, mit der ein Wert für eine Qualität der ersten Variante für die Aussprache des mindestens einen Ausdrucks vorhergesagt wird. Falls ermittelt wird, dass für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualität innerhalb der gebildeten gesprochenen Version des Texts geringer als ein hierfür vorgesehener Schwellwert ist, ist die mindestens eine Datenverarbeitungseinheit dazu ausgebildet, für den mindestens einen Ausdruck eine alternative zweite Variante für die Aussprache zu ermitteln, die bei der Ausgabe dieses mindestens einen Ausdrucks verwendet wird.
  • Mit dem Verfahren ist ein Qualitätsindikator für eine Sprachübertragung von geschriebenem zu gesprochenem Text (TTS, text to speech) zur Beeinflussung der Aussprache vorgesehen.
  • Dabei ist das System zur Sprachübertragung in der Lage, eine selbständige Vorhersage bzw. Prädiktion für die Qualität des ausgegebenen gesprochenen Texts zu treffen. Ein vorhersagbarer Wert für die Qualität wird über eine Schnittstelle zugänglich gemacht und ist somit verwertbar. In Abhängigkeit des vorhergesagten Werts für die Qualität ist u. a. eine Beeinflussung eines Folgeverhaltens möglich. Falls der für die Qualität geschätzte Wert des Texts schlecht sein sollte und somit eine schlechte geschätzte Ausgabequalität aufweist, kann mindestens eine Folgemaßnahme ergriffen werden.
  • So ist bei einer ersten derartigen Folgemaßnahme vorgesehen, zum Bereitstellen einer Ausweichvariante bzw. Rückfallebene (fallback) auf einen definierten Text, bspw. einen Satz, mit einer bekannten Qualität zurückzugreifen, wobei es sich auch um eine Sprachaufzeichnung handeln kann. Bei einer zweiten Folgemaßnahme wird als Ausweichvariante eine alternative Sprachübertragung bereitgestellt. Bei einer dritten Folgemaßnahme werden bei einer Ausweichvariante unterschiedliche alternative Phonetiken bzw. Aussprachen des Texts vorgeschlagen. Als weitere Folgemaßnahme kann über eine Verbindung zum Internet eine Online-Sprachübertragung, bspw. über ein Audio-Streaming oder über einen mit Phonemen angereicherten Text, angestoßen werden. Außerdem ist als eine mögliche Folgemaßnahme denkbar, ein akustisches Signal, bspw. einen Signalton (Audio), bereitzustellen. Im Fall einer Ganzwort-Eingabe des Texts über ein Eingabegerät, bspw. ein berührungsempfindliches Touchpad, kann unter Umsetzung einer weiteren Folgemaßnahme in einen Buchstabiermodus gewechselt werden. Weiterhin kann als Folgemaßnahme vorgesehen sein, den Nutzer ebenfalls durch ein Signal darauf hinzuweisen, langsamer zu sprechen.
  • Durch den im Rahmen des Verfahrens bereitgestellten Wert bzw. eine Maßangabe über die Qualität der Sprachübertragung sind Unterscheidungen für mindestens eine zu ergreifende Folgemaßnahme und somit für ein Folgeverhalten anhand des Werts möglich. So kann beispielweise bei einem geringen Wert für die Qualität, sofern durch das System ermittelt wird, dass die gesprochene Ausgabe des Texts nicht optimal klingen wird, auf diese gesprochene Ausgabe verzichtet werden. Dabei kann eine alternative gesprochene Ausgabe des Texts in bekannter Qualität abgespielt werden. Dadurch kann das System flexibel konstruiert werden, wobei mit unterschiedlichsten Eingaben des ursprünglichen geschriebenen Texts fehlertolerant umgegangen werden kann.
  • Weiterhin sind verschiedene Varianten zur Umsetzung des Verfahrens denkbar. Üblicherweise basiert die Sprachübertragung (TTS) auf einem Regelwerk zur Wortbildung in einer jeweiligen Sprache und einer Suche nach einer optimalen Kombination von Lautelementen aus einer Datenbank der Sprachübertragung zu einer Aussprache für den Text. Dabei umfasst die Sprachübertragung bereits inhärent ein Qualitätskriterium, Ergebnisse von ermittelten Werten für die Qualität werden nach außen gemeldet, wobei ein Nutzer darüber informiert werden kann. Außerdem können die Ergebnisse auch intern verwendet werden.
  • Das System zur Sprachübertragung basiert auf einer Verkettung von Lauten, die unterschiedliche Längen aufweisen können, so kann als Laut und somit als Ausdruck bspw. ”ch” von ”Pferdchen”, ”Apfel” von ”Apfelbaum” oder einfach nur ”a” von ”Wal” oder ”Wall” verwendet und/oder berücksichtigt werden. Hier besteht die Möglichkeit, Laute unterschiedlicher Dauer, von extrem kurzen Lauten bis sehr langen Lauten, die vollständige Wörter abbilden, zu verwenden und/oder zu berücksichtigen. Je länger ein Laut dargestellt ist, bspw. ”Dampfschifffahrt”, desto besser ist er geeignet, im Rahmen der Sprachübertragung ein konkretes Wort wiederzugeben, desto schlechter ist dieser Laut in einem beliebigen Kontext verwendbar. So können nachfolgende Laute berücksichtigt werden:
    • – ”mode”
    • – ”de”
    • – ”r”
    • – ”n”
  • Soll als Text das Wort ”Mode” mit diesen Lauten dargestellt werden, ist natürlich der erste Laut ”mode” dafür am besten geeignet und wird vermutlich auch die beste Qualität aufweisen. Soll nun aber als Text das Wort ”Morden” synthetisiert werden, kann der Laut ”mode” nicht verwendet werden, stattdessen muss auf die nächstkürzeren bzw. nächstkleineren Laute zurückgegriffen werden: ”mo”-”r”-”de”-”n”, aus denen dann das Wort zusammengesetzt wird.
  • Das Verfahren kann in Ausgestaltung mindestens eine der drei nachfolgend beschriebenen Maßnahmen umfassen, dabei kann jeweils eine Maßnahme eigenständig realisiert werden. Es ist jedoch auch möglich, dass mehrere Maßnahmen kombiniert werden und demnach auch zusammen operieren können. Mindestens eine der beschriebenen Maßnahmen kann bei einer Ausgestaltung des Verfahrens berücksichtigt werden. Alle Maßnahmen haben gemein, dass ein vorhergesagter Wert für die Qualität ermittelt und an die Umgebung des Systems übermittelt wird.
  • Eine Maßnahme bzw. Möglichkeit zur Bewertung einer Qualität eines Lauts ist, die zeitliche Dauer bzw. Länge des Lauts als Maß heranzuziehen.
  • Eine Art und somit u. a. die Dauer eines Lauts ist in der Regel von einem Kontext abhängig. So wird bspw. ”modern” im Sinn von ”verwesen” anders als im Sinn von ”neu”, ”aktuell” oder ”zeitgemäß” ausgesprochen. Weiterhin hängt die Art auch von einer Satzart, bspw. Fragesatz oder Ausrufesatz und von einer Stellung eines Worts, das den Laut umfasst, innerhalb eines Satzes ab. Entsprechend werden die Laute annotiert, damit dem System zur Sprachübertragung später eine Information darüber bereitgestellt wird, welchem Quellmaterial ein jeweiliger Laut entnommen wurde, so kann im Fall des Lauts ”pf” berücksichtigt werden, ob dieser in einem letzten Wort eines Fragesatzes oder in der Mitte des Worts auftaucht.
  • Bei einer weiteren Maßnahme bzw. Möglichkeit zur Bewertung der Qualität wird also eine Tauglichkeit eines Lauts zur Repräsentation eines Worts dargestellt und/oder berücksichtigt, wobei ermittelt wird, wie gut der annotierte Laut mit anderen Lauten innerhalb eines jeweils aktuell zu verarbeitenden Texts harmoniert.
  • So kann eine Quelle für einen Laut den Text ”magst du Seepferdchen?” bereitstellen, woraus der Text: ”Seepferdchen finde ich nicht gut.” zu synthetisieren ist.
  • In diesem Fall ist der Laut aus der Quelle nicht für die Sprachübertragung des Textes geeignet, da eine Tonlage in der ersten Silbe entsprechend einer Frage im Deutschen nach oben geht, wohingegen im zu synthetisierenden Text jedoch eine neutrale Tonlage benötigt wird. Sollte das System zur Sprachübertragung nun keinen Laut ”See” aus einem neutralen Satz aufweisen, kann es entweder nur den Laut ”See” aus dem Fragekontext nehmen, oder auf einen kürzeren bzw. kleineren Laut zurückweichen.
  • Eine dritte Maßnahme bzw. Möglichkeit ergibt sich durch Eigenheiten einer jeweils verwendeten Sprache. So sind im Deutschen beispielsweise Wörter ohne Vokale äußerst unüblich. Auch ist es nicht üblich, Wörter mit Buchstaben eines fremden Alphabets, bspw. polnisch, tschechisch, französisch oder spanisch zu sprechen. Solche sprach-unüblichen Erscheinungen für eine Aussprache eines Ausdrucks und somit eines Lauts können über einen Algorithmus als Ausnahmen erfasst und verwertbar gemacht werden.
  • Weitere Vorteile und Ausgestaltungen der Erfindung ergeben sich aus der Beschreibung und den beiliegenden Zeichnungen.
  • Es versteht sich, dass die voranstehend genannten und die nachstehend noch zu erläuternden Merkmale nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der vorliegenden Erfindung zu verlassen.
  • Die Erfindung ist anhand von Ausführungsformen in der Zeichnung schematisch dargestellt und wird unter Bezugnahme auf die Zeichnung schematisch und ausführlich beschrieben.
  • 1 zeigt in schematischer Darstellung eine Ausführungsform des erfindungsgemäßen Systems bei Durchführung einer Ausführungsform des erfindungsgemäßen Verfahrens.
  • Die in 1 schematisch dargestellte Ausführungsform des erfindungsgemäßen Systems 2 umfasst eine Datenverarbeitungseinheit 4 zum Durchführen einer Sprachübertragung bzw. einer Sprachsynthese. Diese Datenverarbeitungseinheit 4 umfasst ein Transkriptionsmodul 6, eine Datenbank 8 mit einem Lautinventar für zu artikulierende bzw. auszusprechende Ausdrücke und ein phonoakustisches Modul 10 zum Bereitstellen einer phonoakustischen Stufe. Als weitere Komponenten weist das System 2 ein Sprachausgabemodul 14 und ein Qualitätsvorhersagemodul 16 auf, die jeweils über eine weitere Datenverarbeitungseinheit bereitgestellt und/oder umgesetzt werden.
  • Bei Durchführung der Ausführungsform des Verfahrens wird eine geschriebene Version 12 eines Texts, der mindestens einen Ausdruck, bspw. mindestens eine Silbe bzw. mindestens einen Laut umfasst, der Datenverarbeitungseinheit 4 bereitgestellt. Die geschriebene Version 12 wird von dem Transkriptionsmodul 6 unter Nutzung einer ersten Transkription in eine gesprochene Version des Texts übertragen bzw. transkribiert. Hierbei wird mit dem phonoakustischen Modul 10 unter Berücksichtigung des Lautinventars aus der Datenbank 8 für den mindestens einen Ausdruck eine erste Variante für eine Aussprache, hier eine erste Variante für einen Laut zum Artikulieren des mindestens einen Ausdrucks ermittelt.
  • Darauf wird von einem Sprachausgabemodul 14 unter Berücksichtigung der ersten Variante für die Aussprache des mindestens einen Ausdrucks eine gesprochene Version des Texts erzeugt. Außerdem wird mit einem Qualitätsvorhersagemodul 16 für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualitätskontrolle durchgeführt, mit der ein Wert für eine Qualität der ersten Variante für die Aussprache des mindestens einen Ausdrucks vorhergesagt wird. Dabei wird der Wert für die Qualität von einem Vergleichsmodul 18 mit einem hierfür vorgesehenen Schwellwert verglichen.
  • Falls sich hierbei ergibt, dass der Wert der Qualität für die erste Variante der Aussprache des mindestens einen Ausdrucks mindestens so groß wie der hierfür vorgesehene Schwellwert ist, wird diese erste Variante über einen Lautsprecher 20 akustisch ausgegeben.
  • Falls sich jedoch bei der Qualitätskontrolle ergibt, dass die Qualität für die erste Variante der Aussprache des mindestens einen Ausdrucks geringer als der hierfür vorgesehene Schwellwert ist, wird unter Durchführung einer Folgemaßnahme 22 für den mindestens einen Ausdruck eine alternative zweite Variante 24 für die Aussprache ermittelt, für die ebenfalls eine Qualitätskontrolle 26 durchgeführt wird, wobei ein Wert für die zweite Variante 24 für die Aussprache des Ausdrucks ebenfalls mit einem hierfür vorgesehenen Schwellwert verglichen wird. Falls der Wert der zweiten Variante 24 mindestens so groß wie der Schwellwert ist, wird diese zweite Variante über den Lautsprecher 20 akustisch ausgegeben. Das System 2 umfasst ein weiteres Modul 28, das hier mindestens eine weitere Option repräsentiert. Mit dem Modul 28 ist es u. a. möglich, eine definierte Audiodatei (”Alternativd1.wav”) abzuspielen, das System 2 in einen Buchstabiermodus (”SpellModeActive = 1”) zu versetzen oder eine andere Reaktion durchzuführen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 2002/184029 A1 [0003]
    • US 2010/312564 A1 [0003]
    • US 2014/200894 A1 [0003]

Claims (10)

  1. Verfahren zum Durchführen einer Sprachübertragung, bei dem eine geschriebene Version (12) eines Texts, der mindestens einen Ausdruck umfasst, bereitgestellt wird, wobei die geschriebene Version (12) in eine gesprochene Version des Texts unter Nutzung einer Transkription transkribiert wird, die für den mindestens einen Ausdruck eine erste Variante für eine Aussprache umfasst, wobei für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualitätskontrolle durchgeführt wird, mit der ein Wert für eine Qualität der ersten Variante für die Aussprache des mindestens einen Ausdrucks vorhergesagt wird, wobei für den Fall, dass für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualität geringer als ein hierfür vorgesehener Schwellwert ist, für den mindestens einen Ausdruck eine alternative zweite Variante für die Aussprache ermittelt wird, die bei der Ausgabe dieses mindestens einen Ausdrucks verwendet wird.
  2. Verfahren nach Anspruch 1, das für einen Text, der mehrere Ausdrücke umfasst, durchgeführt wird, wobei für mindestens einen Ausdruck, dessen Wert der Qualität für die erste Variante der Aussprache mindestens so groß wie der Schwellwert ist, bei der Ausgabe dieses mindestens einen Ausdrucks die erste Variante verwendet wird, wohingegen für mindestens einen weiteren Ausdruck, dessen Wert der Qualität für die erste Variante der Aussprache geringer als der Schwellwert ist, bei der Ausgabe dieses mindestens einen weiteren Ausdrucks die zweite Variante verwendet wird.
  3. Verfahren nach Anspruch 1 oder 2, bei dem die Qualität für die Variante der Aussprache des mindestens einen Ausdrucks anhand einer Länge der Variante beurteilt wird.
  4. Verfahren nach einem der voranstehenden Ansprüche, bei dem die Qualität für die Variante der Aussprache des mindestens einen Ausdrucks anhand einer Tauglichkeit zur Repräsentation eines Worts durch den mindestens einen Ausdruck beurteilt wird.
  5. Verfahren nach einem der voranstehenden Ansprüche, bei dem die Qualität für die Variante der Aussprache des mindestens einen Ausdrucks anhand einer Art von Schriftzeichen, die der mindestens eine Ausdruck umfasst, beurteilt wird.
  6. Verfahren nach Anspruch 5, bei dem ein Verhältnis von Vokalen zu Konsonanten innerhalb des mindestens einen Ausdrucks ermittelt wird, wobei der Wert für die Qualität umso größer ist, je größer das Verhältnis der Vokale zu den Konsonanten ist.
  7. Verfahren nach einem der voranstehenden Ansprüche, bei dem zum Bilden der alternativen zweiten Variante für die Aussprache des mindestens einen Ausdrucks eine alternative zweite Transkription verwendet wird.
  8. Verfahren nach einem der Ansprüche 1 bis 6, bei dem die alternative zweite Variante für die Aussprache des mindestens einen Ausdrucks aus einer Datenbank (8) ermittelt wird.
  9. Verfahren nach einem der Ansprüche 1 bis 6, bei dem der mindestens eine Ausdruck zum Bereitstellen der alternativen zweiten Variante für die Aussprache buchstabiert wird.
  10. System zum Durchführen einer Sprachübertragung, das mindestens eine Datenverarbeitungseinheit (4) aufweist, wobei vorgesehen ist, dass eine geschriebene Version eines Texts, der mindestens einen Ausdruck umfasst, bereitgestellt wird, wobei die mindestens eine Datenverarbeitungseinheit (4) dazu ausgebildet ist, die geschriebene Version in eine gesprochene Version des Texts unter Nutzung einer ersten Transkription zu transkribieren, die für den mindestens einen Ausdruck eine erste Variante für eine Aussprache umfasst, wobei die mindestens eine Datenverarbeitungseinheit (4) dazu ausgebildet ist, für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualitätskontrolle durchzuführen, mit der ein Wert für eine Qualität der ersten Variante für die Aussprache des mindestens einen Ausdrucks vorhergesagt wird, wobei die mindestens eine Datenverarbeitungseinheit (4) dazu ausgebildet ist, für den Fall, dass für die erste Variante der Aussprache des mindestens einen Ausdrucks eine Qualität geringer als ein hierfür vorgesehener Schwellwert ist, für den mindestens einen Ausdruck eine alternative zweite Variante für die Aussprache zu ermitteln, die bei der Ausgabe dieses mindestens einen Ausdrucks verwendet wird.
DE102016009296.3A 2016-07-20 2016-07-20 Verfahren zum Durchführen einer Sprachübertragung Ceased DE102016009296A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102016009296.3A DE102016009296A1 (de) 2016-07-20 2016-07-20 Verfahren zum Durchführen einer Sprachübertragung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102016009296.3A DE102016009296A1 (de) 2016-07-20 2016-07-20 Verfahren zum Durchführen einer Sprachübertragung

Publications (1)

Publication Number Publication Date
DE102016009296A1 true DE102016009296A1 (de) 2017-03-09

Family

ID=58055205

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016009296.3A Ceased DE102016009296A1 (de) 2016-07-20 2016-07-20 Verfahren zum Durchführen einer Sprachübertragung

Country Status (1)

Country Link
DE (1) DE102016009296A1 (de)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184029A1 (en) 2001-06-04 2002-12-05 Hewlett Packard Company Speech synthesis apparatus and method
US6725199B2 (en) * 2001-06-04 2004-04-20 Hewlett-Packard Development Company, L.P. Speech synthesis apparatus and selection method
US20100312564A1 (en) 2009-06-05 2010-12-09 Microsoft Corporation Local and remote feedback loop for speech synthesis
US20130080172A1 (en) * 2011-09-22 2013-03-28 General Motors Llc Objective evaluation of synthesized speech attributes
US20140200894A1 (en) 2013-01-14 2014-07-17 Ivona Software Sp. Z.O.O. Distributed speech unit inventory for tts systems
US20140222415A1 (en) * 2013-02-05 2014-08-07 Milan Legat Accuracy of text-to-speech synthesis

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184029A1 (en) 2001-06-04 2002-12-05 Hewlett Packard Company Speech synthesis apparatus and method
US6725199B2 (en) * 2001-06-04 2004-04-20 Hewlett-Packard Development Company, L.P. Speech synthesis apparatus and selection method
US20100312564A1 (en) 2009-06-05 2010-12-09 Microsoft Corporation Local and remote feedback loop for speech synthesis
US20130080172A1 (en) * 2011-09-22 2013-03-28 General Motors Llc Objective evaluation of synthesized speech attributes
US20140200894A1 (en) 2013-01-14 2014-07-17 Ivona Software Sp. Z.O.O. Distributed speech unit inventory for tts systems
US20140222415A1 (en) * 2013-02-05 2014-08-07 Milan Legat Accuracy of text-to-speech synthesis

Similar Documents

Publication Publication Date Title
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE60020773T2 (de) Graphische Benutzeroberfläche und Verfahren zur Änderung von Aussprachen in Sprachsynthese und -Erkennungssystemen
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
EP1611568B1 (de) Dreistufige einzelworterkennung
EP1892700A1 (de) Verfahren zur Spracherkennung und Sprachwiedergabe
DE60316912T2 (de) Verfahren zur Spracherkennung
DE102007052055A1 (de) Kraftfahrzeug mit einer Sprachschnittstelle
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE102014114845A1 (de) Verfahren zur Interpretation von automatischer Spracherkennung
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE112006000225T5 (de) Dialogsystem und Dialogsoftware
DE112014007287T5 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
Watson The realization of final/t/in Liverpool English
Ten Bosch et al. Modeling language-learners' errors in understanding casual speech
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE60219030T2 (de) Verfahren zur mehrsprachigen Spracherkennung
DE102016009296A1 (de) Verfahren zum Durchführen einer Sprachübertragung
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese
DE69723449T2 (de) Verfahren und system zur sprache-in-sprache-umsetzung
Altakhaineh et al. Phonologically conditioned morphologically process in Modern Standard Arabic: An analysis of Al-ibdal'substitution'in ftaʕal pattern using prosodic morphology

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R230 Request for early publication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final