DE102007043264A1

DE102007043264A1 - Vorrichtung und Verfahren zur Ausgabe eine Sprachsignals

Info

Publication number: DE102007043264A1
Application number: DE102007043264A
Authority: DE
Inventors: Harald Prof. Höge; Hartmut Dr. Wilhelm
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2007-09-11
Filing date: 2007-09-11
Publication date: 2009-03-12

Abstract

Die Erfindung betrifft eine Vorrichtung (1) zur Ausgabe eines Sprachsignals mit einer Erkennungseinheit (2) zur Erkennung von Satzgrenzen eines Sprachsignals, einem Signalspeicher (3) zum Speichern des Sprachsignals und einer Ausgabeeinheit (4) zur Ausgabe des Sprachsignals beginnend an einer erkannten Satzgrenze des Sprachsignals. Die Vorrichtung (1) eignet sich insbesondere für ein Navigations-Autoradio, das Navigationsanweisungen zwischen Sätzen einer Verkehrsdurchsage einfügt, oder für ein Diktiergerät, bei dem ein Nutzer bei der Wiedergabe einer Aufzeichnung satzweise vor- und zurückspringen kann.

Description

Die Erfindung betrifft eine Vorrichtung und ein Verfahren zur Ausgabe eines Sprachsignals beginnend an einer erkannten Satzgrenze des Sprachsignals.
Es gibt eine große Anzahl unterschiedlicher Informationsquellen, die ein Sprachsignal bereitstellen. Beispielsweise werden Nachrichten als Sprachsignal von einem Sender zu einem Signalempfänger übertragen. Bei einem derartigen Sprachsignal kann es sich auch um eine Verkehrsdurchsage handeln. Ein weiteres Beispiel für ein Sprachsignal ist ein auf einem elektronischen Datenträger abgespeichertes Hörbuch, welches ein Fahrer in seinem Fahrzeug anhört. Ein weiteres Beispiel für ein Sprachsignal ist ein durch einen Anrufbeantworter bereitgestelltes Sprachsignal oder eine durch eine Bordanlage eines Fahrzeuges erzeugte Bordansage. Beispielsweise generiert eine Navigationseinheit in einem Fahrzeug eine Bordsprachansage zur Unterstützung des Fahrers.
Während ein Nutzer ein Sprachsignal hört, kann es vorkommen, dass ein zweites Signal, beispielsweise ein zweites Sprachsignal, zur Ausgabe ansteht, das eine höhere Dringlichkeit aufweist als das aktuell vom Nutzer gehörte Sprachsignal. Bei einem Fahrzeug mit Navigationseinheit kann es beispielsweise vorkommen, dass die Navigationseinheit während des Empfangs einer Verkehrsdurchsage eine Navigationsanweisung bereitstellt. Insbesondere zu Tageszeiten mit Verkehrsverdichtungen, d. h. vor allem während des Berufsverkehrs, empfängt ein Autoradio des Fahrzeugs eine gegebenenfalls relativ lang andauernde Verkehrsdurchsage, die z. B. mehrere Staumeldungen umfasst, wobei während der Verkehrsdurchsage der Fahrer keine Navigationsanweisung von der Navigationseinheit des Fahrzeugs erhalten kann.
Bei herkömmlichen Systemen innerhalb eines Fahrzeugs wird daher eine Navigationsanweisung der laufenden Verkehrsdurchsage überlagert. Dies führt allerdings in vielen Fällen zu einem erheblichen Verständnisproblem bei dem Fahrer.
Es gibt deshalb auch die Lösung, eine laufende Verkehrsdurchsage stumm zu schalten, wenn die Navigationseinheit eine dringende Navigationsanweisung bereitstellt. Dies hat allerdings den erheblichen Nachteil, dass ein Teil der Verkehrsdurchsage vom Fahrer nicht gehört wird.
Komfortable Autoradios bieten einen Durchsagespeicher, in dem Verkehrsdurchsagen vollständig aufgezeichnet werden und im Rahmen des verfügbaren Speichers auch ältere Verkehrsdurchsagen gespeichert bleiben. Der Fahrer bzw. Nutzer kann sich zwar eine Verkehrsdurchsage, die er wegen einer Navigationsanweisung nicht vollständig hören konnte, noch einmal komplett von vorn ausgeben lassen, was allerdings ineffizient und ermüdend ist und zudem wiederum durch Unterbrechungen, beispielsweise durch eine weitere Navigationsanweisung oder eine weitere Verkehrsdurchsage, gestört werden kann.
Daher ist es eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung und ein Verfahren zur Ausgabe eines Sprachsignals zu schaffen, bei dem ein Nutzer das Sprachsignal vollständig und leicht verständlich hört, selbst wenn das Sprachsignal durch ein anderes Signal unterbrochen wird.
Diese Aufgabe wird erfindungsgemäß durch eine Vorrichtung mit den in Patentanspruch 1 angegebenen Merkmalen gelöst.
Die Erfindung schafft eine Vorrichtung zur Ausgabe eines Sprachsignals mit

– einer Erkennungseinheit zur Erkennung von Satzgrenzen eines Sprachsignals,
– einem Signalspeicher zum Speichern des Sprachsignals und mit
– einer Ausgabeeinheit zur Ausgabe des Sprachsignals, beginnend an einer erkannten Satzgrenze des Sprachsignals.

Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung ist eine Empfangseinheit zum Empfangen des Sprachsignals vorgesehen.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung weist die Empfangseinheit einen Signalempfänger zum Empfangen eines durch elektromagnetische Wellen, z. B. Funk oder Infrarot, übertragenen Sprachsignals auf.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung ist das durch den Signalempfänger empfangene Sprachsignal eine von einem Sender empfangene Verkehrsdurchsage.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung ist das Sprachsignal durch ein zweites Signal mit höherer Dringlichkeit als das Sprachsignal unterbrechbar, insbesondere an einer erkannten Satzgrenze des Sprachsignals.
In einer bevorzugten Ausführungsform ist das zweite Signal ein weiteres Sprachsignal.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung ist das zweite Signal ein akustisches Bordsignal, das durch eine Bordanlage eines Fahrzeuges erzeugt wird. Fahrzeug ist hier allgemein zu verstehen, schließt also beispielsweise Luft- und Wasserfahrzeuge ein.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung ist das akustische Bordsignal eine Bord-Sprachansage.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung ist die Bordanlage eine Navigationseinheit, die als Bord-Sprachansage eine Navigationsansage erzeugt.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung weist die Empfangseinheit ein Mikrophon zur Aufnahme eines Sprachsignals auf.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung erkennt die Erkennungseinheit Satzgrenzen des Sprachsignals anhand prosodischer Merkmale des Sprachsignals.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung erkennt die Erkennungseinheit die Satzgrenzen des Sprachsignals anhand von Sprachpausen bzw. Sprechpausen, einer Sprechgeschwindigkeit bzw. Sprechrate, einer Sprachgrundfrequenz, eines Sprachgrundfrequenzbereichs, einer Änderung des Sprachgrundfrequenzverlaufs, anhand von sich ergebenden Satzlängen und/oder anhand von vorgegebenen Wortfolgen.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung ist eine Steuereinheit vorgesehen, die nach jeder erkannten Satzgrenze des Sprachsignals einen Satzgrenzen-Marker ins Sprachsignal einfügt und das mit den Satzgrenzen-Markern versehene Sprachsignal in den Signalspeicher einschreibt oder das Einfügen von Satzgrenzen-Markern im Signalspeicher veranlasst.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung ist eine Steuereinheit vorgesehen, die in Verbindung mit dem Signalspeicher bei jeder erkannten Satzgrenze des Sprachsignals deren Zeitpunkt in einen Satzgrenzen-Referenzierungsspeicher abspeichert. In einer bevorzugten Ausführungsform erfolgt die Adressierung nicht unmittelbar über die Zeit, sondern über Speicheradressen im Signalspeicher. Deshalb wird der Zeitpunkt vorteilhaft in Form eines Zeigers im Satzgrenzen-Referenzierungsspeicher abgespeichert, wobei der Zeiger auf die Speicheradresse des Signalspeichers zeigt, die dem Zeitpunkt der Satzgrenze entspricht.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung ist ein Benutzer-Interface vorgesehen, über das Sprungbefehle zum Springen der akustischen Ausgabe an Satzgrenzen des Sprachsignals eingebbar sind.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung wird die Ausgabe des unterbrochenen Sprachsignals nach erfolgter Ausgabe des zweiten Signals mit höherer Dringlichkeit beginnend an einer erkannten Satzgrenze des Sprachsignals fortgesetzt. Wenn an einer erkannten Satzgrenze unterbrochen wurde, wird bevorzugt an dieser oder an der vorangehenden Satzgrenze beginnend fortgesetzt. Anderenfalls wird die Ausgabe bevorzugt beginnend an der letzten erkannten Satzgrenze vor der Unterbrechung fortgesetzt.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung ist ein Zeitpunkt, zu dem die Bordanlage ein akustisches Bordsignal ausgibt, derart durch die Steuereinheit steuerbar, dass die Bordanlage an einer erkannten Satzgrenze des Sprachsignals mit der Ausgabe des akustischen Bordsignals beginnt.
Bei einer Ausführungsform der erfindungsgemäßen Vorrichtung sind Informationsdaten, die von der Bordanlage des Fahrzeugs innerhalb des Bordsignales ausgegeben werden, in Abhängigkeit von einem Zeitpunkt, an dem das Bordsignal ausgegeben wird, veränderbar.
Die Erfindung schafft ferner ein Autoradio bzw. Kraftfahrzeugradio zur Ausgabe eines Sprachsignals mit
einer Erkennungseinheit zum Erkennen von Satzgrenzen eines Sprachsignals,
einem Signalspeicher zum Speichern des Sprachsignals, und mit einer Ausgabeeinheit zur Ausgabe des Sprachsignals beginnend an einer erkannten Satzgrenze des Sprachsignals.
Die Erfindung schafft ferner ein Diktiergerät zur Ausgabe eines Sprachsignals mit
einer Erkennungseinheit zur Erkennung von Satzgrenzen eines Sprachsignals,
einem Signalspeicher zum Speichern des Sprachsignals, und mit
einer Ausgabeeinheit zur Ausgabe des Sprachsignals beginnend an einer erkannten Satzgrenze des Sprachsignals. In einer bevorzugten Ausführungsform ist das Diktiergerät auch zur Aufnahme des Sprachsignals geeignet.
Die Erfindung schafft ferner ein Verfahren zur Ausgabe eines Sprachsignals mit den in Patentanspruch 21 angegebenen Merkmalen.
Die Erfindung schafft ein Verfahren zum Ausgeben eines Sprachsignals mit den Schritten:
Erkennen von Satzgrenzen des Sprachsignals, Speichern des Sprachsignals,
Ausgeben des Sprachsignals beginnend an einer erkannten Satzgrenze des Sprachsignals. Sofern das Sprachsignal wie z. B. bei einem Hörbuch bereits in einer gespeicherten Form vorliegt, besteht der Schritt des Speicherns darin, dazu die zeitliche Lage von einer oder mehreren erkannten Satzgrenzen abzuspeichern.
Bei einer Ausführungsform des erfindungsgemäßen Verfahrens wird die Ausgabe des Sprachsignals durch ein zweites Signal mit höherer Dringlichkeit unterbrochen und nach Ausgabe des zweiten Signals die Ausgabe des Sprachsignals an einer erkannten Satzgrenze des Sprachsignals fortgesetzt.
Bei einer Ausführungsform des erfindungsgemäßen Verfahrens wird die Ausgabe des Sprachsignals an einer erkannten Satzgrenze des Sprachsignals unterbrochen.
Bei einer Ausführungsform des erfindungsgemäßen Verfahrens wird das Sprachsignal empfangen, vor seiner Unterbrechung direkt akustisch ausgegeben, spätestens ab der Unterbrechung in einem Signalspeicher gespeichert und nach der Unterbrechung aus dem Signalspeicher zeitversetzt ausgegeben. Wenn an einer erkannten Satzgrenze unterbrochen wird, braucht das Sprachsignal erst ab der Unterbrechung gespeichert zu werden. Anderenfalls wird bevorzugt das Sprachsignal seit der letzten er kannten Satzgrenze gespeichert, so dass der unterbrochene Satz vollständig ausgebbar ist.
Bei einer Ausführungsform des erfindungsgemäßen Verfahrens wird das zweite Signal durch ein Sprachsignal gebildet.
Im weiteren werden bevorzugte Ausführungsformen der erfindungsgemäßen Vorrichtung und des erfindungsgemäßen Verfahrens zur Erläuterung erfindungswesentlicher Merkmale unter Bezugnahme auf die beigefügten Figuren beschrieben.
Es zeigen:
1 ein erstes Ausführungsbeispiel der erfindungsgemäßen Vorrichtung zur Ausgabe eines Sprachsignals;
2 ein zweites Ausführungsbeispiel der erfindungsgemäßen Vorrichtung zur Ausgabe eines Sprachsignals;
3A–3E Signaldiagramme zur Erläuterung verschiedener Varianten der erfindungsgemäßen Vorrichtung und des erfindungsgemäßen Verfahrens zur Ausgabe eines Sprachsignals.
In 1 ist ein erstes Ausführungsbeispiel einer erfindungsgemäßen Vorrichtung 1 zur Ausgabe eines Sprachsignals dargestellt. Bei dem in 1 dargestellten Ausführungsbeispiel handelt es sich um ein Navigations-Autoradio.
Die Vorrichtung 1 gemäß 1 weist eine Erkennungseinheit 2 zur Erkennung von Satzgrenzen eines Sprachsignals auf. Ferner enthält die Vorrichtung 1 mindestens einen Signalspeicher 3 zum Speichern oder Zwischenspeichern von Sprachsignalen. Bei dem Signalspeicher 3 handelt es sich beispielsweise um einen Verkehrsdurchsagespeicher. Die Vorrichtung 1 gemäß 1 hat ferner eine Ausgabeeinheit 4, die der Ausgabe des Sprachsig nals beginnend an einer erkannten Satzgrenze des Sprachsignals dient. Die Ausgabeeinheit 4 weist bei dem in 1 dargestellten Ausführungsbeispiel einen Audioverstärker 4A und einen Lautsprecher 4B auf.
Die Vorrichtung 1 besitzt ferner eine Empfangseinheit 5 zum Empfangen des Sprachsignals. Die Empfangseinheit 5 wird bei dem in 1 dargestellten Ausführungsbeispiel durch einen Signalempfänger gebildet, der Sprachsignale über elektromagnetische Wellen von einem Sender empfängt. Das Sprachsignal wird beispielsweise als Hörfunksignal durch die Empfangseinheit 5 empfangen. Bei dem empfangenen Sprachsignal kann es sich beispielsweise um eine von einem Sender empfangene Verkehrsdurchsage handeln. Das in 1 dargestellte Navigationsautoradio weist bei einer Ausführungsform ferner eine Bordanlage 6 auf. Bei der Bordanlage 6 handelt es sich beispielsweise um eine Navigationseinheit des Fahrzeugs, die als Bord-Sprachansagen Navigationsansagen bereitstellt.
Die Navigationseinheit 6 ist mit dem Audioverstärker 4A und mit einer Steuereinheit 2A der Erkennungseinheit 2 verbunden. An die Steuereinheit 2A der Erkennungseinheit 2 ist ferner ein Benutzer-Interface bzw. eine Mensch-Maschine-Schnittstelle 7 angeschlossen. Das Benutzer-Interface 7 benutzt ein Nutzer bzw. ein Fahrer, um Befehle zum Springen an Satzgrenzen des Sprachsignals einzugeben.
Bei dem in 1 dargestellten Ausführungsbeispiel weist die Erkennungseinheit 2 ferner eine Einheit 2B zur Erkennung einer Sprachgrundfrequenz des Sprachsignals auf. Die Einheit 2B zur Erkennung der Sprachgrundfrequenz erhält das Sprachsignal bei dem in 1 dargestellten Ausführungsbeispiel von dem Signalempfänger 5 der Vorrichtung 1.
Ferner weist die Erkennungseinheit 2 eine Sprachaktivitätserkennungseinheit 2C auf, die ebenfalls an den Signalempfänger 5 zum Empfangen des Sprachsignals angeschlossen ist.
Darüber hinaus weist die Erkennungseinheit 2 eine Einheit 2D zur Bestimmung einer Sprechrate des Sprachsignals auf, die ebenfalls an den Signalempfänger 5 angeschlossen ist.
Die Erkennungseinheit 2 erkennt Satzgrenzen des von dem Signalempfänger 5 empfangenen Sprachsignals anhand prosodischer Merkmale des empfangenen Sprachsignals. Die Erkennungseinheit 2 erkennt eine Satzgrenze innerhalb des empfangenen Sprachsignals automatisch anhand typischer prosodischer Sprach- bzw. Sprechmerkmale, wie beispielsweise der Pausenlänge einer Sprechpause, einer Sprechgeschwindigkeit oder einer Sprachgrundfrequenz.
Zur Beurteilung der Sprachgrundfrequenz wird bei einer möglichen Ausführungsform ein für den Sprecher spezifischer Frequenzbereich ermittelt, in dem sich die Sprachgrundfrequenz bewegt. An einer Satzgrenze liegt typischerweise eine relativ lange Sprechpause vor, die länger ist als eine Pause zwischen zwei Wörtern. Weiterhin verlangsamt sich die Sprechgeschwindigkeit typischerweise zum Satzende hin. Die Sprachgrundfrequenz nähert sich am Satzende einem Minimalwert des sprecherspezifischen Sprachgrundfrequenzbereichs. Zusätzlich ändert sich der Sprachgrundfrequenzverlauf, d. h. er weist eine Unstetigkeit oder unstetige Ableitung nach der Zeit auf. Alle oder ein Teil dieser prosodischen Sprachmerkmale werden durch die Erkennungseinheit 2 ausgewertet, um Satzgrenzen des Sprachsignals zu erkennen. Darüber hinaus treten am Satzende typische Wortfolgen auf, was die Erkennungseinheit 2 in einer möglichen Ausführungsform mittels Spracherkennung ebenfalls zur Erkennung von Satzgrenzen nutzen kann. Ferner kann die Erkennungseinheit 2 überprüfen, ob sich plausible bzw. typische Satzlängen zwischen den Satzgrenzen ergeben.
Bevorzugt nutzt die Erkennungseinheit 2 eine Kombination mehrerer Sprachmerkmale zur Erkennung von Satzgrenzen, weil jedes Sprachmerkmal für sich genommen keine sehr zuverlässige Erkennung von Satzgrenzen ermöglicht. So ist es beispielsweise vorteilhaft, die Sprachgrundfrequenz insbesondere in den 200 ms vor einer Sprachpause und bevorzugt zusätzlich nach einer Pause mit dem für den Sprecher üblichen Sprachgrundfrequenzbereich zu vergleichen. Zur Minimierung der technischen Komplexität werden bei bevorzugten Ausführungsformen jedoch nicht alle prosodischen Sprech- und sonstigen Merkmale ausgewertet, sondern nur eine geeignete Auswahl dieser prosodischen Sprech- und sonstigen Merkmale ermittelt.
Bei einer bevorzugten Ausführungsform wird ein sprachenunabhängiges Verfahren zur Erkennung prosodischer Sprachmerkmale eingesetzt. Elemente von Sprachcodierungsverfahren, die beispielsweise im Mobilfunk (GSM) eingesetzt werden, können zur Pausenbestimmung und zur Grundfrequenzbestimmung benutzt werden.
Die Sprechrate wird beispielsweise aus den zeitlichen Abständen von Vokalen oder Silbenkernen benachbarter Silben, die beispielsweise durch Energiemaxima charakterisiert sind, bestimmt. Alternativ werden mittels der HMM(Hidden Markov Model)-Technologie die Laute mit ihren zeitlichen Grenzen und darüber die Sprechrate bestimmt. Zur sprachenunabhängigen Erkennung der Sprechrate werden bei einer möglichen Ausführungsform multilinguale Phonemmodelle eingesetzt.
Zur Suche nach Wortfolgen, die für ein Satzende typisch sind, kann eine sprachenspezifische Erkennungseinheit mit sprachenspezifischem Lexikon und Lautmodellierung eingesetzt werden. Dabei wird beispielsweise die Wahrscheinlichkeit geschätzt, ob mehrere hintereinander folgende Worte ein Satzende bilden.
Bei dem in 1 dargestellten Ausführungsbeispiel erkennt der Radioempfänger 5 den Beginn einer Verkehrsdurchsage anhand einer Durchsagekennung und signalisiert dies der Steuereinheit 2A der Erkennungseinheit 2. Außerdem gibt er das empfangene Sprachsignal an den Signalspeicher 3 weiter, welcher das Sprachsignal speichert. Zugleich legt der Radioempfänger 5 das empfangene Sprachsignal an die Einheiten 2B, 2C, 2D zur Extraktion prosodischer Sprachmerkmale an. Die Einheiten zur Extraktion prosodischer Sprechmerkmale bestimmen die Sprachgrundfrequenz, die Sprechrate sowie eine Sprachaktivität des Sprachsignals. Zu Beginn der Verkehrsdurchsage ermittelt die Steuereinheit 2A sprecherspezifische Charakteristika, insbesondere einen sprecherspezifischen Variationsbereich der Sprachgrundfrequenz. Dabei wird die Tatsache ausgenutzt, dass eine Verkehrsdurchsage in der Regel nur von einem Sprecher gesprochen wird, so dass die Zuverlässigkeit der Schätzung im Verlauf der Verkehrsdurchsage zunimmt. In einer möglichen Ausführungsform weist die Vorrichtung auch Mittel zur Sprechererkennung auf. Dabei können sprecherspezifische Merkmale gespeichert werden, so dass bei einer erfolgreichen Sprecherkennung die zugehörigen Charakteristika noch schneller und mit noch höherer Genauigkeit zur Verfügung stehen. Dabei werden beispielsweise Charakteristika des aktuellen Sprechers mit den gespeicherten Sprecherdaten verglichen, die zum gleichen Rundfunkprogramm gehören. Bei einer bevorzugten Ausführungsform ermittelt die Steuereinheit 2A anhand des Ausgangssignals der Sprachaktivitätserkennung 2C, dem Verlauf der Sprachgrundfrequenz und der ermittelten Sprechrate die Satzgrenzen des Sprachsignals. Dabei nutzt die Einheit 2A insbesondere aus, dass eine Sprachpause an einem Satzende vergleichsweise lang ist und die Sprachgrundfrequenz vor einem Satzende bzw. vor einer Satzgrenze in etwa auf dem niedrigsten Wert sinkt, der bei dem betreffenden Sprecher vorkommt. Weiterhin nutzt die Steuereinheit 2A die Tatsache aus, dass an einer Satzgrenze die Sprachgrundfrequenz einen Frequenzsprung macht und die Sprechrate zu einem Satzende hin absinkt. Ferner nutzt die Steuereinrichtung 2A bei der Ermittlung der Satzgrenzen bevorzugt aus, dass es für Satzlängen einen typischen bzw. plausiblen Bereich gibt, innerhalb dessen nach einer bereits erkannten Satzgrenze eine neue Satzgrenze zu erwarten ist.
Nach jedem Satzende bzw. nach einer erkannten Satzgrenze des Sprachsignals veranlasst die Steuereinheit 2A bei einer möglichen Ausführungsform das Einfügen von einem Satzgrenzenmarker in das empfangene Sprachsignal, wobei Signalverzögerungen durch die Signalverarbeitung und Signallaufzeiten berücksichtigt werden.
Bei einer weiteren Ausführungsform fragt die Steuereinheit 2A am Beginn einer Verkehrsdurchsage bei der Navigationseinheit 6 an, ob eine Navigationsansage läuft oder bevorsteht, d. h. im Laufe der nächsten Sekunden zu erwarten ist. Wenn keine Navigationsanweisung bevorsteht, signalisiert die Steuereinheit 2A dem Radioempfänger 5, dass die Verkehrsdurchsage über den Audioverstärker 4A auf den Lautsprechern 4B ausgegeben werden kann.
Wenn eine Navigationsanweisung Q bevorsteht, gibt die Steuereinheit 2A in einer Ausführungsform einen Steuerbefehl an die Navigationseinheit 6, die Navigationsanweisung Q zeitlich etwas vorzuziehen, d. h. früher über die Ausgabeeinheit 4 auszugeben, als es ohne Verkehrsdurchsage erfolgt wäre, und wartet das Ende der Navigationsanweisung Q ab. Die Navigationseinheit 6 gibt nach Beenden der Navigationsanweisung ein Anzeigesignal an die Steuereinheit 2A ab, welches anzeigt, dass die Navigationsanweisung Q beendet ist. Anschließend sendet die Steuereinheit 2A ein Signal an den Signalspeicher 3, das Sprachsignal in Form der gespeicherten Verkehrsdurchsage über den Audioverstärker 4A und die Lautsprecher 4B wiederzugeben. Die Wiedergabe des Sprachsignals erfolgt zeitlich versetzt zur Rundfunkübertragung. Wenn die Verkehrsdurchsage bzw. das Sprachsignal noch nicht beendet ist, wird das Sprachsignal schon an seinem Anfang ausgelesen, während es noch aufgezeichnet wird.
Falls eine Navigationsanweisung bereits gerade ausgegeben wird, während die Verkehrsdurchsage Q beginnt, sendet die Navigationseinheit 6 der Steuereinheit 2A ein Signal, wenn die Navigationsanweisung beendet ist. Auch in diesem Fall wird die Verkehrsdurchsage Q im Signalspeicher 3 aufgezeichnet und nach dem Ende der Navigationsanweisung zeitversetzt ausgegeben.
Bei einer möglichen Ausführungsform sind verschiedenen Wortsprachansagen bzw. Navigationsansagen unterschiedliche Dringlichkeitsstufen bzw. Prioritäten zugeordnet. Diese Dringlichkeitsstufen liegen bei einer möglichen Ausführungsform je nach Inhalt der Navigationsansage so hoch, dass die Verkehrsdurchsage im laufenden Satz unterbrochen wird. Während der Verkehrsdurchsage signalisiert die Navigationseinheit 6 der Steuereinheit 2A bevorstehende sowie dringende Navigationsanweisungen. Eine dringende Navigationsanweisung kann sich beispielsweise ergeben, wenn der Kraftfahrer falsch gefahren ist oder wenn eine bevorstehende Navigationsanweisung nicht länger warten kann. In einer bevorzugten Ausführungsform wird bei einer bevorstehenden Navigationsanweisung das Ende des laufenden Satzes der Verkehrsdurchsage noch abgewartet und dann die Navigationsanweisung Q eingeschoben.
3A bis 3E zeigen verschiedene Ausführungsvarianten der Ausgabe der Verkehrsdurchsage als Sprachsignal und der Navigationsanweisung als bevorstehendes oder dringendes Signal Q.
3A zeigt ein Sprachsignal, beispielsweise eine Verkehrsdurchsage, die aus einer Folge von Sätzen S besteht. Zwischen den Sätzen S bestehen Satzgrenzen SG. Wie in 3B dargestellt, erkennt die Steuereinheit 2A zum Zeitpunkt t_x während des Satzes S_n, dass ein bevorstehendes oder dringendes Signal, z. B. eine bevorstehende oder dringende Sprachansage, vorliegt.
Ein Satz S_n lautet beispielsweise "3 km Stau auf der A99". Beim Satz S_n+1 lautet die Verkehrsdurchsage beispielsweise "7 km zähflüssiger Verkehr auf der A3". Eine bevorstehende Navigationsanweisung Q gemäß 3B lautet beispielsweise "in 100 m rechts abbiegen". Eine dringende Navigationsanweisung Q gemäß 3B lautet beispielsweise "jetzt rechts abbiegen".
Bei einer möglichen Ausführungsform der erfindungsgemäßen Vorrichtung kann zwischen verschiedenen Ausgabevarianten gewählt werden.
Gemäß der in 3C dargestellten ersten Ausgabevariante wird das Sprachsignal, beispielsweise eine Verkehrsdurchsage, mitten im Satz S_n zum Zeitpunkt t_x unterbrochen und die Navigationsanweisung Q vollständig ausgegeben. Anschließend wird der unterbrochene Satz S_n nochmals vollständig ausgegeben gefolgt von dem nächsten Satz S_n+1.
Der Fahrer des Fahrzeugs hört Folgendes: "3 km Stau", "in 100 m rechts abbiegen", "3 km Stau auf der A99", "7 km zähflüssiger Verkehr auf der A3".
Diese in 3C dargestellte Ausgabevariante ist grundsätzlich sowohl für dringende als auch für bevorstehende Navigationsanweisungen geeignet. Ausführungsformen, bei denen bevorstehende Navigationsanweisungen gemäß 3D oder 3E ausgegeben werden, werden jedoch bevorzugt.
Bei der in 3D dargestellten zweiten Ausgabevariante wird der Satz S_n zum Zeitpunkt t_x, an dem die bevorstehende Navigationsanweisung Q von der Navigationseinheit 6 an die Steuereinheit 2A gemeldet wird, nicht direkt unterbrochen, sondern erst an der Satzgrenze zu dem nachfolgenden Satz S_n+1 Bei der in 3D dargestellten zweiten Ausgabevariante hört der Fahrer daher: "3 km Stau auf der A99", "in 80 m rechts abbiegen", "7 km zähflüssiger Verkehr auf der A3".
Bei der in 3E dargestellten dritten Ausgabevariante wird der letzte vor der Unterbrechung ausgegebene Satz S_n nach Ausgabe der Navigationsanweisung Q nochmals wiederholt. Der Fahrer hört demzufolge: "3 km Stau auf der A99", "in 80 m rechts abbiegen", "3 km Stau auf der A99", "7 km zähflüssiger Verkehr auf der A3".
Die erste Ausgabevariante gemäß 3C bietet den Vorteil, dass ein dringendes Signal Q sofort an den Fahrer ausgegeben wird. Beispielsweise können bei einer möglichen Ausführungsform alle Anweisungen Q mit einer hohen Dringlichkeitsstufe gemäß 3C sofort ausgegeben werden.
Bei der zweiten Ausgabevariante gemäß 3D wird der gerade aktuelle Satz S_n des Sprachsignals nicht sofort unterbrochen, sondern erst vollständig ausgegeben, bis anschließend das Signal Q ausgegeben wird.
Die dritte Ausgabevariante gemäß 3E unterbricht ebenfalls nicht den laufenden Satz Sn des Sprachsignals, wobei allerdings nach Ausgabe des Signals Q nochmals der letzte Satz vor der Unterbrechung, Sn, wiederholt wird. Diese Ausgabevariante erleichtert dem Fahrer bzw. dem Nutzer z. B. bei Abhören eines Hörbuchs oder bei Empfang von Nachrichten einen Sinn-Zusammenhang leichter zu verfolgen.
Alle in 3 dargestellten Ausgabevarianten haben gemeinsam, dass der Nutzer bzw. der Fahrer jeden Satz S des Sprachsignals mindestens einmal vollständig hört und somit keine Information verlorengeht.
Bei dem in 3B dargestellten Signal Q handelt es sich z. B. um eine Navigationsanweisung einer Navigationseinheit.
Es kann sich bei dem Signal Q um eine Bordansage einer beliebigen Bordanlage handeln, nicht notwendigerweise einer Navigationseinheit.
Bei einer alternativen Ausführungsform ist das dringende Signal Q kein Sprachsignal, sondern ein Warnsignal, welches beispielsweise durch eine Einparkhilfe, bei vorliegender Straßenglätte, bei Kraftstoffmangel, bei Überhitzung des Motors oder bei sonstigen Fahrzeugdefekten erzeugt wird. Bei einer möglichen Ausführungsform werden den verschiedenen Warnsignalen verschiedene Dringlichkeitsstufen zugeordnet. Ein Warnsignal mit einer sehr hohen Dringlichkeitsstufe, beispielsweise ein Warnsignal, welches angibt, dass ein Autoreifen geplatzt ist, wird wie in 3C dargestellt, sofort ausgegeben. Ein weniger dringendes Warnsignal, wie beispielsweise ein Warnsignal, das angibt, dass der Kraftstoff zu Neige geht, wird beispielsweise gemäß den Ausgabevarianten der 3D oder 3E ausgegeben.
Bei der in 1 dargestellten Ausführungsform wird, wenn die Navigationsanweisung Q eingeschoben wird, von der Steuereinheit 2A ein Steuerbefehl zur Unterbrechung an den Radioempfänger 5 bei einer direkten Wiedergabe oder an den Durchsagespeicher 3 bei der Wiedergabe einer Aufzeichnung angelegt und der Zeitpunkt der Unterbrechung gespeichert. Von der Steuereinheit 2A wird an die Navigationseinheit 6 ein Steuerbefehl angelegt, die Navigationsanweisung Q über die Ausgabeeinheit 4 auszugeben, und dann wartet die Steuereinheit 2A das Ende der Navigationsanweisung Q ab. Die Navigationseinheit 6 gibt nach Beenden der Navigationsansage ein Anzeigesignal an die Steuereinheit 2A ab, welches anzeigt, dass die Navigationsanweisung Q beendet ist. Anschließend sendet die Steuereinheit 2A ein Signal an den Signalspeicher 3, das Sprachsignal über den Audioverstärker 4A und die Lautsprecher 4B wiederzugeben. Die weitere Wiedergabe des Sprachsignals erfolgt, wie in 3A bis 3E dargestellt, zeitlich versetzt zur Rundfunkübertragung gemäß 3A. Wenn die Verkehrsdurchsage bzw. das Sprachsignal noch nicht beendet ist, wird das Sprachsignal schon an seinem Anfang ausgelesen, während es noch aufgezeichnet wird. Bei einer bevorstehenden Navigationsanweisung Q unterbricht die Steuereinheit 2A die Ausgabe der Verkehrsdurchsage nach dem nächsten Satzende mittels eines Signals an den Radioempfänger 5 bei einer direkten Wiedergabe oder mittels eines Signals an den Durchsagespeicher 3 bei der Wiedergabe einer Aufzeichnung. Die Steuereinheit 2A gibt optional ein Signal an die Navigationseinheit 6, die Navigationsanweisung zeitlich etwas vorzuziehen, und wartet das Ende der Navigationsanweisung ab. Die Navigationseinheit 6 gibt der Steuereinheit 2A ein Signal, wenn die Navigationsanweisung beendet ist. Danach sendet die Steuereinheit 2A ein Signal an den Durchsagespeicher 3, die Durchsage über den Audioverstärker 4A und die Lautsprecher 4B an dem Satzende fortzusetzen, an dem die Wiedergabe unterbrochen wurde. Opti onal kann auch der letzte vor der Unterbrechung wiedergegebene Satz wiederholt werden, insbesondere dann, wenn es sich um einen kurzen Satz handelt.
Wie in 3B dargestellt, signalisiert die Navigationseinheit 6 während der laufenden Verkehrsdurchsage bzw. während der Wiedergabe des Sprachsignals der Steuereinheit 2A, dass eine Navigationsanweisung Q bereitsteht. Eine dringende Navigationsanweisung Q kann sich beispielsweise ergeben, wenn der Kraftfahrer falsch gefahren ist oder wenn eine bevorstehende Navigationsanweisung Q nicht länger warten kann. Bei einer bevorstehenden Navigationsanweisung Q, d. h. einer Navigationsanweisung Q, deren Ausgabe wenige Sekunden später erfolgen sollte, unterbricht die Steuereinheit 2A die Ausgabe des Sprachsignals während der Verkehrsdurchsage je nach Ausführungsform direkt oder erst an der Satzgrenze zu dem nächsten Satz. Hierzu sendet die Steuereinheit 2A ein Signal an den Radioempfänger 5 bei einer direkten Wiedergabe oder ein Signal an den Signalspeicher 3 bei Wiedergabe einer Aufzeichnung.
Bei einer direkten akustischen Ausgabe einer von der Empfangseinheit 5 empfangenen Verkehrsdurchsage kann bedingt durch die Zeit für die Auswertung der Sprachgrundfrequenz unmittelbar nach der Sprachpause, sowie aufgrund der Rechen- und Signallaufzeiten, die Unterbrechung für die Navigationsanweisung Q gemäß 3D und 3E erfolgen, wenn das erste Wort des nächsten Satzes bereits zu hören ist. Um dies zu vermeiden, kann bei der direkten akustischen Ausgabe entweder die gesamte Verkehrsdurchsage bzw. das gesamte Sprachsignal oder das gesamte empfangene Radiosignal entsprechend dem Zeitbedarf für die Signalverarbeitung verzögert wiedergegeben werden.
Bei Vorliegen einer dringenden Navigationsanweisung Q sendet die Navigationseinheit 6 ein entsprechendes Steuersignal an die Steuereinheit 2A. Daraufhin unterbricht die Steuereinheit 2A die Ausgabe einer Verkehrsdurchsage bzw. eines Sprachsig nals unverzüglich. Die Steuereinheit 2A sendet bei einer direkten Wiedergabe des Sprachsignals ein Steuersignal an den Radioempfänger 5. Bei Wiedergabe einer Sprachsignalaufzeichnung sendet die Steuereinheit 2A ein Steuersignal an den Signalspeicher 3. Ferner sendet die Steuereinheit 2A ein Steuersignal an die Navigationseinheit 6, das die Navigationseinheit 6 dazu veranlasst, die anstehende Navigationsanweisung Q über den Audioverstärker 4A und die Lautsprecher 4B auszugeben. Die Navigationseinheit 6 gibt ein Steuersignal an die Steuereinheit 2A ab, wenn die Navigationsanweisung Q beendet ist. Danach sendet die Steuereinheit 2A ein Steuersignal an den Durchsagespeicher 3, die Verkehrsdurchsage bzw. das Sprachsignal über den Audioverstärker 4A und die Lautsprecher 4B am Anfang desjenigen Satzes fortzusetzen, bei dem die Wiedergabe unterbrochen wurde. Bei einer Ausführungsform kann auch der letzte vor der Unterbrechung vollständig wiedergegebene Satz wiederholt werden, insbesondere dann, wenn die Dauer vom Beginn des vorigen Satzes bis zu derjenigen Stelle, an der die Unterbrechung erfolgte, kurz ist.
Bei einer bevorzugten Ausführungsform werden alle empfangenen Verkehrsdurchsagen im Durchsagespeicher 3 gespeichert. Wenn beim Speichern einer Verkehrsdurchsage die Kapazitätsgrenze des Durchsagespeichers 3 erreicht wird, wird die jeweils älteste Verkehrsdurchsage oder der jeweils älteste Satz im Durchsagespeicher 3 gelöscht.
Bei einer möglichen Ausführungsform besteht für den Fahrer bzw. den Nutzer die Möglichkeit, über eine Benutzerschnittstelle bzw. ein Benutzer-Interface 7, beispielsweise per Knopfdruck oder per Sprachsteuerung, an den Anfang des laufenden bzw. aktuellen Satzes des Sprachsignals zurückzuspringen, oder, wenn sich die Wiedergabe gerade an einem Anfang eines Satzes befindet, zum Anfang des vorherigen Satzes zurückzuspringen. Dazu kann beispielsweise ein Lesezeiger in dem Durchsagespeicher 3 gemäß einem Marker positioniert werden, welcher ein vorausgehendes Satzende kennzeichnet. Soweit die Wiedergabe direkt von dem Radioempfänger 5 erfolgte, wird die Wiedergabe aus dem Durchsagespeicher 3 fortgesetzt. Beispielsweise kann der Fahrer bzw. der Nutzer durch langes Drücken des Knopfes den Lesezeiger in dem Durchsagespeicher 3 auf eine Adresse positionieren, an der die gerade wiedergegebene Verkehrsdurchsage beginnt, oder, falls die Wiedergabe sich am Anfang einer Verkehrsdurchsage befindet, den Lesezeiger in dem Durchsagespeicher 3 auf diejenige Adresse positionieren, an der die vorangehende Verkehrsdurchsage beginnt, soweit diese in dem Durchsagespeicher 3 vorhanden ist.
Bei einer weiteren möglichen Ausführungsform hat der Kraftfahrer über die Benutzerschnittsstelle 7 die Möglichkeit bei einer Wiedergabe an den Anfang des folgenden Satzes weiterzuspringen. Dazu kann beispielsweise ein Lesezeiger im Durchsagespeicher 3 gemäß einem Marker positioniert werden, welcher ein nachfolgendes Satzende kennzeichnet. Falls in der gleichen Verkehrsdurchsage kein weiterer Satz vorhanden ist, wird, sofern vorhanden, bevorzugt zu dem ersten Satz der folgenden Verkehrsdurchsage weitergesprungen. Durch langes Gedrückthalten eines Knopfes kann der Fahrer dann einen Lesezeiger in dem Durchsagespeicher 3 auf diejenige Adresse positionieren, an dem die folgende Verkehrsdurchsage beginnt. Soweit die Wiedergabe direkt vom Radioempfänger erfolgt, steht diese Funktion nicht zur Verfügung.
Deshalb wird bei einer möglichen Ausführungsform die Verkehrsdurchsage bzw. das Sprachsignal zunächst aufgezeichnet und dann aus dem Durchsagespeicher 3 wiedergegeben. Diese Ausführungsform ist dann besonders vorteilhaft, wenn vom Verkehrsfunksender nur die Verkehrsdurchsagen ausgegeben werden, nicht aber das restliche Programm.
Bei einer möglichen Ausführungsform der erfindungsgemäßen Vorrichtung 1 fügt die Steuereinheit 2A bei jeder erkannten Satzgrenze des Sprachsignals einen Satzgrenzen-Marker in das Sprachsignal ein und schreibt das mit Satzgrenzen-Markern versehene Sprachsignal in den Signalspeicher 3 ein.
Bei einer bevorzugten Ausführungsform schickt der Radioempfänger 5 das Sprachsignal direkt an den Signalspeicher 3, wobei die Satzgrenzen-Marker auf einem getrennten Signalpfad durch die Steuereinheit 2A bereitgestellt werden. Bei dieser bevorzugten Ausführungsform erhält die Steuereinheit 2A vom Radioempfänger 5 nicht das komplette Sprachsignal, sondern nur die Zusatzinformationsdaten, wie beispielsweise eine Durchsagekennung, einen Bereichscode und eine Senderkennung. Ferner erhält die Steuereinheit 2A die Ausgangssignale von den Einheiten 2B, 2C, 2D zur Extraktion prosodischer Sprachmerkmale.
Bei einer möglichen Ausführungsform schreibt die Steuereinheit 2A bei jeder erkannten Satzgrenze des Sprachsignals deren Zeitpunkt in einen Satzgrenzen-Referenzierungsspeicher ein.
Bei einer weiteren möglichen Ausführungsform der erfindungsgemäßen Vorrichtung 1 werden Informationsdaten, die von einer Bordanlage des Fahrzeugs innerhalb des Bord-Signals ausgegeben werden, in Abhängigkeit von einem Zeitpunkt, an dem das Bord-Signal ausgegeben wird, verändert. Beispielsweise kann eine Bordansage einer Navigationsanweisung Q lauten: "in 100 m rechts abbiegen". Wenn diese Navigationsanweisung Q gemäß der zweiten und dritten Ausgabenvariante, wie sie in 3D und 3E dargestellt ist, ausgegeben wird, wird der aktuelle Satz S_n des Sprachsignals bzw. der Verkehrsdurchsage nicht unmittelbar unterbrochen, so dass eine gewisse Zeit Δt nach Vorliegen der Navigationsanweisung vergeht, bis diese Navigationsanweisung Q tatsächlich ausgegeben wird. Bei einer möglichen Ausführungsform erfasst die Navigationseinheit 6 den Ort des Fahrzeugs und errechnet aus dem Ort des Fahrzeugs zum tatsächlichen Ausgabezeitpunkt der Navigationsanweisung Q aktuelle Informationsdaten. So wird z. B. nach einer gewissen zurückgelegten Wegstrecke nicht mehr die ursprüngliche Navigationsanweisung Q "in 100 m rechts abbiegen", sondern eine geänderte Navigationsanweisung Q' ausgegeben "in 80 m rechts abbiegen". Dies bedeutet, dass der Inhalt der Navigationsan weisung durch den von der Steuereinheit 2A vorgegebenen Ausgabezeitpunkt geändert wird. Dies gilt entsprechend für zeitlich vorgezogene Navigationsanweisungen Q, bei denen die Navigationseinheit 6 eine größere Entfernung in der Navigationsanweisung Q nennt, als dies ohne Befehl der Steuereinheit 2A zum zeitlichen Vorziehen der Fall wäre.
Bei einer weiteren bevorzugten Ausführungsform signalisiert die Navigationseinheit 6 der Steuereinheit 2A eine bevorstehende Navigationsanweisung Q während einer Verkehrsdurchsage etwas früher, als sie ohne Verkehrsdurchsage die Navigationsanweisung Q ausgeben würde.
Bei einer weiteren möglichen Ausführungsform der erfindungsgemäßen Vorrichtung ermittelt die Navigationseinheit 6 anhand von Fahrzeugsparametern, wie beispielsweise der Fahrzeuggeschwindigkeit V und dem Abstand zu einer Kreuzung, an der abzubiegen ist, den Dringlichkeitsgrad der Bordansage. Weist das Fahrzeug beispielsweise eine relativ hohe Geschwindigkeit V auf und muss der Fahrer innerhalb einer relativ kurzen Distanz ein Lenkmanöver durchführen, ist die Dringlichkeit einer entsprechenden Navigationsanweisung Q relativ hoch. Dann wird beispielsweise die Navigationsanweisung Q gemäß der Ausgabevariante von 3C ausgegeben, d. h. das Sprachsignal wird sofort unterbrochen.
Die ein Satzende bzw. eine Satzgrenze markierenden prosodischen Merkmale können je nach Sprachraum leicht unterschiedlich sein. In einer möglichen Ausführungsform berücksichtigt die Steuereinheit 2A den Sprachraum bei der Erkennung von Satzenden bzw. Satzgrenzen. Bei einer möglichen Ausführungsform wertet die Steuereinheit 2A zur Ermittlung des Sprachraums eine oder mehrere der folgenden Informationen aus, nämlich einen Verkehrsfunk-Code, eine Senderkennung oder einen durch die Navigationseinheit 6 ermittelten Aufenthaltsort des Fahrzeugs. Bei einer für den Fall, dass das Fahrzeug bei einer Fahrt eine Sprachgrenze überschreitet, vorteilhaften Ausführungsform werden die Verkehrsdurchsagen bzw. Sprachsignale zusammen mit dieser jeweiligen Information über die zu erwartende Sprache in dem Durchsagespeicher 3 abgespeichert.
2 zeigt ein weiteres Ausführungsbeispiel der erfindungsgemäßen Vorrichtung 1.
Bei dem in 2 dargestellten Ausführungsbeispiel handelt es sich um ein Diktiergerät. Als Empfangseinheit 5 weist das Diktiergerät 1 ein Mikrophon zur Aufnahme eines Sprachsignals auf. Zur Sprachaufzeichnung wird durch die Benutzerschnittstelle 7 die entsprechende Funktion ausgewählt. Die Benutzerschnittstelle 7 leitet den Befehl an die Steuereinheit 2A weiter, die ihrerseits das Mikrophon 5, einen Mikrophonverstärker und einen Analogdigitalumsetzer aktiviert. Die Steuereinheit 2A startet die Aufzeichnung des Mikrophonsprachsignals durch den Signalspeicher 3. Während der Aufzeichnung des Sprachsignals extrahieren die Einheit 2B zur Bestimmung der Sprachgrundfrequenz, die Einheit 2D zur Bestimmung der Sprechrate sowie die Sprachaktivitätserkennung 2C die entsprechenden prosodischen Sprechmerkmale aus dem Sprachsignal. Zeitgleich adaptieren sich diese Einheiten zur Extraktion prosodischer Merkmale an das Sprachsignal des Sprechers. Die Adaption kann beispielsweise bei den zuletzt gefundenen Parametern oder bei einer neutralen Grund-Einstellung beginnen.
In einer möglichen Ausführungsform kann zusätzlich noch eine Einheit 2E zur Wortfolgenerkennung genutzt werden, wobei vorzugsweise durch die Benutzerschnittstelle 7 die Sprache eingestellt wird. Diese Information wird von der Steuereinheit 2A an die Einheit 2E zur Wortfolgenerkennung weitergeleitet. Bei einer möglichen Ausführungsform ist die durch die Spracherkennung unterstützte Satzenden- bzw. Satzgrenzenerkennung derart ausgelegt, dass der Punkt am Ende des Satzes mitdiktiert wird. In diesem Falle genügt eine einfache Spracherkennung nach dem Verfahren des sogenannten "word spotting". In einer möglichen Ausführungsform wird eine Spracherkennung eingesetzt, die die Wahrscheinlichkeit eines Satzendes bzw. einer Satzgrenze in Abhängigkeit der letzten beispielsweise drei Worte schätzt.
Auf Basis der erfassten prosodischen Sprechmerkmale und optional aus dem Ergebnis der Wortfolgenerkennung ermittelt die Steuereinheit 2A Satzgrenzen und übermittelt diese Information an den Signalspeicher 3. Ferner kann die Steuereinheit 2A bei einer Ausführungsform Erfahrungswerte über übliche Satzlängen zur Ermittlung der Satzgrenzen berücksichtigen. Im Signalspeicher 3 werden die digitalisierten, von dem Mikrophon 5 gelieferten Sprachdaten zusammen mit den Satzgrenzen bzw. den eingefügten Satzgrenzenmarkern abgespeichert. Bei einer möglichen Ausführungsform erfolgt die Bestimmung der Satzgrenzen erst nach Adaption an den jeweiligen Sprecher. In einer möglichen Ausführungsform werden die Satzgrenzen während einer Adaption vorläufig bestimmt, und nach der Adaption an den Sprecher erfolgt dann eine Überprüfung der Satzgrenzen oder deren nochmalige Ermittlung.
Bei einer möglichen Ausführungsform der erfindungsgemäßen Vorrichtung 1 bietet die Benutzerschnittstelle 7 dem Nutzer die Möglichkeit, an den Anfang des laufenden, folgenden oder vorhergehenden Satzes zu springen. Bei einer möglichen Ausführungsform werden durch die Vorrichtung 1 verschiedene Sprungweiten angeboten. Beispielsweise kann der Nutzer einen Sprung zu dem letzten oder übernächsten Satz veranlassen. Über eine vorgesehene Anzeige kann dem Nutzer angezeigt werden, zu welchem Zeitpunkt bzw. zu welchem Satz der Sprung erfolgte. In einer Ausführungsform sind dem Nutzer die Zeiten, insbesondere in Form der Anzahl an Sekunden, auf der Benutzerschnittstelle 7 darstellbar, um die die akustische Ausgabe des aufgezeichneten Sprachsignals springt, wenn eine Funktion zum Springen an eine vorausgehende oder folgende Satzgrenze genutzt wird. Bevorzugt sind an der Benutzerschnittstelle 7 zusätzlich Sprünge mit festem Zeitversatz auswählbar, z. B. um 10 Sekunden vor oder zurück.
Die erfindungsgemäße Vorrichtung 1 gibt dem Benutzer die Möglichkeit, sowohl das Sprachsignal, als auch das unterbrechende andere Signal mit hoher Dringlichkeit vollständig zu hören. Dabei hört der Benutzer nicht mehr als für den Sinnzusammenhang zweckmäßig ist. Ferner bietet die erfindungsgemäße Vorrichtung 1 dem Nutzer die Möglichkeit, gezielt einzelne Sätze der Verkehrsdurchsage bzw. des Sprachsignals zu hören oder zu überspringen.
Die erfindungsgemäße Vorrichtung 1 ist vielseitig einsetzbar. 1 zeigt eine Ausführungsform der erfindungsgemäßen Vorrichtung 1 zur Ausgabe eines per Rundfunk empfangenen Sprachsignals, welches durch Bordansagen, beispielsweise Navigationsansagen, unterbrechbar ist, wobei die Unterbrechung bevorzugt an einer Satzgrenze des empfangenen Sprachsignals erfolgt.
2 zeigt ein Ausführungsbeispiel der erfindungsgemäßen Vorrichtung 1 als Diktiergerät, an dessen Benutzerschnittstelle 7 Sprünge der akustischen Ausgabe des aufgezeichneten Sprachsignals an eine vorausgehende oder nachfolgende Satzgrenze auswählbar sind.
Merkmale der beiden in den 1, 2 dargestellten Ausführungsformen können kombiniert werden.
Die erfindungsgemäße Vorrichtung 1 eignet sich für beliebige Sprachsignale, beispielsweise Verkehrsdurchsagen, Nachrichten oder Bordansagen. Das zweite Signal ist in vielen Fällen selbst ein Sprachsignal bzw. eine Bordansage oder eine Warnansage. Das unterbrechende zweite Signal kann aber auch ein anderes Signal sein, beispielsweise eine Folge von Signaltönen, die durch eine Einparkhilfe erzeugt werden. Die Erkennungseinheit 2 kann beliebige, insbesondere prosodische Merkmale zur Erkennung der Satzgrenzen einsetzen.

Claims

Vorrichtung (1) zur Ausgabe eines Sprachsignals mit: (a) einer Erkennungseinheit (2) zur Erkennung von Satzgrenzen eines Sprachsignals; (b) einem Signalspeicher (3) zum Speichern des Sprachsignals; und mit (c) einer Ausgabeeinheit (4) zur Ausgabe des Sprachsignals beginnend an einer erkannten Satzgrenze des Sprachsignals.
Vorrichtung nach Anspruch 1, wobei eine Empfangseinheit (5) zum Empfangen des Sprachsignals vorgesehen ist.
Vorrichtung nach Anspruch 2, wobei die Empfangseinheit (5) einen Signalempfänger (Rx) zum Empfangen eines Sprachsignals aufweist.
Vorrichtung nach Anspruch 3, wobei das durch den Signalempfänger (Rx) empfangene Sprachsignal eine von einem Sender empfangene Verkehrsdurchsage ist.
Vorrichtung nach Anspruch 1, wobei das Sprachsignal durch ein zweites Signal mit höherer Dringlichkeit als das Sprachsignal an einer erkannten Satzgrenze des Sprachsignals unterbrochen wird.
Vorrichtung nach Anspruch 5, wobei das zweite Signal ein Sprachsignal ist.
Vorrichtung nach Anspruch 5, wobei das zweite Signal ein akustisches Bord-Signal ist, das durch eine Bordanlage (6) eines Fahrzeuges erzeugt wird.
Vorrichtung nach Anspruch 7, wobei das Bordsignal eine Bord-Sprachansage ist.
Vorrichtung nach Anspruch 8, wobei die Bordanlage (6) eine Navigationseinheit (Navi) ist, die als Bord-Sprachansage eine Navigationsansage erzeugt.
Vorrichtung nach Anspruch 2, wobei die Empfangseinheit (5) ein Mikrophon (MIC) zur Aufnahme des Sprachsignals aufweist.
Vorrichtung nach Anspruch 1, wobei die Erkennungseinheit (2) Satzgrenzen des Sprachsignals anhand prosodischer Merkmale des Sprachsignals erkennt.
Vorrichtung nach Anspruch 1, wobei die Erkennungseinheit (2) die Satzgrenzen des Sprachsignals anhand von Sprachpausen, einer Sprechgeschwindigkeit, einer Sprachgrundfrequenz, eines Sprachgrundfrequenzbereichs, einer Änderung des Sprachgrundfrequenzverlaufs, anhand von sich ergebenden Satzlängen und/oder anhand von vorgegebenen Wortfolgen erkennt.
Vorrichtung nach Anspruch 1, wobei eine Steuereinheit (2A) vorgesehen ist, die nach jeder erkannten Satzgrenze des Sprachsignals einen Satzgrenzen-Marker in das Sprachsignal einfügt und das mit den Satzgrenzen-Markern versehene Sprachsignal in den Signalspeicher (3) einschreibt oder das Einfügen eines Satzgrenzen-Markers in dem Signalspeicher (3) veranlasst.
Vorrichtung nach Anspruch 1, wobei eine Steuereinheit (2A) vorgesehen ist, die in Verbindung mit dem Signalspeicher (3) bei jeder erkannten Satzgrenze des Sprachsignals deren Zeitpunkt oder Speicheradresse in einen Satzgrenzen-Referenzierungsspeicher abspeichert.
Vorrichtung nach Anspruch 1, wobei ein Benutzer-Interface (7) vorgesehen ist, über das Sprungbefehle zum Springen an Satzgrenzen des Sprachsignals eingebbar sind.
Vorrichtung nach Anspruch 1, wobei die Ausgabe eines durch ein zweites Signal mit höherer Dringlichkeit unterbrochenen Sprachsignals nach erfolgter Ausgabe des zweiten Signals beginnend an einer erkannten Satzgrenze des Sprachsignals fortgesetzt wird.
Vorrichtung nach Anspruch 7, wobei ein Zeitpunkt, zu dem die Bordanlage (Navi) das akustische Bord-Signal ausgibt, derart durch die Steuereinheit (2A) steuerbar ist, dass die Bordanlage (6) an einer erkannten Satzgrenze des Sprachsignals mit der Ausgabe des akustischen Bord-Signals beginnt.
Vorrichtung nach Anspruch 7, wobei Informationsdaten, die von der Bordanlage (6) des Fahrzeugs innerhalb des Bord-Signals ausgegeben werden, in Abhängigkeit von einem Zeitpunkt, an dem das Bord-Signal ausgegeben wird, veränderbar sind.
Kraftfahrzeugradio mit einer Vorrichtung nach Anspruch 1 bis 18 zur Ausgabe eines Sprachsignals.
Diktiergerät mit einer Vorrichtung nach Anspruch 1 bis 18 zur Aufnahme und Ausgabe eines Sprachsignals.
Verfahren zum Ausgeben eines Sprachsignals mit den Schritten: (a) Erkennen von Satzgrenzen des Sprachsignals; (b) Speichern des Sprachsignals; (c) Ausgeben des Sprachsignals beginnend an einer erkannten Satzgrenze des Sprachsignals.
Verfahren nach Anspruch 21 mit den Schritten: – Unterbrechen der Ausgabe des Sprachsignals durch ein zweites Signal mit höherer Dringlichkeit, – Ausgeben des zweiten Signals und danach – Fortsetzen der Ausgabe des Sprachsignals an einer erkannten Satzgrenze des Sprachsignals.
Verfahren nach Anspruch 22, wobei die Ausgabe des Sprachsignals an einer erkannten Satzgrenze des Sprachsignals unterbrochen wird.
Verfahren nach Anspruch 22, wobei das Sprachsignal – vor seiner Unterbrechung direkt akustisch ausgegeben – spätestens ab der Unterbrechung in einem Signalspeicher (3) gespeichert und – nach der Unterbrechung aus dem Signalspeicher (3) zeitversetzt ausgegeben wird.
Verfahren nach Anspruch 22, wobei das zweite Signal durch ein Sprachsignal gebildet wird.