-
Die Erfindung betrifft ein sicheres Sprachausgabesystem, ein Verfahren zum Betreiben eines sicheren Sprachausgabesystems, ein Fahrzeug mit einem solchen Sprachausgabesystems sowie ein Computerprogrammprodukt zum Ausführen des Verfahrens und einen Datenträger mit einem solchen Programm.
-
Sichere Sprachausgaben erfolgen von Systemen, die selbst als funktional ausreichend sicher gelten oder die mit Hilfe von aufwendigen Überwachungseinrichtungen auf der Basis von digitaler Signalverarbeitung arbeiten. Andernfalls kann nur sehr begrenzt der inhaltliche Nachweis eines korrekt ausgegeben Sprachsignals erbracht werden. Es gibt außerdem Diagnose-Verfahren, die mit vom Menschen wahrnehmbaren Testsignalen arbeiten und etwa bei der Automobilproduktion den korrekten Einbau und die Funktion der Infotainment Komponenten in das Fahrzeug überprüfen.
-
Aufwendige digitale Signalverarbeitungseinrichtungen sind relativ aufwendig und teuer und werden daher mit nicht funktional sicheren Systemfunktionen geteilt. Ein funktionaler Sicherheitsnachweis ist daher sehr aufwendig, weil dieser neben der aufwendigen Signalverarbeitung auch nicht funktional sichere Anteile berücksichtigen muss. Eine Überprüfung aller an der akustischen Übertragung beteiligten technischen Komponenten findet häufig nicht statt, da dies zur Laufzeit des Systems nicht ohne wahrnehmbare Testsignale möglich ist.
-
Es wäre daher wünschenswert, wenn ein sicheres Sprachausgabesystem nicht nur auf aufwendige und teure, sondern auch auf einfach oder gar nicht zertifizierte Einrichtungen zurückgreifen könnte und trotzdem ohne übermäßig erhöhten Aufwand die funktionale Sicherheit gewährleistet, sowie die Überprüfung an der Übertragung beteiligten technischen Komponenten zur Laufzeit des Systems durchführen könnte.
-
Ein erfindungsgemäßes sicheres Sprachausgabesystem umfasst ein erstes Teilsystem, ein zweites Teilsystem, ein drittes Teilsystem, ein Auswertungssystem, einen Verstärker, einen Schallwandler, einen Schallsensor, eine phonetische Wörterbuchdatenbank und ein Sprachmonitorsystem und ist dadurch gekennzeichnet, dass das erste Teilsystem ein als sicher zertifiziertes System und das zweite Teilsystem ein deutlich geringer als das erste Teilsystem zertifiziertes System oder gar nicht zertifiziertes System ist.
-
Dies hat den Vorteil, dass sich das Sprachausgabesystem einfach und kostengünstiger ehrstellen lässt, dass Aufwand gespart werden kann und die Sicherheit des Sprachausgabesystems, insbesondere auch Teile davon, einfach überprüft werden kann.
-
Ein erfindungsgemäßes Verfahren zur sicheren Sprachausgabe ist dadurch gekennzeichnet, dass das Verfahren die folgenden Schritte aufweist:
- • Benutzerauthentifizierung und sichere Sprachauswahl;
- • Berechnen eines sicherheitsrelevanten Hinweistext in einem als sicher zertifiziertem ersten Teilsystem;
- • Übermitteln des sicherheitsrelevanten Hinweistextes an ein deutlich geringer oder nicht zertifiziertes zweites Teilsystem;
- • Zerlegen des sicherheitsrelevanten Hinweistextes in eine Phonemsequenz;
- • Übermitteln der Phonemsequenz an ein drittes Teilsystem;
- • Natursprachliche Sprachsynthese des Hinweistextes und Berechnung der Sprachausgabesequenz im deutlich geringer oder nicht zertifiziertem zweiten Teilsystem;
- • Übermitteln einer Sprachausgabesequenz SQ an das dritte Teilsystem;
- • Berechnen einer Codesequenz Cgl basierend auf der Phonemsequenz PS und der Sprachausgabesequenz SQ;
- • Mischen eines Signals Sgl aus der Codesequenz Cgl und einer oder mehrerer Trägerfrequenzen fg;
- • Erzeugen eines Codes Cik und Mischen eines Signals Sik;
- • Erzeugen eines Ausgangssignals;
- • Reduzierung der Lautstärke anderer Audioquellen in einem Verstärker mittels eine Steuersignals;
- • Ausgabe des Ausgangssignals an eine Ausgabeeinheit;
- • Aufnahme des Ausgangssignals mittels eines Sprachmonitorsystems und Berechnen von geschätzten Codesequenzen;
- • Übertragung der geschätzten Codesequenzen an das erste Teilsystem;
- • Vergleich der übertragenen Phonemsequenz und dem aktuellen Phonem;
- • Beenden der Sprachausgabe, wenn das erste Teilsystem keinen Fehler zwischen der übertragenen Phonemsequenz und dem aktuellen Phonem festgestellt wurde; oder
- • Wiederholung der Sprachausgabe oder Wechsel in einen sicheren Zustand, wenn Fehler zwischen der übertragenen Phonemsequenz und dem aktuellen Phonem festgestellt wurden.
aufweist.
-
Dies hat den Vorteil, dass Kosten und Aufwand gespart werden kann und die Sicherheit des Sprachausgabesystems, insbesondere auch Teile davon, einfach überprüft werden kann.
-
Ein erfindungsgemäßes Fahrzeug mit einem erfindungsgemäßen sicheren Sprachausgabesystem ist zum Ausführen des erfindungsgemäßen Verfahrens ausgebildet.
-
Dies hat den Vorteil, dass sich das Fahrzeug dadurch kostengünstiger Herstellen lässt und die funktionale Sicherheit gewahrt bleibt. Außerdem übertragen sich die Vorteile des erfindungsgemäßen Verfahrens und des erfindungsgemäßen Sprachausgabesystems auch auf das erfindungsgemäße Fahrzeug.
-
Ein erfindungsgemäßes Computerprogramm umfasst Befehle, die bei der Ausführung des Programms durch ein eingebettetes System dieses veranlassen, das erfindungsgemäße Verfahren auszuführen.
-
Dies hat den Vorteil, dass sich das Verfahren flexibel anpassen und auf vielen verschiedenen Systemen ausführen lässt.
-
Ein erfindungsgemäßer Datenträger speichert das erfindungsgemäße Computerprogramm.
-
Dies hat den Vorteil, dass sich das sich das Computerprogramm einfach transportieren, sichern und vervielfältigen lässt.
-
Das Verfahren überprüft die gesamte akustische Übertragungsstrecke bis zum Fahrer einschließlich der Lautsprecher. Es benötigt dazu keine vom Menschen wahrnehmbaren Testsignale. Die Verfahren zum Erkennen von akustischen Wasserzeichen sind sehr zuverlässig und robust gegenüber äußeren Störungen, so dass ein Einsatz auch bei Vorliegen von akustischen Störungen aus dem Fahrzeuginneren oder der Umgebung erfolgen kann. Die Erfindung ermöglicht den Einsatz von nicht oder nur sehr aufwendig zertifizierbaren, d.h. komplexen Prozessoren, die auch noch viele andere Aufgaben außer einer Audioausgabe erfüllen können. Insbesondere kann dies in Systemen erfolgen, die zusätzlich zu einem sicherheitsrelevanten Sprachausgabesignal weitere Audiosignale dem Fahrer zu Gehör bringen müssen. Ein weiterer wesentlicher Vorteil der Erfindung ist die Aufteilung in einen einfachen und als ausreichend zuverlässig zertifizierbaren Anteil nach ASIL auf dem keine aufwendige oder schnelle Signalverarbeitung im Takt der Audioabtastwerte notwendig ist. Dies ermöglicht eine kostengünstige Realisierung mit heute im Markt erhältlichen Prozessoren. Die Erfindung ermöglicht auch die Nutzung der für die Unterhaltung, Information und Sprachbedienung des Fahrers vorhandenen typischen Einrichtungen eines Fahrerinformationssystems für sicherheitsrelevante, akustische Warnungen oder Mitteilungen ohne dass deren Zuverlässigkeit sicherheitstechnisch für höhere ASIL (Automotive Safety Integrity Level) Stufen größere als QM (Quality Management) nachgewiesen werden muss, da die gesamte akustische Übertragungsstrecke durch relativ einfache und preiswerte Komponenten überwacht wird. Ausfälle einzelner Komponenten können in vielen Fällen rechtzeitig vor einer für den Fahrer sicherheitskritischen Situation erkannt und ausgetauscht werden oder sie können bei vorhandener Redundanz für den Fall einer sicherheitskritischen akustischen Warnung toleriert werden. Das beschriebene Verfahren ist bezüglich der auszugebenen Texte sehr flexibel, da diese erst zur Laufzeit des Systems bestimmt werden können und sich nahezu beliebig zusammenstellen lassen. Damit sind neben Standardwarnungen auch kontextabhängige sicherheitsrelevante Ausgaben, die zum Beispiel Verkehrslageinformationen und Verkehrssituationen wie „Achtung sie werden rechts von einem Motorrad mit einer Geschwindigkeit von hundert Stundenkilometern überholt!“ berücksichtigen, möglich.
-
Außer in einem Fahrzeug wäre noch ein Einsatz bei sicherheitsrelevanten Durchsagen in öffentlichen Gebäuden und Transportsystemen, öffentlichen Plätzen, Industrieanlagen oder ähnliches, möglich.
-
Das erfindungsgemäße Konzept für eine sichere Sprachausgabe könnte zum Beispiel bis ASIL B zertifizierbar sein.
-
Weitere Merkmale, Eigenschaften und Vorteile der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung unter Bezugnahme auf die beiliegenden Figuren. Darin zeigen schematisch:
- 1 eine Darstellung eines erfindungsgemäßen sicheren Sprachausgabesystems;
- 2 eine Darstellung eines erfindungsgemäßen Verfahrens zum Betreiben eines sicheren Sprachausgabesystems;
- 3 einen Teil des erfindungsgemäßen Sprachausgabesystems;
- 4 einen anderen Teil des erfindungsgemäßen Sprachausgabesystems;
- 5 eine Darstellung einer digitalen Signalverarbeitung; und
- 6 eine weitere Darstellung einer digitalen Signalverarbeitung.
-
In 1 ist schematisch ein erfindungsgemäßes sicheres Sprachausgabesystem S eines Fahrzeugs dargestellt. Das sichere Sprachausgabesystem S umfasst dabei ein als sicher zertifiziertes erstes Teilsystem A, eine deutlich geringer oder nicht zertifiziertes zweites Teilsystem G, ein drittes Teilsystem M, eine Auswertungssystem AU, einen Verstärker V, eine phonetische Wörterbuchdatenbank WDB und ein Sprachmonitorsystem SM. Weiterhin sind im Fahrzeug zumindest ein Schallwandler LS, ein Schallsensor MI, eine Benutzereingabe E, eine Sicherheitssteuerung des Fahrzeugs FS und eine oder mehrere weitere Audioquellen R1-Rx vorhanden. Alternativ kann auch der Verstärker V außerhalb des sicheren Sprachausgabesystems S als Teil des Fahrzeugs ausgebildet sein und/oder zumindest eines aus dem Schallwandler LS, dem Schallsensor MI und der Benutzereingabe E als Teil des sicheren Sprachausgabesystems S ausgebildet sein.
-
Ein erfindungsgemäßes Verfahren zur sicheren Sprachausgabe ist in 2 dargestellt und umfasst zumindest die Schritte
- S1. Benutzerauthentifizierung und sichere Sprachauswahl;
- S2. Berechnen eines sicherheitsrelevanten Hinweistext T in einem als sicher zertifiziertem Teilsystem A;
- S3. Übermitteln des sicherheitsrelevanten Hinweistextes T an ein deutlich geringer oder nicht zertifiziertes Teilsystem G;
- S4. Zerlegen des sicherheitsrelevanten Hinweistextes T in eine Phonemsequenz PS im als sicher zertifiziertem Teilsystem A;
- S5. Übermitteln der Phonemsequenz PS an das Teilsystem M;
- S6. Natursprachliche Sprachsynthese des Hinweistextes T und Berechnung einer Sprachausgabesequenz SQ im deutlich geringer oder nicht zertifiziertem Teilsystem G;
- S7. Übermitteln der Sprachausgabesequenz SQ an das Teilsystem M;
- S8. Berechnen einer Codesequenz Cgl basierend auf der Phonemsequenz PS und der Sprachausgabesequenz SQ;
- S9. Mischen eines Signals Sgl aus der Codesequenz Cgl und einer oder mehrerer Trägerfrequenzen fg;
- S10. Erzeugen eines Codes Cik und Mischen eines Signals Sik;
- S11. Erzeugen des Ausgangssignals Q;
- S12. Reduzierung der Lautstärke anderer Audioquellen R1-Rx in einem Verstärker V mittels eine Steuersignals MU;
- S13. Ausgabe des Ausgangssignals Q an die Ausgabeeinheit LS;
- S14. Aufnahme des Ausgangssignals mittels eines Sprachmonitorsystems SM und Berechnen von geschätzten Codesequenzen Ci' und Cg';
- S15. Übertragung der geschätzten Codesequenzen Ci'und Cg' an das Teilsystem A;
- S16. Vergleich der übertragenen Phonemsequenz und dem aktuellen Phonem;
- S17. Beenden der Sprachausgabe, wenn das Teilsystem A keinen Fehler zwischen der übertragenen Phonemsequenz und dem aktuellen Phonem festgestellt wurde; oder
- S18. Wiederholung der Sprachausgabe oder Wechsel in einen sicheren Zustand, wenn Fehler zwischen der übertragenen Phonemsequenz und dem aktuellen Phonem festgestellt wurden.
-
In 3 ist schematisch ein Teil des erfindungsgemäßen sicheren Sprachausgabesystems S dargestellt, mit dem ein Benutzer B authentifiziert und identifiziert wird und eine sichere Sprachauswahl erfolgt (S1). Die Personenauthentifizierung geschieht durch bekannte biometrische Methoden, wie z.B. durch das Auswertungssystem AU ausgewertete charakteristische Spektogrammwerte eines mit dem Schallsensor MI aufgenommenen Stimmensignals VP des Benutzers B, durch die Analyse eines durch eine Kamera aufgenommenen Bildes (nicht gezeigt) und/oder durch die Verbindung mit einem elektronischen Schlüssel oder Gerät des Benutzers B (nicht gezeigt). Das Teilsystem A nimmt eine automatische Auswahl der für diese Person verständlichen Sprache L vor und gibt in einer geeigneten, insbesondere ungefählichen Situation, z.B. bei geparktem oder für die Fahrt gesperrten Fahrzeugs, eine akustische Handlungsaufforderung HA an den Benutzer B über den Schallwandler LS aus. Das Vorliegen einer geeigneten Situation kann zum Beispiel durch ein Signal SF von der Sicherheitssteuerung des Fahrzeugs FS dem System A signalisiert werden. Die korrekte Handlungsbefolgung HB durch den Benutzer B, zum Beispiel eine manuelle Eingabe eines Codes oder Wortes über die Benutzereingabe E, kann mit sehr hoher Zuverlässigkeit vom Teilsystem A verifiziert werden. Dabei kann die Handlungsanweisung HA in der Sprache L von dem nicht sicherheitszertifiziertem Teilsystem G entsprechend einem von Teilsystem A an Teilsystem G ausgegeben Text HT erzeugt werden und direkt oder über das weiter unten beschriebene Teilsystem M über den Verstärker V an den Schallwandler LS ausgegeben werden.
-
In 4 ist schematisch ein anderer Teil des erfindungsgemäßen sicheren Sprachausgabesystems S dargestellt, das weitere Schritte des erfindungsgemäßen Verfahrens realisiert. Das als ausreichend sicher zertifiziertes Teilsystem A berechnet einen in der Sprache L verfassten sicherheitsrelevanten Hinweistext T (Schritt S2), zum Beispiel aufgrund einer vom Sicherheitssystem FS technisch erfassten kritischen Umwelt- , Verkehrs-, Passagier- oder Fahrzeugsituation GF und übermittelt ihn an das für die (natürliche) Sprachsynthese zuständige Teilsystem G (Schritt S3). Das Teilsystem G ist dabei deutlich geringer als Teilsystem A oder gar nicht zertifiziert. Parallel dazu zerlegt das Teilsystem A den Hinweistext T, zum Beispiel anhand der phonetischen Wörterbuchdatenbank WDB, in eine Phonemsequenz PS (Schritt S4) und gibt diese an das je nach geforderter Sicherheitsstufe von S zertifiziertes Teilsystem M weiter (Schritt S5).
-
Das Teilsystem G nimmt eine natursprachliche Sprachsynthese des Hinweistextes T vor und braucht nicht notwendigerweise zertifiziert zu sein, da der sicherheitstechnische Nachweis für alle möglichen Texte T zu aufwendig wäre. Das Teilsystem G berechnet eine Sprachausgabesequenz SQ als Folge von Abtastwerten einer Dauer td (Schritt S6) und gibt diese an das Teilsystem M weiter (Schritt S7).
-
Das Teilsystem M, das auch deutlicher einfacher aufgebaut sein kann als G, überprüft nun sukzessive z.B. anhand von Optimalfiltern (Matched Filter) ob und in welchen Zeitabschnitten ti die Phoneme Pi der Phonemsequenz PS in der Sprachausgabesequenz SQ enthalten sind und ordnet diesen einen Code Ci zu. Am Ende dieses Prozesses kodiert der so entstandene Gesamtcode Cg, der sich aus den einzelnen Ci Codes zusammensetzt, die in SQ enthaltene Phonemsequenz PS. Der Gesamtcode Cg moduliert dann einen Trägercode Cprbsl zu einer resultierenden Codesequenz Cgl (Schritt S8), die mit einer (oder mehreren) Trägerfrequenzen fg zu einem Signal Sgl gemischt wird (Schritt S9). Diese Enkodierung ist beispielhaft auch in 5 dargestellt.
-
Alternativ, wenn das Teilsystem M nicht nach einer Sicherheitsstufe zertifiziert werden kann oder soll, kann es von dem Teilsystem A überwacht werden und dazu die sukzessive ermittelten Ergebnisse der Filteranalyse für die in der Sprachausgabesequenz SQ enthaltenen Phoneme Si dem System A mitteilen. Wenn eine sehr hohe Sicherheitsstufe gefordert ist und Fehler durch die Kenntnis der erwarteten Phonemsequenz PS in Teilsystem M ausgeschlossen werden sollen, kann die Filteranalyse ohne die Kenntnis der erwarteten Phonemsequenz PS durch eine Überprüfung auf allen möglichen Phonemen erfolgen.
-
Damit das Vorhandensein des einzelnen Phonems Pi im Zeitabschnitt ti nachgewiesen werden kann, wird einem zum Trägercode Cprbsl orthogonaler (d.h. die Kreuzkorrellierte beider Codes ist im Mittel Null) und deutlich kürzeren Code Cprbsk in den Zeitabschnitten ti ein Indexcode I aufmoduliert, der den resultierenden Code Cik ergibt. Damit für die kurze Ausgabedauer des Phonems Pi möglichst viele Wiederholungen von Cik möglich sind, kann der Index I durch eine Grenze beschränkt sein, damit die Codierung des Index I bei zeitlich kurz andauernden Phonemen auch selbst kurz bleiben kann. Der Index I kann auch durch einen für das Phonem Pi charakteristischen Wert berechnet werden. Der Gesamtcode Cik moduliert dann einen Trägercode Cprbsk zu einer resultierenden Codesequenz Cik, die mit einer (oder mehreren) Trägerfrequenzen fi zu einem Signal Sik gemischt wird (Schritt S10). Um möglichst viele Wiederholungen von Cik in dem Übertragungszeitraum zu ermöglichen, ist es vorteilhaft, höhere Trägerfrequenzen fi zu benutzen und umgekehrt für den Gesamtcode einen niedrigen Frequenzbereich für fg vorzusehen. ). Diese Enkodierung ist beispielhaft auch in 5 dargestellt.
-
Damit die zusätzlichen Codesequenzen im Ausgangssignal Q unhörbar bleiben und trotzdem ein sicheres Erkennen der im Ausgangssignal enthaltenen Codes Cgl und Cik mittels Korrelationsverfahren möglich ist, werden die gewichteten Signale Sgl und Sik zu einem Summensignal Sgi addiert und ein auf SQ angepasstes akustisches Wasserzeichen W berechnet und SQ überlagert, dass das Ausgangssignal Q ergibt (Schritt S11). Dabei wird der Code Cgl viele Male N während der td langen Sprachausgabe im Wasserzeichen mit einer Periodendauer tg/N wiederholt. Ebenso wird das kürzere Cik viele Male M während der ti langen Phonemdauer im Wasserzeichen mit einer Periodendauer ti/M wiederholt. Die Gewichtung von Sgl und Sik kann dabei so vorgenommen werden, dass die kürzeren Phoneme Sik ein vergleichsweises höheres Gewicht erhalten um die kürzere Erkennungszeit im Empfänger/Sprachmonitor auszugleichen. Diese Enkodierung ist beispielhaft auch in 5 dargestellt.
-
Die Audioausgabesteuerung in A reduziert oder mutet mit einem Steuersignal MU die Lautstärke aller anderen Audioquellen R im Verstärker V (Schritt S12) und gibt das Ausgangssignal Q an die Audioausgabeeinheit LS aus (Schritt S13).
-
Das Ausgangssignal Q kann dann auf dem Übertragungsweg zum Benutzer abgeleitet oder mit dem Schallsensor MI (mit eventuell zusätzlichen Störungen) erfasst werden und dem Sprachmonitorsystem SM als Eingangssignal zugeführt werden. Die vorhandenen Codierungen können dann mit dem Sprachmonitorsystem SM, das nicht zertifiziert zu sein braucht, berechnet werden. Beispielhaft ist solch eine Signalverarbeitung in 6 dargestellt. Das Sprachmonitorsystem SM berechnet aus den Eingangssignalen die geschätzten Codesequenzen Ci' und Cg' (Schritt S14). Es darf dazu nur die Eingangssignale benutzen und keine konkreten Daten oder Wissen über die Codes aus dem Teilsystem M oder dem Teilsystem A benutzen.
-
Die von dem Sprachmonitorsystem SM berechneten Codierungen werden an das Teilsystem A zur Überprüfung weitergegeben (Schritt S15), dass aus den empfangenen Daten die übertragene Phonemsequenz und das aktuelle Phonem dekodieren und vergleichen kann (Schritt S16).
-
Die Sprachausgabe wird beendet, wenn das Teilsystem A keine Fehler zwischen der übertragenen Phenomsequenz und dem aktuellen Phenom feststellt (Schritt S17). Kein Fehler liegt auch vor, wenn der Fehler unter einer bestimmten Fehlerschwelle liegt.
-
Wenn das Teilsystem A jedoch Fehler feststellt, wird die Sprachausgabe so lange wiederholt (eventuell mit höherer Lautstärke und gemutetem Restsystem) bis eine Erkennung erfolgt, oder das System bei Gefahr im Verzug in den sicheren Zustand wechselt (Schritt S18).
-
In Fahrzeugen kann insbesondere der Schallwandler und der Schallsensor auch in Form von Verkleidungsbauteilen ausgestaltet sein. Weiterhin kann auch das räumlich gezielte Aussenden von Schallwellen per Laser ausgeführt werden.
-
Obwohl die Erfindung im Detail durch die bevorzugten Ausführungsbeispiele näher illustriert und beschrieben wurde, ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt. Variationen hiervon können vom Fachmann abgeleitet werden, ohne den Schutzumfang der Erfindung, wie er durch die nachfolgenden Patentansprüche definiert wird, zu verlassen.