DE102017217746A1

DE102017217746A1 - Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Aktivieren einer Sprachverarbeitung, Kraftfahrzeug und Nutzerendgerät mit einer Sprachsteuerung

Info

Publication number: DE102017217746A1
Application number: DE102017217746.2A
Authority: DE
Inventors: Spyros Kousidis; David Scheler; Mark Pleschka; Sebastian Varges; Zeno Wolze; Kim Maurice Cedziwoda
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2016-12-22
Filing date: 2017-10-05
Publication date: 2018-06-28

Abstract

Ein Verfahren, eine Vorrichtung und ein computerlesbares Speichermedium mit Instruktionen zum Aktivieren einer Sprachverarbeitung. In einem ersten Schritt wird ein Audiosignal empfangen (10), das im Anschluss in einem Speicher gespeichert wird (11). Falls ein Schlüsselwort im Audiosignal detektiert wird (13), wird ein Abschnitt des Audiosignals ermittelt (15), der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort detektiert wurde. Der ermittelte Abschnitt des Audiosignals wird dann an eine Vorrichtung zur Sprachverarbeitung ausgegeben(16).

Description

Die vorliegende Erfindung betrifft ein Verfahren, eine Vorrichtung und ein computerlesbares Speichermedium mit Instruktionen zum Aktivieren einer Sprachverarbeitung. Die Erfindung betrifft weiterhin ein Kraftfahrzeug und ein Nutzerendgerät mit einer Sprachsteuerung, in denen ein erfindungsgemäßes Verfahren oder eine erfindungsgemäße Vorrichtung eingesetzt wird.
Mit einem Sprachdialogsystem können Nutzer über eine Sprachschnittstelle teil- oder vollautomatisierte Dialoge in weitgehend natürlicher Sprache führen. Derartige Sprachdialogsysteme sind beispielsweise aus dem Bereich der Telefondienste bekannt. Bei derartigen Anwendungen erfolgt die gesamte Sprachverarbeitung durch ein Rechnersystem auf Seiten des Dienstanbieters.
Beispielsweise offenbart die EP 1 074 017 B1 eine sprachgesteuerte Nutzerschnittstelle, bei der die Kommunikation mit einem Nutzer über ein Telefon erfolgt. Die Nutzerschnittstelle weist eine simulierte Persönlichkeit auf, wobei die Persönlichkeit dabei als die Gesamtheit der gesprochenen sprachlichen Merkmale definiert ist, die den kollektiven Charakter, das Verhalten, das Temperament, die Gefühle und die geistigen Eigenschaften eines Menschen simulieren.
Daneben finden zunehmend auch geräteintegrierte Sprachdialogsysteme Verwendung, beispielsweise bei Navigationssystemen in Kraftfahrzeugen, die mittels Spracheingabe gesteuert werden können, oder bei Freisprecheinrichtungen in Kraftfahrzeugen, über die Funktionen des Kraftfahrzeugs kontrolliert werden können.
Ein weiterer Anwendungsbereich von Sprachdialogsystemen sind „Smart Home“-Geräte, d.h. Geräte für ein intelligentes Zuhause. Unter dem Oberbegriff Smart Home werden technische Verfahren und Systeme zusammengefasst, mit denen eine höhere Wohn- und Lebensqualität, eine gesteigerte Sicherheit sowie eine effizientere Energienutzung erzielt werden sollen. Basis dafür sind vernetzte und fernsteuerbare Geräte sowie automatisierbare Abläufe. Zum Teil erlauben solche Geräte eine sprachbasierte Interaktion mit einem intelligenten persönlichen Assistenten. Da eine qualitativ hochwertige Sprachverarbeitung eine hohe Rechenleistung erfordert, erfolgt bei solchen Geräten die Sprachverarbeitung überwiegend durch Rechnersysteme auf Seiten des Anbieters des intelligenten persönlichen Assistenten. Lediglich für die Aktivierung der Sprachverarbeitung erfolgt eine begrenzte Spracherkennung durch das nutzerseitige Gerät.
Aktuelle Sprachdialogsysteme können auf unterschiedliche Weise durch den Nutzer aktiviert werden, wobei die Sprachdialogsysteme auch mehrere Möglichkeiten zur Aktivierung parallel anbieten können.
Eine erster Ansatz besteht darin, dass der Nutzer eine Taste betätigen muss, um eine Spracheingabe zu ermöglichen. Nach Betätigung der Taste erfolgt zunächst eine akustische Rückmeldung des Systems, beispielsweise in Form eines Signaltons oder durch eine Sprachausgabe. Im Anschluss kann der Nutzer einen Sprachbefehl äußern, der vom System erfasst und verarbeitet wird.
Bei einem zweiten Ansatz erfolgt eine Aktivierung des Sprachdialogsystems dadurch, dass der Nutzer ein Schlüsselwort spricht, das vom System erfasst und ausgewertet wird. Das Schlüsselwort ist nicht zwingend ein einzelnes Wort, es kann sich auch um eine Wortfolge handeln. Nach erfolgreicher Erkennung des Schlüsselwortes erfolgt üblicherweise zunächst eine akustische Rückmeldung des Systems. Wie schon beim ersten Ansatz kann dazu ein Signalton oder eine Sprachausgabe genutzt werden. Wie zuvor kann der Nutzer anschließend einen Sprachbefehl äußern, der vom System erfasst und verarbeitet wird. Da das Sprachdialogsystem durch das Nennen des Schlüsselwortes aus einem Ruhezustand aufgeweckt wird, hat sich als alternative Bezeichnung für das Schlüsselwort auch der Begriff der „Wake-Up-Phrase“ bzw. Weckphrase etabliert.
In diesem Zusammenhang offenbart die DE 10 2013 108 627 B4 ein sprachgesteuertes Kommunikationssystem, das ein Gerät mit einer zugeordneten Spracheingabe- und Ausgabeeinheit sowie eine zentrale Rechnereinheit umfasst. Das Gerät und die Rechnereinheit weisen Mittel zur Datenübertragung auf, wobei mit der Spracheingabe- und Ausgabeeinheit eine Sprachsteuerung für auf dem Gerät und/oder der Rechnereinheit implementierte Funktionen erfolgt, welche unabhängig von den Positionen und/oder fest an die Rechnereinheiten gekoppelten Ein-/Ausgabeeinheiten sind. Die Spracheingabeeinheit umfasst ein Sprachüberwachungsmittel, das unabhängig von dem Betriebszustand der Spracheingabe- und Ausgabeeinheit und der Rechnereinheit betreibbar ist, und das bei Detektion zumindest eines vorbestimmbaren Sprachbefehls eine Aktivierung des Gerätes vornehmen kann.
Gemäß einem dritten Ansatz spricht der Nutzer das Schlüsselwort direkt gefolgt von einer Spracheingabe in einem einzigen Satz. In diesem Fall erfolgt unmittelbar nach Erkennung des Schlüsselwortes keine akustische Rückmeldung des Systems.
Es ist eine Aufgabe der Erfindung, verbesserte Lösungen zum Aktivieren einer Sprachverarbeitung aufzuzeigen.
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1, durch ein computerlesbares Speichermedium mit Instruktionen gemäß Anspruch 9 und durch eine Vorrichtung mit den Merkmalen des Anspruchs 10 gelöst. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der abhängigen Ansprüche.
Gemäß einem ersten Aspekt der Erfindung umfasst ein Verfahren zum Aktivieren einer Sprachverarbeitung die Schritte:

- Empfangen eines Audiosignals;
- Speichern des Audiosignals in einem Speicher;
- Detektieren eines Schlüsselwortes im Audiosignal;
- Ermitteln eines Abschnitts des gespeicherten Audiosignals, der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort detektiert wurde; und
- Ausgeben des ermittelten Abschnitts des Audiosignals an eine Vorrichtung zur Sprachverarbeitung.

Gemäß einem weiteren Aspekt der Erfindung enthält ein computerlesbares Speichermedium Instruktionen, die bei Ausführung durch einen Computer den Computer zur Ausführung der folgende Schritte zum Aktivieren einer Sprachverarbeitung veranlassen:

Der Begriff Computer ist dabei breit zu verstehen. Insbesondere umfasst er auch Steuergeräte und andere prozessorbasierte Datenverarbeitungsvorrichtungen.
Gemäß einem weiteren Aspekt der Erfindung weist eine Vorrichtung zum Aktivieren einer Sprachverarbeitung auf:

- einen Eingang zum Empfangen eines Audiosignals;
- einen Speicher zum Speichern des Audiosignals;
- ein Schlüsselworterkennungsmodul zum Detektieren eines Schlüsselwortes im Audiosignal;
- ein Hauptmodul zum Ermitteln eines Abschnitts des gespeicherten Audiosignals, der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort detektiert wurde; und
- einen Ausgang zum Ausgeben des ermittelten Abschnitts des gespeicherten Audiosignals an eine Vorrichtung zur Sprachverarbeitung.

Die erfindungsgemäße Lösung erweitert die bekannten Ansätze dahingehend, dass das Schlüsselwort an einer beliebigen Stelle der Sprachäußerung auftreten darf, insbesondere also auch am Ende der Sprachäußerung oder mitten in der Sprachäußerung. Die drei folgenden Sprachäußerung führen daher gleichermaßen zum gewünschten Ergebnis, einem Anruf unter der Mobilfunknummer eines bestimmten Kontaktes:

a) „Computer, ich möchte Max Mustermann auf seinem Mobiltelefon anrufen.“
b) „Ich möchte Max Mustermann auf seinem Mobiltelefon anrufen, Computer.“
c) „Ich möchte Max Mustermann anrufen, Computer, und zwar auf seinem Mobiltelefon.“

Die erfindungsgemäße Lösung ermöglicht eine deutlich natürlichere und dadurch intuitivere Sprachkommunikation, da alle Varianten des Satzbaus, mit denen sich Menschen untereinander per Namen adressieren, ermöglicht werden. Während bei den bekannten Lösungen, die auf einem Schlüsselwort basieren, das Schlüsselwort immer am Anfang der Eingabe gesprochen werden muss, werden bei der erfindungsgemäßen Lösung auch Eingaben verarbeitet, bei denen das Schlüsselwort nach dem Sprachbefehl oder inmitten des Sprachbefehls gesprochen wurde.
Gemäß einem Aspekt der Erfindung werden Zeitstempel zumindest eines Sprachanfangs und eines Sprachendes im Audiosignal detektiert und verfügbar gemacht. Beispielsweise können die Zeitstempel in einer Tabelle mit Bezug auf das gespeicherte Audiosignal abgelegt werden. Basierend auf den Zeitstempeln können mit geringem Rechenaufwand einzelne Sprachäußerungen des Nutzers ermittelt werden.
Gemäß einem Aspekt der Erfindung wird ein Ende einer Sprachäußerung detektiert, wenn auf ein detektiertes Sprachende eine Sprachpause mit mindestens einer vorgegebenen Länge folgt. Dabei ist die vorgegebene Länge der Sprachpause vorzugsweise konfigurierbar. Auf diese Weise kann sichergestellt werden, dass kurze Pausen innerhalb einer Sprachäußerung nicht dazu führen, dass vorzeitig das Ende einer Sprachäußerung festgestellt wird. Durch die Konfigurierbarkeit der vorgegebenen Länge kann eine Anpassung an unterschiedliche Sprechrhythmen verschiedener Nutzer erfolgen.
Gemäß einem Aspekt der Erfindung wird ein Zeitintervall des Auftretens des Schlüsselwortes erfasst. Das Zeitintervall des Auftretens des Schlüsselwortes kann dann beim Ausgeben des ermittelten Abschnitts des Audiosignals mit Stille maskiert oder ausgelassen werden. Auf diese Weise wird für die Sprachverarbeitung eine Sprachäußerung ohne Schlüsselwort zur Verfügung gestellt. Dies vereinfacht die weitere Verarbeitung der Sprachäußerung, da das Schlüsselwort keine relevante inhaltliche Bedeutung für die Sprachäußerung hat.
Gemäß einem Aspekt der Erfindung ist der Speicher ein Ringspeicher. Vorzugsweise ist der Speicher zeitindiziert. Durch die Verwendung eines Ringspeichers, bei dem die ältesten Inhalte überschrieben werden, wenn der Speicher voll ist, kann der Speicherbedarf zur Umsetzung der erfindungsgemäßen Lösung minimiert werden. Die Zeitindizierung des Speichers erlaubt es zudem, einen gewünschten Abschnitt der gespeicherten Inhalte einfach durch Angabe der Startzeit und der Endzeit aus dem Speicher auszulesen.
Besonders vorteilhaft wird ein erfindungsgemäßes Verfahren oder eine erfindungsgemäße Vorrichtung in einem Fahrzeug, insbesondere einem Kraftfahrzeug, eingesetzt. Weiterhin kann ein erfindungsgemäßes Verfahren oder eine erfindungsgemäße Vorrichtung auch in Nutzerendgeräten genutzt werden, beispielsweise in Smartphones, „Smart Home“-Geräten, PCs und Laptops, etc.
Weitere Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung und den angehängten Ansprüchen in Verbindung mit den Figuren ersichtlich.

1 zeigt schematisch ein Verfahren zum Aktivieren einer Sprachverarbeitung;
2 zeigt eine erste Ausführungsform einer Vorrichtung zum Aktivieren einer Sprachverarbeitung;
3 zeigt eine zweite Ausführungsform einer Vorrichtung zum Aktivieren einer Sprachverarbeitung;
4 stellt schematisch ein Kraftfahrzeug dar, in dem eine erfindungsgemäße Lösung realisiert ist;
5 zeigt schematisch einen Systementwurf der erfindungsgemäßen Lösung zum Aktivieren einer Sprachverarbeitung;
6 zeigt schematisch drei zeitlich aufeinanderfolgende Sprachäußerungen eines Nutzers;
7 illustriert beispielhaft die Verarbeitung einer Sprachäußerung;
8 veranschaulicht ein Maskieren eines Schlüsselwortes bei der Signalausgabe zur Sprachverarbeitung; und
9 veranschaulicht ein Auslassen eines Schlüsselwortes bei der Signalausgabe zur Sprachverarbeitung.

Zum besseren Verständnis der Prinzipien der vorliegenden Erfindung werden nachfolgend Ausführungsformen der Erfindung anhand der Figuren detaillierter erläutert. Es versteht sich, dass sich die Erfindung nicht auf diese Ausführungsformen beschränkt und dass die beschriebenen Merkmale auch kombiniert oder modifiziert werden können, ohne den Schutzbereich der Erfindung zu verlassen, wie er in den angehängten Ansprüchen definiert ist.
1 zeigt schematisch ein Verfahren zum Aktivieren einer Sprachverarbeitung. In einem ersten Schritt wird ein Audiosignal empfangen 10, das im Anschluss in einem Speicher gespeichert wird 11, z.B. in einem Ringspeicher. Vorzugsweise ist der Speicher zeitindiziert. Zum Ermitteln von Sprachäußerungen werden parallel zum Speichern 11 des Audiosignals oder im Anschluss an das Speichern 11 des Audiosignals zumindest ein Sprachanfang und ein Sprachende im Audiosignal detektiert 12 und verfügbar gemacht, beispielsweise in Form von zugehörigen Zeitstempeln. Vorzugsweise wird nur dann ein Ende einer Sprachäußerung detektiert, wenn auf ein detektiertes Sprachende eine Sprachpause mit mindestens einer vorgegebenen Länge folgt. Die vorgegebene Länge der Sprachpause kann dabei konfigurierbar sein. Wenn ein Schlüsselwort im Audiosignal detektiert wird 13, kann zudem ein Zeitintervall des Auftretens des Schlüsselwortes erfasst werden 14. Basierend auf den verfügbaren Informationen wird ein Abschnitt des Audiosignals ermittelt 15, der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort detektiert wurde. Der ermittelte Abschnitt des Audiosignals wird dann aus dem Speicher ausgelesen und an eine Vorrichtung zur Sprachverarbeitung ausgegeben 16. Dabei kann das Zeitintervall des Auftretens des Schlüsselwortes beim Ausgeben 16 des Abschnitts des Audiosignals mit Stille maskiert oder ausgelassen werden.
2 zeigt eine vereinfachte schematische Darstellung einer ersten Ausführungsform einer Vorrichtung 20 zum Aktivieren einer Sprachverarbeitung. Die Vorrichtung 20 hat einen Eingang 21, über den ein Audiosignal empfangen werden kann, z.B. von einem Mikrofon oder einer anderen Audioquelle 50, sowie einen Speicher 26, in dem das empfangene Audiosignal gespeichert wird. Der Speicher 26 kann z.B. ein Ringspeicher sein und ist vorzugsweise zeitindiziert. Ein Schlüsselworterkennungsmodul 22 detektiert ein Schlüsselwort im Audiosignal. Dabei kann zudem ein Zeitintervall des Auftretens des Schlüsselwortes erfasst werden. Ein Sprachdetektor 23 detektiert zumindest einen Sprachanfang und ein Sprachende im Audiosignal, die für weitere Verarbeitungsschritte verfügbar gemacht werden, z.B. durch die Ausgabe entsprechender Zeitstempel. Diese Informationen ermöglichen es, Sprachäußerungen zu ermitteln. Vorzugsweise wird nur dann ein Ende einer Sprachäußerung ermittelt, wenn auf ein detektiertes Sprachende eine Sprachpause mit mindestens einer vorgegebenen Länge folgt. Die vorgegebene Länge der Sprachpause kann dabei konfigurierbar sein. Mittels eines Hauptmoduls 24 wird ein Abschnitt des Audiosignals ermittelt, der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort detektiert wurde. Über einen Ausgang 27 der Vorrichtung 20 wird der ermittelte Abschnitt des Audiosignals an eine Vorrichtung 51 zur Sprachverarbeitung ausgegeben. Dabei kann das Hauptmodul 24 eingerichtet sein, das Zeitintervall des Auftretens des Schlüsselwortes beim Ausgeben des Abschnitts des Audiosignals mit Stille zu maskieren oder auszulassen.
Das Schlüsselworterkennungsmodul 22, der Sprachdetektor 23 und das Hauptmodul 24 können von einer Kontrolleinheit 25 gesteuert werden. Über eine Benutzerschnittstelle 28 können gegebenenfalls Einstellungen des Schlüsselworterkennungsmoduls 22, des Sprachdetektors 23, des Hauptmoduls 24 oder der Kontrolleinheit 25 geändert werden. Die in der Vorrichtung 20 anfallenden Daten können bei Bedarf im Speicher 26 abgelegt werden, beispielsweise für eine spätere Auswertung oder für eine Nutzung durch die Komponenten der Vorrichtung 20. Das Schlüsselworterkennungsmodul 22, der Sprachdetektor 23, das Hauptmodul 24 sowie die Kontrolleinheit 25 können als dedizierte Hardware realisiert sein, beispielsweise als integrierte Schaltungen. Natürlich können sie aber auch teilweise oder vollständig kombiniert oder als Software implementiert werden, die auf einem geeigneten Prozessor läuft, beispielsweise auf einer GPU. Der Eingang 21 und der Ausgang 27 können als getrennte Schnittstellen oder als eine kombinierte bidirektionale Schnittstelle implementiert sein. Die Vorrichtung 20 kann zudem in die Vorrichtung 51 zur Sprachverarbeitung integriert sein.
3 zeigt eine vereinfachte schematische Darstellung einer zweiten Ausführungsform einer Vorrichtung 30 zum Aktivieren einer Sprachverarbeitung. Die Vorrichtung 30 weist einen Prozessor 32 und einen Speicher 31 auf. Beispielsweise handelt es sich bei der Vorrichtung 30 um einen Computer oder ein Steuergerät. Im Speicher 31 sind Instruktionen abgelegt, die die Vorrichtung 30 bei Ausführung durch den Prozessor 32 veranlassen, die Schritte gemäß einem der beschriebenen Verfahren auszuführen. Die im Speicher 31 abgelegten Instruktionen verkörpern somit ein durch den Prozessor 32 ausführbares Programm, welches das erfindungsgemäße Verfahren realisiert. Die Vorrichtung 30 hat einen Eingang 33 zum Empfangen von Audiodaten, z.B. von einem Mikrofon oder einer anderen Audioquelle. Vom Prozessor 32 generierte Daten werden über einen Ausgang 34 bereitgestellt. Darüber hinaus können sie im Speicher 31 abgelegt werden. Der Eingang 33 und der Ausgang 34 können zu einer bidirektionalen Schnittstelle zusammengefasst sein.
Der Prozessor 32 kann eine oder mehrere Prozessoreinheiten umfassen, beispielsweise Mikroprozessoren, digitale Signalprozessoren oder Kombinationen daraus.
Die Speicher 26, 31 der beschriebenen Ausführungsformen können sowohl volatile als auch nicht-volatile Speicherbereiche aufweisen und unterschiedlichste Speichergeräte und Speichermedien umfassen, beispielsweise Festplatten, optische Speichermedien oder Halbleiterspeicher.
4 stellt schematisch ein Kraftfahrzeug 40 dar, in dem eine erfindungsgemäße Lösung realisiert ist. Das Kraftfahrzeug 40 weist eine Bedienvorrichtung 41 auf, beispielsweise ein Infotainment-System mit einem Touchscreen und der Möglichkeit einer Sprachsteuerung. Weiterhin weist das Kraftfahrzeug 40 eine Vorrichtung 20 zum Aktivieren einer Sprachverarbeitung auf. Die Vorrichtung 20 kann auch in die Bedienvorrichtung 41 integriert sein. Weitere Komponenten des Kraftfahrzeugs 40 sind eine Sensorik 42, ein Navigationssystem 43, eine Datenübertragungseinheit 44 sowie eine Reihe von Assistenzsystemen 45, von denen eines exemplarisch dargestellt ist. Mittels der Datenübertragungseinheit 44 kann beispielsweise eine Verbindung zu einem Anbieter eines intelligenten persönlichen Assistenten aufgebaut werden. Zur Speicherung von Daten ist ein Speicher 46 vorhanden. Der Datenaustausch zwischen den verschiedenen Komponenten des Kraftfahrzeugs 40 erfolgt über ein Netzwerk 47.
Nachfolgend soll die Funktionsweise der erfindungsgemäßen Lösung detaillierter anhand der 5 bis 9 erläutert werden.
5 zeigt schematisch einen Systementwurf der erfindungsgemäßen Lösung zum Aktivieren einer Sprachverarbeitung. Das System weist unter anderem ein Schlüsselworterkennungsmodul 22, einen Sprachdetektor 23, ein Hauptmodul 24 und einen Speicher 26 auf.
Über einen Eingang 21 wird ein Audiosignal von einer Audioquelle 50 empfangen. Bei der Audioquelle 50 kann es sich um ein physisches Gerät handeln, beispielsweise ein Mikrophon. Die Audioquelle 50 kann aber ebenso ein Audiodatenstrom, eine Audiodatei oder eine andere Form von Datenquelle sein.
Im Speicher 26 wird eine Kopie der letzten N Millisekunden des empfangenen Audiosignals abgelegt. Vorzugsweise ist der Speicher 26 ein Ringspeicher, d.h. wenn der Speicher 26 voll ist, werden die ältesten Inhalte überschrieben. Abgesehen von den ersten N Millisekunden nach dem Start des Systems sind stets N Millisekunden gespeichertes Audiosignal verfügbar. Der Speicher 26 ist zeitindiziert, d.h. ein gewünschter Abschnitt der gespeicherten Inhalte kann einfach durch Angabe der Startzeit und der Endzeit aus dem Speicher ausgelesen werden.
Das Schlüsselworterkennungsmodul 22 verarbeitet das empfangene Audiosignal in Echtzeit und ist in der Lage, das festgelegte Schlüsselwort zuverlässig zu erkennen. Das Schlüsselworterkennungsmodul 22 ermittelt zudem den zeitlichen Beginn und das zeitliche Ende des Auftretens des Schlüsselwortes mit hoher Genauigkeit. Abweichungen bis zu 20ms sind dabei akzeptabel. Eine Information über das Auftreten des Schlüsselwortes und die zugehörigen Zeitstempel werden an das Hauptmodul 24 weitergegeben. Die zugrunde liegende Technologie der automatischen Spracherkennung, z.B. Hidden-Markov-Modelle, neurale Netzwerke, etc., spielt keine Rolle. Ebenso ohne Bedeutung ist die Art und Weise, wie das Schlüsselwort definiert wird, z.B. mittels einer Texteingabe oder einer Spracheingabe.
Der Sprachdetektor 23 verarbeitet das empfangene Audiosignal in Echtzeit und ist in der Lage, das Auftreten von Sprachanfängen und Sprachenden mit hoher Genauigkeit zu detektieren. Abweichungen bis zu 20ms sind dabei akzeptabel. Die ermittelten Zeitstempel der Sprachanfänge und Sprachenden werden an das Hauptmodul 24 weitergegeben. Vorzugsweise werden die ermittelten Zeitstempel der Sprachanfänge und Sprachenden auch an das Schlüsselworterkennungsmodul 22 weitergegeben, so dass dieses nur die vom Sprachdetektor 23 als Sprache erkannten Abschnitte des Audiosignals verarbeiten muss.
Das Hauptmodul 24 kann auf den Speicher 26 zugreifen und die Inhalte des Speichers 26 verarbeiten. Unter anderem speichert das Hauptmodul 24 die empfangenen Sprachanfänge und Sprachenden, vorzugsweise in Form einer Tabelle mit Zeitstempeln. Nach Erkennung eines Schlüsselwortes durch das Schlüsselworterkennungsmodul 22 analysiert das Hauptmodul 24 die Anfangszeit und die Endzeit des Schlüsselwortes sowie die gespeicherten Zeitstempel der Sprachanfänge und Sprachenden. Basierend auf diesen Daten, insbesondere auf Grundlage der Sprachpausen, entscheidet das Hauptmodul 24, welcher Abschnitt des gespeicherten Audiosignals an eine Vorrichtung 51 zur Sprachverarbeitung weiterzuleiten ist. Das Ergebnis kann mehrere Paare von Sprachanfängen und Sprachenden beinhalten.
Über einen Ausgang 27 wird der aus dem Speicher 26 ausgelesene Sprachabschnitt an die Vorrichtung 51 zur Sprachverarbeitung ausgegeben, beispielsweise als Audiodatenstrom oder als Audiodatei. Auch andere Formen der Ausgabe können genutzt werden.
6 zeigt schematisch drei zeitlich aufeinanderfolgende Sprachäußerungen SE eines Nutzers. In der ersten und der dritten Sprachäußerung SE treten kurze Sprachpausen auf. Die Vorrichtung geht davon aus, dass Sprachäußerungen SE des Nutzers von Sprachpausen mit einer konfigurierbaren Mindestlänge umschlossen sind. Auf diese Weise kann sichergestellt werden, dass kurze Pausen innerhalb einer Sprachäußerung SE die Vorrichtung nicht dazu veranlassen, vorzeitig das Ende einer Sprachäußerung SE festzustellen. Ein Sprachanfang markiert daher entweder den Anfang einer neuen Sprachäußerung SE oder die Fortsetzung einer aktuellen Sprachäußerung SE. Ein Sprachende markiert nur dann ein Ende einer Sprachäußerung SE, wenn sich daran eine Sprachpause mit mindestens der vorgegebenen Länge anschließt.
7 illustriert beispielhaft die Verarbeitung einer Sprachäußerung SE. Die Figur ist in mehrere Bereiche a) bis f) unterteilt, die verschiedene Elemente darstellen. Dabei zeigt:

a) eine Spracheingabe eines Nutzers;
b) einen Ausschnitt des gespeicherten Audiosignals;
c) die Erkennung eines Schlüsselwortes WUP im Audiosignal durch das Schlüsselworterkennungsmodul;
d) vom Sprachdetektor erkannte Sprachanfänge BOS und Sprachenden EOS im Audiosignal;
e) eine auf Grundlage der Sprachanfänge BOS und Sprachenden EOS vom Hauptmodul ermittelte Sprachäußerung SE; und
f) den Abschnitt SEG des Audiosignals, der die Sprachäußerung SE enthält.

Der Sprachdetektor detektiert fortlaufend Sprachanfänge BOS und Sprachenden EOS im empfangenen Audiosignal und macht diese für weitere Verarbeitungsschritte verfügbar. Wenn vom Schlüsselworterkennungsmodul das Auftreten eines Schlüsselwortes WUP im Audiosignal erkannt wird, wird das Timing dieses Auftretens, d.h. Anfangszeit und Endzeit, an das Hauptmodul übermittelt. Wenn die Sprachäußerung, in der das Schlüsselwort erkannt wurde, beendet ist, wird der Abschnitt SEG des Audiosignals, der die Sprachäußerung enthält, unter Verwendung der detektierten Sprachanfänge BOS und Sprachenden EOS vom Hauptmodul ermittelt, aus dem Speicher ausgelesen und an eine Vorrichtung zur Sprachverarbeitung ausgegeben.
Optional kann das Hauptmodul bei der Signalausgabe zur Sprachverarbeitung das Schlüsselwort mit Stille maskieren. Dies wird in 8 veranschaulicht, wobei vereinfacht ein schematischer Signalinhalt über die Zeit dargestellt ist. Alternativ kann das Hauptmodul bei der Signalausgabe zur Sprachverarbeitung das Schlüsselwort auslassen oder überspringen. Dies ist schematisch in 9 dargestellt. Mit beiden Ansätzen wird für die Sprachverarbeitung eine Sprachäußerung ohne Schlüsselwort zur Verfügung gestellt. Dies vereinfacht die weitere Verarbeitung der Sprachäußerung, da das Schlüsselwort keine relevante inhaltliche Bedeutung für die Sprachäußerung hat.
Bezugszeichenliste

10: Empfangen eines Audiosignals
11: Speichern des Audiosignals
12: Detektieren von Sprachanfängen und Sprachenden
13: Detektieren eines Schlüsselwortes
14: Erfassen eines Zeitintervalls für das Schlüsselwort
15: Ermitteln eines benötigten Abschnitts des Audiosignals
16: Ausgeben des ermittelten Abschnitts zur Sprachverarbeitung
20: Vorrichtung
21: Eingang
22: Schlüsselworterkennungsmodul
23: Sprachdetektor
24: Hauptmodul
25: Kontrolleinheit
26: Speicher
27: Ausgang
28: Benutzerschnittstelle
30: Vorrichtung
31: Speicher
32: Prozessor
33: Eingang
34: Ausgang
40: Kraftfahrzeug
41: Bedienvorrichtung
42: Sensorik
43: Navigationssystem
44: Datenübertragungseinheit
45: Assistenzsystem
46: Speicher
47: Netzwerk
50: Audioquelle
51: Vorrichtung zur Sprachverarbeitung
AS: Audiosignal
BOS: Sprachanfang
EOS: Sprachende
SE: Sprachäußerung
SEG: Signalabschnitt
WUP: Schlüsselwort

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

EP 1074017 B1 [0003]
DE 102013108627 B4 [0009]

Claims

Verfahren zum Aktivieren einer Sprachverarbeitung, mit den Schritten: - Empfangen (10) eines Audiosignals (AS); - Speichern (11) des Audiosignals (AS) in einem Speicher (26); - Detektieren (13) eines Schlüsselwortes (WUP) im Audiosignal (AS); - Ermitteln (15) eines Abschnitts (SEG) des gespeicherten Audiosignals (AS), der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort (WUP) detektiert wurde; und - Ausgeben (16) des ermittelten Abschnitts (SEG) des Audiosignals (AS) an eine Vorrichtung (51) zur Sprachverarbeitung.
Verfahren gemäß Anspruch 1, wobei Zeitstempel zumindest eines Sprachanfangs (BOS) und eines Sprachendes (EOS) im Audiosignal (AS) detektiert (12) und verfügbar gemacht werden.
Verfahren gemäß Anspruch 2, wobei ein Ende einer Sprachäußerung detektiert wird, wenn auf ein detektiertes Sprachende (EOS) eine Sprachpause mit mindestens einer vorgegebenen Länge folgt.
Verfahren gemäß Anspruch 3, wobei die vorgegebene Länge der Sprachpause konfigurierbar ist.
Verfahren gemäß einem der vorherigen Ansprüche, wobei ein Zeitintervall des Auftretens des Schlüsselwortes (WUP) erfasst (14) wird.
Verfahren gemäß Anspruch 5, wobei das Zeitintervall des Auftretens des Schlüsselwortes (WUP) beim Ausgeben (16) des ermittelten Abschnitts (SEG) des Audiosignals (AS) mit Stille maskiert oder ausgelassen wird.
Verfahren gemäß einem der vorherigen Ansprüche, wobei der Speicher (26) ein Ringspeicher ist.
Verfahren gemäß einem der vorherigen Ansprüche, wobei der Speicher (26) zeitindiziert ist.
Computerlesbares Speichermedium mit Instruktionen, die bei Ausführung durch einen Computer den Computer zur Ausführung der Schritte eines Verfahrens gemäß einem der Ansprüche 1 bis 8 zum Aktivieren einer Sprachverarbeitung veranlassen.
Vorrichtung (20) zum Aktivieren einer Sprachverarbeitung, mit: - einem Eingang (21) zum Empfangen (10) eines Audiosignals (AS); - einem Speicher (26) zum Speichern (11) des Audiosignals (AS); - einem Schlüsselworterkennungsmodul (22) zum Detektieren (13) eines Schlüsselwortes (WUP) im Audiosignal (AS); - einem Hauptmodul (24) zum Ermitteln (15) eines Abschnitts (SEG) des gespeicherten Audiosignals (AS), der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort (WUP) detektiert wurde; und - einem Ausgang (27) zum Ausgeben (16) des ermittelten Abschnitts (SEG) des gespeicherten Audiosignals (AS) an eine Vorrichtung (51) zur Sprachverarbeitung.
Kraftfahrzeug (40) mit einer Sprachsteuerung, dadurch gekennzeichnet, dass das Kraftfahrzeug (40) eine Vorrichtung (20) gemäß Anspruch 10 aufweist oder eingerichtet ist, ein Verfahren gemäß einem der Ansprüche 1 bis 8 zum Aktivieren einer Sprachverarbeitung auszuführen.
Nutzerendgerät mit einer Sprachsteuerung, dadurch gekennzeichnet, dass das Nutzerendgerät eine Vorrichtung (20) gemäß Anspruch 10 aufweist oder eingerichtet ist, ein Verfahren gemäß einem der Ansprüche 1 bis 8 zum Aktivieren einer Sprachverarbeitung auszuführen.