DE102017217746A1 - Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Aktivieren einer Sprachverarbeitung, Kraftfahrzeug und Nutzerendgerät mit einer Sprachsteuerung - Google Patents

Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Aktivieren einer Sprachverarbeitung, Kraftfahrzeug und Nutzerendgerät mit einer Sprachsteuerung Download PDF

Info

Publication number
DE102017217746A1
DE102017217746A1 DE102017217746.2A DE102017217746A DE102017217746A1 DE 102017217746 A1 DE102017217746 A1 DE 102017217746A1 DE 102017217746 A DE102017217746 A DE 102017217746A DE 102017217746 A1 DE102017217746 A1 DE 102017217746A1
Authority
DE
Germany
Prior art keywords
audio signal
speech
keyword
voice
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102017217746.2A
Other languages
English (en)
Inventor
Spyros Kousidis
David Scheler
Mark Pleschka
Sebastian Varges
Zeno Wolze
Kim Maurice Cedziwoda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen AG
Original Assignee
Volkswagen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen AG filed Critical Volkswagen AG
Publication of DE102017217746A1 publication Critical patent/DE102017217746A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Telephone Function (AREA)

Abstract

Ein Verfahren, eine Vorrichtung und ein computerlesbares Speichermedium mit Instruktionen zum Aktivieren einer Sprachverarbeitung. In einem ersten Schritt wird ein Audiosignal empfangen (10), das im Anschluss in einem Speicher gespeichert wird (11). Falls ein Schlüsselwort im Audiosignal detektiert wird (13), wird ein Abschnitt des Audiosignals ermittelt (15), der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort detektiert wurde. Der ermittelte Abschnitt des Audiosignals wird dann an eine Vorrichtung zur Sprachverarbeitung ausgegeben(16).

Description

  • Die vorliegende Erfindung betrifft ein Verfahren, eine Vorrichtung und ein computerlesbares Speichermedium mit Instruktionen zum Aktivieren einer Sprachverarbeitung. Die Erfindung betrifft weiterhin ein Kraftfahrzeug und ein Nutzerendgerät mit einer Sprachsteuerung, in denen ein erfindungsgemäßes Verfahren oder eine erfindungsgemäße Vorrichtung eingesetzt wird.
  • Mit einem Sprachdialogsystem können Nutzer über eine Sprachschnittstelle teil- oder vollautomatisierte Dialoge in weitgehend natürlicher Sprache führen. Derartige Sprachdialogsysteme sind beispielsweise aus dem Bereich der Telefondienste bekannt. Bei derartigen Anwendungen erfolgt die gesamte Sprachverarbeitung durch ein Rechnersystem auf Seiten des Dienstanbieters.
  • Beispielsweise offenbart die EP 1 074 017 B1 eine sprachgesteuerte Nutzerschnittstelle, bei der die Kommunikation mit einem Nutzer über ein Telefon erfolgt. Die Nutzerschnittstelle weist eine simulierte Persönlichkeit auf, wobei die Persönlichkeit dabei als die Gesamtheit der gesprochenen sprachlichen Merkmale definiert ist, die den kollektiven Charakter, das Verhalten, das Temperament, die Gefühle und die geistigen Eigenschaften eines Menschen simulieren.
  • Daneben finden zunehmend auch geräteintegrierte Sprachdialogsysteme Verwendung, beispielsweise bei Navigationssystemen in Kraftfahrzeugen, die mittels Spracheingabe gesteuert werden können, oder bei Freisprecheinrichtungen in Kraftfahrzeugen, über die Funktionen des Kraftfahrzeugs kontrolliert werden können.
  • Ein weiterer Anwendungsbereich von Sprachdialogsystemen sind „Smart Home“-Geräte, d.h. Geräte für ein intelligentes Zuhause. Unter dem Oberbegriff Smart Home werden technische Verfahren und Systeme zusammengefasst, mit denen eine höhere Wohn- und Lebensqualität, eine gesteigerte Sicherheit sowie eine effizientere Energienutzung erzielt werden sollen. Basis dafür sind vernetzte und fernsteuerbare Geräte sowie automatisierbare Abläufe. Zum Teil erlauben solche Geräte eine sprachbasierte Interaktion mit einem intelligenten persönlichen Assistenten. Da eine qualitativ hochwertige Sprachverarbeitung eine hohe Rechenleistung erfordert, erfolgt bei solchen Geräten die Sprachverarbeitung überwiegend durch Rechnersysteme auf Seiten des Anbieters des intelligenten persönlichen Assistenten. Lediglich für die Aktivierung der Sprachverarbeitung erfolgt eine begrenzte Spracherkennung durch das nutzerseitige Gerät.
  • Aktuelle Sprachdialogsysteme können auf unterschiedliche Weise durch den Nutzer aktiviert werden, wobei die Sprachdialogsysteme auch mehrere Möglichkeiten zur Aktivierung parallel anbieten können.
  • Eine erster Ansatz besteht darin, dass der Nutzer eine Taste betätigen muss, um eine Spracheingabe zu ermöglichen. Nach Betätigung der Taste erfolgt zunächst eine akustische Rückmeldung des Systems, beispielsweise in Form eines Signaltons oder durch eine Sprachausgabe. Im Anschluss kann der Nutzer einen Sprachbefehl äußern, der vom System erfasst und verarbeitet wird.
  • Bei einem zweiten Ansatz erfolgt eine Aktivierung des Sprachdialogsystems dadurch, dass der Nutzer ein Schlüsselwort spricht, das vom System erfasst und ausgewertet wird. Das Schlüsselwort ist nicht zwingend ein einzelnes Wort, es kann sich auch um eine Wortfolge handeln. Nach erfolgreicher Erkennung des Schlüsselwortes erfolgt üblicherweise zunächst eine akustische Rückmeldung des Systems. Wie schon beim ersten Ansatz kann dazu ein Signalton oder eine Sprachausgabe genutzt werden. Wie zuvor kann der Nutzer anschließend einen Sprachbefehl äußern, der vom System erfasst und verarbeitet wird. Da das Sprachdialogsystem durch das Nennen des Schlüsselwortes aus einem Ruhezustand aufgeweckt wird, hat sich als alternative Bezeichnung für das Schlüsselwort auch der Begriff der „Wake-Up-Phrase“ bzw. Weckphrase etabliert.
  • In diesem Zusammenhang offenbart die DE 10 2013 108 627 B4 ein sprachgesteuertes Kommunikationssystem, das ein Gerät mit einer zugeordneten Spracheingabe- und Ausgabeeinheit sowie eine zentrale Rechnereinheit umfasst. Das Gerät und die Rechnereinheit weisen Mittel zur Datenübertragung auf, wobei mit der Spracheingabe- und Ausgabeeinheit eine Sprachsteuerung für auf dem Gerät und/oder der Rechnereinheit implementierte Funktionen erfolgt, welche unabhängig von den Positionen und/oder fest an die Rechnereinheiten gekoppelten Ein-/Ausgabeeinheiten sind. Die Spracheingabeeinheit umfasst ein Sprachüberwachungsmittel, das unabhängig von dem Betriebszustand der Spracheingabe- und Ausgabeeinheit und der Rechnereinheit betreibbar ist, und das bei Detektion zumindest eines vorbestimmbaren Sprachbefehls eine Aktivierung des Gerätes vornehmen kann.
  • Gemäß einem dritten Ansatz spricht der Nutzer das Schlüsselwort direkt gefolgt von einer Spracheingabe in einem einzigen Satz. In diesem Fall erfolgt unmittelbar nach Erkennung des Schlüsselwortes keine akustische Rückmeldung des Systems.
  • Es ist eine Aufgabe der Erfindung, verbesserte Lösungen zum Aktivieren einer Sprachverarbeitung aufzuzeigen.
  • Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1, durch ein computerlesbares Speichermedium mit Instruktionen gemäß Anspruch 9 und durch eine Vorrichtung mit den Merkmalen des Anspruchs 10 gelöst. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der abhängigen Ansprüche.
  • Gemäß einem ersten Aspekt der Erfindung umfasst ein Verfahren zum Aktivieren einer Sprachverarbeitung die Schritte:
    • - Empfangen eines Audiosignals;
    • - Speichern des Audiosignals in einem Speicher;
    • - Detektieren eines Schlüsselwortes im Audiosignal;
    • - Ermitteln eines Abschnitts des gespeicherten Audiosignals, der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort detektiert wurde; und
    • - Ausgeben des ermittelten Abschnitts des Audiosignals an eine Vorrichtung zur Sprachverarbeitung.
  • Gemäß einem weiteren Aspekt der Erfindung enthält ein computerlesbares Speichermedium Instruktionen, die bei Ausführung durch einen Computer den Computer zur Ausführung der folgende Schritte zum Aktivieren einer Sprachverarbeitung veranlassen:
    • - Empfangen eines Audiosignals;
    • - Speichern des Audiosignals in einem Speicher;
    • - Detektieren eines Schlüsselwortes im Audiosignal;
    • - Ermitteln eines Abschnitts des gespeicherten Audiosignals, der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort detektiert wurde; und
    • - Ausgeben des ermittelten Abschnitts des Audiosignals an eine Vorrichtung zur Sprachverarbeitung.
  • Der Begriff Computer ist dabei breit zu verstehen. Insbesondere umfasst er auch Steuergeräte und andere prozessorbasierte Datenverarbeitungsvorrichtungen.
  • Gemäß einem weiteren Aspekt der Erfindung weist eine Vorrichtung zum Aktivieren einer Sprachverarbeitung auf:
    • - einen Eingang zum Empfangen eines Audiosignals;
    • - einen Speicher zum Speichern des Audiosignals;
    • - ein Schlüsselworterkennungsmodul zum Detektieren eines Schlüsselwortes im Audiosignal;
    • - ein Hauptmodul zum Ermitteln eines Abschnitts des gespeicherten Audiosignals, der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort detektiert wurde; und
    • - einen Ausgang zum Ausgeben des ermittelten Abschnitts des gespeicherten Audiosignals an eine Vorrichtung zur Sprachverarbeitung.
  • Die erfindungsgemäße Lösung erweitert die bekannten Ansätze dahingehend, dass das Schlüsselwort an einer beliebigen Stelle der Sprachäußerung auftreten darf, insbesondere also auch am Ende der Sprachäußerung oder mitten in der Sprachäußerung. Die drei folgenden Sprachäußerung führen daher gleichermaßen zum gewünschten Ergebnis, einem Anruf unter der Mobilfunknummer eines bestimmten Kontaktes:
    1. a) „Computer, ich möchte Max Mustermann auf seinem Mobiltelefon anrufen.“
    2. b) „Ich möchte Max Mustermann auf seinem Mobiltelefon anrufen, Computer.“
    3. c) „Ich möchte Max Mustermann anrufen, Computer, und zwar auf seinem Mobiltelefon.“
  • Die erfindungsgemäße Lösung ermöglicht eine deutlich natürlichere und dadurch intuitivere Sprachkommunikation, da alle Varianten des Satzbaus, mit denen sich Menschen untereinander per Namen adressieren, ermöglicht werden. Während bei den bekannten Lösungen, die auf einem Schlüsselwort basieren, das Schlüsselwort immer am Anfang der Eingabe gesprochen werden muss, werden bei der erfindungsgemäßen Lösung auch Eingaben verarbeitet, bei denen das Schlüsselwort nach dem Sprachbefehl oder inmitten des Sprachbefehls gesprochen wurde.
  • Gemäß einem Aspekt der Erfindung werden Zeitstempel zumindest eines Sprachanfangs und eines Sprachendes im Audiosignal detektiert und verfügbar gemacht. Beispielsweise können die Zeitstempel in einer Tabelle mit Bezug auf das gespeicherte Audiosignal abgelegt werden. Basierend auf den Zeitstempeln können mit geringem Rechenaufwand einzelne Sprachäußerungen des Nutzers ermittelt werden.
  • Gemäß einem Aspekt der Erfindung wird ein Ende einer Sprachäußerung detektiert, wenn auf ein detektiertes Sprachende eine Sprachpause mit mindestens einer vorgegebenen Länge folgt. Dabei ist die vorgegebene Länge der Sprachpause vorzugsweise konfigurierbar. Auf diese Weise kann sichergestellt werden, dass kurze Pausen innerhalb einer Sprachäußerung nicht dazu führen, dass vorzeitig das Ende einer Sprachäußerung festgestellt wird. Durch die Konfigurierbarkeit der vorgegebenen Länge kann eine Anpassung an unterschiedliche Sprechrhythmen verschiedener Nutzer erfolgen.
  • Gemäß einem Aspekt der Erfindung wird ein Zeitintervall des Auftretens des Schlüsselwortes erfasst. Das Zeitintervall des Auftretens des Schlüsselwortes kann dann beim Ausgeben des ermittelten Abschnitts des Audiosignals mit Stille maskiert oder ausgelassen werden. Auf diese Weise wird für die Sprachverarbeitung eine Sprachäußerung ohne Schlüsselwort zur Verfügung gestellt. Dies vereinfacht die weitere Verarbeitung der Sprachäußerung, da das Schlüsselwort keine relevante inhaltliche Bedeutung für die Sprachäußerung hat.
  • Gemäß einem Aspekt der Erfindung ist der Speicher ein Ringspeicher. Vorzugsweise ist der Speicher zeitindiziert. Durch die Verwendung eines Ringspeichers, bei dem die ältesten Inhalte überschrieben werden, wenn der Speicher voll ist, kann der Speicherbedarf zur Umsetzung der erfindungsgemäßen Lösung minimiert werden. Die Zeitindizierung des Speichers erlaubt es zudem, einen gewünschten Abschnitt der gespeicherten Inhalte einfach durch Angabe der Startzeit und der Endzeit aus dem Speicher auszulesen.
  • Besonders vorteilhaft wird ein erfindungsgemäßes Verfahren oder eine erfindungsgemäße Vorrichtung in einem Fahrzeug, insbesondere einem Kraftfahrzeug, eingesetzt. Weiterhin kann ein erfindungsgemäßes Verfahren oder eine erfindungsgemäße Vorrichtung auch in Nutzerendgeräten genutzt werden, beispielsweise in Smartphones, „Smart Home“-Geräten, PCs und Laptops, etc.
  • Weitere Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung und den angehängten Ansprüchen in Verbindung mit den Figuren ersichtlich.
    • 1 zeigt schematisch ein Verfahren zum Aktivieren einer Sprachverarbeitung;
    • 2 zeigt eine erste Ausführungsform einer Vorrichtung zum Aktivieren einer Sprachverarbeitung;
    • 3 zeigt eine zweite Ausführungsform einer Vorrichtung zum Aktivieren einer Sprachverarbeitung;
    • 4 stellt schematisch ein Kraftfahrzeug dar, in dem eine erfindungsgemäße Lösung realisiert ist;
    • 5 zeigt schematisch einen Systementwurf der erfindungsgemäßen Lösung zum Aktivieren einer Sprachverarbeitung;
    • 6 zeigt schematisch drei zeitlich aufeinanderfolgende Sprachäußerungen eines Nutzers;
    • 7 illustriert beispielhaft die Verarbeitung einer Sprachäußerung;
    • 8 veranschaulicht ein Maskieren eines Schlüsselwortes bei der Signalausgabe zur Sprachverarbeitung; und
    • 9 veranschaulicht ein Auslassen eines Schlüsselwortes bei der Signalausgabe zur Sprachverarbeitung.
  • Zum besseren Verständnis der Prinzipien der vorliegenden Erfindung werden nachfolgend Ausführungsformen der Erfindung anhand der Figuren detaillierter erläutert. Es versteht sich, dass sich die Erfindung nicht auf diese Ausführungsformen beschränkt und dass die beschriebenen Merkmale auch kombiniert oder modifiziert werden können, ohne den Schutzbereich der Erfindung zu verlassen, wie er in den angehängten Ansprüchen definiert ist.
  • 1 zeigt schematisch ein Verfahren zum Aktivieren einer Sprachverarbeitung. In einem ersten Schritt wird ein Audiosignal empfangen 10, das im Anschluss in einem Speicher gespeichert wird 11, z.B. in einem Ringspeicher. Vorzugsweise ist der Speicher zeitindiziert. Zum Ermitteln von Sprachäußerungen werden parallel zum Speichern 11 des Audiosignals oder im Anschluss an das Speichern 11 des Audiosignals zumindest ein Sprachanfang und ein Sprachende im Audiosignal detektiert 12 und verfügbar gemacht, beispielsweise in Form von zugehörigen Zeitstempeln. Vorzugsweise wird nur dann ein Ende einer Sprachäußerung detektiert, wenn auf ein detektiertes Sprachende eine Sprachpause mit mindestens einer vorgegebenen Länge folgt. Die vorgegebene Länge der Sprachpause kann dabei konfigurierbar sein. Wenn ein Schlüsselwort im Audiosignal detektiert wird 13, kann zudem ein Zeitintervall des Auftretens des Schlüsselwortes erfasst werden 14. Basierend auf den verfügbaren Informationen wird ein Abschnitt des Audiosignals ermittelt 15, der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort detektiert wurde. Der ermittelte Abschnitt des Audiosignals wird dann aus dem Speicher ausgelesen und an eine Vorrichtung zur Sprachverarbeitung ausgegeben 16. Dabei kann das Zeitintervall des Auftretens des Schlüsselwortes beim Ausgeben 16 des Abschnitts des Audiosignals mit Stille maskiert oder ausgelassen werden.
  • 2 zeigt eine vereinfachte schematische Darstellung einer ersten Ausführungsform einer Vorrichtung 20 zum Aktivieren einer Sprachverarbeitung. Die Vorrichtung 20 hat einen Eingang 21, über den ein Audiosignal empfangen werden kann, z.B. von einem Mikrofon oder einer anderen Audioquelle 50, sowie einen Speicher 26, in dem das empfangene Audiosignal gespeichert wird. Der Speicher 26 kann z.B. ein Ringspeicher sein und ist vorzugsweise zeitindiziert. Ein Schlüsselworterkennungsmodul 22 detektiert ein Schlüsselwort im Audiosignal. Dabei kann zudem ein Zeitintervall des Auftretens des Schlüsselwortes erfasst werden. Ein Sprachdetektor 23 detektiert zumindest einen Sprachanfang und ein Sprachende im Audiosignal, die für weitere Verarbeitungsschritte verfügbar gemacht werden, z.B. durch die Ausgabe entsprechender Zeitstempel. Diese Informationen ermöglichen es, Sprachäußerungen zu ermitteln. Vorzugsweise wird nur dann ein Ende einer Sprachäußerung ermittelt, wenn auf ein detektiertes Sprachende eine Sprachpause mit mindestens einer vorgegebenen Länge folgt. Die vorgegebene Länge der Sprachpause kann dabei konfigurierbar sein. Mittels eines Hauptmoduls 24 wird ein Abschnitt des Audiosignals ermittelt, der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort detektiert wurde. Über einen Ausgang 27 der Vorrichtung 20 wird der ermittelte Abschnitt des Audiosignals an eine Vorrichtung 51 zur Sprachverarbeitung ausgegeben. Dabei kann das Hauptmodul 24 eingerichtet sein, das Zeitintervall des Auftretens des Schlüsselwortes beim Ausgeben des Abschnitts des Audiosignals mit Stille zu maskieren oder auszulassen.
  • Das Schlüsselworterkennungsmodul 22, der Sprachdetektor 23 und das Hauptmodul 24 können von einer Kontrolleinheit 25 gesteuert werden. Über eine Benutzerschnittstelle 28 können gegebenenfalls Einstellungen des Schlüsselworterkennungsmoduls 22, des Sprachdetektors 23, des Hauptmoduls 24 oder der Kontrolleinheit 25 geändert werden. Die in der Vorrichtung 20 anfallenden Daten können bei Bedarf im Speicher 26 abgelegt werden, beispielsweise für eine spätere Auswertung oder für eine Nutzung durch die Komponenten der Vorrichtung 20. Das Schlüsselworterkennungsmodul 22, der Sprachdetektor 23, das Hauptmodul 24 sowie die Kontrolleinheit 25 können als dedizierte Hardware realisiert sein, beispielsweise als integrierte Schaltungen. Natürlich können sie aber auch teilweise oder vollständig kombiniert oder als Software implementiert werden, die auf einem geeigneten Prozessor läuft, beispielsweise auf einer GPU. Der Eingang 21 und der Ausgang 27 können als getrennte Schnittstellen oder als eine kombinierte bidirektionale Schnittstelle implementiert sein. Die Vorrichtung 20 kann zudem in die Vorrichtung 51 zur Sprachverarbeitung integriert sein.
  • 3 zeigt eine vereinfachte schematische Darstellung einer zweiten Ausführungsform einer Vorrichtung 30 zum Aktivieren einer Sprachverarbeitung. Die Vorrichtung 30 weist einen Prozessor 32 und einen Speicher 31 auf. Beispielsweise handelt es sich bei der Vorrichtung 30 um einen Computer oder ein Steuergerät. Im Speicher 31 sind Instruktionen abgelegt, die die Vorrichtung 30 bei Ausführung durch den Prozessor 32 veranlassen, die Schritte gemäß einem der beschriebenen Verfahren auszuführen. Die im Speicher 31 abgelegten Instruktionen verkörpern somit ein durch den Prozessor 32 ausführbares Programm, welches das erfindungsgemäße Verfahren realisiert. Die Vorrichtung 30 hat einen Eingang 33 zum Empfangen von Audiodaten, z.B. von einem Mikrofon oder einer anderen Audioquelle. Vom Prozessor 32 generierte Daten werden über einen Ausgang 34 bereitgestellt. Darüber hinaus können sie im Speicher 31 abgelegt werden. Der Eingang 33 und der Ausgang 34 können zu einer bidirektionalen Schnittstelle zusammengefasst sein.
  • Der Prozessor 32 kann eine oder mehrere Prozessoreinheiten umfassen, beispielsweise Mikroprozessoren, digitale Signalprozessoren oder Kombinationen daraus.
  • Die Speicher 26, 31 der beschriebenen Ausführungsformen können sowohl volatile als auch nicht-volatile Speicherbereiche aufweisen und unterschiedlichste Speichergeräte und Speichermedien umfassen, beispielsweise Festplatten, optische Speichermedien oder Halbleiterspeicher.
  • 4 stellt schematisch ein Kraftfahrzeug 40 dar, in dem eine erfindungsgemäße Lösung realisiert ist. Das Kraftfahrzeug 40 weist eine Bedienvorrichtung 41 auf, beispielsweise ein Infotainment-System mit einem Touchscreen und der Möglichkeit einer Sprachsteuerung. Weiterhin weist das Kraftfahrzeug 40 eine Vorrichtung 20 zum Aktivieren einer Sprachverarbeitung auf. Die Vorrichtung 20 kann auch in die Bedienvorrichtung 41 integriert sein. Weitere Komponenten des Kraftfahrzeugs 40 sind eine Sensorik 42, ein Navigationssystem 43, eine Datenübertragungseinheit 44 sowie eine Reihe von Assistenzsystemen 45, von denen eines exemplarisch dargestellt ist. Mittels der Datenübertragungseinheit 44 kann beispielsweise eine Verbindung zu einem Anbieter eines intelligenten persönlichen Assistenten aufgebaut werden. Zur Speicherung von Daten ist ein Speicher 46 vorhanden. Der Datenaustausch zwischen den verschiedenen Komponenten des Kraftfahrzeugs 40 erfolgt über ein Netzwerk 47.
  • Nachfolgend soll die Funktionsweise der erfindungsgemäßen Lösung detaillierter anhand der 5 bis 9 erläutert werden.
  • 5 zeigt schematisch einen Systementwurf der erfindungsgemäßen Lösung zum Aktivieren einer Sprachverarbeitung. Das System weist unter anderem ein Schlüsselworterkennungsmodul 22, einen Sprachdetektor 23, ein Hauptmodul 24 und einen Speicher 26 auf.
  • Über einen Eingang 21 wird ein Audiosignal von einer Audioquelle 50 empfangen. Bei der Audioquelle 50 kann es sich um ein physisches Gerät handeln, beispielsweise ein Mikrophon. Die Audioquelle 50 kann aber ebenso ein Audiodatenstrom, eine Audiodatei oder eine andere Form von Datenquelle sein.
  • Im Speicher 26 wird eine Kopie der letzten N Millisekunden des empfangenen Audiosignals abgelegt. Vorzugsweise ist der Speicher 26 ein Ringspeicher, d.h. wenn der Speicher 26 voll ist, werden die ältesten Inhalte überschrieben. Abgesehen von den ersten N Millisekunden nach dem Start des Systems sind stets N Millisekunden gespeichertes Audiosignal verfügbar. Der Speicher 26 ist zeitindiziert, d.h. ein gewünschter Abschnitt der gespeicherten Inhalte kann einfach durch Angabe der Startzeit und der Endzeit aus dem Speicher ausgelesen werden.
  • Das Schlüsselworterkennungsmodul 22 verarbeitet das empfangene Audiosignal in Echtzeit und ist in der Lage, das festgelegte Schlüsselwort zuverlässig zu erkennen. Das Schlüsselworterkennungsmodul 22 ermittelt zudem den zeitlichen Beginn und das zeitliche Ende des Auftretens des Schlüsselwortes mit hoher Genauigkeit. Abweichungen bis zu 20ms sind dabei akzeptabel. Eine Information über das Auftreten des Schlüsselwortes und die zugehörigen Zeitstempel werden an das Hauptmodul 24 weitergegeben. Die zugrunde liegende Technologie der automatischen Spracherkennung, z.B. Hidden-Markov-Modelle, neurale Netzwerke, etc., spielt keine Rolle. Ebenso ohne Bedeutung ist die Art und Weise, wie das Schlüsselwort definiert wird, z.B. mittels einer Texteingabe oder einer Spracheingabe.
  • Der Sprachdetektor 23 verarbeitet das empfangene Audiosignal in Echtzeit und ist in der Lage, das Auftreten von Sprachanfängen und Sprachenden mit hoher Genauigkeit zu detektieren. Abweichungen bis zu 20ms sind dabei akzeptabel. Die ermittelten Zeitstempel der Sprachanfänge und Sprachenden werden an das Hauptmodul 24 weitergegeben. Vorzugsweise werden die ermittelten Zeitstempel der Sprachanfänge und Sprachenden auch an das Schlüsselworterkennungsmodul 22 weitergegeben, so dass dieses nur die vom Sprachdetektor 23 als Sprache erkannten Abschnitte des Audiosignals verarbeiten muss.
  • Das Hauptmodul 24 kann auf den Speicher 26 zugreifen und die Inhalte des Speichers 26 verarbeiten. Unter anderem speichert das Hauptmodul 24 die empfangenen Sprachanfänge und Sprachenden, vorzugsweise in Form einer Tabelle mit Zeitstempeln. Nach Erkennung eines Schlüsselwortes durch das Schlüsselworterkennungsmodul 22 analysiert das Hauptmodul 24 die Anfangszeit und die Endzeit des Schlüsselwortes sowie die gespeicherten Zeitstempel der Sprachanfänge und Sprachenden. Basierend auf diesen Daten, insbesondere auf Grundlage der Sprachpausen, entscheidet das Hauptmodul 24, welcher Abschnitt des gespeicherten Audiosignals an eine Vorrichtung 51 zur Sprachverarbeitung weiterzuleiten ist. Das Ergebnis kann mehrere Paare von Sprachanfängen und Sprachenden beinhalten.
  • Über einen Ausgang 27 wird der aus dem Speicher 26 ausgelesene Sprachabschnitt an die Vorrichtung 51 zur Sprachverarbeitung ausgegeben, beispielsweise als Audiodatenstrom oder als Audiodatei. Auch andere Formen der Ausgabe können genutzt werden.
  • 6 zeigt schematisch drei zeitlich aufeinanderfolgende Sprachäußerungen SE eines Nutzers. In der ersten und der dritten Sprachäußerung SE treten kurze Sprachpausen auf. Die Vorrichtung geht davon aus, dass Sprachäußerungen SE des Nutzers von Sprachpausen mit einer konfigurierbaren Mindestlänge umschlossen sind. Auf diese Weise kann sichergestellt werden, dass kurze Pausen innerhalb einer Sprachäußerung SE die Vorrichtung nicht dazu veranlassen, vorzeitig das Ende einer Sprachäußerung SE festzustellen. Ein Sprachanfang markiert daher entweder den Anfang einer neuen Sprachäußerung SE oder die Fortsetzung einer aktuellen Sprachäußerung SE. Ein Sprachende markiert nur dann ein Ende einer Sprachäußerung SE, wenn sich daran eine Sprachpause mit mindestens der vorgegebenen Länge anschließt.
  • 7 illustriert beispielhaft die Verarbeitung einer Sprachäußerung SE. Die Figur ist in mehrere Bereiche a) bis f) unterteilt, die verschiedene Elemente darstellen. Dabei zeigt:
    1. a) eine Spracheingabe eines Nutzers;
    2. b) einen Ausschnitt des gespeicherten Audiosignals;
    3. c) die Erkennung eines Schlüsselwortes WUP im Audiosignal durch das Schlüsselworterkennungsmodul;
    4. d) vom Sprachdetektor erkannte Sprachanfänge BOS und Sprachenden EOS im Audiosignal;
    5. e) eine auf Grundlage der Sprachanfänge BOS und Sprachenden EOS vom Hauptmodul ermittelte Sprachäußerung SE; und
    6. f) den Abschnitt SEG des Audiosignals, der die Sprachäußerung SE enthält.
  • Der Sprachdetektor detektiert fortlaufend Sprachanfänge BOS und Sprachenden EOS im empfangenen Audiosignal und macht diese für weitere Verarbeitungsschritte verfügbar. Wenn vom Schlüsselworterkennungsmodul das Auftreten eines Schlüsselwortes WUP im Audiosignal erkannt wird, wird das Timing dieses Auftretens, d.h. Anfangszeit und Endzeit, an das Hauptmodul übermittelt. Wenn die Sprachäußerung, in der das Schlüsselwort erkannt wurde, beendet ist, wird der Abschnitt SEG des Audiosignals, der die Sprachäußerung enthält, unter Verwendung der detektierten Sprachanfänge BOS und Sprachenden EOS vom Hauptmodul ermittelt, aus dem Speicher ausgelesen und an eine Vorrichtung zur Sprachverarbeitung ausgegeben.
  • Optional kann das Hauptmodul bei der Signalausgabe zur Sprachverarbeitung das Schlüsselwort mit Stille maskieren. Dies wird in 8 veranschaulicht, wobei vereinfacht ein schematischer Signalinhalt über die Zeit dargestellt ist. Alternativ kann das Hauptmodul bei der Signalausgabe zur Sprachverarbeitung das Schlüsselwort auslassen oder überspringen. Dies ist schematisch in 9 dargestellt. Mit beiden Ansätzen wird für die Sprachverarbeitung eine Sprachäußerung ohne Schlüsselwort zur Verfügung gestellt. Dies vereinfacht die weitere Verarbeitung der Sprachäußerung, da das Schlüsselwort keine relevante inhaltliche Bedeutung für die Sprachäußerung hat.
  • Bezugszeichenliste
  • 10
    Empfangen eines Audiosignals
    11
    Speichern des Audiosignals
    12
    Detektieren von Sprachanfängen und Sprachenden
    13
    Detektieren eines Schlüsselwortes
    14
    Erfassen eines Zeitintervalls für das Schlüsselwort
    15
    Ermitteln eines benötigten Abschnitts des Audiosignals
    16
    Ausgeben des ermittelten Abschnitts zur Sprachverarbeitung
    20
    Vorrichtung
    21
    Eingang
    22
    Schlüsselworterkennungsmodul
    23
    Sprachdetektor
    24
    Hauptmodul
    25
    Kontrolleinheit
    26
    Speicher
    27
    Ausgang
    28
    Benutzerschnittstelle
    30
    Vorrichtung
    31
    Speicher
    32
    Prozessor
    33
    Eingang
    34
    Ausgang
    40
    Kraftfahrzeug
    41
    Bedienvorrichtung
    42
    Sensorik
    43
    Navigationssystem
    44
    Datenübertragungseinheit
    45
    Assistenzsystem
    46
    Speicher
    47
    Netzwerk
    50
    Audioquelle
    51
    Vorrichtung zur Sprachverarbeitung
    AS
    Audiosignal
    BOS
    Sprachanfang
    EOS
    Sprachende
    SE
    Sprachäußerung
    SEG
    Signalabschnitt
    WUP
    Schlüsselwort
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • EP 1074017 B1 [0003]
    • DE 102013108627 B4 [0009]

Claims (12)

  1. Verfahren zum Aktivieren einer Sprachverarbeitung, mit den Schritten: - Empfangen (10) eines Audiosignals (AS); - Speichern (11) des Audiosignals (AS) in einem Speicher (26); - Detektieren (13) eines Schlüsselwortes (WUP) im Audiosignal (AS); - Ermitteln (15) eines Abschnitts (SEG) des gespeicherten Audiosignals (AS), der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort (WUP) detektiert wurde; und - Ausgeben (16) des ermittelten Abschnitts (SEG) des Audiosignals (AS) an eine Vorrichtung (51) zur Sprachverarbeitung.
  2. Verfahren gemäß Anspruch 1, wobei Zeitstempel zumindest eines Sprachanfangs (BOS) und eines Sprachendes (EOS) im Audiosignal (AS) detektiert (12) und verfügbar gemacht werden.
  3. Verfahren gemäß Anspruch 2, wobei ein Ende einer Sprachäußerung detektiert wird, wenn auf ein detektiertes Sprachende (EOS) eine Sprachpause mit mindestens einer vorgegebenen Länge folgt.
  4. Verfahren gemäß Anspruch 3, wobei die vorgegebene Länge der Sprachpause konfigurierbar ist.
  5. Verfahren gemäß einem der vorherigen Ansprüche, wobei ein Zeitintervall des Auftretens des Schlüsselwortes (WUP) erfasst (14) wird.
  6. Verfahren gemäß Anspruch 5, wobei das Zeitintervall des Auftretens des Schlüsselwortes (WUP) beim Ausgeben (16) des ermittelten Abschnitts (SEG) des Audiosignals (AS) mit Stille maskiert oder ausgelassen wird.
  7. Verfahren gemäß einem der vorherigen Ansprüche, wobei der Speicher (26) ein Ringspeicher ist.
  8. Verfahren gemäß einem der vorherigen Ansprüche, wobei der Speicher (26) zeitindiziert ist.
  9. Computerlesbares Speichermedium mit Instruktionen, die bei Ausführung durch einen Computer den Computer zur Ausführung der Schritte eines Verfahrens gemäß einem der Ansprüche 1 bis 8 zum Aktivieren einer Sprachverarbeitung veranlassen.
  10. Vorrichtung (20) zum Aktivieren einer Sprachverarbeitung, mit: - einem Eingang (21) zum Empfangen (10) eines Audiosignals (AS); - einem Speicher (26) zum Speichern (11) des Audiosignals (AS); - einem Schlüsselworterkennungsmodul (22) zum Detektieren (13) eines Schlüsselwortes (WUP) im Audiosignal (AS); - einem Hauptmodul (24) zum Ermitteln (15) eines Abschnitts (SEG) des gespeicherten Audiosignals (AS), der eine Sprachäußerung umfasst, innerhalb derer das Schlüsselwort (WUP) detektiert wurde; und - einem Ausgang (27) zum Ausgeben (16) des ermittelten Abschnitts (SEG) des gespeicherten Audiosignals (AS) an eine Vorrichtung (51) zur Sprachverarbeitung.
  11. Kraftfahrzeug (40) mit einer Sprachsteuerung, dadurch gekennzeichnet, dass das Kraftfahrzeug (40) eine Vorrichtung (20) gemäß Anspruch 10 aufweist oder eingerichtet ist, ein Verfahren gemäß einem der Ansprüche 1 bis 8 zum Aktivieren einer Sprachverarbeitung auszuführen.
  12. Nutzerendgerät mit einer Sprachsteuerung, dadurch gekennzeichnet, dass das Nutzerendgerät eine Vorrichtung (20) gemäß Anspruch 10 aufweist oder eingerichtet ist, ein Verfahren gemäß einem der Ansprüche 1 bis 8 zum Aktivieren einer Sprachverarbeitung auszuführen.
DE102017217746.2A 2016-12-22 2017-10-05 Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Aktivieren einer Sprachverarbeitung, Kraftfahrzeug und Nutzerendgerät mit einer Sprachsteuerung Pending DE102017217746A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102016015353 2016-12-22
DE102016015353.9 2016-12-22

Publications (1)

Publication Number Publication Date
DE102017217746A1 true DE102017217746A1 (de) 2018-06-28

Family

ID=62510012

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102017217746.2A Pending DE102017217746A1 (de) 2016-12-22 2017-10-05 Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Aktivieren einer Sprachverarbeitung, Kraftfahrzeug und Nutzerendgerät mit einer Sprachsteuerung

Country Status (1)

Country Link
DE (1) DE102017217746A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1074017B1 (de) 1998-05-01 2002-03-06 General Magic, Inc. Sprachgesteuerte benutzerschnittstelle mit persönlichkeit
DE102013108627B4 (de) 2012-10-08 2015-07-23 Mario Daubner Sprachgesteuertes Kommunikationssystem

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1074017B1 (de) 1998-05-01 2002-03-06 General Magic, Inc. Sprachgesteuerte benutzerschnittstelle mit persönlichkeit
DE102013108627B4 (de) 2012-10-08 2015-07-23 Mario Daubner Sprachgesteuertes Kommunikationssystem

Similar Documents

Publication Publication Date Title
DE112018002857T5 (de) Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen
DE102018103188B4 (de) Verfahren zur spracherkennung in einem fahrzeug zur verbesserung der aufgabenerledigung
DE102019111529A1 (de) Automatisierte spracherkennung unter verwendung einer dynamisch einstellbaren hörzeitüberschreitung
DE102017102392A1 (de) Automatische spracherkennung bei stockender sprechweise
WO2009140781A1 (de) Verfahren zur klassifizierung und entfernung unerwünschter anteile aus einer äusserung bei einer spracherkennung
DE102017121059A1 (de) Identifikation und erzeugung von bevorzugten emoji
EP1256936A2 (de) Verfahren zum Training oder zur Adaption eines Spracherkenners
DE102015106280B4 (de) Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen
DE10163213A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
DE10251113A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
EP3108476A1 (de) Verfahren zur erfassung wenigstens zweier zu erfassender informationen mit zu verknüpfendem informationsgehalt durch eine sprachdialogeinrichtung, sprachdialogeinrichtung und kraftfahrzeug
EP3430615A1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
EP2047668B1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
EP1097447A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
EP1168302A2 (de) Spracherkennungssytem mit einem aktiven Bereitschaftszustand
DE102017217746A1 (de) Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Aktivieren einer Sprachverarbeitung, Kraftfahrzeug und Nutzerendgerät mit einer Sprachsteuerung
DE102019133133A1 (de) Assistenzsystem, durch welches in einem Raum die Ausgabe von zumindest einem Medieninhalt gesteuert wird, Kraftfahrzeug und Betriebsverfahren für das Assistenzsystem
EP3115886A1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
DE112018006597B4 (de) Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren
DE102006045719A1 (de) Medizinisches System mit einer Spracheingabevorrichtung
DE19751536C2 (de) Spracherkennungspegelsteuervorrichtung in einem Spracherkennungstelefongerät und zugehöriges Steuerverfahren

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication