-
Die Erfindung betrifft eine maschinelle Spracherkennung. Insbesondere betrifft die Erfindung eine Spracherkennung an Bord eines Kraftfahrzeugs.
-
Ein Kraftfahrzeug ist mit einer Vielzahl Funktionen und Assistenten ausgerüstet, von denen zumindest einige mittels Sprachbefehlen gesteuert werden können. Ein Benutzer des Kraftfahrzeugs kann eine Frage oder ein Kommando sprachlich äußern und das Kraftfahrzeug kann auf seine Äußerung reagieren. Zur Erkennung einer Spracheingabe werden üblicherweise Methoden der künstlichen Intelligenz verwendet. Die Spracherkennung kann beispielsweise mittels beaufsichtigten Lernens trainiert werden, wozu eine Vielzahl bekannter sprachlicher Äußerungen einer Mustererkennung zu Grunde gelegt werden kann.
-
Die Erkennungsleistung bekannter Spracherkennungen ist nicht perfekt. Gelegentlich kann ein Benutzer eine gewünschte Funktion auch nach mehrmaligen Versuchen nicht zuverlässig steuern. Derartige Fälle können im Rahmen einer Qualitätssicherung von einem menschlichen Bearbeiter isoliert, analysiert und derart aufbereitet werden, dass das Spracherkennungssystem auch mit solchen Daten trainiert werden kann. Trotzdem verbleiben immer noch einzelne Benutzer oder einzelne Spracheingaben, bei denen eine Erkennungsleistung verbessert werden muss. Außerdem besteht bei der intensiven Bearbeitung einer Spracheingabe durch einen menschlichen Bearbeiter die Gefahr, dass vertrauliche Informationen nach außen gelangen oder einem anderen als dem gewünschten Zweck zugeführt werden.
-
DE 10 2018 109 983 A1 schlägt vor, eine Spracherkennung mittels Gradienten-Boost- oder Ada-Boost durchzuführen.
-
DE 60 316 704 T2 betrifft eine mehrkanalige Spracherkennung in ungünstigen Umgebungen.
-
Eine der vorliegenden Erfindung zu Grunde liegende Aufgabe besteht darin, eine verbesserte Spracherkennung, insbesondere zum Einsatz an Bord eines Fahrzeugs, bereitzustellen. Die Erfindung löst diese Aufgabe mittels der Gegenstände der unabhängigen Ansprüche. Unteransprüche geben bevorzugte Ausführungsformen wieder.
-
Nach einem ersten Aspekt der vorliegenden Erfindung umfasst ein Verfahren zur Spracherkennung Schritte des Erfassens einer Spracheingabe eines Benutzers; des Bestimmens des Benutzers; des Bestimmens eines allgemeinen Erkennungsmodells; des Bestimmens wenigstens eines für den Benutzer personalisierten Erkennungsmodells; und des Erkennens der Spracheingabe mittels einer Kombination des allgemeinen Erkennungsmodells mit dem wenigstens einen personalisierten Erkennungsmodell.
-
Erfindungsgemäß können für den Benutzer eines oder mehrere personalisierte Erkennungsmodelle bereitgestellt werden, die die Erkennungsleistung des allgemeinen Erkennungsmodells in bestimmten, auf den Benutzer zugeschnittenen Fällen, verbessern können. Ein Benutzer, der beispielsweise unübliche Sprachgewohnheiten hat, einen seltenen Dialekt spricht, einem Handicap unterworfen ist oder eine Eingabe auf individuelle Art und Weise äußern möchte, kann mittels der Erfindung besser automatisch verstanden werden. In der Folge kann eine Funktion eines Fahrzeugs, insbesondere eines Kraftfahrzeugs, verbessert gesteuert werden.
-
Eine Sprachverarbeitung kann für beliebig viele Benutzer personalisiert werden und für einen Benutzer können beliebig viele personalisierte Erkennungsmodelle bereitgestellt werden.
-
Es ist weiterhin bevorzugt, dass die Kombination mittels Boosting erfolgt. Dabei handelt es ich um einen Meta-Algorithmus zur Verbindung mehrerer Herangehensweisen, um eine Erkennungsaufgabe verbessert zu lösen. Boosting kann insbesondere mehrere schwache Klassifikatoren zu einem gemeinsamen, starken Klassifikator zusammenführen. Vorliegend bilden das allgemeine Erkennungsmodell und die personalisierten Erkennungsmodelle jeweils Klassifikatoren. Erfindungsgemäß können die Klassifikatoren verbessert zusammen als gegeneinander arbeiten.
-
Ein personalisiertes Erkennungsmodell kann auf die Erkennung einer vorbestimmten Spracheingabe des Benutzers spezialisiert sein. Insbesondere kann ein personalisiertes Erkennungsmodell lediglich eine einzige Spracheingabe eines einzigen Benutzers erkennen. So kann eine hochgradig individualisierte Spracherkennung geschaffen werden.
-
Das personalisierte Erkennungsmodell kann auf der Basis einer manuellen Zuordnung einer Spracheingabe des Benutzers zu einer Eingabe erstellt sein. Anders ausgedrückt kann ein personalisiertes Erkennungsmodell mittels überwachten Lernens trainiert werden. Trainingsdaten hierfür können manuell, beispielsweise durch den Benutzer oder durch entsprechend geschultes Personal, vorverarbeitet werden. Die Vorverarbeitung umfasst üblicherweise ein „Labelling“, also ein Zuordnen einer Spracheingabe zu einer vorbestimmten Eingabe, einem vorbestimmten Inhalt oder einer vorbestimmten Bedeutung.
-
Die Gewichtung eines personalisierten Erkennungsmodells kann desto stärker sein, je besser das Erkennungsmodell gepflegt ist. In einer Ausführungsform wird ein personalisiertes Erkennungsmodell bei der Kombination desto stärker gewichtet, je mehr manuelle Zuordnungen es umfasst. In einer Variante mit automatischen Zuordnungen kann das personalisierte Erkennungsmodell bei der Kombination auch desto stärker gewichtet werden, je mehr automatische Zuordnungen es umfasst.
-
Auch eine Qualität der Gesamtheit der dem Benutzer zugeordneten personalisierten Erkennungsmodelle kann in die Gewichtung der Kombination einfließen. So können die personalisierten Erkennungsmodelle bei der Kombination desto stärker gewichtet werden, je mehr auf den Benutzer personalisierte Erkennungsmodelle vorliegen. Zur Erstellung eines personalisierten Erkennungsmodells kann es erforderlich sein, eine durch das allgemeine Erkennungsmodell falsch erkannte Spracheingabe zu bestimmen. Wird bestimmt, dass eine durch den Benutzer getätigte Spracheingabe falsch erkannt wurde, so kann ein personalisiertes Erkennungsmodell auf der Basis einer manuellen Zuordnung der Spracheingabe zu einer Eingabe erstellt oder aktualisiert werden. Die manuelle Zuordnung kann durch eine beliebige Person erfolgen.
-
Die falsche Bestimmung kann beispielsweise erkannt werden, wenn eine in Antwort auf die erkannte Eingabe eingeleitete Steuerung durch den Benutzer abgebrochen oder rückgängig gemacht wird. Insbesondere wenn dieser Fall mehrmals in Folge auftritt, ist eine Wahrscheinlichkeit, dass der Benutzer eine andere als die ausgeführte Funktion beabsichtigt hat, hoch.
-
In einer weiteren Ausführungsform wird die falsche Bestimmung erkannt, wenn dieselbe Eingabe mit einer vorbestimmten Häufigkeit erkannt wird. Insbesondere kann dieselbe Eingabe innerhalb eines vorbestimmten Zeitintervalls öfter als eine vorbestimmte Anzahl erkannt werden, beispielsweise dreimal innerhalb von 15 Sekunden. Dabei erfasste Spracheingaben des Benutzers können gespeichert und der Erstellung oder Aktualisierung des personalisierten Erkennungsmodells zu Grunde gelegt werden.
-
In noch einer weiteren Ausführungsform kann wenigstens ein Umgebungsparameter aus einem Umfeld des Benutzers durch das personalisierte Erkennungsmodell umfasst sein. Das personalisierte Erkennungsmodell kann beispielsweise einen Fahrzeugzustand umfassen, wobei der Fahrzeugzustand beispielsweise eine geographische Position, einen Startpunkt, einen Zielpunkt, eine Routenwahl, eine Fahrgeschwindigkeit, eine Innenraumtemperatur oder einen ähnlichen, auf das Fahrzeug bezogenen Parameter umfassen kann. Ferner kann der Umgebungsparameter eine Zeit umfassen. Die Zeit kann absolut oder in Bezug auf Gewohnheiten des Benutzers angegeben sein. Beispielsweise kann eine vorbestimmte sprachliche Äußerung bei einer Heimfahrt nach einem Arbeitstag anders ausgewertet werden als bei der Fahrt in einen Urlaub. Ein auf den Benutzer bezogenes Orts- oder Zeitmodell kann einen üblichen Tages- oder Ortsrhythmus des Benutzers berücksichtigen. Der Ortsrhythmus kann üblicherweise gefahrene Strecken oder beispielsweise eine Entfernung zu einem Heimatort umfassen. Weiter kann ein Passagierzustand berücksichtigt werden, der beispielsweise eine Anzahl oder Art vorhandener Smartphones oder eine Anzahl oder Identität an Bord des Fahrzeugs vorhandener Passagiere betreffen kann. Eine Spracheingabe des Benutzers kann nicht nur auf der Basis akustischer Informationen erkannt werden, sondern zusätzlich nur dann, wenn sie in einer - zumindest mit einer vorbestimmten Übereinstimmung - vorbestimmten Situation geäußert wurde. Durch die Berücksichtigung der Umgebungsparameter kann eine Erkennungsleistung des personalisierten Erkennungsmodells verbessert werden.
-
Die Spracherkennung ist weiter bevorzugt zum Einsatz an Bord eines Fahrzeugs eingerichtet und weiter bevorzugt wird in Abhängigkeit einer erkannten Eingabe eine Funktion des Fahrzeugs gesteuert. Die Funktion kann beispielsweise eine Zielführung oder Klimatisierung des Fahrzeugs betreffen. Andere mögliche Funktionen betreffen beispielsweise die Steuerung eines Unterhaltungssystems, des Öffnungszustands eines Verdecks, eines Schiebedachs oder eines Fensters, oder einer inneren oder äußeren Beleuchtungseinrichtung des Fahrzeugs.
-
Nach einem zweiten Aspekt der vorliegenden Erfindung umfasst eine Vorrichtung eine Abtasteinrichtung zur Erfassung einer Spracheingabe eines Benutzers; eine Bestimmungseinrichtung zur Bestimmung des Benutzers; und eine Verarbeitungseinrichtung. Dabei ist die Verarbeitungseinrichtung dazu eingerichtet, ein allgemeines Erkennungsmodell zu bestimmen; wenigstens ein für den Benutzer personalisiertes Erkennungsmodell zu bestimmen; und die Spracheingabe mittels einer Kombination des allgemeinen Erkennungsmodells mit dem wenigstens einen personalisierten Erkennungsmodell zu erkennen.
-
Die Verarbeitungseinrichtung kann dazu eingerichtet sein, ein hierin beschriebenes Verfahren ganz oder teilweise auszuführen. Dazu kann die Verarbeitungseinrichtung einen programmierbaren Mikrocomputer oder Mikrocontroller umfassen und das Verfahren kann in Form eines Computerprogrammprodukts mit Programmcodemitteln vorliegen. Das Verfahren kann auch durch mehrere Verarbeitungseinrichtungen ausgeführt werden, die an unterschiedlichen geographischen Orten angebracht sein können. Das Computerprogrammprodukt kann auch auf einem computerlesbaren Datenträger abgespeichert sein. Merkmale oder Vorteile des Verfahrens können auf die Vorrichtung oder ein entsprechendes System übertragen werden oder umgekehrt.
-
Die Vorrichtung kann insbesondere zur Anbringung in einem Fahrzeug eingerichtet sein. Nach einem weiteren Aspekt der vorliegenden Erfindung umfasst ein Fahrzeug eine hierin beschriebene Vorrichtung. Das Fahrzeug kann insbesondere ein Kraftfahrzeug umfassen, beispielsweise einen Personenkraftwagen, ein Kraftrad, einen Bus oder einen Lastkraftwagen.
-
Nach noch einem weiteren Aspekt der vorliegenden Erfindung umfasst ein System ein hierin beschriebenes Fahrzeug und eine entfernte Stelle, die kommunikativ mit dem Fahrzeug verbunden ist, wobei die Verarbeitungseinrichtung seitens der zentralen Stelle vorgesehen ist.
-
Die Verbindung zwischen dem Fahrzeug und der zentralen Stelle ist bevorzugt wenigstens teilweise drahtlos realisiert. Es können Verarbeitungseinrichtungen sowohl seitens des Fahrzeugs als auch seitens der zentralen Stelle vorgesehen sein. Jeweils ein Teil eines hierin beschriebenen Verfahrens kann auf einer der Verarbeitungseinrichtungen ausgeführt werden. Die entfernte Stelle kann zur Kommunikation mit einer Vielzahl hierin beschriebener Fahrzeuge eingerichtet sein.
-
Die Erfindung wird nun mit Bezug auf die beigefügten Zeichnungen genauer beschrieben, in denen:
- 1 ein System; und
- 2 ein Ablaufdiagramm eines Verfahrens;
illustriert.
-
1 zeigt ein System 100, das ein Fahrzeug 105 und eine entfernte Stelle 110 umfasst. Das Fahrzeug 105 umfasst bevorzugt ein Kraftfahrzeug, weiter bevorzugt einen Personenkraftwagen. An Bord des Kraftfahrzeugs 105 befindet sich üblicherweise wenigstens ein Benutzer 115 einer Vorrichtung 120, die vorliegend an Bord des Fahrzeugs 105 angebracht ist. Der Benutzer 115 kann insbesondere einen Fahrer oder einen Eigentümer des Fahrzeugs 105 umfassen. Es ist zu beachten, dass die Vorrichtung auch außerhalb eines Fahrzeugs 105 angebracht sein kann.
-
Die Vorrichtung 120 umfasst eine Verarbeitungseinrichtung 125, die bevorzugt mit einer Abtasteinrichtung 130 zur Erfassung einer Spracheingabe des Benutzers 115 verbunden ist, sowie mit einer Bestimmungseinrichtung 135 zur Bestimmung des Benutzers 115. Die Abtasteinrichtung 130 kann insbesondere eines oder mehrere Mikrofone an Bord des Fahrzeugs 105 umfassen. Die Bestimmungseinrichtung 135 kann eine Kamera, einen biometrischen Sensor oder eine andere Vorrichtung umfassen, mittels derer der Benutzer 115 erkannt, beziehungsweise seine Identität bestimmt werden kann. In einer Ausführungsform kann der Benutzer 115 auf der Basis seines Stimmprofils mittels der Abtasteinrichtung 130 und der Verarbeitungseinrichtung 125 erkannt werden. Außerdem ist die Verarbeitungseinrichtung 125 bevorzugt mit einer Schnittstelle 140 verbunden, die mit einem oder mehreren Sensoren und/oder Systemen oder Subsystemen an Bord des Fahrzeugs 105 verbunden sein kann. Über die Schnittstelle 140 können einer oder mehrere Umgebungsparameter aus dem Umfeld des Benutzers 115, insbesondere an Bord des Fahrzeugs 105, bereitgestellt werden.
-
Ferner ist die Verarbeitungseinrichtung 125 bevorzugt mit einer Kommunikationseinrichtung 145 verbunden, die eine Kommunikation mit der zentralen Stelle 110 ermöglichen kann. Die Kommunikationseinrichtung 145 ist weiter bevorzugt zur drahtlosen Kommunikation eingerichtet.
-
Die entfernte Stelle 110 umfasst bevorzugt eine weitere Kommunikationseinrichtung 150 als Gegenstück zur Kommunikationseinrichtung 145 der Vorrichtung 120 an Bord des Fahrzeugs 105; darüber hinaus eine weitere Verarbeitungseinrichtung 155 analog der Verarbeitungseinrichtung 125 und bevorzugt einen Datenspeicher 160.
-
Der Datenspeicher 160 ist bevorzugt dazu eingerichtet, ein allgemeines Erkennungsmodell 165 und/oder eines oder mehrere personalisierte Erkennungsmodelle 170 aufzunehmen. Es ist zu beachten, dass der Datenspeicher 160 mit den Erkennungsmodellen 165, 170 auch im Bereich der Vorrichtung 120, insbesondere an Bord des Fahrzeugs 105, vorgesehen sein kann. Aus Gründen der Performanz und der leichteren Aktualisierbarkeit der Erkennungsmodelle 165, 170 ist jedoch bevorzugt, dass zumindest ein Teil der Verarbeitungen, die auf den Erkennungsmodellen 165, 170 ablaufen, seitens der zentralen Stelle 110 durchgeführt wird.
-
Es wird vorgeschlagen, eine Spracheingabe des Benutzers 115 an die Vorrichtung 120 mittels einer Kombination aus dem allgemeinen Erkennungsmodell 165 und einem oder mehreren personalisierten Erkennungsmodellen 170 durchzuführen. Eine Auswahl, welche der im Datenspeicher 160 abgelegten personalisierten Erkennungsmodelle 170 dem Benutzer 115 zugeordnet sind, kann auf der Basis einer Erkennung des Benutzers 115 erfolgen. Eine erkannte Spracheingabe kann zur Steuerung einer Funktion an Bord des Fahrzeugs 105 verwendet werden. Insbesondere kann über die Schnittstelle 140 ein damit verbundener Aktor oder ein System oder Subsystem an Bord des Fahrzeugs 105 in Abhängigkeit des erkannten Sprachbefehls gesteuert werden.
-
2 zeigt ein Ablaufdiagramm eines Verfahrens 200 zur verbesserten Spracherkennung. In einem Schritt 205 kann eine Spracheingabe eines Benutzers 115 erfasst werden, beispielsweise mittels der Abtasteinrichtung 130. In einem Schritt 210 kann ein Benutzer 115 der Vorrichtung 120 abgetastet werden. Als Benutzer 115 kommt insbesondere ein Fahrer des Fahrzeugs 105 in Betracht, sodass beispielsweise eine auf einem Fahrersitz befindliche Person abgetastet werden kann. In anderen Ausführungsformen kann auch eine beliebige andere Person an Bord des Fahrzeugs 105 als Benutzer 115 bestimmt werden. Zur Bestimmung können beliebige Sensoren verwendet werden, beispielsweise eines oder mehrere Mikrofone oder eine oder mehrere Kameras.
-
In einem Schritt 215 können einer oder mehrere Umgebungsparameter des Benutzers 115 erfasst werden. Der oder die Umgebungsparameter können beispielsweise einen Innenraum, einen Außenraum oder einen Betriebsparameter des Fahrzeugs 105 betreffen.
-
In einem Schritt 220 kann bestimmt werden, welche Erkennungsmodelle 165, 170 zur Erkennung der im Schritt 205 erfassten Spracheingabe zur Verfügung stehen. Insbesondere kann bestimmt werden, welches allgemeine Erkennungsmodell 165 vorgesehen ist, sowie welches personalisierte Erkennungsmodell 170 dem Benutzer 115 zugeordnet ist, der im Schritt 210 erkannten wurde. In einem Schritt 225 kann die Spracheingabe des Benutzers 115 auf der Basis der bestimmten Erkennungsmodelle 165, 170 erkannt werden.
-
Dabei werden die Erkennungsmodelle 165, 170 bevorzugt mittels der im Bereich des Maschinenlernens bekannten Methode des Boosting miteinander kombiniert. Zwei oder mehrere Klassifikatoren können miteinander kombiniert werden, um eine gesamte Erkennungsleistung bereitzustellen, die über den Erkennungsleistungen der einzelnen Klassifikatoren liegt. Die Klassifikatoren, also die Erkennungsmodelle 165, 170, können beim Boosting gewichtet werden. Ein Einfluss der personalisierten Erkennungsmodelle 170 kann in Abhängigkeit einer Anzahl dem Benutzer 115 zugeordneter personalisierter Erkennungsmodelle 170 gesteigert sein. Weiter kann eine Gewichtung eines personalisierten Erkennungsmodells 170 in Abhängigkeit der Qualität seiner Definition gesteigert sein. Die Definition kann verbessert werden, indem möglichst viele Spracheingaben bestimmt werden, die dem personalisierten Erkennungsmodell 170 zugeordnet sind. Es ist zu beachten, dass die Schritte 220 und 225 bevorzugt seitens der zentralen Stelle 110 durchgeführt werden, während die Schritte 205 bis 215 und 230 bevorzugt mittels der Vorrichtung 120, weiter bevorzugt an Bord des Fahrzeugs 105, durchgeführt werden.
-
In einem Schritt 230 kann eine Funktion gesteuert werden. Ein Effekt der Steuerung bezieht sich bevorzugt auf den Benutzer 115 oder seine Umgebung. In einer bevorzugten Ausführungsform wird eine Funktion des Fahrzeugs 105 gesteuert, an dessen Bord sich der Benutzer 115 befindet. Die Funktion kann insbesondere eine Funktion des Fahrzeugs 105 umfassen.
-
In einem Schritt 235 kann ein Fehler bei der Erkennung der Spracheingabe des Benutzers 115 bestimmt werden. Die Erkennung eines Fehlers setzt ein personalisiertes Erkennungsmodell 170 üblicherweise nicht voraus. Der Fehler kann beispielsweise erkannt werden, wenn der Benutzer 115 eine Spracheingabe tätigt, deren zugeordnete Funktion er gleich wieder abbricht oder rückgängig macht. Auch eine wiederholte Erkennung desselben Sprachbefehls, insbesondere mit einer vorbestimmten Häufigkeit und weiter bevorzugt innerhalb eines vorbestimmten Zeitabschnitts, kann ein Hinweis auf eine falsch erkannte Spracheingabe sein.
-
In diesem Fall können eine oder mehrere erfasste Spracheingaben des Benutzers 115 manuell einer Eingabe, also einem beabsichtigten Inhalt der Spracheingabe, zugeordnet werden. Diese Zuordnung erfolgt üblicherweise manuell und kann beispielsweise durch den Benutzer 115 durchgeführt werden. Es ist jedoch bevorzugt, dass nach Bestimmen einer falschen Erkennung ein geschultes Personal mit dem Benutzer 115 in Kontakt tritt und im Dialog mit diesem die beabsichtigte Eingabe nachvollzieht. Der Mitarbeiter kann den Benutzer 115 auch bitten, noch eine oder mehrere weitere Spracheingaben desselben Inhalts bereitzustellen, um eine verbreiterte Lerndatenbasis für die Erstellung des personalisierten Erkennungsmodells 170 zu begründen.
-
Das personalisierte Erkennungsmodell 170 kann automatisch oder gesteuert durch den Benutzer 115 bzw. das geschulte Personal aktualisiert oder erstellt werden. Das betroffene personalisierte Erkennungsmodell 170 kann dann in den Datenspeicher 160 verbracht werden, der sich bevorzugt im Bereich der zentralen Stelle 110, in einigen Ausführungsformen jedoch auch an Bord des Fahrzeugs 105 befinden kann.
-
Bezugszeichenliste
-
- 100
- System
- 105
- Fahrzeug
- 110
- entfernte Stelle
- 115
- Benutzer
- 120
- Vorrichtung
- 125
- Verarbeitungseinrichtung
- 130
- Abtasteinrichtung (Mikrofon)
- 135
- Bestimmungseinrichtung (Kamera)
- 140
- Schnittstelle
- 145
- Kommunikationseinrichtung
- 150
- Kommunikationseinrichtung
- 155
- Verarbeitungseinrichtung
- 160
- Datenspeicher
- 165
- allgemeines Erkennungsmodell
- 170
- personalisiertes Erkennungsmodell
- 200
- Verfahren
- 205
- Spracheingabe erfassen
- 210
- Fahrer abtasten
- 215
- Umgebungsparameter erfassen
- 220
- Erkennungsmodelle bestimmen
- 225
- Eingabe erkennen
- 230
- Funktion steuern
- 235
- Fehler erkennen
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 102018109983 A1 [0004]
- DE 60316704 T2 [0005]