DE102019133720A1 - Verbesserte Spracherkennung - Google Patents

Verbesserte Spracherkennung Download PDF

Info

Publication number
DE102019133720A1
DE102019133720A1 DE102019133720.8A DE102019133720A DE102019133720A1 DE 102019133720 A1 DE102019133720 A1 DE 102019133720A1 DE 102019133720 A DE102019133720 A DE 102019133720A DE 102019133720 A1 DE102019133720 A1 DE 102019133720A1
Authority
DE
Germany
Prior art keywords
user
personalized
recognition model
recognition
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019133720.8A
Other languages
English (en)
Inventor
Fabian Netzler
Felix Klanner
Horst KLOEDEN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bayerische Motoren Werke AG
Original Assignee
Bayerische Motoren Werke AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayerische Motoren Werke AG filed Critical Bayerische Motoren Werke AG
Priority to DE102019133720.8A priority Critical patent/DE102019133720A1/de
Publication of DE102019133720A1 publication Critical patent/DE102019133720A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

Ein Verfahren zur Spracherkennung umfasst Schritte des Erfassens einer Spracheingabe eines Benutzers; des Bestimmens des Benutzers; des Bestimmens eines allgemeinen Erkennungsmodells; des Bestimmens wenigstens eines für den Benutzer personalisierten Erkennungsmodells; und des Erkennens der Spracheingabe mittels einer Kombination des allgemeinen Erkennungsmodells mit dem wenigstens einen personalisierten Erkennungsmodell.

Description

  • Die Erfindung betrifft eine maschinelle Spracherkennung. Insbesondere betrifft die Erfindung eine Spracherkennung an Bord eines Kraftfahrzeugs.
  • Ein Kraftfahrzeug ist mit einer Vielzahl Funktionen und Assistenten ausgerüstet, von denen zumindest einige mittels Sprachbefehlen gesteuert werden können. Ein Benutzer des Kraftfahrzeugs kann eine Frage oder ein Kommando sprachlich äußern und das Kraftfahrzeug kann auf seine Äußerung reagieren. Zur Erkennung einer Spracheingabe werden üblicherweise Methoden der künstlichen Intelligenz verwendet. Die Spracherkennung kann beispielsweise mittels beaufsichtigten Lernens trainiert werden, wozu eine Vielzahl bekannter sprachlicher Äußerungen einer Mustererkennung zu Grunde gelegt werden kann.
  • Die Erkennungsleistung bekannter Spracherkennungen ist nicht perfekt. Gelegentlich kann ein Benutzer eine gewünschte Funktion auch nach mehrmaligen Versuchen nicht zuverlässig steuern. Derartige Fälle können im Rahmen einer Qualitätssicherung von einem menschlichen Bearbeiter isoliert, analysiert und derart aufbereitet werden, dass das Spracherkennungssystem auch mit solchen Daten trainiert werden kann. Trotzdem verbleiben immer noch einzelne Benutzer oder einzelne Spracheingaben, bei denen eine Erkennungsleistung verbessert werden muss. Außerdem besteht bei der intensiven Bearbeitung einer Spracheingabe durch einen menschlichen Bearbeiter die Gefahr, dass vertrauliche Informationen nach außen gelangen oder einem anderen als dem gewünschten Zweck zugeführt werden.
  • DE 10 2018 109 983 A1 schlägt vor, eine Spracherkennung mittels Gradienten-Boost- oder Ada-Boost durchzuführen.
  • DE 60 316 704 T2 betrifft eine mehrkanalige Spracherkennung in ungünstigen Umgebungen.
  • Eine der vorliegenden Erfindung zu Grunde liegende Aufgabe besteht darin, eine verbesserte Spracherkennung, insbesondere zum Einsatz an Bord eines Fahrzeugs, bereitzustellen. Die Erfindung löst diese Aufgabe mittels der Gegenstände der unabhängigen Ansprüche. Unteransprüche geben bevorzugte Ausführungsformen wieder.
  • Nach einem ersten Aspekt der vorliegenden Erfindung umfasst ein Verfahren zur Spracherkennung Schritte des Erfassens einer Spracheingabe eines Benutzers; des Bestimmens des Benutzers; des Bestimmens eines allgemeinen Erkennungsmodells; des Bestimmens wenigstens eines für den Benutzer personalisierten Erkennungsmodells; und des Erkennens der Spracheingabe mittels einer Kombination des allgemeinen Erkennungsmodells mit dem wenigstens einen personalisierten Erkennungsmodell.
  • Erfindungsgemäß können für den Benutzer eines oder mehrere personalisierte Erkennungsmodelle bereitgestellt werden, die die Erkennungsleistung des allgemeinen Erkennungsmodells in bestimmten, auf den Benutzer zugeschnittenen Fällen, verbessern können. Ein Benutzer, der beispielsweise unübliche Sprachgewohnheiten hat, einen seltenen Dialekt spricht, einem Handicap unterworfen ist oder eine Eingabe auf individuelle Art und Weise äußern möchte, kann mittels der Erfindung besser automatisch verstanden werden. In der Folge kann eine Funktion eines Fahrzeugs, insbesondere eines Kraftfahrzeugs, verbessert gesteuert werden.
  • Eine Sprachverarbeitung kann für beliebig viele Benutzer personalisiert werden und für einen Benutzer können beliebig viele personalisierte Erkennungsmodelle bereitgestellt werden.
  • Es ist weiterhin bevorzugt, dass die Kombination mittels Boosting erfolgt. Dabei handelt es ich um einen Meta-Algorithmus zur Verbindung mehrerer Herangehensweisen, um eine Erkennungsaufgabe verbessert zu lösen. Boosting kann insbesondere mehrere schwache Klassifikatoren zu einem gemeinsamen, starken Klassifikator zusammenführen. Vorliegend bilden das allgemeine Erkennungsmodell und die personalisierten Erkennungsmodelle jeweils Klassifikatoren. Erfindungsgemäß können die Klassifikatoren verbessert zusammen als gegeneinander arbeiten.
  • Ein personalisiertes Erkennungsmodell kann auf die Erkennung einer vorbestimmten Spracheingabe des Benutzers spezialisiert sein. Insbesondere kann ein personalisiertes Erkennungsmodell lediglich eine einzige Spracheingabe eines einzigen Benutzers erkennen. So kann eine hochgradig individualisierte Spracherkennung geschaffen werden.
  • Das personalisierte Erkennungsmodell kann auf der Basis einer manuellen Zuordnung einer Spracheingabe des Benutzers zu einer Eingabe erstellt sein. Anders ausgedrückt kann ein personalisiertes Erkennungsmodell mittels überwachten Lernens trainiert werden. Trainingsdaten hierfür können manuell, beispielsweise durch den Benutzer oder durch entsprechend geschultes Personal, vorverarbeitet werden. Die Vorverarbeitung umfasst üblicherweise ein „Labelling“, also ein Zuordnen einer Spracheingabe zu einer vorbestimmten Eingabe, einem vorbestimmten Inhalt oder einer vorbestimmten Bedeutung.
  • Die Gewichtung eines personalisierten Erkennungsmodells kann desto stärker sein, je besser das Erkennungsmodell gepflegt ist. In einer Ausführungsform wird ein personalisiertes Erkennungsmodell bei der Kombination desto stärker gewichtet, je mehr manuelle Zuordnungen es umfasst. In einer Variante mit automatischen Zuordnungen kann das personalisierte Erkennungsmodell bei der Kombination auch desto stärker gewichtet werden, je mehr automatische Zuordnungen es umfasst.
  • Auch eine Qualität der Gesamtheit der dem Benutzer zugeordneten personalisierten Erkennungsmodelle kann in die Gewichtung der Kombination einfließen. So können die personalisierten Erkennungsmodelle bei der Kombination desto stärker gewichtet werden, je mehr auf den Benutzer personalisierte Erkennungsmodelle vorliegen. Zur Erstellung eines personalisierten Erkennungsmodells kann es erforderlich sein, eine durch das allgemeine Erkennungsmodell falsch erkannte Spracheingabe zu bestimmen. Wird bestimmt, dass eine durch den Benutzer getätigte Spracheingabe falsch erkannt wurde, so kann ein personalisiertes Erkennungsmodell auf der Basis einer manuellen Zuordnung der Spracheingabe zu einer Eingabe erstellt oder aktualisiert werden. Die manuelle Zuordnung kann durch eine beliebige Person erfolgen.
  • Die falsche Bestimmung kann beispielsweise erkannt werden, wenn eine in Antwort auf die erkannte Eingabe eingeleitete Steuerung durch den Benutzer abgebrochen oder rückgängig gemacht wird. Insbesondere wenn dieser Fall mehrmals in Folge auftritt, ist eine Wahrscheinlichkeit, dass der Benutzer eine andere als die ausgeführte Funktion beabsichtigt hat, hoch.
  • In einer weiteren Ausführungsform wird die falsche Bestimmung erkannt, wenn dieselbe Eingabe mit einer vorbestimmten Häufigkeit erkannt wird. Insbesondere kann dieselbe Eingabe innerhalb eines vorbestimmten Zeitintervalls öfter als eine vorbestimmte Anzahl erkannt werden, beispielsweise dreimal innerhalb von 15 Sekunden. Dabei erfasste Spracheingaben des Benutzers können gespeichert und der Erstellung oder Aktualisierung des personalisierten Erkennungsmodells zu Grunde gelegt werden.
  • In noch einer weiteren Ausführungsform kann wenigstens ein Umgebungsparameter aus einem Umfeld des Benutzers durch das personalisierte Erkennungsmodell umfasst sein. Das personalisierte Erkennungsmodell kann beispielsweise einen Fahrzeugzustand umfassen, wobei der Fahrzeugzustand beispielsweise eine geographische Position, einen Startpunkt, einen Zielpunkt, eine Routenwahl, eine Fahrgeschwindigkeit, eine Innenraumtemperatur oder einen ähnlichen, auf das Fahrzeug bezogenen Parameter umfassen kann. Ferner kann der Umgebungsparameter eine Zeit umfassen. Die Zeit kann absolut oder in Bezug auf Gewohnheiten des Benutzers angegeben sein. Beispielsweise kann eine vorbestimmte sprachliche Äußerung bei einer Heimfahrt nach einem Arbeitstag anders ausgewertet werden als bei der Fahrt in einen Urlaub. Ein auf den Benutzer bezogenes Orts- oder Zeitmodell kann einen üblichen Tages- oder Ortsrhythmus des Benutzers berücksichtigen. Der Ortsrhythmus kann üblicherweise gefahrene Strecken oder beispielsweise eine Entfernung zu einem Heimatort umfassen. Weiter kann ein Passagierzustand berücksichtigt werden, der beispielsweise eine Anzahl oder Art vorhandener Smartphones oder eine Anzahl oder Identität an Bord des Fahrzeugs vorhandener Passagiere betreffen kann. Eine Spracheingabe des Benutzers kann nicht nur auf der Basis akustischer Informationen erkannt werden, sondern zusätzlich nur dann, wenn sie in einer - zumindest mit einer vorbestimmten Übereinstimmung - vorbestimmten Situation geäußert wurde. Durch die Berücksichtigung der Umgebungsparameter kann eine Erkennungsleistung des personalisierten Erkennungsmodells verbessert werden.
  • Die Spracherkennung ist weiter bevorzugt zum Einsatz an Bord eines Fahrzeugs eingerichtet und weiter bevorzugt wird in Abhängigkeit einer erkannten Eingabe eine Funktion des Fahrzeugs gesteuert. Die Funktion kann beispielsweise eine Zielführung oder Klimatisierung des Fahrzeugs betreffen. Andere mögliche Funktionen betreffen beispielsweise die Steuerung eines Unterhaltungssystems, des Öffnungszustands eines Verdecks, eines Schiebedachs oder eines Fensters, oder einer inneren oder äußeren Beleuchtungseinrichtung des Fahrzeugs.
  • Nach einem zweiten Aspekt der vorliegenden Erfindung umfasst eine Vorrichtung eine Abtasteinrichtung zur Erfassung einer Spracheingabe eines Benutzers; eine Bestimmungseinrichtung zur Bestimmung des Benutzers; und eine Verarbeitungseinrichtung. Dabei ist die Verarbeitungseinrichtung dazu eingerichtet, ein allgemeines Erkennungsmodell zu bestimmen; wenigstens ein für den Benutzer personalisiertes Erkennungsmodell zu bestimmen; und die Spracheingabe mittels einer Kombination des allgemeinen Erkennungsmodells mit dem wenigstens einen personalisierten Erkennungsmodell zu erkennen.
  • Die Verarbeitungseinrichtung kann dazu eingerichtet sein, ein hierin beschriebenes Verfahren ganz oder teilweise auszuführen. Dazu kann die Verarbeitungseinrichtung einen programmierbaren Mikrocomputer oder Mikrocontroller umfassen und das Verfahren kann in Form eines Computerprogrammprodukts mit Programmcodemitteln vorliegen. Das Verfahren kann auch durch mehrere Verarbeitungseinrichtungen ausgeführt werden, die an unterschiedlichen geographischen Orten angebracht sein können. Das Computerprogrammprodukt kann auch auf einem computerlesbaren Datenträger abgespeichert sein. Merkmale oder Vorteile des Verfahrens können auf die Vorrichtung oder ein entsprechendes System übertragen werden oder umgekehrt.
  • Die Vorrichtung kann insbesondere zur Anbringung in einem Fahrzeug eingerichtet sein. Nach einem weiteren Aspekt der vorliegenden Erfindung umfasst ein Fahrzeug eine hierin beschriebene Vorrichtung. Das Fahrzeug kann insbesondere ein Kraftfahrzeug umfassen, beispielsweise einen Personenkraftwagen, ein Kraftrad, einen Bus oder einen Lastkraftwagen.
  • Nach noch einem weiteren Aspekt der vorliegenden Erfindung umfasst ein System ein hierin beschriebenes Fahrzeug und eine entfernte Stelle, die kommunikativ mit dem Fahrzeug verbunden ist, wobei die Verarbeitungseinrichtung seitens der zentralen Stelle vorgesehen ist.
  • Die Verbindung zwischen dem Fahrzeug und der zentralen Stelle ist bevorzugt wenigstens teilweise drahtlos realisiert. Es können Verarbeitungseinrichtungen sowohl seitens des Fahrzeugs als auch seitens der zentralen Stelle vorgesehen sein. Jeweils ein Teil eines hierin beschriebenen Verfahrens kann auf einer der Verarbeitungseinrichtungen ausgeführt werden. Die entfernte Stelle kann zur Kommunikation mit einer Vielzahl hierin beschriebener Fahrzeuge eingerichtet sein.
  • Die Erfindung wird nun mit Bezug auf die beigefügten Zeichnungen genauer beschrieben, in denen:
    • 1 ein System; und
    • 2 ein Ablaufdiagramm eines Verfahrens;
    illustriert.
  • 1 zeigt ein System 100, das ein Fahrzeug 105 und eine entfernte Stelle 110 umfasst. Das Fahrzeug 105 umfasst bevorzugt ein Kraftfahrzeug, weiter bevorzugt einen Personenkraftwagen. An Bord des Kraftfahrzeugs 105 befindet sich üblicherweise wenigstens ein Benutzer 115 einer Vorrichtung 120, die vorliegend an Bord des Fahrzeugs 105 angebracht ist. Der Benutzer 115 kann insbesondere einen Fahrer oder einen Eigentümer des Fahrzeugs 105 umfassen. Es ist zu beachten, dass die Vorrichtung auch außerhalb eines Fahrzeugs 105 angebracht sein kann.
  • Die Vorrichtung 120 umfasst eine Verarbeitungseinrichtung 125, die bevorzugt mit einer Abtasteinrichtung 130 zur Erfassung einer Spracheingabe des Benutzers 115 verbunden ist, sowie mit einer Bestimmungseinrichtung 135 zur Bestimmung des Benutzers 115. Die Abtasteinrichtung 130 kann insbesondere eines oder mehrere Mikrofone an Bord des Fahrzeugs 105 umfassen. Die Bestimmungseinrichtung 135 kann eine Kamera, einen biometrischen Sensor oder eine andere Vorrichtung umfassen, mittels derer der Benutzer 115 erkannt, beziehungsweise seine Identität bestimmt werden kann. In einer Ausführungsform kann der Benutzer 115 auf der Basis seines Stimmprofils mittels der Abtasteinrichtung 130 und der Verarbeitungseinrichtung 125 erkannt werden. Außerdem ist die Verarbeitungseinrichtung 125 bevorzugt mit einer Schnittstelle 140 verbunden, die mit einem oder mehreren Sensoren und/oder Systemen oder Subsystemen an Bord des Fahrzeugs 105 verbunden sein kann. Über die Schnittstelle 140 können einer oder mehrere Umgebungsparameter aus dem Umfeld des Benutzers 115, insbesondere an Bord des Fahrzeugs 105, bereitgestellt werden.
  • Ferner ist die Verarbeitungseinrichtung 125 bevorzugt mit einer Kommunikationseinrichtung 145 verbunden, die eine Kommunikation mit der zentralen Stelle 110 ermöglichen kann. Die Kommunikationseinrichtung 145 ist weiter bevorzugt zur drahtlosen Kommunikation eingerichtet.
  • Die entfernte Stelle 110 umfasst bevorzugt eine weitere Kommunikationseinrichtung 150 als Gegenstück zur Kommunikationseinrichtung 145 der Vorrichtung 120 an Bord des Fahrzeugs 105; darüber hinaus eine weitere Verarbeitungseinrichtung 155 analog der Verarbeitungseinrichtung 125 und bevorzugt einen Datenspeicher 160.
  • Der Datenspeicher 160 ist bevorzugt dazu eingerichtet, ein allgemeines Erkennungsmodell 165 und/oder eines oder mehrere personalisierte Erkennungsmodelle 170 aufzunehmen. Es ist zu beachten, dass der Datenspeicher 160 mit den Erkennungsmodellen 165, 170 auch im Bereich der Vorrichtung 120, insbesondere an Bord des Fahrzeugs 105, vorgesehen sein kann. Aus Gründen der Performanz und der leichteren Aktualisierbarkeit der Erkennungsmodelle 165, 170 ist jedoch bevorzugt, dass zumindest ein Teil der Verarbeitungen, die auf den Erkennungsmodellen 165, 170 ablaufen, seitens der zentralen Stelle 110 durchgeführt wird.
  • Es wird vorgeschlagen, eine Spracheingabe des Benutzers 115 an die Vorrichtung 120 mittels einer Kombination aus dem allgemeinen Erkennungsmodell 165 und einem oder mehreren personalisierten Erkennungsmodellen 170 durchzuführen. Eine Auswahl, welche der im Datenspeicher 160 abgelegten personalisierten Erkennungsmodelle 170 dem Benutzer 115 zugeordnet sind, kann auf der Basis einer Erkennung des Benutzers 115 erfolgen. Eine erkannte Spracheingabe kann zur Steuerung einer Funktion an Bord des Fahrzeugs 105 verwendet werden. Insbesondere kann über die Schnittstelle 140 ein damit verbundener Aktor oder ein System oder Subsystem an Bord des Fahrzeugs 105 in Abhängigkeit des erkannten Sprachbefehls gesteuert werden.
  • 2 zeigt ein Ablaufdiagramm eines Verfahrens 200 zur verbesserten Spracherkennung. In einem Schritt 205 kann eine Spracheingabe eines Benutzers 115 erfasst werden, beispielsweise mittels der Abtasteinrichtung 130. In einem Schritt 210 kann ein Benutzer 115 der Vorrichtung 120 abgetastet werden. Als Benutzer 115 kommt insbesondere ein Fahrer des Fahrzeugs 105 in Betracht, sodass beispielsweise eine auf einem Fahrersitz befindliche Person abgetastet werden kann. In anderen Ausführungsformen kann auch eine beliebige andere Person an Bord des Fahrzeugs 105 als Benutzer 115 bestimmt werden. Zur Bestimmung können beliebige Sensoren verwendet werden, beispielsweise eines oder mehrere Mikrofone oder eine oder mehrere Kameras.
  • In einem Schritt 215 können einer oder mehrere Umgebungsparameter des Benutzers 115 erfasst werden. Der oder die Umgebungsparameter können beispielsweise einen Innenraum, einen Außenraum oder einen Betriebsparameter des Fahrzeugs 105 betreffen.
  • In einem Schritt 220 kann bestimmt werden, welche Erkennungsmodelle 165, 170 zur Erkennung der im Schritt 205 erfassten Spracheingabe zur Verfügung stehen. Insbesondere kann bestimmt werden, welches allgemeine Erkennungsmodell 165 vorgesehen ist, sowie welches personalisierte Erkennungsmodell 170 dem Benutzer 115 zugeordnet ist, der im Schritt 210 erkannten wurde. In einem Schritt 225 kann die Spracheingabe des Benutzers 115 auf der Basis der bestimmten Erkennungsmodelle 165, 170 erkannt werden.
  • Dabei werden die Erkennungsmodelle 165, 170 bevorzugt mittels der im Bereich des Maschinenlernens bekannten Methode des Boosting miteinander kombiniert. Zwei oder mehrere Klassifikatoren können miteinander kombiniert werden, um eine gesamte Erkennungsleistung bereitzustellen, die über den Erkennungsleistungen der einzelnen Klassifikatoren liegt. Die Klassifikatoren, also die Erkennungsmodelle 165, 170, können beim Boosting gewichtet werden. Ein Einfluss der personalisierten Erkennungsmodelle 170 kann in Abhängigkeit einer Anzahl dem Benutzer 115 zugeordneter personalisierter Erkennungsmodelle 170 gesteigert sein. Weiter kann eine Gewichtung eines personalisierten Erkennungsmodells 170 in Abhängigkeit der Qualität seiner Definition gesteigert sein. Die Definition kann verbessert werden, indem möglichst viele Spracheingaben bestimmt werden, die dem personalisierten Erkennungsmodell 170 zugeordnet sind. Es ist zu beachten, dass die Schritte 220 und 225 bevorzugt seitens der zentralen Stelle 110 durchgeführt werden, während die Schritte 205 bis 215 und 230 bevorzugt mittels der Vorrichtung 120, weiter bevorzugt an Bord des Fahrzeugs 105, durchgeführt werden.
  • In einem Schritt 230 kann eine Funktion gesteuert werden. Ein Effekt der Steuerung bezieht sich bevorzugt auf den Benutzer 115 oder seine Umgebung. In einer bevorzugten Ausführungsform wird eine Funktion des Fahrzeugs 105 gesteuert, an dessen Bord sich der Benutzer 115 befindet. Die Funktion kann insbesondere eine Funktion des Fahrzeugs 105 umfassen.
  • In einem Schritt 235 kann ein Fehler bei der Erkennung der Spracheingabe des Benutzers 115 bestimmt werden. Die Erkennung eines Fehlers setzt ein personalisiertes Erkennungsmodell 170 üblicherweise nicht voraus. Der Fehler kann beispielsweise erkannt werden, wenn der Benutzer 115 eine Spracheingabe tätigt, deren zugeordnete Funktion er gleich wieder abbricht oder rückgängig macht. Auch eine wiederholte Erkennung desselben Sprachbefehls, insbesondere mit einer vorbestimmten Häufigkeit und weiter bevorzugt innerhalb eines vorbestimmten Zeitabschnitts, kann ein Hinweis auf eine falsch erkannte Spracheingabe sein.
  • In diesem Fall können eine oder mehrere erfasste Spracheingaben des Benutzers 115 manuell einer Eingabe, also einem beabsichtigten Inhalt der Spracheingabe, zugeordnet werden. Diese Zuordnung erfolgt üblicherweise manuell und kann beispielsweise durch den Benutzer 115 durchgeführt werden. Es ist jedoch bevorzugt, dass nach Bestimmen einer falschen Erkennung ein geschultes Personal mit dem Benutzer 115 in Kontakt tritt und im Dialog mit diesem die beabsichtigte Eingabe nachvollzieht. Der Mitarbeiter kann den Benutzer 115 auch bitten, noch eine oder mehrere weitere Spracheingaben desselben Inhalts bereitzustellen, um eine verbreiterte Lerndatenbasis für die Erstellung des personalisierten Erkennungsmodells 170 zu begründen.
  • Das personalisierte Erkennungsmodell 170 kann automatisch oder gesteuert durch den Benutzer 115 bzw. das geschulte Personal aktualisiert oder erstellt werden. Das betroffene personalisierte Erkennungsmodell 170 kann dann in den Datenspeicher 160 verbracht werden, der sich bevorzugt im Bereich der zentralen Stelle 110, in einigen Ausführungsformen jedoch auch an Bord des Fahrzeugs 105 befinden kann.
  • Bezugszeichenliste
  • 100
    System
    105
    Fahrzeug
    110
    entfernte Stelle
    115
    Benutzer
    120
    Vorrichtung
    125
    Verarbeitungseinrichtung
    130
    Abtasteinrichtung (Mikrofon)
    135
    Bestimmungseinrichtung (Kamera)
    140
    Schnittstelle
    145
    Kommunikationseinrichtung
    150
    Kommunikationseinrichtung
    155
    Verarbeitungseinrichtung
    160
    Datenspeicher
    165
    allgemeines Erkennungsmodell
    170
    personalisiertes Erkennungsmodell
    200
    Verfahren
    205
    Spracheingabe erfassen
    210
    Fahrer abtasten
    215
    Umgebungsparameter erfassen
    220
    Erkennungsmodelle bestimmen
    225
    Eingabe erkennen
    230
    Funktion steuern
    235
    Fehler erkennen
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102018109983 A1 [0004]
    • DE 60316704 T2 [0005]

Claims (14)

  1. Verfahren (200) zur Spracherkennung, mit folgenden Schritten: - Erfassen (205) einer Spracheingabe eines Benutzers (115); - Bestimmen (210) des Benutzers (115); - Bestimmen (220) eines allgemeinen Erkennungsmodells (165); - Bestimmen (220) wenigstens eines für den Benutzer (115) personalisierten Erkennungsmodells (170); und - Erkennen (225) der Spracheingabe mittels einer Kombination des allgemeinen Erkennungsmodells (165) mit dem wenigstens einen personalisierten Erkennungsmodell (170).
  2. Verfahren (200) nach Anspruch 1, wobei die Kombination mittels Boosting erfolgt.
  3. Verfahren (200) nach Anspruch 1 oder 2, wobei ein personalisiertes Erkennungsmodell (170) auf die Erkennung einer vorbestimmten Spracheingabe des Benutzers (115) spezialisiert ist.
  4. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei das personalisierte Erkennungsmodell (170) auf der Basis einer manuellen Zuordnung einer Spracheingabe des Benutzers (115) zu einer Eingabe erstellt ist.
  5. Verfahren (200) nach Anspruch 4, wobei ein personalisiertes Erkennungsmodell (170) bei der Kombination desto stärker gewichtet wird, je mehr manuelle Zuordnungen es umfasst.
  6. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei die personalisierten Erkennungsmodelle (170) bei der Kombination desto stärker gewichtet werden, je mehr auf den Benutzer (115) personalisierte Erkennungsmodelle (170) vorliegen.
  7. Verfahren (200) nach einem der Ansprüche 4 bis 6, wobei eine falsche Erkennung einer Spracheingabe durch den Benutzer (115) bestimmt wird, und ein personalisiertes Erkennungsmodell (170) auf der Basis einer manuellen Zuordnung der Spracheingabe zu einer Eingabe erstellt oder aktualisiert wird.
  8. Verfahren (200) Anspruch 7, wobei die falsche Bestimmung erkannt (235) wird, wenn eine in Antwort auf die erkannte Eingabe eingeleitete Steuerung durch den Benutzer (115) abgebrochen oder rückgängig gemacht wird.
  9. Verfahren (200) nach Anspruch 7 oder 8, wobei die falsche Bestimmung erkannt (235) wird, wenn dieselbe Eingabe mit einer vorbestimmten Häufigkeit erkannt wird.
  10. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei das personalisierte Erkennungsmodell (170) wenigstens einer Umgebungsparameter aus einem Umfeld des Benutzers (115) umfasst.
  11. Verfahren (200) nach einem der vorangehenden Ansprüche, wobei die Spracherkennung zum Einsatz an Bord eines Fahrzeugs (105) eingerichtet ist und in Abhängigkeit einer erkannten Eingabe eine Funktion des Fahrzeugs (105) gesteuert wird.
  12. Vorrichtung (120), umfassend: - eine Abtasteinrichtung (130) zur Erfassung einer Spracheingabe eines Benutzers (115); - eine Bestimmungseinrichtung (135) zur Bestimmung des Benutzers (115); und - eine Verarbeitungseinrichtung (125, 155), die dazu eingerichtet ist, • ein allgemeines Erkennungsmodell (165) zu bestimmen; • wenigstens ein für den Benutzer (115) personalisiertes Erkennungsmodell (165) zu bestimmen; und • die Spracheingabe mittels einer Kombination des allgemeinen Erkennungsmodells (165) mit dem wenigstens einen personalisierten Erkennungsmodell (170) zu erkennen.
  13. Fahrzeug (105), umfassend eine Vorrichtung nach Anspruch 12.
  14. System (100), umfassend ein Fahrzeug (105) nach Anspruch 13 und eine entfernte Stelle (110), die kommunikativ mit dem Fahrzeug (105) verbunden ist, wobei die Verarbeitungseinrichtung (125, 155) seitens der zentralen Stelle vorgesehen ist.
DE102019133720.8A 2019-12-10 2019-12-10 Verbesserte Spracherkennung Pending DE102019133720A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102019133720.8A DE102019133720A1 (de) 2019-12-10 2019-12-10 Verbesserte Spracherkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019133720.8A DE102019133720A1 (de) 2019-12-10 2019-12-10 Verbesserte Spracherkennung

Publications (1)

Publication Number Publication Date
DE102019133720A1 true DE102019133720A1 (de) 2021-06-10

Family

ID=75962137

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019133720.8A Pending DE102019133720A1 (de) 2019-12-10 2019-12-10 Verbesserte Spracherkennung

Country Status (1)

Country Link
DE (1) DE102019133720A1 (de)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307241A1 (en) * 2008-04-15 2011-12-15 Mobile Technologies, Llc Enhanced speech-to-speech translation system and methods
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
US20170352346A1 (en) * 2016-06-03 2017-12-07 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US20190180736A1 (en) * 2013-09-20 2019-06-13 Amazon Technologies, Inc. Generation of predictive natural language processing models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307241A1 (en) * 2008-04-15 2011-12-15 Mobile Technologies, Llc Enhanced speech-to-speech translation system and methods
US20190180736A1 (en) * 2013-09-20 2019-06-13 Amazon Technologies, Inc. Generation of predictive natural language processing models
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
US20170352346A1 (en) * 2016-06-03 2017-12-07 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems

Similar Documents

Publication Publication Date Title
DE102019119171A1 (de) Spracherkennung für fahrzeugsprachbefehle
DE102015213715A1 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE102017220266B3 (de) Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug
DE102013222645A1 (de) Erkennungssystem in einem Fahrzeug zur Erfassung der Sprachaktivität eines Fahrzeuginsassen
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
DE102017206876B4 (de) Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Kraftfahrzeug undSprachsteuerungssystem
DE102019214713A1 (de) System zum automatisierten Betätigen einer Fahrzeugtür, Fahrzeug und Verfahren
WO2018010853A1 (de) Steuervorrichtung und verfahren zum sprachbasierten betreiben eines kraftfahrzeugs
DE102018132160A1 (de) System und verfahren zum verstehen von standardsprache und dialekten
DE102019133720A1 (de) Verbesserte Spracherkennung
DE112021006996T5 (de) Anpassungsvorrichtung, Anpassungssystem und Anpassungsverfahren
DE102008024257A1 (de) Verfahren zur Sprecheridentifikation bei einer Spracherkennung
DE102018221712B4 (de) Verfahren zum Betreiben eines interaktiven Informationssystems für ein Fahrzeug, sowie ein Fahrzeug
EP1345208A2 (de) Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
DE102016003903A1 (de) Verfahren zur Spracherkennung in einem Kraftfahrzeug
WO2005088607A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
DE102019204849A1 (de) Erkennung eines durch Personen ausgehenden Gefahrenpotentials
DE102020201742A1 (de) Selektieren von sensorumgebungsbezogenen Trainingsdaten
DE102022117855A1 (de) Verfahren und Spracherkennungssystem mit Passagiererkennung für ein Fahrzeug, Fahrzeug umfassend das Spracherkennungssystem
DE10122087C1 (de) Verfahren zum Training und Betrieb eines Spracherkenners, Spracherkenner und Spracherkenner-Trainingssystem
DE102018216557A1 (de) Verfahren, Vorrichtung und Fortbewegungsmittel zur akustischen Überwachung einer Fehlerfreiheit eines Fortbewegungsmittels
DE102018216044A1 (de) Verfahren zum Regeln einer Übergabe einer Fahraufgabe, Fahrerassistenzsystem, Computerprogramm und Datenträgersignal
DE102016004287A1 (de) Verfahren zur Spracherkennung in einem Kraftfahrzeug
DE102020001426A1 (de) Verfahren und Vorrichtung zur individuellen Einstellung von Komponenten eines Fahrzeuges in Abhängigkeit einer Technikaffinität eines Nutzers

Legal Events

Date Code Title Description
R163 Identified publications notified