DE102022001263A1 - Sprachdialogsystem und Fahrzeug - Google Patents

Sprachdialogsystem und Fahrzeug Download PDF

Info

Publication number
DE102022001263A1
DE102022001263A1 DE102022001263.4A DE102022001263A DE102022001263A1 DE 102022001263 A1 DE102022001263 A1 DE 102022001263A1 DE 102022001263 A DE102022001263 A DE 102022001263A DE 102022001263 A1 DE102022001263 A1 DE 102022001263A1
Authority
DE
Germany
Prior art keywords
hypothesis
computing unit
dialogue system
absence
premise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022001263.4A
Other languages
English (en)
Inventor
Christian Drescher
Teresa Botschen
Arne Rubehn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
Mercedes Benz Group AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mercedes Benz Group AG filed Critical Mercedes Benz Group AG
Priority to DE102022001263.4A priority Critical patent/DE102022001263A1/de
Publication of DE102022001263A1 publication Critical patent/DE102022001263A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

Die Erfindung betrifft ein Sprachdialogsystem mit Erfassungsmitteln zur akustischen und visuellen Überwachung eines Referenzraums (1), Ausgabemitteln zur akustischen Ausgabe einer Verbalreaktion und einer Recheneinheit (2), wobei die Recheneinheit (2) dazu eingerichtet ist durch das Verarbeiten der Sensordaten eine Spracheingabe zu empfangen, eine semantische Bedeutung der Spracheingabe zu ermitteln und die Verbalreaktion in Abhängigkeit der semantischen Bedeutung der Spracheingabe auszugestalten. Das erfindungsgemäße Sprachdialogsystem dadurch gekennzeichnet, dass die Recheneinheit (2) ferner dazu eingerichtet ist die folgenden Verfahrensschritte auszuführen:- Bestimmen von im Referenzraum (1) anwesenden Gegenständen (3);- Bestimmen von im Referenzraum (1) abwesenden Gegenständen (4);- Erkennen einer Nutzerinteraktion;- Ermitteln einer mit der Nutzerinteraktion verknüpften Prämisse;- Bestimmen einer Anwesenheitshypothese für einen jeweiligen im Referenzraum (1) anwesenden Gegenstand (3) und bestimmen einer Abwesenheitshypothese für einen jeweiligen im Referenzraum abwesenden Gegenstand (4);- Überprüfen, ob eine jeweilige Anwesenheitshypothese und/oder Abwesenheitshypothese in Einklang, im Widerspruch oder neutral zur Prämisse steht; und- Ausgabe einer Verbalreaktion.

Description

  • Die Erfindung betrifft ein Sprachdialogsystem nach der im Oberbegriff von Anspruch 1 näher definierten Art sowie ein Fahrzeug mit einem solchen Sprachdialogsystem.
  • Die Miniaturisierung von leistungsstarken Rechenkomponenten sowie die zunehmende Vernetzung mobiler Geräte erlaubt es immer rechenintensivere Programme für Alltagsanwendungen bereitzustellen. Im Zuge dessen nimmt auch die Popularität sogenannter Sprachassistenten zu. Solche Sprachassistenten sind beispielsweise in die von Google und Apple entwickelten Betriebssysteme für Smartphones integriert und erlauben eine Interaktion mit einem jeweiligen mobilen Endgerät per Spracheingabe. Ein solcher Sprachassistent kann Informationen aus dem Internet heraussuchen oder auch die Steuerung von Betriebssystemkomponenten oder Programmen durchführen, beispielsweise das Einstellen eines Alarms oder initiieren eines Anrufs. Sprachassistenten werden auch im Haushalt eingesetzt wie beispielsweise Appel's HomePod oder Amazon's Alexa. Ebenso finden sich erste Implementierungen von Sprachassistenten in Fahrzeugen zur Erleichterung der Interaktion zwischen Fahrzeuginsasse und Fahrzeug.
  • Zur Auswertung von Sprachbefehlen kann insbesondere künstliche Intelligenz eingesetzt werden, beispielsweise unter Anwendung künstlicher neuronaler Netze. Beziehungen zwischen Konzepten können in einer semantischen Datenbank abgespeichert sein.
  • Die DE 10 2019 219 406 A1 offenbart ein kontext-sensitives Sprachdialogsystem. Das kontext-sensitive Sprachdialogsystem erlaubt es für einen Nutzer passende Sprachantworten auszugeben, auch wenn die vom Nutzer gestellte Sprachanfrage unklar ist. Zur Schaffung von Klarheit schaut das kontext-sensitive Sprachdialogsystem mögliche zur Spracheingabe passsende Informationen in einer Kontext-Datenbank nach, was beispielsweise das Beantworten der simplen Frage „Wieviel Grad sind es?“ ermöglicht. So erkennt das kontext-sensitive Sprachdialogsystem, dass die Umgebungstemperatur am Aufenthaltsort des Nutzers gemeint ist. Auch können Kontext-Informationen aus in der Vergangenheit gestellten Sprachanfragen zur Lösung von Klarheitskonflikten einer Sprachanfrage herangezogen werden. So kann eine erste Sprachanfrage beispielsweise lauten „Audiosystem spiele Lenny Kravitz!“. Eine zweite Anfrage kann lauten „Wann ist das nächste Konzert?“. Für die zweite Sprachanfrage wird das kontext-sensitive Sprachdialogsystem im Internet eine Antwort für die Frage suchen, wann das nächste Konzert von Lenny Kravitz sein wird, da sich die erste Sprachanfrage auf diesen Künstler bezogen hat. Das kontext-sensitive Sprachdialogsystem kann auch in ein Fahrzeug integriert sein. Das Fahrzeug kann seine äußere Umgebung mit Hilfe von Kameras überwachen. Kamerabilder, welche die äußere Umgebung des Fahrzeugs zeigen, können von einer Recheneinheit ausgewertet werden und daraus gewonnene Informationen für durch das Sprachdialogsystem ausgegebene Sprachantworten berücksichtigt werden. Das in der Druckschrift offenbarte kontext-sensitive Sprachdialogsystem erlaubt eine besonders natürlich anfühlende Kommunikation zwischen Fahrzeuginsasse und Sprachassistent. Es besteht jedoch Verbesserungspotenzial zur Bereitstellung neuartiger Anwendungsfelder.
  • Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein verbessertes Sprachdialogsystem anzugeben, welches den Nutzerkomfort für eine mit einem Referenzraum interagierende Person, insbesondere ein Fahrzeuginnenraum, noch weiter verbessert.
  • Erfindungsgemäß wird diese Aufgabe durch ein Sprachdialogsystem mit den Merkmalen des Anspruchs 1 sowie ein Fahrzeug mit einem solchen Sprachdialogsystem gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen ergeben sich aus den hiervon abhängigen Ansprüchen.
  • Bei einem Sprachdialogsystem mit Erfassungsmitteln zur akustischen und visuellen Überwachung eines Referenzraums, Ausgabemitteln zur akustischen Ausgabe einer Verbalreaktion und einer Recheneinheit zur Verarbeitung von den Erfassungsmitteln erzeugter Sensordaten und zur Ansteuerung der Ausgabemittel, wobei die Recheneinheit dazu eingerichtet ist, durch das Verarbeiten der Sensordaten eine Spracheingabe zu empfangen, eine semantische Bedeutung der Spracheingabe zu ermitteln und die Verbalreaktion in Abhängigkeit der semantischen Bedeutung der Spracheingabe auszugestalten, ist erfindungsgemäß die Recheneinheit ferner dazu eingerichtet, die folgenden Verfahrensschritte auszuführen:
    • - Bestimmen von im Referenzraum anwesenden und abwesenden, der Recheneinheit vorbekannten Gegenständen durch Auswerten aus der visuellen Überwachung gewonnener Sensordaten;
    • - Erkennen einer Nutzerinteraktion durch Auswerten der Sensordaten;
    • - Ermitteln einer mit der Nutzerinteraktion verknüpften Prämisse;
    • - Bestimmen einer Anwesenheitshypothese für einen jeweiligen im Referenzraum anwesenden Gegenstand und bestimmen einer Abwesenheitshypothese für einen jeweiligen im Referenzraum abwesenden Gegenstand;
    • - Überprüfen, ob eine jeweilige Anwesenheitshypothese und/oder Abwesenheitshypothese in Einklang, im Widerspruch oder neutral zur Prämisse steht; und
    • - Ausgabe einer Verbalreaktion, welche zumindest eine zur Prämisse im Einklang oder im Widerspruch stehende Anwesenheitshypothese und/oder Abwesenheitshypothese umfasst.
  • Das erfindungsgemäße Sprachdialogsystem erlaubt die Bereitstellung einer gänzlich neu Assistentsfunktion für eine mit dem Referenzraum interagierende Person, um die jeweilige Person auf für im Referenzraum anwesende und/oder abwesende Gegenstände hinzuweisen, wenn diese für eine aktuelle oder künftige Situation relevant sind. Der Referenzraum ist dabei der von Kameras überwachte Innenraum, ein überwachter Teil eines Innenraums oder ein vorgegebener überwachter Bereich in einem Innenraum eines Fahrzeugs. Dabei kann das Einbringen und/oder Entnehmen von Gegenständen in bzw. aus dem Referenzraum als Interaktion mit dem Referenzraum verstanden werden. Hierdurch lässt sich der Nutzerkomfort für die Personen steigern. So ist das Sprachdialogsystem dazu in der Lage im Referenzraum anwesende und abwesende Gegenstände zu bestimmen, das heißt zum einen Gegenstände zu erkennen und zum anderen zu ermitteln, um welche Gattung oder Art von Gegenstand es sich handelt. Ein Erkennungsalgorithmus oder Modell des Sprachdialogsystems wird zur Erkennung von Gegenständen eintrainiert, so dass bei Vorhandensein des Gegenstandes im Referenzraum dieser gattungsgemäß wiedererkannt wird. Das Eintrainieren kann dabei bereits vom Hersteller als auch vom Fahrzeugnutzer individuell durchgeführt werden. Die damit dem Sprachdialogsystem vorbekannte Anzahl von Objekten werde damit zuverlässig erkannt, das bedeutet im Umkehrschluss, dass sofern ein vorbekanntes Objekt im Referenzraum nicht erkannt wird, dieses nicht anwesend ist und als solche klassifiziert wird.
  • Eine Nutzerinteraktion kann eine durch eine Spracheingabe, eine Geste oder eine Aktion wie das Öffnen einer Tür erfolgen. Die Prämisse ist dabei eine Annahme beispielsweise als Schlussfolgerung zu der Nutzerinteraktion, bei einer als Frage formulierte Spracheingabe eine Antwort. Bei einer Aktion wie vorab beschrieben ist die Prämisse ein mit dieser logisch verbundenen Information, beim Öffnen einer Tür beispielsweise ein Verlassen des Fahrzeugs. Das Sprachdialogsystem ist ferner dazu in der Lage zu ermitteln, welche Art von Gegenstand aktuell oder künftig für eine Person relevant sein kann. Das Sprachdialogsystem ermittelt für jeweils im Referenzraum an- und abwesende Gegenstände eine An- und Abwesenheitshypothese, die vorzugsweise aus den Eigenschaften der Gegenstände logisch kombiniert werden.
  • Besteht eine Relevanz bezügliches eines bestimmten Gegenstands für eine sich im Referenzraum aufhaltende Person, so gibt das Sprachdialogsystem eine entsprechende Verbalreaktion aus, welche die Person auf den entsprechenden Gegenstand hinweist. Beispielsweise kann das Sprachdialogsystem eine Handtasche im Referenzraum erkennen. Detektiert das Sprachdialogsystem nun, dass eine Person den Referenzraum durch Öffnen der Türe verlassen möchte und dabei die Handtasche im Referenzraum zurücklässt, gibt das Sprachdialogsystem vor dem Verlassen der Person des Referenzraums als Verbalreaktion beispielsweise aus: „Achtung, Handtasche im Fahrzeug nicht vergessen!“. Die Prämisse wäre, dass eine Person das Fahrzeug verlässt, eine Hypothese aus einer Vorlage, dass Handtaschen nicht im Fahrzeug verbleiben und nicht vergessen werden sollen. Eine konstruierte, im Einklang mit der Handtasche stehende Anwesenheitshypothese wäre dann die vorab genannte Verbalreaktion.
  • Bei der Prämisse handelt es sich um eine von der Recheneinheit in Abhängigkeit der Nutzerinteraktion getroffene Annahme. So kann die Recheneinheit durch Auswerten entsprechender Sensordaten beispielsweise erkennen, dass sich eine Person im Referenzraum bewegt, insbesondere auf einen Ausgang zubewegt. Durch diese Bewegung in Richtung des Ausgangs nimmt dann die Recheneinheit an, dass die Person den Referenzraum verlassen möchte. In diesem Falle geht die Recheneinheit die im Referenzraum erkannten Gegenstände durch und prüft, ob bestimmte Gegenstände im Referenzraum verbleiben sollten oder mitgenommen werden sollten. Entsprechende Informationen können in die Recheneinheit vorab eingespeichert sein. Erkennt die Recheneinheit dann, dass ein entsprechender mitzunehmender Gegenstand vergessen wurde, wird eine entsprechende Verbalreaktion zur Erinnerung der Person zum Mitnehmen des jeweiligen Gegenstands ausgegeben.
  • Das Sprachdialogsystem ist zusätzlich dazu in der Lage, Informationen aus verschiedenen Quellen auszuwerten, beispielsweise Informationen, welche die Recheneinheit durch Auswerten der Sensordaten selbst generiert und/oder durch das Beziehen von einer externen Quelle, beispielsweise von einem Internetserver. Bei einer solchen Information kann es sich beispielsweise um einen Wetterbericht handeln. Regnet es und wird im Referenzraum kein Regenschirm entdeckt, so kann das Sprachdialogsystem beispielsweise die Verbalreaktion ausgeben: „Achtung, es wurde kein Regenschirm erkannt. Es ist mit Regen zu rechnen, weshalb ein Regenschirm nützlich sein könnte.“.
  • Bei dem akustischen Erfassungsmittel kann es sich insbesondere um ein oder mehrere Mikrofone handeln. Hierdurch lassen sich Geräusche im Referenzraum, insbesondere Sprache, erkennen. Bei visuellen Erfassungsmitteln kann es sich um eine oder mehrere Kameras handeln. Diese sind bevorzugt so im Referenzraum angeordnet, dass nach Möglichkeit keine toten Winkel vorliegen und somit der Referenzraum bestmöglich eingesehen werden kann. Generell ist es auch möglich, dass das Sprachdialogsystem Zugriff auf zum Referenzraum externe Erfassungsmittel aufweist, beispielsweise eine Kamera und/oder Mikrofon, die in ein mobiles Endgerät wie ein Smartphone integriert sind. Hält sich beispielsweise die Person außerhalb des Referenzraums auf, so kann die Person Fragen an ein mobiles Endgerät richten, beispielsweise: „Habe ich mein Portemonnaie im Referenzraum vergessen?“. Daraufhin prüft das Sprachdialogsystem, ob im Referenzraum ein Portemonnaie erkannt wird. Das Sprachdialogsystem gibt dann eine passende Antwort aus, beispielsweise: „Ja, es wurde ein Portemonnaie im Referenzraum vergessen.“ oder „Nein, es konnte kein Portemonnaie im Referenzraum gefunden werden.“.
  • Als Ausgabemittel umfasst das Sprachdialogsystem insbesondere einen oder mehrere Lautsprecher zur Ausgabe der Verbalreaktion. Bei der Verbalreaktion handelt es sich um gesprochenen Text bzw. eine Sprachantwort. Es kann sich um eine einzelne Recheneinheit handeln, welche alle Funktionen übernimmt. Die Recheneinheit kann jedoch auch auf mehrere Recheneinrichtungen verteilt sein, sodass jede Recheneinrichtung eine oder mehrere Einzelaufgaben übernimmt. Beispielsweise kann eine Recheneinrichtung in ein mobiles Endgerät integriert sein.
  • Bei der Verbalreaktion muss es sich nicht zwangsweise um eine Sprachantwort auf eine verbal gestellte Frage handeln. Bei der Verbalreaktion kann es sich auch um eine die Recheneinheit selbst initiierte Ausgabe einer Sprachnachricht handeln. Dabei initiiert die Recheneinheit das Ausgeben der Verbalreaktion in Abhängigkeit der Nutzerinteraktion.
  • Für die Recheneinheit werden Gegenstände definiert, die der Recheneinheit bekannt sein sollen. Beispielsweise kann der Entwickler des Sprachdialogsystems oder auch ein entsprechender Nutzer des Sprachdialogsystems, sprich eine sich im Referenzraum aufhaltende Person, Gegenstände durch Training der Erfassungsmittel definieren, die die Recheneinheit kennen soll. Wird kein entsprechender Gegenstand im Referenzraum erkannt, so kann er automatisch als abwesend definiert werden.
  • Bei der Nutzerinteraktion kann es sich wie bereits erwähnt auch um Sprache handeln. Beispielsweise kann die Person das Sprachdialogsystem nach dem Wetter, insbesondere an einem bestimmten Ort, fragen. Die Recheneinheit wertet entsprechende, aus dem Internet bezogene Wetterinformationen aus und informiert die Person über das Wetter. Als Prämisse kann die Recheneinheit annehmen, dass die Person den entsprechenden Ort aufsuchen möchte. Regnet es dort oder ist mit Regen zu rechnen, wenn die Person dort eintrifft, kann das Sprachdialogsystem die Person daran erinnern, einen Regenschirm mitzunehmen. Dabei wird Bezug genommen auf einen im Referenzraum erkannten, also anwesenden bzw. abwesenden, Regenschirm. Scheint hingegen die Sonne, kann als Objekt auch ein Bezug zu einer Sonnenbrille hergestellt werden.
  • Zur Bestimmung von im Referenzraum an- bzw. abwesenden Gegenständen, das heißt zum reinen Erkennen der An- bzw. Abwesenheit eines solchen Gegenstandes sowie zur Definition, um was für eine Gattung bzw. Art von Gegenstand es sich handelt, können verschiedene Methoden eingesetzt werden. Beispielsweise können übliche Bilderkennungsalgorithmen eingesetzt werden.
  • Gemäß einer vorteilhaften Ausgestaltung des erfindungsgemäßen Sprachdialogsystems ist die Recheneinheit dazu eingerichtet, die Nutzerinteraktion durch Auswerten von aus der akustischen Überwachung gewonnen Sensordaten zu erkennen. Bei der Nutzerinteraktion kann es sich also um vom Nutzer gesprochene Sprache handeln. Dies bedeutet, dass der Nutzer einen oder mehrere Sätze oder auch nur einzelne Wörter sagt. Hierbei handelt es sich bevorzugt um eine Frage. Es kann sich jedoch auch um eine Aufforderung oder um eine(n) Aussage(-satz) handeln. Eine Nutzerinteraktion kann von der Recheneinheit auch durch das Auswerten von den visuellen Erfassungsmitteln erzeugter Sensordaten erkannt werden. Hierdurch ist es beispielsweise möglich zu erkennen, wenn eine Person den Referenzraum verlassen möchte oder betritt. Im Referenzraum können auch weitere Sensoren vorhanden sein, beispielsweise Drucksensoren, deren Sensordaten ebenfalls von der Recheneinheit zur Erkennung von Nutzerinteraktionen ausgewertet werden können. So lässt sich beispielsweise die Anwesenheit einer Person und/oder eines Gegenstands im Referenzraum durch einen erhöhten auf einen Drucksensor ausgeübten Druck erkennen. Die von weiteren Sensoren erzeugten Sensordaten können bevorzugter weise mit den von den akustischen und/oder visuellen Erfassungsmitteln generierten Sensordaten fusioniert werden.
  • Entsprechend einer weiteren vorteilhaften Ausgestaltung des erfindungsgemäßen Sprachdialogsystems ist die Recheneinheit ferner dazu eingerichtet zur Bestimmung von sich im Referenzraum befindlichen Gegenständen künstliche Intelligenz unter Einsatz eines ersten künstlichen neuronalen Netzes anzuwenden, wobei den Gegenständen durch das erste künstliche neuronale Netz jeweils ein natürlich sprachlicher Bezeichner zugeordnet wird. Mit Hilfe künstlicher Intelligenz lassen sich Gegenstände besonders zuverlässig bestimmen. Ein entsprechendes künstliches neuronales Netz ist vorteilhafterweise durch einen Hersteller des Sprachdialogsystems vortrainiert. Das künstliche neuronale Netz kann während dem Betrieb des Sprachdialogsystems durch einen Nutzer auch weitertrainiert werden und hierdurch das Bestimmen neuer Gegenstände erlernen. Mit zunehmender Einsatzdauer wird die Zuverlässigkeit der korrekten Bestimmung von Gegenständen zunehmen. Mögliche Methoden zum Trainieren des künstlichen neuronalen Netzes können beispielsweise Visual Teaching oder ImageNet sein. Zum Training des künstlichen neuronalen Netzes hat das künstliche neuronale Netz Zugriff auf eine Datenbank mit Bildern mit gekennzeichneten Objekten und zugehörigem natürlichsprachlichen Bezeichner. Bei einem natürlichsprachlichen Bezeichner handelt es sich beispielsweise um das Wort, mit dem eine Person den entsprechenden Gegenstand bezeichnet wie „Regenschirm“ für einen Regenschirm oder „Portemonnaie“ für eine Geldbörse. Ist ein entsprechender Gegenstand im Referenzraum an- oder abwesend, können beispielsweise folgende Feststellungen vom künstlichen neuronalen Netz getroffen werden: Regenschirm anwesend, Regenschirm fehlt, Sonnenbrille anwesend, Regenjacke fehlt oder dergleichen.
  • Eine weitere vorteilhafte Ausgestaltung des Sprachdialogsystems sieht ferner vor, dass die Recheneinheit ferner dazu eingerichtet ist, den Gegenständen in natürlicher Sprache formulierte Eigenschaften und/oder Relationen zuzuordnen, insbesondere durch Einsatz eines zweiten künstlichen neuronalen Netzes oder eines semantischen Netzes, und diese Eigenschaften und/oder bei der Bestimmung der Anwesenheits- und/oder Abwesenheitshypothesen zu berücksichtigen. Bei dem zweiten künstlichen neuronalen Netz handelt es sich beispielsweise um ein sogenanntes „ConceptNet“. Bei einem semantischen Netz handelt es sich um eine semantische Datenbank wie beispielsweise „WordNet“.
  • Beispiele für solche Eigenschaften bzw. Relationen können sein: Der Regenschirm bzw. die Sonnenbrille ist „schützend“ oder die Handtasche bzw. das Portemonnaie sind „erforderlich“, wie in: bei Verlassen des Referenzraums erforderlich. Als Relation kann beispielsweise eine Relation zwischen einer Sonnenbrille und einem Brillenetui hergestellt werden. Denkt beispielsweise eine Person beim Verlassen des Referenzraums daran ihre Sonnenbrille mitzunehmen, vergisst jedoch das Brillenetui, so kann als Verbalreaktion ausgegeben werden: „Achtung, Brillenetui nicht vergessen!“. Nimmt die Person hingegen die Sonnenbrille nicht mit, so wird auch keine Verbalreaktion für das Brillenetui ausgegeben, da dieses nicht erforderlich ist. Durch das Anreichern der Gegenstände mit natürlichsprachlichen Eigenschaften bzw. Relationen lässt sich die Zuverlässigkeit der Überprüfung, ob eine jeweilige Anwesenheitshypothese und/oder Abwesenheitshypothese mit der Prämisse in Einklang, im Widerspruch oder neutral steht, verbessern und das Verständnis der Person warum das Sprachdialogsystem genau jetzt zu einem bestimmten Gegenstand eine Verbalreaktion ausgibt erhöhen.
  • Entsprechend einer weiteren vorteilhaften Ausgestaltung des Sprachdialogsystems ist die Recheneinheit zur Bestimmung der Anwesenheits- und/oder Abwesenheitshypothesen ferner dazu eingerichtet, die Anwesenheitshypothesen und/oder Abwesenheitshypothesen aus einer Sammlung von Hypothesenvorlagen auszuwählen. So können für verschiedene erkennbare Nutzerinteraktionen unterschiedliche Hypothesenvorlagen definiert und in einer Datenbank abgelegt werden. Vorzugsweise sind für verschiedene anwesende und abwesende Gegenstände entsprechende Hypothesenvorlagen und/oder Nutzerinteraktionen zur Auswahl aus der Sammlung vorgesehen, Die entsprechende Datenbank kann beispielsweise in die Recheneinheit integriert sein. Dies ermöglicht es für verschiedene Nutzerinteraktionen und/oder Gegenstände immer die passenden Anwesenheitshypothesen bzw. Abwesenheitshypothesen für entsprechende im Referenzraum anwesende oder abwesende Gegenstände zu ermitteln. Entsprechende Hypothesen könnten beispielsweise lauten: „Ich brauche keinen schützenden Regenschirm“ oder „Ich brauche eine Sonnenbrille, um mich zu schützen“ oder „Ich brauche mein erforderliches Portemonnaie, um mich ausweisen zu können und bezahlen zu können“. Einer entsprechenden Nutzerinteraktion wie beispielsweise der Frage nach dem Wetter in Verbindung mit einem Gegenstand, der als an-oder abwesend erkennbar ist, wie beispielsweise einem Regenschirm sind eine An- oder Abwesenheitshypothesen zugeordnet. Alternativ können auch mehrere An- oder Abwesenheitshypothesen zugeordnet sein, so dass bei sich wiederholenden identischen oder ähnlichen Situationen eine von der vorausgegangenen verschiedene Verbalreaktionen ausgegeben werden kann.
  • Eine weitere vorteilhafte Ausgestaltung des Sprachdialogsystem sieht ferner vor, dass die Recheneinheit dazu eingerichtet ist, die Anwesenheitshypothesen und/oder Abwesenheitshypothesen in Form von natürlichsprachlichen Sätzen zu formulieren. Entsprechende Hypothesen lassen sich dann besonders effizient zur Ausformulierung der Verbalreaktionen heranziehen.
  • Entsprechend einer weiteren vorteilhaften Ausgestaltung des Sprachdialogsystems ist die Recheneinheit dazu eingerichtet ein vortrainiertes Sprachmodell auf Basis eines dritten künstlichen neuronalen Netzes für natürlichsprachliche Inferenz auszuführen, wobei das Sprachmodell überprüft, ob eine jeweilige Anwesenheitshypothese und/oder Abwesenheitshypothese in Einklang, im Widerspruch oder neutral zur Prämisse steht. Das Ausformulieren der in das dritte künstliche neuronale Netz eingehenden Eingangsdaten in natürlicher Sprache erlaubt das Prüfen der Inferenz mittels Sprachmodell. Das Sprachmodell führt dann einen Test auf Einklang bzw. Widerspruch der entsprechenden Hypothesen mit Faktenwissen aus der Nutzerinteraktion durch.
  • Eine solche Überprüfung wird durch folgendes Beispiel erläutert: Die Recheneinheit leitet aus einer Sprachanfrage nach einem Wetterbericht als Randbedingung ab, dass es an einem Ort von Interesse regnet. Ferner erkennt die Recheneinheit im Referenzraum keinen Regenschirm. Entsprechend wird als Abwesenheitshypothese generiert: „Ich brauche keinen schützenden Regenschirm“, was im Widerspruch steht zu „Es regnet“. Scheint hingegen die Sonne und wird im Referenzraum eine Sonnenbrille erkannt, könnte eine entsprechende Hypothese auch lauten: „Ich brauche eine schützende Sonnenbrille“, was im Einklang steht mit „die Sonne scheint“. Für eine bestimmte Prämisse können auch mehrere Anwesenheits- bzw. Abwesenheitshypothesen für jeweils mehrere Gegenstände herangezogen werden. Regnet es, kann beispielsweise als Verbalreaktion ausgegeben werden: „Du brauchst einen Regenschirm.“ und „Du brauchst keine Sonnenbrille.“. Gegenstände, deren jeweilige Hypothese neutral zur Prämisse steht, können in der Verbalreaktion vernachlässigt werden.
  • Dabei gibt das dritte künstliche neuronale Netz, also ein künstliches neuronales Netz für natürlichsprachliche Inferenz, als Ausgabewert einen Zahlenwert aus, welcher entsprechend beim Über- oder Unterschreiten eines Schwellwerts für das Zutreffen oder Widersprechen der jeweiligen Hypothese zur Prämisse steht. Es kann zudem ein vergleichsweise kleiner Bereich um den Schwellwert definiert werden, wobei ein Ausgabewert entsprechend diesem Bereich für eine neutral zur Prämisse stehende Hypothese steht.
  • Eine weitere vorteilhafte Ausgestaltung des erfindungsgemäßen Sprachdialogsystems sieht ferner vor, dass die Recheneinheit ferner dazu eingerichtet ist, nur solche Anwesenheitshypothesen und/oder Abwesenheitshypothesen in die Verbalreaktion aufzunehmen, welche durch das Sprachmodell zumindest mit einer über einen kritischen Wert liegenden Konfidenz als zur Prämisse in Einklang oder in Widerspruch stehend bestimmt werden. Zur Auswahl eines geeigneten Kandidaten, der in der Verbalreaktion ausgegeben werden soll, kann dann beispielsweise die Höhe des vom dritten künstlichen neuronalen Netzes ausgegebenen Zahlenwerts berücksichtigt werden. Es werden dann die Ergebnisse beispielsweise mit dem höchsten oder niedrigsten Zahlenwert ausgegeben.
  • Entsprechend einer weiteren vorteilhaften Ausgestaltung des Sprachdialogsystems ist die Recheneinheit ferner dazu eingerichtet, einen Hinweis auf einen im Referenzraum anwesenden Gegenstand in die Verbalreaktion aufzunehmen, wenn die Anwesenheitshypothese des Gegenstands im Einklang mit der Prämisse ist und/oder ein Hinweis auf ein im Referenzraum abwesenden Gegenstand in die Verbalreaktion aufzunehmen, wenn die Abwesenheitshypothese des Gegenstands im Einklang mit der Prämisse ist.
  • Für das Beispiel „Sonnenschein“ könnten entsprechende Verbalreaktionen lauten:
    • - „Die Sonnenbrille wir dich schützen.“;
    • - „Gut, dass du den Schirm zuhause gelassen hast.“.
  • Oder für „Regen“:
    • - „Der Regenschirm wird dich schützen.“ sowie
    • - „Gut, dass du die Sonnenbrille zuhause gelassen hast.“.
  • Eine weitere vorteilhafte Ausgestaltung des Sprachdialogsystems sieht ferner vor, dass die Recheneinheit ferner dazu eingerichtet ist, einen Hinweis auf einen im Referenzraum anwesenden Gegenstand in die Verbalreaktion aufzunehmen, wenn die Anwesenheitshypothese des Gegenstands im Widerspruch mit der Prämisse ist und/oder einen Hinweis auf eine im Referenzraum abwesenden Gegenstand in die Verbalreaktion aufzunehmen, wenn die Abwesenheitshypothese des Gegenstands im Widerspruch mit der Prämisse ist.
  • Für das Beispiel „Sonnenschein“ könnten entsprechende Verbalreaktionen lauten:
    • - „Der Regenschirm wird dir nicht helfen.“; oder
    • - „Du hast die Sonnenbrille vergessen.“
  • Oder für „Regen“:
    • - „Du hast den Regenschirm vergessen.“ sowie
    • - „Die Sonnenbrille wird dich nicht schützen.“.
  • Bevorzugt ist ein im vorigen beschriebenes Sprachdialogsystem in ein Fahrzeug integriert. Bei dem Fahrzeug kann es sich um ein beliebiges Fahrzeug wie einen Pkw, Lkw, Transporter, Bus oder dergleichen handeln. Entsprechend stellt der Fahrzeuginnenraum den Referenzraum dar. Beispielsweise kann eine fahrzeugführende Person ein Navigationssystem nutzen, um eine Routenführung mit dem Fahrzeug durchzuführen. Entsprechend wird das Fahrzeug zu einem Zielort navigiert. Das Sprachdialogsystem kann selbstständig für den Zielort das Wetter ermitteln oder auch erst nachdem ein Fahrzeuginsasse beispielsweise verbal die Frage stellt: „Wie ist das Wetter am Zielort?“. Daraufhin ermittelt das Sprachdialogsystem, dass es am Zielort regnet. Das Sprachdialogsystem ermittelt daraufhin, dass im Fahrzeuginnenraum kein Regenschirm erkannt wurde. Entsprechend gibt das Sprachdialogsystem folgende Nachricht aus: „Am Zielort ist bei Ankunft mit Regen zu rechnen. Du solltest noch schnell einen Regenschirm einpacken.“.
  • Weitere vorteilhafte Ausgestaltungen des erfindungsgemäßen Sprachdialogsystems und des erfindungsgemäßen Fahrzeugs ergeben sich auch aus den Ausführungsbeispielen, welche nachfolgend unter Bezugnahme auf die Figuren näher beschrieben werden.
  • Dabei zeigen:
    • 1 eine schematisierte Draufsicht auf ein erfindungsgemäßes Fahrzeug mit einem erfindungsgemäßen Sprachdialogsystem; und
    • 2 ein Ablaufdiagramm der von einer Recheneinheit des Sprachdialogsystems durchgeführten Verfahrensschritte zur Ausgabe einer Verbalreaktion.
  • 1 zeigt ein erfindungsgemäßes Fahrzeug 5 mit einem erfindungsgemäßen Sprachdialogsystem. Das Fahrzeug 5 umfasst Erfassungsmittel zur Überwachung eines Referenzraums 1, bei dem es sich in diesem Falle um den Fahrzeuginnenraum handelt. Als akustische Erfassungsmittel verfügt das Fahrzeug 5 über wenigstens ein Mikrofon 6 und als visuelle Erfassungsmittel über wenigstens eine, in diesem Fall zwei Kameras 7. Als Ausgabemittel verfügt das Fahrzeug 5 über wenigstens einen, in diesem Falle zwei Lautsprecher 8. Von den entsprechenden Erfassungsmitteln erzeugte Sensordaten werden von einer Recheneinheit 2 ausgewertet.
  • Durch Auswertung von Kamerabildern, insbesondere unter Einsatz eines in 2 dargestellten ersten künstlichen neuronalen Netzes KNN1, ist die Recheneinheit 2 dazu in der Lage im Referenzraum 1 anwesende Gegenstände 3, beispielsweise eine Sonnenbrille, zu erkennen. Im Referenzraum 1 erkannte Gegenstände 3 werden mit der Recheneinheit 2 bekannten Gegenständen verglichen, wodurch die Recheneinheit 2 dazu in die Lage versetzt wird, im Referenzraum 1 abwesende Gegenstände 4, beispielsweise einen Regenschirm, zu bestimmen.
  • Durch das Auswerten von Kamerabildern und mittels des oder der Mikrofone 6 erzeugten Sensordaten ist die Recheneinheit 2 ferner dazu in der Lage, eine von einem Fahrzeuginsassen 9 getätigte Nutzerinteraktion festzustellen. Hierbei kann es sich beispielsweise um eine Sprachanfrage, die Eingabe einer Bedienhandlung in eine nicht näher dargestellte Bedieneinrichtung oder auch das Durchführen einer Bewegung, beispielsweise einer bestimmten Gestik, handeln. Die Recheneinheit 2 ermittelt in Abhängigkeit der entsprechenden Nutzerinteraktion eine Prämisse. Fragt der Fahrzeuginsasse 9 das Sprachdialogsystem beispielsweise nach dem aktuellen Wetter am Zielort, so wird als Prämisse von der Recheneinheit 2 angenommen, dass der Fahrzeuginsasse 9 den Zielort aufsuchen möchte, an dem es gerade regnet. Die Prämisse ist dann: „Es regnet.“.
  • Die Recheneinheit 2 erstellt dann für im Referenzraum 1 anwesende Gegenstände 3 eine Anwesenheitshypothese und für abwesende Gegenstände 4 eine Abwesenheitshypothese. Dabei wird für jeden Gegenstand 3, 4 eine eigene Hypothese erstellt.
  • Die Recheneinheit 2 überprüft daraufhin, ob eine jeweilige Anwesenheits- bzw. Abwesenheitshypothese mit der Prämisse im Einklang oder im Widerspruch steht oder neutral hierzu ist. Über die Lautsprecher 8 wird dann eine passende Verbalreaktion ausgegeben, die zumindest eine zur Prämisse im Einklang oder im Widerspruch stehende Anwesenheitshypothese und/oder Abwesenheitshypothese umfasst. Beispielsweise kann über die Lautsprecher 8 ausgegeben werden, dass der Fahrzeuginsasse 9 noch einen Regenschirm einpacken sollte, bevor er losfährt.
  • Die von der Recheneinheit 2 durchgeführten Schritte sind noch einmal detaillierter in 2 dargestellt. Das erste künstliche neuronalen Netz KNN1 wertet die von den Kameras 7 erzeugten Kamerabilder aus und überprüft, ob Gegenstände aus einer in der Recheneinheit 2 gespeicherten Menge 10 von Gegenständen im Referenzraum 1 anwesend sind. Die Menge 10 der definierten Gegenstände kann beispielsweise von einem Fahrzeughersteller initial erstellt werden und insbesondere von dem Fahrzeuginsassen 9 weiter angelernt werden, sodass das erste künstliche neuronale Netze KNN1 dazu in die Lage versetzt wird, auch neue Gegenstände zu erkennen und/oder bekannte Gegenstände noch zuverlässiger zu erkennen, beispielsweise wenn anstelle eines großen roten Regenschirms nun ein kleiner blauer Regenschirm im Fahrzeug 5 transportiert wird. Die Recheneinheit 2 untersucht dabei den Referenzraum 1 in einem Verfahrensschritt 201 auf an- und abwesende Gegenstände 3,4 und ordneten diesen jeweils einen natürlichsprachlichen Bezeichner zu.
  • In einem optionalen Verfahrensschritt 202 kann ein zweites künstliches neuronales Netz KNN2 einen entsprechenden natürlichsprachlichen Bezeichner der erkannten anwesenden 3 bzw. abwesenden Gegenstände 4 durch bekannte Objekteigenschaften und/oder Relationen anreichern. Eine mögliche Eigenschaft ist beispielsweise die Fähigkeit „schützend“.
  • In einem Verfahrensschritt 203 wird eine Nutzerinteraktion im Referenzraum 1 erkannt. Beispielsweise kann der Fahrzeuginsasse 9 eine verbale Anfrage an das Sprachdialogsystem stellen, welches einen Sprachassistenten 11 ausbildet. Als Anfrage kann der Fahrzeuginsasse beispielsweise folgende Frage stellen: „Wie ist das Wetter am Zielort?“. Als Antwort kann der Sprachassistent 11 beispielsweise zurückgeben: „Am Zielort ist es aktuell heiter bis wolkig. Wenn du am Zielort eintreffen wirst, ist mit Regen zu rechnen.“.
  • Das Sprachdialogsystem leitet hieraus die Prämisse ab: „Es regnet.“. Hieraus werden für die entsprechenden anwesenden Gegenstände 3 und abwesenden Gegenstände 4 entsprechende Anwesenheits- bzw. Abwesenheitshypothesen abgeleitet. Diese können aus einer Sammlung von Hypothesenvorlagen ausgewählt werden. Das Vorhalten von Hypothesenvorlagen ermöglicht das besonders schnelle und zuverlässige Finden einer passenden Hypothese für eine jeweilige mit der entsprechenden Nutzerinteraktion vorliegende Situation.
  • Die entsprechenden Hypothesen werden in einem Verfahrensschritt 204 unter Berücksichtigung der durch den natürlichsprachlichen Bezeichner referenzierten Gegenstände, optional ergänzt durch besagte Eigenschaften bzw. Relationen, formuliert.
  • In einem Verfahrensschritt 205 führt ein drittes künstliches neuronales Netz KNN3, bei dem es sich insbesondere um ein künstliches neuronales Netz für natürlichsprachliche Inferenz handelt, eine Überprüfung durch, ob eine jeweilige Anwesenheits- bzw. Abwesenheitshypothese mit der Prämisse im Einklang steht, im Widerspruch steht oder neutral hierzu ist. Für jede durchgeführte Prüfung gibt das entsprechende dritte künstliche neuronalen Netz KNN3 einen eigenen Ausgabewert aus. Hierbei handelt es sich um eine Zahl. In einem Verfahrensschritt 206 wird dieser entsprechende Ausgabewert mit einem Schwellwert verglichen. Je nachdem wie das Verhältnis von Ausgabewert zu Schwellwert ausfällt, beispielsweise wenn der Ausgabewert um einen definierten Betrag größer als der Schwellwert ist, so wird eine entsprechende Verbalreaktion im Fahrzeug 5 ausgegeben, die die auf die entsprechende Prämisse referenzierte Anwesenheitshypothese bzw. Abwesenheitshypothese umfasst. Dies soll anhand folgender Beispiele verdeutlich werden, wobei ein anwesender Gegenstand durch ein Häkchen und ein abwesender Gegenstand durch ein Kreuz sowie ein Widerspruch zur Prämisse durch einen Blitz und eine Übereinkunft mit der Prämisse durch einen durchgestrichenen Blitz symbolisiert ist:
  • Für den Fall das es regnet könnte beispielsweise für einen abwesenden Regenschirm im Verfahrensschritt 207.1 die Verbalreaktion ausgegeben werden: „Du hast den schützenden Regenschirm vergessen.“. Für einen anwesenden Gegenstand 3, dessen Anwesenheitshypothese jedoch im Widerspruch zur Prämisse ist, könnte beispielsweise im Verfahrensschritt 207.2 ausgegeben werden: „Die Sonnenbrille wird nicht schützen.“.
  • Folgende Beispiele könnten als Verbalreaktion ausgegeben werden wenn die Sonne scheint: Für einen abwesenden Gegenstand 4, der im Einklang mit der Prämisse steht, könnte beispielsweise im Verfahrensschritt 207.3 ausgegeben werden: „Gut, dass du den Regenschirm zuhause gelassen hast.“. Für einen anwesenden Gegenstand 3, der im Einklang mit der Prämisse ist, könnte im Verfahrensschritt 207.4 beispielsweise ausgegeben werden: „Die Sonnenbrille wird dich schützen.“.
  • Mit Hilfe des erfindungsgemäßen Sprachdialogsystems, insbesondere bei einer Integration in ein Fahrzeug, lässt sich der Komfort für Personen bei der Nutzung eines Sprachassistenten noch weiter steigern. Das erfindungsgemäße Sprachdialogsystem ermöglicht es Personen, beispielsweise Fahrzeuginsassen 9, an im Referenzraum 1, sprich dem Fahrzeuginnenraum, befindliche oder vergessene Gegenstände zu erinnern oder in einer geeigneten Situation verbal eine Referenz zu einem solchen Gegenstand herzustellen, wodurch ein positiver Nutzen für die Person entsteht. Durch die natürliche Interaktion mittels Sprache wird ein besonders angenehmer Nutzungsvorgang gewährleistet. Dies erhöht zudem die Akzeptanz von Sprachassistenten in Fahrzeugen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102019219406 A1 [0004]

Claims (11)

  1. Sprachdialogsystem mit Erfassungsmitteln zur akustischen und visuellen Überwachung eines Referenzraums (1), Ausgabemitteln zur akustischen Ausgabe einer Verbalreaktion und einer Recheneinheit (2) zur Verarbeitung von den Erfassungsmitteln erzeugten Sensordaten und zur Ansteuerung der Ausgabemittel, wobei die Recheneinheit (2) dazu eingerichtet ist durch das Verarbeiten der Sensordaten eine Spracheingabe zu empfangen, eine semantische Bedeutung der Spracheingabe zu ermitteln und die Verbalreaktion in Abhängigkeit der semantischen Bedeutung der Spracheingabe auszugestalten, dadurch gekennzeichnet, dass die Recheneinheit (2) ferner dazu eingerichtet ist die folgenden Verfahrensschritte auszuführen: - Bestimmen von im Referenzraum (1) anwesenden und abwesenden der Recheneinheit vorbekannten Gegenständen (3) durch Auswerten aus der visuellen Überwachung gewonnener Sensordaten; - Erkennen einer Nutzerinteraktion durch Auswerten der Sensordaten; - Ermitteln einer mit der Nutzerinteraktion verknüpften Prämisse; - Bestimmen einer Anwesenheitshypothese für einen jeweiligen im Referenzraum (1) anwesenden Gegenstand (3) und bestimmen einer Abwesenheitshypothese für einen jeweiligen im Referenzraum abwesenden Gegenstand (4); - Überprüfen, ob eine jeweilige Anwesenheitshypothese und/oder Abwesenheitshypothese in Einklang, im Widerspruch oder neutral zur Prämisse steht; und - Ausgabe einer Verbalreaktion, welche zumindest eine zur Prämisse im Einklang oder im Widerspruch stehende Anwesenheitshypothese und/oder Abwesenheitshypothese umfasst.
  2. Sprachdialogsystem nach Anspruch 1, dadurch gekennzeichnet, dass die Recheneinheit (2) ferner dazu eingerichtet ist die Nutzerinteraktion durch Auswerten von aus der akustischen Überwachung gewonnenen Sensordaten zu erkennen.
  3. Sprachdialogsystem nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Recheneinheit (2) ferner dazu eingerichtet ist zur Bestimmung von sich im Referenzraum (1) befindlichen Gegenständen (3) künstliche Intelligenz unter Einsatz eines ersten künstlichen neuronalen Netzes (KNN1) anzuwenden, wobei den Gegenständen (3, 4) durch das erste künstliche neuronale Netz (KNN1) jeweils ein natürlichsprachlicher Bezeichner zugeordnet wird.
  4. Sprachdialogsystem nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Recheneinheit (2) ferner dazu eingerichtet ist den Gegenständen (3, 4) in natürlicher Sprache formulierte Eigenschaften und/oder Relationen zuzuordnen, insbesondere durch Einsatz eines zweiten künstlichen neuronalen Netzes (KNN2) oder eines semantischen Netzes und diese bei der Bestimmung der Anwesenheits- und/oder Abwesenheitshypothesen zu berücksichtigen.
  5. Sprachdialogsystem nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Recheneinheit (2) zur Bestimmung der Anwesenheits- und/oder Abwesenheitshypothesen ferner dazu eingerichtet ist die Anwesenheitshypothesen und/oder Abwesenheitshypothesen aus einer Sammlung von Hypothesenvorlagen auszuwählen.
  6. Sprachdialogsystem nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Recheneinheit (2) ferner dazu eingerichtet ist die Anwesenheitshypothesen und/oder Abwesenheitshypothesen in Form von natürlichsprachlichen Sätzen zu formulieren.
  7. Sprachdialogsystem nach Anspruch 6, dadurch gekennzeichnet, dass die Recheneinheit (2) ferner dazu eingerichtet ist ein vortrainiertes Sprachmodell auf Basis eines dritten künstlichen neuronalen Netzes (KNN3) für natürlichsprachliche Inferenz auszuführen, wobei das Sprachmodell überprüft, ob eine jeweilige Anwesenheitshypothese und/oder Abwesenheitshypothese in Einklang, im Widerspruch oder neutral zur Prämisse steht.
  8. Sprachdialogsystem nach Anspruch 7, dadurch gekennzeichnet, dass die Recheneinheit (2) ferner dazu eingerichtet ist nur solche Anwesenheitshypothesen und/oder Abwesenheitshypothesen in die Verbalreaktion aufzunehmen, welche durch das Sprachmodell zumindest mit einer über einem kritischen Wert liegenden Konfidenz als zur Prämisse in Einklang oder in Widerspruch stehend bestimmt werden.
  9. Sprachdialogsystem nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die Recheneinheit (2) ferner dazu eingerichtet ist einen Hinweis auf einen im Referenzraum (1) anwesenden Gegenstand (3) in die Verbalreaktion aufzunehmen, wenn die Anwesenheitshypothese des Gegenstands (3) im Einklang mit der Prämisse ist und/oder einen Hinweis auf einen im Referenzraum (1) abwesenden Gegenstand (4) in die Verbalreaktion aufzunehmen, wenn die Abwesenheitshypothese des Gegenstands (4) im Einklang mit der Prämisse ist.
  10. Sprachdialogsystem nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass die Recheneinheit (2) ferner dazu eingerichtet ist, einen Hinweis auf einen im Referenzraum (1) anwesenden Gegenstand (3) in die Verbalreaktion aufzunehmen, wenn die Anwesenheitshypothese des Gegenstands (3) im Widerspruch mit der Prämisse ist und/oder einen Hinweis auf einen im Referenzraum (1) abwesenden Gegenstand (4) in die Verbalreaktion aufzunehmen, wenn die Abwesenheitshypothese des Gegenstands (4) im Widerspruch mit der Prämisse ist.
  11. Fahrzeug (5), gekennzeichnet durch ein Sprachdialogsystem nach einem der Ansprüche 1 bis 10.
DE102022001263.4A 2022-04-12 2022-04-12 Sprachdialogsystem und Fahrzeug Pending DE102022001263A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102022001263.4A DE102022001263A1 (de) 2022-04-12 2022-04-12 Sprachdialogsystem und Fahrzeug

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022001263.4A DE102022001263A1 (de) 2022-04-12 2022-04-12 Sprachdialogsystem und Fahrzeug

Publications (1)

Publication Number Publication Date
DE102022001263A1 true DE102022001263A1 (de) 2023-10-12

Family

ID=88094184

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022001263.4A Pending DE102022001263A1 (de) 2022-04-12 2022-04-12 Sprachdialogsystem und Fahrzeug

Country Status (1)

Country Link
DE (1) DE102022001263A1 (de)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2890056A1 (de) 2013-12-27 2015-07-01 Deutsche Telekom AG Unterstützung von Nutzern in einer intelligenten häuslichen Umgebung
US20190202063A1 (en) 2017-12-29 2019-07-04 DMAI, Inc. System and method for selective animatronic peripheral response for human machine dialogue
US20200175973A1 (en) 2018-11-29 2020-06-04 International Business Machines Corporation Vocal utterance based item inventory actions
DE102019219406A1 (de) 2019-12-12 2021-06-17 Continental Automotive Gmbh Kontext-sensitives sprachdialogsystem

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2890056A1 (de) 2013-12-27 2015-07-01 Deutsche Telekom AG Unterstützung von Nutzern in einer intelligenten häuslichen Umgebung
US20190202063A1 (en) 2017-12-29 2019-07-04 DMAI, Inc. System and method for selective animatronic peripheral response for human machine dialogue
US20200175973A1 (en) 2018-11-29 2020-06-04 International Business Machines Corporation Vocal utterance based item inventory actions
DE102019219406A1 (de) 2019-12-12 2021-06-17 Continental Automotive Gmbh Kontext-sensitives sprachdialogsystem

Similar Documents

Publication Publication Date Title
DE102019119171A1 (de) Spracherkennung für fahrzeugsprachbefehle
WO2019011356A1 (de) Verfahren zur dialogführung zwischen mensch und computer
DE102013007502A1 (de) Computer-implementiertes Verfahren zum automatischen Trainieren eins Dialogsystems und Dialogsystem zur Erzeugung von semantischen Annotationen
DE102018113034A1 (de) Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat
DE102013216975A1 (de) Verfahren und Vorrichtung zur subjektiven Befehlssteuerung von Fahrzeugsystemen
DE102020100497A1 (de) Systeme und verfahren von fahrzeugbasierter echtzeitanalyse und verwendungen davon
DE102018116832A1 (de) Spracherkennungsbenutzermakros zum verbessern von fahrzeuggrammatiken
DE112018007932T5 (de) Inferenzvorrichtung, inferenzverfahren und inferenzprogramm
DE102013222519A1 (de) Adaptionsverfahren und -systeme für sprachsysteme
DE112017007793T5 (de) Anomalieerkennung im innenraum eines autonomen fahrzeugs
DE102020101777A1 (de) Vorauslade- und verzögerte ladeergebnisse von im fahrzeug verbauten digitalen hilfssprachsuchen
DE102015208253A1 (de) Fahrzeugseitige mikro-interaktionen
DE102022001263A1 (de) Sprachdialogsystem und Fahrzeug
DE102020100638A1 (de) System und Verfahren für einen Dialog mit einem Nutzer
DE102019218918A1 (de) Dialogsystem, elektronisches gerät und verfahren zur steuerung des dialogsystems
DE102016100968A1 (de) Verfahren und Vorrichtung zum Überwachen eines Fahrzeugführers
DE102018208707A1 (de) Verfahren zum Betreiben einer Schallausgabeeinrichtung eines Kraftfahrzeugs, Sprachanalyse- und Steuereinrichtung, Kraftfahrzeug, und kraftfahrzeugexterne Servereinrichtung
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
DE102019218058B4 (de) Vorrichtung und Verfahren zum Erkennen von Rückwärtsfahrmanövern
DE102019218382A1 (de) Verfahren für eine Datenbank, Endgerät, Kraftfahrzeug
EP4124211B1 (de) Verfahren und vorrichtung zur erzeugung von sprachausgaben in einem fahrzeug
DE102019219406A1 (de) Kontext-sensitives sprachdialogsystem
DE102018130754A1 (de) Nahtloser berater-eingriff
DE102019204849A1 (de) Erkennung eines durch Personen ausgehenden Gefahrenpotentials
DE112018006597T5 (de) Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication