DE102022100538A1 - Sprachfilterung für masken - Google Patents

Sprachfilterung für masken Download PDF

Info

Publication number
DE102022100538A1
DE102022100538A1 DE102022100538.0A DE102022100538A DE102022100538A1 DE 102022100538 A1 DE102022100538 A1 DE 102022100538A1 DE 102022100538 A DE102022100538 A DE 102022100538A DE 102022100538 A1 DE102022100538 A1 DE 102022100538A1
Authority
DE
Germany
Prior art keywords
occupant
mask
procedure
data
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022100538.0A
Other languages
English (en)
Inventor
Scott Andrew Amman
Cynthia M. Neubecker
Joshua Wheeler
Pietro Buttolo
Brian Bennie
John Robert Van Wiemeersch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of DE102022100538A1 publication Critical patent/DE102022100538A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/593Recognising seat occupancy
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

Ein Computer beinhaltet einen Prozessor und einen Speicher, der Anweisungen speichert, die durch den Prozessor ausführbar sind, um Sensordaten eines Insassen eines Fahrzeugs zu empfangen, einen von dem Insassen getragenen Maskentyp auf Grundlage der Sensordaten zu identifizieren, einen Schallfilter gemäß dem Maskentyp aus einer Vielzahl von in dem Speicher gespeicherten Schallfiltern auszuwählen, Schalldaten zu empfangen, den ausgewählten Schallfilter auf die Schalldaten anzuwenden und einen Vorgang unter Verwendung der gefilterten Schalldaten durchzuführen.

Description

  • GEBIET DER TECHNIK
  • Die Offenbarung betrifft im Allgemeinen Spracherkennungssysteme für Fahrzeuge und insbesondere ein Sprachfiltersystem und -verfahren, wenn ein Fahrzeuginsasse eine Maske trägt.
  • ALLGEMEINER STAND DER TECHNIK
  • Viele moderne Fahrzeuge beinhalten Spracherkennungssysteme. Ein derartiges System beinhaltet ein Mikrofon. Das System wandelt durch das Mikrofon detektierte gesprochene Wörter in Text oder eine andere Form um, mit der ein Befehl abgeglichen werden kann. Erkannte Befehle können das Einstellen von Klimasteuerungen, das Auswählen von abzuspielenden Medien usw. beinhalten.
  • KURZDARSTELLUNG
  • Ein Computer beinhaltet einen Prozessor und einen Speicher, der Anweisungen speichert, die durch den Prozessor ausführbar sind, um Sensordaten eines Insassen eines Fahrzeugs zu empfangen, einen von dem Insassen getragenen Maskentyp auf Grundlage der Sensordaten zu identifizieren, einen Schallfilter gemäß dem Maskentyp aus einer Vielzahl von in dem Speicher gespeicherten Schallfiltern auszuwählen, Schalldaten zu empfangen, den ausgewählten Schallfilter auf die Schalldaten anzuwenden und einen Vorgang unter Verwendung der gefilterten Schalldaten durchzuführen.
  • Die Sensordaten können Bilddaten sein, die den Insassen zeigen.
  • Der Vorgang kann ein Identifizieren eines Sprachbefehls zum Aktivieren eines Merkmals sein.
  • Der Vorgang kann ein Übertragen der gefilterten Schalldaten in einem Telefonanruf sein.
  • Der Vorgang kann ein Ausgeben der gefilterten Schalldaten durch einen Lautsprecher des Fahrzeugs sein.
  • Die Anweisungen können Anweisungen beinhalten, um den Vorgang unter Verwendung der Schalldaten ungefiltert durchzuführen, wenn bestimmt wird, dass der Insasse keine Maske trägt.
  • Die Anweisungen können das Auswählen eines generischen Schallfilters aus der Vielzahl von Schallfiltern beinhalten, wenn der Maskentyp als unbekannter Typ identifiziert wird. Die Anweisungen können Anweisungen beinhalten, um ein Update an einen entfernten Server zu übertragen, wenn der Maskentyp als der unbekannte Typ identifiziert wird. Das Update kann Bilddaten der Maske beinhalten.
  • Die Anweisungen können Anweisungen beinhalten, um den durch den Insassen getragenen Maskentyp auf Grundlage einer Eingabe durch den Insassen zu identifizieren. Die Anweisungen können Anweisungen zum Überschreiben der Identifizierung auf Grundlage der Sensordaten mit der Identifizierung auf Grundlage der Eingabe bei Empfangen der Eingabe beinhalten.
  • Die Anweisungen können Anweisungen beinhalten, um den Insassen aufzufordern, die Eingabe bereitzustellen, wenn bestimmt wird, dass der Insasse eine Maske trägt.
  • Die Anweisungen können Anweisungen beinhalten, um den Insassen aufzufordern, die Eingabe bereitzustellen, wenn bestimmt wird, dass einer der Insassen einen Maskentyp trägt, der mit einem unter einem Konfidenzschwellenwert liegenden Konfidenzwert identifiziert wurde, oder der Maskentyp ein unbekannter Typ ist.
  • Die Anweisungen können Anweisungen zum Übertragen eines Updates an einen entfernten Server als Reaktion darauf beinhalten, dass die Eingabe angibt, dass der Maskentyp nicht zu den im Speicher gespeicherten Maskentypen gehört.
  • Die Anweisungen können Anweisungen beinhalten, um den Insassen, für den der Maskentyp zu identifizieren ist, aus einer Vielzahl von Insassen auf Grundlage von Schalldatenlautstärken von jeweiligen Mikrofonen auszuwählen.
  • Die Anweisungen können Anweisungen beinhalten, um den Insassen, für den der Maskentyp zu identifizieren ist, aus einer Vielzahl von Insassen auf Grundlage dessen auszuwählen, dass sich der Insasse sich in einem vorbestimmten Bereich der Bilddaten befindet.
  • Jeder Schallfilter kann eine Lautstärke der Schalldaten um ein Maß einstellen, das je nach Frequenz variiert. Jeder Schallfilter erhöht die Lautstärke der Schalldaten bei mindestens einer Frequenz.
  • Die Anweisungen können Anweisungen beinhalten, um ein Update von einem entfernten Server zu empfangen, der die Vielzahl von in dem Speicher gespeicherten Schallfiltern ändert.
  • Ein Verfahren beinhaltet Empfangen von Sensordaten eines Insassen eines Fahrzeugs, Identifizieren eines von dem Insassen getragenen Maskentyp auf Grundlage der Sensordaten, Auswählen eines Schallfilters gemäß dem Maskentyp aus einer Vielzahl von in dem Speicher gespeicherten Schallfiltern, Empfangen von Schalldaten, Anwenden der ausgewählten Schallfilter auf die Schalldaten und Durchführen eines Vorgangs unter Verwendung der gefilterten Schalldaten.
  • Figurenliste
    • 1 ist eine Draufsicht auf ein beispielhaftes Fahrzeug mit einem zur Veranschaulichung freigelegten Fahrgastraum.
    • 2 ist ein Blockdiagramm eines Systems des Fahrzeugs.
    • 3 ist ein Prozessflussdiagramm eines beispielhaften Prozesses zur Sprachfilterung bei einem eine Maske tragendem Insassen des Fahrzeugs.
    • 4 ist ein Verlauf des Schalldrucks gegenüber der Frequenz für Sprache für eine Vielzahl von Masken, während eine Maske getragen wird.
  • DETAILLIERTE BESCHREIBUNG
  • Unter Bezugnahme auf die Figuren beinhaltet ein Computer 100 einen Prozessor und einen Speicher, der Anweisungen speichert, die durch den Prozessor ausführbar sind, um Sensordaten eines Insassen eines Fahrzeugs 102 zu empfangen, einen von dem Insassen getragenen Maskentyp auf Grundlage der Sensordaten zu identifizieren, einen Schallfilter gemäß dem Maskentyp aus einer Vielzahl von in dem Speicher gespeicherten Schallfiltern auszuwählen, Schalldaten zu empfangen, den ausgewählten Schallfilters auf die Schalldaten anzuwenden und einen Vorgang unter Verwendung der gefilterten Schalldaten durchzuführen.
  • Der Computer 100 kann dazu verwendet werden, die Sprachklarheit von einem Insassen zu verbessern, der eine Maske trägt, indem der Maskentyp ausgewählt und dadurch der Filter angewendet wird, der am besten geeignet ist, um die Sprache auszugleichen. Die Wahl des Filters ermöglicht, dass die durch diese bestimmte Maske gedämpften Frequenzen verstärkt werden. Die gefilterten Schalldaten können somit zuverlässig dazu verwendet werden, Vorgänge wie etwa einen Sprachbefehl zum Aktivieren eines Merkmals des Fahrzeugs 102, eine Übertragung in einem Telefonanruf oder eine Übertragung als Telekommunikation an einen Lautsprecher 114 an einer anderen Stelle im Fahrzeug 102 durchzuführen. Der Sprachbefehl kann zuverlässig erkannt werden, der Telefonanruf kann von der Person am anderen Ende des Insassen zuverlässig verstanden werden und die Telekommunikationsnachricht kann von dem anderen Insassen des Fahrzeugs 102 zuverlässig verstanden werden.
  • Unter Bezugnahme auf 1 kann es sich bei dem Fahrzeug 102 um eine beliebige geeignete Art von Kraftfahrzeug handeln, z. B. einen Personen- oder Nutzkraftwagen, wie etwa eine Limousine, ein Coupe, einen Lastwagen, einen Geländewagen, ein Crossover-Fahrzeug, einen Van, einen Minivan, ein Taxi, einen Bus usw. Das Fahrzeug 102 kann zum Beispiel autonom sein. Anders ausgedrückt kann das Fahrzeug 102 autonom betrieben werden, sodass das Fahrzeug 102 ohne ständige Aufmerksamkeit eines Fahrers gefahren werden kann, d. h., das Fahrzeug 102 kann ohne menschliche Eingabe selbst fahren.
  • Das Fahrzeug 102 beinhaltet eine Fahrgastzelle 104 zum Unterbringen der Insassen des Fahrzeugs 102. Die Fahrgastzelle 104 beinhaltet einen oder mehrere Vordersitze 106, die vorn in der Fahrgastzelle 104 angeordnet sind, und einen oder mehrere Rücksitze 106, die hinter den Vordersitzen 106 angeordnet sind. Die Fahrgastzelle 104 kann zudem eine dritte Sitzreihe 106 (nicht gezeigt) im einem hinteren Teil der Fahrgastzelle 104 beinhalten.
  • Das Fahrzeug 102 beinhaltet mindestens eine Kamera 108. Die Kamera 108 kann elektromagnetische Strahlung in einem gewissen Bereich von Wellenlängen detektieren. Zum Beispiel kann die Kamera 108 sichtbares Licht, Infrarotstrahlung, ultraviolettes Licht oder einen gewissen Bereich von Wellenlängen detektieren, der sichtbares, infrarotes und/oder ultraviolettes Licht umfasst. Zum Beispiel kann die Kamera 108 eine Wärmebildkamera sein.
  • Die Kamera 108 ist so positioniert, dass das Sichtfeld der Kamera 108 mindestens einen der Sitze 106, z. B. den Fahrersitz 106 oder die Vorder- oder Rücksitze 106, umfasst. Zum Beispiel kann die Kamera 108 auf einem Armaturenbrett 118 oder einem Rückspiegel positioniert und relativ zur Fahrgastzelle 104 nach hinten ausgerichtet sein.
  • Das Fahrzeug 102 beinhaltet mindestens ein Mikrofon 110, z. B. ein erstes Mikrofon 110a und ein zweites Mikrofon 110b. Die Mikrofone 110 sind Wandler, die Schall in elektrische Signale umwandeln. Die Mikrofone 110 können ein beliebiger geeigneter Typ von Mikrofonen zur Sprachdetektion bei Insassen des Fahrzeugs 102 sein, z. B. dynamisches, Kondensator-, Kontaktmikrofon usw.
  • Die Mikrofone 110 können an entsprechenden Stellen oder Positionen in der Fahrgastzelle 104 angeordnet sein, um gemeinsam Sprache von Insassen auf unterschiedlichen Sitzen 106 zu detektieren. Zum Beispiel kann das erste Mikrofon 110a in dem Armaturenbrett 118 positioniert sein und das zweite Mikrofon 110b kann zwischen den Vordersitzen 106 positioniert und dazu ausgerichtet sein, Schall von den Rücksitzen 106 abzunehmen.
  • Eine Benutzerschnittstelle 112 präsentiert einem Insassen des Fahrzeugs 102 Informationen und empfängt Informationen von diesem. Die Benutzerschnittstelle 112 kann sich z. B. an einem Armaturenbrett 118 in einer Fahrgastzelle 104 des Fahrzeugs oder an einer beliebigen Stelle befinden, an der sie ohne Weiteres von dem Insassen gesehen werden kann. Die Benutzerschnittstelle 112 kann Zifferblätter, Digitalanzeigen, Bildschirme, Lautsprecher 114 und so weiter zum Bereitstellen von Informationen an den Insassen beinhalten, z. B. Elemente einer Mensch-Maschine-Schnittstelle (human-machine interface - HMI), wie sie bekannt sind. Die Benutzerschnittstelle 112 kann Schaltflächen, Knöpfe, Tastenfelder, die Mikrofone 110 und so weiter zum Empfangen von Informationen von dem Insassen beinhalten.
  • Die Lautsprecher 114 sind elektroakustische Wandler, die elektrische Signale in Schall umwandeln. Die Lautsprecher 114 können ein beliebiger geeigneter Typ sein, um einen für die Insassen hörbaren Schall zu erzeugen, z.B. dynamisch. Die Lautsprecher 114 können an entsprechenden Stellen oder Positionen in der Fahrgastzelle 104 angeordnet sein, um gemeinsam Schall für Insassen in jeweiligen Sitzen 106 zu erzeugen.
  • Unter Bezugnahme auf 2 handelt es sich bei dem Computer 100 um eine mikroprozessorbasierte Rechenvorrichtung, z. B. eine generische Rechenvorrichtung, die einen Prozessor und einen Speicher beinhaltet, eine elektronische Steuerung oder dergleichen, ein feldprogrammierbares Gate-Array (FPGA), eine anwendungsspezifische integrierte Schaltung (application-specific integrated circuit - ASIC) usw. Der Computer 100 kann somit einen Prozessor, einen Speicher usw. beinhalten. Der Speicher des Computers 100 kann Medien zum Speichern von Anweisungen, die durch den Prozessor ausgeführt werden können, sowie zum elektronischen Speichern von Daten und/oder Datenbanken beinhalten und/oder der Computer 100 kann Strukturen beinhalten, wie etwa die Vorangehenden, durch die eine Programmierung bereitgestellt wird. Der Computer 100 kann aus mehreren miteinander gekoppelten Computern bestehen.
  • Der Computer 100 kann Daten über ein Kommunikationsnetz 116 übertragen und empfangen, wie etwa einen Controller-Area-Network-(CAN-)Bus, Ethernet, WiFi®, ein Local Interconnect Network (LIN), einen On-Board-Diagnoseanschluss (OBD-II) und/oder über ein beliebiges anderes drahtgebundenes oder drahtloses Kommunikationsnetz. Der Computer 100 kann über das Kommunikationsnetz 116 kommunikativ an die Kamera 108, die Mikrofone 110, die Benutzerschnittstelle 112, die Lautsprecher 114, einen Sender/Empfänger 118 und andere Komponenten gekoppelt sein.
  • Der Sender/Empfänger 118 kann mit dem Kommunikationsnetz verbunden sein. Der Sender/Empfänger 118 kann dazu ausgelegt sein, Signale drahtlos mittels eines beliebigen geeigneten drahtlosen Kommunikationsprotokolls zu übertragen, wie etwa Mobilfunk, Bluetooth®, Bluetoothü Low Energy (BLE), Ultrabreitband (UWB), WiFi, IEEE 802.11a/b/g, andere HF(Hochfrequenz)-Kommunikationen usw. Der Sender/Empfänger 118 kann dazu ausgelegt sein, mit einem entfernten Server 120 zu kommunizieren, d. h. einem Server, der von dem Fahrzeug 102 getrennt und beabstandet ist. Der entfernte Server 120 kann sich außerhalb des Fahrzeugs 102 befinden. Der entfernte Server 120 kann zum Beispiel einem anderen Fahrzeug (z. B. V2V-Kommunikation), einer Infrastrukturkomponente (z. B. V2I-Kommunikation über dedizierte Nahbereichskommunikation (Dedicated Short-Range Communications - DSRC) oder dergleichen), einem Nothelfer, einer mobilen Vorrichtung, die dem Eigentümer des Fahrzeugs 102 zugeordnet ist, usw. zugeordnet sein. Der Sender/Empfänger 118 kann eine Vorrichtung sein oder kann einen separaten Sender und Empfänger beinhalten.
  • Unter Bezugnahme auf 4 speichert der Computer 100 eine Vielzahl von Schallfiltern im Speicher. Jeder Schallfilter gibt an, in welchem Maße ein Schalldruck, d. h. die Lautstärke, von Schalldaten gemäß einer Frequenz eingestellt werden soll, z. B. stellt jeder Schallfilter Schalldruck als eine mathematische Funktion der Frequenz SP = F(j) bereit, wobei SP Schalldruck ist, F der Schallfilter ist und ƒ die Frequenz ist. Der Schallfilter Fi kann eine Differenz eines Grundschalldrucks SPbase und eines Schalldrucks für einen Maskentyp SPi sein, d. h. Fi(ƒ) = SPbase(ƒ) - SPi(ƒ), wobei i ein Index des Maskentyps ist. Masken haben oft eine geringe Auswirkung auf die Lautstärke, wenn die Frequenz 500 Hz oder weniger beträgt und dämpfen Schall erheblicher bei 1000 Hz und höher in einem Ausmaß, das vom Maskentyp abhängt. Einer der im Speicher gespeicherten Schallfilter ist dem unbekannten Maskentyp zugeordnet, und dieser Schallfilter kann ein generischer Schallfilter sein, z. B. ein Durchschnitt der anderen im Speicher gespeicherten Schallfilter.
  • Die im Speicher gespeicherten Schallfilter können von dem entfernten Server 120 aktualisiert werden, z. B. ein Over-the-Air-Update (OTA-Update) über den Sender/Empfänger 118. Ein Update kann neue Schallfilter für einen neue Maskentyp hinzufügen, für den noch kein Schallfilter vom Computer 100 gespeichert wird. Alternativ oder zusätzlich dazu kann das Update einen oder mehrere der bereits durch den Computer 100 gespeicherten Schallfilter ändern. Somit können die durch den Computer 100 gespeicherten Schallfilter aktualisiert werden, wenn neue Maskentypen eingeführt werden, sich die Materialien bestehender Masken ändern usw. Das Update kann periodisch oder bei Bedarf erfolgen.
  • 3 ist ein Prozessflussdiagramm eines beispielhaften Prozesses 300 zur Sprachfilterung bei einem eine Maske tragendem Insassen des Fahrzeugs 102. Auf dem Speicher des Computers 100 sind ausführbare Anweisungen zum Durchführen der Schritte des Prozesses 300 gespeichert und/oder eine Programmierung kann in Strukturen wie vorstehend erläutert umgesetzt sein. Als allgemeine Übersicht über den Prozess 300 empfängt der Computer 100 Daten von der Kamera 108 und den Mikrofonen 110, detektiert eine von einem Insassen getragene Maske auf Grundlage der Daten und identifiziert den Maskentyp. Wenn der Insasse eine Maske eines Typs trägt, der mit einem Konfidenzwert über einem Konfidenzschwellenwert identifiziert wird, wählt der Computer 100 einen Schallfilter aus, der dem Maskentyp entspricht. Wenn der Insasse eine Maske eines Typs trägt, der mit einem Konfidenzwert über einem Konfidenzschwellenwert identifiziert wird, fordert der Computer 100 den Insassen zur Eingabe des Maskentyps auf und wählt einen Schallfilter aus, der dem Maskentyp entspricht, der entweder vom Insassen eingegeben oder vom Computer 100 identifiziert wurde. Der Computer 100 wendet den ausgewählten Schallfilter auf Schalldaten an und führt einen Vorgang unter Verwendung der gefilterten Schalldaten durch. Wenn keine Masken vorhanden sind, führt der Computer 100 den Vorgang auf Grundlage der ungefilterten Schalldaten durch.
  • Der Prozess 300 beginnt in einem Block 305, in dem der Computer 100 Sensordaten von mindestens einem Insassen des Fahrzeugs 102 empfängt, z. B. Bilddaten von der Kamera 108, welche die Insassen zeigen, und/oder Schalldaten von den Mikrofonen 110 der Sprache der Insassen.
  • Als Nächstes detektiert der Computer 100 in einem Block 310 eine Maske, die von einem der Insassen getragen wird. Wenn sich eine Vielzahl von Insassen in der Fahrgastzelle 104 befindet, wählt der Computer 100 einen der Insassen aus. Zum Beispiel kann der Computer 100 den Insassen auf Grundlage dessen auswählen, dass sich der Insasse in einem vorbestimmten Bereich der Bilddaten befindet, z. B. entsprechend einem Insassen, der auf einem bestimmten Sitz 106, wie etwa einem Fahrersitz 106, sitzt, und dann die von diesem Insassen getragene Maske detektieren. Dies kann es dem Computer 100 ermöglichen, eine durch den Führer des Fahrzeugs 102 getragene Maske zu detektieren. Als weiteres Beispiel kann der Computer 100 den Insassen auf Grundlage von Schalldatenlautstärken von den jeweiligen Mikrofonen 110, z.B. auf Grundlage des Mikrofons 110 mit der höchsten Lautstärke, auswählen und dann die Maske detektieren, die von dem Insassen getragen wird, der dem Mikrofon 110 am nächsten ist. Dies kann es dem Computer 100 ermöglichen, eine Maske zu detektieren, die von einem Insassen getragen wird, der am wahrscheinlichsten zum Durchführen des Vorgangs spricht, z. B. einem Insassen, der auf dem Rücksitz 106 sitzt, wenn die Lautstärke vom Mikrofon 110b größer ist als vom Mikrofon 110a. Der Computer 100 kann die Maske oder ein unmaskiertes Gesicht unter Verwendung herkömmlicher Bilderkennungstechniken identifizieren, z. B. eines neuronalen Faltungsnetzwerks, das dazu programmiert ist, Bilder als Eingabe zu akzeptieren und ein identifiziertes Objekt auszugeben. Die Bilddaten von der Kamera 108 können als Eingabe verwendet werden. Das neuronale Faltungsnetzwerk kann Bilder von Insassen von Fahrzeugen verwenden, die Masken tragen und nicht tragen, die von Kameras erzeugt werden, die sich an derselben Stelle wie die Kamera 108 befinden. Ein neuronales Faltungsnetzwerk beinhaltet eine Reihe von Schichten, wobei jede Schicht die vorherige Schicht als Eingabe verwendet. Jede Schicht enthält eine Vielzahl von Neuronen, die als Eingabe Daten empfangen, die durch eine Teilmenge der Neuronen der vorherigen Schichten generiert wurden, und eine Ausgabe erzeugen, die an Neuronen in der nächsten Schicht gesendet wird. Zu Arten von Schichten gehören Faltungsschichten, die ein Punktprodukt aus einer Gewichtung und einer kleinen Region von Eingabedaten berechnen; Poolschichten, die einen Downsampling-Vorgang entlang räumlicher Abmessungen durchführen; und vollständig verbundene Schichten, die Ausgaben auf Grundlage der Ausgabe aller Neuronen der vorangehenden Schicht erzeugen. Die letzte Schicht des neuronalen Faltungsnetzwerks erzeugt einen Konfidenzwert für die Maske und für das unmaskierte Gesicht, und die endgültige Ausgabe ist dasjenige der Maske oder des unmaskierten Gesichts, das den höchsten Konfidenzwert aufweist. Für die Zwecke dieser Offenbarung ist ein „Konfidenzwert“ ein Maß einer Wahrscheinlichkeit, dass die Identifizierung korrekt ist. Die Identifizierung des Gesichts eines Insassen als maskiert oder unmaskiert kann für jeweilige Insassen in der Fahrgastzelle 104 durchgeführt werden. Alternativ oder zusätzlich dazu kann der Computer 100 Masken detektieren, die von mehreren Insassen getragen werden.
  • Als Nächstes identifiziert der Computer 100 in einem Block 315 die von den Insassen getragenen Maskentypen. Der Computer 100 kann ein neuronales Faltungsnetzwerk, wie vorstehend beschrieben, für jede detektierte Maske unter Verwendung der Bilddaten ausführen, und die Ausgabe ist der Maskentyp mit dem höchsten Konfidenzwert für jeden Insassen. Das neuronale Faltungsnetzwerk kann mit den Bilddaten der Maske oder alternativ mit Bilddaten eines Logos auf der Maske arbeiten. Die Maskentypen können z. B. durch Hersteller und Modell spezifiziert werden, z. B. 3M 1860, 3M 1870, Kimberly-Clark 49214, Scott Xcel usw. Einer der möglichen Maskentypen ist ein unbekannter Typ, d. h. eine Maske, die keine der im Speicher gespeicherten Masken ist. Alternativ dazu kann ein einzelnes neuronales Faltungsnetzwerk für die Blöcke 310 und 315 ausgeführt werden, und die Ausgabe für jeden Insassen ist einer der Maskentypen, der unbekannte Typ oder das unmaskierte Gesicht, je nachdem, was die höchste Konfidenzbewertung aufweist. Alternativ oder zusätzlich dazu kann der Computer 100 von mehreren getragene Maskentypen (oder ein unmaskiertes Gesicht) detektieren. Wenn der Maskentyp als der unbekannte Typ identifiziert wird, überträgt der Computer 100 ein Update über den Sender/Empfänger 118 an den entfernten Server 120. Das Update kann die Bilddaten beinhalten, welche die Maske unbekannten Typs zeigen.
  • Als Nächstes bestimmt der Computer 100 in einem Entscheidungsblock 320, ob der Insasse eine Maske trägt, das heißt, ob die Ausgabe des/der neuronalen Faltungsnetzwerk(e) eine Maske und/oder ein Maskentyp für den Insassen ist, und der Computer 100 bestimmt, ob der Konfidenzwert des Maskentyps über einem Konfidenzschwellenwert liegt. Der Konfidenzschwellenwert kann ausgewählt sein, um eine hohe Wahrscheinlichkeit anzugeben, dass der Maskentyp korrekt identifiziert wird. Nach Bestimmen, dass der Insasse eine Maske trägt und dass der Konfidenzwert für den Maskentyp unter dem Schwellenwertwert liegt (oder wenn der identifizierte Maskentyp der unbekannte Typ ist), geht der Prozess 300 zu einem Block 325 über. Nach Bestimmen, dass der Insasse eine Maske trägt und dass der Konfidenzwert für den Maskentyp über dem Schwellenwertwert liegt, geht der Prozess 300 zu einem Block 335 über. Nach Bestimmen, dass der Insasse keine Maske trägt, geht der Prozess 300 zu einem Block 355 über.
  • Im Block 325 fordert der Computer 100 die Insassen auf, eine Eingabe über die Benutzerschnittstelle 112 bereitzustellen, die einen Maskentyp spezifiziert, den der Insasse trägt. Zum Beispiel kann die Benutzerschnittstelle 112 eine Liste von Maskentypen präsentieren, aus denen der Insasse auswählen kann. Die Liste kann eine im Speicher gespeicherte Standardliste sein. Alternativ dazu kann die Liste die Maskentypen mit den höchsten Konfidenzwerten beinhalten, wie im Block 315 bestimmt, oder die Benutzerschnittstelle 112 kann einen einzelnen Maskentyp mit dem höchsten Konfidenzwert anzeigen und den Insassen dazu auffordern, zu bestätigen, dass der Maskentyp korrekt ist. Die Liste kann eine Option, z. B. „Sonstige“, beinhalten, um anzugeben, dass der Maskentyp nicht zu den durch den Computer 100 gespeicherten Maskentypen gehört. Das Auswählen dieser Option kann so behandelt werden, als hätte der Insasse ausgewählt, dass der Maskentyp der unbekannte Typ ist. Ist diese Option ausgewählt, kann der Computer 100 ein Update über den Sender/Empfänger 118 an den entfernten Server 120 übertragen, wenn der Computer 100 dies nicht bereits im Block 315 vorgenommen hat. Das Update kann die Bilddaten beinhalten, welche die Maske unbekannten Typs zeigen.
  • Als Nächstes bestimmt der Computer 100 in einem Entscheidungsblock 330, ob der Insasse als Reaktion auf die Aufforderung im Block 325 einen Maskentyp eingegeben hat. Der Insasse stellt die Eingabe bereit, indem er den Maskentyp aus der Liste auswählt, und der Insasse kann die Eingabe nicht bereitstellen, indem er eine Option auswählt, die ablehnt, einen Maskentyp bereitzustellen, z. B. eine Option mit der Bezeichnung „Maske automatisch auswählen“, oder durch Nichtauswählen eines Maskentyps innerhalb eines Zeitschwellenwerts. Der Zeitschwellenwert kann gewählt sein, um dem Insassen ausreichend Zeit zum Reagieren auf die Aufforderung bereitzustellen. Wenn der Insasse keinen Maskentyp ausgewählt hat, geht der Prozess 300 zu einem Block 335 über. Wenn der Insasse einen Maskentyp ausgewählt hat, geht der Prozess 300 zu einem Block 340 über.
  • Im Block 335 wählt der Computer 100 einen Schallfilter gemäß dem im Block 315 identifizierten Maskentyp aus der Vielzahl der im Speicher gespeicherten Schallfilter aus. Das Auswählen aus der Vielzahl von Schallfiltern kann einen Schallfilter bereitstellen, der die Schalldaten am genauesten auf das Grundpegel einstellt.
  • Alternativ dazu kann der Computer 100, wenn der Computer 100 mehrere Maskentypen identifiziert hat, mehrere Schallfilter auswählen, die jeweils einem der identifizierten Maskentypen zugeordnet sind. Der Computer 100 kann die Schallfilter miteinander kombinieren, z. B. durch einfache Mittelwertbildung oder durch Gewichtung. Die Schallfilter können auf Grundlage von Positionen der die Masken tragenden Insassen relativ zu einem der Mikrofone 110, die Schalldaten erzeugen, gewichtet werden, z.B. auf Grundlage von Lautstärken der Schalldaten von den jeweiligen Mikrofonen 110. Wenn das erste Mikrofon 110a Schalldaten mit einer größeren Lautstärke als das zweite Mikrofon 110b erzeugt, werden die Schallfilter gemäß relativen Abständen der Masken jedes Typs von dem ausgewählten Mikrofon 110a gewichtet. Wenn zum Beispiel eine Maske eines Typs 1 sich in einem Abstand d1 vom ausgewählten Mikrofon 110a befindet und eine Maske eines Typs 2 sich in einem Abstand d2 von dem ausgewählten Mikrofon 110a befindet, dann können die Gewichtungen w1 = d1/(d1+d2) und w2 = d2/(d1+d2) sein und der kombinierte Schallfilter kann Fkombiniert(ƒ) = w1*F1(ƒ) + w2*F2(ƒ) sein. Nach Block 335 geht der Prozess 300 zu einem Block 345 über.
  • Im Block 340 identifiziert der Computer 100 den Maskentyp auf Grundlage der Eingabe durch den Insassen und wählt den Schallfilter aus dem Speicher aus, der dem identifizierten Maskentyp zugeordnet ist. Anders ausgedrückt überschreibt der Computer 100 die Identifizierung auf Grundlage der Bilddaten oder Schalldaten mit der Identifizierung auf Grundlage der Eingabe bei Empfangen der Eingabe, indem der Block 340 anstelle des Blocks 335 ausgeführt wird. Nach Block 340 geht das Verfahren 300 zu einem Block 345 über.
  • Im Block 345 empfängt der Computer 100 Schalldaten von den Mikrofonen 110. Die Schalldaten können Sprache durch die Insassen beinhalten.
  • Als Nächstes wendet der Computer 100 in einem Block 350 den ausgewählten Schallfilter oder die Kombination der ausgewählten Schallfilter auf die Schalldaten an. Der Schallfilter stellt eine Lautstärke der Schalldaten um ein Maß ein, das je nach Frequenz variiert. Zum Beispiel stellt der Schallfilter für jede Frequenz ƒ der Schalldaten den Schalldruck, d. h. die Lautstärke, um den Wert des Schallfilters für diese Frequenz ein, z. B. SPfilt(ƒ) = F(ƒ) + SPunfilt(ƒ). Zum Beispiel kann der Schallfilter die Lautstärke nur geringfügig anpassen, wenn die Frequenz 500 Hz oder weniger beträgt, und die Lautstärke bei 1000 Hz und höher um ein Maß erhöhen, das vom Maskentyp abhängt. Nach Block 350 geht der Prozess 300 zu einem Block 360 über.
  • Im Block 355, d. h. nachdem keine Masken detektiert wurden, empfängt der Computer 100 Schalldaten von den Mikrofonen 110. Die Schalldaten können Sprache durch die Insassen beinhalten. Nach Block 355 geht der Prozess 300 zum Block 360 über.
  • Im Block 360 führt der Computer 100 einen Vorgang unter Verwendung der Schalldaten durch, entweder der gefilterten Schalldaten aus dem Block 350 oder der ungefilterten Schalldaten aus dem Block 355. Zum Beispiel kann der Vorgang das Identifizieren eines Sprachbefehls zum Aktivieren eines Merkmals sein, z. B. das Umwandeln der Schalldaten in Text, wie etwa „Pizza-Laden anrufen“, „Podcast abspielen“, „Temperatur senken“ usw. (oder in äquivalente Daten, die den Befehl identifizieren). Die Verwendung der gefilterten Schalldaten kann dem Computer 100 dabei helfen, den Sprachbefehl genau zu identifizieren. Als weiteres Beispiel kann der Vorgang das Übertragen der Schalldaten in einem Telefonanruf sein. Ein Mobiltelefon kann mit der Benutzerschnittstelle 112 gekoppelt sein und dazu verwendet werden, einen Telefonanruf zu tätigen. Das Verwenden der gefilterten Schalldaten kann es dem Empfänger des Anrufs leicht machen, zu verstehen, was der Insasse sagt. Als weiteres Beispiel kann der Vorgang das Ausgeben der gefilterten Schalldaten durch einen oder mehrere der Lautsprecher 114 sein. Schalldaten, die von dem ersten Mikrofon 110 stammen, können durch den Lautsprecher 114 an einer Rückseite der Fahrgastzelle 104 verwendet und ausgegeben werden; anders ausgedrückt bilden das erste Mikrofon 110 und der Lautsprecher 114 eine Telekommunikation. Das Verwenden der gefilterten Schalldaten kann es einem Insassen auf dem Rücksitz 106 leichter machen, zu verstehen, was der Insasse auf dem Vordersitz 106 sagt, als den Insassen direkt zu hören, wenn er durch die Maske gedämpft wird. Nach dem Block 360 endet der Prozess 300.
  • Computerausführbare Anweisungen können von Computerprogrammen zusammengestellt oder interpretiert werden, die unter Verwendung einer Vielfalt von Programmiersprachen und/oder -techniken erstellt wurden, darunter unter anderem, entweder allein oder in Kombination, Java™, C, C++, Visual Basic, Java Script, Perl, HTML usw. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Anweisungen z. B. von einem Speicher, einem Computer(100)-lesbaren Medium usw. und führt diese Anweisungen aus, wodurch er einen oder mehrere Prozesse durchführt, darunter einen oder mehrere der hierin beschriebenen Prozesse. Derartige Anweisungen und andere Daten können unter Verwendung vielfältiger computerlesbarer Medien gespeichert und übertragen werden. Eine Datei in einer vernetzten Vorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw. gespeichert sind. Ein computerlesbares Medium umfasst ein beliebiges Medium, das an der Bereitstellung von Daten (z. B. Anweisungen) beteiligt ist, die von einem Computer gelesen werden können. Ein derartiges Medium kann viele Formen annehmen, die nichtflüchtige Medien, flüchtige Medien usw. umfassen können, ohne darauf beschränkt zu sein. Nichtflüchtige Medien umfassen zum Beispiel optische oder magnetische Festplatten und andere Dauerspeicher. Flüchtige Medien beinhalten dynamischen Direktzugriffsspeicher (dynamic random access memory - DRAM), der in der Regel einen Hauptspeicher darstellt. Gängige Formen computerlesbarer Medien umfassen zum Beispiel: eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, einen RAM, einen PROM, einen EPROM, einen FLASH-EEPROM, einen beliebigen anderen Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das von einem Computer gelesen werden kann.
  • Die Offenbarung wurde auf veranschaulichende Weise beschrieben und es versteht sich, dass die verwendete Terminologie ihrem Wesen nach beschreibend und nicht einschränkend sein soll. Die Verwendung von „als Reaktion auf und „wenn bestimmt wird“ gibt eine kausale Beziehung an, nicht nur eine rein temporale Beziehung. Die Adjektive „erstes“ und „zweites“ werden in der gesamten Schrift als Identifikatoren verwendet und sollen keine Bedeutung, Reihenfolge oder Anzahl angeben. In Anbetracht der vorstehenden Lehren sind viele Modifikationen und Variationen der vorliegenden Offenbarung möglich und kann die Offenbarung anders als konkret beschrieben umgesetzt werden.
  • Gemäß der vorliegenden Erfindung wird ein Computer bereitgestellt, der einen Prozessor und einen Speicher aufweist, der Anweisungen speichert, die durch den Prozessor ausführbar sind, um Sensordaten eines Insassen eines Fahrzeugs zu empfangen, einen von dem Insassen getragenen Maskentyp auf Grundlage der Sensordaten zu identifizieren, einen Schallfilter gemäß dem Maskentyp aus einer Vielzahl von in dem Speicher gespeicherten Schallfiltern auszuwählen, Schalldaten zu empfangen, den ausgewählten Schallfilters auf die Schalldaten anzuwenden und einen Vorgang unter Verwendung der gefilterten Schalldaten durchzuführen.
  • Gemäß einer Ausführungsform sind die Sensordaten Bilddaten, die den Insassen zeigen.
  • Gemäß einer Ausführungsform ist der Vorgang ein Identifizieren eines Sprachbefehls zum Aktivieren eines Merkmals.
  • Gemäß einer Ausführungsform ist der Vorgang ein Übertragen der gefilterten Schalldaten in einem Telefonanruf.
  • Gemäß einer Ausführungsform ist der Vorgang ein Ausgeben der gefilterten Schalldaten durch einen Lautsprecher des Fahrzeugs.
  • Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um den Vorgang unter Verwendung der Schalldaten ungefiltert durchzuführen, wenn bestimmt wird, dass der Insasse keine Maske trägt.
  • Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen zum Auswählen eines generischen Schallfilters aus der Vielzahl von Schallfiltern, wenn der Maskentyp als unbekannter Typ identifiziert wird.
  • Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um ein Update an einen entfernten Server zu übertragen, wenn der Maskentyp als der unbekannte Typ identifiziert wird.
  • Gemäß einer Ausführungsform beinhaltet das Update Bilddaten der Maske.
  • Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um den durch den Insassen getragenen Maskentyp auf Grundlage einer Eingabe durch den Insassen zu identifizieren.
  • Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen zum Überschreiben der Identifizierung auf Grundlage der Sensordaten mit der Identifizierung auf Grundlage der Eingabe bei Empfangen der Eingabe.
  • Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um den Insassen aufzufordern, die Eingabe bereitzustellen, wenn bestimmt wird, dass der Insasse eine Maske trägt.
  • Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um den Insassen aufzufordern, die Eingabe bereitzustellen, wenn bestimmt wird, dass einer der Insassen einen Maskentyp trägt, der mit einem unter einem Konfidenzschwellenwert liegenden Konfidenzwert identifiziert wurde, oder der Maskentyp ein unbekannter Typ ist.
  • Gemäß einer Ausführungsform ist beinhalten die Anweisungen Anweisungen zum Übertragen eines Updates an einen entfernten Server als Reaktion darauf, dass die Eingabe angibt, dass der Maskentyp nicht zu den im Speicher gespeicherten Maskentypen gehört.
  • Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um den Insassen, für den der Maskentyp zu identifizieren ist, aus einer Vielzahl von Insassen auf Grundlage von Schalldatenlautstärken von jeweiligen Mikrofonen auszuwählen.
  • Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um den Insassen, für den der Maskentyp zu identifizieren ist, aus einer Vielzahl von Insassen auf Grundlage dessen auszuwählen, dass sich der Insasse sich in einem vorbestimmten Bereich der Bilddaten befindet.
  • Gemäß einer Ausführungsform stellt jeder Schallfilter eine Lautstärke der Schalldaten um ein Maß ein, das je nach Frequenz variiert.
  • Gemäß einer Ausführungsform erhöht jeder Schallfilter die Lautstärke der Schalldaten bei mindestens einer Frequenz.
  • Gemäß einer Ausführungsform beinhalten die Anweisungen Anweisungen, um ein Update von einem entfernten Server zu empfangen, der die Vielzahl von in dem Speicher gespeicherten Schallfiltern ändert.
  • Gemäß einer Ausführungsform beinhaltet ein Verfahren Folgendes: Empfangen von Sensordaten eines Insassen eines Fahrzeugs; Identifizieren eines von dem Insassen getragenen Maskentyp auf Grundlage der Sensordaten; Auswählen eines Schallfilters gemäß dem Maskentyp aus einer Vielzahl von in dem Speicher gespeicherten Schallfiltern; Empfangen von Schalldaten; Anwenden der ausgewählten Schallfilter auf die Schalldaten; und Durchführen eines Vorgangs unter Verwendung der gefilterten Schalldaten.

Claims (15)

  1. Verfahren, umfassend: Empfangen von Sensordaten eines Insassen eines Fahrzeugs; Identifizieren eines durch den Insassen getragenen Maskentyps auf Grundlage der Sensordaten; Auswählen eines Schallfilters gemäß dem Maskentyp aus einer Vielzahl von im Speicher gespeicherten Schallfiltern; Empfangen von Schalldaten; Anwenden des ausgewählten Schallfilters auf die Schalldaten; und Durchführen eines Vorgangs unter Verwendung der gefilterten Schalldaten.
  2. Verfahren nach Anspruch 1, wobei die Sensordaten Bilddaten sind, die den Insassen zeigen.
  3. Verfahren nach Anspruch 1, wobei der Vorgang ein Identifizieren eines Sprachbefehls zum Aktivieren eines Merkmals ist.
  4. Verfahren nach Anspruch 1, wobei der Vorgang ein Übertragen der gefilterten Schalldaten in einem Telefonanruf ist.
  5. Verfahren nach Anspruch 1, wobei der Vorgang ein Ausgeben der gefilterten Schalldaten durch einen Lautsprecher des Fahrzeugs ist.
  6. Verfahren nach Anspruch 1, ferner umfassend Durchführen des Vorgangs, wobei die Schalldaten ungefiltert verwenden werden, wenn bestimmt wird, dass der Insasse keine Maske trägt.
  7. Verfahren nach Anspruch 1, ferner umfassend Auswählen eines generischen Schallfilters aus der Vielzahl von Schallfiltern, wenn der Maskentyp als unbekannter Typ identifiziert wird.
  8. Verfahren nach Anspruch 1, ferner umfassend Identifizieren des durch den Insassen getragenen Maskentyps auf Grundlage einer Eingabe durch den Insassen.
  9. Verfahren nach Anspruch 8, ferner umfassend Überschreiben der Identifizierung auf Grundlage der Sensordaten mit der Identifizierung auf Grundlage der Eingabe bei Empfangen der Eingabe.
  10. Verfahren nach Anspruch 9, ferner umfassend Auffordern des Insassen, die Eingabe bereitzustellen, wenn bestimmt wird, dass der Insasse eine Maske trägt.
  11. Verfahren nach Anspruch 9, ferner umfassend Auffordern des Insassen, die Eingabe bereitzustellen, wenn bestimmt wird, dass einer der Insassen einen Maskentyp trägt, der mit einem unter einem Konfidenzschwellenwert liegenden Konfidenzwert identifiziert wurde, oder der Maskentyp ein unbekannter Typ ist.
  12. Verfahren nach Anspruch 1, ferner umfassend Auswählen des Insassen, für den der Maskentyp zu identifizieren ist, aus einer Vielzahl von Insassen auf Grundlage von Schalldatenlautstärken von jeweiligen Mikrofonen.
  13. Verfahren nach Anspruch 1, ferner umfassend Auswählen des Insassen, für den der Maskentyp zu identifizieren ist, aus einer Vielzahl von Insassen auf Grundlage dessen, dass sich der Insasse sich in einem vorbestimmten Bereich der Bilddaten befindet.
  14. Verfahren nach Anspruch 1, wobei jeder Schallfilter eine Lautstärke der Schalldaten um ein Maß einstellt, das je nach Frequenz variiert.
  15. Computer, der einen Prozessor und einen Speicher umfasst, auf dem Anweisungen gespeichert sind, die durch den Prozessor ausgeführt werden können, um das Verfahren nach einem der Ansprüche 1-14 durchzuführen.
DE102022100538.0A 2021-01-11 2022-01-11 Sprachfilterung für masken Pending DE102022100538A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/145,431 US11404061B1 (en) 2021-01-11 2021-01-11 Speech filtering for masks
US17/145431 2021-01-11

Publications (1)

Publication Number Publication Date
DE102022100538A1 true DE102022100538A1 (de) 2022-07-14

Family

ID=82116700

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022100538.0A Pending DE102022100538A1 (de) 2021-01-11 2022-01-11 Sprachfilterung für masken

Country Status (3)

Country Link
US (1) US11404061B1 (de)
CN (1) CN114764322A (de)
DE (1) DE102022100538A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220406327A1 (en) * 2021-06-19 2022-12-22 Kyndryl, Inc. Diarisation augmented reality aide

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
DE10005626C2 (de) * 2000-02-09 2002-09-12 Siemens Ag Mundschutz, Halstuch, Kommunikationseinrichtung und Verwendung eines in ein Kleidungsstück integrierten Mikrophons
US20030027600A1 (en) * 2001-05-09 2003-02-06 Leonid Krasny Microphone antenna array using voice activity detection
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
US7082211B2 (en) * 2002-05-31 2006-07-25 Eastman Kodak Company Method and system for enhancing portrait images
KR100527002B1 (ko) * 2003-02-26 2005-11-08 한국전자통신연구원 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법
EP1604354A4 (de) * 2003-03-15 2008-04-02 Mindspeed Tech Inc Stimmenindexsteuerungen für die celp-sprachcodierung
US20040254793A1 (en) * 2003-06-12 2004-12-16 Cormac Herley System and method for providing an audio challenge to distinguish a human from a computer
US7254535B2 (en) * 2004-06-30 2007-08-07 Motorola, Inc. Method and apparatus for equalizing a speech signal generated within a pressurized air delivery system
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
US20070163588A1 (en) * 2005-11-08 2007-07-19 Jack Hebrank Respirators for Delivering Clean Air to an Individual User
JP2009265722A (ja) 2008-04-22 2009-11-12 Calsonic Kansei Corp 顔向き検知装置
JP2010136335A (ja) * 2008-11-05 2010-06-17 Ricoh Co Ltd 画像形成装置、制御方法およびプログラム
US8402966B2 (en) * 2009-08-14 2013-03-26 Scott Technologies, Inc. Air purifying respirator having inhalation and exhalation ducts to reduce rate of pathogen transmission
US9053681B2 (en) * 2010-07-07 2015-06-09 Fotonation Limited Real-time video frame pre-processing hardware
US20120166188A1 (en) * 2010-12-28 2012-06-28 International Business Machines Corporation Selective noise filtering on voice communications
US8983833B2 (en) * 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
EP3448006B1 (de) * 2013-07-02 2023-03-15 Family Systems, Limited System zur verbesserung von audiokonferenzdiensten
US9257117B2 (en) * 2014-02-04 2016-02-09 Avaya Inc. Speech analytics with adaptive filtering
EP3271700A4 (de) * 2015-03-20 2019-03-27 Inspirata Inc. Systeme, verfahren und vorrichtungen zur digitalen histopathologischen bildgebung zum vorgescreenten nachweis von krebs und anderen störungen
GB2540444B (en) * 2015-12-07 2017-11-29 Dobbing Christopher Respirator mask management system
EP3641839A4 (de) * 2017-06-19 2021-06-02 Oy Lifa Air Ltd Elektrofilterstruktur
US10140089B1 (en) * 2017-08-09 2018-11-27 2236008 Ontario Inc. Synthetic speech for in vehicle communication
US10719222B2 (en) * 2017-10-23 2020-07-21 Google Llc Method and system for generating transcripts of patient-healthcare provider conversations
US10930011B2 (en) * 2019-07-02 2021-02-23 Billups, Inc. Digital image processing system for object location and facing
US20210343400A1 (en) * 2020-01-24 2021-11-04 Overjet, Inc. Systems and Methods for Integrity Analysis of Clinical Data
CN111444869A (zh) 2020-03-31 2020-07-24 高新兴科技集团股份有限公司 一种口罩佩戴状态识别方法装置和计算机设备
US20210368881A1 (en) * 2020-05-29 2021-12-02 Dallas/Fort Worth International Airport Board Respirator mask and method for manufacturing
US11361445B2 (en) * 2020-07-08 2022-06-14 Nec Corporation Of America Image analysis for detecting mask compliance
US11462219B2 (en) * 2020-10-30 2022-10-04 Google Llc Voice filtering other speakers from calls and audio messages
US20210117649A1 (en) * 2020-12-26 2021-04-22 David Gonzalez Aguirre Systems and methods for privacy-preserving facemask-compliance-level measurement

Also Published As

Publication number Publication date
US11404061B1 (en) 2022-08-02
US20220223145A1 (en) 2022-07-14
CN114764322A (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
DE102013208506B4 (de) Hierarchische Erkennung von Fahrzeugfahrer und Auswahlaktivierung von Fahrzeugeinstellungen auf der Grundlage der Erkennung
DE102017110251A1 (de) Funktionalität zur Rundum-Versorgung für Fahrgäste von vollständig autonomen gemeinsam genutzten oder Taxidienst-Fahrzeugen
DE102016123616B4 (de) Bestimmen eines Standorts eines Fahrzeugbenutzers nach einem Kollisionsereignis sowie Verfahren zum Herstellen einer Kommunikation mit einem Fahrzeugbenutzer nach einem Kollisionsereignis
DE102017109734A1 (de) System zum bereitstellen von insassenspezifischen akustik- funktionen in einem transportfahrzeug
DE102017109730A1 (de) Temperaturüberwachung in autonom fahrenden Fahrzeugen
DE102017113127A1 (de) Verfahren und Vorrichtung für Fahrzeuginsassenpositionserfassung
DE102016108721A1 (de) Bestimmung der Position von Fahrzeuginsassen
DE102016224603A1 (de) Verfahren zum Betreiben eines AVN, AVN, und Fahrzeug, das diese umfasst
DE102015116832A1 (de) Adaptive Fahreridentifikationsverschmelzung
DE102015110941A1 (de) Steuern des Zugangs zu einer Fahrzeug-Benutzeroberfläche
DE102010040791A1 (de) Fahrzeugsystem passiver Meldung mit entfernter Vorrichtung
DE102013216975A1 (de) Verfahren und Vorrichtung zur subjektiven Befehlssteuerung von Fahrzeugsystemen
DE102018118415A1 (de) Fahrzeugbasiertes akustisches zonierungssystem für smartphones
DE102017203865A1 (de) Passagierbereichserfassung mit Signalstärkedaten, die durch physische Signalschranken unterstützt wird
DE102011106887A1 (de) Verfahren zum Bereitstellen nutzerspezifischer Einstellungen in einem Kraftfahrzeug sowie Verfahren zum Ermitteln einer Zuordnung eines mobilen Kommunikationsgeräts zu einem Kraftfahrzeug aus einer Mehrzahl von Kraftfahrzeugen
DE102019115259A1 (de) Fahrzeugnutzungsbewertung von fahrern in einem carsharing-service
DE102019122541A1 (de) Verbesserung des fahrzeugbenutzererlebnisses
DE102017203872A1 (de) Konfliktlösung für die Fahrzeugsitzbereichsverknüpfung
DE102006054574B4 (de) Verfahren und Einrichtung zum Identifizieren des Fahrers eines Fahrzeugs
DE102020103033A1 (de) Konfiguration von fahrzeug-entertainment basierend auf der fahreraufmerksamkeit
DE102022100538A1 (de) Sprachfilterung für masken
DE102020115507A1 (de) Aussenlautsprechersystem für ein fahrzeug
DE102016217026A1 (de) Sprachsteuerung eines Kraftfahrzeugs
DE102022106036A1 (de) Kontextabhängige signalaufbereitung für den sprachassistenten im fahrzeug
DE102018121413A1 (de) Erzeugen einer Warnung, die anzeigt, dass ein Mobiltelefon im Fahrzeug vergessen wurde

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: BONSMANN - BONSMANN - FRANK PATENTANWAELTE, DE