DE102021211867A1

DE102021211867A1 - Systeme und verfahren zum erkennen von krankheitssymptomen von nutzern

Info

Publication number: DE102021211867A1
Application number: DE102021211867.4A
Authority: DE
Inventors: Samarjit Das; Sirajum Munir; Vivek Jain; Yunze Zeng
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-10-23
Filing date: 2021-10-21
Publication date: 2022-04-28
Also published as: CN114511768A; GB2604964A; US20240062558A1; US20220129687A1; GB202114618D0; US11854275B2

Abstract

Systeme und Verfahren zum Erkennen von Krankheitssymptomen von Nutzern werden hierin offenbart. In Ausführungsformen ist eine Speicherung dazu ausgelegt, eine Visualisierungsanwendung und Daten von einer oder mehreren Quellen, wie zum Beispiel einer Audioquelle, einer Bildquelle und/oder einer Radarquelle, aufrechtzuerhalten. Ein Prozessor ist in Kommunikation mit der Speicherung und einer Benutzerschnittstelle. Der Prozessor ist dazu programmiert, Daten von der einen oder mehreren Quellen zu empfangen, Modelle zur Erkennung von Menschen basierend auf den empfangenen Daten auszuführen, Aktivitätserkennungsmodelle auszuführen, um Krankheitssymptome basierend auf den Daten von der einen oder mehreren Quellen zu erkennen, einen Standort der erkannten Symptome zu bestimmen, und eine Visualisierungsanwendung auszuführen, um Informationen in der Benutzerschnittstelle anzuzeigen. Die Visualisierungsanwendung kann ein Hintergrundbild mit einem überlagerten Bild zeigen, das einen Indikator für jeden Standort eines erkannten Krankheitssymptoms beinhaltet. Zusätzlich können Daten von der Audioquelle, Bildquelle und/oder Radarquelle fusioniert werden.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung betrifft Systeme und Verfahren zum Erkennen von Krankheitssymptomen von Nutzern. In einigen Ausführungsformen können die Systeme und Verfahren Krankheitssymptome von Personen an öffentlichen oder stark frequentierten Orten oder in gemeinsam genutzter Mobilität, wie zum Beispiel in öffentlichen Verkehrsmitteln oder Fahrgemeinschaften, erkennen.
HINTERGRUND
Infektionskrankheiten können sich an stark frequentierten Orten, wie zum Beispiel Restaurants, Arenen, öffentlichen Gebäuden und dergleichen, leichter ausbreiten. Dies gilt auch für gemeinsam genutzte Mobilitätsdienste, wie zum Beispiel Busse, Züge, Taxis und Mitfahrgelegenheits- und Fahrgemeinschaftsdienste. Aktuelle Technologien stellen den Eigentümern und/oder Nutzern solcher Orte und Dienste keine angemessenen Informationen bezüglich Sauberkeit bereit. Wenn Dienstleister oder Nutzer mit Wissen bezüglich der potenziellen Erkrankung von Nutzern ausgestattet wären, könnten bessere Entscheidungen getroffen werden, um dabei zu helfen, die Ausbreitung von Infektionskrankheiten einzudämmen.
KURZDARSTELLUNG
In einer Ausführungsform wird ein System zum Erkennen von Krankheitssymptomen von Nutzern bereitgestellt. Das System beinhaltet eine Benutzerschnittstelle, eine Speicherung, die dazu ausgelegt ist, eine Visualisierungsanwendung und Bilddaten von einer Bildquelle zu verwalten, und einen Prozessor. Der Prozessor ist in Kommunikation mit der Speicherung und der Benutzerschnittstelle. Der Prozessor ist dazu programmiert, die Bilddaten von der Bildquelle zu empfangen, wobei die Bilddaten ein Hintergrundbild beinhalten, das einem Bereich zugeordnet ist, den Nutzer besetzen. Der Prozessor ist ferner dazu programmiert, ein Modell zur Erkennung von Menschen auszuführen, das dazu ausgelegt ist, die Nutzer innerhalb der Bilddaten zu erkennen, ein Aktivitätserkennungsmodell auszuführen, das dazu ausgelegt ist, bildbasierte Krankheitssymptome bei den erkannten Nutzern innerhalb der Bilddaten basierend auf Bewegungen der erkannten Nutzer zu erkennen, einen Standort der erkannten Krankheitssymptome unter Verwendung der Bilddaten von der Bildquelle zu bestimmen, und die Visualisierungsanwendung auszuführen, um in der Benutzerschnittstelle ein überlagertes Bild auf dem Hintergrundbild anzuzeigen. Das überlagerte Bild beinhaltet für jeden Standort erkannter Krankheitssymptome einen Indikator, der Informationen anzeigt, dass die erkannten Krankheitssymptome an diesem Standort aufgetreten sind.
In einer Ausführungsform beinhaltet ein System zum Erkennen von Krankheitssymptomen von Nutzern eine Benutzerschnittstelle, eine Speicherung, die dazu ausgelegt ist, eine Visualisierungsanwendung und Audiodaten von einer Audioquelle aufrechtzuerhalten, und einen Prozessor in Kommunikation mit der Speicherung und der Benutzerschnittstelle. Der Prozessor ist dazu programmiert, ein Hintergrundbild von einer Kamera eines von Nutzern besetzten Bereichs zu empfangen, die Audiodaten von der Audioquelle zu empfangen, ein Klassifizierungsmodell auszuführen, das dazu ausgelegt ist, Abschnitte der Audiodaten als Krankheitssymptome anzeigend zu klassifizieren, einen Standort der Krankheitssymptome basierend auf den klassifizierten Abschnitten der Audiodaten zu bestimmen, und die Visualisierungsanwendung auszuführen, um in der Benutzerschnittstelle ein überlagertes Bild anzuzeigen, das das Hintergrundbild überlagert, wobei das überlagerte Bild für jeden bestimmten Standort von Krankheitssymptomen einen Indikator beinhaltet, der Informationen anzeigt, dass die Krankheitssymptome an diesem Standort aufgetreten sind.
In einer Ausführungsform beinhaltet ein anderes System zum Erkennen von Krankheitssymptomen von Nutzern eine Benutzerschnittstelle, eine Speicherung, die dazu ausgelegt ist, eine Visualisierungsanwendung und Radardaten von einer Radarquelle aufrechtzuerhalten, und einen Prozessor in Kommunikation mit der Speicherung und der Benutzerschnittstelle. Der Prozessor ist dazu programmiert, ein Hintergrundbild von einer Kamera eines von Nutzern besetzten Bereichs zu empfangen, die Radardaten von der Radarquelle zu empfangen, ein Modell zur Erkennung von Menschen auszuführen, das dazu ausgelegt ist, die Nutzer basierend auf den Radardaten zu erkennen, ein Aktivitätserkennungsmodell oder Vitalzeichenerkennungsmodell auszuführen, das dazu ausgelegt ist, radarbasierte Krankheitssymptome bei den erkannten Nutzern basierend auf den Radardaten zu erkennen, einen Standort der radarbasierten erkannten Krankheitssymptome unter Verwendung der Radardaten von der Radarquelle zu bestimmen, und die Visualisierungsanwendung auszuführen, um in der Benutzerschnittstelle ein überlagertes Bild anzuzeigen, das das Hintergrundbild überlagert, wobei das überlagerte Bild für jeden bestimmten Standort von Symptomen einen Indikator beinhaltet, dass die radarbasierten erkannten Krankheitssymptome an diesem Standort aufgetreten sind.
Figurenliste

1 veranschaulicht ein Beispiel eines Systems zum Erkennen von Krankheitssymptomen von Nutzern gemäß einer Ausführungsform.
2 veranschaulicht einen Innenraum eines Fahrzeugs, der einen Standort eines Sensors gemäß einer Ausführungsform zeigt.
3 veranschaulicht einen Innenraum eines Busses, der einen oder mehrere Standorte eines Sensors gemäß einer Ausführungsform zeigt.
4 veranschaulicht ein Flussdiagramm zum Erkennen und Anzeigen von Krankheitssymptomen von Nutzern basierend auf Audiodaten gemäß einer Ausführungsform.
5 veranschaulicht eine Ausgabe einer Visualisierungsanwendung zum Hervorheben von Bereichen mit höheren Mengen an erkannten Krankheitssymptomen von Nutzern gemäß einer Ausführungsform.
6 veranschaulicht ein Flussdiagramm zum Erkennen und Anzeigen von Krankheitssymptomen von Nutzern basierend auf Bilddaten gemäß einer Ausführungsform.
7 veranschaulicht die Implementierung einer Anwendung zum Erkennen von Menschen, um Menschen basierend auf den Daten von dem Sensor zu erkennen, gemäß einer Ausführungsform.
8 ist eine Sequenz von Frames, die die Verwendung einer Krankheitserkennungsoperation oder -klassifizierung veranschaulicht.
9 veranschaulicht ein Flussdiagramm zum Erkennen und Anzeigen von Krankheitssymptomen von Nutzern basierend auf einer Fusion von Bilddaten und Audiodaten gemäß einer Ausführungsform.
10 veranschaulicht ein Flussdiagramm zum Erkennen und Anzeigen von Krankheitssymptomen von Nutzern basierend auf einer Fusion von Bilddaten und Audiodaten gemäß einer anderen Ausführungsform.
11 veranschaulicht ein Flussdiagramm zum Erkennen und Anzeigen von Krankheitssymptomen von Nutzern basierend auf Radardaten gemäß einer Ausführungsform.
12 veranschaulicht ein Flussdiagramm zum Erkennen und Anzeigen von Krankheitssymptomen von Nutzern basierend auf Radardaten gemäß einer anderen Ausführungsform.
13 veranschaulicht ein Flussdiagramm zum Erkennen und Anzeigen von Krankheitssymptomen von Nutzern basierend auf Radardaten gemäß einer anderen Ausführungsform.
14 veranschaulicht ein Flussdiagramm zum Erkennen und Anzeigen von Krankheitssymptomen von Nutzern basierend auf Radardaten gemäß einer anderen Ausführungsform.
15 veranschaulicht ein Flussdiagramm zum Erkennen und Anzeigen von Krankheitssymptomen von Nutzern basierend auf einer Fusion von Radardaten, Bilddaten und Audiodaten gemäß einer Ausführungsform.
16 veranschaulicht ein Flussdiagramm zum Erkennen und Anzeigen von Krankheitssymptomen von Nutzern basierend auf einer Fusion von Radardaten, Bilddaten und Audiodaten gemäß einer Ausführungsform.

DETAILLIERTE BESCHREIBUNG
Ausführungsformen der vorliegenden Offenbarung werden hierin beschrieben. Es versteht sich jedoch, dass die offenbarten Ausführungsformen lediglich Beispiele sind, und dass andere Ausführungsformen verschiedene und alternative Formen annehmen können. Die Figuren sind nicht notwendigerweise maßstabsgetreu; einige Merkmale könnten übertrieben oder minimiert sein, um Details bestimmter Komponenten zu zeigen. Daher sind spezifische hierin offenbarte strukturelle und funktionelle Details nicht als einschränkend zu interpretieren, sondern lediglich als eine repräsentative Basis, um einen Fachmann zu lehren, die Ausführungsformen verschieden einzusetzen. Wie Durchschnittsfachleute verstehen werden, können verschiedene Merkmale, die unter Bezugnahme auf irgendeine der Figuren veranschaulicht und beschrieben sind, mit Merkmalen kombiniert werden, die in einer oder mehreren anderen Figuren veranschaulicht sind, um Ausführungsformen zu erzeugen, die nicht explizit veranschaulicht oder beschrieben sind. Die veranschaulichten Merkmalskombinationen stellen repräsentative Ausführungsformen für typische Anwendungen bereit. Verschiedene Kombinationen und Modifikationen der Merkmale, die mit den Lehren dieser Offenbarung übereinstimmen, könnten jedoch für bestimmte Anwendungen oder Implementierungen erwünscht sein.
Menschen verlassen sich zunehmend auf gemeinsam genutzte Mobilitätsdienste, wie zum Beispiel Busse, Züge, Taxis, und Mitfahrgelegenheitsdienste, wie zum Beispiel UBER und LYFT. Bei diesen gemeinsam genutzten Mobilitätsdiensten werden gemeinsame Räume durch viele unterschiedliche Menschen zu unterschiedlichen Zeiten besetzt. Da sich neuere Infektionskrankheiten ausbreiten, gibt es bei der gemeinsamen Nutzung solcher gemeinsamen Räume ein erhöhtes Infektionsrisiko. Aktuelle Techniken liefern den Fahrern keine angemessenen Informationen, um die Sauberkeit eines gemeinsam genutzten Raums zu beurteilen. Diese Offenbarung schlägt mehrere neuartige Techniken vor, um Nutzer von gemeinsam genutzten Mobilitätsdiensten dabei zu unterstützen, fundierte Entscheidungen basierend auf Aktivitäten früherer Nutzer zu treffen, die eine Krankheit (wie zum Beispiel Husten- oder Niesereignisse), wie durch einen oder mehrere unterschiedliche Typen von Sensoren (wie zum Beispiel Audiosensoren, Videosensoren und/oder Radarsensoren) angezeigt, anzeigen. Wenn mehr als ein unterschiedlicher Sensortyp verwendet wird, um Symptome einer möglichen Erkrankung von Nutzern zu erkennen, können die Sensordaten fusioniert werden.
In anderen Ausführungsformen werden die Sensoren in anderen großen, stark frequentierten Umgebungen verwendet, wie zum Beispiel in Restaurants, öffentlichen Gebäuden, Konzertstätten, Sportveranstaltungen und dergleichen. Die Sensoren können dazu verwendet werden, Krankheitssymptome der Nutzer dieser Orte zu erkennen.
Diese Offenbarung schlägt auch vor, dem Bereitsteller (zum Beispiel Eigentümer oder Manager) einer Fahrzeugflotte, wie zum Beispiel einem Fahrzeugvermietungsdienst, solche Informationen bereitzustellen. Zum Beispiel können einer oder mehrere der hierin beschriebenen Sensoren in jedem der Fahrzeuge der Flotte platziert werden, und können dazu verwendet werden, Krankheitssymptome von Nutzern innerhalb des Fahrzeugs zu erkennen, und diese Informationen an den Flottenbereitsteller zu kommunizieren. Wenn der Flottenbereitsteller mit dem Wissen ausgestattet ist, dass ein früherer Nutzer aufgrund erkannter Anzeichen von Husten, Niesen oder dergleichen möglicherweise krank ist, kann der Flottenbereitsteller ein solches Fahrzeug desinfizieren, und Mitnutzer oder nachfolgende Nutzer über die Möglichkeit einer Infektion informieren.
Diese Informationen können auch Stadtplanern im Allgemeinen dabei helfen, zu wissen, auf welchen Wegen sich Keime gemeinsam mit den entsprechenden Symptomen schneller ausbreiten.
1 veranschaulicht beispielhaftes System 100 zum Erkennen von Krankheitssymptomen von Nutzern und zum Anzeigen der erkannten Symptome in einer Visualisierung. Das System 100 kann auch als Erkennungs- und Visualisierungssystem bezeichnet werden, da das System mindestens teilweise dazu ausgelegt ist, Bilder zu verarbeiten und bestimmte Eigenschaften oder Qualitäten des Bildes zu bestimmen, die eine Erkrankung von Nutzern darstellen, und eine Visualisierung der erkannten Erkrankung von Nutzern bereitzustellen, damit Nutzer oder andere Benutzer fundierte Entscheidungen treffen und Handlungen vornehmen können. In anderen Ausführungsformen verwendet das System Audio oder Funkfrequenz (Radio-Frequency - RF), um eine Erkrankung von Nutzern zu bestimmen. Das veranschaulichte System 100 ist nicht nur dazu ausgelegt, die Krankheitssymptome von Nutzern zu erkennen, sondern ist auch dazu ausgelegt, Informationen bezüglich der Symptome anzuzeigen (zum Beispiel Bildanmerkung oder Bildüberlagerung), um auf die Daten einzuwirken, die die erkannten oder bestimmten Symptome veranschaulichen.
In einer oder mehreren Ausführungsformen ist das System 100 für die Erfassung von Bilddaten 102 ausgelegt. In Kombination mit den Bilddaten 102 oder getrennt von den Bilddaten 102 kann das System 100 zum Erfassen und Verarbeiten von Audiodaten 104 und/oder Radardaten 106 ausgelegt sein. Das System 100 beinhaltet Server 108, der Visualisierungsanwendung 110 hostet, auf die ein oder mehrere Client-Geräte 112 über Netzwerk 114 zugreifen können. Der Server 108 beinhaltet Prozessor 116, der funktionsfähig mit Speicherung 118 und Netzwerkgerät 120 verbunden ist. Der Server 108 beinhaltet ferner Bilddateneingabequelle 122 für den Empfang der Bilddaten 102, die funktionsfähig mit dem Prozessor 116 und der Speicherung 118 verbunden ist. Der Server 108 kann ferner auch Audiodateneingabequelle 124 für den Empfang der Audiodaten 104 beinhalten, die funktionsfähig mit dem Prozessor 116 und der Speicherung 118 verbunden ist. Der Server 108 kann ferner Radardateneingabequelle 126 für den Empfang der Radardaten 106 beinhalten, die funktionsfähig mit dem Prozessor 116 und der Speicherung 118 verbunden ist. Das Client-Gerät 112 beinhaltet Prozessor 128, der funktionsfähig mit Speicherung 130 verbunden ist, Anzeigegerät 132, Mensch-Maschine-Schnittstellen (Human-Machine-Interface - HMI) - Steuerungen 134 und Netzwerkgerät 136. Das Client-Gerät 112 kann es einem Bediener ermöglichen, auf Web-Client 138 zuzugreifen.
Es ist zu beachten, dass das beispielhafte System 100 ein Beispiel ist, und dass andere Systeme verwendet werden können, die aus mehreren Einheiten des Systems 100 bestehen. Während beispielsweise nur ein Client-Gerät 112 gezeigt ist, werden Systeme 100 in Erwägung gezogen, die mehrere Client-Geräte 112 beinhalten. Als eine andere Möglichkeit können, während die beispielhafte Implementierung als eine webbasierte Anwendung gezeigt wird, alternative Systeme als eigenständige Systeme, lokale Systeme oder als Client-Server-Systeme mit Thick-Client-Software implementiert werden. Verschiedene Komponenten, wie zum Beispiel die Bildquelle 122, die Audioquelle 124 und die Radarquelle 126 und die zugehörigen Daten 102, 104, 106 können lokal auf der Client-Geräteseite des Systems 100 anstatt auf dem Server 108 empfangen und verarbeitet werden.
Der Prozessor 116 des Servers 108 sowie der Prozessor 128 des Client-Geräts 112 können eine oder mehrere integrierte Schaltungen beinhalten, die die Funktionalität einer Zentralverarbeitungseinheit (Central-Processing-Unit - CPU) und/oder Grafikverarbeitungseinheit (Graphics-Processing-Unit - GPU) implementieren. In einigen Beispielen sind die Prozessoren 116, 128 ein Systemon-a-Chip (SoC), das die Funktionalität der CPU und der GPU integriert. Das SoC kann optional andere Komponenten, wie zum Beispiel die Speicherung 118 und das Netzwerkgerät 120 oder 136, in einem einzelnen integrierten Gerät beinhalten. In anderen Beispielen sind die CPU und die GPU über ein Peripherieverbindungsgerät, wie zum Beispiel PCI-Express, oder eine andere geeignete Peripheriedatenverbindung miteinander verbunden. In einem Beispiel ist die CPU ein kommerziell verfügbares Zentralverarbeitungsgerät, das einen Anweisungssatz, wie zum Beispiel einen der x86-, ARM-, Power- oder MIPS-Anweisungssatzfamilien, implementiert.
Ungeachtet der Besonderheiten führen die Prozessoren 116, 128 während des Betriebs gespeicherte Programmanweisungen aus, die von den Speicherungen 118 bzw. 130 abgerufen werden. Die gespeicherten Programmanweisungen beinhalten dementsprechend Software, die den Betrieb der Prozessoren 116, 128 steuert, um die hierin beschriebenen Operationen auszuführen. Die Speicherungen 118, 130 können sowohl nichtflüchtigen Speicher als auch flüchtige Speichergeräte beinhalten. Der nichtflüchtige Speicher beinhaltet Festkörperspeicher, wie zum Beispiel NAND-Flash-Speicher, magnetische und optische Speicherungsmedien, oder jegliches andere geeignete Datenspeicherungsgerät, das Daten speichert, wenn das System 100 deaktiviert wird oder elektrische Energie verliert. Der flüchtige Speicher beinhaltet einen statischen und dynamischen Direktzugriffsspeicher (Random-Access-Memory - RAM), der Programmanweisungen und Daten während des Betriebs des Systems 100 speichert.
Die GPU des Client-Geräts 112 kann Hardware und Software zum Anzeigen von mindestens zweidimensionalen (2D) und optional dreidimensionalen (3D) Grafiken auf einem Anzeigegerät 132 des Client-Geräts 112 beinhalten. Das Anzeigegerät 132 kann einen elektronischen Anzeigebildschirm, einen Projektor, einen Drucker oder jegliches andere geeignete Gerät beinhalten, das eine grafische Anzeige reproduziert. In einigen Beispielen führt der Prozessor 128 des Client-Geräts 112 Softwareprogramme durch Verwenden der Hardware-Funktionalität in der GPU aus, um die Leistung des maschinellen Lernens oder anderer hierin beschriebener Datenverarbeitungsoperationen zu beschleunigen.
Die HMI-Steuerungen 134 des Client-Geräts 112 können jegliches von verschiedenen Geräten beinhalten, die es dem Gerät 112 des Systems 100 ermöglichen, Steuereingaben von Arbeitern, Flottenfahrzeugmanagern oder anderen Benutzern zu empfangen. Beispiele für geeignete Eingabegeräte, die Benutzerschnittstelleneingaben empfangen, können Tastaturen, Mäuse, Trackballs, Touchscreens, Spracheingabegeräte, Grafiktabletts und dergleichen beinhalten. Wie hierin beschrieben, kann eine Benutzerschnittstelle entweder das Anzeigegerät 132 oder die HMI-Steuerungen 134 oder beide beinhalten.
Die Netzwerkgeräte 120, 136 können jegliches von verschiedenen Geräten beinhalten, die es dem Server 108 und dem Client-Gerät 112 ermöglichen, Daten von externen Geräten über das Netzwerk 114 zu senden und/oder zu empfangen. Beispiele für geeignete Netzwerkgeräte 120, 136 beinhalten einen Netzwerkadapter oder ein peripheres Verbindungsgerät, das Daten von einem anderen Computer oder einem externen Datenspeicherungsgerät empfängt, was zum effizienten Empfangen großer Datensätze nützlich sein kann.
Die Visualisierungsanwendung 110 kann ein Beispiel für eine durch den Server 108 ausgeführte Softwareanwendung sein. Wenn ausgeführt, kann die Visualisierungsanwendung 110 verschiedene Algorithmen dazu verwenden, Aspekte der hierin beschriebenen Operationen auszuführen. In einem Beispiel kann die Visualisierungsanwendung 110 Anweisungen beinhalten, die durch den Prozessor 116 des Servers 108 wie oben diskutiert ausführbar sind. Die Visualisierungsanwendung 110 kann Anweisungen beinhalten, die in den Speicher 118 gespeichert und durch den Prozessor 116 wie hierin beschrieben ausführbar sind. Computerausführbare Anweisungen können von Computerprogrammen kompiliert oder interpretiert werden, die durch Verwenden einer Vielzahl von Programmiersprachen und/oder -technologien erstellt wurden, einschließlich, ohne Einschränkung, und entweder allein oder in Kombination, Java, C, C++, C#, Visual Basic, JavaScript, Python, Perl, PL/SQL, usw. Im Allgemeinen empfängt der Prozessor 116 die Anweisungen, zum Beispiel von der Speicherung 118, einem computerlesbaren Medium, usw., und führt diese Anweisungen aus, wobei ein oder mehrere Prozesse einschließlich eines oder mehrerer der hierin beschriebenen Prozesse ausgeführt werden. Solche Anweisungen und andere Daten können durch Verwenden einer Vielzahl von computerlesbaren Medien gespeichert und übertragen werden.
Der Web-Client 138 kann ein Web-Browser oder ein anderer webbasierter Client sein, der durch das Client-Gerät 112 ausgeführt wird. Wenn ausgeführt, kann der Web-Client 138 es dem Client-Gerät 112 ermöglichen, auf die Visualisierungsanwendung 110 zuzugreifen, um Benutzerschnittstellen der Visualisierungsanwendung 110 anzuzeigen. Der Web-Client 138 kann ferner über die HMI-Steuerungen 134 empfangene Eingaben an die Visualisierungsanwendung 110 des Servers 108 über das Netzwerk 114 bereitstellen.
In Systemen der künstlichen Intelligenz (Artificial-Intelligence - AI) oder für maschinelles Lernen bezieht sich modellbasiertes Argumentieren auf ein Inferenzverfahren, das basierend auf Modell für maschinelles Lernen 140 einer zu analysierenden Weltanschauung arbeitet. Im Allgemeinen wird das Modell für maschinelles Lernen 140 dazu trainiert, eine Funktion zu lernen, die eine präzise Korrelation zwischen Eingabewerten und Ausgabewerten bereitstellt. Zur Laufzeit verwendet eine Maschine für maschinelles Lernen das in dem Modell für maschinelles Lernen 140 codierte Wissen gegen beobachtete Daten, um Schlussfolgerungen, wie zum Beispiel eine Diagnose oder eine Vorhersage, abzuleiten. Ein beispielhaftes System für maschinelles Lernen kann die TensorFlow-AI-Engine beinhalten, die durch Alphabet Inc. aus Mountain View, CA, verfügbar gemacht wird, obwohl andere Systeme für maschinelles Lernen zusätzlich oder alternativ verwendet werden können. Wie hierin im Detail diskutiert, ist die Visualisierungsanwendung 110 in Kommunikation mit dem Modell für maschinelles Lernen 140, und kann dazu ausgelegt sein, Merkmale der Bilddaten 102 zur Verwendung in dem effizienten und skalierbaren Grundwahrheitserzeugungssystem und den Verfahren zu erkennen, Anmerkungen mit hoher Präzision (Pixel-Level-Genauigkeit) zu produzieren, die dazu verwendet werden, Objekterkennung/-lokalisierung und Objektverfolgung zu entwickeln. In einigen Ausführungsformen kommuniziert die Visualisierungsanwendung 110 mit dem Modell für maschinelles Lernen 140, und kann dazu ausgelegt sein, Audiomerkmale oder Muster der Audiodaten 104 zur Verwendung in einem ähnlichen System zu erkennen, um eine sichtbare Ausgabe auf der Anzeige 132 oder dem Web-Client 138 des Standorts der Quelle eines solchen Audios zu produzieren. In einigen Ausführungsformen kommuniziert die Visualisierungsanwendung 110 mit dem Modell für maschinelles Lernen 140, und kann dazu ausgelegt sein, Radarmerkmale oder Muster der Radardaten 106 zur Verwendung in einem ähnlichen System zu erkennen, um eine sichtbare Ausgabe auf der Anzeige 132 oder dem Web-Client 138 des Standorts der Person des Objekts, das durch Radar erkannt wurde, zu produzieren. Kurz gesagt, kann die Visualisierungsanwendung ein Modell für maschinelles Lernen 140 zum Ausführen verschiedener Schritte der Bilderkennung (zum Beispiel Schritte 606-612 von 6), Audioerkennung (zum Beispiel Schritte 406-412 von 4) und/oder Radarerkennung (Schritte 1106-1112 von 11) und/oder jegliche Fusionsschritte, die zwei oder mehr dieser Techniken beinhalten, beinhalten oder in Kommunikation damit sein.
Die Bilddateneingabequelle 122 kann eine Kamera sein, die zum Beispiel an einem Standort, wie zum Beispiel einem Fahrzeug, einem Flottenfahrzeug, einem öffentlichen Verkehrsmittel, einem Restaurant, einem Flugzeug, einem Kino oder einem anderen Standort angebracht ist, an dem große Mengen an Menschen verkehren oder Menschenansammlungen auftreten, oder an anderen Standorten, an denen das Bestimmen der Anwesenheit und des Standorts von Personen, die Krankheitssymptome haben, gerechtfertigt sein kann. Die Bilddateneingabequelle 122 ist dazu ausgelegt, Bilddaten 102 zu erfassen. In einem anderen Beispiel kann die Bilddateneingabequelle 122 eine Schnittstelle sein, wie zum Beispiel das Netzwerkgerät 120, oder eine Schnittstelle zu der Speicherung 118 für das Abrufen von zuvor erfassten Bilddaten 102. Die Bilddaten 102 können ein einzelnes Bild oder ein Video, zum Beispiel eine Sequenz von Bildern, sein. Jedes Bild in den Bilddaten 102 kann hierin als ein Frame bezeichnet werden. Aus Datenschutzgründen können Gesichter und Nummernschilder für bestimmte Anmerkungs- oder Visualisierungsaufgaben von den Bilddaten 102 verwischt werden.
Die Audioquelle 124 kann ein akustischer Sensor oder ein Mikrofon sein, das an den oben beschriebenen beispielhaften Standorten angebracht und dazu ausgelegt ist, Ereignisse von Interesse (zum Beispiel Bereiche, in denen Krankheitssymptome auftreten) zu erkennen und zu lokalisieren. Die Audioquelle 124 ist dazu ausgelegt, Audiodaten 104 zu erfassen. In einem anderen Beispiel kann die Audioeingabequelle 124 eine Schnittstelle sein, wie zum Beispiel das Netzwerk 120, oder eine Schnittstelle zu der Speicherung 118 zum Abrufen von zuvor aufgezeichneten Audiodaten 104. Die Audiodaten 104 können Audio von der Audioquelle 124 (zum Beispiel Mikrofon) empfangen, das jederzeit erkannt und/oder aufgezeichnet werden kann, wenn die Audioquelle 124 aktiv ist. Wie hierin ebenfalls beschrieben, kann die Audioquelle 124 mehrere Audioquellen 124 in einem Array oder an verschiedenen Standorten sein, wobei Triangulation oder das Bestimmen des Standorts des betreffenden Nutzers mit Krankheitssymptomen ermöglicht wird.
Die Radarquelle 126 kann ein kontaktloser Sensor sein, der dazu ausgelegt ist, menschliche Vitalzeichen, wie zum Beispiel Atmung, Atemfrequenz, Herzfrequenz, Herzfrequenzvariabilität und menschliche Emotionen zu erkennen, indem die Interaktion zwischen Funkfrequenzsignalen und physiologischen Bewegungen analysiert wird, ohne dass jeglicher Kontakt mit dem menschlichen Körper erforderlich ist. Ein nicht einschränkendes Beispiel einer solchen Radarquelle 126 ist Doppler-SDRadar, bei dem ein Schmalbandsignal mit kontinuierlicher Welle (Continuous-Wave - CW) gesendet, von dem menschlichen Ziel reflektiert und anschließend in dem Empfänger der Radarquelle 126 demoduliert wird. Andere Radarquellen 126 beinhalten Ultrabreitband (Ultra-Wideband - UWB) -Radar oder andere CW-Radargeräte, oder Millimeterwellensensoren, wie zum Beispiel 60-GHz- oder 77-GHz-mm-Wellensensoren.
2 zeigt eine Ausführungsform einer Platzierung von Sensor 200 in Fahrzeug 202. Das Fahrzeug 202 kann ein Personenkraftwagen sein, wie zum Beispiel ein Auto, ein Lieferwagen, ein Lastwagen, ein Sports-Utility-Vehicle (SUV) und dergleichen. Wie hierin beschrieben, ist das Fahrzeug in anderen Ausführungsformen ein Bus, Zug, Flugzeug oder ein anderes öffentliches Verkehrsmittel. Der Sensor kann die Bildquelle 122 und/oder Audioquelle 124 und/oder Radarquelle 126 oder jegliche Kombination davon sein. Einsatz und Platzierung des Sensors können von der Umgebung abhängen. Zum Beispiel ist der Sensor 200 in der veranschaulichten Ausführungsform auf oder an Armaturenbrett 204 des Fahrzeugs 202 angebracht. In anderen Ausführungsformen ist der Sensor 200 auf oder an Frontscheibe 206, Rückspiegel 208 oder anderen Standorten in dem Fahrzeug 202 angebracht. In Ausführungsformen ist der Sensor 200 an einem Standort so angebracht, dass er die Bilddaten, Audiodaten und/oder Radardaten von Nutzern innerhalb des Fahrzeugs 202 ordnungsgemäß empfangen kann.
Anstatt einen einzelnen Sensor 200 zu verwenden, kann ein Array oder mehrere Sensoren 200 in dem gesamten Fahrzeug platziert werden. In Ausführungsformen, in denen das Fahrzeug ein Bus oder andere große Fahrzeuge mit vielen Passagieren ist, können in dem gesamten Fahrzeug mehrere Sensoren 200 verwendet werden. Mehr Sensoren können sinnvoll sein, um einen großen gemeinsam genutzten Mobilitätsraum abzudecken, wie zum Beispiel in einem Bus oder einem Zug. Als ein Beispiel ist der Einsatz mehrerer Sensoren 200 in Bus 302 in 3 gezeigt. Die Sensoren können in anderen Bereichen des Busses 302 eingesetzt werden, einschließlich der Decke, unter oder über den Sitzen und an anderen Standorten.
Wie hierin beschrieben, können die Sensoren 200 in jeglichem Fahrzeug verwendet werden, insbesondere in einem, das dazu verwendet wird, mehrere Nutzer entweder gleichzeitig (zum Beispiel ein Bus) oder zu individuell getrennten Zeiten (zum Beispiel Mitfahrgelegenheits- oder Flottenfahrzeuge, Fahrzeugvermietung, usw.) zu transportieren. Die Sensoren 200 können auch an nicht in einem Fahrzeug befindlichen Standorten platziert sein, wie zum Beispiel in Restaurants, öffentlichen Gebäuden, Flughäfen, Arenen, Stadien, Veranstaltungsorten und anderen solchen Standorten, an denen eine große Menge an Menschenverkehr oder -dichte auftreten kann. Kurz gesagt, die hierin bereitgestellte Beschreibung und Veranschaulichungen sollen nicht auf die Verwendung der Sensoren 200 nur innerhalb von Fahrzeugen beschränkt sein.
4 veranschaulicht ein Flussdiagramm einer Ausführungsform von System 400 zum Erkennen von Ereignissen, die Krankheitssymptome von Nutzern anzeigen, zum Lokalisieren der Ereignisse, und zum Anzeigen zugehöriger Informationen in einer Visualisierung. Diese Schritte können durch mindestens einige der in 1 gezeigten Strukturen ausgeführt werden, wie zum Beispiel durch die Prozessoren 116, 128, die Audioquellen 124, die Speicherung 118, die Audiodaten 104 usw. In dieser Ausführungsform sind einer oder mehrere der Sensoren 200 um einen gewünschten Standort mit Nutzern, wie zum Beispiel die oben genannten Fahrzeuge, Gebäude und dergleichen, platziert. In dieser Ausführungsform beinhalten einer oder mehrere der Sensoren eine Audioquelle 124, wie zum Beispiel ein Mikrofon. Die Audioquelle 124 ist dazu ausgelegt, wenn in Gebrauch kontinuierlich auf Audioton mit einer bestimmten Abtastrate zu hören. Mit anderen Worten empfängt das System bei 402 Audiodaten 104, wie zum Beispiel ein akustisches Signal, von der Audioquelle 124.
Das System 400 kann bei 404 einen Vorverarbeitungsschritt beinhalten. Die erfassten Audiodaten 104 werden durch Verwenden eines Filters entrauscht.
Dann werden die Audiodaten 104 durch Verwenden eines Schiebefensteralgorithmus segmentiert. Auch kann eine die Privatsphäre schützende Audioverarbeitung verwendet werden, um Benutzer-Datenschutzanforderungen zu erfüllen. Zum Beispiel kann das System dazu ausgelegt sein, menschliche Sprache von dem kontinuierlichen Audio-Stream durch Sprachaktivitätserkennungs (Voice-Activity-Detection - VAD) -Algorithmen selektiv zu unterdrücken oder abzulehnen. Durch Ausführen von VAD in einer Vorverarbeitungsstufe kann unnötiges Codieren oder Übertragen von Paketen ohne Ton vermieden oder Rauschen oder irrelevante Sprache entfernt werden, wodurch Rechenleistung und Netzwerkbandbreite gespart werden. Verschiedene Ausführungsformen von VAD werden in Erwägung gezogen, und sollten in dem Umfang dieser Offenbarung enthalten sein. Zum Beispiel folgen viele VAD-Systeme der allgemeinen Architektur von (i) zuerst Ausführen einer Rauschunterdrückung, dann (ii) Berechnen von Merkmalen oder Mengen von einem Abschnitt des Eingangssignals, wie zum Beispiel der Audiodaten 104, und dann (iii) Anwenden einer Klassifizierungsregel, um den Abschnitt als Sprache oder Nicht-Sprache zu klassifizieren, optional Anwenden eines Schwellenwerts und Vergleichen des klassifizierten Rauschens mit dem Schwellenwert.
Das System 400 kann bei 406 auch ein Merkmalsextraktionsmodell oder eine Anwendung beinhalten. In diesem Schritt werden dann relevante Audiodaten, die wie oben beschrieben entrauscht und gefiltert wurden, zur Analyse extrahiert. Mel-Frequency-Cepstral-Coefficients (MFCC), SoundNet-Convolutional-Neural-Network (CNN) oder andere Typen von maschinellem Lernen, Zeitbereichsmerkmale, Frequenzbereichsmerkmale und/oder eine Kombination davon können in diesem Schritt verwendet werden, um die relevanten Merkmale der Audiodaten zu extrahieren. Die extrahierten Daten (Audiomerkmalsdarstellungen) können abhängig von dem Typ des Merkmalsextraktionsalgorithmus als mehrdimensionale Vektoren oder Matrizen gespeichert werden.
Das System 400 kann bei 408 auch ein Klassifizierungsmodell oder eine Anwendung beinhalten. In diesem Schritt wird ein Klassifizierer dazu verwendet, die Audioereignisse zu klassifizieren. Abschnitte der vorverarbeiteten und extrahierten Audiodaten können als Niesen, Husten, Kurzatmigkeit oder andere derartige Geräusche, die ein Krankheitspotential eines Nutzers anzeigen können, klassifiziert werden. Zu diesem Zweck kann eine Support-Vector-Maschine (SVM), ein Random-Forest oder ein Multilayer-Perceptron-Klassifizierer verwendet werden. Das hierin beschriebene Modell für maschinelles Lernen 140 kann zu diesem Zweck implementiert werden. Auch kann das Lernen und Klassifizieren von Audiomerkmalen auf eine Ende-zu-Ende-Weise durch Verwenden eines tiefen Audioanalysealgorithmus ausgeführt werden, bei dem Zeitbereichswellenformen als Eingaben verwendet werden. Ein CNN mit zum Beispiel 34 Gewichtsschichten kann effizient sein, um über sehr lange Sequenzen hinweg, wie zum Beispiel eine Vektorgröße von 32.000, zu optimieren, um akustische Wellenformen zu verarbeiten. Dies kann durch Batch-Normalisierung und Residual-Learning erreicht werden. Ein Beispiel für ein solches Modell ist offenbart in Wei Dai, Chia Dai, Shuhui Qu, Juncheng Li, Samarjit Das, „Very deep convolutional neuronal networks for raw waveforms“, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017.
Das System 400 kann bei 410 auch eine Schätzung oder Bestimmung des Ankunftswinkels (Angle-of-Arrival - AoA) beinhalten. AoA kann implementiert werden, um den Standort der Geräuschquelle zu schätzen, sodass das System schätzen kann, woher das Husten, Niesen oder dergleichen ursprünglich stammt. Um dies auszuführen, kann das System mehrere Sensoren 200 oder Audioquellen 124 beinhalten. Strahlformungsalgorithmen können dazu verwendet werden, den AoA des eingehenden akustischen Signals zu schätzen. Wenn die Audioquelle zum Beispiel ein Mikrofon ist, kann dies durch Verwenden eines einzelnen Mikrofon-Arrays mit mehreren Mikrofonen durch Verwenden eines Verzögerungssummen-Strahlformungs- und Multiple-Signal-Classification (MUSIC) -Algorithmus erreicht werden.
Nachdem eine AoA-Schätzung abgeschlossen ist, kann bei 412 ein Lokalisierungsprozess auftreten. Audiopeilungstechniken, wie zum Beispiel Triangulation, können implementiert werden. Dies stellt den Quellstandort der Ereignisse von Interesse (zum Beispiel Husten, Niesen usw.) bereit. In einem vereinfachten Beispiel kann der Standort der Quelle des analysierten Geräuschs durch den Prozessor bestimmt werden, indem die Zeitdifferenz zwischen jeder der das Geräusch empfangenden Audioquellen gemessen wird. Wenn zum Beispiel ein Array von Mikrofonen verwendet wird, wird die Zeit zwischen dem Empfang des Audiosignals durch ein erstes der Mikrofone und dem Empfang des Audiosignals durch ein zweites der Mikrofone durch den/die Prozessor(en) aufgezeichnet, und mit einer Zeit zwischen dem Empfang des Audiosignals durch das zweite Mikrofon und dem Empfang des Audiosignals durch ein drittes der Mikrofone verglichen. Dieser Vorgang kann so oft fortgesetzt werden, je nachdem wie viele Sensoren an dem Standort des Systems bereitgestellt werden.
In einer anderen Ausführungsform, wie in 4 veranschaulicht, kann die AoA-Schätzung, anstatt Daten von dem AoA-Schätzschritt 410 zu ziehen, übersprungen werden, und die Lokalisierung bei 412 kann basierend auf der Intensität des akustischen Signals selbst nach der Klassifizierung bei 408 ausgeführt werden.
Bei 414 führt das System dann eine Zeitreihenaggregation durch. In diesem Schritt werden im Laufe des Tages erkannte Audioereignisse von Interesse aggregiert. Das System kann berechnen, wie oft jedes Audioereignis in jedem Bereich des Standorts stattgefunden hat. Zum Beispiel in dem Fall, in dem das System in einem Bus implementiert ist, kann die Aggregation zusammenstellen, wie oft ein Nies- oder Hustenereignisses an einem bestimmten Sitzplatz in dem Bus stattfindet. In dem Fall eines Restaurants kann die Aggregation zusammenstellen, wie oft an einem bestimmten Tisch in dem Restaurant ein Nies- oder Hustenereignis stattfindet. Diese Aggregation 414 kann die Anzahl von Audioereignissen, die Krankheit an jeder Audioquelle (zum Beispiel Mikrofon) oder an jedem bestimmten (zum Beispiel triangulierten) Standort anzeigen, aggregieren. Die Ergebnisse der Aggregation können lokal in der Speicherung 118 oder in der Cloud über das Netzwerk 114 gespeichert werden.
Die Ergebnisse der Aggregation 414 können ein Kennzeichen in dem System auslösen, das anzeigt, dass ein bestimmter Bereich von Interesse einer Anzahl von Krankheitssymptomen von Nutzern ausgesetzt war, und desinfiziert werden muss. Zum Beispiel kann die Aggregation über die Audiosignalverarbeitung anzeigen, dass ein bestimmter Sitz innerhalb des Busses einer Anzahl von Krankheitssymptomen von Nutzern ausgesetzt war, und kann diesen Bereich des Busses als infiziert kennzeichnen, bis der Sitz gereinigt wird. Die Anzahl der erkannten Krankheitssymptome von Nutzern kann mit einem Schwellenwert verglichen werden, um den Bereich als infiziert zu kennzeichnen. Der Schwellenwert kann zum Beispiel drei sein, sodass, wenn das System drei erkannte Krankheitssymptome von Nutzern (zum Beispiel Husten oder Niesen, wie durch die Audiosignale erkannt) seit der letzten Reinigung erkennt, das System diesen Bereich als infiziert kennzeichnet, bis der Bereich erneut gereinigt wird. Die Aggregation kann nach der Desinfektion des Zielbereichs auf Null zurückgesetzt werden.
Das System kann dann bei 416 eine Visualisierung ausführen. In diesem Schritt werden die aggregierten Informationen von 414 einer Person auf eine Weise gezeigt, die es der Person ermöglicht, die Daten in einem visuell ansprechenden Format zu sehen. Die Visualisierung kann auf dem Client-Gerät 112 (zum Beispiel einem Anzeigegerät oder einer Benutzerschnittstelle) sichtbar sein, wenn sie durch das Netzwerk 114 übertragen wird, oder kann lokal angesehen werden. In einem Beispiel kann der Person eine „Wärmekarte“ zur Visualisierung gezeigt werden. Die Wärmekarte kann farbcodiert sein, wobei an Standorten unterschiedliche gezeigte Farben der Anzahl der an diesen Standorten erkannten Krankheitssymptome entsprechen. Die Visualisierung kann ein Hintergrundbild beinhalten. Das Hintergrundbild kann entweder ein unbewegtes Einzelbild des Standorts der Nutzer sein (zum Beispiel ein leerer Bus). Alternativ kann das Hintergrundbild eine Live-Ansicht (zum Beispiel ein Video) des Standorts der Nutzer sein. Die Wärmekarte mit den Farben, die dem Standort der erkannten Krankheit entsprechen, kann über das Hintergrundbild gelegt werden.
5 zeigt ein Beispiel von Visualisierung 500, die auf einer Anzeige für eine Person zum Ansehen gezeigt wird. Das in 5 gezeigte Bild wird von einer Bild- oder Videoquelle, wie zum Beispiel einer Kamera oder Bildquelle 122, aufgenommen. In diesem Beispiel ist die Bildquelle 122 in einem Bus angebracht, um ein Live-Bild eines Innenraums von Bus 502 zu zeigen. Das System kann so vorprogrammiert sein, dass die in dem Bild gezeigten Standorte mit einem entsprechenden Standort, wie von den Audioquellen 124 erkannt, übereinstimmen. Mit anderen Worten, der Standort von Krankheitssymptomen, wie durch die Audioquellen 124 wie hierin erläutert erkannt, kann einem von der Bildquelle 122 aufgenommenen Bild überlagert werden; die Übereinstimmung zwischen den in den Bildern gezeigten Standorten und den durch die Audioquellen bestimmten Standorten kann in einem vorbereitenden Schritt so erfolgen, dass die Prozessoren das Bild einfach in einem Bereich farbcodieren können, der mit den bestimmten Standorten der erkannten Krankheitssymptome von den Audioquellen 124 übereinstimmt.
In der in 5 gezeigten Ausführungsform wird die überwiegende Mehrheit des gezeigten Hintergrundbilds 502 mit überlagertem Bild 504 überlagert. In dieser Ausführungsform beinhaltet das überlagerte Bild 504 einen blauen oder abgedunkelten Farbton, wobei keine erkannten Krankheitssymptome erkannt werden. In anderen Ausführungsformen ist das überlagerte Bild 504 klar, sodass das Hintergrundbild 502 in Bereichen, in denen keine erkannten Krankheitssymptome erkannt werden, nicht verzerrt oder farbcodiert ist. Durch Verwenden des hierin erläuterten Systems werden die von den Audioquellen 124 empfangenen Signale verarbeitet, und Standorte von erkannten Krankheitssymptomen von Nutzern werden bestimmt. Diese Standorte entsprechen unterschiedlichen Farbtönen oder Schattierungen, wie durch Bereiche 506 und 508 gezeigt. Der Bereich 506 kann einem Standort mit fünf erkannten kürzlichen Krankheitssymptomen von Nutzern entsprechen, während der Bereich 508 einem Standort mit vier erkannten kürzlichen Krankheitssymptomen von Nutzern entsprechen kann. Diese Bereiche 506, 508 sind auch Teil des überlagerten Bilds 504, das dem Hintergrundbild 502 überlagert ist. Somit zeigt die Wärmekarte den Bereich 506 mit einer etwas mehr roten oder helleren Farbe, die dem Bild 502 überlagert ist. Die in 5 gezeigte Wärmekarte ist nur ein Beispiel für das Zeigen von Indikatoren, dass ein erkanntes Krankheitssymptom von Nutzern an den Standorten 506 und 508 aufgetreten ist. In anderen Ausführungsformen kann das überlagerte Bild 504 anstatt einer farbcodierten Wärmekarte Kästchen, Sterne, Kreise oder andere solche Indikatoren zeigen, die Bereichen entsprechen, in denen Krankheitssymptome erkannt werden.
Diese beispielhafte Visualisierung 500 kann in einer Vielzahl von Einstellungen gezeigt werden. Natürlich kann die Visualisierung einem Eigentümer oder Manager des Standorts, wie zum Beispiel dem Eigentümer oder Manager einer Flotte von Fahrzeugen, Bussen, Restaurants usw., bereitgestellt werden. Zusätzlich kann die Visualisierung auf einem Smartphone oder mobilen Gerät (zum Beispiel Client-Gerät 112) eines Fahrers oder Nutzers des Standortes gezeigt werden, um diesem Fahrer oder Nutzer eine fundierte Entscheidung über Standorte bereitzustellen, die vermieden werden sollten, um die Wahrscheinlichkeit einer Infektionsübertragung zu reduzieren. Das Netzwerk 114 kann solche Informationen durch die hierin erläuterte beispielhafte Struktur an das mobile Gerät kommunizieren. Die Visualisierung kann auch in eine Augmented-Reality (AR) - App des mobilen Geräts des Fahrers oder Nutzers integriert werden. Die Visualisierung kann auch auf einer Anzeige bereitgestellt werden, die innerhalb des Bereichs (zum Beispiel innerhalb des Busses) angebracht ist, um aktuelle Nutzer über die Standorte potenzieller Kontamination zu informieren.
In einer anderen Ausführungsform können, anstatt die aggregierten Informationen anzuzeigen, die aggregierten Informationen lokal gespeichert werden, und ein Benutzer/eine Benutzerin kann benachrichtigt werden, wenn er/sie sich in der Nähe eines Standorts befindet, an dem eine hohe (zum Beispiel über einem Schwellenwert) Anzahl erkannter Krankheiten von Nutzern erkannt worden ist. Jeder Sensor 200 kann mit einem Lautsprecher ausgestattet sein, und kann eine Audiobenachrichtigung ausgeben, wenn sich der Benutzer in der Nähe eines solchen potenziell kontaminierten Bereichs befindet, der noch nicht gereinigt wurde.
6 veranschaulicht ein Flussdiagramm einer Ausführungsform von System 600 zum Erkennen von Ereignissen, die Krankheitssymptome von Nutzern anzeigen, zum Lokalisieren der Ereignisse, und zum Anzeigen zugehöriger Informationen in einer Visualisierung. Erneut können diese Schritte durch mindestens einige der in 1 gezeigten Strukturen ausgeführt werden, wie zum Beispiel durch die Prozessoren 116, 128, die Bildquellen 122, die Speicherung 118, die Bilddaten 102 usw. In dieser Ausführungsform sind einer oder mehrere der Sensoren 200 um einen gewünschten Standort mit Nutzern, wie zum Beispiel die oben genannten Fahrzeuge, Gebäude und dergleichen, platziert. In dieser Ausführungsform beinhalten einer oder mehrere der Sensoren eine Bildquelle 122, wie zum Beispiel eine Kamera. Die Bildquelle 122 ist dazu ausgelegt, wenn in Gebrauch, kontinuierlich Bilder oder eine Serie von Bildern (Video) mit einer bestimmten Abtastrate zu erfassen. Mit anderen Worten empfängt das System bei 602 Bilddaten 102, wie zum Beispiel ein erfasstes Bild, von der Bildquelle 122.
Das System 600 kann bei 604 einen Vorverarbeitungsschritt beinhalten. Die Größe der erfassten Bilder kann bei 604 aus Konsistenzgründen auf eine Basisgröße für alle in das System eingespeisten Bilder geändert werden. Die erfassten Bilder können auch entrauscht werden, um das Bild zu glätten und unerwünschte Geräusche zu entfernen. Ein Beispiel für Entrauschen ist das Verwenden eines Gaußschen Weichzeichners. Noch während des Vorverarbeitungsschritts bei 604 kann das Bild segmentiert werden, wobei der Hintergrund von den Vordergrundobjekten getrennt wird. Andere Vorverarbeitungsfunktionen können ausgeführt werden, um das Bild für die Verarbeitung mit Erkennung von Menschen, Merkmalsextraktion und dergleichen vorzubereiten.
Sobald das Bild in 604 vorverarbeitet ist, führt das System bei 606 einen Schritt zur Erkennung von Menschen aus. Eine oder mehrere Objekterkennungstechniken können verwendet werden, wie zum Beispiel You-Only-Look-Once (YOLO), Single-Shot-Multibox-Detektor (SSD), Faster R-CNN und dergleichen. Viele dieser Objekterkennungstechniken nutzen vortrainierte Modelle für die Erkennung von „Mensch“ oder „Person“. Dies kann zum Beispiel als Teil des Modells für maschinelles Lernen 140 ausgeführt werden.
7 zeigt Bild 700 von Nutzern innerhalb des betreffenden Bereichs, wie zum Beispiel eines Busses. Die Techniken zur Erkennung von Menschen von Schritt 606 stellen Begrenzungskästchen um jeden erkannten Menschen bereit, wie in gelben Begrenzungskästchen 702, 704, 706 in 7 gezeigt. Einige der Objektdetektoren, wie zum Beispiel YOLO, stellen auch eine Ausgabe bereit, die den Prozentsatz des Vertrauens, dass ein erkanntes Objekt tatsächlich ein Mensch ist, beinhaltet. Standardmäßig werden die Begrenzungskästchen um einen Menschen herum platziert, wenn nur ein bestimmtes Vertrauensniveau (zum Beispiel 50 % oder mehr) erfüllt ist. Dieser Vertrauensschwellenwert kann jedoch angepasst werden.
Unter erneuter Bezugnahme auf 6 kann das System, wenn bei 606 Menschen erkannt werden, bei 608 eine Anwendung oder ein Modell zur Merkmalsextraktion ausführen. In diesem Schritt werden relevante visuelle Merkmale von jeder Person für ihre Aktionserkennung extrahiert - um ein Niesen, Husten oder eine andere solche Bewegung zu erkennen, die eine potenzielle Krankheit anzeigen würde. Um die räumlich-zeitlichen Merkmale zu erfassen, kann ein zweidimensionales (2D) Faltungsnetzwerk (Convolutional-Network - ConvNet) zu einem dreidimensionalen (3D) Faltungsnetzwerk aufgebläht werden, und aufgeblähte 3D-ConvNet (I3D) -Merkmale können verwendet werden. Filter und Pooling-Kerne von ConvNets mit sehr tiefer Bildklassifizierung können zu 3D erweitert werden, wodurch es möglich wird, nahtlose räumlich-zeitliche Merkmalsextraktoren von Bildern oder Videos zu lernen. Alternativ können tiefe Faltungsnetzwerke wie VGG16 (Simonyan, Karen und Andrew Zisserman. „Very deep convolutional networks for large-scale image recognition.“ arXiv-Vordruck arXiv:1409.1556 (2014)) oder ResNet (He, Kaiming, et al. „Deep residual learning for image recognition.“ Beratungen der IEEE Conference on Computer Vision and Pattern Recognition (2016)) dazu verwendet werden, räumliche Merkmale zu extrahieren und später in ein LSTM-basiertes Netzwerk zur Aktionserkennung zu integrieren. Ein Schiebefenster kann dazu verwendet werden, Merkmale jeder Person innerhalb dieses Zeitfensters zu erfassen. Auch kann ein neuronales Netzwerk wie OpenFace (Amos, Brandon, Bartosz Ludwiczuk und Mahadev Satyanarayanan. „Openface: A general-purpose face recognition library with mobile applications.“ CMU School of Computer Science 6 (2016)) oder DeepFace (Taigman, Yaniv, et al., „Deepface: Closing the gap to human level performance in face verification.“ Beratungen der IEEE Conference on Computer Vision and Pattern Recognition, 2014) dazu verwendet werden, Gesichtsmerkmale zu erfassen. Durch Verwenden dieser Merkmalsextraktionssysteme können Gesichtsmerkmale zur Aktivitätserkennung und zur Erkennung zusätzlicher Gesundheitsparameter verwendet werden. Zum Beispiel können die Gesichtsmerkmalsextraktionssysteme menschliche Gesichtsmerkmale oder Körpermerkmale extrahieren, die später zum Erkennen potenzieller Krankheiten verwendet werden, wie zum Beispiel Niesen, Husten, eine laufende Nase, Augenrötung, Müdigkeit, Hautausschläge oder körperliche Schmerzen. Daher können Nase, Augen, Mund und Hände einer Person bei 608 über das Merkmalsextraktionsmodell erkannt und extrahiert werden.
Techniken zum Schutz der Privatsphäre können eingesetzt werden, um die Privatsphäre der Nutzer zu schützen. In einer Ausführungsform werden Pixel der erfassten Bilder auf eine Weise umgewandelt, dass Gesichtserkennungsalgorithmen Personen nicht identifizieren können, aber die Merkmale für die Aktivitätserkennung durch eine solche Umwandlung nur minimal beeinflusst werden.
Mit den extrahierten Gesichts- und Körpermerkmalen kann bei 610 ein Aktivitätserkennungsschritt ausgeführt werden. In diesem Schritt wird durch Verwenden der extrahierten visuellen Merkmale ein Klassifizierer verwendet, um die Aktivität der Person zu klassifizieren. Zu diesem Zweck kann neben der in dem Schritt 608 extrahierten Merkmalskarte eine vollständig verbundene Schicht hinzugefügt werden. Alternativ kann eine Support-Vector-Maschine (SVM), ein Random-Forest oder ein Multilayer-Perceptron-Klassifizierer verwendet werden. Die Klassifizierer können das visuelle Ereignis in die folgenden Ereignisse von Interesse klassifizieren: Niesen, Husten, Kurzatmigkeit, laufende Nase, Tränen, Augenrötung, Müdigkeit, körperliche Schmerzen und/oder Erbrechen. Dies kann als Ausführen einer Krankheitserkennungsoperation oder allgemeiner als ein Aktivitätserkennungsmodell bezeichnet werden. Das Modell kann Systeme für maschinelles Lernen, wie zum Beispiel die hierin beschriebenen, verwenden.
Als ein Beispiel zeigt 8 eine Sequenz von Frames, die demonstrieren, dass eine Person niest. Wenn eine Person niest oder hustet, kann diese Aktivität unterklassifiziert werden, indem erkannt wird, ob die Hände der Person während des Ereignisses das Gesicht der Person bedeckt haben, kombiniert mit einer Kopfbewegung. Dies ist ein Beispiel für die Ausgabe einer Krankheitserkennungsoperation durch Verwenden der Bilddaten.
Die Klassifizierer können das visuelle Ereignis auch so klassifizieren, dass jemand den Bereich desinfiziert, indem die Ereignisse anzeigen, dass eine Person den Bereich abwischt oder besprüht. Dies kann als ein positives Reinigungsereignis protokolliert werden, wodurch die Zeitreihenaggregation zurückgesetzt werden kann, oder es kann dazu verwendet werden, die in dem System gespeicherte Sauberkeit des Bereichs zu aktualisieren.
Unter erneuter Bezugnahme auf 6 kann das System bei 612 eine Lokalisierung einsetzen. In diesem Schritt wird durch Verwenden der Koordinaten des Begrenzungskästchens der Person von Interesse der Standort des Ereignisses geschätzt. Dies kann durch eine Tiefenanalyse der Person relativ zu ihrer Umgebung innerhalb des Sichtfelds erfolgen. Dies kann durch ein einzelnes Bilderfassungsgerät oder mehrere Bilderfassungsgeräte für zusätzliches Vertrauen ausgeführt werden. Ein vorheriger Schritt kann bereitgestellt werden, um die Bilderfassungsgeräte zu kalibrieren, um abzubilden, wie sich jedes Pixel auf seinen physikalischen Standort in der realen Welt bezieht. Eine oder mehrere der Bildquellen 122 können mit einer On-Board-Tiefenerkennung ausgestattet sein, sodass die Tiefe (zum Beispiel der Abstand von der Bildquelle) jeglichen gegebenen Objekts innerhalb des Bilds bestimmt werden kann. Alternativ können solche Informationen von einem Off-Board-System bestimmt werden, das das Bild analysiert, mit bekannten Variablen, wie zum Beispiel dem Standort der Bildquelle, dem Abstand zwischen bestimmten Merkmalen in dem Bild, usw.
Bei 614 führt das System dann eine Zeitreihenaggregation ähnlich zu Schritt 414 in 4 aus. In diesem Schritt werden die Ereignisse von Interesse über den Tag hinweg erkannt und aggregiert, um die Sauberkeit eines bestimmten Bereichs zu beurteilen. Zum Beispiel können die Prozessoren berechnen und speichern, wie oft jedes erfasste potenzielle Krankheitsereignis (zum Beispiel Husten, Niesen, usw.) in jedem Bereich des Sichtfelds stattgefunden hat. Dies kann lokal an jedem Sensor oder in der Cloud berechnet werden. Die Werte können automatisch zurückgesetzt werden, nachdem erkannt wurde, dass jemand diesen Bereich gereinigt hat. Alternativ oder zusätzlich können die Werte nach Ablauf einer bestimmten Zeit ohne menschliche Aktivität (zum Beispiel 12 Stunden oder über Nacht) oder manuell zurückgesetzt werden.
Nachdem eine Zeitreihenaggregation ausgeführt wurde, können die Informationen einem Benutzer über eine Visualisierung bei 616 dargestellt werden. Diese Visualisierung kann ähnlich der oben beschriebenen Visualisierung von 416 sein. Insbesondere kann das Bild des Sichtfelds des Bilderfassungsgeräts mit einer „Wärmekarte“ überlagert werden, die sich in Intensität oder Farbe basierend auf der Anzahl der in diesen Bereichen erkannten potentiellen Krankheitsereignisse ändert.
In einer anderen Ausführungsform können zusätzlich zu RGB-Kameras auch Wärmebildkameras als zusätzliche Bilderfassungsgeräte verwendet werden. Die Wärmebildkameras können dazu verwendet werden, die Körpertemperatur eines erkannten Menschen zu schätzen, um ein mögliches Fieber zu erkennen, und die oben genannte Analyse entsprechend zu ergänzen.
Die 9 und 10 veranschaulichen ein Flussdiagramm einer Ausführungsform von Systemen zum Erkennen von Ereignissen, die Krankheitssymptome von Nutzern anzeigen, zum Lokalisiere der Ereignisse und zum Anzeigen zugehöriger Informationen in einer Visualisierung, während eine Fusion von Audio- und visuellen Daten verwendet wird. In den Ausführungsformen von 9 und 10 werden Bilddaten 102 und Audiodaten 104 miteinander fusioniert, um die Erkennungsfähigkeiten des Systems zu verbessern. Die oben beschriebenen Sensoren können sowohl eine Audioquelle als auch eine Bildquelle beinhalten. Alternativ kann der betreffende Bereich mit einem Array von Audioquellen und Bildquellen separat über den Bereich hinweg ausgestattet werden.
Unter Bezugnahme auf 9 wird eine Ausführungsform von System 900 zum Erkennen und Anzeigen von Krankheitssymptomen von Nutzern mit einer Fusion von Audio- und Bilddaten gezeigt. Bezüglich der Audiodaten 104 werden bei 402 akustische Signale erfasst und bei 404 vorverarbeitet, und bei 406 wird eine Merkmalsextraktion ausgeführt. Diese Schritte sind ähnlich den unter Bezugnahme auf 4 beschriebenen Schritten. Bezüglich der Bilddaten 102 werden bei 602 Bilder von einer Bildquelle (zum Beispiel einer Kamera) erfasst. Die Bilder werden bei 604 vorverarbeitet, und bei 606 wird die Erkennung von Menschen zusammen mit der Merkmalsextraktion bei 608 eingesetzt. Diese Schritte sind ähnlich den unter Bezugnahme auf 6 beschriebenen Schritten.
Bei 902 wird eine Fusionsschicht hinzugefügt, um die Audiodaten von den Schritten 402, 404 und 406 mit den Bilddaten von den Schritten 602, 604, 606 und 608 zu fusionieren. Die Fusion kann implementiert werden, um das Vertrauensniveau der erfassten Daten zu bestätigen oder zu verbessern. Zum Beispiel kann ein Untersatz der Krankheitssymptomdaten von Nutzern, die von einem einzelnen Individuum erkannt werden, eine Krankheit bei diesem Individuum anzeigen, aber nicht alle Individuen werden alle möglichen Krankheitssymptome anzeigen. Ferner können bestimmte Symptomanzeigen nicht so schwerwiegend sein wie andere. Die Genauigkeit der Bestimmung der Krankheitssymptome kann durch Verwenden einer Wahrscheinlichkeitsskala angezeigt werden. Informationen, die zum Bestimmen der Wahrscheinlichkeitsskala erforderlich sind, können von jeglicher von einer Vielzahl von Quellen erhalten werden.
Bei dem Fusionieren der Audio- und Bilddaten kann die Genauigkeit verbessert werden. Wenn zum Beispiel der bestimmte Ankunftswinkel eines Hustens von der Audioquelle mit dem Standort eines dem Husten zugeordneten zuckenden Kopfes von der Bildquelle übereinstimmt, dann können die Hustendaten als genau und zuverlässig bestimmt werden. Bei der Fusion von Merkmalen werden Ereignisse von Interesse durch Verwenden einer fusionierten Merkmalskarte erkannt. Der Fusion nachgelagert kann bei 904 ein Schritt der Aktivitätserkennung ausgeführt werden, der ähnlich dem oben beschriebenen Schritt 610 ist, außer dass nun das Vertrauen des Audio zu dem Video hinzugefügt wird. Wenn zum Beispiel die hierin beschriebene und in 8 gezeigte Bildsignalverarbeitung ein bestimmtes Krankheitssymptom ergibt, können die fusionierten Audiodaten das Vorhandensein von Krankheitssymptomen bestätigen, indem sie die durch die Bildverarbeitung erkannte Aktivität mit Audio, das durch die Audioquelle(n) realisiert wird, zum Beispiel durch das Geräusch eines Niesens, zusammenführen.
Dann führt das System AoA-Schätzung 906, Lokalisierung 908, Zeitreihenaggregation 910 und Visualisierung 912 wie oben beschrieben aus.
10 veranschaulicht eine Ausführungsform von System 1000 zum Erfassen von Audio- und Bilddaten, Verarbeiten der Daten, Fusionieren der Daten, und Aufbauen einer Visualisierung von den fusionierten Daten. Hier wird die Erkennung von jeder Modalität (zum Beispiel Mikrofon und Kamera) verglichen und auf Übereinstimmung überprüft. Zum Beispiel wird bei 402 ein akustisches Signal erfasst, bei 404 tritt eine Vorverarbeitung auf, bei 406 tritt eine Merkmalsextraktion auf, bei 408 tritt eine Klassifizierung auf, bei 410 tritt ein optionaler Schritt der AoA-Schätzung auf, und bei 412 tritt eine Lokalisierung auf. Gleichzeitig werden bei 602 Kamerabilder erhalten, bei 604 wird eine Vorverarbeitung dieser Bilder ausgeführt, bei 606 wird die Erkennung eines Menschen implementiert, bei 608 wird eine Merkmalsextraktion implementiert, bei 610 wird eine Aktivitätserkennung ausgeführt, und bei 612 wird eine Lokalisierung ausgeführt. In einem Fusionsschritt bei 1002 wird die Vertrauenseinstufung von jeder Modalität betrachtet, um eine falsche Erkennung herauszufiltern. Um zum Beispiel ein Ereignis als Ereignis zu kennzeichnen, bei dem ein Krankheitssymptom aufgetreten ist, müssen sowohl die Audio- als auch die Kameradaten ein Vertrauen über einem bestimmten Schwellenwert haben. In einer anderen Ausführungsform kann eine verschiebbare Skala implementiert werden, bei der ein unterer Schwellenwert einer Modalität (zum Beispiel Kamera) basierend auf einem zunehmenden Vertrauen der anderen Modalität (zum Beispiel Mikrofon) akzeptabel ist. Da eine Datenquelle vertrauenswürdiger ist, kann der Schwellenwert für eine positive Erkennung von Krankheitssymptomen für die andere Datenquelle gesenkt werden.
Nach der Fusion von Informationen oder Daten wird bei 1004 eine Zeitreihenaggregation der fusionierten Daten ausgeführt. Bei 1006 wird eine Visualisierung basierend auf der Zeitreihenaggregation von fusionierten Daten ausgegeben. Die Visualisierung kann eine Wärmekarte wie die hierin beschriebenen sein.
Das hierin offenbarte System kann auch mit Radar arbeiten, im Gegensatz zu (oder in Kombination mit) Audio- und Bilddaten. 11 veranschaulicht ein Flussdiagramm einer Ausführungsform von System 1100 zum Erkennen von Ereignissen, die Krankheitssymptome von Nutzern über Radar anzeigen, zum Lokalisieren der Ereignisse, und zum Anzeigen zugehöriger Informationen in einer Visualisierung. Radargeräte, wie zum Beispiel die hierin beschriebenen Radarquellen 126, ermöglichen die Fähigkeit, Vitalzeichenparameter, wie zum Beispiel Atemfrequenz, Wärmefrequenz, Herzfrequenzvariabilität und menschliche Emotionen zu erfühlen, die ansonsten durch Verwenden der hierin beschriebenen Audio- und Bildtechniken möglicherweise nicht erhalten werden können.
Zusätzlich können die Radarquellen 126 auch Husten, Niesen, plötzliche Stürze oder andere derartige Bewegungen erkennen, die ein Symptom einer möglichen Krankheit anzeigen würden. Husten und Niesen führt ein einzigartiges Muster von Brustbewegung, Oberkörperbewegung oder Ganzkörperbewegung ein, die durch die Radarquelle 126 erkannt und wie hierin beschrieben verarbeitet werden können. Vitalzeichen können auch dazu verwendet werden, gutartige Fälle, wie zum Beispiel saisonale Allergien, Asthma und dergleichen von tatsächlicher Krankheit zu unterscheiden. Mit anderen Worten, ein isoliertes erkanntes Niesen kann kein Kennzeichen einer potentiellen Krankheit rechtfertigen, wenn die Radarquellen 126 nicht auch eine abweichende Herzfrequenz, Atemfrequenz, Brustbewegungen oder dergleichen erkennen, die von etablierten Normen abweichen.
Das System erkennt zuerst den Standort der Zielperson. Die Standortinformationen können durch die Entfernungs- und Winkelschätzungen durch Verwenden der Radarquellen erhalten werden. Von der Zielperson reflektierte Radarsignale können solche Körperbewegungen berührungslos erfassen. Mit Hilfe von Signalverarbeitungstechniken und/oder Modellen für maschinelles Lernen können Husten, Niesen oder andere Krankheitssymptomereignisse erkannt werden. Das System bildet auch zwischen den Krankheitssymptomen mit einer Zielperson ab.
Das System 1100 erhält zuerst ein Radar-Basisbandsignal. Eine oder mehrere Radarquellen 126 werden eingesetzt und an dem gewünschten Standort zur Nutzererkennung, wie zum Beispiel einem Fahrzeug einer Flotte, installiert. Die Radarquelle 126 kann Infrarot-(IR)-Radar und frequenzmoduliertes Radar mit kontinuierlicher Welle (Frequency-Modulated-Continuous-Wave - FMCW-Radar) beinhalten. Die Standorte der Radarquellen 126 werden ebenfalls während des Einsatzes aufgezeichnet. Erfassungen von Radarrohsignalen werden ausgeführt, indem der Radarsensor mit einem Datenaufzeichnungsgerät verbunden wird, um Radardaten 106 zu erhalten und aufzuzeichnen. Die Radarrohsignale können I- und Q-Abtast-, Amplituden- und/oder Phaseninformationen beinhalten.
Mit einem erhaltenen Basisbandradarsignal und erhaltenen und aufgezeichneten Radardaten 106 kann bei 1104 eine Vorverarbeitung der Daten auftreten. In diesem Schritt führt das System ein oder mehrere Verfahren aus, einschließlich Entrauschen, Ausrichtung, Filtern, Handhaben fehlender Daten und Upsampling. Dadurch können die Daten für die Hauptverarbeitungsschritte der Erkennung von Menschen, Merkmalsextraktion und Vitalzeichenerkennung besser aufbereitet werden.
Bei 1106 setzt das System eine Erkennung von Menschen basierend auf den vorverarbeiteten Radardaten ein. Bei den bekannten Radarsensorstandorten wird der Standort eines oder mehrerer Nutzerziele im 2D- oder 3D-Raum extrahiert. Die Radardaten werden durch Empfangen reflektierter Funkwellen an dem Sensor erhalten. So kann der Schritt der Erkennung von Menschen zum Beispiel durch Schätzen der Entfernung und/oder des Winkels von dem Zielnutzer basierend auf den reflektierten Funkwellen ausgeführt werden. Die Erkennung von Menschen kann durch verschiedene Verfahren erfolgen, von denen eines in Ram M. Narayanan, Sonny Smith, Kyle A. Gallagher, „A Multifrequency Radar System for Detecting Humans and Characterising Human Activities for Short-Range Through-Wall and Long-Range Foliage Penetration Applications“, International Journal of Microwave Science and Technology, vol. 2014, Artikel-ID 958905, 2014 offenbart wird.
Bei 1108 können Merkmale von dem erkannten Menschen basierend auf den Radardaten extrahiert werden. Die Merkmale beinhalten Zeitbereichsmerkmale, Frequenzbereichsmerkmale und Raumbereichsmerkmale. Ein Merkmalsextraktionsverfahren für die Radarerkennung von Menschen basierend auf der Mellin-Transformation der Zeitsequenzen von Radarquerschnitts (Radar-Cross-Section - RCS) -Messungen kann ebenfalls verwendet werden; die mathematische Beziehung zwischen der Zielstreuungsverteilung in dem Kreuzungsbereich und der RCS-Amplitude wird abgeleitet und analysiert, und die RCS-Merkmale werden durch Verwenden eines sequentiellen Verfahrens extrahiert. Durch Verwenden eines Zeitbereichsmerkmals kann die Extraktion Atemfrequenzen, Herzfrequenzen und dergleichen identifizieren, die einen Blick auf Signalmuster über die Zeit erfordern. Auch können identifizierbare Bereiche des Menschen, wie zum Beispiel Augen, Nase, Mund, Hände, Brust und dergleichen, in denen Krankheitssymptome analysiert werden, extrahiert werden. Zum Beispiel erfordern Hände, die das Gesicht bedecken, und plötzliche Kopfbewegungen zur Krankheitserkennung zuerst eine Identifizierung der Hände und des Gesichts.
Mit extrahierten Merkmalen können bei 1110 Vitalzeichen (zum Beispiel Herzfrequenz, Atemfrequenz usw.) und plötzliche Bewegungen (zum Beispiel Husten, Niesen, Stürzen usw.) erkannt werden. Dies kann mit einem Klassifizierungsmodell (wie zum Beispiel den hierin in Bezug auf die Audio- und Bildklassifizierung beschriebenen) ausgeführt werden, das mit einem notierten Vertrauensniveau vorhersagen und schätzen kann, welche Aktivität, welches Vitalzeichen oder welche plötzliche Bewegung durch den Zielnutzer ausgeführt wird Dies kann Signalverarbeitungs- und/oder Modelle für maschinelles Lernen beinhalten, die Fast-Fourier-Transformation (FFT), unabhängige Komponentenanalyse (Independent-Components-Analysis - ICA), Hauptkomponentenanalyse (Principal-Components-Analysis - PCA), nichtnegative Matrixfaktorisierung (Nonnegative-Matrix-Factorization - NMF) und Wavelet-Transformationsklassifizierungsmodelle beinhalten können, jedoch nicht darauf beschränkt sind.
Während das Vorhandensein von Radar bereits eine Lokalisierung bereitstellt, kann ein Lokalisierungsschritt bei 1112 das Lokalisieren des Zielnutzers basierend auf jeglichen potenziellen Anomalien beinhalten. Wenn es zum Beispiel bei einer der Radarquellen 126 unerwünschtes Rauschen oder andere Fehler gibt, können eine oder mehrere andere Radarquellen dazu verwendet werden, den Standort des Zielnutzers mit Krankheitssymptomen zu bestimmen.
Bei 1114 und 1116 kann eine Zeitreihenaggregation bzw. eine Visualisierung ausgeführt werden. Diese Schritte können den hierin beschriebenen ähnlich sein, wie zum Beispiel den Schritten 414, 416, 614, 616, 910, 912, 1004 und 1006. Zum Beispiel kann einem Benutzer oder Nutzer eine Wärmekarte oder dergleichen wie oben beschrieben angezeigt werden, die schattierte Farben über ein Bild des Standorts legt, an dem sich die Nutzer befinden.
12 veranschaulicht ein Flussdiagramm einer Ausführungsform von anderem System 1200 zum Erkennen von Ereignissen, die Krankheitssymptome von Nutzern über Radar anzeigen, zum Lokalisieren der Ereignisse, und zum Anzeigen zugehöriger Informationen in einer Visualisierung. Das System 1200 ist eine vereinfachte Version des oben beschriebenen Systems 1100, einschließlich vieler derselben Schritte. In dieser Ausführungsform wird die Merkmalsextraktion entfernt und Aktivitätserkennung 1210 wird isoliert verwendet. Bei 1210 bezieht dieser Schritt eine Erkennung einer plötzlichen Bewegung ein, wie zum Beispiel Husten/Niesen oder Sturzerkennung. Das Klassifizierungsmodell sagt voraus, dass das aktuelle Ereignis ein Husten oder Niesen oder ein Sturz oder ein anderes ähnliches Krankheitssymptomereignis ist.
Die 13 und 14 zeigen zusätzliche Flussdiagramme von Ausführungsform von anderem System 1300 bzw. 1400 zum Erkennen von Ereignissen, die Krankheitssymptome von Nutzern über Radar anzeigen, zum Lokalisieren der Ereignisse, und zum Anzeigen zugehöriger Informationen in einer Visualisierung. In 13 ist die Aktivitätserkennung 1210 von der Vitalzeichenerkennung bei 1310 getrennt, und dann werden beide in dem Lokalisierungsschritt bei 1112 zusammengeführt. Dadurch können separate Radarsensoren bereitgestellt werden, von denen einer für die Aktivitätserkennung und ein anderer für die Vitalzeichenerkennung bestimmt ist. In 14, die eine vereinfachtere Ausführungsform ist, hat das System 1400 eine Option, den Merkmalsextraktionsschritt 1108 zu entfernen, und die Aktivitäts- und Vitalzeichenerkennung in dem einzelnen Schritt von 1110 zu kombinieren.
15 veranschaulicht ein Flussdiagramm einer Ausführungsform eines Systems zum Erkennen von Ereignissen, die Krankheitssymptome von Nutzern über Audio, Bild und Radar anzeigen, zum Fusionieren der Informationen von allen drei Typen von Sensoren, und zum Ausgeben einer Visualisierung basierend auf den fusionierten Daten. Eine oder mehrere Bildquellen 122 werden dazu verwendet, Bilder bei 602 zu erfassen, und dann werden einer oder mehrere der zugeordneten Prozessoren und Strukturen von 1 für die Vorverarbeitung 604, die Erkennung von Menschen 606 und die Merkmalsextraktion 608 verwendet. Eine oder mehrere Audioquellen 124 werden dazu verwendet, ein akustisches Signal bei 402 zu erfassen, und dann werden einer oder mehrere der zugeordneten Prozessoren und Strukturen von 1 für die Vorverarbeitung 404 und die Merkmalsextraktion 406 verwendet. Eine oder mehrere Radarquellen 126 werden dazu verwendet, ein Funkfrequenz-Basisbandsignal 1112 einzurichten, und dann werden einer oder mehrere der zugeordneten Prozessoren und Strukturen von 1 für die Vorverarbeitung 1104, die Erkennung von Menschen 1106 und die Merkmalsextraktion 1108 verwendet.
System 1500 beinhaltet Fusionsschritt 1502, in dem die Audio-, Bild- und Radardaten alle miteinander fusioniert werden, um eine umfangreiche Prüfung und Analyse einer möglichen Erkrankung eines Nutzers zu erzeugen. Die Radardaten können durch Verarbeiten der Audiodaten und Bilddaten auf Genauigkeit überprüft werden; die Bilddaten können durch Vergleichen mit den Radardaten und Audiodaten auf Genauigkeit überprüft werden; die Audiodaten können durch Vergleichen mit den Radar- und Bilddaten auf Genauigkeit überprüft werden. Dieser Schritt kann ähnlich zu dem oben beschriebenen Fusionsschritt 902 sein, außer dass die Radardaten hinzugefügt werden.
Das Ergebnis der Merkmalsfusion bei 1502 wird dann an 1110 weitergeleitet, wo eine Aktivität und/oder Vitalzeichen von den Radardaten erkannt werden, wie oben beschrieben. Dann wird ein Lokalisierungsschritt bei 1504 zusammen mit einer Zeitreihenaggregation bei 1506 und einer Visualisierung 1508 der fusionierten Daten ausgeführt. Durch Fusionieren von Radardaten mit Audio- und Bilddaten kann dem Benutzer eine umfangreichere und genauere Visualisierung bereitgestellt werden.
16 veranschaulicht System 1600 gemäß einer ähnlichen Ausführungsform, außer dass die Fusion von Informationen 1602 auftritt, nachdem die Lokalisierung bei 412, 612 und 1112 ausgeführt wurde. Diese Ausführungsform veranschaulicht, dass mehrere Architekturen und Layouts der verschiedenen Schritte der Signalverarbeitung und -fusion durch diese Offenbarung in Erwägung gezogen werden; die Fusion von Daten kann in vielen Zeitvarianten entlang der Verarbeitungspipeline auftreten.
Die hierin beschriebenen Techniken können mit zusätzlichen Systemen in der Umgebung untermauert werden. Wenn zum Beispiel die hierin beschriebenen Techniken in einem Personenfahrzeug verwendet werden, können die Prozessoren auf Daten von anderen Fahrzeugsystemen zugreifen. In einer Ausführungsform kann ein Sitz des Fahrzeugs mit einem Gewichtssensor bereitgestellt werden; wenn es eine plötzliche Gewichtsschwankung auf dem Sitz gleichzeitig mit einem erkannten Niesen oder Husten gibt, kann dies ferner dabei helfen, die Genauigkeit der hierin beschriebenen Systeme zu verbessern (zum Beispiel eine Gesundheitsprüfung bereitstellen).
Die hierin offenbarten Prozesse, Verfahren oder Algorithmen können an ein Verarbeitungsgerät, eine Steuerung oder einen Computer, die jegliche existierende programmierbare elektronische Steuereinheit oder fest zugeordnete elektronische Steuereinheit umfassen können, lieferbar sein/dadurch implementiert werden. In ähnlicher Weise können die Prozesse, Verfahren oder Algorithmen als Daten und Anweisungen gespeichert werden, die durch eine Steuerung oder einen Computer in vielen Formen ausführbar sind, einschließlich, aber nicht beschränkt auf Informationen, die permanent auf nicht beschreibbaren Speicherungsmedien, wie zum Beispiel ROM-Geräten, gespeichert sind, und Informationen, die veränderbar auf beschreibbaren Speicherungsmedien, wie zum Beispiel Disketten, Magnetbändern, CD, RAM-Geräten, und anderen magnetischen und optischen Medien gespeichert sind. Die Prozesse, Verfahren oder Algorithmen können auch in einem Software-ausführbaren Objekt implementiert werden. Alternativ können die Prozesse, Verfahren oder Algorithmen ganz oder teilweise durch Verwenden geeigneter Hardwarekomponenten, wie zum Beispiel Application-Specific-Integrated-Circuits (ASIC), Field-Programmable-Gate-Arrays (FPGA), Zustandsmaschinen, Steuerungen oder anderen Hardwarekomponenten oder -Geräten oder einer Kombination von Hardware-, Software- und Firmware-Komponenten, verkörpert werden.
Während beispielhafte Ausführungsformen oben beschrieben sind, ist es nicht beabsichtigt, dass diese Ausführungsformen alle durch die Ansprüche umfassten möglichen Formen beschreiben. Die in der Beschreibung verwendeten Wörter sind Wörter der Beschreibung anstelle von Wörtern der Beschränkung, und es versteht sich, dass verschiedene Änderungen gemacht werden können, ohne von dem Geist und Umfang der Offenbarung abzuweichen. Wie zuvor beschrieben, können die Merkmale verschiedener Ausführungsformen kombiniert werden, um weitere Ausführungsformen der Erfindung zu bilden, die nicht explizit beschrieben oder veranschaulicht werden können. Während verschiedene Ausführungsformen so beschrieben worden sein könnten, dass sie Vorteile bereitstellen, oder gegenüber anderen Ausführungsformen oder Implementierungen des Standes der Technik in Bezug auf eine oder mehrere gewünschte Eigenschaften bevorzugt werden, erkennen normale Fachleute, dass ein oder mehrere Merkmale oder Eigenschaften beeinträchtigt werden können, um die gewünschten Gesamtsystemattribute, die von der spezifischen Anwendung und Implementierung abhängen, zu erreichen. Diese Attribute können Kosten, Festigkeit, Haltbarkeit, Lebensdauerkosten, Marktfähigkeit, Aussehen, Verpackung, Größe, Gebrauchstauglichkeit, Gewicht, Herstellbarkeit, einfache Montage, usw. beinhalten, sind jedoch nicht darauf beschränkt. Als solches, soweit jegliche Ausführungsformen in Bezug auf eine oder mehrere Eigenschaften als weniger wünschenswert als andere Ausführungsformen oder Implementierungen des Standes der Technik beschrieben werden, liegen diese Ausführungsformen nicht außerhalb des Umfangs der Offenbarung, und können für bestimmte Anwendungen wünschenswert sein.

Claims

System zum Erkennen von Krankheitssymptomen von Nutzern, wobei das System Folgendes umfasst: Benutzerschnittstelle; eine Speicherung, die dazu ausgelegt ist, eine Visualisierungsanwendung und Bilddaten von einer Bildquelle aufrechtzuerhalten; und einen Prozessor in Kommunikation mit der Speicherung und der Benutzerschnittstelle, und dazu programmiert: die Bilddaten von der Bildquelle zu empfangen, wobei die Bilddaten ein Hintergrundbild beinhalten, das einem Bereich zugeordnet ist, den Nutzer besetzen, ein Modell zur Erkennung von Menschen auszuführen, das dazu ausgelegt ist, die Nutzer innerhalb der Bilddaten zu erkennen, ein Aktivitätserkennungsmodell auszuführen, das dazu ausgelegt ist, bildbasierte Krankheitssymptome bei den erkannten Nutzern innerhalb der Bilddaten basierend auf Bewegungen der erkannten Nutzer zu erkennen, einen Standort der erkannten Krankheitssymptome unter Verwendung der Bilddaten von der Bildquelle zu bestimmen, und die Visualisierungsanwendung auszuführen, um in der Benutzerschnittstelle ein überlagertes Bild anzuzeigen, das das Hintergrundbild überlagert, wobei das überlagerte Bild für jeden Standort von erkannten Krankheitssymptomen einen Indikator beinhaltet, der Informationen anzeigt, dass die erkannten Krankheitssymptome an diesem Standort aufgetreten sind.
System nach Anspruch 1, wobei das überlagerte Bild eine farbcodierte Wärmekarte beinhaltet, die in ihrer Intensität entsprechend einer Anzahl erkannter Krankheitssymptome an diesem Standort variiert.
System nach Anspruch 1, wobei der Prozessor ferner dazu programmiert ist, ein Faltungsnetzwerk zu verwenden, um relevante Merkmale von den Bilddaten zu extrahieren, und die extrahierten relevanten Merkmale an das Aktivitätserkennungsmodell zum Erkennen der Krankheitssymptome zu senden.
System nach Anspruch 1, wobei der Prozessor ferner dazu programmiert ist, die erkannten Krankheitssymptome über die Zeit zu aggregieren, um eine Zeitreihenaggregation zu bestimmen, wobei sich der Indikator an jedem Standort basierend auf der Zeitreihenaggregation an diesem Standort ändert.
System nach Anspruch 1, wobei der Prozessor ferner dazu programmiert ist: Audiodaten von einer Audioquelle zu empfangen, ein oder mehrere Modelle auszuführen, um hörbare Krankheitssymptome basierend auf den Audiodaten zu bestimmen, die hörbaren Krankheitssymptome mit den bildbasierten Krankheitssymptomen zu fusionieren, und die Visualisierungsanwendung basierend auf den fusionierten hörbaren Krankheitssymptomen und den bildbasierten Krankheitssymptomen auszuführen.
System nach Anspruch 5, wobei die Fusion der hörbaren Krankheitssymptome mit den bildbasierten Krankheitssymptomen vor der Ausführung des Aktivitätserkennungsmodells auftritt, sodass das Aktivitätserkennungsmodell dazu ausgelegt ist, sowohl hörbare Krankheitssymptome als auch bildbasierte Krankheitssymptome dazu zu verwenden, Krankheitssymptome bei den erkannten Nutzern zu erkennen.
System nach Anspruch 5, wobei die Fusion der hörbaren Krankheitssymptome mit den bildbasierten Krankheitssymptomen nach der Ausführung des Aktivitätserkennungsmodells und vor der Ausführung der Visualisierungsanwendung auftritt.
System nach Anspruch 1, wobei der Prozessor ferner dazu programmiert ist: Radardaten von einer Radarquelle zu empfangen, ein Modell zur Erkennung von Menschen auszuführen, das dazu ausgelegt ist, die Nutzer basierend auf den Radardaten zu erkennen, ein Aktivitätserkennungsmodell oder Vitalzeichenerkennungsmodell auszuführen, das dazu ausgelegt ist, radarbasierte Krankheitssymptome bei den erkannten Nutzern basierend auf den Radardaten zu erkennen, die erkannten radarbasierten Krankheitssymptome mit den bildbasierten Krankheitssymptomen zu fusionieren, und die Visualisierungsanwendung basierend auf den fusionierten radarbasierten Krankheitssymptomen und bildbasierten Krankheitssymptomen auszuführen.
System nach Anspruch 8, wobei der Prozessor ferner dazu programmiert ist: Audiodaten von einer Audioquelle zu empfangen, ein oder mehrere Modelle auszuführen, um hörbare Krankheitssymptome basierend auf den Audiodaten zu bestimmen, die hörbaren Krankheitssymptome mit den bildbasierten Krankheitssymptomen und den radarbasierten Krankheitssymptomen zu fusionieren, und die Visualisierungsanwendung basierend auf den fusionierten hörbaren Krankheitssymptomen, bildbasierten Krankheitssymptomen und radarbasierten Krankheitssymptomen auszuführen.
System zum Erkennen von Krankheitssymptomen von Nutzern, wobei das System Folgendes umfasst: Benutzerschnittstelle; eine Speicherung, die dazu ausgelegt ist, eine Visualisierungsanwendung und Audiodaten von einer Audioquelle aufrechtzuerhalten; und einen Prozessor in Kommunikation mit der Speicherung und der Benutzerschnittstelle, und dazu programmiert: ein Hintergrundbild von einer Kamera eines von den Nutzern besetzten Bereichs zu empfangen, die Audiodaten von der Audioquelle zu empfangen, ein Klassifizierungsmodell auszuführen, das dazu ausgelegt ist, Abschnitte der Audiodaten als Krankheitssymptome anzeigend zu klassifizieren, einen Standort der Krankheitssymptome basierend auf den klassifizierten Abschnitten der Audiodaten zu bestimmen, und die Visualisierungsanwendung auszuführen, um in der Benutzerschnittstelle ein überlagertes Bild anzuzeigen, das das Hintergrundbild überlagert, wobei das überlagerte Bild für jeden bestimmten Standort von Krankheitssymptomen einen Indikator beinhaltet, der Informationen anzeigt, dass die Krankheitssymptome an diesem Standort aufgetreten sind.
System nach Anspruch 10, wobei das überlagerte Bild eine farbcodierte Wärmekarte beinhaltet, die in ihrer Intensität entsprechend einer Anzahl erkannter Krankheitssymptome an diesem Standort variiert.
System nach Anspruch 10, wobei das System mehrere Audioquellen beinhaltet, und der Prozessor dazu ausgelegt ist, den Standort der Krankheitssymptome basierend auf einer Triangulation von Audiodatenausgabe von den mehreren Audioquellen zu bestimmen.
System nach Anspruch 10, wobei der Prozessor ferner dazu programmiert ist, die erkannten Krankheitssymptome über die Zeit zu aggregieren, um eine Zeitreihenaggregation zu bestimmen, wobei sich der Indikator an jedem Standort basierend auf der Zeitreihenaggregation an diesem Standort ändert.
System nach Anspruch 10, wobei der Prozessor ferner dazu programmiert ist: Bilddaten von der Kamera zu empfangen, ein oder mehrere Modelle auszuführen, um bildbasierte Krankheitssymptome basierend auf den Bilddaten zu bestimmen, die hörbaren Krankheitssymptome mit den bildbasierten Krankheitssymptomen zu fusionieren, und die Visualisierungsanwendung basierend auf den fusionierten hörbaren Krankheitssymptomen und bildbasierten Krankheitssymptomen auszuführen.
System nach Anspruch 14, wobei der Prozessor ferner dazu programmiert ist: Radardaten von einer Radarquelle zu empfangen, ein Modell zur Erkennung von Menschen auszuführen, das dazu ausgelegt ist, die Nutzer basierend auf den Radardaten zu erkennen, ein Aktivitätserkennungsmodell oder Vitalzeichenerkennungsmodell auszuführen, das dazu ausgelegt ist, radarbasierte Krankheitssymptome bei den erkannten Nutzern basierend auf den Radardaten zu erkennen, die erkannten radarbasierten Krankheitssymptome mit den hörbaren Krankheitssymptomen zu fusionieren, und die Visualisierungsanwendung basierend auf den fusionierten radarbasierten Krankheitssymptomen, hörbaren Krankheitssymptomen und bildbasierten Krankheitssymptomen auszuführen.
System nach Anspruch 10, wobei der Prozessor ferner dazu programmiert ist: Radardaten von einer Radarquelle zu empfangen, ein Modell zur Erkennung von Menschen auszuführen, das dazu ausgelegt ist, die Nutzer basierend auf den Radardaten zu erkennen, ein Aktivitätserkennungsmodell oder Vitalzeichenerkennungsmodell auszuführen, das dazu ausgelegt ist, radarbasierte Krankheitssymptome bei den erkannten Nutzern basierend auf den Radardaten zu erkennen, die erkannten radarbasierten Krankheitssymptome mit den hörbaren Krankheitssymptomen zu fusionieren, und die Visualisierungsanwendung basierend auf den fusionierten radarbasierten Krankheitssymptomen und hörbaren Krankheitssymptomen auszuführen.
System zum Erkennen von Krankheitssymptomen von Nutzern, wobei das System Folgendes umfasst: Benutzerschnittstelle; eine Speicherung, die dazu ausgelegt ist, eine Visualisierungsanwendung und Radardaten von einer Radarquelle aufrechtzuerhalten; und einen Prozessor in Kommunikation mit der Speicherung und der Benutzerschnittstelle, und dazu programmiert: ein Hintergrundbild von einer Kamera eines von den Nutzern besetzten Bereichs zu empfangen, die Radardaten von der Radarquelle zu empfangen, ein Modell zur Erkennung von Menschen auszuführen, das dazu ausgelegt ist, die Nutzer basierend auf den Radardaten zu erkennen, ein Aktivitätserkennungsmodell oder Vitalzeichenerkennungsmodell auszuführen, das dazu ausgelegt ist, radarbasierte Krankheitssymptome bei den erkannten Nutzern basierend auf den Radardaten zu erkennen, einen Standort der radarbasiert erkannten Krankheitssymptome unter Verwendung der Radardaten von der Radarquelle zu bestimmen, und die Visualisierungsanwendung auszuführen, um in der Benutzerschnittstelle ein überlagertes Bild anzuzeigen, das das Hintergrundbild überlagert, wobei das überlagerte Bild für jeden bestimmten Standort von Symptomen einen Indikator beinhaltet, dass die radarbasiert erkannten Krankheitssymptome an diesem Standort aufgetreten sind.
System nach Anspruch 17, wobei das überlagerte Bild eine farbcodierte Wärmekarte beinhaltet, die in ihrer Intensität entsprechend einer Anzahl erkannter Krankheitssymptome an diesem Standort variiert.
System nach Anspruch 17, wobei der Prozessor ferner dazu programmiert ist: Bilddaten von der Kamera zu empfangen, ein oder mehrere Modelle auszuführen, um bildbasierte Krankheitssymptome basierend auf den Bilddaten zu bestimmen, die bildbasierten Krankheitssymptome mit den radarbasierten Krankheitssymptomen zu fusionieren, und die Visualisierungsanwendung basierend auf den fusionierten bildbasierten Krankheitssymptomen und radarbasierten Krankheitssymptomen auszuführen.
System nach Anspruch 17, wobei der Prozessor ferner dazu programmiert ist: Audiodaten von einer Audioquelle zu empfangen, ein oder mehrere Modelle auszuführen, um hörbare Krankheitssymptome basierend auf den Audiodaten zu bestimmen, die hörbaren Krankheitssymptome mit den radarbasierten Krankheitssymptomen zu fusionieren, und die Visualisierungsanwendung basierend auf den fusionierten hörbaren Krankheitssymptomen und radarbasierten Krankheitssymptomen auszuführen.