-
Die vorliegende Erfindung ist auf Systeme und Verfahren zum Schätzen einer Atemrate durch Analysieren von Verzerrungen in Reflexionen von Mustern strukturierter Beleuchtung, die in einem Video aufgenommen wurden, das zumindest eine Teilansicht einer Thoraxregion eines Patienten beinhaltet, dessen Atemfunktion überwacht wird.
-
sDas Überwachen von respiratorischen Ereignissen ist bei der Früherkennung von potenziell tödlichen Leiden von klinischer Wichtigkeit. Derzeitige Technologien umfassen Kontaktsensoren, die der Einzelne konstant tragen muss. Eine solche Anforderung kann zu Unbehagen, Abhängigkeit und Verlust der Würde auf Seiten des Patienten führen und kann darüber hinaus aus diversen Gründen versagen, darunter Weigerung, die Überwachungseinheit zu tragen. Bei älteren Patienten und neugeborenen Kleinkindern ist die Wahrscheinlichkeit von unerwünschten Wirkungen einer kontinuierlichen Überwachung sogar höher. Unauffällige, kontaktlose, bildgebungsbasierte Verfahren sind für die Überwachung der Atemfunktion zunehmend wünschenswert.
-
Bisherige Verfahren nehmen Videobilder einer Region von Interesse eines Individuums auf und verarbeiten das Video, um physiologische Messungen in Bezug auf die Herz- und Atemfunktion zu erhalten. Diese Systeme verfolgen ein photoplethysmographisches Signal, das von einer Region freigelegter Haut reflektiert wird. Die reflektierten Signale werden verarbeitet, um Komponenten, die sich auf ein pulsierendes Blutvolumen beziehen, zu identifizieren und isolieren. Wenn eine Region freigelegter Haut fehlt, kann die Videokamera diese Signale nicht registrieren. Auch wenn Aufzeichnungen von 2D-Videos einer Nicht-Haut-Region bewegungsbezogene Informationen enthalten, waren bisherige Versuche, respiratorische Signale ausschließlich auf Basis von Bewegung zu isolieren, bislang nicht erfolgreich. Die vorliegende Erfindung ist darauf ausgerichtet, diese Nachteile auszuräumen.
-
Es werden ein System und ein Verfahren zum Schätzen einer Atemrate für ein Individuum von Interesse offenbart, die in einem Video aufgenommen wurde, das eine Ansicht der Thoraxregion dieses Individuums enthält. Bei einer Ausführungsform wird ein Video einer Zielregion eines Körpers eines Individuums von Interesse empfangen. Wie hier noch ausführlicher offenbart, wird die Bewegung der Thoraxregion des Individuums in einem Video aufgezeichnet. Videobild-Frames werden verarbeitet, um ein kontinuierliches Zeitreihensignal zu erhalten. Dieses Signal wird danach verarbeitet, um Frequenzinformationen zu erhalten, aus denen die Atemrate des Individuums isoliert werden kann. Vorteilhafterweise können Messungen unter diversen Beleuchtungsbedingungssätzen erfasst werden, ohne den Patienten zu stören. Die vorliegenden Lehren stellen einen kontaktlosen Ansatz für das Überwachen der Atemfunktion bereit, der auf Intensivstationen und Zuhause besonders nützlich ist, um das Erkennen einer plötzlichen Verschlechterung der physiologischen Zustände bedingt durch Änderungen der Atemrate zu erleichtern. Das hier offenbarte System und die hier offenbarten Verfahren bieten ein wirksames Werkzeug für die kontaktlose Analyse der Atemfunktion.
-
1 zeigt sowohl eine anteriore (vordere) Ansicht als auch eine posteriore (hintere) Ansicht eines erwachsenen Menschen.
-
2 zeigt das Ergebnis eines Spirometers einer normalen Person, die sieben Ruheatemzüge nimmt, gefolgt von maximaler Einatmung und Ausatmung.
-
3 zeigt ein beispielhaftes Motiv, das mit einer strukturierten Lichtquelle und einer Videokamera beleuchtet ist, die ein Video des Brustbereichs eines Individuums zur Schätzung der Atemrate gemäß den vorliegenden Lehren aktiv erfasst.
-
4 zeigt die geometrischen Verhältnisse zwischen einem Bildsensor, einem Projektor strukturierten Lichts und einem Objektoberflächenpunkt, ausgedrückt als Triangulation.
-
5 zeigt die Phasenverschiebung mit drei Projektionsmustern und ein beispielhaftes Streifenbild.
-
6 zeigt eine beispielhafte Ausführungsform eines Phase-Unwrapping-Prozesses.
-
7 zeigt ein System, das einen Bildsensor nutzt, um reflektiertes Licht zu erfassen, das von einem Projektor strukturierter Quelle abgegeben wird, gemäß einer vorliegenden Ausführungsform.
-
8 zeigt ein beispielhaftes normalisiertes mittelwertfreies volumetrisches Zeitreihensignal für einen 60-sekündigen Zeitraum, das aus Messungen an einem männlichen Individuum erhalten wurde, und das trendbereinigte Zeitreihensignal.
-
9A zeigt die Leistungsspektrumsdichte-Kurven für die Atmungssignale vor der Trendbereinigung.
-
9B zeigt die Leistungsspektrumsdichte-Kurven für die Atmungssignale nach der Trendbereinigung (λ = 80).
-
10 ist ein Ablaufplan, der eine beispielhafte Ausführungsform des vorliegenden Verfahrens zur Ermittlung der Atemrate für ein Individuum von Interesse zeigt, dessen Atemfunktion überwacht wird.
-
11 zeigt ein Blockschaubild eines beispielhaften Videoverarbeitungssystems zum Umsetzen diverser Aspekte des vorliegenden Verfahrens, wie unter Bezug auf den Ablaufplan von 10 beschrieben.
-
Ein "Individuum von Interesse" bezieht sich auf ein Individuum, dessen Atemfunktion überwacht wird, so dass eine Atemrate für dieses Individuum gemäß den vorliegenden Lehren ermittelt werden kann. 1 zeigt eine anteriore (vordere) Ansicht 101 eines erwachsenen Menschen sowie eine posteriore (hintere) Ansicht 102. Eine Zielregion 103 umreißt die anteriore Thoraxregion des Individuums. Eine Zielregion 104 umreißt die posteriore Thoraxregion des Individuums. Wie hier verwendet, bezieht sich eine Zielregion auch auf eine beliebige Ansicht einer Region des Körpers des Individuums, die eine Atemfunktion ausführt. Es sei verstanden, dass die Verwendung der Ausdrücke "Mensch", "Person" oder "Patient" hier nicht als den Umfang der beiliegenden Ansprüche ausschließlich auf menschliche Individuen von Interesse begrenzend angesehen werden soll. Die vorliegenden Lehren gelten gleichermaßen für andere Individuen von Interesse, die auch eine Atemfunktion aufweisen. Solche weiteren Individuen umfassen beispielsweise Säugetiere, Vögel, Fische und Reptilien.
-
Eine "Atemfunktion" ist ein mehrstufiger Prozess, der das Inhalieren von Luft in die Lunge (Einatmen), Gasaustausch und das Ausstoßen von Luft aus der Lunge (Ausatmen), gefolgt von einer post-exspiratorischen Pause, umfasst. Das Einatmen bewirkt, dass die in der Brusthöhle enthaltene Lunge sich mit Luft füllt, wodurch das Brustvolumen erweitert wird. Das Einatmen wird durch einen Zwerchfellmuskel eingeleitet und von Interkostalmuskeln unterstützt. Unter normalen Bedingungen ist das Zwerchfell der primäre Einatmungsantrieb. Wenn sich das Zwerchfell zusammenzieht, erweitert sich der Brustkorb und die Inhalte des Bauchs werden nach unten bewegt. Dies führt zu einem größeren thorakalen Volumen und Unterdruck (in Bezug auf Atmosphärendruck) innerhalb des Thorax. Gasaustausch ist eine primäre Funktion des Atmungssystems. Gasmoleküle werden zwischen der externen Umgebung und einem Blutkreislaufsystem im Lungenkreislauf ausgetauscht. Dieser Austausch erleichtert die Oxygenierung der Bluts und wiederum von Geweben und das Entfernen von Kohlendioxid und anderen metabolischen Abfällen aus dem Körper. Der Gasaustausch hilft auch dabei, das Säure-Base-Gleichgewicht des Körpers zu halten. Der zelluläre Mechanismus des Gasaustausches wird durch das einfache Phänomen des Druckunterschieds bewirkt. Ist der Atmosphärendruck außen gering, strömt Luft von der Lunge in die Umgebung. Ist der Luftdruck in der Lunge gering, ist das Gegenteil der Fall. Die Ausatmung ist im Allgemeinen ein passiver Prozess, der auf die natürliche Elastizität des Lungengewebes zurückzuführen ist, die bewirkt, dass sich die Lunge von der Einatmungsdehnung zurückzieht, wodurch Luft nach außen forciert wird, bis die Drücke in der Brust und die Drücke der Außenatmosphäre ein Gleichgewicht erreichen. Während der forcierten Ausatmung erzeugen exspiratorische Muskeln wie Bauch- und interne Interkostalmuskeln, wie beim Ausblasen einer Kerze, einen Druck im Bauch- und Thoraxbereich, der dabei hilft, Luft aus der Lunge hinaus zu forcieren. Während der forcierten Einatmung, beispielsweise beim tiefen Luftholen, unterstützen äußere Interkostalmuskeln und Hilfsmuskeln das Ausdehnen der Brusthöhle und das Bringen von mehr Luft in die Lunge. Während der starken Einatmung (bei Raten von mehr als 35 Atemzügen pro Minute) oder bei einem sich nähernden Atemversagen werden Hilfsmuskeln wie Musculus sternocleidomastoideus, Platysma, Musculus scalenus des Halses sowie Brustmuskeln und Musculus latissimus dorsi der Atmung als Unterstützung beansprucht. Eine "post-exspiratorische Pause" tritt auf, wenn ein Druckausgleich zwischen der Lungen und der Atmosphäre erfolgt. Die Dauer der postexspiratorischen Pause verringert sich mit gesteigerter körperlicher Aktivität und kann bei hohen Belastungsraten sogar auf null fallen. Befindet sich das Individuum in einer Ruhephase, ist die Dauer der post-exspiratorischen Pause relativ lang. Der Atmungszyklus eines Individuums ist das Zeitintervall zwischen dem Beginn der Inhalation und dem Ende der post-exspiratorischen Pause. Der nächste Zyklus beginnt unmittelbar nach der post-exspiratorischen Pause.
-
"Atemrate" bezieht sich auf die Anzahl von Atemzügen (Einatmen und Ausatmen), die ein Individuum innerhalb eines gewissen Zeitraums (für gewöhnlich in Atemzügen/Minute) macht. Die Atemrate wird häufig gemessen, wenn sich ein Individuum in der Ruhephase befindet, und umfasst lediglich das Ermitteln der Anzahl von Ruheatemzügen, die das Individuum pro Minute macht. Ein erwachsener Mensch macht im Ruhezustand zwischen 12 und 20 Ruheatemzüge pro Minute, je nach Gesamtzustand der Herz-Kreislauf- und Atmungssysteme dieser Person. Da die Lungengesamtkapazität eines durchschnittlichen erwachsenen Menschen ungefähr 6,0 Liter Luft beträgt, verschiebt die Lunge nach dem Einatmen und Ausatmen ein relativ kleines Volumen während der Ruheatmung. Restriktive Lungenerkrankungen wie pulmonale Fibrose, Pneumothorax, Atemnotsyndrom des Neugeborenen und dergleichen verringern das Lungenvolumen, wogegen obstruktive Lungenerkrankungen wie Asthma, Bronchitis und Emphysem die Luftströmung blockieren. 2 zeigt das Ergebnis eines Spirometers einer normalen Person, die sieben Ruheatemzüge nimmt, gefolgt von maximaler Einatmung und Ausatmung.
-
Eine "Remote-Erfassungsumgebung" bezieht sich auf ein kontaktloses, unauffälliges, nicht-invasives Mittel zum Erfassen von Daten von einem Individuum, d. h. die Erfassungseinheit berührt das Individuum, dessen Werte erfasst werden, physisch nicht. Die Erfassungseinheit kann eine beliebige Distanz vom Individuum weg sein, z. B. so nahe wie ein Zoll oder so weit weg wie Kilometer im Fall von Telemedizin. Die vorliegenden Lehren finden ihren Verwendungszweck in einer solchen Remote-Erfassungsumgebung, so dass der ruhende Herzpatient ungestört bleibt.
-
Ein "Video" ist, wie allgemein verstanden, eine zeitlich variierende Sequenz von Bild-Frames eines Motivs, das über die Zeit mithilfe einer Videokamera aufgenommen wurden. Ein voll bestücktes 2D-Bild, das beispielsweise unter Verwendung einer 3-Kanal-Farbvideokamera aufgenommen wird, ist ein 2D-Pixel-Array, wobei jedes Pixel im Array Farbwerte aufweist, die für Pixel aus jedem dieser Kanäle gesammelt werden. Ein voll bestücktes 2D-Bild, das beispielsweise unter Verwendung einer 1-Kanal-Videokamera aufgenommen wird, ist ein 2D-Pixel-Array, wobei jedes Pixel im Array einen Intensitätswert aufweist, der für diese Pixelposition in einem gewünschten Wellenlängenband von Interesse gemessen wurde. Das Video kann darüber hinaus andere Komponenten wie Audio, Zeitreferenzsignale und dergleichen beinhalten. Die Größe der Videodaten kann für längere Videosequenzen groß werden. Das Video kann auch verarbeitet oder vorverarbeitet werden, um durch die Krümmung einer Oberfläche der Haut bedingte nicht-einheitliche Beleuchtung, durch Körper- oder Oberflächenbewegung bedingte bewegungsinduzierte Unschärfe, Bewegungsunschärfe und langsame Leuchtmittelvariation zu kompensieren. Eine Bewegung im Video kann beispielsweise unter Verwendung von videobasierten 2D-Bild- oder 3D-Oberflächenstabilisierungsverfahren kompensiert werden. "Empfangen eines Videos" soll breit ausgelegt werden und bedeutet Abrufen, Empfangen, Aufnehmen mit einer Videokamera oder anderweitiges Erhalten eines Videos zum Verarbeiten der Atemzugvolumenschätzung gemäß dem vorliegenden Verfahren. Das Video kann aus einem Speicher oder internen Speicher des Videokamerasystems empfangen oder von einer Remote-Einheit über ein Netzwerk erhalten werden. Das Video kann auch über ein Medium abgerufen werden, z. B. CD-ROM oder DVD. Das Video kann durch Herunterladen von einer Website empfangen werden, die solche Videos für eine Vorverarbeitung oder Nachverarbeitung bereitstellt. Das Video kann auch unter Verwendung einer Anwendung abgerufen werden, wie jenen, die für mobile Telefoneinheiten verfügbar sind, und kann auf dem Mobiltelefon des Benutzers oder einer anderen mobilen Recheneinheit wie iPad verarbeitet werden.
-
Eine "Videokamera" bezieht sich auf eine Einheit zum Aufnehmen eines Videos. Die Videokamera kann eine Videokamera sein, die in einem sichtbaren Wellenlängenbereich empfindlich ist, oder eine IR-Videokamera, die in einem Infrarot-Wellenlängenbereich empfindlich ist, z. B. Nahinfrarot (NIR), kurzwelliges Infrarot (SWIR), mittelwelliges Infrarot (MWIR) und langwelliges Infrarot (LWIR). Die Videokamera kann eine Hybrideinheit umfassen, die Videos sowohl im sichtbaren als auch Infrarot-Wellenlängenbereich aufnimmt.
-
Eine "Quelle strukturierter Beleuchtung" ist eine Lichtquelle, die Quelllicht durch ein strukturiertes Gitter oder Fenster mit bekannten räumlichen Charakteristika projiziert. Das Muster kann ein Pseudozufallsmuster mit bekannten räumlichen Charakteristika sein. Genaue 3D-Oberflächenprofile von Objekten in einem Motiv können unter Verwendung von Prinzipien strukturierten Lichts und triangulationsbasierten Bildrekonstruktionsverfahren berechnet werden.
-
Es wird nun auf 3 Bezug genommen, die einen einzelnen D-Bild-Frame 300 zeigt, der von einer Zielregion 303 der Thoraxregion des Individuums von Interesse von 1 aufgenommen wird. Eine Videokamera 310 nimmt von der Zielregion reflektierte Energie auf, die von einer Quelle strukturierter Beleuchtung 311 ausgegeben wird. Die Videokamera 310 ist mit einem Datenübertragungselement 313 gezeigt, um eine bidirektionale Datenübertragung mit einer Remote-Einheit, z. B. einer Computer-Workstation, zu bewirken, wobei das Video für eine Verarbeitung empfangen wird. Steuereinheiten 314 und 315 sind gezeigt, um eine Manipulation von der Quelle strukturierter Beleuchtung 311 bzw. 312 zu bewirken, so dass Artefakte verringert werden. Eine Manipulation ist nur erforderlich, um ein Video zum Extrahieren der Atemrate aufzunehmen, im Gegensatz zu anderen Parametern. Bei der vorliegenden Anmeldung kann eine Hybridvideoaufnahme verwendet werden, um ein erstes 2D-Bild mit strukturierter Beleuchtung zum Schätzen der Atemrate aufzunehmen, gefolgt von einem zweiten 2D-Bild mit nicht-strukturierter Beleuchtung zum Schätzen der Herzrate. Es sei verstanden, dass ein solches System in Betracht gezogen werden kann, wenn in Verbindung mit Systemen gearbeitet wird, die eine Quelle nicht-strukturierter Beleuchtung zum Extrahieren von anderen wichtigen physiologischen Parametern erfordern. Ein Videoaufnahmesystem kann darüber hinaus ein Videoanalysemodul umfassen. Bei einer Ausführungsform umfasst ein Videoanalysemodul eine Hardwareeinheit, z. B. eine ASIC, mit zumindest einem Prozessor, der in der Lage ist, maschinenlesbare Programmanweisungen zum Analysieren von Videobildern auf Frame-für-Frame-Basis für eine Schätzung der Atemrate gemäß den vorliegenden Lehren auszuführen. Ein solches Modul kann auch zur Gänze oder teilweise eine Softwareanwendung umfassen, die alleine oder in Verbindung mit einer oder mehreren Hardwareressourcen arbeitet. Softwareanwendungen können durch Prozessoren auf unterschiedlichen Hardwareplattformen ausgeführt oder in einer virtuellen Umgebung nachgebildet werden. Aspekte des Videoanalysemoduls können serienmäßig produzierte Software nutzen.
-
Eine "Tiefenkarte" ist eine Karte, die Tiefenwerte auf Basis einer Analyse der Verzerrungshöhe eines Musters strukturierten Lichts enthält, das von Oberflächen in dieser Region des Bildes reflektiert wird. Nachdem die Tiefenkarte erzeugt wurde, kann ein Volumen berechnet werden. In
4 projizierte eine Quelle
403 strukturierter Beleuchtung sinusförmige Rasterungen
404 auf ein Objekt
405 und die Reflexion der auftreffenden sinusförmigen Rasterungen wird vom Kamerasystem
402 aufgenommen, wenn sie vom Objekt reflektiert werden. Die sinusförmigen Rasterungen haben bekannte räumliche Charakteristika von unverzerrten projizierten Mustern. Das Kamerasystem
402 ist mit einem Datenübertragungselement
406 für eine bidirektionale Datenübertragung mit einer Remote-Einheit, z. B. einer Workstation (nicht dargestellt), gezeigt, wobei das aufgenommene Video zur Verarbeitung übertragen wird. Wenn das Motiv eine planare Oberfläche ohne jedwede 3D-Oberflächenvariation und ungefähr parallel zum Kamerasensor ausgerichtet ist, wird das im erfassten Bild gezeigte Muster ähnlich jenem des projizierten Musters strukturierten Lichts sein. Wenn die Oberfläche allerdings nicht planar ist, nicht parallel zum Kamerasensor ausgerichtet ist oder ein 3D-Objekt enthält, verzerrt die Form des Objekts das projizierte Muster strukturierten Lichts. Solche Lichtverzerrungen können von der Kamera
402 erkannt werden. Die geometrische Beziehung zwischen der Kamera
402, einer Quelle
403 strukturierter Beleuchtung und Punkt P auf der Oberfläche des 3D-Objekts
405 kann in Bezug auf eine Triangulation wie folgt ausgedrückt werden:
-
Eine genaue 3D-Bildrekonstruktion kann auf einem Phasenverschiebungs- oder Phasenmodulationverfahren basieren, das Phasen an unterschiedlichen Positionen auf der Oberfläche des Objekts misst und Tiefeninformationen aus diesen Phasen berechnet.
5 zeigt die Phasenverschiebung mit drei Projektionsmustern, gesammelt bei
501, die auf die Objektoberfläche projiziert werden, und ein beispielhaftes Streifenbild
502. Die Bildrekonstruktion mittels Phasenverschiebung ist ein hinlänglich bekanntes Verfahren, wobei Intensitäten für jedes Pixel (x, y) der drei projizierten Streifenmuster durch die folgenden Beziehungen beschrieben werden:
wobei I
1(x, y), I
2(x, y) und I
3(x, y) die Intensitäten der drei Streifenmuster sind, I
0(x, y) die DC-Komponente (Hintergrund) ist, I
mod(x, y) die Modulationssignalamplitude ist, ϕ(x, y) die Phase ist und θ der konstante Phasenverschiebungswinkel ist. "Phase-Unwrapping" ist das Verfahren, das die eingewickelte (wrapped) Phase in eine absolute Phase umwandelt. Die Phaseninformationen ϕ(x, y) können aus den Intensitäten in den drei Streifenmustern abgerufen (d. h. ausgewickelt (unwrapped)) werden.
-
Die Diskontinuität der Arcustangensfunktion bei 2π kann durch Hinzufügen oder Subtrahieren von Vielfachen von 2π in Bezug auf den ϕ'(x, y)-Wert entfernt werden (von 6): ϕ(x, y) = ϕ'(x, y)+ 2kn (6) wobei k eine ganze Zahl ist, die eine Projektionsperiode darstellt. Man bemerke, dass Unwrapping-Verfahren nur ein relatives Unwrapping bereitstellen und nicht die absolute Phase ergeben. Die 3D-(x, y, z)-Koordinaten können auf Basis der Differenz zwischen der gemessenen Phase ϕ(x, y) und dem Phasenwert aus einer Referenzebene berechnet werden.
-
Es wird nun auf das System von
7 Bezug genommen, das eine Videokamera
702 verwendet, um reflektiertes Licht, das (bei
704) abgegeben, von einem Projektor
705 Quelle strukturierter Beleuchtung projiziert und von einem Punkt P des Objekts
706 reflektiert wird, d. h. einer Position in der Thoraxregion des Individuums. Tiefenwerte werden durch eine Geometrie berechnet, gegeben durch:
-
Streifenindexierung kann ebenfalls verwendet werden, um eine 3D-Oberflächenrekonstruktion zu erzielen, da die Reihenfolge, in der die Streifen beobachtet werden, nicht notwendigerweise der Reihenfolge entspricht, in der die Streifen projiziert werden, wobei dies auf eine inhärente Parallaxe zurückzuführen ist, die bei triangulationsbasierten 3D-Oberflächenbildgebungssystemen besteht, und auf die Möglichkeit, dass Streifen gegenüber dem erfassten Bild bedingt durch den Ausschluss von 3D-Oberflächenmerkmale fehlen. Die Sammlung von Pixeln bildet das Bild. Die Verwendung von Farben für die Streifenindexierung in den Projektionsmustern hilft dabei, das Mehrdeutigkeitsproblem zu lindern, das bei Phasenverschiebungs-oder Mehrstreifenverfahren unter Verwendung von monochromen Mustern besteht. Dieser Systemtyp ermöglicht das Kodieren von mehreren Mustern in ein einzelnes Farbprojektionsbild, wobei jedes Muster einen eindeutigen Farbwert besitzt. Um die Dekodierfehlerrate zu senken, kann man einen Farbsatz auswählen, in dem jede Farbe eine maximale Distanz zu jeder anderen Farbe im Satz aufweist. Die maximale Anzahl von Farben ist auf eine Distanz zwischen Farben beschränkt, die eine minimale Überlagerung in den erfassten Bildern erzeugt. Es sei verstanden, dass wenn das Ziel-3D-Objekt statisch ist, wie der Fall, wenn das Atmen kurzzeitig aussetzt, und die Anwendung keine stringenten Beschränkungen auf die Erfassungszeit vorsieht, Multi-Shot-Verfahren (sequenzielle Verfahren) verwendet werden und oftmals zu verlässlicheren und genaueren Ergebnissen führen können. Wenn sich das Ziel andererseits bewegt, werden Single-Shot-Verfahren verwendet, um ein Schnappschuss-3D-Oberflächenbild des 3D-Objekts zu einer bestimmten Zeitinstanz zu erfassen. Single-Shot-Verfahren können in Verfahren, bei denen kontinuierlich variierende Muster strukturierten Lichts verwendet werden, Verfahren, bei denen 1D-Kodierschemata (Streifenindexierung) verwendet werden, und Verfahren, bei denen 2D-Kodierschemata (Gitterindexierung) verwendet werden, klassifiziert werden. Jedes Verfahren hat seine eigenen Vor- und Nachteile, je nach der spezifischen Anwendung. Einige Verfahren können kombiniert werden.
-
Es sei darüber hinaus verstanden, dass die Beleuchtungsquellen manipuliert werden können, d. h. während der Aufnahme des Videos durch die Videokamera räumlich und/oder spektral variiert werden können. Eine Beleuchtungsquelle kann räumlich variiert werden, indem beispielsweise die Beleuchtungsquelle bewegt wird, so dass das Quelllicht aus unterschiedlichen Winkeln auf gewisse Regionen in dem Motiv projiziert wird. Eine Beleuchtungsquelle kann zeitlich variiert werden, indem beispielsweise die Projektion des Quelllichts gemäß einem Plan oder einer gewünschten Periodizität ein- und ausgeschaltet wird. Eine Beleuchtungsquelle kann spektral variiert werden, indem beispielsweise das Wellenlängenband der elektromagnetischen Strahlung modifiziert wird, so dass es keine anderen Beleuchtungsquellen und/oder Videokameras im System stört. Eine Gerätesteuereinheit kann so konfiguriert sein, dass sie die Intensität der Lichtquelle variiert, die eine Beleuchtungsquelle projiziert.
-
Um die geräteabhängigen Tiefenausgaben (in Bytes) zu geräteunabhängigen hinlänglich bekannten Metriken umzuwandeln, muss eine Kalibrierung durchgeführt werden. Die Kalibrierung der Raumkoordinaten des Geräts (von Pixeln zu Millimetern oder Metern oder Zoll) kann auf eine Weise durchgeführt werden, die im Wesentlichen der Weise entspricht, auf die eine herkömmliche RGB-Kamera kalibriert wird. Die Kalibrierung der Tiefenausgabe erfordert Kenntnis der geometrischen Konfiguration des Stereopaars (Beleuchtung und Bildgebungsmodule). Sowohl die Raumkoordinaten als auch die Tiefenausgaben aus dem 3D-Bildgebungssensor können in geräteunabhängige Einheiten (z. B. Millimeter oder Meter oder Zoll) umgewandelt werden. Dies gewährleistet jedoch nicht, dass die geschätzten Volumen dem gemessenen Volumen entsprechen, wobei dies auf die Tatsache zurückzuführen ist, dass die Veränderungen im Brustkorbvolumen möglicherweise nicht mit den Veränderungen im Lungenvolumen identisch sind, bedingt durch Elastizitätsunterschiede zwischen den beiden. Somit kann eine zusätzliche Kalibrierung wünschenswert sein. Nimmt man eine lineare Beziehung zwischen geschätztem und tatsächlichem Volumen an, kann eine Proportionalitätskonstante mithilfe von Labortests geschätzt werden, die für unterschiedliche Atmungsintensitäten über einen für die Messungen erforderlichen Bereich durchgeführt werden. Das tatsächliche Volumen kann mithilfe eines Spirometers gemessen werden. Die Steigerung der linearen Regressionsgeraden zwischen den Messungen des Spirometers und jenen, die mit dem D-Bildgebungssystem erhalten werden, würde die Kalibrierungskonstante bereitstellen.
-
Bevor die Atemrate geschätzt werden kann, wird die Region der Tiefenkarte, die dem Körper des Individuums entspricht, in den Bildern vorzugsweise segmentiert. Dies kann auf verschiedene Methoden erzielt werden. Da die Distanz von der Kamera zur Oberfläche des Betts bekannt ist, kann die Position des Körpers des Individuums beispielsweise durch Erkennen von Pixeln, die von der Oberfläche des Betts umgeben sind und näher an der Kamera als das Bett selbst positioniert sind, extrahiert werden. Eine weitere Methode besteht darin, eine Lokalisierung durchzuführen und den Zielbereich danach einem Bereichswachstumsverfahren zu unterziehen, um Pixel mit ähnlichen Tiefeninformationen mit einzuschließen. Dadurch wird eine binäre Maske erhalten. Die Brustkorblokalisierung kann durch angemessene Anwendung von morphologischen Operationen auf die binäre Maske durchgeführt werden, die aus der Körpersegmentierungsstufe erhalten wird. Beispielsweise entfernt eine morphologische Öffnung der Maske mit einem Strukturierelement geeigneter Größe Pixel, die den Extremitäten und dem Kopf entsprechen, angesichts deren relativen Größe in Bezug auf den Brustbereich. Eine weitere Methode besteht darin, eine morphologische Skelettierung auf die Maske anzuwenden und die Verzweigungspunkte des entstehenden Skeletts zu ermitteln. Diese Verzweigungspunkte werden ungefähr am Genick und an den Schultern angeordnet sein, wodurch ein Hinweis auf die Position der Thoraxregion des Individuums bereitgestellt wird.
-
Schätzen von 3D-Zeitreihendaten
-
Zeitreihendaten werden durch Verarbeiten jedes Bild-Frames des empfangenen Videos geschätzt. Das Verarbeiten eines Bild-Frames umfasst das Vergleichen von Raumattributen der aufgenommenen räumlichen Verzerrung mit bekannten Raumattributen von unverzerrten projizierten Mustern, z. B. die Verzerrung kann im Bild charakterisiert werden. Danach wird eine Tiefenkarte anhand der charakterisierten Verzerrung an unterschiedlichen Positionen auf der Oberfläche der Zielregion berechnet. Ein 3D-Volumen kann für jedes Bild anhand der zugehörigen Tiefenkarte geschätzt werden. Die entstehenden geschätzten 3D-Volumen, die aus den verarbeiteten Bild-Frames erhalten werden, werden dann miteinander verknüpft, um die geschätzten 3D-Zeitreihendaten zu generieren. Um eine Frequenzanalyse in den darauffolgenden Stufen des vorliegenden Verfahrens durchzuführen, werden eine Normalisierung und Mittelwertzentrierung an den erhaltenen Zeitreihendaten durchgeführt. Die Normalisierung kann durch Teilen des Signals durch dessen Maximalwert erzielt werden. FIG. zeigt ein beispielhaftes normalisiertes mittelwertfreies volumetrisches Zeitreihensignal für einen 60-sekündigen Zeitraum, das aus Messungen an einem männlichen Individuum erhalten wurde.
-
Wenn die Atemrate aus dem normalisierten mittelwertfreien Zeitreihensignal unter Verwendung eines herkömmlichen FFT-Verfahrens (d. h. Spektralanalyseverfahrens) extrahiert wird, ist es für eine langfristige kontinuierliche Überwachung wichtig, dass das Signal stationär ist. Ein langsam variierender Trend im Zeitreihensignal kann zu einer nicht-stationären Signalkomponente führen, die dann zu großen Teilbändern um die Atemfrequenz führen kann. Darüber hinaus kann eine Trendbereinigung insbesondere in diesem Fall langsam variierende bewegungsinduzierte Frequenzkomponenten entfernen. Eine Methode verwendet einen Glättungsansatz, der wie ein zeitlich variierendes Hochpass-FIR-Filter arbeitet, indem niederfrequente Komponenten entfernt werden. Das trendbereinigte beinahe stationäre Atmungssignal, R
stat, wird wie folgt erhalten:
wobei R
original das normalisierte nullbereinigte Zeitreihensignal ist, I eine Identitätsmatrix ist, λ ein Parameter ist, der zum Einstellen des Frequenzgangs des Trendbereinigungsalgorithmus ist, T die Matrixumwandlungsoperation ist und D
2 eine Differenzmatrix zweiter Ordnung der folgenden Form ist:
-
Wenn Roriginal die Größe N aufweist, ist I eine Identitätsmatrix der Größe N × N. Der Parameter λ wird a priori durch Experimentieren an einem Patienten in dessen klinischer/häuslicher/arbeitsbezogenen Umgebung mit Probedaten eingestellt, und zwar so, dass keine nützlichen Informationen aus den niederfrequenten Komponenten verloren gehen.
-
Es wird nun auf die 9A bis B Bezug genommen, die die Verwendung eines nicht-parametrischen Ansatzes (FFT-basiert) zum Analysieren der Spektren des trendbereinigten Atmungs-Zeitreihungssignals zeigt. Nicht-parametrische Ansätze wie die autoregressive (AR) Zeitreihenmodellierung können statt der FFT auch verwendet werden. 9A zeigt die Leistungsspektrumsdichte-Kurven für die Atmungssignale vor der Trendbereinigung. 9B zeigt die Leistungsspektrumsdichte-Kurven für die Atmungssignale nach der Trendbereinigung (λ = 80). Die Atemrate wurde durch Ermitteln der Position, an der die spektrale Signatur am höchsten ist, geschätzt. Auf Basis dieser Analyse wurde eine Aufzeichnung von 10 Zyklen pro Minute im einminütigen Intervall beobachtet, was mit der Anzahl von Einatmungs- und Ausatmungszyklen im ursprünglichen Zeitreihensignal durchaus vergleichbar ist.
-
Es wird nun auf den Ablaufplan von 10 Bezug genommen, der eine beispielhafte Ausführungsform des vorliegenden Verfahrens zur Ermittlung der Atemrate für ein Individuum von Interesse zeigt, dessen Atemfunktion überwacht wird. Die Prozessverarbeitung beginnt bei Schritt 1000 und geht sofort zu Schritt 1002 über.
-
Bei Schritt 1002 wird ein Video einer Zielregion eines Individuums von Interesse empfangen, dessen Atemfunktion überwacht wird. Das Video wurde unter Verwendung einer Videokamera und eines Illuminators aufgenommen, der so konfiguriert ist, dass er ein Muster strukturierter Beleuchtung projiziert. Die Videokamera ist so konfiguriert, dass sie gegenüber elektromagnetischer Strahlung in einer Wellenlänge der strukturierten Beleuchtung empfindlich ist. Jedes Bild des aufgenommenen Videos umfasst eine Abtastung der Strahlung, die durch Reflexion der strukturierten Beleuchtung von einer Oberfläche der Zielregion abgegeben wurde. Eine räumliche Verzerrung wird durch eine Reflexion des projizierten Musters von dieser Oberfläche eingebracht. Eine beispielhafte Zielregion eines Individuums von Interesse ist in 1 gezeigt.
-
Bei Schritt 1004 werden die Videobilder verarbeitet, um geschätzte 3D-Zeitreihendaten für die Zielregion zu erhalten.
-
Bei Schritt 1006 wird eine Atemrate für das Individuum anhand der 3D-Zeitreihendaten geschätzt.
-
Bei Schritt 1008 wird die Atemrate an eine Anzeigeeinheit übertragen. Bei dieser Ausführungsform endet die weitere Verarbeitung hier. Bei einer weiteren Ausführungsform wird ein Alarm ausgelöst, der anzeigt, dass die Atemrate des Individuums nicht innerhalb akzeptabler Parameter liegt. Das Auslösen des Alarms kann beispielsweise das Aktivieren eines Lichts, das Produzieren eines hörbaren Geräuschs oder ein anderweitiges Erzeugen eines Signals sein, das eine Einheit aktiviert, die wiederum eine Aktion durchgeführt oder eine Benachrichtigung bereitstellt. Der Typ des erzeugten Alarmsignals hängt von der bestimmten Ausführungsform ab, in der die vorliegenden Lehren umgesetzt werden. Bei dieser alternativen Ausführungsform endet die weitere Verarbeitung, nachdem das Alarmsignal aktiviert wurde. Bei einer weiteren Ausführungsform wird die Verarbeitung wiederholt, so dass die Atemrate des Individuums kontinuierlich überwacht wird. Das vorliegende System kann in Verbindung mit anderen Gesundheitsüberwachungseinrichtungen verwendet oder in diese integriert werden, so dass das ausgelöste Alarmsignal diese anderen Einheiten veranlasst, gewünschte Funktionen auszuführen.
-
Es sei verstanden, dass die hier gezeigten Ablaufpläne veranschaulichend sind. Ein oder mehrere der in den Ablaufplänen gezeigten operativen Schritte können in einer unterschiedlichen Reihenfolge durchgeführt werden. Andere Operationen können beispielsweise hinzugefügt, modifiziert, verbessert, verkürzt, integriert oder mit den Schritten davon zusammengelegt werden. Solche Variationen sollen in den Umfang der beiliegenden Ansprüche fallen. Alle Ablaufpläne oder Teile davon können teilweise oder gänzlich in Hardware in Verbindung mit maschinenausführbaren Anweisungen umgesetzt sein.
-
Es wird nun auf 11 Bezug genommen, die ein Blockschaubild eines beispielhaften Videoverarbeitungssystems zum Umsetzen diverser Aspekte des vorliegenden Verfahrens zeigt, wie unter Bezug auf den Ablaufplan von 10 beschrieben.
-
In 10 steht eine Workstation 1100 in Verbindung mit einem Datenübertragungselement 1102 für das Empfangen von erkannten Mustern strukturierter Beleuchtung, beispielsweise von der Videokamera 310 von 3, und für eine anderweitige Umsetzung einer Datenübertragung zwischen verschiedenen Einheiten und der Computer-Workstation 1100 über ein Netzwerk 1101. Der Computer 1100 umfasst eine Anzeigeeinheit 1103, um eine Anzeige von Informationen zu ermöglichen, und eine Tastatur 1105, um eine Benutzereingabe oder -auswahl zu ermöglichen. Ein Benutzer des vorliegenden Systems kann die graphische Benutzeroberfläche der Workstation verwenden, um Bilder des Videos für die Verarbeitung oder erneute Verarbeitung zu identifizieren oder anderweitig auszuwählen und um eine Benutzereingabe bereitzustellen, wie für die vorliegende Umsetzung erforderlich sein kann. Das empfangene Video kann über das Netzwerk 1101 von einer Remote-Einheit abgerufen werden. Verschiedene Abschnitte des Videos können in einem Speicher oder einer Speichereinheit (nicht gezeigt) gespeichert werden, der bzw. die mit der Workstation 1100 in Verbindung steht, oder können über das Netzwerk 1101 über einen Datenübertragungsweg an eine Remote-Einheit übertragen werden, z. B. eine Einheit 1102 für eine Remote-Speicherung oder weitere Verarbeitung. Die Workstation 1100 und Datenübertragungseinheit 1102 stehen mit einer Videoverarbeitungseinheit 1106 zum Verarbeiten des Videos gemäß den vorliegenden Lehren in Verbindung.
-
Die Videoverarbeitungseinheit 1106 ist mit einem Puffer gezeigt. Ein solcher Puffer kann verwendet werden, um Informationen über das empfangene Bild in eine Warteschlange zu stellen, z. B. eine oder mehrere Zielregionen innerhalb der Bild-Frames, Größe des Videos, Zeit-/Datumsinformationen und dergleichen. Der Puffer kann so konfiguriert sein, dass er auch Daten, mathematische Formeln und andere Repräsentationen speichert, um eine Verarbeitung des Bildes gemäß den vorliegenden Lehren zu vereinfachen. Ein Videopräprozessor 1108 führt jede Vorverarbeitung des Videos durch, wie gewünscht oder erforderlich sein kann, um durch die Krümmung einer Oberfläche der Haut bedingte nicht-einheitliche Beleuchtung, durch Körper-oder Oberflächenbewegung bedingte bewegungsinduzierte Unschärfe, Bewegungsunschärfe und langsame Leuchtmittelvariation zu kompensieren. Der Videopräprozessor 1108 kann so programmiert sein, dass er die Dimensionalität der Daten verringert und eine Independent Component Analysis (ICA, unabhängige Komponentenanalyse) am Videosignal durchführt. Eine Lichtverzerrungsermittlungseinheit 1009 ermittelt eine Verzerrungshöhe im empfangenen reflektierten Muster strukturierten Lichts. Ein Prozessor 1110 für räumliche Verzerrung empfängt die ermittelte Verzerrungshöhe und vergleicht Raumattribute der ermittelten räumlichen Verzerrungen mit bekannten Raumattributen von nicht-verzerrten projizierten Mustern, so dass die Verzerrung in jedem Bild-Frame charakterisiert werden kann. Die räumlichen Verzerrungen werden an die Speichereinheit 1111 bereitgestellt. Ein Tiefenkartenprozessor 1112 ruft die ermittelte Höhe an räumlichen Verzerrungen aus der Speichereinheit 1111 ab und wandelt die Verzerrung auf Basis einer Pixel-für-Pixel-Basis für jedes Frame des Videos in einen Tiefenwert um. Danach wird eine Tiefenkarte anhand der charakterisierten Verzerrung an unterschiedlichen Positionen auf der Oberfläche der Zielregion erzeugt und in der Speichereinheit 1111 gespeichert. Ein 3D-Volumenschätzer 1113 schätzt ein 3D-Volumen anhand der Tiefenkarte auf einer Pro-Frame-Basis. Ein Zeitreihensignalgenerator 1114 ruft die entstehenden geschätzten 3D-Volumen ab und verknüpft diese miteinander, um die geschätzten 3D-Zeitreihendaten zu erhalten. Ein Atemratenschätzermodul 1115 schätzt die Atemrate des Individuums anhand der 3D-Zeitreihendaten auf eine hier offenbarte Weise. Die Atemrate des Individuums wird an ein Übertragungselement 1116 übertragen, das die Atemrate wiederum beispielsweise an den Arzt des Individuums oder einen Krankenpfleger oder einen Atmungstherapeuten sendet. Eine solche Datenübertragung kann einen Teil des ursprünglichen Videos oder das gesamte ursprüngliche Video und/oder einen Teil der erhaltenen 3D-Zeitreihendaten oder alle erhaltenen 3D-Zeitreihendaten beinhalten. Ein Teil der übertragenen Signale oder alle übertragenen Signale kann bzw. können wiederum an die Workstation 1100 übertragen und auf einer graphischen Anzeigeeinheit 1103 für eine visuelle Prüfung angezeigt werden. Bei einer weiteren Ausführungsform wird die Atemrate des Patienten mit einem oder mehreren Parametern verglichen, die für diesen Patienten festgelegt wurden, und ein Benachrichtigungssignal wird ausgelöst, wenn ermittelt wird, dass die Atemrate des Individuums nicht innerhalb eines akzeptablen Grenzwerts oder Bereichs liegt. Ein Benachrichtigungssignal kann ein hörbares Geräusch umfassen, das einen Benutzer oder Spezialisten darauf hinweist, dass das Individuum Aufmerksamkeit bedarf. Eine solche Benachrichtigung kann die Form einer vorgefertigten Audiomeldung oder beispielsweise eines Glockentongeräuschs oder einer akustischen Warnung annehmen. Die übertragene Benachrichtigungsmeldung kann ein Text-, eine Audio- und/oder eine Videonachricht sein, die direkt an eine mobile Telefoneinheit übertragen werden kann. Eine solche Benachrichtigung kann das Auslösen von sichtbarem Licht umfassen, das eine visuelle Benachrichtigung bereitstellt, z. B. ein blinkendes farbiges Licht, oder kann dies zusätzlich umfassen. Solche Ausführungsformen sollen in den Umfang der beiliegenden Ansprüche fallen.
-
Die verschiedenen Module und Verarbeitungseinheiten von 11 stehen mit einem Monitor 1103 in Verbindung, um auf diesem Informationen für eine Benutzerauswahl bereitzustellen. Jedes der Module und/oder jede der Verarbeitungseinheiten von 11 steht bzw. stehen über gezeigte und nicht-gezeigte Wege mit der Speichereinheit 1111 in Verbindung und kann bzw. können Daten, Parameterwerte, Funktionen, Seiten, Datensätze und maschinenlesbare/-ausführbare Programmanweisungen, die für das Ausführen deren verschiedener Funktionen erforderlich sind, speichern/abrufen. Jedes der Module und jede der Verarbeitungseinheiten des Videoverarbeitungssystems 1106 steht darüber hinaus über gezeigte und nicht-gezeigte Wege mit der Workstation 1100 in Verbindung und kann darüber hinaus über das Netzwerk 1101 mit einer oder mehreren Remote-Einheiten in Verbindung stehen. Es sei verstanden, dass einige oder alle der Funktionalitäten für ein beliebiges der Module zur Gänze oder teilweise von workstationinternen Komponenten durchgeführt werden können. Es sei ferner verstanden, dass die Workstation ein Betriebssystem und andere spezielle Software aufweist, die so konfiguriert sind, dass sie eine Vielzahl von numerischen Werten, Text, Bildlaufleisten, Pull-down-Menüs mit benutzerwählbaren Optionen und dergleichen zum Eingeben, Auswählen oder Ändern von auf der Anzeigeeinheit 1103 angezeigten Informationen anzeigen.
-
Verschiedene Module der vorliegenden Ausführungsformen können eine oder mehrere Komponenten bezeichnen, die wiederum Software und/oder Hardware umfassen, die so konfiguriert ist, dass sie die gewünschte Funktion ausführen. Eine Vielzahl von Modulen kann eine einzelne Funktion gemeinsam ausführen. Jedes Modul kann einen speziellen Prozessor aufweisen, der in der Lage ist, maschinenlesbare Programmanweisungen auszuführen. Ein Modul kann ein einzelnes Stück Hardware, beispielsweise eine ASIC, eine elektronische Schaltung oder einen speziellen Prozessor, umfassen. Eine Vielzahl von Modulen kann entweder von einem einzelnen speziellen Computersystem oder von einer Mehrzahl von parallel arbeitenden speziellen Computersystemen ausgeführt werden. Verbindungen zwischen Modulen umfassen sowohl physische als auch logische Verbindungen. Module können darüber hinaus ein oder mehrere Software-/Hardwaremodule umfassen, die ferner ein Betriebssystem, Treiber, Steuerungen für Einheiten und andere Vorrichtungen umfassen können, wobei einige oder alle davon über ein Netzwerk verbunden sein können. Es wird darüber hinaus in Betracht gezogen, dass ein oder mehrere Aspekte des vorliegenden Verfahrens auf einem dedizierten Computersystem ausgeführt werden und auch in verteilten Rechenumgebungen umgesetzt werden können, wobei Aufgaben von Remote-Einheiten durchgeführt werden, die über ein Netzwerk verbunden sind.
-
Verschiedene Änderungen an den oben beschriebenen Ausführungsformen können vorgenommen werden, ohne sich vom Geist und Umfang der Erfindung zu entfernen.