DE202021004196U1

DE202021004196U1 - Vorrichtungen zur automatischen Erkennung von Covid-19 in CT- Bildern des Brustkorbs

Info

Publication number: DE202021004196U1
Application number: DE202021004196.6U
Authority: DE
Original assignee: Siemens Healthcare GmbH
Current assignee: Siemens Healthineers Ag De
Priority date: 2020-06-22
Filing date: 2021-06-17
Publication date: 2023-01-23
Anticipated expiration: 2031-06-18
Also published as: EP3929936A1; US20210398654A1

Abstract

Vorrichtung, umfassend:
ein Mittel zum Empfangen (102, 402) medizinischer Eingangsbilder,
ein Mittel zum Berechnen (104) einer Mehrzahl von Metriken für eine Krankheit für jedes der medizinischen Eingangsbilder und
ein Mittel zum Clustern (106) der medizinischen Eingangsbilder in eine Mehrzahl von Clustern auf der Grundlage einer oder mehrerer aus der Mehrzahl von Metriken zur Klassifizierung der medizinischen Eingangsbilder, wobei die Mehrzahl von Clustern Folgendes umfassen:
einen Cluster aus einem oder mehreren der medizinischen Eingangsbilder in Zusammenhang mit der Krankheit und
einen oder mehrere Cluster aus einem oder mehreren der medizinischen Eingangsbilder, die nicht in Zusammenhang mit der Krankheit stehen.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Bestimmte hier beschriebene Ausführungsformen können sich auf die am 1. April 2020 eingereichte US-Patentanmeldung 16/837 979 , deren Offenbarung hier durch Verweis in ihrer Gesamtheit aufgenommen ist, beziehen.
TECHNISCHES GEBIET
Die vorliegende Erfindung betrifft allgemein die automatische Erkennung von COVID-19 (Coronavirus-Krankheit 2019) in CT(Computertomographie)-Bildern des Brustkorbs und insbesondere die automatische Klassifizierung von CT-Bildern des Brustkorbs unter Verwendung von maschinellem Lernen, um COVID-19 von anderen Lungenkrankheiten zu unterscheiden.
HINTERGRUND
COVID-19 (Coronavirus-Krankheit 2019) ist eine durch das Schwere-akute-respiratorische-Syndrom-Coronavirus 2 (SARS-Cov2) hervorgerufene Infektionskrankheit. COVID-19 zeigt Atemwegssymptome wie Husten, Atemnot, Lungenentzündung und SARS (schweres akutes respiratorisches Syndrom). In der aktuellen klinischen Praxis wird COVID-19 durch RT-PCR (Reverse-Transkription-Polymerase-Kettenreaktion) diagnostiziert.
Typischerweise wird an einem Patienten, bei dem ein Verdacht auf COVID-19 besteht oder bei dem COVID-19 bestätigt wurde, eine CT-Aufnahme des Brustkorbs vorgenommen, um die Lunge des Patienten zu untersuchen. In jüngster Zeit wurden Techniken zur Erkennung von COVID-19 in CT-Bildern vorgeschlagen. Es ist jedoch nicht klar, ob herkömmliche Techniken in der Lage sind, CT-Bilder von COVID-19 nicht nur von CT-Bildern gesunder Patienten, sondern auch von CT-Bildern einer anderen Lungenkrankheit in der Art anderer Infektionen, bösartiger Erkrankungen, ILD (interstitieller Lungenerkrankungen) und COPD (chronisch obstruktiver Lungenerkrankungen) zu unterscheiden. Dies ist besonders wichtig, weil sich COVID-19 ähnlich wie andere Lungenkrankheiten zeigen kann, was zu Verwirrung bei der Triage und Diagnose führen kann. Zusätzlich wurden einige herkömmliche Techniken mit einer begrenzten Verallgemeinerbarkeit entwickelt, während andere herkömmliche Techniken keine Einzelheiten in der Art von Erfassungsprotokollen oder des geographischen Herkunftsorts zu Bildgebungsdaten, anhand derer die Techniken entwickelt wurden, bereitstellen.
KURZFASSUNG DER ERFINDUNG
Gemäß einer oder mehreren Ausführungsformen werden Systeme und Vorrichtungen zum automatischen Erkennen einer Krankheit in medizinischen Bildern bereitgestellt. Es werden medizinische Eingangsbilder empfangen. Eine Mehrzahl von Metriken für eine Krankheit werden für jedes der medizinischen Eingangsbilder berechnet. Die medizinischen Eingangsbilder werden auf der Grundlage einer oder mehrerer aus der Mehrzahl von Metriken in eine Mehrzahl von Clustern geclustert, um die medizinischen Eingangsbilder zu klassifizieren. Die Mehrzahl von Clustern umfassen einen Cluster aus einem oder mehreren der medizinischen Eingangsbilder in Zusammenhang mit der Krankheit und einen oder mehrere Cluster aus einem oder mehreren der medizinischen Eingangsbilder, die nicht in Zusammenhang mit der Krankheit stehen. Gemäß einer Ausführungsform ist die Krankheit COVID-19 (Coronavirus-Krankheit 2019).
Gemäß einer Ausführungsform werden die medizinischen Eingangsbilder durch Ausführen eines unüberwachten hierarchischen Clusterns auf der Grundlage des Abstands zwischen jeweiligen Bilderpaaren in den medizinischen Eingangsbildern geclustert. Der Abstand zwischen den jeweiligen Bilderpaaren in den medizinischen Eingangsbildern wird durch Berechnen des Anfangsabstands zwischen gleichen Metriken aus der einen oder den mehreren aus der Mehrzahl von Metriken für jedes jeweilige Paar von Bildern und Mitteln der Anfangsabstände zwischen den gleichen Metriken für jedes jeweilige Bilderpaar berechnet.
Gemäß einer Ausführungsform werden die medizinischen Eingangsbilder durch Ausführen einer überwachten Klassifizierung unter Verwendung eines Random-Forest-Klassifikators und eines Logistische-Regression-Klassifikators geclustert.
Gemäß einer Ausführungsform werden die eine oder die mehreren aus der Mehrzahl von Metriken ausgewählt, die am besten medizinische Bilder in Zusammenhang mit der Krankheit von medizinischen Bildern, die nicht in Zusammenhang mit der Krankheit stehen, unterscheiden. Die Mehrzahl von Metriken für die Krankheit repräsentieren die Verteilung, den Ort und das Ausmaß der Krankheit.
Gemäß einer oder mehreren Ausführungsformen werden Systeme und Vorrichtungen zum automatischen Erkennen einer Krankheit in medizinischen Bildern bereitgestellt. Es wird ein medizinisches Eingangsbild der Lunge eines Patienten empfangen. Die Lunge wird vom medizinischen Eingangsbild segmentiert. Eine Wahrscheinlichkeitskarte für Abnormitätsmuster in Zusammenhang mit einer Krankheit wird anhand des medizinischen Eingangsbilds erzeugt. Eine Klassifizierung des medizinischen Eingangsbilds wird auf der Grundlage der segmentierten Lunge und der Wahrscheinlichkeitskarte bestimmt. Die Klassifizierung repräsentiert, ob das medizinische Eingangsbild in Zusammenhang mit der Krankheit steht.
Gemäß einer Ausführungsform ist die Krankheit COVID-19 und weisen die Abnormitätsmuster in Zusammenhang mit COVID-19 Opazitäten einer oder mehrerer von Geschliffenes-Glas-Opazitäten (GGO), Konsolidierung und Crazy-Paving-Muster auf.
Gemäß einer Ausführungsform ist die Klassifizierung des medizinischen Eingangsbilds eine Angabe, dass das medizinische Eingangsbild in Zusammenhang mit der Krankheit steht, oder eine Angabe, dass das medizinische Eingangsbild nicht in Zusammenhang mit der Krankheit steht.
Es ist zu verstehen, dass Rechenmetriken den Schritt/die Schritte des Segmentierens aufweisen können, wie vorstehend und nachstehend in Bezug auf die Ausführungsformen offenbart. Die Clusterbildung kann den Schritt/die Schritte des Bestimmens einer Klassifizierung oder umgekehrt aufweisen, wie es vorstehend oder nachstehend mit Bezug auf die Ausführungsformen offenbart ist.
Diese und andere Vorteile der Erfindung werden Durchschnittsfachleuten auf dem Gebiet anhand der folgenden detaillierten Beschreibung und der anliegenden Zeichnungen verständlich werden.
Figurenliste
Es zeigen:

1 ein Verfahren eines metrikbasierten Ansatzes zur Klassifizierung medizinischer Bilder gemäß einer oder mehreren Ausführungsformen,
2A Bilder, welche die Peripheriegebiete der Lunge zeigen, gemäß einer oder mehreren Ausführungsformen,
2B Bilder, welche die Lungenrinde und den Lungenkern zeigen, gemäß einer oder mehreren Ausführungsformen,
3 ein Framework zur Klassifizierung einer Krankheit in einem medizinischen Bild gemäß einer oder mehreren Ausführungsformen,
4 ein Verfahren zur Klassifizierung einer Krankheit in einem medizinischen Bild gemäß einer oder mehreren Ausführungsformen,
5 eine Tabelle, welche die Aufteilung eines Datensatzes für das Training, die Validierung und das Testen zeigt, gemäß einer oder mehreren Ausführungsformen,
6 Heatmaps einer gemäß dem metrikbasierten Ansatz erzeugten hierarchischen Clusterbildung gemäß einer oder mehreren Ausführungsformen,
7 einen Graph, in dem die TPR (Richtig-Positiv-Rate) mit der FPR (Falsch-Positiv-Rate) für die für den metrikbasierten Ansatz und den auf Deep Learning beruhenden Ansatz verwendeten Klassifikatoren verglichen sind, gemäß einer oder mehreren Ausführungsformen,
8 Konfusionsmatrizen für Klassifikatoren, die für den metrikbasierten Ansatz und den auf Deep Learning beruhenden Ansatz verwendet werden, gemäß einer oder mehreren Ausführungsformen,
9 ein beispielhaftes künstliches neuronales Netz, das zur Implementation einer oder mehrerer hier beschriebener Ausführungsformen verwendet werden kann,
10 ein faltendes neuronales Netz, das zur Implementation einer oder mehrerer hier beschriebener Ausführungsformen verwendet werden kann, und
11 ein Blockdiagramm hoher Ebene eines Computers, der zur Implementation einer oder mehrerer hier beschriebener Ausführungsformen verwendet werden kann.

DETAILLIERTE BESCHREIBUNG
Die vorliegende Erfindung betrifft allgemein Verfahren und Systeme zur automatischen Erkennung von COVID-19 (Coronavirus-Krankheit 2019) in CT(Computertomographie)-Bildern des Brustkorbs. Ausführungsformen der vorliegenden Erfindung werden hier beschrieben, um ein visuelles Verständnis für solche Verfahren und Systeme zu vermitteln. Ein Digitalbild besteht häufig aus digitalen Repräsentationen eines oder mehrerer Objekte (oder Formen). Die digitale Repräsentation eines Objekts wird hier häufig in Bezug auf das Identifizieren und Manipulieren der Objekte beschrieben. Solche Manipulationen sind im Speicher oder anderen Schaltungsanordnungen/anderer Hardware eines Computersystems ausgeführte virtuelle Manipulationen. Dementsprechend ist zu verstehen, dass Ausführungsformen der vorliegenden Erfindung unter Verwendung innerhalb eines Computersystems gespeicherter Daten im Computersystem ausgeführt werden können.
Es ist zu verstehen, dass nachfolgend offenbarte Schritte durch dedizierte Vorrichtungen oder Mittel, die für die Ausführung der Schritte funktionalisiert oder implementiert sind, ausgeführt werden.
COVID-19 ist eine Infektionskrankheit, die typischerweise mit Atemwegssymptomen wie Fieber, Husten und Atembeschwerden einhergeht. Typischerweise wird an Patienten, bei denen ein Verdacht auf COVID-19 besteht oder bestätigt wird, eine CT-Bildgebung des Brustkorbs ausgeführt, um die Lunge des Patienten zu beurteilen. Beispielsweise zeigt eine solche CT-Bildgebung bei Patienten, die COVID-19 haben, Abnormitätsmuster in Zusammenhang mit COVID-19. Andere Lungenkrankheiten beispielsweise in der Art anderer Infektionen (beispielsweise Grippe), bösartiger Erkrankungen, ILD (interstitielle Lungenkrankheit) und COPD (chronisch obstruktive Lungenkrankheit) zeigen sich jedoch ähnlich in der Lunge des Patienten, so dass eine solche CT-Aufnahme von Patienten mit anderen Lungenkrankheiten ähnliche Abnormitätsmuster zeigen kann.
Hier beschriebene Ausführungsformen unterscheiden CT-Bilder von Abnormitätsmustern, die in Zusammenhang mit COVID-19 stehen, von CT-Bildern von Abnormitätsmustern, die in Zusammenhang mit anderen Lungenkrankheiten stehen, und von CT-Bildern von Mustern, die in Zusammenhang mit gesundem Gewebe stehen, um eine automatische Erkennung von COVID-19 in CT-Bildern bereitzustellen. Gemäß einer Ausführungsform wird ein metrikbasierter Ansatz zur automatischen Erkennung von COVID-19 in CT-Bildern ausgeführt, wie beispielsweise mit Bezug auf die 1 und 4 beschrieben. Gemäß einer anderen Ausführungsform wird ein auf Deep Learning beruhender Ansatz zur automatischen Erkennung von COVID-19 in CT-Bildern ausgeführt, wie beispielsweise in den 3 - 4 beschrieben. Die automatische Erkennung von COVID-19 in CT-Bildern kann gemäß hier beschriebenen Ausführungsformen vorteilhaft verwendet werden, um die diagnostische Genauigkeit und Effizienz von Radiologen zu verbessern.
Es sei bemerkt, dass die hier beschriebenen Ausführungsformen, wenngleich sie in Bezug auf die Erkennung von COVID-19 in medizinischen Bildern beschrieben werden, nicht darauf beschränkt sind. Ausführungsformen können auf die Erkennung jeglicher Krankheiten beispielsweise in der Art anderer Typen viraler Lungenentzündung (beispielsweise SARS (schweres akutes respiratorisches Syndrom), MERS (respiratorisches Syndrom aus dem mittleren Osten) usw.), bakterieller Lungenentzündung, Pilz-Lungenentzündung, Mykoplasmen-Lungenentzündung und anderer Lungenentzündungstypen und anderer Krankheitstypen (beispielsweise ILD, COPD) angewendet werden. Ferner schließt COVID-19, wie hier verwendet, Mutationen des COVID-19-Virus (die mit anderen Bezeichnungen versehen werden können) ein.
1 zeigt ein Verfahren 100 eines metrikbasierten Ansatzes zur Klassifizierung medizinischer Bilder gemäß einer oder mehreren Ausführungsformen. Das Verfahren 100 kann durch eine oder mehrere geeignete Rechenvorrichtungen beispielsweise in der Art des Computers 1102 aus 11 ausgeführt werden.
In Schritt 102 werden medizinische Eingangsbilder empfangen. Gemäß einer Ausführungsform umfassen die medizinischen Eingangsbilder Bilder von Lungen von Patienten mit einer Krankheit und/oder ohne eine Krankheit (d. h. gesundes Gewebe). Die Krankheit kann COVID-19, Lungenentzündung, ILD, COPD usw. einschließen. Demgemäß können die medizinischen Eingangsbilder Bilder umfassen, die mit der Krankheit verbundene Abnormitätsmuster zeigen. Wenn die Krankheit beispielsweise COVID-19 ist, können die medizinischen Eingangsbilder Opazitäten zeigen, wie beispielsweise GGO (Geschliffenes-Glas-Opazität), Konsolidierung, Crazy-Paving-Muster, Atelektase, interlobuläre Septalverdickung, Pleuraergüsse, Bronchiecktasen usw.
Gemäß einer Ausführungsform sind die medizinischen Eingangsbilder medizinische CT-Eingangsbilder. Die medizinischen Eingangsbilder können jedoch von einer beliebigen geeigneten Modalität sein, wie beispielsweise MRI (Magnetresonanztomographie), US (Ultraschall), Röntgen oder jegliche andere Modalität oder Kombination von Modalitäten. Die medizinischen Eingangsbilder können 2D-Bilder oder 3D-Volumina umfassen, und jedes medizinische Eingangsbild kann durch ein einziges Bild (oder Volumen) oder mehrere Bilder (beispielsweise eine Zeitsequenz von Bildern) gegeben sein. Die medizinischen Eingangsbilder können direkt von einer Bilderfassungsvorrichtung beispielsweise in der Art eines CT-Scanners empfangen werden, wenn die medizinischen Eingangsbilder erfasst werden, oder sie können durch Laden zuvor erfasster medizinischer Eingangsbilder aus einem Massenspeicher oder Speicher eines Computersystems oder durch Empfangen der medizinischen Eingangsbilder von einem fernen Computersystem empfangen werden.
In Schritt 104 werden mehrere Metriken für eine Krankheit für jedes der medizinischen Eingangsbilder berechnet. Gemäß einer Ausführungsform ist die Krankheit COVID-19, es kann sich dabei jedoch auch um eine andere Krankheit (beispielsweise Lungenentzündung, ILD, COPD oder andere Lungenkrankheiten) handeln. Gemäß einer Ausführungsform werden die Metriken berechnet, indem die Lungen und Lungenlappen zunächst aus den medizinischen Eingangsbildern segmentiert werden. Es werden dann Abnormitätsmuster in Zusammenhang mit der Krankheit identifiziert, beispielsweise unter Verwendung eines DenseUNet. Auf der Grundlage der segmentierten Lungen und Lungenlappen und der identifizierten Abnormitätsmuster werden die Metriken für die Krankheit berechnet. Die Metriken repräsentieren die Schwere (beispielsweise die Verteilung, den Ort und das Ausmaß) der Krankheit in den Lungen.
Gemäß einer Ausführungsform werden die Lungen und Lungenlappen aus den medizinischen Eingangsbildern segmentiert, indem zuerst anatomische Orientierungsmarken in den medizinischen Eingangsbildern unter Verwendung eines mehrskaligen Deep-Reinforcement-Learnings erkannt werden. Interessierende Gebiete (ROI) der medizinischen Eingangsbilder werden dann auf der Grundlage der erkannten Orientierungsmarken extrahiert. Insbesondere wird das Lungen-ROI unter Verwendung der erkannten Orientierungsmarke der Carina-Bifurkation extrahiert. Andere erkannte Orientierungsmarken können zusätzlich oder alternativ verwendet werden. Beispielsweise kann die Brustbeinspitze zur Extraktion des Lungen-ROIs aus den medizinischen Eingangsbildern verwendet werden, wenn die Carina-Bifurkation außerhalb des Sichtfelds der medizinischen Eingangsbilder liegt. Die Größe und der relative Ort des Lungen-ROIs zur Carina-Bifurkation (oder einer anderen erkannten Orientierungsmarke) werden gemäß annotierten Daten spezifiziert. Als nächstes wird das extrahierte Lungen-ROI-Bild beispielsweise auf ein 2 mm messendes isotropes Volumen resampelt und in ein trainiertes tiefes Bild-zu-Bild-Netz (DI2IN) eingegeben, um eine Segmentierungsmaske innerhalb des Lungen-ROIs zu erzeugen. Schließlich wird die Segmentierungsmaske auf eine eindeutige Maske mit der gleichen Abmessung und Auflösung wie das medizinische Eingangsbild übertragen. Die eindeutige Maske wird als endgültige Lungensegmentierungsmaske ausgegeben. Die Lungenlappen können ähnlich segmentiert werden. Das DI2IN wird während einer vorhergehenden Offline- oder Trainingsstufe trainiert. Gemäß einer Ausführungsform wird das DI2IN an einer Patientenkohorte ohne vorhandene virale Lungenentzündung trainiert und an einer anderen Kohorte mit Abnormitätsgebieten, einschließlich Konsolidierung, Ergüssen, Massen usw., fein abgestimmt, um die Robustheit der Lungensegmentierung über den infizierten Bereich zu verbessern.
Gemäß einer Ausführungsform, wenn die Krankheit beispielsweise COVID-19 ist, werden dreißig Metriken für COVID-19 berechnet. Die dreißig Metriken sind die Folgenden:

• Metriken 1 - 6: Prozentsatz der Opazität (PO), berechnet als prozentuales Gesamtvolumen des von der Krankheit betroffenen Lungenparenchyms für jeden der fünf Lungenlappen und für die Lunge insgesamt.
• Metriken 7 - 12: Prozentsatz hoher Opazität (PHO), berechnet als prozentuales Gesamtvolumen des stark von der Krankheit betroffenen Lungenparenchyms für jeden der fünf Lungenlappen und für die Lunge insgesamt. Stark betroffene Gebiete des Lungenparenchyms können Gebiete hoher Opazität sein (beispielsweise Abnormitätsmustergebiete mit einer mittleren HU (Hounsfield-Einheit) von mehr als -200, entsprechend einer Konsolidierung und Gefäßverdickung) .
• Metriken 13 - 18: Prozentsatz hoher Opazität 2 (PHO2), berechnet als prozentuales Gesamtvolumen des von einer dichteren Luftraumerkrankung betroffenen Lungenparenchyms für jeden der fünf Lungenlappen und für die Lunge insgesamt. Von einer dichteren Luftraumerkrankung betroffene Gebiete des Lungenparenchyms können Gebiete hoher Opazität sein (beispielsweise Abnormitätsmustergebiete mit einer mittleren HU zwischen -200 und 50, entsprechend einer Konsolidierung).
• Metrik 19: Lungenschweregrad (LSS), berechnet als Summe der Schweregrade von jedem der fünf Lungenlappen. Gemäß einer Ausführungsform beruht der Schweregrad für jeden Lappen auf der PO für jeden Lappen. Beispielsweise kann der Schweregrad eines Lappens 0 sein, falls ein Lappen nicht von der Krankheit betroffen ist, 1 sein, falls der Lappen 1 - 25 % PO hat, 2 sein, falls der Lappen 26 - 50 % PO hat, 3 sein, falls der Lappen 51 - 75 % PO hat, und 4 sein, falls der Lappen 76 - 100 % PO hat. Der Schweregrad für die Berechnung des LSS kann auch auf einer anderen geeigneten Metrik beruhen.
• Metrik 20: Schweregrad bei hoher Lungenopazität (LHOS), berechnet als Summe der Schweregrade für jeden der fünf Lungenlappen nur für Gebiete hoher Opazität. Gemäß einer Ausführungsform beruht der Schweregrad für jeden Lappen auf der PHO für jeden Lappen. Beispielsweise kann der Schweregrad eines Lappens 0 sein, falls ein Lappen nicht von der Krankheit betroffen ist, 1 sein, falls der Lappen 1 - 25 % PHO hat, 2 sein, falls der Lappen 26 - 50 % PHO hat, 3 sein, falls der Lappen 51 - 75 % PHO hat, und 4 sein, falls der Lappen 76 - 100 % PHO hat. Der Schweregrad für die Berechnung des LHOS kann auch auf einer anderen geeigneten Metrik beruhen.
• Metrik 21: Schweregrad 2 bei hoher Lungenopazität (LHOS2), berechnet als Summe der Schweregrade für jeden der fünf Lungenlappen für Gebiete hoher Opazität mit Ausnahme von Gefäßen. Gefäße können auf der Grundlage einer Schwelle identifiziert werden (beispielsweise können Gebiete mit einer HU oberhalb von 50 ausgeschlossen werden). Gemäß einer Ausführungsform beruht der Schweregrad für jeden Lappen auf der PHO für jeden Lappen. Beispielsweise kann der Schweregrad eines Lappens 0 sein, falls ein Lappen nicht von der Krankheit betroffen ist, 1 sein, falls der Lappen 1 - 25 % PHO hat, 2 sein, falls der Lappen 26 - 50 % PHO hat, 3 sein, falls der Lappen 51 - 75 % PHO hat, und 4 sein, falls der Lappen 76 - 100 % PHO hat. Der Schweregrad für die Berechnung des LHOS2 kann auch auf einer anderen geeigneten Metrik beruhen.
• Metrik 22: beidseitig als wahr bestimmt, falls beide Lungenflügel von der Krankheit betroffen sind, und als falsch bestimmt, falls nur einer oder keiner der Lungenflügel von der Krankheit betroffen ist.
• Metrik 23: Anzahl der von der Krankheit betroffenen Lappen.
• Metrik 24: Gesamtzahl der Läsionen in der Lunge.
• Metrik 25: Anzahl peripherer Läsionen, bestimmt als Anzahl der Läsionen, die sich in der Peripherie der Lunge befinden (was die Apex- und Mediastinalgebiete ausschließt). 2A zeigt Bilder 200, in denen die Peripheriegebiete der Lunge dargestellt sind, gemäß einer oder mehreren Ausführungsformen.
• Metrik 26: Anzahl der Läsionen in der Lungenrinde. Jede Abnormität, welche die Rinde schneidet, wird als Läsion in der Rinde angesehen. 2B zeigt Bilder 210, in denen die Lungenrinde dargestellt ist, gemäß einer oder mehreren Ausführungsformen.
• Metrik 27: Anzahl der Läsionen im Kern der Lunge. Jede Abnormität, welche die Rinde nicht schneidet, wird als Läsion im Kern angesehen. Die Bilder 210 in 2B zeigen den Lungenkern.
• Metrik 28: Prozentsatz der peripheren Läsionen, berechnet als Anzahl der peripheren Läsionen geteilt durch die Gesamtzahl der Läsionen.
• Metrik 29: Prozentsatz der peripheren Läsionen, berechnet als prozentuales Gesamtvolumen des von der Krankheit betroffenen Lungenparenchyms ausschließlich für periphere Läsionen.
• Metrik 30: Prozentsatz der GGO, berechnet als prozentuales Gesamtvolumen des durch weniger dichte Luftraumkrankheit betroffenen Lungenparenchyms (d. h. Läsionen, die nur als GGO gekennzeichnet sind). GGO betrifft die Abnormitätsmustergebiete mit einer mittleren HU unterhalb von -200.

In Schritt 106 werden die medizinischen Eingangsbilder auf der Grundlage einer oder mehrerer der Mehrzahl von Metriken in eine Mehrzahl von Clustern geclustert, um die medizinischen Eingangsbilder zu klassifizieren. Die Mehrzahl von Clustern umfassen einen Cluster aus einem oder mehreren der medizinischen Eingangsbilder in Zusammenhang mit der Krankheit und einen oder mehrere Cluster aus einem oder mehreren medizinischen Eingangsbildern, die nicht in Zusammenhang mit der Krankheit (d. h. in Zusammenhang mit anderen Krankheiten oder in Zusammenhang mit gesundem Gewebe) stehen.
Gemäß einer Ausführungsform wird die eine oder werden die mehreren von der Mehrzahl von Metriken aus der Mehrzahl von Metriken als die Metriken ausgewählt, die am besten zwischen Abnormitätsmustern in Zusammenhang mit der Krankheit und Mustern, die nicht in Zusammenhang mit der Krankheit stehen (d. h. Abnormitätsmuster in Zusammenhang mit anderen Krankheiten oder Muster in Zusammenhang mit gesundem Gewebe), unterscheiden. Die eine oder die mehreren aus der Mehrzahl von Metriken können unter Verwendung wechselseitiger Informationen auf der Grundlage einer internen Validierungsaufteilung ausgewählt werden.
Gemäß einer Ausführungsform werden die medizinischen Eingangsbilder unter Verwendung einer nicht überwachten hierarchischen Clusteranalyse für das Clustern medizinischer Eingangsbilder, die ähnliche Merkmale aufweisen, auf der Grundlage der einen oder der mehreren aus der Mehrzahl der ausgewählten Metriken geclustert. Eine Abstandsmatrix wird berechnet, indem für jedes Paar der medizinischen Eingangsbilder ein Anfangsabstand zwischen denselben Metriken von der einen oder den mehreren aus der Mehrzahl von Metriken berechnet wird. Beispielsweise wird der Anfangsabstand bei der PO-Metrik für jedes Paar medizinischer Eingangsbilder berechnet oder wird der Anfangsabstand bei der PHO-Metrik für jedes Paar medizinischer Eingangsbilder berechnet. Der Anfangsabstand kann ein beliebiges geeignetes Abstandsmaß sein, wie beispielsweise der paarweise euklidische Abstand. Es wird dann ein Average-Linkage-Clustering verwendet, um die medizinischen Eingangsbilder unter Verwendung der durchschnittlichen Anfangsabstände zwischen denselben Metriken für jedes Paar der medizinischen Eingangsbilder hierarchisch zu clustern.
Gemäß einer Ausführungsform werden die medizinischen Eingangsbilder auf der Grundlage der einen oder der mehreren aus der Mehrzahl von Metriken unter Verwendung einer überwachten Klassifizierung geclustert. Es werden zwei metrikbasierte Klassifikatoren trainiert. Zuerst wird ein Random-Forest-Klassifikator unter Verwendung der einen oder der mehreren aus der Mehrzahl von Metriken trainiert. Anschließend wird ein Logistische-Regression-Klassifikator nach einer Merkmalstransformation auf der Grundlage von Gradient-Boosted Bäumen an allen aus der Mehrzahl von Metriken trainiert. Der Random-Forest-Klassifikator und der Logistische-Regression-Klassifikator werden während einer vorhergehenden Offline- oder Trainingsstufe trainiert. Sobald sie trainiert wurden, werden der Random-Forest-Klassifikator und der Logistische-Regression-Klassifikator in Schritt 106 während einer Online- oder Inferenzstufe angewendet. Beispielsweise werden die mehreren ausgewählten Metriken berechnet und werden der Random-Forest-Klassifikator und der Logistische-Regression-Klassifikator angewendet, um eine Klassenbewertung, die verwendet wird, um die Bilder zu klassifizieren, bereitzustellen. Gemäß einer Ausführungsform werden die Gradient-Boosted Bäume unter Verwendung von 2000 Schätzern mit einer maximalen Tiefe von 3 und 3 Merkmalen für jede Aufteilung trainiert. Für die Anpassung der einzelnen Bäume wurde ein Boosting-Anteil von 0,8 verwendet. Der LR-Klassifikator wurde mit L2-Regularisierung (C = 0,1) trainiert. Die Klassengewichte wurden an die Klassenhäufigkeiten angepasst, um das Klassenungleichgewicht zwischen Krankheitsfällen und Nicht-Krankheitsfällen zu behandeln.
In Schritt 108 wird die Klassifizierung der medizinischen Eingangsbilder ausgegeben. Beispielsweise kann die Klassifizierung der medizinischen Eingangsbilder durch Anzeigen der Klassifizierung der medizinischen Eingangsbilder auf einer Anzeigevorrichtung eines Computersystems, Speichern der Klassifizierung der medizinischen Eingangsbilder auf einem Speicher oder Massenspeicher des Computersystems oder durch Ubertragen der Klassifizierung der medizinischen Eingangsbilder zu einem fernen Computersystem ausgegeben werden.
Gemäß einer Ausführungsform kann die Klassifizierung der medizinischen Eingangsbilder als Heatmap ausgegeben werden. Beispielhafte Heatmaps sind in 6 dargestellt, wie nachstehend detaillierter beschrieben wird.
3 zeigt ein Framework 300 für die Klassifizierung einer Krankheit in einem medizinischen Bild gemäß einer oder mehreren Ausführungsformen. 4 zeigt ein Verfahren 400 zur Klassifizierung einer Krankheit in einem medizinischen Bild gemäß einer oder mehreren Ausführungsformen. Die 3 und 4 werden zusammen beschrieben. Die Schritte aus 4 können durch eine oder mehrere geeignete Rechenvorrichtungen beispielsweise in der Art des Computers 1102 aus 11 ausgeführt werden.
In Schritt 402 wird ein medizinisches Eingangsbild der Lunge eines Patienten empfangen. Gemäß einer Ausführungsform ist das medizinische Eingangsbild ein medizinisches CT-Bild. Das medizinische Eingangsbild kann jedoch von einer beliebigen geeigneten Modalität sein, wie beispielsweise MRI, US, Röntgen oder jegliche andere Modalität oder Kombination von Modalitäten. Das medizinische Eingangsbild kann ein 2D-Bild oder ein 3D-Volumen umfassen und ein einziges Bild oder mehrere Bilder (beispielsweise eine Zeitsequenz von Bildern) sein. Das medizinische Eingangsbild kann direkt von einer Bilderfassungsvorrichtung beispielsweise in der Art eines CT-Scanners, wenn das medizinische Eingangsbild erfasst wird, empfangen werden oder durch Laden eines zuvor erfassten medizinischen Eingangsbilds aus einem Massenspeicher oder Speicher eines Computersystems oder durch Empfangen eines medizinischen Eingangsbilds von einem fernen Computersystem empfangen werden.
In Schritt 404 wird die Lunge aus dem medizinischen Eingangsbild segmentiert. Bei einem Beispiel wird die Lunge im Vorverarbeitungsschritt 302 aus 3 segmentiert. Die Lunge kann wie vorstehend mit Bezug auf Schritt 104 aus 1 beschrieben aus dem medizinischen Eingangsbild segmentiert werden.
In Schritt 406 wird eine Wahrscheinlichkeitskarte für Abnormitätsmuster in Zusammenhang mit einer Krankheit anhand des medizinischen Eingangsbilds erzeugt. Bei einem Beispiel wird die Wahrscheinlichkeitskarte im Vorverarbeitungsschritt 302 aus 3 erzeugt. Gemäß einer Ausführungsform ist die Krankheit COVID-19 und weisen die Abnormitätsgebiete in Zusammenhang mit COVID-19 Opazitäten beispielsweise in der Art von GGO, einer Konsolidierung, eines Crazy-Paving-Musters, Atelektase, einer interlobulären Septalverdickung, von Pleuraergüssen, von Bronchiecktasen usw. auf. Die Krankheit kann jedoch auch eine andere Krankheit sein (beispielsweise Lungenentzündung, ILD, COPD oder eine andere Lungenkrankheit).
Die Wahrscheinlichkeitskarte für Abnormitätsmuster in Zusammenhang mit der Krankheit kann unter Verwendung eines auf maschinellem Lernen beruhenden Opazitätsklassifikators beispielsweise in der Art von DenseUNet erzeugt werden. Es kann jedoch auch jedes andere geeignete auf maschinellem Lernen basierende Netz für die Erzeugung einer Wahrscheinlichkeitskarte angewendet werden. Das DenseUNet mit anisotropen Kernen wird darauf trainiert, die medizinischen Eingangsbilder in eine Wahrscheinlichkeitskarte gleicher Größe zu übertragen. Alle Voxel in der Lunge, die ganz oder teilweise GGO, Konsolidierungen oder Crazy-Paving-Muster (oder einen anderen Abnormitätstyp in Zusammenhang mit der Krankheit) aufweisen, werden als positive Voxel definiert. Der restliche Bildbereich innerhalb der Lunge und der gesamte Bereich außerhalb der Lunge werden als negative Voxel definiert. Das DenseUNet wird in einem End-to-End-System trainiert. Eine anfängliche vom DenseUNet erzeugte Wahrscheinlichkeitsmaske wird unter Verwendung der segmentierten Lunge gefiltert, so dass nur die in der Lunge vorhandenen Abnormitätsgebiete identifiziert werden. Die gefilterte Wahrscheinlichkeitsmaske wird als endgültige Wahrscheinlichkeitskarte für Abnormitätsmuster in Zusammenhang mit der Krankheit ausgegeben. Die endgültige Wahrscheinlichkeitskarte kann dem medizinischen Eingangsbild überlagert werden. Gemäß einer Ausführungsform kann die Wahrscheinlichkeitskarte auf der Grundlage einer Schwelle (beispielsweise 0,5) in eine binäre Segmentierungsmaske gewandelt werden.
In Schritt 408 wird eine Klassifizierung des medizinischen Eingangsbilds auf der Grundlage der segmentierten Lunge und der Wahrscheinlichkeitskarte bestimmt. Die Klassifizierung repräsentiert, ob das medizinische Eingangsbild in Zusammenhang mit der Krankheit steht. Bei einem Beispiel ist die Klassifizierung ein Bewertungswert zwischen 0 und 1. Die Klassifizierung kann eine binäre Klassifizierung (beispielsweise Ja oder Nein), dass das medizinische Eingangsbild mit der Krankheit verbunden ist oder dass das medizinische Eingangsbild nicht mit der Krankheit verbunden ist, auf der Grundlage des Bewertungswerts unter Verwendung einer Schwelle sein.
Gemäß einer Ausführungsform wird die Klassifizierung des medizinischen Eingangsbilds unter Verwendung eines auf maschinellem Lernen beruhenden Klassifikators bestimmt. Beispielsweise kann der Klassifikator der 3D-Deep-Learning-Klassifikator 304 in 3 sein. Der Klassifikator empfängt als Eingabe das durch die segmentierte Lunge maskierte medizinische Eingangsbild und die Wahrscheinlichkeitskarte. Gemäß einer Ausführungsform verwendet der Klassifikator anisotrope 3D-Kerne für den Ausgleich zwischen Auflösung und Geschwindigkeit und weist tiefe dichte Blöcke auf, die Merkmale allmählich bis zu einer binären Ausgabe hinab aggregieren. Der Klassifikator kann während einer vorhergehenden Offline- oder Trainingsstufe End-to-End als Klassifizierungssystem unter Verwendung einer binären Kreuzentropie trainiert werden und verwendet ein probabilistisches Abtasten der Trainingsdaten zur Anpassung an das Ungleichgewicht in den Labels des Trainingsdatensatzes. Sobald er trainiert wurde, wird der Klassifikator in Schritt 408 während einer Online- oder Inferenzstufe angewendet.
In Schritt 410 wird die Klassifizierung des medizinischen Eingangsbilds ausgegeben. Bei einem Beispiel wird die Klassifizierung des medizinischen Eingangsbilds als Ausgabe 306 aus 3 ausgegeben, die eine Ja- oder eine Nein-Angabe repräsentiert, dass das medizinische Eingangsbild in Zusammenhang mit der Krankheit steht oder dass das medizinische Eingangsbild nicht in Zusammenhang mit der Krankheit steht. Die Klassifizierung des medizinischen Eingangsbilds kann durch Anzeigen der Klassifizierung des medizinischen Eingangsbilds auf einer Anzeigevorrichtung eines Computersystems, durch Speichern der Klassifizierung des medizinischen Eingangsbilds auf einem Speicher oder Massenspeicher eines Computersystems oder durch Ubertragen der Klassifizierung des medizinischen Eingangsbilds zu einem fernen Computersystem ausgegeben werden.
Der metrikbasierte Ansatz (wie beispielsweise mit Bezug auf 1 beschrieben) und der auf Deep Learning beruhende Ansatz (wie beispielsweise mit Bezug auf 4 beschrieben) gemäß hier beschriebenen Ausführungsformen wurden unter Verwendung eines Datensatzes aus 2096 CT-Bildern, der 1150 CT-Bilder von Patienten mit COVID-19 und 946 CT-Bilder von Patienten ohne COVID-19 aufwies, für die Erkennung von COVID-19 experimentell validiert. Die 946 CT-Bilder von Patienten ohne COVID-19 wiesen 159 CT-Bilder von Patienten mit Lungenentzündung, 177 CT-Bilder von Patienten mit ILD und 610 CT-Bilder ohne eine Lungenkrankheit auf. Die CT-Bilder wurden von 16 verschiedenen klinischen Zentren in Nordamerika und Europa erhalten. Die CT-Bilder von Patienten mit COVID-19, die aus Nordamerika erhalten wurden, wurden durch RT-PCR-Tests bestätigt, während die CT-Bilder von Patienten mit COVID-19, die aus Europa erhalten wurden, entweder durch RT-PCR-Tests bestätigt wurden oder von einem Kliniker auf der Grundlage klinischer Symptome, einer epidemiologischen Exposition und einer radiologischen Beurteilung diagnostiziert wurden. Die Lungenentzündungskohorte umfasste Fälle von Patienten mit nicht COVID-19-bedingten viralen Lungenentzündungen, organisierter Lungenentzündung oder Aspirations-Lungenentzündung. Die ILD-Kohorte umfasste Patienten mit verschiedenen ILD-Typen, die GGO, Retikulation, Wabenbildung und Konsolidierung in unterschiedlichen Graden aufwiesen. Der Datensatz wurde in Trainings-, Validierungs- und Testdatensätze unterteilt. Das Modelltraining und die Modellauswahl wurden auf der Grundlage der Trainings- und Validierungssätze ausgeführt. 5 zeigt eine Tabelle 500, in der die Unterteilung des Datensatzes für das Training, die Validierung und das Testen gezeigt ist.
Der metrikbasierte Ansatz wurde unter Verwendung eines anhand einer großen Kohorte gesunder und abnormer Fälle für die Segmentierung der Lungen und Lungenlappen trainierten tiefen Bild-zu-Bild-Netzes implementiert. Ein DenseUNet wurde zur Identifikation von Abnormitätsmustern in Zusammenhang mit COVID-19 verwendet. Dreißig Metriken (wie vorstehend mit Bezug auf Schritt 104 aus 1 beschrieben), welche die Schwere von COVID-19 repräsentieren, wurden berechnet. Sieben Metriken, die am besten zwischen COVID-19- und Nicht-COVID-19-Mustern unterschieden, wurden durch Vergleichen wechselseitiger Informationen zwischen den Metriken und der Klasse im Trainingsdatensatz aus 999 COVID-19-Fällen und 801 Kontrollfällen (Lungenentzündung, ILD und gesund) ausgewählt. Ein COVID-19-Fall wurde infolge von Sichtfeldproblemen aus dem Training ausgeschlossen, ein Lungenentzündungs-Kontrollfall wurde ausgeschlossen, weil die Auflösung entlang der z-Achse kleiner als 10 mm war, und ein anderer Lungenentzündungs-Kontrollfall wurde infolge inkorrekter DICOM(digitale Bildgebung und Kommunikation in der Medizin)-Parameter und infolge von Artefaktproblemen ausgeschlossen.
Die ausgewählten Metriken waren der Prozentsatz von GGO, PHO2 (entsprechend einer Konsolidierung), PO (entsprechend einer Konsolidierung und GGO), der Prozentsatz von Opazitäten in der Peripherie, der Prozentsatz von Opazitäten in der Rinde, der Prozentsatz von Opazitäten im rechten unteren Lappen und der Prozentsatz von Opazitäten im linken unteren Lappen. Die ausgewählten Metriken entsprechen typischen COVID-19-Charakteristiken (d. h. multifokale GGO und Konsolidierung mit basilarer und peripherer Verteilung der Krankheit), von denen in der klinischen Literatur berichtet wird.
6 zeigt gemäß dem metrikbasierten Ansatz erzeugte Heatmaps der hierarchischen Clusterbildung gemäß einer oder mehreren Ausführungsformen. Die Heatmap 602 zeigt die hierarchische Clusterbildung am Trainingsdatensatz, und die Heatmap 604 zeigt die hierarchische Clusterbildung am Testdatensatz. Die Zugehörigkeit zur Ground-Truth-Diagnosekohorte (COVID-19, Lungenentzündung, ILD und gesund) ist durch Schraffieren (oder durch Farbe) dargestellt. Die Metrikwerte sind standardisiert und auf einen Wert zwischen 0 und 1 umskaliert. Die Wahrscheinlichkeit, zur COVID-19-Klasse zu gehören, nimmt zum unteren Teil jeder Heatmap 602 und 604 zu, was höheren Werten der Metriken (d. h. mehr Opazitäten (sowohl GGO als auch Konsolidierung) und mehr periphere und basilare Verteilung) entspricht. In der Heatmap 602 wird die Clusterbildung am gesamten Trainingssatz aus 1800 Patienten ausgeführt. Die Mitte der Heatmap 602 zeigt ein mehrdeutiges Gebiet, in dem eine Überlappung von Merkmalen von verschiedenen Krankheitskohorten auftritt. Die Heatmap 604 zeigt für jede der Krankheitskohorten die gleiche Clusterbildung im Testdatensatz. Wenngleich es einen Cluster von COVID-19-Subjekten mit charakteristischen Merkmalen gibt, gibt es auch viele, die nicht alle Charakteristiken zeigen. Überdies überlappen sich einige Lungenentzündungs- und ILD-Fälle mit typischen Merkmalen von COVID-19.
Der auf Deep Learning beruhender Ansatz wurde unter Verwendung eines auf Deep Learning beruhenden neuronalen 3D-Netzmodells, das darauf trainiert wurde, die positive Klasse (COVID-19-Klasse) von den negativen Klasse (Nicht-COVID-19-Klasse) zu trennen, und eines zweikanaligen 3D-Tensor mit einem ersten Kanal, der das durch die Lungensegmentierung maskierte CT-Bild aufweist, und einem zweiten Kanal, der eine Wahrscheinlichkeitskarte von Abnormitätsmustern in Zusammenhang mit COVID-19 aufweist, implementiert. Das 3D-Netz verwendete anisotrope 3D-Kerne für den Ausgleich zwischen Auflösung und Geschwindigkeit und bestand aus tiefen, dichten Blöcken, die Merkmale allmählich bis hinab zu einer binären Ausgabe aggregieren. Das Netz wurde End-to-End als Klassifizierungssystem mit binärer Kreuzentropie und probabilistischem Sampling der Trainingsdaten trainiert, um das Ungleichgewicht in den Labels des Trainingsdatensatzes auszugleichen. Ein getrennter Validierungsdatensatz wurde für die endgültige Modellauswahl verwendet, bevor die Leistung am Testsatz gemessen wurde. Die Größe des eingegebenen 3D-Tensors war entsprechend der Lungensegmentierung vom auf eine Auflösung von 3 × 1 × 1 mm umskalierten CT-Bild fest (2 × 128 × 384 × 384). Die ersten beiden Blöcke waren anisotrop und umfassten eine Faltung (Kerne 1 × 3 × 3) - Batch-Normalisierung - LeakyReLU (leaky rectified linear unit) und Max-Pooling (Kerne 1 × 2 × 2, Schrittweite 1 × 2 × 2). Die folgenden fünf Blöcke waren isotrop mit Faltung (Kerne 3 × 3 × 3) - Batch-Normalisierung - LeakyReLU und Max-Pooling (Kerne 2 × 2 × 2, Schrittweite 2 × 2 × 2), gefolgt von einem abschließenden linearen Klassifikator mit 144-dimensionalem Eingang.
7 zeigt einen Graph 700, in dem die TPR (Richtig-Positiv-Rate) mit der FPR (Falsch-Positiv-Rate) für die Klassifikatoren, die für den metrikbasierten Ansatz und den auf Deep Learning beruhenden Ansatz verwendet werden, verglichen wird, gemäß einer oder mehreren Ausführungsformen. Die gestrichelte diagonale Linie in Graph 700 entspricht einer zufälligen Auswahl. Der als M1 bezeichnete Random-Forest-Klassifikator wurde für den metrikbasierten Ansatz unter Verwendung der sieben ausgewählten Metriken trainiert. Wie in Graph 700 dargestellt ist, hatte die Leistung des Random-Forest-Klassifikators am Testdatensatz eine AUC (Fläche unter der Kurve) von 0,80. Die roten Kreise bezeichnen den optimalen Arbeitspunkt, der eine Empfindlichkeit von 0,74 und eine Spezifität von 0,73 für den Random-Forest-Klassifikator ergab. Die Leistung des Random-Forest-Klassifikators wurde durch Trainieren eines als M2 bezeichneten Logistische-Regression-Klassifikators an allen dreißig Metriken verbessert. Die Metriken wurden zuerst unter Verwendung einer Merkmalseinbettung mit Gradient-Boosted Bäumen in einen höherdimensionalen Raum transformiert. Der Logistische-Regression-Klassifikator erzeugt eine AUC von 0,85 mit einer Empfindlichkeit von 0,81 und einer Spezifität von 0,77. Während sich die Leistung des Logistische-Regression-Klassifikators gegenüber dem Random-Forest-Klassifikator verbesserte, ging ein Teil der Interpretierbarkeit verloren, weil die Merkmale in eine höhere Dimension transformiert wurden. Der als M3 bezeichnete auf Deep Learning beruhende Klassifikator hatte die beste Leistung mit einer AUC von 0,90, wodurch die Empfindlichkeit und Spezifität des Systems auf 0,86 bzw. 0,81 verbessert wurden. Die Verbesserung ist hauptsächlich auf die Verringerung der falsch-positiven Ergebnisse in den Kategorien ILD und Nicht-COVID-19-Lungenentzündung zurückzuführen. Der in Graph 700 eingekreiste optimale Arbeitspunkt für alle Modelle wurde als Punkt auf der ROC(Empfängerarbeitskennlinie)-Kurve mit dem kürzesten Abstand von der oberen linken Ecke des Graphs 700 gewählt. Die entsprechenden Konfusionsmatrizen für alle drei Klassifikatoren sind in Tabelle 800 aus 8 dargestellt.
Die unüberwachte Clusterbildung an den ausgewählten Metriken zeigte, dass, wenngleich es dominante Charakteristiken gibt, die in COVID-19 beobachtet werden können, wie das Vorhandensein von GGO sowie eine periphere und basale Verteilung, diese Charakteristiken nicht in allen COVID-19-Fällen beobachtet werden. Andererseits können einige Subjekte mit ILD und Lungenentzündung ähnliche Charakteristiken zeigen. Es wurde herausgefunden, dass die Leistung des unüberwachten Clusterbildungsansatzes durch Abbilden der Metriken in einen höherdimensionalen Raum vor dem Training verbessert werden kann, wie durch den Logistische-Regression-Klassifikator in 7 gezeigt ist. Die beste Klassifizierungsgenauigkeit wurde durch den auf Deep Learning beruhenden Ansatz, der als ein hochdimensionales nichtlineares Modell repräsentiert werden kann, erreicht.
Der Deep-Learning-Ansatz erreichte eine gegenüber dem metrikbasierten Klassifikator verringerte Rate falsch-positiver und falsch-negativer Ereignisse, was nahelegt, dass es andere latente radiologische Repräsentationen von COVID-19 geben könnte, die es von interstitiellen Lungenkrankheiten oder anderen Lungenentzündungstypen unterscheiden. Der vorgeschlagene Deep-Learning-Ansatz wurde an einem Datensatz aus 2096 CT-Bildern mit 1150 COVID-19-Patienten und 946 von anderen Kategorien kommenden Bildern trainiert und getestet. Der vorgeschlagene Deep-Learning-Ansatz wurde mit herkömmlichen Verfahren verglichen, und es wurde herausgefunden, dass der vorgeschlagene Deep-Learning-Ansatz eine höhere AUC sowie eine höhere Empfindlichkeit erreichte.
Die experimentelle Validierung erfolgte unter Verwendung eines vielfältigen Datensatzes aus CT-Bildern, die von verschiedenen Herstellern, Institutionen und Gebieten erhalten wurden, wodurch gewährleistet wird, dass die Ergebnisse robust und wahrscheinlich auf unterschiedliche Umgebungen verallgemeinerbar sind. In der COVID-19-Negativklasse waren nicht nur gesunde Subjekte, sondern auch verschiedene Lungenpathologietypen (beispielsweise ILD und Lungenentzündung) enthalten.
Hier beschriebene Ausführungsformen stellen in mehreren Aspekten klinischen Wert bereit. Hier beschriebene Ausführungsformen können für eine schnelle Triage positiver Fälle verwendet werden, insbesondere in Umgebungen mit beschränkten Ressourcen, in denen radiologisches Fachwissen möglicherweise nicht sofort verfügbar ist und RT-PCR-Ergebnisse bis zu mehreren Stunden dauern können. Hier beschriebene Ausführungsformen können Radiologen dabei helfen, CT-Bilder in Patienten mit COVID-19 durch Aussortieren von Fällen mit geringerer Wahrscheinlichkeit priorisiert zu interpretieren. Zusätzlich zur Schnelligkeits- und Effizienzaspekten ist das Ergebnis des Deep-Learning-Ansatzes leicht reproduzierbar und wiederholbar, wodurch die Variabilität zwischen Lesern in manuell gelesenen radiologischen Untersuchungen abgeschwächt wird. Wenngleich RT-PCR der Standard für die bestätigende Diagnose von COVID-19 ist, können auf die quantitative CT angewendete Maschinenlernverfahren für die Diagnose von COVID-19 mit hoher diagnostischer Genauigkeit ausgeführt werden, wodurch der Wert der Bildgebung bei der Diagnose und Behandlung von COVID-19 erhöht wird.
Ferner können hier beschriebene Ausführungsformen in die Uberwachung von Patienten für COVID-19, selbst bei unverdächtigen Patienten, integriert werden. Beispielsweise können alle CT-Bilder des Brustkorbs für pulmonale und nicht-pulmonale Pathologien (beispielsweise Koronararterienuntersuchungen, Beurteilung von Thoraxtraumata) automatisch auf Anzeichen einer COVID-19-Lungenerkrankung sowie auf eine Nicht-COVID-19-Lungenentzündung untersucht werden. Überweisende Ärzte können bei positiven COVID-19-Bestimmungen alarmiert werden, wodurch eine schnellere Einleitung von Isolationsprotokollen ermöglicht wird. Schließlich können hier beschriebene Ausführungsformen im Nachhinein auf eine große Anzahl von CT-Bildern des Brustkorbs aus dem institutionellen PACS (Bildarchivierungs- und Kommunikationssystem) weltweit angewendet werden, um den Ursprung von SARS-CoV-2 in Bevölkerungsteilen zu entdecken und seine Verbreitung zu verfolgen, bevor umfassende Testanstrengungen implementiert werden.
Hier beschriebene Ausführungsformen können in einer klinischen Umgebung eingesetzt und validiert werden, um den klinischen Nutzen und die diagnostische Genauigkeit anhand prospektiver Daten zu beurteilen und die Korrelation der verschiedenen hier beschriebenen Metriken mit dem klinischen Schweregrad von COVID-19 und dem zeitlichen Verlauf der Krankheit zu bestimmen. Der Schweregrad von COVID-19 kann durch die Verwendung von Merkmalen aus der CT-Kontrastangiographie weiter quantifiziert werden, beispielsweise durch Erkennung und Messung einer akuten Lungenembolie, die Berichten zufolge in Zusammenhang mit schweren COVID-19-Infektionen steht. Zusätzlich können hier beschriebene Klassifikatoren durch die Aufnahme anderer klinischer Daten in das Training, wie Pulsoximetrie, Zellzahlen, Leberenzyme usw., zusätzlich zu Bildgebungsmerkmalen, verbessert werden.
Die hier beschriebenen Ausführungsformen werden in Bezug auf die beanspruchten Systeme sowie in Bezug auf die beanspruchten Verfahren beschrieben. Merkmale, Vorteile oder alternative Ausführungsformen, die hier beschrieben werden, können den anderen beanspruchten Objekten zugewiesen werden und umgekehrt. Mit anderen Worten können Ansprüche für die Systeme mit Merkmalen verbessert werden, die in Zusammenhang mit den Verfahren beschrieben oder beansprucht werden. In diesem Fall werden die funktionellen Merkmale des Verfahrens durch objektive Einheiten des bereitstellenden Systems verwirklicht.
Ferner werden hier beschriebene Ausführungsformen mit Bezug auf Verfahren und Systeme zur automatischen Erkennung von COVID-19 in CT-Bildern des Brustkorbs unter Verwendung eines trainierten auf maschinellem Lernen beruhenden Netzes sowie in Bezug auf Verfahren und Systeme zum Trainieren eines auf maschinellem Lernen beruhenden Netzes für die automatische Erkennung von COVID-19 in CT-Bildern des Brustkorbs beschrieben. Merkmale, Vorteile oder alternative Ausführungsformen, die hier beschrieben werden, können den anderen beanspruchten Objekten zugewiesen werden und umgekehrt. Mit anderen Worten können Ansprüche für Verfahren und Systeme zum Trainieren eines auf maschinellem Lernen beruhenden Netzes mit Merkmalen, die in Zusammenhang mit den Verfahren und Systemen zur Verwendung eines trainierten auf maschinellem Lernen beruhenden Netzes beschrieben oder beansprucht werden, verbessert werden und umgekehrt.
Insbesondere können das trainierte auf maschinellem Lernen beruhende Netz der Verfahren und Systeme zur automatischen Erkennung von COVID-19 in CT-Bildern des Brustkorbs durch die Verfahren und Systeme zum Trainieren des auf maschinellem Lernen beruhenden Netzes für die automatische Erkennung von COVID-19 in CT-Bildern des Brustkorbs angepasst werden. Ferner können die Eingangsdaten des trainierten auf maschinellem Lernen beruhenden Netzes vorteilhafte Merkmale und Ausführungsformen der Trainingseingangsdaten umfassen und umgekehrt. Ferner können die Ausgangsdaten des trainierten auf maschinellem Lernen beruhenden Netzes vorteilhafte Merkmale und Ausführungsformen der Trainingsausgangsdaten umfassen und umgekehrt.
Im Allgemeinen bildet ein trainiertes auf maschinellem Lernen beruhendes Netz kognitive Funktionen nach, die Menschen mit anderen menschlichen Denkweisen in Verbindung bringen. Insbesondere ist das trainierte auf maschinellem Lernen beruhende Netz durch das Training auf der Grundlage von Trainingsdaten in der Lage, sich an neue Umstände anzupassen und Muster zu erkennen und zu extrapolieren.
Parameter des auf maschinellem Lernen beruhenden Netzes können im Allgemeinen durch Training angepasst werden. Insbesondere können ein überwachtes Training, ein halbüberwachtes Training, ein unüberwachtes Training, ein Verstärkungslernen und/oder ein aktives Lernen verwendet werden. Ferner kann ein Repräsentationslernen (ein alternativer Begriff ist „Merkmalslernen“) verwendet werden. Insbesondere können die Parameter des trainierten auf maschinellem Lernen beruhenden Netzes durch mehrere Trainingsschritte iterativ angepasst werden.
Insbesondere kann ein trainiertes auf maschinellem Lernen beruhendes Netz ein neuronales Netz, eine Support-Vektor-Maschine, einen Entscheidungsbaum und/oder ein bayessches Netz umfassen und/oder kann das trainierte auf maschinellem Lernen beruhende Netz auf k-Means-Clustering, Q-Learning, genetischen Algorithmen und/oder Assoziationsregeln beruhen. Insbesondere kann ein neuronales Netz ein tiefes neuronales Netz, ein faltendes neuronales Netz oder ein faltendes tiefes neuronales Netz sein. Ferner kann ein neuronales Netz ein adversarielles Netz, ein tiefes adversarielles Netz und/oder ein generatives adversarielles Netz sein.
9 zeigt eine Ausführungsform eines künstlichen neuronalen Netzes 900 gemäß einer oder mehreren Ausführungsformen. Alternative Begriffe für „künstliches neuronales Netz“ sind „neuronales Netz“, „künstliches neuronales Netzwerk“ oder „neuronales Netzwerk“. Hier beschriebene Maschinenlernnetze wie beispielsweise der Random-Forest-Klassifikator und der Logistische-Regression-Klassifikator, die in Schritt 106 aus 1 verwendet werden, oder der in Schritt 408 aus 4 verwendete Klassifikator können unter Verwendung des künstlichen neuronalen Netzes 900 implementiert werden.
Das künstliche neuronale Netz 900 umfasst Knoten 902 - 922 und Kanten 932, 934, ..., 936, wobei jede Kante 932, 934, ..., 936 eine gerichtete Verbindung von einem ersten Knoten 902 - 922 zu einem zweiten Knoten 902 - 922 ist. Im Allgemeinen sind der erste Knoten 902 - 922 und der zweite Knoten 902 - 922 verschiedene Knoten 902 - 922, und es ist auch möglich, dass der erste Knoten 902 - 922 und der zweite Knoten 902 - 922 identisch sind. Beispielsweise ist die Kante 932 in 9 eine gerichtete Verbindung vom Knoten 902 zum Knoten 906 und ist die Kante 934 eine gerichtete Verbindung vom Knoten 904 zum Knoten 906. Eine Kante 932, 934, ..., 936 von einem ersten Knoten 902 - 922 zu einem zweiten Knoten 902 - 922 wird auch als „eingehende Kante“ für den zweiten Knoten 902 - 922 und als „abgehende Kante“ für den ersten Knoten 902 - 922 bezeichnet.
Gemäß dieser Ausführungsform können die Knoten 902 - 922 des künstlichen neuronalen Netzes 900 in Schichten 924 - 930 angeordnet werden, wobei die Schichten eine durch die Kanten 932, 934, ..., 936 zwischen den Knoten 902 - 922 herbeigeführte intrinsische Ordnung aufweisen können. Insbesondere können die Kanten 932, 934, ..., 936 nur zwischen benachbarten Schichten von Knoten existieren. Gemäß der in 9 dargestellten Ausführungsform gibt es eine Eingangsschicht 924, die nur die Knoten 902 und 904 ohne eine eingehende Kante aufweist, eine Ausgangsschicht 903, die nur den Knoten 922 ohne abgehende Kanten aufweist, und verborgene Schichten 926, 928 zwischen der Eingangsschicht 924 und der Ausgangsschicht 930. Im Allgemeinen kann die Anzahl der verborgenen Schichten 926, 928 beliebig gewählt werden. Die Anzahl der Knoten 902 und 904 innerhalb der Eingangsschicht 924 steht gewöhnlich in Beziehung zur Anzahl der Eingangswerte des neuronalen Netzes 900, und die Anzahl der Knoten 922 innerhalb der Ausgangsschicht 930 steht gewöhnlich in Beziehung zur Anzahl der Ausgangswerte des neuronalen Netzes 900.
Insbesondere kann eine (reelle) Zahl jedem Knoten 902 - 922 des neuronalen Netzes 900 als Wert zugewiesen werden. Hier bezeichnet x⁽ⁿ⁾ _i den Wert des i-ten Knotens 902 - 922 der n-ten Schicht 924 - 930. Die Werte der Knoten 902 - 922 der Eingangsschicht 924 entsprechen den Eingangswerten des neuronalen Netzes 900, und der Wert des Knotens 922 der Ausgangsschicht 930 entspricht dem Ausgangswert des neuronalen Netzes 900. Ferner kann jede Kante 932, 934, ..., 936 ein Gewicht aufweisen, wobei es sich um eine reelle Zahl handelt, wobei das Gewicht insbesondere eine reelle Zahl innerhalb des Intervalls [-1, 1] oder innerhalb des Intervalls [0,1] ist. Hier bezeichnet w^(m,n) _i,j das Gewicht der Kante zwischen dem i-ten Knoten 902 - 922 der m-ten Schicht 924 - 930 und dem j-ten Knoten 902 - 922 der n-ten Schicht 924 - 930. Ferner wird die Abkürzung w⁽ⁿ⁾ _i,j für das Gewicht w^(n,n+1) _i,j definiert.
Insbesondere werden die Eingangswerte zur Berechnung der Ausgangswerte des neuronalen Netzes 900 durch das neuronale Netz propagiert. Insbesondere können die Werte der Knoten 902 - 922 der (n+1)-ten Schicht 924 - 930 auf der Grundlage der Werte der Knoten 902 - 922 der n-ten Schicht 924 - 930 durch $x_{j}^{(n + 1)} = f (\sum_{i} x_{i}^{(n)} \cdot w_{i,j}^{(n)})$
berechnet werden.
Hier ist die Funktion f eine Übertragungsfunktion (ein anderer Begriff ist „Aktivierungsfunktion“). Bekannte Übertragungsfunktionen sind Stufenfunktionen, Sigmoidfunktionen (beispielsweise die logistische Funktion, die verallgemeinerte logistische Funktion, die Tangens-Hyperbolicus-Funktion, die Arkustangensfunktion, die Fehlerfunktion, die Smoothstep-Funktion) oder Rectifier-Funktionen. Die Übertragungsfunktion wird hauptsächlich für Normalisierungszwecke verwendet.
Insbesondere werden die Werte schichtweise durch das neuronale Netz propagiert, wobei Werte der Eingangsschicht 924 durch die Eingabe des neuronalen Netzes 900 gegeben sind, wobei Werte der ersten verborgenen Schicht 926 auf der Grundlage der Werte der Eingangsschicht 924 des neuronalen Netzes berechnet werden können, wobei Werte der zweiten verborgenen Schicht 928 auf der Grundlage der Werte der ersten verborgenen Schicht 926 berechnet werden können usw.
Um die Werte w^(m,n) _i,j für die Kanten festzulegen, muss das neuronale Netz 900 unter Verwendung von Trainingsdaten trainiert werden. Insbesondere umfassen die Trainingsdaten Trainingseingangsdaten und Trainingsausgangsdaten (als ti bezeichnet). Für einen Trainingsschritt wird das neuronale Netz 900 auf die Trainingseingangsdaten angewendet, um berechnete Ausgangsdaten zu erzeugen. Insbesondere umfassen die Trainingsdaten und die berechneten Ausgangsdaten eine Anzahl von Werten, wobei die Anzahl gleich der Anzahl der Knoten der Ausgangsschicht ist.
Insbesondere wird ein Vergleich zwischen den berechneten Ausgangsdaten und den Trainingsdaten verwendet, um die Gewichte innerhalb des neuronalen Netzes 900 rekursiv anzupassen (Backpropagation-Algorithmus). Insbesondere werden die Gewichte gemäß $w_{i, j}^{, (n)} = w_{i, j}^{(n)} - y \cdot δ_{j}^{(n)} \cdot x_{i}^{(n)}$
geändert, wobei γ eine Lernrate ist, und können die Zahlen δ⁽ⁿ⁾ _j rekursiv als $δ_{j}^{(n)} = (\sum_{k} δ_{k}^{(n + 1)} \cdot w_{j,k}^{(n + 1)}) \cdot f' (\sum_{i} x_{i}^{(n)} \cdot w_{i,j}^{(n)})$
auf der Grundlage von δ⁽ⁿ⁺¹⁾ _j berechnet werden, falls die (n+1)-te Schicht nicht die Ausgangsschicht ist, und $δ_{j}^{(n)} = (x_{k}^{(n + 1)} - t_{j}^{(n + 1)}) \cdot f' (\sum_{i} x_{i}^{(n)} \cdot w_{i,j}^{(n)})$
berechnet werden, falls die (n+1)-te Schicht die Ausgangsschicht 930 ist, wobei f die erste Ableitung der Aktivierungsfunktion ist und y⁽ⁿ⁺¹⁾ _j der Vergleichstrainingswert für den j-ten Knoten der Ausgangsschicht 930 ist.
10 zeigt ein faltendes neuronales Netz 1000 gemäß einer oder mehreren Ausführungsformen. Hier beschriebene Maschinenlernnetze wie beispielsweise der Random-Forest-Klassifikator und der Logistische-Regression-Klassifikator, die in Schritt 106 aus 1 verwendet werden, oder der in Schritt 408 aus 4 verwendete Klassifikator können unter Verwendung des faltenden neuronalen Netzes 1000 implementiert werden.
Gemäß der in 10 dargestellten Ausführungsform umfasst das faltende neuronale Netz 1000 eine Eingangsschicht 1002, eine Faltungsschicht 1004, eine Pooling-Schicht 1006, eine vollständig verbundene Schicht 1008 und eine Ausgangsschicht 1010. Alternativ kann das faltende neuronale Netz 1000 mehrere Faltungsschichten 1004, mehrere Pooling-Schichten 1006 und mehrere vollständig verbundene Schichten 1008 sowie andere Schichttypen umfassen. Die Reihenfolge der Schichten kann beliebig gewählt werden, wobei gewöhnlich vollständig verbundene Schichten 1008 als letzte Schichten vor der Ausgangsschicht 1010 verwendet werden.
Insbesondere können innerhalb eines faltenden neuronalen Netzes 1000 die Knoten 1012 - 1020 einer Schicht 1002 - 1010 als in einer d-dimensionalen Matrix oder einem d-dimensionalen Bild angeordnet betrachtet werden. Insbesondere kann im zweidimensionalen Fall der Wert des mit i und j in der n-ten Schicht 1002 - 1010 indexierten Knotens 1012 - 1020 als x⁽ⁿ⁾ _[i,j] bezeichnet werden. Die Anordnung der Knoten 1012 - 1020 einer Schicht 1002 - 1010 hat jedoch keine Wirkung auf die innerhalb des faltenden neuronalen Netzes 1000 als solchem ausgeführten Berechnungen, weil diese ausschließlich durch die Struktur und die Gewichte der Kanten gegeben sind.
Insbesondere ist eine faltende Schicht 1004 durch die Struktur und die Gewichte der eine Faltungsoperation auf der Grundlage einer gewissen Anzahl von Kernen bildenden eingehenden Kanten gekennzeichnet. Insbesondere werden die Struktur und die Gewichte der eingehenden Kanten so gewählt, dass die Werte x⁽ⁿ⁾ _k der Knoten 1014 der Faltungsschicht 1004 als Faltung x⁽ⁿ⁾ _k = K_k * x^(n-1) auf der Grundlage der Werte x^(n-1) der Knoten 1012 der vorhergehenden Schicht 1002 berechnet werden, wobei die Faltung * im zweidimensionalen Fall als $x_{k}^{(n)} [i,j] = (K_{k} * x^{(n - 1)}) [i,j] = \sum_{i'} \sum_{j'} K_{k} [i',j'] \cdot x^{(n - 1)} [i - i',j - j']$
definiert ist.
Hier ist der k-te Kern K_k eine d-dimensionale Matrix (gemäß dieser Ausführungsform eine zweidimensionale Matrix), die gewöhnlich verglichen mit der Anzahl der Knoten 1012 - 1018 klein ist (beispielsweise eine 3 × 3-Matrix oder eine 5 × 5-Matrix). Insbesondere impliziert dies, dass die Gewichte der eingehenden Kanten nicht unabhängig sind, sondern so gewählt werden, dass sie die Faltungsgleichung erzeugen. Insbesondere gibt es für einen Kern, wobei es sich um eine 3 × 3-Matrix handelt, unabhängig von der Anzahl der Knoten 1012 - 420 in der jeweiligen Schicht 1002 - 1010 nur neun unabhängige Gewichte (jeder Eintrag der Kernmatrix entspricht einem unabhängigen Gewicht). Insbesondere entspricht für eine Faltungsschicht 1004 die Anzahl der Knoten 1014 in der Faltungsschicht der Anzahl der Knoten 1012 in der vorhergehenden Schicht 1002, multipliziert mit der Anzahl der Kerne.
Falls die Knoten 1012 der vorhergehenden Schicht 1002 als d-dimensionale Matrix angeordnet sind, kann die Verwendung einer Mehrzahl von Kernen als das Hinzufügen einer weiteren Dimension (als „Tiefendimension“ bezeichnet) interpretiert werden, so dass die Knoten 1014 der Faltungsschicht 1014 als (d+1)-dimensionale Matrix angeordnet werden. Falls die Knoten 1012 der vorhergehenden Schicht 1002 bereits als eine Tiefendimension aufweisende (d+1)-dimensionale Matrix angeordnet sind, kann die Verwendung einer Mehrzahl von Kernen als Erweiterung entlang der Tiefendimension interpretiert werden, so dass die Knoten 1014 der Faltungsschicht 1004 auch als (d+1)-dimensionale Matrix angeordnet werden, wobei die Größe der (d+1)-dimensionalen Matrix in Bezug auf die Tiefendimension um einen Faktor der Anzahl der Kerne größer als in der vorhergehenden Schicht 1002 ist.
Der Vorteil der Verwendung von Faltungsschichten 1004 besteht darin, dass eine räumlich lokale Korrelation der Eingangsdaten durch Erzwingen eines lokalen Konnektivitätsmusters zwischen Knoten benachbarter Schichten, insbesondere durch jeden Knoten, der nur mit einem kleinen Gebiet der Knoten der vorhergehenden Schicht verbunden ist, ausgenutzt werden kann.
Gemäß der in 10 dargestellten Ausführungsform weist die Eingangsschicht 1002 36 als zweidimensionale 6 × 6-Matrix angeordnete Knoten 1012 auf. Die faltende Schicht 1004 weist 72 Knoten 1014 auf, die als zwei zweidimensionale 6 × 6-Matrizen angeordnet sind, wobei jede der beiden Matrizen das Ergebnis einer Faltung der Werte der Eingangsschicht mit einem Kern ist. Ebenso können die Knoten 1014 der Faltungsschicht 1004 als in einer dreidimensionalen 6 × 6 × 2-Matrix angeordnet interpretiert werden, wobei die letzte Dimension die Tiefendimension ist.
Eine Pooling-Schicht 1006 kann durch die Struktur und die Gewichte der eingehenden Kanten und der Aktivierungsfunktion ihrer Knoten 1016, wodurch eine Pooling-Operation auf der Grundlage einer nichtlinearen Pooling-Funktion f gebildet wird, charakterisiert werden. Beispielsweise können im zweidimensionalen Fall die Werte x⁽ⁿ⁾ der Knoten 1016 der Pooling-Schicht 1006 auf der Grundlage der Werte x^(n-1) der Knoten 1014 der vorhergehenden Schicht 1004 als $x^{(n)} [i,j] = f (x^{(n 1)} [{id}_{1}, {jd}_{2}], \dots, x^{(n 1)} [{id}_{1} + d_{1} - 1, {jd}_{2} + d_{2} - 1])$
berechnet werden.
Mit anderen Worten kann die Anzahl der Knoten 1014, 1016 durch die Verwendung einer Pooling-Schicht 1006 verringert werden, indem eine Anzahl d1 · d2 benachbarter Knoten 1014 in der vorhergehenden Schicht 1004 durch einen einzigen Knoten 1016 ersetzt wird, der als Funktion der Werte der Anzahl benachbarter Knoten in der Pooling-Schicht berechnet wird. Insbesondere kann die Pooling-Funktion f die Max-Funktion, der Durchschnitt oder die L2-Norm sein. Insbesondere sind für eine Pooling-Schicht 1006 die Gewichte der eingehenden Kanten fest und werden durch das Training nicht modifiziert.
Der Vorteil der Verwendung einer Pooling-Schicht 1006 besteht darin, dass die Anzahl der Knoten 1014, 1016 und die Anzahl der Parameter verringert werden. Dies führt zu einer Verringerung des Rechenaufwands im Netz und zu einer Kontrolle des Overfittings.
Gemäß der in 10 dargestellten Ausführungsform ist die Pooling-Schicht 1006 eine Max-Pooling-Schicht, wobei vier benachbarte Knoten durch nur einen Knoten ersetzt werden und wobei der Wert das Maximum der Werte der vier benachbarten Knoten ist. Das Max-Pooling wird auf jede d-dimensionale Matrix der vorhergehenden Schicht angewendet, wobei gemäß dieser Ausführungsform das Max-Pooling auf jede der beiden zweidimensionalen Matrizen angewendet wird, wodurch die Anzahl der Knoten von 72 auf 18 verringert wird.
Eine vollständig verbundene Schicht 1008 kann durch die Tatsache gekennzeichnet werden, dass der größte Teil, insbesondere alle Kanten zwischen den Knoten 1016 der vorhergehenden Schicht 1006 und den Knoten 1018 der vollständig verbundenen Schicht 1008, vorhanden sind, wobei das Gewicht von jeder der Kanten individuell eingestellt werden kann.
Gemäß dieser Ausführungsform werden die Knoten 1016 der vorhergehenden Schicht 1006 der vollständig verbundenen Schicht 1008 sowohl als zweidimensionale Matrizen als auch zusätzlich als nicht aufeinander bezogene Knoten (als Knotenzeile angegeben, wobei die Anzahl der Knoten für eine bessere Darstellbarkeit verringert wurde) dargestellt. Gemäß dieser Ausführungsform gleicht die Anzahl der Knoten 1018 in der vollständig verbundenen Schicht 1008 der Anzahl der Knoten 1016 in der vorhergehenden Schicht 1006. Alternativ kann die Anzahl der Knoten 1016, 1018 abweichen.
Ferner werden die Werte der Knoten 1020 der Ausgangsschicht 1010 gemäß dieser Ausführungsform durch Anwenden der Softmax-Funktion auf die Werte der Knoten 1018 der vorhergehenden Schicht 1008 bestimmt. Durch Anwenden der Softmax-Funktion beträgt die Summe der Werte aller Knoten 1020 der Ausgangsschicht 1010 1 und sind alle Werte aller Knoten 1020 der Ausgangsschicht reelle Zahlen zwischen 0 und 1.
Ein faltendes neuronales Netz 1000 kann auch eine ReLU(rectified linear units)-Schicht umfassen. Insbesondere entspricht die Anzahl der Knoten und die Struktur der Knoten, die in einer ReLU-Schicht enthalten sind, der Anzahl der Knoten und der Struktur der Knoten, die in der vorhergehenden Schicht enthalten sind. Insbesondere wird der Wert jedes Knotens in der ReLU-Schicht durch Anwenden einer Rectifying-Funktion auf den Wert des entsprechenden Knotens der vorhergehenden Schicht berechnet. Beispiele von Rectifying-Funktionen sind f(x) = max(0, x), die Tangens-Hyperbolicus-Funktion oder die Sigmoidfunktion.
Insbesondere können faltende neuronale Netze 1000 auf der Grundlage des Backpropagation-Algorithmus trainiert werden. Um ein Overfitting zu verhindern, können Regularisierungsverfahren verwendet werden, beispielsweise ein Dropout der Knoten 1012 - 1020, ein stochastisches Pooling, eine Verwendung künstlicher Daten, ein Gewichtsabfall auf der Grundlage der L1- oder der L2-Norm oder Max-Norm-Randbedingungen.
Gemäß einer Ausführungsform verwendet das für die Klassifizierung verwendete neuronale Netz anisotrope 3D-Kerne für den Ausgleich zwischen Auflösung und Geschwindigkeit und besteht aus tiefen dichten Blöcken, die allmählich Merkmale bis hinab zu einer binären Ausgabe aggregieren. Das Netz wurde End-to-End als Klassifizierungssystem unter Verwendung einer binären Kreuzentropie trainiert und verwendet ein probabilistisches Sampling der Trainingsdaten, um das Ungleichgewicht in den Labels des Trainingsdatensatzes auszugleichen. Ein getrennter Validierungsdatensatz wurde für die endgültige Modellauswahl verwendet, bevor die Leistung am Testsatz gemessen wurde. Die Größe des eingegebenen 3D-Tensors ist entsprechend der Lungensegmentierung von auf eine Auflösung von 3 × 1 × 1 mm umskalierten CT-Daten fest (2 × 128 × 384 × 384). Die ersten beiden Blöcke sind anisotrop und bestehen aus einer Faltung (Kerne 1 × 3 × 3) - Batch-Normalisierung - LeakyReLU und Max-Pooling (Kerne 1 × 2 × 2, Schrittweite 1 × 2 × 2). Die folgenden fünf Blöcke sind isotrop mit einer Faltung (Kerne 3 × 3 × 3) - Batch-Normalisierung - LeakyReLU und Max-Pooling (Kerne 2 × 2 × 2, Schrittweite 2 × 2 × 2), gefolgt von einem abschließenden linearen Klassifikator mit 144-dimensionalem Eingang.
Hier beschriebene Systeme, Vorrichtungen und Verfahren können unter Verwendung einer Digitalschaltungsanordnung oder unter Verwendung eines oder mehrerer Computer unter Verwendung wohlbekannter Computerprozessoren, Speichereinheiten, Massenspeichervorrichtungen, Computersoftware und anderer Komponenten implementiert werden. Typischerweise weist ein Computer einen Prozessor zur Ausführung von Befehlen und einen oder mehrere Speicher zum Speichern von Befehlen und Daten auf. Ein Computer kann auch eine oder mehrere Massenspeichervorrichtungen in der Art einer oder mehrerer Magnetplatten, innerer Festplatten und entfernbarer Scheiben, magnetooptischer Scheiben, optischer Scheiben usw. aufweisen oder damit gekoppelt sein.
Hier beschriebene Systeme, Vorrichtungen und Verfahren können unter Verwendung von Computern, die in einer Client-Server-Beziehung arbeiten, implementiert werden. Typischerweise befinden sich bei einem solchen System die Client-Computer fern vom Server-Computer und interagieren über ein Netz. Die Client-Server-Beziehung kann durch Computerprogramme, die auf den jeweiligen Client- und Server-Computern laufen, definiert und gesteuert werden.
Hier beschriebene Systeme, Vorrichtungen und Verfahren können innerhalb eines netzbasierten Cloud-Rechensystems implementiert werden. Bei einem solchen netzbasierten Cloud-Rechensystem kommuniziert ein Server oder ein anderer Prozessor, der mit einem Netz verbunden ist, über ein Netz mit einem oder mehreren Client-Computern. Ein Client-Computer kann beispielsweise über eine Netz-Browser-Anwendung, die sich auf dem Client-Computer befindet und arbeitet, mit dem Server kommunizieren. Ein Client-Computer kann Daten auf dem Server speichern und über das Netz auf die Daten zugreifen. Ein Client-Computer kann Anforderungen für Daten oder Anforderungen von Online-Diensten über das Netz beim Server anfordern. Der Server kann angeforderte Dienste ausführen und dem einen oder den mehreren Client-Computern Daten bereitstellen. Der Server kann auch Daten übertragen, die dafür eingerichtet sind, einen Client-Computer zu veranlassen, eine spezifizierte Funktion auszuführen, beispielsweise eine Berechnung auszuführen, spezifizierte Daten auf einem Bildschirm anzuzeigen, usw. Beispielsweise kann der Server eine Anforderung übertragen, die dafür eingerichtet ist, einen Client-Computer zu veranlassen, einen oder mehrere der Schritte oder Funktionen der hier beschriebenen Verfahren und Arbeitsabläufe, einschließlich eines oder mehrerer der Schritte oder Funktionen aus den 1 und 4, auszuführen. Bestimmte Schritte oder Funktionen der hier beschriebenen Verfahren und Arbeitsabläufe, einschließlich eines oder mehrerer der Schritte oder Funktionen aus den 1 und 4, können durch einen Server oder einen anderen Prozessor in einem netzbasierten Cloud-Rechensystem ausgeführt werden. Bestimmte Schritte oder Funktionen der hier beschriebenen Verfahren und Arbeitsabläufe, einschließlich eines oder mehrerer der Schritte aus den 1 und 4, können durch einen Client-Computer in einem netzbasierten Cloud-Rechensystem ausgeführt werden. Die Schritte oder Funktionen der hier beschriebenen Verfahren und Arbeitsabläufe, einschließlich eines oder mehrerer der Schritte aus den 1 und 4, können durch einen Server- und/oder einen Client-Computer in einem netzbasierten Cloud-Rechensystem in einer beliebigen Kombination ausgeführt werden.
Hier beschriebene Systeme, Vorrichtungen und Verfahren können unter Verwendung eines Computerprogrammprodukts implementiert werden, das physisch in einem Informationsträger verwirklicht ist, beispielsweise in einer nichtflüchtigen maschinenlesbaren Speichervorrichtung zur Ausführung durch einen programmierbaren Prozessor, und die hier beschriebenen Verfahrens- und Arbeitsablaufschritte, einschließlich eines oder mehrerer der Schritte oder Funktionen aus den 1 und 4, können unter Verwendung eines oder mehrerer Computerprogramme, die durch einen solchen Prozessor ausführbar sind, implementiert werden. Ein Computerprogramm ist ein Satz von Computerprogrammbefehlen, die direkt oder indirekt in einem Computer verwendet werden können, um eine bestimmte Aktivität auszuführen oder ein bestimmtes Ergebnis zu erzielen. Ein Computerprogramm kann in einer beliebigen Form einer Programmiersprache, ob kompiliert oder interpretiert, geschrieben werden und in irgendeiner Form installiert werden, einschließlich als autonomes Programm oder als Modul, Komponente, Unterroutine oder andere Einheit, die zur Verwendung in einer Rechenumgebung geeignet ist.
Ein Blockdiagramm hoher Ebene eines beispielhaften Computers 1102, der verwendet werden kann, um hier beschriebene Systeme, Vorrichtungen und Verfahren zu implementieren, ist in 11 dargestellt. Der Computer 1102 weist einen Prozessor 1104 auf, der operativ mit einer Datenspeichervorrichtung 1112 und einem Speicher 1110 gekoppelt ist. Der Prozessor 1104 steuert den Gesamtbetrieb des Computers 1102 durch Ausführen von Computerprogrammbefehlen, die solche Operationen definieren. Die Computerprogrammbefehle können in einer Datenspeichervorrichtung 1112 oder einem anderen computerlesbaren Medium gespeichert werden und in den Speicher 1110 geladen werden, wenn die Ausführung der Computerprogrammbefehle erwünscht ist. Demgemäß können die Verfahrens- und Arbeitsablaufschritte oder -funktionen aus den 1 und 4 durch die im Speicher 1110 und/oder der Datenspeichervorrichtung 1112 gespeicherten Computerprogrammbefehle definiert werden und durch den die Computerprogrammbefehle ausführenden Prozessor 1104 gesteuert werden. Beispielsweise können die Computerprogrammbefehle als computerausführbarer Code implementiert werden, der von Fachleuten programmiert wurde, um die Verfahrens- und Arbeitsablaufschritte oder -funktionen aus den 1 und 4 auszuführen. Dementsprechend führt der Prozessor 1104 durch Ausführen der Computerprogrammbefehle die Verfahrens- und Arbeitsablaufschritte oder -funktionen aus den 1 und 4 aus. Der Computer 1102 kann auch eine oder mehrere Netzschnittstellen 1106 zur Kommunikation mit anderen Vorrichtungen über ein Netz aufweisen. Der Computer 1102 kann auch eine oder mehrere Ein-/Ausgabevorrichtungen 1108 aufweisen, welche eine Benutzerinteraktion mit dem Computer 1102 ermöglichen (beispielsweise Anzeige, Tastatur, Maus, Lautsprecher, Tasten usw.).
Der Prozessor 1104 kann Mikroprozessoren sowohl für allgemeine als auch für spezielle Zwecke einschließen und der einzige Prozessor oder einer von mehreren Prozessoren des Computers 1102 sein. Der Prozessor 1104 kann beispielsweise eine oder mehrere Zentralverarbeitungseinheiten (CPUs) einschließen. Der Prozessor 1104, die Datenspeichervorrichtung 1112 und/oder der Speicher 1110 können eine oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs) und/oder ein oder mehrere feldprogrammierbare Gate-Arrays (FPGAs) aufweisen, durch diese ergänzt sein oder in diese aufgenommen sein.
Die Datenspeichervorrichtung 1112 und der Speicher 1110 weisen jeweils ein physisches nichtflüchtiges computerlesbares Speichermedium auf. Die Datenspeichervorrichtung 1112 und der Speicher 1110 können jeweils einen schnellen Direktzugriffsspeicher in der Art eines dynamischen Direktzugriffsspeichers (DRAMs), statischen Direktzugriffsspeichers (SRAMs), synchronen dynamischen Direktzugriffsspeichers mit doppelter Datenrate (DDRRAM) oder anderer Direktzugriffs-Halbleiter-Speichervorrichtungen einschließen und einen nichtflüchtigen Speicher in der Art einer oder mehrerer Magnetplatten-Speichervorrichtungen in der Art interner Festplatten und entfernbarer Scheiben, magnetooptischer Plattenspeichervorrichtungen, optischer Plattenspeichervorrichtungen, Flash-Speichervorrichtungen, Halbleiterspeichervorrichtungen in der Art eines löschbaren programmierbaren Nurlesespeichers (EPROMs), eines elektrisch löschbaren programmierbaren Nurlesespeichers (EEPROMs), eines Compact-Disc-Nurlesespeichers (CD-ROMs), von Digital-Versatile-Disc-Nurlesespeicher(DVD-ROM)-Scheiben oder anderer nichtflüchtiger Halbleiter-Speichervorrichtungen einschließen.
Die Ein-/Ausgabevorrichtungen 1108 können Peripheriegeräte in der Art eines Druckers, eines Scanners, eines Anzeigebildschirms usw. einschlie-ßen. Beispielsweise können die Ein-/Ausgabevorrichtungen 1108 eine Anzeigevorrichtung in der Art eines Kathodenstrahlröhren(CRT)- oder Flüssigkristallanzeige(LCD)-Bildschirms zur Anzeige von Informationen für den Benutzer, eine Tastatur und eine Zeigevorrichtung in der Art einer Maus oder eines Trackballs, wodurch der Benutzer dem Computer 1102 eine Eingabe bereitstellen kann, einschließen.
Eine Bildaufnahmevorrichtung 1114 kann mit dem Computer 1102 verbunden sein, um Bilddaten (beispielsweise medizinische Bilder) in den Computer 1102 einzugeben. Es ist möglich, die Bildaufnahmevorrichtung 1114 und den Computer 1102 als eine einzige Vorrichtung zu implementieren. Es ist auch möglich, dass die Bildaufnahmevorrichtung 1114 und der Computer 1102 drahtlos über ein Netz kommunizieren. Gemäß einer möglichen Ausführungsform kann der Computer 1102 fern von der Bildaufnahmevorrichtung 1114 angeordnet sein.
Jegliche oder alle der hier erörterten Systeme und Vorrichtungen, einschließlich der für die Implementation des in Schritt 106 aus 1 verwendeten Random-Forest-Klassifikators und Logistische-Regression-Klassifikators oder des in Schritt 408 aus 4 verwendeten Klassifikators verwendeten Systeme und Vorrichtungen können unter Verwendung eines oder mehrerer Computer in der Art des Computers 1102 implementiert werden.
Fachleute werden verstehen, dass eine Implementation eines tatsächlichen Computers oder Computersystems andere Strukturen aufweisen kann und auch andere Komponenten enthalten kann und dass 11 eine Repräsentation hoher Ebene einiger der Komponenten eines solchen Computers für veranschaulichende Zwecke ist.
Die vorstehende detaillierte Beschreibung ist als in jeder Hinsicht erläuternd und beispielhaft, jedoch nicht als einschränkend zu verstehen, und der hier offenbarte Schutzumfang der Erfindung ist nicht anhand der detaillierten Beschreibung, sondern vielmehr anhand der gemäß der von den Patentgesetzen erlaubten vollen Breite interpretierten Ansprüche zu bestimmen. Es sei bemerkt, dass die hier dargestellten und beschriebenen Ausführungsformen nur der Erläuterung der Grundgedanken der vorliegenden Erfindung dienen und dass von Fachleuten verschiedene Modifikationen implementiert werden können, ohne vom Schutzumfang der Erfindung abzuweichen. Fachleute könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang der Erfindung abzuweichen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 16837979 [0001]

Claims

Vorrichtung, umfassend: ein Mittel zum Empfangen (102, 402) medizinischer Eingangsbilder, ein Mittel zum Berechnen (104) einer Mehrzahl von Metriken für eine Krankheit für jedes der medizinischen Eingangsbilder und ein Mittel zum Clustern (106) der medizinischen Eingangsbilder in eine Mehrzahl von Clustern auf der Grundlage einer oder mehrerer aus der Mehrzahl von Metriken zur Klassifizierung der medizinischen Eingangsbilder, wobei die Mehrzahl von Clustern Folgendes umfassen: einen Cluster aus einem oder mehreren der medizinischen Eingangsbilder in Zusammenhang mit der Krankheit und einen oder mehrere Cluster aus einem oder mehreren der medizinischen Eingangsbilder, die nicht in Zusammenhang mit der Krankheit stehen.
Vorrichtung nach Anspruch 1, wobei das Mittel zum Clustern der medizinischen Eingangsbilder in eine Mehrzahl von Clustern auf der Grundlage einer oder mehrerer aus der Mehrzahl von Metriken zur Klassifizierung der medizinischen Eingangsbilder implementiert ist zum: Ausführen einer unüberwachten hierarchischen Clusterbildung auf der Grundlage des Abstands zwischen jedem Bilderpaar in den medizinischen Eingangsbildern.
Vorrichtung nach Anspruch 2, wobei das Mittel zum Berechnen implementiert ist, um den Abstand zwischen jedem Bilderpaar in den medizinischen Eingangsbildern zu berechnen durch: Berechnen eines Anfangsabstands zwischen gleichen Metriken aus der einen oder den mehreren aus der Mehrzahl von Metriken für jedes jeweilige Bilderpaar und Mitteln der Anfangsabstände zwischen den gleichen Metriken für jedes jeweilige Bilderpaar.
Vorrichtung nach einem der Ansprüche 1-3, wobei das Mittel zum Clustern der medizinischen Eingangsbilder in eine Mehrzahl von Clustern auf der Grundlage einer oder mehrerer aus der Mehrzahl von Metriken zur Klassifizierung der medizinischen Eingangsbilder implementiert ist zum: Ausführen einer überwachten Klassifizierung unter Verwendung eines Random-Forest-Klassifikators und eines Logistische-Regression-Klassifikators.
Vorrichtung nach einem der Ansprüche 1-4, welche ferner ein Mittel umfasst zum: Auswählen der einen oder der mehreren aus der Mehrzahl von Metriken, die am besten zwischen medizinischen Bildern in Zusammenhang mit der Krankheit und medizinischen Bildern, die nicht in Zusammenhang mit der Krankheit stehen, unterscheiden.
Vorrichtung nach einem der Ansprüche 1-5, wobei die Mehrzahl von Metriken für die Krankheit eine Verteilung, einen Ort und ein Ausmaß der Krankheit repräsentieren.
Vorrichtung nach einem der Ansprüche 1-6, wobei die Krankheit COVID-19 (Coronavirus-Krankheit 2019) ist.
Vorrichtung, umfassend: ein Mittel zum Empfangen (402) eines medizinischen Eingangsbilds der Lunge eines Patienten, ein Mittel zum Segmentieren (404) der Lunge vom medizinischen Eingangsbild, ein Mittel zum Erzeugen (406) einer Wahrscheinlichkeitskarte für Abnormitätsmuster in Zusammenhang mit einer Krankheit anhand des medizinischen Eingangsbilds und ein Mittel zum Bestimmen (408) einer Klassifizierung des medizinischen Eingangsbilds auf der Grundlage der segmentierten Lunge und der Wahrscheinlichkeitskarte, wobei die Klassifizierung repräsentiert, ob das medizinische Eingangsbild in Zusammenhang mit der Krankheit steht.
Vorrichtung nach Anspruch 8, wobei die Krankheit COVID-19 (Coronavirus-Krankheit 2019) ist und die Abnormitätsmuster in Zusammenhang mit COVID-19 Opazitäten einer oder mehrerer von Geschliffenes-Glas-Opazitäten (GGO), Konsolidierung und Crazy-Paving-Muster umfassen.
Vorrichtung nach Anspruch 8 oder 9, wobei die Klassifizierung des medizinischen Eingangsbilds eine Angabe ist, dass das medizinische Eingangsbild in Zusammenhang mit der Krankheit steht, oder eine Angabe ist, dass das medizinische Eingangsbild nicht in Zusammenhang mit der Krankheit steht.
Vorrichtung nach einem der Ansprüche 1-10, ferner aufweisend wenigstens eine der Folgenden: eine Bilderfassungsvorrichtung zum Erzeugen der medizinischen Eingangsbilder, insbesondere einen CT- oder Röntgenscanner oder eine MRI(Magnetresonanztomographie)-Vorrichtung, eine Anzeigevorrichtung zum Anzeigen der geclusterten Bilder und/oder einer Wahrscheinlichkeitskarte, einen Speicher oder Massenspeicher in einem Computersystem zum Speichern der Klassifizierung der medizinischen Eingangsbilder, ein Mittel zum Ubertragen der Klassifizierung der medizinischen Eingangsbilder zu einem fernen Computersystem und/oder ein Mittel zum Ausgeben der Klassifizierung der medizinischen Eingangsbilder in einer computerlesbaren Form.
Vorrichtung nach einem der Ansprüche 1-11, wobei ferner ein trainiertes auf maschinellem Lernen beruhendes Netz (800) zum Clustern und/oder Klassifizieren der medizinischen Eingangsbilder verwendet wird.