DE102021202784B4

DE102021202784B4 - Verarbeitung mehrerer 2-D-Projektionsbilder mit Hilfe eines Algorithmus basierend auf einem neuronalen Netz

Info

Publication number: DE102021202784B4
Application number: DE102021202784.9A
Authority: DE
Inventors: Sailesh Conjeti; Alexander Preuhs
Original assignee: Siemens Healthcare GmbH
Current assignee: Siemens Healthineers Ag De
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2023-01-05
Anticipated expiration: 2041-03-24
Also published as: CN115187505A; US20220309675A1; DE102021202784A1

Abstract

Es werden Verfahren zum Ableiten von 2-D-Segmentierungen (315, 316) einer Interessensregion mit Hilfe eines Algorithmus basierend auf einem neuronalen Netz beschrieben. Es werden Verfahren zum Trainieren des Algorithmus basierend auf einem neuronalen Netz beschrieben. Die 2-D-Segmentierungen werden basierend auf mehreren 2-D-Projektionsbildern (201, 202) bestimmt. Beispielsweise können als Eingabe Röntgenbilder verwendet werden.

Description

Verschiedene Beispiele der vorliegenden Offenbarung betreffen allgemein einen Algorithmus basierend auf einem neuronalen Netz, der zum Verarbeiten mehrerer 2-D-Projektionsbilder verwendet wird. Verschiedene Beispiele beziehen sich konkret auf die Inferenz und das Trainieren des Algorithmus basierend auf einem neuronalen Netz.
In medizinischen Anwendungsszenarien mit Röntgenbildgebung werden 2-D-Projektionsbilder (ein Synonym für den Begriff „2-D“ ist zweidimensional) aufgenommen. Das 2-D-Projektionsbild stellt die Anatomie des Patienten in mehreren Ansichten dar. Ein anderer Begriff für 2-D-Projektionsbild ist Röntgenbild oder 2-D-Röntgenbild.
Aufgrund des projektiven Charakters der 2-D-Projektionsbilder können Krankheiten besser klassifiziert werden, wenn zwei oder mehr Projektionsbilder aus verschiedenen geometrischen Blickwinkeln zur Verfügung stehen (d. h. unter Verwendung mehrerer Ansichten). So können beispielsweise Gefäßenden in der einen Ansicht als Lungenknoten erscheinen, was zu einer falsch positiven Erkennung von Knoten führt, während sie in einer zweiten Ansicht, die aus einem anderen Winkel aufgenommen wurde, deutlich sichtbar sind. Dies kann durch die Berücksichtigung zusätzlicher Informationen, die in der zweiten Ansicht verfügbar sind, korrigiert werden. Daher ist es von Vorteil, mehrere Bilder aus verschiedenen Ansichten für die Klassifizierung und Erkennung von Krankheiten zu verwenden.
Es gibt bekannte Verfahren, die den Arzt bei solchen Aufgaben unterstützen. Aus der optischen Bildgebung sind, beispielsweise aus der Druckschrift Y. YAO et al., „Multiview Co-segmentation for Wide Baseline Images using Cross-view Supervision“, In: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (2020) S. 1942-1951, Verfahren zur gleichzeitigen Segmentierung von Bildern aus unterschiedlichen Ansichten bekannt. Weiterhin kann ein Algorithmus basierend auf einem neuronalen Netz (NN) verwendet werden, um ein Objekt zu erkennen und/oder zu klassifizieren. Das Objekt kann eine Interessensregion (Region Of Interest, ROI) sein. Das NN wird in der Regel basierend auf mehreren Trainingsdatensätzen trainiert, wobei jeder Trainingsdatensatz mehrere 2-D-Projektionsbilder mit kommentierter Grundwahrheit enthält.
Es wurde festgestellt, dass solche bestehenden NNs manchmal eine begrenzte Genauigkeit aufweisen können. Dementsprechend besteht ein Bedarf an fortgeschrittenen Verfahren zum Erkennen und/oder Klassifizieren von ROIs in 2-D-Projektionsbildern unter Verwendung von NNs.
Dieser Bedarf wird durch die Merkmale der unabhängigen Ansprüche gedeckt. Die Merkmale der abhängigen Ansprüche definieren Ausführungsformen.
Ein Verfahren beinhaltet das Erhalten von mehreren 2-D-Projektionsbildern. Die mehreren 2-D-Projektionsbilder sind mit mehreren Ansichten einer Szene verknüpft. Das Verfahren beinhaltet auch das Bestimmen, unter Verwendung wenigstens eines Algorithmus basierend auf einem neuronalen Netz und für die mehreren 2-D-Projektionsbilder, mehrerer 2-D-Segmentierungen einer Interessensregion in der Szene. Die mehreren 2-D-Segmentierungen sind mit mehreren Ansichten verknüpft. Das Verfahren beinhaltet auch das Bestimmen einer Ansichtskonsistenz zwischen den 2-D-Segmentierungen, die mit den mehreren Ansichten verknüpft sind, basierend auf einer vordefinierten Registrierung der mehreren Ansichten. Insbesondere kann es sich bei den 2-D-Projektionsbildern um medizinische Bilder eines Patienten handeln.
Im Zusammenhang der vorliegenden Erfindung kann das Erhalten eines Bildes in einem Beispiel umfassen, das Bild (z. B. über eine Schnittstelle) von einer externen Einheit zu empfangen. In einem anderen Beispiel kann das Erhalten eines Bildes umfassen, das Bild mit einer Bildgebungsvorrichtung zu erzeugen.
Ein Computerprogramm oder ein Computerprogrammprodukt oder ein computerlesbares Speichermedium weist Programmcode auf. Der Programmcode kann von einem Prozessor geladen und ausgeführt werden. Beim Ausführen des Programmcodes führt der Prozessor ein Verfahren durch. Das Verfahren beinhaltet das Erhalten von mehreren 2-D-Projektionsbildern. Die mehreren 2-D-Projektionsbilder sind mit mehreren Ansichten einer Szene verknüpft. Das Verfahren beinhaltet auch das Bestimmen, unter Verwendung wenigstens eines Algorithmus basierend auf einem neuronalen Netz und für die mehreren 2-D-Projektionsbilder, mehrerer 2-D-Segmentierungen einer Interessensregion in der Szene. Die mehreren 2-D-Segmentierungen sind mit den mehreren Ansichten verknüpft. Das Verfahren beinhaltet auch das Bestimmen einer Ansichtskonsistenz zwischen den 2-D-Segmentierungen, die mit den mehreren Ansichten verknüpft sind, basierend auf einer vordefinierten Registrierung der mehreren Ansichten.
Eine Vorrichtung weist einen Prozessor auf. Der Prozessor ist dazu ausgelegt, mehrere 2-D-Projektionsbilder zu erhalten, die mit mehreren Ansichten der Szene verknüpft sind. Der Prozessor ist ferner ausgelegt zum Bestimmen, unter Verwendung wenigstens eines Algorithmus basierend auf einem neuronalen Netz und für die mehreren 2-D-Projektionsbilder, mehrerer 2-D-Segmentierungen einer Interessensregion in der Szene. Die mehreren 2-D-Segmentierungen sind mit den mehreren Ansichten verknüpft. Der Prozessor ist ferner ausgelegt zum Bestimmen einer Ansichtskonsistenz zwischen den 2-D-Segmentierungen, die mit den mehreren Ansichten verknüpft sind, basierend auf einer vordefinierten Registrierung der mehreren Ansichten in einem Bezugssystem.
Ein Verfahren beinhaltet das Erhalten von mehreren 2-D-Projektionsbildern. Die mehreren 2-D-Projektionsbilder sind mit mehreren Ansichten einer Szene verknüpft. Das Verfahren beinhaltet auch das Bestimmen einer 3-D-Segmentierung (ein Synonym für den Begriff „3-D“ ist dreidimensional) einer Interessensregion in der Szene. Dies geschieht unter Verwendung wenigstens eines Algorithmus basierend auf einem neuronalen Netz und basierend auf den mehreren 2-D-Projektionsbildern. Das Verfahren umfasst ferner das Bestimmen mehrerer 2-D-Segmentierungen der Interessensregion, die mit den mehreren Ansichten verknüpft sind, basierend auf einer vordefinierten Registrierung der mehreren Ansichten in einem Bezugssystem und basierend auf der 3-D-Segmentierung.
Ein Computerprogramm oder ein Computerprogrammprodukt oder ein computerlesbares Speichermedium weist Programmcode auf. Der Programmcode kann von einem Prozessor geladen und ausgeführt werden. Beim Ausführen des Programmcodes führt der Prozessor ein Verfahren durch. Das Verfahren beinhaltet das Erhalten von mehreren 2-D-Projektionsbildern. Die mehreren 2-D-Projektionsbilder sind mit mehreren Ansichten einer Szene verknüpft. Das Verfahren beinhaltet auch das Bestimmen einer 3-D-Segmentierung einer Interessensregion in der Szene. Dies geschieht unter Verwendung wenigstens eines Algorithmus basierend auf einem neuronalen Netz und basierend auf den mehreren 2-D-Projektionsbildern. Das Verfahren umfasst ferner das Bestimmen mehrerer 2-D-Segmentierungen der Interessensregion, die mit den mehreren Ansichten verknüpft sind, basierend auf einer vordefinierten Registrierung der mehreren Ansichten in einem Bezugssystem und basierend auf der 3-D-Segmentierung.
Eine Vorrichtung weist einen Prozessor auf. Der Prozessor ist ausgelegt zum Erhalten von mehreren 2-D-Projektionsbildern. Die mehreren 2-D-Projektionsbilder sind mit mehreren Ansichten einer Szene verknüpft. Der Prozessor ist ferner ausgelegt zum Bestimmen, unter Verwendung wenigstens eines Algorithmus basierend auf einem neuronalen Netz und basierend auf den mehreren 2-D-Projektionsbildern, einer 3-D-Segmentierung einer Interessensregion in der Szene. Der Prozessor ist ferner ausgelegt zum Bestimmen, basierend auf einer vordefinierten Registrierung der mehreren Ansichten in einem Bezugssystem und basierend auf einer 3-D-Segmentierung, mehrerer 2-D-Segmentierungen der Interessensregion, die verknüpft mit den mehreren Ansichten verknüpft sind.
Ein Verfahren beinhaltet das Erhalten von mehreren 2-D-Trainingsbildern, die mit mehreren Ansichten einer Szene verknüpft sind. Das Verfahren beinhaltet auch das Erhalten von mehreren 2-D-Referenzsegmentierungen einer Interessensregion in der Szene für die mehreren 2-D-Trainings-Projektionsbilder. Das Verfahren beinhaltet ferner das Bestimmen, unter Verwendung wenigstens eines Algorithmus basierend auf einem neuronalen Netz und für die mehreren 2-D-Projektionsbilder, mehrerer 2-D-Segmentierungen der Interessensregion. Das Verfahren beinhaltet ferner das Bestimmen eines Verlustwertes basierend auf den mehreren 2-D-Segmentierungen, den mehreren 2-D-Referenzsegmentierungen und einer vordefinierten Registrierung der mehreren Ansichten in einem Bezugssystem. Das Verfahren beinhaltet ferner das Trainieren wenigstens eines Algorithmus basierend auf einem neuronalen Netz basierend auf dem Verlustwert.
Ein Computerprogramm oder ein Computerprogrammprodukt oder ein computerlesbares Speichermedium weist Programmcode auf. Der Programmcode kann von einem Prozessor geladen und ausgeführt werden. Beim Ausführen des Programmcodes führt der Prozessor ein Verfahren durch. Das Verfahren beinhaltet das Erhalten von mehreren 2-D-Projektionsbildern für Trainingszwecke, die mit mehreren Ansichten einer Szene verknüpft sind. Das Verfahren beinhaltet auch das Erhalten von mehreren 2-D-Referenzsegmentierungen einer Interessensregion in der Szene für die mehreren 2-D-Trainings-Projektionsbilder. Das Verfahren beinhaltet ferner das Bestimmen, unter Verwendung wenigstens eines Algorithmus basierend auf einem neuronalen Netz und für die mehreren 2-D-Projektionsbilder, mehrerer 2-D-Segmentierungen der Interessensregion. Das Verfahren beinhaltet ferner das Bestimmen eines Wertes einer Kostenfunktion basierend auf den mehreren 2-D-Segmentierungen, den mehreren 2-D-Referenzsegmentierungen und einer vordefinierten Registrierung der mehreren Ansichten in einem Bezugssystem. Das Verfahren beinhaltet ferner das Trainieren wenigstens eines Algorithmus basierend auf einem neuronalen Netz basierend auf dem Verlustwert.
Eine Vorrichtung weist einen Prozessor auf. Der Prozessor ist dazu ausgelegt, mehrere 2-D-Trainings-Projektionsbilder zu erhalten, die mit mehreren Ansichten einer Szene verknüpft sind. Der Prozessor ist ferner ausgelegt zum Erhalten von mehreren 2-D-Referenzsegmentierungen einer Interessensregion in der Szene für die mehreren 2-D-Trainings-Projektionsbilder. Der Prozessor ist ferner ausgelegt zum Bestimmen von mehreren 2-D-Segmentierungen der Interessensregion unter Verwendung wenigstens eines Algorithmus basierend auf einem neuronalen Netz und für die mehreren 2-D-Trainings-Projektionsbilder. Der Prozessor ist ferner ausgelegt zum Bestimmen eines Wertes einer Kostenfunktion basierend auf den mehreren 2-D-Segmentierungen, den mehreren 2-D-Referenzsegmentierungen und der vordefinierten Registrierung der mehreren Ansichten in einem Bezugssystem. Ferner ist der Prozessor ausgelegt zum Trainieren wenigstens eines Algorithmus basierend auf einem neuronalen Netz basierend auf dem Verlustwert.
Es versteht sich, dass die vorgenannten und die im Folgenden noch zu erläuternden Merkmale nicht nur in den jeweils angegebenen Kombinationen, sondern auch in anderen Kombinationen oder isoliert verwendet werden können, ohne den Schutzbereich der Erfindung zu verlassen. Insbesondere können Merkmale, die in Bezug auf eines der Verfahren beschrieben sind, auch in einem der anderen erfindungsgemäßen Verfahren sowie in einer der erfindungsgemäßen Vorrichtungen verwendet werden. Weiterhin können Merkmale, die in Bezug auf eine der Vorrichtungen beschrieben sind, auch in einer der anderen erfindungsgemäßen Vorrichtungen sowie in einem der erfindungsgemäßen Verfahren verwendet werden.

1 stellt schematisch ein System mit einer Bildgebungseinrichtung und einer Vorrichtung zum Verarbeiten von 2-D-Projektionsbildern, die mit der Bildgebungseinrichtung aufgenommen wurden, gemäß verschiedenen Beispielen dar.
2 ist ein Flussdiagramm eines Verfahrens gemäß verschiedenen Beispielen.
3 zeigt schematisch Details eine Architektur eines NN gemäß verschiedenen Beispielen.
4 ist ein Flussdiagramm eines Verfahrens gemäß verschiedenen Beispielen.
5 zeigt schematisch 2-D-Begrenzungsrahmen einer ROI gemäß verschiedenen Beispielen.
6 ist ein Flussdiagramm eines Verfahrens gemäß verschiedenen Beispielen.
7 zeigt schematisch eine 3-D-Segmentierung einer ROI gemäß verschiedenen Beispielen.
8 ist ein Flussdiagramm eines Verfahrens gemäß verschiedenen Beispielen.

Einige Beispiele der vorliegenden Offenbarung stellen allgemein mehrere Schaltungen oder andere elektrische Vorrichtungen bereit. Alle Verweise auf Schaltungen und andere elektrische Vorrichtungen sowie die jeweils bereitgestellte Funktionalität sind nicht als Beschränkung auf die jeweilige Darstellung oder Beschreibung hierin gedacht. Obwohl für die verschiedenen offenbarten Schaltungen oder anderen elektrischen Vorrichtungen bestimmte Bezeichnungen vergeben sein können, sollen diese Bezeichnungen den Umfang des Betriebs der Schaltungen und anderen elektrischen Vorrichtungen in keiner Weise einschränken. Derartige Schaltungen und andere elektrische Vorrichtungen können je nach Art der jeweils gewünschten elektrischen Implementierung in beliebiger Art und Weise miteinander kombiniert und/oder voneinander getrennt werden. Es versteht sich, dass jegliche hier offenbarte Schaltung oder andere elektrische Vorrichtung eine beliebige Anzahl Mikrosteuereinheiten, eine Graphikprozessoreinheit (GPU, Graphics Processor Unit), integrierte Schaltungen, Speichervorrichtungen (z. B. FLASH, Direktzugriffsspeicher (Random Access Memory, RAM), Festwertspeicher (Read-Only Memory, ROM), elektrisch programmierbare Festwertspeicher (Electrically Programmable Read Only Memory, EPROM), elektrisch löschbare programmierbare Festwertspeicher (Electrically Erasable Programmable Read Only Memory, EEPROM) oder geeignete andere Varianten davon) und Software aufweisen können, die zusammenwirken, um die hierin offenbarte(n) Operation(en) durchzuführen. Darüber hinaus können eine oder mehrere der elektrischen Vorrichtungen dafür ausgelegt sein, einen Programmcode auszuführen, der in einem nichtflüchtigen, computerlesbaren Speichermedium ausgeführt ist, welches programmiert ist, um eine beliebige Anzahl der offenbarten Funktionen auszuführen.
Im Folgenden werden Ausführungsformen der Erfindung unter Bezugnahme auf die beigefügten Zeichnungen ausführlich beschrieben. Es versteht sich, dass die folgende Beschreibung von Ausführungsformen nicht in einem einschränkenden Sinne aufzufassen ist. Der Schutzbereich der Erfindung soll nicht durch die nachfolgend beschriebenen Ausführungsformen oder durch die Zeichnungen, die lediglich zur Veranschaulichung dienen, eingeschränkt werden.
Verschiedene Beispiele betreffen allgemein das Verarbeiten von 2-D-Projektionsbildern. Die 2-D-Projektionsbilder, die gemäß den hier offenbarten Verfahren verarbeitet werden können, können in verschiedenen Anwendungsszenarien aufgenommen werden. Beispielsweise zählen zu den Anwendungsszenarien, ohne jedoch hierauf beschränkt zu sein: medizinische Bildgebung, z. B. mit einer C-Bogen-Röntgenvorrichtung als Bildgebungsmodalität; Sicherheits-Röntgenscanner, z. B. an einem Flughafen; Materialprüfung; Elektronenstrahlmikroskopie; usw. Nachfolgend werden zur Veranschaulichung Beispiele für medizinische Anwendungsszenarien erörtert, doch können die korrespondierenden Verfahren ohne weiteres auch in anderen Bereichen eingesetzt werden.
Ein 2-D-Projektionsbild stellt eine Szene in einer bestimmten Ansicht dar. Verschiedene 2-D-Projektionsbilder können mit unterschiedlichen Ansichten verknüpft sein. Daher erscheinen die Objekte in der Szene in verschiedenen Winkeln. So könnte jede Ansicht durch die Position und Ausrichtung (Pose) einer virtuellen Kamera in einem Bezugssystem sowie durch eine Bildebene, in die Objekte der Szene von der virtuellen Kamera projiziert werden, gekennzeichnet sein.
Gemäß verschiedenen Beispielen wird wenigstens ein NN verwendet, um ein Objekt der Szene in den mehreren 2-D-Projektionsbildern zu erkennen und/oder zu klassifizieren.
Im Folgenden wird ein Szenario beschrieben, in dem ein NN mehrere Aufgaben implementiert, z. B. das Codieren von 2-D-Projektionsbildern in latente Merkmale und das Decodieren der latenten Merkmale für Regression und/oder Klassifizierung. In einigen Szenarien können mehrere NNs verwendet werden, um solche Mehrfachaufgaben zu implementieren. Der Einfachheit halber wird ein Szenario erläutert, in dem die Funktionalität in einem einzigen NN integriert ist, aber im Allgemeinen kann die jeweilige Funktionalität von wenigstens einem NN implementiert werden.
Generell könnte das NN durch mehrere Schichten implementiert sein, z. B. durch Faltungsschichten, Normalisierungsschichten, Pooling-Schichten, voll verbundene Schichten usw. Das NN kann mehrere Zweige aufweisen, z. B. um verschiedene 2-D-Projektionsbilder zu verarbeiten und/oder um verschiedene Ausgaben bereitzustellen, z. B. eine Klassifizierungsausgabe und/oder eine Regressionsausgabe.
Beispielsweise kann die ROI in mehrere 2-D-Projektionsbilder segmentiert werden. Generell kann in der vorliegenden Offenbarung mit „Segmentierung“ eine Hervorhebung der ROI gemeint sein. Die Hervorhebung kann in Form eines Begrenzungsrahmens erfolgen. Der Begrenzungsrahmen kann eine vordefinierte Form haben, z. B. rechteckig, quadratisch, würfelförmig, kugelförmig oder quaderförmig; der kleinste Begrenzungsrahmen mit der vordefinierten Form, der in die ROI passt, kann bestimmt werden. Beispielsweise könnte eine Begrenzungsrahmen-Regression implementiert werden, siehe Lin, T.Y., Goyal, P., Girshick, R., He, K. und Dollar, P., 2017. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision (S. 2980-2988). Die Hervorhebung könnte auch beinhalten, eine pixelweise Maske zu definieren, d. h. für jeden Pixel zu beurteilen, ob der jeweilige Pixel Teil der ROI ist oder nicht. Zwischenszenarien zwischen Begrenzungsrahmen und pixelweisen Masken sind möglich.
Die Segmentierung kann eine 2-D- oder eine 3-D-Segmentierung sein. Die 3-D-Segmentierung kann auf unterschiedliche Weise definiert werden, z. B. durch einen 3-D-Begrenzungsrahmen, der auf einer 3-D-Kugel oder einem schiefen Würfel basieren kann, usw. Die 3-D-Segmentierung kann durch eine 3-D-Struktur implementiert werden, die aus 2-D-Rechtecken erstellt werden kann, und umgekehrt. Es könnte eine 3-D-Maske bestimmt werden, indem bestimmte Voxel im 3-D-Raum ausgewählt werden.
Verschiedene hier beschriebene Beispiele nutzen eine geometrische Beziehung zwischen mehreren Ansichten der mehreren 2-D-Projektionsbilder. Konkreter kann eine vordefinierte Registrierung zwischen mehreren Ansichten der mehreren 2-D-Projektionsbilder und einem Bezugssystem verwendet werden. Die vordefinierte Registrierung könnte zum Beispiel beim Trainieren des NN verwendet werden. Alternativ oder zusätzlich könnte die vordefinierte Registrierung bei der Inferenz mit dem NN verwendet werden.
Durch die Berücksichtigung der vordefinierten Registrierung kann eine höhere Genauigkeit bei der Erkennung und/oder Klassifizierung mit Hilfe des NN erreicht werden. Insbesondere kann der semantische Kontext der ROI zwischen den verschiedenen Ansichten berücksichtigt werden, indem das Erscheinungsbild des semantischen Kontexts zwischen den verschiedenen Ansichten „übersetzt“ wird, wodurch Inkonsistenzen zwischen der Erkennung und/oder Klassifizierung vermieden werden, die sich bei Einzelbetrachtung jeder Ansicht gemäß Referenzimplementierungen ergeben können.
Durch die vordefinierte Registrierung kann die Ansicht jedes einzelnen der mehreren 2-D-Projektionsbilder eine wohldefinierte Anordnung im Bezugssystem haben. So kann beispielsweise die Pose der jeweiligen virtuellen Kamera in Bezug auf die Szene im Bezugssystem definiert werden.

Das Bezugssystem könnte global definiert werden. Beispielsweise könnte ein Referenzkoordinatensystem verwendet werden. Das Bezugssystem könnte auch durch jeweils eine der mehreren Ansichten definiert werden; dadurch wird eine direkte Transformation von Ansicht zu Ansicht erleichtert. Es gibt mehrere Möglichkeiten, die Registrierung der einzelnen Ansichten im Bezugssystem zu implementieren. Zwei Optionen sind in TAB. 1 zusammengefasst. Diese Optionen beruhen auf der Umwandlung einer Ansicht in eine andere Ansicht, d. h. bei diesen Optionen wird die Referenzansicht mit einer der beiden Ansichten synchronisiert.

Fundamentalmatrix	Die Fundamentalmatrix F beschreibt die relative Geometrie von zwei Ansichten und beschränkt die Beziehung zwischen zwei Bildpunkten x₁ und x₂ in den jeweiligen 2-D-Projektionsbildern, wobei sich x₁ im ersten Projektionsbild und x₂ im zweiten Projektionsbild befindet:
	$x_{1}^{T} F x_{2} = 0$
	Die Fundamentalmatrix beschreibt die relative Geometrie mit einer minimalen Anzahl von Parametern (d. h. sieben), was im Vergleich zu fortgeschritteneren Modellen (z. B. Projektionsmatrizen mit 11 freien Parametern, siehe unten) eine robustere
	Schätzung ermöglicht.
	Die Fundamentalmatrix kann mit einer Vielzahl von Verfahren geschätzt werden, wobei nur starre Bewegungen innerhalb der verfügbaren Ansichten angenommen werden. Beispielsweise kann die Matrix anhand von Ebene-zu-Punkt-Korrespondenzen basierend auf der Struktur bestimmter Referenzpunkte in der Szene geschätzt werden, z. B. der Struktur von Rippen, wenn die Szene den Torso eines Patienten umfasst. Dies beschreibt z. B. Schaffert et al. „Learning an Attention Model for Robust 2-D/3-D Registration Using Point-To-Plane Correspondences“ TMI 2020.
	Alternativ oder zusätzlich können Punktkorrespondenzen direkt aus den 2-D-Projektionsbildern erlernt werden. Siehe z. B. Bastian Bier et al. „X-ray-transform Invariant Anatomical Landmark Detection for Pelvic Trauma Surgery“. Ferner kann die Geometrie mit mehreren Ansichten - manchmal auch als epipolare Geometrie bezeichnet - zur Schätzung der Fundamentalmatrix verwendet werden. Siehe z. B. Würfl et al. „Estimating the Fundamental Matrix Without Point Correspondences With Application to Transmission Imaging“ CVPR 2019.
	Das spezifische Schätzverfahren zum Ableiten der Fundamentalmatrix ist für die hier beschriebenen Verfahren nicht von Bedeutung.
Projektionsmatrix	Die Projektionsmatrix beschreibt die geometrische Beziehung zwischen Punkten in 3-D und Punkten auf der Detektorebene der jeweiligen Ansicht in 2-D. Dies beinhaltet die vollständige Beschreibung der Ansichtsposition in 3-D sowie intrinsische Parameter der Bildgebungsmodalität (z. B. Pixelabstand, Koordinatenversatz usw.), die zum Aufnehmen des jeweiligen 2-D-Projektionsbildes verwendet wurden. Die Matrix zeigt eine Beziehung zwischen einem Punkt in 3-D x₁ - z. B. einer Ecke eines 3-D-Objekts - und dem korrespondierenden auf den Detektor projizierten Punkt in 2-D x₂ durch
	$x_{2} = P x_{1}$
	wobei x₁ und x₂ in Form von homogenen Koordinaten beschrieben werden.
	Die Projektionsmatrix kann mit einer Vielzahl von Verfahren geschätzt werden, wobei nur starre Verformungen zwischen den beiden Ansichten angenommen werden.
	Zum Schätzen der Projektionsmatrix können Standard-Registrierungsverfahren für ein Standard-Patientenmodell durchgeführt werden. Siehe z. B. Schaffert et al. „Learning an Attention Model for Robust 2-D/3-D Registration Using Point-To-Plane Correspondences“ TMI 2020 Bastian Bier et al. „X-ray-transform Invariant Anatomical Landmark Detection for Pelvic Trauma Surgery“.
	Alternativ kann für die Schätzung der Projektionsmatrix auch die epipolare Konsistenz angewendet werden. Siehe z. B. Preuhs et al „Maximum likelihood estimation of head motion using epipolar consistency“.

TAB. 1: Verschiedene Möglichkeiten zum Implementieren einer vordefinierten Registrierung zwischen mehreren Ansichten. Diese Matrizen können in einem so genannten Registrierungsprozess bestimmt werden. Bei einem Registrierungsprozess wäre es möglich, korrespondierende Merkmale in den mehreren Ansichten zu identifizieren und dann die Matrizen aus der Verschiebung zwischen den Merkmalen zu berechnen.

Es stehen verschiedene Möglichkeiten zur Verfügung, die vordefinierte Registrierung der mehreren Ansichten - vgl. TAB. 1 - zu berücksichtigen, die mit den 2-D-Projektionsbildern verknüpft sind. So wäre es beispielsweise möglich, die vordefinierte Registrierung in einer Trainingsphase des NN zu berücksichtigen (das Training wird im Zusammenhang mit 2: Kasten 3005 und 8 unten näher erläutert). Alternativ oder zusätzlich wäre es möglich, die vordefinierte Registrierung in der Inferenzphase des NN zu berücksichtigen (die Inferenz wird im Zusammenhang mit 2: Kasten 3010 und den 4 und 6 unten näher erläutert). Einige Optionen zur Berücksichtigung der vordefinierten Registrierung sind in TAB. 2 unten zusammengefasst.

	Kurz-beschreibung	Beispielhafte Details
I	Im Training: 2-D-Segmentierungen und Ansichtskonsistenz	Hier können 2-D-Segmentierungen, z. B. 2-D-Begrenzungsrahmen oder eine 2-D-Maske, verwendet werden. Jede 2-D-Segmentierung kann separat bestimmt werden, z. B. mit Hilfe eines dedizierten Decodiererzweigs des NN und basierend auf denselben gemeinsamen latenten Merkmalen, die aus den mehreren 2-D-Projektionsbildern extrahiert wurden.
I	Im Training: 2-D-Segmentierungen und Ansichtskonsistenz	Beim Training des NN kann erzwungen werden, dass die 2-D-Segmentierungen in derselben Epipolarebene liegen, d.h. der Abstand der oberen Ecken der 2-D-Segmentierungen (oder eines anderen Referenzpunktes) zur oberen Epipolarlinie sollte minimal sein, ebenso wie der Abstand der unteren Epipolarlinie zum unteren Rand der 2-D-Segmentierung minimal sein sollte. Allgemeiner wäre es möglich, den Abstand zwischen einem ersten Referenzpunkt einer ersten der mehreren 2-D-Segmentierungen und der Projektion eines zweiten Referenzpunktes einer zweiten der mehreren 2-D-Segmentierungen in die Ansicht, die mit der ersten der mehreren 2-D-Segmentierungen verknüpft ist, zu bestimmen. Hier ist typischerweise nur der Abstand in der Richtung senkrecht zur Epipolarlinie von Interesse. Diese Referenzpunkte können ein korrespondierendes Merkmal der ROI markieren, z. B. in dem oben genannten Beispiel die oberen oder unteren Ecken.
		Die Projektion kann basierend auf der vordefinierten Registrierung, z. B. der Fundamentalmatrix, bestimmt werden.
		Das Erzwingen, dass die 2-D-Segmentierungen in derselben Epipolarebene liegen, kann bedeuten, dass eine Verlustfunktion einen Wert einer Kostenfunktion bestimmt, der während einer iterativen numerischen Optimierung, die das Training implementiert, minimiert wird, wobei die Verlustfunktion den Wert der Kostenfunktion in Abhängigkeit von diesem Abstand bestimmt. Größere Abstände werden dadurch bestraft. Größere Abstände sind mit einer verringerten Ansichtskonsistenz verknüpft.
		Somit ist es möglich, eine Ansichtskonsistenz zwischen den 2-D-Segmentierungen, die mit den mehreren Ansichten verknüpft sind, basierend auf einer vordefinierten Registrierung zu bestimmen. Hierfür wäre es möglich, die Fundamentalmatrix - vgl. TAB. 1 - zu nutzen. Der Wert der Kostenfunktion wird in Abhängigkeit von der Ansichtskonsistenz bestimmt.
		Eine mögliche Realisierung des
		Abstands zu den Epipolarlinien könnte der gegenseitige Abstand sein, d. h. der Abstand der Unterkante einer ersten 2-D-Segmentierung zu den Epipolarlinien, die durch die Unterkante einer zweiten 2-D-Segmentierung definiert sind, kombiniert mit dem Abstand der Unterkante der zweiten 2-D-Segmentierung zu den Epipolarlinien, die durch die Unterkante der ersten 2-D-Segmentierung definiert sind.
		Ferner kann der Abstand als euklidisches Maß in senkrechter Richtung zur Epipolarebene definiert werden. Das Maß wäre minimal, wenn beide 2-D-Segmentierungen dieselbe ROI umschließen. Andere Abstandsmaße sind möglich.
II.	Bei der Inferenz: 2-D-Segmentierungen und Ansichtskonsistenz	In vergleichbarer Weise wie in Beispiel I wäre es möglich, die vordefinierte Registrierung beim Bestimmen und die Ansichtskonsistenz zwischen den 2-D-Segmentierungen, die mit den mehreren Ansichten verknüpft sind, bei der Inferenz zu berücksichtigen.
		Beispielsweise wäre es möglich, den Abstand zwischen einem ersten Referenzpunkt einer ersten der mehreren 2-D-Segmentierungen (z. B. der oberen oder der unteren Ecke) und der Projektion eines zweiten Referenzpunktes einer zweiten der mehreren 2-D-Segmentierungen in die Ansicht, die mit der ersten der mehreren 2-D-Segmentierungen verknüpft ist, zu bestimmen. Größere Abstände sind mit einer verringerten Ansichtskonsistenz verknüpft und umgekehrt.
		Diese Projektion könnte durch die Epipolarlinie implementiert werden, die durch die jeweilige Ansicht definiert ist.
		Auch hier wäre es, wie bereits in Beispiel I erläutert, möglich, mehrere Abstände zwischen mehreren Referenzpunkten und jeweiligen Projektionen, z. B. Ober- und Unterkanten der 2-D-Segmentierungen, zu berücksichtigen.
		Es wäre auch möglich, Abstände für eine Projektion von einer ersten Ansicht zu einer zweiten Ansicht sowie von der zweiten Ansicht zur ersten Ansicht zu berücksichtigen, d. h. gegenseitige Abstände zu berücksichtigen.
III.	Bei Training und Inferenz: 3-D-Segmentierung	In einigen Beispielen wäre es möglich, dass das NN so trainiert wird, dass es eine 3-D-Segmentierung bestimmt, d.h. es kann ein einziger
		Decodiererzweig verwendet werden, der die 3-D-Segmentierung mit einer 3-D-Position und einer 3-D-Ausdehnung im Bezugssystem bestimmt. Dann wäre es möglich, die 2-D-Segmentierungen aus der 3-D-Segmentierung abzuleiten, indem die vordefinierte Registrierung verwendet wird. Es kann eine Projektion der 3-D-Struktur der 3-D-Segmentierung in die 2-D-Projektionsbilder bestimmt werden.
		Beim Training kann ein Abstandsmaß zwischen der vom NN ausgegebenen 3-D-Segmentierung und den 2-D-Segmentierungen der Grundwahrheit festgestellt werden, und der Wert der Kostenfunktion kann durch die Verlustfunktion unter Berücksichtigung des Abstandsmaßes bestimmt werden.
		Beispielsweise kann der Wert der Kostenfunktion basierend auf dem Abstand der 2-D-Segmentierung, die durch die Grundwahrheit definiert ist, zur jeweiligen Projektion der 3-D-Segmentierung in die Ansicht, die mit dem jeweiligen 2-D-Projektionsbild verknüpft ist, bestimmt werden. Alternativ kann der Abstand auch durch Rückprojektion der 2-D-Segmentierung in den 3-D-Raum gemessen werden, indem der Abstand zwischen der rückprojizierten 2-D-Segmentierung und der vom Netz vorhergesagten 3-D-Segmentierung geschätzt wird.
		In einem solchen Szenario ist die Ansichtskonsistenz der 2-D-Segmentierungen während der Inferenzphase inhärent gegeben, da die 2-D-Segmentierungen basierend auf ein und derselben 3-D-Segmentierung unter Verwendung der vordefinierten Registrierung bestimmt werden.

TAB. 2: Verschiedene Möglichkeiten zum Berücksichtigen einer vordefinierten Registrierung der mehreren Ansichten und eines Bezugssystems. Option I und II können auf der Fundamentalmatrix beruhen. Dies trägt dazu bei, die erforderlichen geometrischen Beziehungen auf ein Minimum zu beschränken, was den Registrierungsprozess der beiden Ansichten im Hinblick auf die Menge der zu schätzenden Parameter vereinfacht. Der einfachere Registrierungsprozess hat jedoch den Preis, dass die Regularisierung nur in Bezug auf den Abstand zur Epipolarebene/-linie möglich ist, verglichen mit der vollständigen Kenntnis der ROI-Position in 3-D wie in Beispiel III.
1 zeigt eine schematische Darstellung eines Systems 90 gemäß verschiedenen Beispielen. Das System 90 weist eine Bildgebungseinrichtung 91 auf, z. B. einen Röntgen-C-Bogen. Mehrere 2-D-Projektionsbilder 201, 202 werden mithilfe der Bildgebungseinrichtung 91 aufgenommen und an eine Vorrichtung 92 bereitgestellt. Die Vorrichtung 92 weist einen Prozessor 94 und einen Speicher 95 auf. Der Prozessor 94 kann die 2-D-Projektionsbilder 201, 202 über die Schnittstelle 93 erhalten und die 2-D-Projektionsbilder 201, 202 verarbeiten. Zum Verarbeiten der 2-D-Projektionsbilder 201, 202 kann der Prozessor 94 Programmcode aus dem Speicher 95 laden und ausführen.
Die Projektionsbilder 201, 202 könnten während einer Trainingsphase und/oder einer Inferenzphase eines NN verarbeitet werden, die vom Prozessor 94 nach dem Laden von Programmcode aus dem Speicher 95 ausgeführt werden kann/können. Aspekte in Bezug auf die Trainingsphase und die Inferenzphase werden weiter unten im Zusammenhang mit 2 erläutert.
2 ist ein Flussdiagramm eines Verfahrens gemäß verschiedenen Beispielen. Das Verfahren von 2 könnte durch den Prozessor 94 der Vorrichtung 92 des Systems 90 implementiert werden, wie im Zusammenhang mit 1 erörtert.
In Kasten 3005 wird eine Trainingsphase implementiert. Hier wird ein NN für das Verarbeiten von 2-D-Projektionsbildern trainiert. Dazu kann eine iterative numerische Optimierung implementiert werden. Die Parameter mehrerer Schichten des NN können in jeder Iteration der numerischen iterativen Optimierung angepasst werden. Dies kann geschehen, um einen Wert einer Kostenfunktion zu minimieren. Der Wert der Kostenfunktion kann basierend auf einer Verlustfunktion bestimmt werden. Der Wert der Kostenfunktion kann von der Differenz zwischen einer Vorhersage des NN und den tatsächlichen Grundwahrheitskennzeichnungen abhängen. Die Grundwahrheitskennzeichnungen könnten von Hand bestimmt werden. Beispielsweise kann ein Gradientenabstiegsschema verwendet werden, um die Parameter des NN zu ändern. Rückwärtspropagierung kann verwendet werden.
Das NN kann dafür ausgelegt sein, verschiedene Vorhersagen in Bezug auf einen semantischen Kontext der 2-D-Projektionsbilder zu treffen. Beispielsweise könnte eine ROI erkannt werden. Insbesondere könnte eine Segmentierung einer durch die 2-D-Projektionsbilder dargestellten ROI bereitgestellt werden. Konkreter könnten mehrere 2-D-Segmentierungen bereitgestellt werden, eine für jedes der mehreren 2-D-Projektionsbilder, d.h. die ROI - die aus mehreren Perspektiven mit Hilfe der mehreren 2-D-Projektionsbilder dargestellt wird - könnte in jedem der mehreren 2-D-Projektionsbilder hervorgehoben werden. Alternativ oder zusätzlich wäre es auch möglich, ein Objekt zu klassifizieren, das die ROI definiert. Die ROI könnte zum Beispiel das Erscheinungsbild einer Krankheit enthalten. Dann kann die Krankheit klassifiziert werden.
Sobald das NN trainiert ist, kann Kasten 3010 ausgeführt werden. Hier ist es möglich, die 2-D-Segmentierungen der ROI abzuleiten bzw. die ROI zu klassifizieren, ohne dass eine Grundwahrheit verfügbar ist. Kasten 3010 bezeichnet die Inferenzphase.
3 stellt schematisch eine mögliche Architektur des NN 250 dar. 3 zeigt schematisch eine Eingabe in das NN 250, die die 2-D-Projektionsbilder 201, 202 beinhaltet.
Es gibt zwei Codiererzweige 251, 252, die an den 2-D-Projektionsbildern 201, 202 arbeiten, um latente Merkmale zu extrahieren. In einem gemeinsamen Codiererzweig 261 werden diese latenten Merkmale jedes einzelnen der beiden Projektionsbilder 201, 202 zusammengeführt, um einen Satz gemeinsamer latenter Merkmale zu bestimmen.
Dieser Satz gemeinsamer latenter Merkmale wird dann den Decodiererzweigen 271, 272 zugeführt. Eine Ausgabe 281 des Decodiererzweigs 271 stellt eine Klassifizierung einer ROI 209, die durch die 2-D-Projektionsbilder 201, 202 dargestellt ist, bereit. Im dargestellten Beispiel könnte die ROI 209 die Wirbelsäule eines Patienten aufweisen, z. B. einen Wirbel, der eine Fraktur aufweist. Solche Informationen (z. B. die Angabe des jeweiligen Wirbels und eines Frakturtyps, etwa Typ A, Kompressionsverletzung, gegenüber Typ B, Distraktionsverletzung, gegenüber Typ C, Translationsverletzung, oder Informationen über einen neurologischen Status) könnten durch die jeweiligen Ausgabedaten 281 angezeigt werden.
Der ebenfalls als Ausgang 282 des Decodiererzweigs 272 dargestellte Ausgang 282 kann mehrere 2-D-Segmentierungen der ROI enthalten. Beispielsweise könnten korrespondierende Pixelmasken oder Begrenzungsrahmen ausgegeben werden; solche Daten können den 2-D-Projektionsbildern 201, 202 überlagert werden, um die ROI hervorzuheben.
Im abgebildeten Beispiel ist ein einzelner Decodiererzweig 272 dargestellt. Es wäre möglich, dass mehrere separate Decodiererzweige parallel verwendet werden, einer für jede 2-D-Segmentierung. Hier können 2-D-Segmentierungen nativ vom NN 250 ausgegeben werden.
Es wäre auch möglich, einen gemeinsamen Decodiererzweig zu verwenden, der eine 3-D-Segmentierung der ROI ausgibt. Die mehreren 2-D-Segmentierungen können dann aus der 3-D-Segmentierung abgeleitet werden, unter Berücksichtigung einer vordefinierten Registrierung zwischen den mehreren Ansichten, die mit den 2-D-Projektionsbildern 201, 202 in einem Bezugssystem verknüpft sind.
4 ist ein Flussdiagramm eines Verfahrens gemäß verschiedenen Beispielen. Beispielsweise könnte das Verfahren von 4 von Prozessor 94 der Vorrichtung 92 ausgeführt werden, nachdem Programmcode aus dem Speicher 95 geladen wurde. Das Verfahren von 4 bezieht sich auf die Inferenz unter Verwendung eines NN, das zuvor trainiert wurde. So könnte 4 verwendet werden, um den Kasten 3010 des Verfahrens von 2 zu implementieren.
Das Flussdiagramm von 4 veranschaulicht ein Szenario, in dem mehrere 2-D-Segmentierungen separat gewonnen werden, z. B. mithilfe von separaten Decodiererzweigen des NN. Anschließend kann eine Ansichtskonsistenz bestimmt werden; vgl. TAB. 2: Beispiel II. Das Verfahren von 4 kann beispielsweise auf der Fundamentalmatrix beruhen, vgl. TAB. 1.
Im Einzelnen werden in Kasten 3105 mehrere 2-D-Projektionsbilder gewonnen. Dies könnte beispielsweise das Senden von Steueranweisungen an eine Bildgebungseinrichtung wie etwa die Bildgebungseinrichtung 91 des Systems 90 beinhalten. Dann können die 2-D-Projektionsbilder von der Bildgebungseinrichtung 91 empfangen werden. Die 2-D-Projektionsbilder könnten auch aus einem Bildarchivierungssystem (PACS, Picture Archiving System) eines Krankenhauses geladen werden.
Die mehreren 2-D-Projektionsbilder können mit vordefinierten Ansichten verknüpft werden, z. B. entsprechend einer bestimmten Lagerung des Patienten und einer Konfiguration der Bildgebungseinrichtung. So kann beispielsweise eine Vorder- und Seitenansicht des Patienten definiert werden.
Als Nächstes werden in Kasten 3110 unter Verwendung wenigstens eines NN mehrere 2-D-Segmentierungen einer ROI bestimmt, die in einer Szene enthalten ist, die durch die mehreren 2-D-Projektionsbilder mittels mehrerer Ansichten dargestellt wird. Diese mehreren 2-D-Segmentierungen sind mit mehreren Ansichten verknüpft. Für jede der mehreren Ansichten kann eine korrespondierende 2-D-Segmentierung bestimmt werden.
Beispielsweise könnte das NN 250 mit verschiedenen Untermodulen wie etwa den Codiererzweigen 251-252, 261 sowie dem Decodiererzweig 272 verwendet werden. Für jede der mehreren 2-D-Segmentierungen kann ein separater Decodiererzweig bereitgestellt werden. Verschiedene Codiererzweige können mit unterschiedlichen Ansichten der Szene verknüpft werden. So können die Ansichten vordefiniert werden. Es wäre auch möglich, die Ansichten zu bestimmen - z. B. mittels eines weiteren NN oder basierend auf einer Benutzereingabe - und dann den korrespondierenden Codiererzweig auszuwählen.
Danach kann in Kasten 3115 eine Ansichtskonsistenz zwischen den 2-D-Segmentierungen, die mit dem mehreren Ansichten verknüpft sind, bestimmt werden. Dies kann basierend auf der vordefinierten Registrierung der mehreren Ansichten in einem Bezugssystem erfolgen. Korrespondierende Aspekte wurden oben im Zusammenhang mit TAB. 1 erörtert.
Konkret wäre es möglich, dass die Bestimmung der Ansichtskonsistenz in Kasten 3115 auf der Fundamentalmatrix basiert.
Die Fundamentalmatrix - oder allgemein die vordefinierte Registrierung - kann basierend auf dem Vorwissen über die Konfiguration der Bildgebungseinrichtung, die für die Erfassung der mehreren 2-D-Projektionsbilder verwendet wird, bestimmt werden. Ist zum Beispiel die Konfiguration des C-Bogen-Röntgengeräts bekannt, kann daraus auf die Ansichten geschlossen werden und kann dann die Fundamentalmatrix abgeleitet werden. Die Fundamentalmatrix kann berechnet oder aus einer Nachschlagetabelle geladen werden. Alternativ oder zusätzlich könnte auch eine Objekterkennung durchgeführt werden, um die Ansichten zu identifizieren. Es wäre möglich, eine Benutzereingabe zu erhalten.
Es gibt verschiedene Möglichkeiten, die Ansichtskonsistenz in Kasten 3115 zu bestimmen. Erfindungsgemäß wird die Ansichtskonsistenz basierend auf einem Abstand zwischen einem ersten Referenzpunkt einer ersten der mehreren 2-D-Segmentierungen und der Projektion eines zweiten Referenzpunktes einer zweiten der mehreren 2-D-Segmentierungen in die Ansicht der mehreren Ansichten, die mit der ersten der mehreren 2-D-Segmentierungen verknüpft ist, bestimmt. Der erste Referenzpunkt und der zweite Referenzpunkt können ein korrespondierendes Merkmal der ROI markieren, z. B. eine obere oder untere Kante oder eine Ecke einer jeweiligen 2-D-Segmentierung oder ein Merkmal der zugrunde liegenden Szene, das in den mehreren 2-D-Projektionsbildern abgebildet ist. Die Projektion des zweiten Referenzpunkts kann basierend auf der vordefinierten Registrierung, z. B. mithilfe der Fundamentalmatrix, bestimmt werden. Eine solche Projektion kann eine in der Ansicht definierte Epipolarlinie aufweisen, die mit der ersten der mehreren 2-D-Segmentierungen verknüpft ist.
Die Ansichtskonsistenz kann nicht nur basierend auf der Projektion des zweiten Referenzpunktes in die mit der ersten der mehreren 2-D-Segmentierungen verknüpfte Ansicht bestimmt werden; erfindungsgemäß wird die Ansichtskonsistenz basierend auf einem weiteren Abstand zwischen dem zweiten Referenzpunkt und der Projektion des ersten Referenzpunktes in die mit der zweiten der mehreren 2-D-Segmentierungen verknüpfte Ansicht der mehreren Ansichten bestimmt, d.h. es wird ein gegenseitiger Abstand berücksichtigt.
Die Epipolarlinie ist im Zusammenhang mit der Geometrie der mehreren Ansichten gut definiert. Nachstehend folgt eine kurze Erläuterung. Betrachtet sei ein Objektpunkt, der einen Bildpunkt in der ersten Ansicht definiert und ferner einen Bildpunkt in der zweiten Ansicht definiert (d. h. der Objektpunkt ist in beiden Ansichten sichtbar). Die Epipolarlinie, die durch diesen Objektpunkt in der ersten Ansicht in Bezug auf die zweite Ansicht definiert wird, ist durch den Bildpunkt in der ersten Ansicht und den Epipolarpunkt der zweiten Ansicht, der in der Bildebene der ersten Ansicht definiert ist, gegeben. Der Epipolarpunkt ist definiert als der Schnittpunkt der Linien, die die Mittelpunkte der virtuellen Kameras mit der Bildebene der ersten Ansicht verbinden. Die Epipolarlinien sind auch in 5 dargestellt.
5 veranschaulicht die 2-D-Segmentierungen, die mit den Ansichten der 2-D-Projektionsbilder 201 und 202 verknüpft sind, hier als Begrenzungsrahmen 315, 316 implementiert. Ebenfalls dargestellt sind die Epipolarlinien 351 und 352 des oberen Randes 316A des Begrenzungsrahmens 316, der mit dem 2-D-Projektionsbild 202 verknüpft ist, und des unteren Randes 316B des Begrenzungsrahmens 316. Ebenfalls dargestellt sind die Epipolarlinien 361 und 362, die mit der Oberkante 315A bzw. der Unterkante 315B des Begrenzungsrahmens 315 verknüpft sind. Und schließlich sind die Abstandsmaße 381-384 und 391-394 dargestellt.
Somit definieren die Kanten 315A, 315B, 316A, 316B Referenzpunkte, die zum Bestimmen der Ansichtskonsistenz verwendet werden.
Eine geeignete Metrik zum Bestimmen eines Abstands zwischen, z. B., der Epipolarlinie 351 und der Oberkante 315A des Begrenzungsrahmens 315 könnte, z. B., die Abstandsmaße 383 und die Abstandsmaße 384 berücksichtigen.
Bei der GesamtAnsichtskonsistenz könnten alle Abstandsmaße 381-384, 391-394 berücksichtigt werden.
Es wäre dann möglich, die Ansichtskonsistenz zu erzwingen. Dies kann durch Anpassen der mehreren 2-D-Segmentierungen erfolgen. Beispielsweise könnten die Begrenzungsrahmen 315, 316 vergrößert oder verkleinert werden. Das Seitenverhältnis kann geändert werden. Korrespondierende Szenarien sind in 4 für Kasten 3120 und Kasten 3125 dargestellt.
In Kasten 3120 von 4 wird geprüft, ob die Ansichtskonsistenz, die bei der aktuellen Iteration von Kasten 3115 bestimmt wurde, ein vordefiniertes Kriterium erfüllt. Wenn beispielsweise ein Abstand zwischen einem ersten Referenzpunkt in der ersten Ansicht und der Epipolarlinie für den korrespondierenden zweiten Referenzpunkt in der zweiten Ansicht bestimmt wird, wäre es möglich zu beurteilen, ob dieser Abstand kleiner als ein vordefinierter Schwellenwert ist. Wenn dies der Fall ist, dann ist die Ansichtskonsistenz akzeptabel. Andernfalls wäre es möglich, die 2-D-Segmentierungen anzupassen, z. B. durch Vergrößern oder Verkleinern des segmentierten Bereichs, der mit wenigstens einer der Ansichten verknüpft ist, in Kasten 3125.
Basierend auf den angepassten 2-D-Segmentierungen könnte dann eine weitere Iteration von Kasten 3115 ausgeführt, d. h. die Ansichtskonsistenz für die aktualisierten 2-D-Segmentierungen bestimmt werden.
Sobald ein konsistenter Satz von 2-D-Segmentierungen gefunden wurde, kann Kasten 3130 ausgeführt werden. Hier kann eine Klassifizierung der ROI basierend auf den mehreren 2-D-Segmentierungen vorgenommen werden.
Dabei kann auch die Genauigkeit der Klassifizierung von einer genaueren Bestimmung der 2-D-Segmentierungen profitieren, da die Auferlegung epipolarer Beschränkungen dazu beitragen kann, Mehrdeutigkeiten des isolierten Lernens aus einer einzelnen Ansicht aufzulösen.
6 ist ein Flussdiagramm eines Verfahrens gemäß verschiedenen Beispielen. Beispielsweise könnte das Verfahren von 6 von Prozessor 94 der Vorrichtung 92 ausgeführt werden, nachdem Programmcode aus dem Speicher 95 geladen wurde. Das Verfahren von 6 bezieht sich auf die Inferenz unter Verwendung eines NN, das zuvor trainiert wurde. So könnte 6 verwendet werden, um den Kasten 3010 des Verfahrens von 2 zu implementieren.
Das Flussdiagramm von 6 veranschaulicht ein Szenario, in dem mehrere 2-D-Segmentierungen basierend auf einer gemeinsamen 3-D-Segmentierung bestimmt werden. Dadurch kann eine Ansichtskonsistenz inhärent bereitgestellt werden, vgl. TAB. 2: Beispiel I. Das Verfahren von 6 kann beispielsweise auf der Projektionsmatrix beruhen, vgl. TAB. 1.
In Kasten 3205 werden mehrere 2-D-Projektionsbilder gewonnen. Somit kann Kasten 3205 dem Kasten 3105 entsprechen.
In Kasten 3210 wird eine 3-D-Segmentierung einer ROI in der Szene unter Verwendung des NN bestimmt.
Es ist dann möglich, in Kasten 3215 mehrere 2-D-Segmentierungen der ROI zu bestimmen, die mit den mehreren Ansichten der Szene verknüpft sind, die mit den mehreren 2-D-Projektionsbildern verknüpft sind, die in Kasten 3205 basierend auf einer vordefinierten Registrierung - z. B. der Projektionsmatrix - und basierend auf der 3-D-Segmentierung gewonnen werden.
In Kasten 3220 wird eine Klassifizierung der ROI durchgeführt. Kasten 3220 entspricht Kasten 3130.
7 zeigt die 3-D-Segmentierung 301 und die 2-D-Begrenzungsrahmen 311, 312, die, wie insbesondere bei der Implementierung von 2-D-Segmentierungen, basierend auf der 3-D-Segmentierung 301 abgeleitet werden können.
8 ist ein Flussdiagramm eines Verfahrens gemäß verschiedenen Beispielen. Beispielsweise könnte das Verfahren von 8 von Prozessor 94 der Vorrichtung 92 ausgeführt werden, nachdem Programmcode aus dem Speicher 95 geladen wurde. Das Verfahren von 8 bezieht sich auf das Trainieren eines NN. So könnte 8 verwendet werden, um den Kasten 3005 des Verfahrens von 2 zu implementieren.
Konkret könnte das Verfahren von 8 genutzt werden, um ein NN zu trainieren, das z. B. im Verfahren von 4 verwendet wird. Das Trainieren des NN von 8 kann auch für ein NN verwendet werden, das in dem Verfahren von 6 eingesetzt wird.
In Kasten 3305 werden mehrere 2-D-Projektionsbilder gewonnen, die mit mehreren Ansichten der Szene verknüpft sind. Kasten 3305 entspricht somit entweder Kasten 3105 oder Kasten 3205.
In Kasten 3310 werden Grundwahrheitsetiketten für die mehreren 2-D-Projektionsbilder von Kasten 3305 erhalten. Beispielsweise könnte ein Arzt 2-D-Segmentierungen zu jedem der mehreren 2-D-Projektionsbilder, die er in Kasten 3305 gewinnt, mit manuellen Anmerkungen versehen.
Die Grundwahrheitsetiketten definieren 2-D-Referenzsegmentierungen.
In Kasten 3315 ist es dann möglich, mit Hilfe des wenigstens einen NN mehrere 2-D-Segmentierungen der ROI zu bestimmen.
In Kasten 3320 ist es dann möglich, einen Wert einer Kostenfunktion zu bestimmen, basierend auf den mehreren 2-D-Segmentierungen, den mehreren 2-D-Referenzsegmentierungen, die den Grundwahrheitsetiketten entsprechen, und der vordefinierten Registrierung der mehreren Ansichten im Bezugssystem.
Anschließend können in Kasten 3325 basierend auf einem Wert einer Kostenfunktion die Parameterwerte angepasst werden, was als Trainieren des wenigstens einen NN bezeichnet wird.
Beispielsweise könnte das Bestimmen des Wertes der Kostenfunktion in Kasten 3320 beinhalten, eine Ansichtskonsistenz zwischen den 2-D-Segmentierungen, die mit den mehreren Ansichten verknüpft sind, wie sie vom NN in Kasten 3315 bestimmt wurden, zu bestimmen. Der Wert der Kostenfunktion kann also nicht nur von der Differenz der vom NN bestimmten 2-D-Segmentierungen zu den 2-D-Referenzsegmentierungen abhängen, sondern auch von der Ansichtskonsistenz. Die Ansichtskonsistenz kann basierend auf der vordefinierten Registrierung der mehreren Ansichten im Bezugssystem bestimmt werden. Korrespondierende Verfahren wurden oben im Zusammenhang mit Kasten 3115 und 5 erläutert und können an dieser Stelle in gleicher Weise zur Anwendung kommen.
Die mehreren 2-D-Segmentierungen könnten auch basierend auf der vordefinierten Registrierung und einer 3-D-Segmentierung bestimmt werden, wie vorstehend im Zusammenhang mit 6 und 7 erläutert. Die 3-D-Segmentierung kann in die Ansichten projiziert werden, die mit den 2-D-Projektionsbildern verknüpft sind.
Das Verfahren von 7 kann für mehrere Sätze von 2-D-Projektionsbildern immer wieder wiederholt werden.
Zusammenfassend wurden Verfahren beschrieben, die es ermöglichen, die geometrische Beziehung zwischen zwei Ansichten in das Training eines NN und/oder die Inferenz unter Verwendung des NN zu integrieren, um dadurch eine bessere Klassifizierung und/oder Erkennung zu erhalten, indem das Netz bestraft wird, die korrespondierenden geometrischen Beziehungen zu integrieren.
Dies kann zu genaueren Ergebnissen führen, die ferner für Ärzte, die mit der computergestützten Erkennungs-/Diagnosevorrichtung arbeiten, besser interpretierbar und akzeptabel sind. Dies basiert auf der vollständigen Kenntnis der Orientierung und Position einer ROI in 3-D, was die Schätzung einer 3-D-Segmentierung ermöglicht.

Claims

Verfahren, umfassend: - Erhalten von mehreren 2-D-Projektionsbildern (201, 202), die mit mehreren Ansichten einer Szene verknüpft sind, - Bestimmen, während einer Interferenzphase, unter Verwendung wenigstens eines Algorithmus basierend auf einem neuronalen Netz (250) und für die mehreren 2-D-Projektionsbilder (201, 202), mehrerer 2-D-Segmentierungen (315, 316) einer Interessensregion (209) in der Szene, wobei die mehreren 2-D-Segmentierungen (315, 316) mit den mehreren Ansichten verknüpft sind, und - basierend auf einer vordefinierten Registrierung der mehreren Ansichten in einem Bezugssystem, Bestimmen einer Ansichtskonsistenz zwischen den 2-D-Segmentierungen (315, 316), die mit den mehreren Ansichten verknüpft sind, wobei das Bestimmen der Ansichtskonsistenz umfasst: - Bestimmen eines ersten Abstands (381-384, 391-394) zwischen einem ersten Referenzpunkt (315A, 315B, 316A, 316B) einer ersten der mehreren 2-D-Segmentierungen (315, 316) und einer Projektion eines zweiten Referenzpunkts (315A, 315B, 316A, 316B) einer zweiten der mehreren 2-D-Segmentierungen (315, 316) in die Ansicht der mehreren Ansichten, die mit der ersten der mehreren 2-D-Segmentierungen (315, 316) verknüpft ist, - Bestimmen eines zweiten Abstands zwischen dem zweiten Referenzpunkt (315A, 315B, 316A, 316B) und einer Projektion des ersten Referenzpunkts (315A, 315B, 316A, 316B) in die Ansicht der mehreren Ansichten, die mit der zweiten der mehreren 2-D-Segmentierungen (315, 316) verknüpft ist, wobei der erste Referenzpunkt (315A, 315B, 316A, 316B) und der zweite Referenzpunkt (315A, 315B, 316A, 316B) ein korrespondierendes Merkmal der Interessensregion (209) markieren, wobei die Projektion des ersten Referenzpunkts (315A, 315B, 316A, 316B) und des zweiten Referenzpunktes (315A, 315B, 316A, 316B) basierend auf der vordefinierten Registrierung bestimmt wird.
Verfahren nach Anspruch 1, wobei das Bestimmen der Ansichtskonsistenz auf einer Fundamentalmatrix basiert, die die vordefinierte Registrierung definiert.
Verfahren nach einem der vorstehenden Ansprüche, ferner umfassend: - Erzwingen der Ansichtskonsistenz durch Anpassen der mehreren 2-D-Segmentierungen (315, 316).
Verfahren nach einem der vorstehenden Ansprüche, wobei die Projektion des zweiten Referenzpunktes (315A, 315B, 316A, 316B) in die Ansicht, die mit der ersten der mehreren 2-D-Segmentierungen (315, 316) verknüpft ist, eine Epipolarlinie umfasst, die in der Ansicht definiert ist, die mit der ersten der mehreren 2-D-Segmentierungen (315, 316) verknüpft ist.
Verfahren nach einem der vorstehenden Ansprüche, ferner umfassend: - Bestimmen einer Klassifizierung eines Objekts, das die Interessensregion (209) definiert, basierend auf den mehreren 2-D-Segmentierungen (311, 312, 315, 316).
Verfahren nach einem der vorstehenden Ansprüche, ferner umfassend: - Bestimmen der Registrierung der mehreren Ansichten im Bezugssystem basierend auf wenigstens entweder dem Vorwissen über ein Erscheinungsbild der Interessensregion (209) und/oder einer Konfiguration einer Bildgebungseinrichtung, die verwendet wurde, um die mehreren 2-D-Projektionsbilder (201, 202) zu erfassen.
Vorrichtung (92), einen Prozessor (94) umfassend, der ausgelegt ist zum: - Erhalten von mehreren 2-D-Projektionsbildern (201, 202), die mit mehreren Ansichten einer Szene verknüpft sind, - Bestimmen, während einer Interferenzphase, unter Verwendung wenigstens eines Algorithmus basierend auf einem neuronalen Netz (250) und für die mehreren 2-D-Projektionsbilder (201, 202), mehrerer 2-D-Segmentierungen (315, 316) einer Interessensregion (209) in der Szene, wobei die mehreren 2-D-Segmentierungen (315, 316) mit den mehreren Ansichten verknüpft sind, und - basierend auf einer vordefinierten Registrierung der mehreren Ansichten in einem Bezugssystem, Bestimmen einer Ansichtskonsistenz zwischen den 2-D-Segmentierungen (315, 316), die mit den mehreren Ansichten verknüpft sind wobei das Bestimmen der Ansichtskonsistenz umfasst: - Bestimmen eines ersten Abstands (381-384, 391-394) zwischen einem ersten Referenzpunkt (315A, 315B, 316A, 316B) einer ersten der mehreren 2-D-Segmentierungen (315, 316) und einer Projektion eines zweiten Referenzpunkts (315A, 315B, 316A, 316B) einer zweiten der mehreren 2-D-Segmentierungen (315, 316) in die Ansicht der mehreren Ansichten, die mit der ersten der mehreren 2-D-Segmentierungen (315, 316) verknüpft ist, - Bestimmen eines zweiten Abstands zwischen dem zweiten Referenzpunkt (315A, 315B, 316A, 316B) und einer Projektion des ersten Referenzpunkts (315A, 315B, 316A, 316B) in die Ansicht der mehreren Ansichten, die mit der zweiten der mehreren 2-D-Segmentierungen (315, 316) verknüpft ist, wobei der erste Referenzpunkt (315A, 315B, 316A, 316B) und der zweite Referenzpunkt (315A, 315B, 316A, 316B) ein korrespondierendes Merkmal der Interessensregion (209) markieren, wobei die Projektion des ersten Referenzpunkts (315A, 315B, 316A, 316B) und des zweiten Referenzpunktes (315A, 315B, 316A, 316B) basierend auf der vordefinierten Registrierung bestimmt wird.
Computerprogrammprodukt, Anweisungen umfassend, die, wenn das Programm von einem Computer ausgeführt wird, bewirken, dass der Computer das Verfahren nach einem der Ansprüche 1 bis 6 ausführt.
Computerlesbares Medium, Anweisungen umfassend, die bei Ausführung durch einen Computer bewirken, dass der Computer das Verfahren nach einem der Ansprüche 1 bis 6 ausführt.