DE102021120300A1

DE102021120300A1 - Fusion von räumlichem und zeitlichem kontext für eine lokalisierung für visualisierungssysteme

Info

Publication number: DE102021120300A1
Application number: DE102021120300.7A
Authority: DE
Inventors: Stefan Saur; Markus PHILIPP; Anna Alperovich; Franziska Mathis-Ullrich
Original assignee: Carl Zeiss Meditec AG; Karlsruher Institut fuer Technologie KIT
Current assignee: Carl Zeiss Meditec AG; Karlsruher Institut fuer Technologie KIT
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2023-02-09
Also published as: US20230045686A1

Abstract

Es wird ein Computer-implementiertes Verfahren für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern beschrieben. Das Verfahren weist dabei ein Bestimmen von Parameterwerten eines Bewegungskontextes durch Nutzung der mindestens zwei digitalen Bilder und ein Bestimmen eines Einflussparameterwertes, der einen Einfluss von einem der digitalen Bilder und den Parameterwerten des Bewegungskontextes auf die Eingangsdaten steuert, die innerhalb eines ersten trainierten maschinellen Lernsystems, welches ein erstes Lernmodell aufweist, zur Erzeugung des Steuerungssignals verwendet werden, auf.

Description

Gebiet der Erfindung
Die Erfindung bezieht sich auf ein Computer-implementiertes Verfahren für eine Erzeugung eines Steuerungssignals, und genauer gesagt auf ein Computer-implementiertes Verfahren für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern. Die Erfindung bezieht sich ferner auf ein entsprechendes Steuerungssystem für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern und ein entsprechendes Computerprogrammprodukt.
Technischer Hintergrund
Bei komplizierten Operationen, zum Beispiel Neurooperationen und/oder Operationen am Gehirn (zum Beispiel Tumorentfernung) oder der Wirbelsäule, werden vermehrt robotische Assistenzsysteme und Assistenzfunktionen, beispielsweise für Operationsmikroskope, eingesetzt. Diese benötigen in der Regel ein Kontextverständnis der chirurgischen Szenen, idealerweise auf der Basis von aufgenommenen Kamerabilddaten. Eine wichtige, aus den Kamerabilddaten zu extrahierende Information besteht darin, wo der Chirurg im Blickfeld des Operationsmikroskops gerade mit seinen Operationsinstrumenten arbeitet. Diese Information kann durch eine Erkennung von Instrumentenspitzen im Kamerabild bestimmt werden. Dabei müssen eine Reihe von Hindernissen in Bezug auf die Sichtbedingungen überwunden werden. Dazu gehören einerseits zum Beispiel Einblutungen in das Operationsgeschehen, verschwommene Bildaufnahmen und insbesondere auch eine große Vielzahl von unterschiedlichen Instrumententypen, die der Chirurg verwenden kann.
Um dieses Problem zu adressieren wurde bereits versucht, räumliche Informationen - beispielsweise aus einem aufgenommenen Bild - und zeitliche Informationen - beispielsweise durch Berechnung des optischen Flusses (optical flow) - zu verwenden. Es wurden auch einige Anstrengungen unternommen, die räumlichen und zeitlichen Informationen durch ein maschinelles Lernsystem ohne weitere Randbedingungen zu verarbeiten. Allerdings hat sich nun herausgestellt, dass bei einem Zusammenfügen bzw. Fusionieren ohne zusätzliche Randbedingungen eine deutliche Gefahr dafür besteht, dass der verwendete Algorithmus Informationen aus einer der beiden Modalitäten - d.h. räumliche und zeitliche Information - bevorzugt bzw. ignoriert. Dies führt zu einer klaren Verfälschung der Interpretation der chirurgischen Szene und damit zu einer Erzeugung von falschen Steuerungssignalen für eventuell verwendete robotische Assistenzsysteme.
Wird der z.B. zeitlicher Kontext verwendet und der räumliche Kontext ignoriert, so ist ein Abfall der Erkennungsgenauigkeit von Instrumenten auf bekannten Daten in Abhängigkeit der Güte der zeitlichen Information (optischer Fluss) zu erwarten. Wird andererseits lediglich der räumliche Kontext verwendet, aber der zeitliche ignoriert, so reagiert ein normalerweise verwendeter Algorithmus schlechter auf unbekannte Szenen, Instrumente und Situationen, da räumliche Eingangsdaten eine höhere Variabilität aufweisen als zeitliche Eingangsdaten. Eine Nutzung beider Informationsmodalitäten ist jedoch mit Blick auf eine Generalisierungsfähigkeit von Instrumentenspitzenerkennung in stark veränderlichen Situationen erforderlich. Beispiele für veränderliche Situationen sind unterschiedliche Operationstypen an unterschiedlichen Anatomien, unterschiedliche Krankenhäuser und Operationsteams und eine hohe Variabilität von Instrumentenausprägungen in der Mikrochirurgie.
Somit besteht also ein Bedarf, die Unzulänglichkeiten der bestehenden Lösungen zu adressieren, insbesondere sicherzustellen, dass die verfügbaren Informationen, mit denen robotische Assistenzsysteme gesteuert werden können, in einem ausgewogenen Maße berücksichtigt werden - insbesondere räumliche und zeitliche Informationen - um somit sicherzustellen, dass Fehlinterpretationen durch die verwendeten Systeme - zum Beispiel bei Verwendung von neuen Instrumententypen - vermieden werden.
Übersicht über die Erfindung
Diese Aufgabe wird durch das hier vorgeschlagene Verfahren, das entsprechende System und das zugehörige Computerprogrammprodukt entsprechend den unabhängigen Ansprüchen gelöst. Weitere Ausgestaltungen werden durch die jeweils abhängigen Ansprüche beschrieben.
Entsprechend einem Aspekt der vorliegenden Erfindung wird ein Computer-implementiertes Verfahren für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern vorgestellt. Das Verfahren weist dabei ein Bereitstellen von mindestens zwei digitalen Bildern einer räumlich gleichen Szene mit einer Bewegung des Instrumentes in der Szene als Eingangsdaten, ein Bestimmen von Parameterwerten eines Bewegungskontextes durch Nutzung der mindestens zwei digitalen Bilder und ein Bestimmen eines Einflussparameterwertes auf, der einen Einfluss von einem der digitalen Bilder und den Parameterwerten des Bewegungskontextes auf die Eingangsdaten steuert, die innerhalb eines ersten trainierten maschinellen Lernsystems, welches ein erstes Lernmodell aufweist, zur Erzeugung des Steuerungssignals verwendet werden.
Entsprechend einem weiteren Aspekt der vorliegenden Erfindung, wird ein Steuerungssystem für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern vorgestellt. Das System weist einen Prozessor und einen mit dem Prozessor verbundenen Speicher auf, wobei der Speicher Programm-Code-Segmente speichern kann, die, wenn sie von dem Prozessor ausgeführt werden, den Prozessor veranlassen können zum Empfangen von mindestens zwei digitalen Bildern einer räumlich gleichen Szene mit einer Bewegung des Instrumentes in der Szene als Eingangsdaten, zum Bestimmen von Parameterwerten eines Bewegungskontextes durch Nutzung der mindestens zwei digitalen Bilder, und zum Bestimmen eines Einflussparameterwertes, der einen Einfluss von einem der digitalen Bilder und der Parameterwerte des Bewegungskontextes auf die Eingangsdaten steuert, die innerhalb eines ersten trainierten maschinellen Lernsystems, welches ein erstes Lernmodell aufweist, zur Erzeugung des Steuerungssignals verwendet werden können.
Das vorgeschlagene Computer-implementierte Verfahren für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern weist mehrere Vorteile und technische Effekte auf, die auch entsprechend für das zugehörige Steuerungssystem gelten können:
Das hier vorgeschlagene Konzept adressiert in vorteilhafter Weise die Unzulänglichkeiten bisher verwendeter Systeme zur Steuerung von Assistenzsystemen in der Mikrochirurgie. Die bisher unzureichende korrekt gewichtete Berücksichtigung verfügbarer Informationen unterschiedlicher Modalität - d.h. räumliche und zeitliche Informationen - können durch das hier vorgeschlagene Vorgehen in einer jeweils optimierten Art und Weise berücksichtigt werden, sodass Fehlinterpretationen der chirurgischen Szene vermieden werden. Dazu gehört insbesondere auch eine Erkennung von bisher unbekannten Instrumentenspitzen, die für eine sichere Funktion eines Operationsassistenzsystems sicher zu erkennen sein sollten.
Das hier vorgeschlagene Konzept ermöglicht eine in jeder Situation angemessene Kombination und Gewichtung unterschiedlicher Informationsmodalitäten - d.h. räumliche und zeitliche Informationen, sodass keine der Modalitäten über- oder untergewichtet werden. Dazu kann - im Gegensatz zu Systemen des Standes der Technik - das Training der beteiligten maschinellen Lernsysteme genauso wie deren Nutzung in der Vorhersagephase unter einer Berücksichtigung mindestens einer zusätzlichen Randbedingung erfolgen.
Auf diese Weise wird erreicht, dass auch unter schwierigen Bedingungen Instrumentenspitzen - auch von bisher unbekannten und/oder neuen Instrumenten - zuverlässiger erkannt werden. Dies wäre nicht der Fall, wenn z.B. nur der zeitliche Kontext verwendet werden würde und der räumliche Kontext ignoriert werden würde, wie dies bei klassischen Ansätzen der Fall sein kann. Zusätzlich wird auf der Basis des hier vorgeschlagenen Konzeptes vermieden, dass nur der räumliche Kontext verwendet wird und der zeitliche Kontext ignoriert wird, was dazu führen würde, dass der verwendete Algorithmus schlechter auf bisher ungesehene Situationen (z.B. neuer Operationstyp, neues Operationsteam mit neuem Vorgehen, ein anderes Krankenhaus, andere Lichtverhältnisse, usw.) reagieren würde, wie dies bei klassischen Ansätzen der Fall wäre.
Das hier vorgeschlagene Konzept unterstützt auch in effektiver Weise eine Erkennung von mehreren (beispielsweise zwei) Instrumenten in einer chirurgischen Szene, die gleichzeitig vom Chirurgen geführt werden. Eine Extrapolation von Bewegungsrichtungen und/oder Tangenten in Bezug auf die Bewegungsrichtungen der Instrumentenspitzen und einer Schnittpunktbestimmung derartiger Linien, lässt Steuerungssignale für ein robotisches Assistenzsystem generieren, die sicherstellen, dass das jeweilige robotische Assistenzsystem sich immer auf den Mittelpunkt der chirurgischen Szene - nämlich den aktuellen Kern des eigentlichen Eingriffes - fokussiert. Dieser kann durch den Schnittpunkt der Tangenten dargestellt werden.
Außerdem bietet das hier vorgestellte grundsätzliche Konzept eine Vielzahl von Variationsmöglichkeiten in Bezug auf Implementierungsvarianten um die Informationsmodalitäten - d.h. z.B. räumliche und zeitliche - in angemessener und ausgewogener Weise zu berücksichtigen. Außerdem lässt sich das vorgestellte grundsätzliche Konzept auf weitere Modalitäten elegant erweitern.
Darüber hinaus werden zwei unterschiedliche Arten vorgestellt, um Informationen von Merkmalstensoren der räumlichen und zeitlichen Modalität miteinander zu verknüpfen. Einerseits kann ein externer Steuerungsparameter verwendet werden, der beispielsweise mittels einer Bildunschärfekarte bestimmt werden kann. Andererseits ist es auch möglich, die Vorhersagegenauigkeit bzw. die Vorhersagesicherheit/-unsicherheit bzw. entsprechende Konfidenzwerte von Merkmalstensoren (d.h. entsprechende K, die den räumlichen Kontext (räumliche Modalität) bzw. den zeitlichen Kontext (zeitliche Modalität; optischer Fluss), von maschinellen Lernsystemen direkt für eine Gewichtung von Merkmalstensoren der räumlichen und zeitlichen Modalität bzw. räumlichen und zeitlichen Dimension zu gewichten.
Im Folgenden werden weitere Ausführungsbeispiele vorgestellt, die sowohl im Zusammenhang mit dem Verfahren, wie auch mit dem entsprechenden System, Gültigkeit haben können.
Gemäß einer besonderen Ausführungsform des Verfahrens kann das Steuerungssignal angepasst sein, ein robotisches Visualisierungssystem zu steuern oder das Steuerungssignal kann explizit ein robotisches Assistenzsystem steuern. Dabei kann das robotische Visualisierungssystem unterschiedliche Formen annehmen wie beispielsweise auch ein Operationsroboter, der neben der reinen Visualisierung bei einem chirurgischen Eingriff auch assistiert und ggfs. ein chirurgisches Instrument führt und/oder nutzt, oder eine weitere andere chirurgische Aktivität unterstützt oder selber ausführt. Eine derartige chirurgische Aktivität kann auch teilweise ferngesteuert ausgeführt werden.
Gemäß einer vorteilhaften Ausführungsform des Verfahrens kann der Einflussparameterwert durch eine Extraktion von Parameterwerten einer Bildeigenschaft aus mindestens einem der mindestens zwei oder mehreren digitalen Bildern bestimmt werden. Hilfreich wäre es, wenn die digitalen Bilder nicht nur einen räumlichen, sondern auch einen zeitlichen Kontext gemeinsam haben. Mit „räumlicher Kontext“ ist gemeint, dass im Wesentlichen die gleiche Szene dargestellt wird, bei der das Instrument sich nur ein wenig oder gar nicht bewegt hat (d.h., eine Distanz unterhalb eines voreingestellten Schwellwertes); mit zeitlichem Kontext ist gemeint, dass es beispielsweise zwei oder mehrere aufeinander folgende Bilder sind (direkt oder indirekt aufeinanderfolgend), die in einem zeitlichen Abstand zueinander aufgenommen wurden, sodass sich die Aufnahmezeiten in einem vorher festgelegten Zeitfenster befinden, wenn man z.B. einen Zeitstempel der ersten Aufnahme als Anfangszeitklammer (linke zeitliche Klammer) sieht. Der zeitliche Abstand der zwei oder der mehreren digitalen Bilder (Bildaufnahmen, z.B. mittels einer RGB-Kamera) kann dabei fix und vorbestimmt sein, oder er kann ereignisgesteuert sein, d.h. der zeitliche Abstand kann variabel sein.
Gemäß vorteilhaften Ausführungsformen des Verfahrens können die Parameterwerte der Bildeigenschaft durch mindestens einen Indikatorwert oder einer digitalen Karte repräsentiert werden, der oder die aus einer Gruppe, die Folgendes aufweist, ausgewählt ist: eine Bildunschärfekarte, eine Bildkontrastkarte, eine Bildfarbsättigungskarte, Bildfarbhomogenitätskarte, einen Indikatorwert für Spiegelreflexionszonen, eine Bildhelligkeitskarte, einen Schatteneffektindikatorwert, einen Verdeckungsindexwert (oder Überdeckungsindexwert) und einen Bildartefakteindexwert - oder eine Kombination des Vorgenannten - jeweils bezogen auf das mindestens eine Bild.
Folgende ergänzende Faktoren können für die Parameterwerte der Bildeigenschaft eine Rolle spielen: Die Bildunschärfekarte kann sich auf eine Fokusunschärfe und/oder auf eine Bewegungsunschärfe beziehen; damit wären zwei wesentliche Quellen für Bildunschärfen abgedeckt.
Eine Bildfarbhomogenitätskarte kann sinnvoll sein, wenn es ganze Bildbereiche gibt, die geringe Texturierung aufweisen. Dies kann vorkommen, wenn z.B. ein Großteil des digitalen Bildes einfarbig - z.B. rot - ist. Dies kommt in der Neurochirurgie oft vor. Es kann bewirken, dass zwischen Bildern in einer zeitlichen Sequenz Disparitäten nur schwer abgeschätzt oder ermittelt werden können. In diesem Fall würde der optische Fluss nur ungenau ermittelt werden können.
Ein Indikatorwert für Spiegelreflexionszonen kann für scheinbare Objektbewegung Indikativ sein, und insbesondere dafür, welche Verfahren zur Bestimmung des optischen Flusses beeinträchtigen („verwirren“) können.
Ein Schattenindikatorwert wäre ein Maß dafür, ob sich das Instrument durch einen Schatten eines anderen Gegenstandes bewegt. Dies könnte bewirken, dass sich entlang der Instrumententrajektorie der Farbeindruck des Instruments signifikant ändert. Auch dies erschwert eine Disparitätsbestimmung und daher die Bestimmung des optischen Flusses.
Ein Verdeckungsindexwert wäre ein Maß für Verdeckungen von Instrumenten durch andere Objekte, z.B. Gewebe oder andere Instrumente. Dabei ist zu berücksichtigen, dass Pixel, welche verdeckt sind, nicht „ge-match-t“ - d.h., zugeordnet - werden können und „verwirren“ die Verfahren zur Bestimmung des optischen Flusses.
Außerdem können Artefakte, die in einem Bild ermittelt werden, Grundlage für einen Bildartefakteindexwert sein. Auch diese können ordnungsgemäße Parameterbestimmungen erschweren.
Grundsätzlich lassen sich durch die angegebenen Werte und Karten für einzelne Bereiche der digitalen Bilder unterschiedliche Verfahren oder Algorithmus-Schwerpunkte setzen, um zu vermeiden, dass ungünstige Indikatorwerte oder Kartenbereiche eine Beurteilung der Parameterwerte der Bildeigenschaft verfälschen würden. Alle Bestimmungsverfahren der Bildeigenschaft können dabei auf Systemen des maschinellen Lernens beruhen oder auch explizit - d.h. mit klassischen Methoden der Bildverarbeitung wie beispielsweise Kantenfiltern - und/oder teilweise Hardware-basierend realisiert sein. Falls Systeme des maschinellen Lernens eingesetzt werden, würden diese durch eine Kombination von Trainingsdaten (Eingangsdaten und erwartete Ausgangsdaten) zur Bildung eines jeweils entsprechenden maschinellen Lernmodells trainiert werden.
Gemäß einer anderen eleganten Ausführungsform des Verfahrens, können mindestens eines der mindestens zwei digitalen Bilder, die Parameterwerte des Bewegungskontextes (d.h. zeitlicher Kontext bzw. zeitliche Modalität) und die Parameterwerte der Bildeigenschaft als Eingangswerte für das erste maschinelle Lernsystem - welches ein zugehöriges Lernmodell aufweist - verwendet werden (vgl. auch die später beschriebene 2). Somit können alle direkten bzw. indirekt verfügbaren Parameterwerte und somit der insgesamt verfügbare digitale Informationsgehalt für eine Vorhersage durch das entsprechende maschinelle Lernsystem oder eine Kombination der eingesetzten, mehreren maschinellen Lernsysteme genutzt werden, um ein möglichst gut nutzbares Steuerungssignal am Ausgang des maschinellen Lernsystem verfügbar zu machen, bei dem keine der Modalitäten über- oder unterbewertet wird.
Gemäß einer erweiterten Ausführungsform des Verfahrens, kann ein zweites maschinelles Lernsystem - mit entsprechend trainiertem Lernmodell - vorhanden sein, das für eine Erzeugung von Ausgabewerten in Form eines ersten Merkmalstensors (z.B. F1; räumlich) aus dem mindestens einen digitalen Bild trainiert wurde. Weiterhin kann ein drittes maschinelles Lernsystem - mit einem entsprechend trainierten Lernmodell - vorhanden sein, das für eine Erzeugung von Ausgabewerten in Form eines zweiten Merkmalstensors (z.B. F2; zeitlich/temporal) aus den Parameterwerten des Bewegungskontextes trainiert wurde.
Außerdem kann eine Gewichtungseinheit vorgesehen sein, die angepasst ist, um den Einfluss des ersten Merkmalstensors gegenüber dem Einfluss des zweiten Merkmalstensors auf ein viertes maschinelles Lernsystem in dem ersten maschinellen Lernsystem zu steuern. Dieses vierte maschinelle Lernsystem kann dann den Ausgabewert des ersten maschinellen Lernsystems direkt oder indirekt erzeugen. Auf diese Weise lässt sich das o.g. erste maschinelle Lernsystem durch eine Kombination dieser hier genannten mehreren maschinellen Lernsysteme realisieren.
Dabei ist anzumerken, dass der erste Merkmalstensors charakteristisch für mindestens ein räumliches Merkmal mindestens eines der digitalen Bilder ist und dass der zweite Merkmalstensors charakteristisch für mindestens ein zeitliches Merkmal - z.B. einen zeitlichen Kontext - der digitalen Bilder ist.
Darüber hinaus kann ein Pufferspeicher zum Speichern des mindestens einen digitalen Bildes - oder derer mehrerer - vorgesehen sein. Vorteilhafterweise könnte immer das letzte empfangene digitale Bild gespeichert werden. Allerdings kann auch ein oder können mehrere Speicher für eine Mehrzahl von aufeinander folgenden digitalen Bildern (direkt oder indirekt aufeinander folgend) vorgesehen sein.
Gemäß einer weiter entwickelten Ausführungsform kann das Verfahren zusätzlich ein Erhöhen des Einflusses des ersten Merkmalstensors - d.h. Charakteristiken in räumlichen Dimensionen - gegenüber dem zweiten Merkmalstensors aufweisen, wenn ein Bildeigenschaftswert - beispielsweise beeinflusst oder abgeleitet aus dem optischen Fluss oder abgeleitet aus einem der oben beschrieben Parameterwerte der Bildeigenschaft in Form mindestens eines Indikatorwertes oder einer digitalen Karte - höher als ein vorgegebener Schwellwert ist. Gegebenenfalls können mehrere Einflussfaktoren maßgeblich dafür sein.
Ergänzend kann das Verfahren ein Erhöhen des Einflusses des zweiten Merkmalstensors -d.h. Charakteristiken in zeitlichen Dimensionen - gegenüber dem ersten Merkmalstensors (räumliche Aspekte verkörpernd) bewirken, wenn der Bildeigenschaftswert niedriger als ein vorgegebener Schwellwert ist. Hierfür kann eine Gewichtungseinheit (wie später z.B. im Zusammenhang mit 4 oder 5 beschrieben) vorgesehen sein.
Gemäß einer anderen eleganten Ausführungsform kann das Verfahren in oder bei optisch scharfen Bildregionen den zweiten Merkmalstensor - der den optischen Fluss repräsentiert - gegenüber dem ersten Merkmalstensors - räumliche Aspekte berücksichtigend - übergewichtet werden. Dagegen kann in optisch unscharfen Bildregionen der erste Merkmalstensors gegenüber dem zweiten Merkmalstensors übergewichtet werden. Für das Bestimmen von optisch scharfen bzw. optisch unscharfen Bildregionen sind dem Fachmann erprobte Verfahren bekannt.
Eine derart gewichtete Kombination des ersten und des zweiten Merkmalstensors kann dann bewirken, dass die Parameterwerte des optischen Flusses durch Verwenden der mindestens zwei digitalen Bilder als Eingangsdaten für ein fünftes maschinelles Lernsystem - z.B. ein PWC-Netz (= Pyramidal processing, Warping and the use of a Cost volume) - bestimmt werden, wobei das fünfte maschinelle Lernsystem die Parameterwerte des optischen Flusses als Ausgabedaten erzeugt bzw. im maschinellen Lernkontext vorhersagt. Ein entsprechendes Training mit Trainingsdaten und zugehörigen Erwartungsparameterwerten zur Bildung eines maschinellen Lernmodels wäre vorausgesetzt.
Es sei ergänzt, dass das PWC-Verfahren Mitte 2018 von NIVIDIA vorgestellt wurde. Bei der hier vorgeschlagene Anwendung auf die chirurgische Praxis und insbesondere robotische Assistenzsystem handelt es sich allerdings um weiterentwickelte Systeme, die die genauen Anforderungen im medizinischen Bereich berücksichtigen. Alternativ wäre auch - neben anderen - ein RAFT-Ansatz (Recurrent All-pairs Field Transforms) anstelle des PWC-Verfahrens möglich.
Gemäß einer architektonisch anderen Ausführungsform des Verfahrens (wie später im Zusammenhang mit 5 beschrieben), kann das erste trainierte maschinelle Lernsystem folgendes aufweisen: ein zweites ML-System zur Erzeugung von Werten eines ersten Merkmalstensors - z.B. bezogen auf räumliche Aspekte (z.B. F1) - und eines ersten Unsicherheitswertes (z.B. U1) - insbesondere bezogen auf die Vorhersagen bzgl. des ersten Merkmalstensors und insbesondere auch pixelbezogen - aus dem mindestens einen digitalen Bild trainiert wurde.
Außerdem kann diese Ausführungsform ein drittes maschinelles Lernsystem aufweisen, das zur Erzeugung von Werten eines zweiten Merkmalstensors (z.B. F2) - z.B. den zeitlichen Kontext, wie den optischen Fluss betreffend - und eines zweiten Unsicherheitswertes (z.B. U2) - insbesondere bezogen auf die Vorhersagen hinsichtlich des zweiten Merkmalstensors - aus den Parameterwerten des Bewegungskontextes trainiert wurde.
Dabei können der erste Merkmalstensors und der erste Unsicherheitswert sowie der zweite Merkmalstensors und der zweite Unsicherheitswert als Eingangsdaten für ein viertes maschinelles Lernsystem dienen, das trainiert wurde (und somit das entsprechende Lernmodell aufweist), um das Steuerungssignal zu erzeugen.
Auch in diesem architektonisch anderen Ausführungsbeispiel der gerade beschriebenen architektonisch anderen Ausführungsform kann ein Pufferspeicher zum Speichern des mindestens einen digitalen Bildes vorgesehen sein, wie es bereits oben ausführlicher beschrieben wurde.
Gemäß einer anderen vorteilhaften Ausführungsform des Verfahrens - wobei das architektonisch andere Ausführungsbeispiel genutzt wird - kann das erste trainierte maschinelle Lernsystem zusätzlich eine Gewichtungseinheit aufweisen, die den Einfluss des ersten Merkmalstensors gegenüber dem Einfluss des zweiten Merkmalstensors auf das vierte maschinelle Lernsystem steuert. Dabei kann die Gewichtungseinheit parametrisierbar sein oder die Parameterwerte können mittels eines Trainings optimiert worden sein.
Gemäß einer ergänzenden vorteilhaften Ausführungsform kann das Verfahren - auch bei dem architektonisch anderen Ausführungsbeispiel - zusätzlich ein Erhöhen des Einflusses des ersten Merkmalstensors - auf räumliche Aspekte bezogen - gegenüber dem zweiten Merkmalstensors - auf zeitliche Aspekte bezogen - aufweisen, wenn der zweite Unsicherheitswert - z.B. bezogen auf den optischen Fluss - höher als der erste Unsicherheitswert ist, und andererseits kann das Verfahren ein Erhöhen des Einflusses des zweiten Merkmalstensors gegenüber dem ersten Merkmalstensor aufweisen, wenn der erste Unsicherheitswert (d.h. räumlich) höher als der zweite Unsicherheitswert (d.h. zeitlich) ist.
Damit wird auch in dem - architektonisch anderen Ausführungsbeispiel im Vergleich zu den zuerst beschrieben (Verfahrens-)Architekturansatz - eine zusätzliche Randbedingung berücksichtigt, die im Stand der Technik bisher keine Berücksichtigung fand und zu besseren Steuerungssignalen für ein Assistenzsystem führt.
Gemäß einer interessanten Ausführungsform des Verfahrens kann entweder der erste Unsicherheitswert oder der zweite Unsicherheitswert Null sein. Folgerichtig würde es keine Unsicherheit geben, und der Vorhersagewert würde der Nominalwert der Ausgabe sein. Konsequenterweise würde auf diese Weise nur einer der beiden Unsicherheitswerte - d.h., der für den ersten oder den zweiten Merkmalstensors (also der, der ungleich Null ist) - bestimmt werden. Auf diese Weise ließe sich entweder bei einer hardwaretechnischen Lösung ein Komponentenaufwand für die elektronischen Systeme oder ein Rechenaufwand bei einer kompletten softwaretechnischen Lösung reduzieren und so das Gesamtsystem effizienter machen.
Gemäß einem weiteren Ausführungsbeispiel des Verfahrens können die Unsicherheitswerte durch ein Ensemble-Learning-Verfahren bestimmt werden. Diese Abwandlung könnte auch für alle anderen maschinellen Lernsystem, die von dem Verfahren genutzt werden können, angewandt werden, um die Effizienz während der Vorhersagephase zu erhöhen.
Darüber hinaus können sich Ausführungsformen auf ein Computerprogrammprodukt beziehen, auf welches von einem Computer-verwendbaren oder Computer-lesbaren Medium zugegriffen werden kann, das Programm-Code zur Nutzung durch, oder in Verbindung mit, einem Computer oder anderen Instruktionsverarbeitungssystemen aufweist, Im Kontext dieser Beschreibung kann ein Computer-verwendbares oder Computer-lesbares Medium jede Vorrichtung sein, die zur Speicherung, zum Kommunizieren, zur Weiterleitung oder zum Transport des Programm-Codes geeignet ist.
Übersicht über die Figuren
Es sei darauf hingewiesen, dass Ausführungsbeispiele der Erfindung mit Bezug auf unterschiedliche Implementierungskategorien beschrieben sein können. Insbesondere sind einige Ausführungsbeispiele in Bezug auf ein Verfahren beschrieben, während andere Ausführungsbeispiele im Kontext von entsprechenden Vorrichtungen beschrieben sein können. Unabhängig davon ist es einem Fachmann möglich, aus der hier vorstehenden und nachfolgenden Beschreibung - wenn nicht anderweitig darauf hingewiesen - mögliche Kombinationen der Merkmale des Verfahrens sowie mögliche Merkmalskombinationen mit dem entsprechenden System zu erkennen und zu kombinieren, auch, wenn sie zu unterschiedlichen Anspruchskategorien gehören.
Bereits oben beschriebene Aspekte sowie zusätzliche Aspekte der vorliegenden Erfindung ergeben sich unter anderem aus den beschriebenen Ausführungsbeispielen und aus den zusätzlichen weiteren, durch Bezug auf die Figuren beschriebenen, konkreten Ausgestaltungen.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden beispielhaft und mit Bezug auf die folgenden Figuren beschrieben:

1 zeigt eine flussdiagrammartige Darstellung eines Ausführungsbeispiels des erfindungsgemäßen Computer-implementierten Verfahrens für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern.
2 zeigt einen Grundaufbau eines Ausführungsbeispiels eines Systems, welches das vorgeschlagene Konzept umsetzt.
3 zeigt einen alternativen Grundaufbau eines Ausführungsbeispiels eines Systems, welches das vorgeschlagene Konzept umsetzt.
4 zeigt ein implementierungsnäheres Ausführungsbeispiel eines Systems, welches das vorgeschlagene Konzept umsetzt.
5 stellt eine Implementierungsalternative mit einer „internen Steuerung“ dar.
6 zeigt ein weiteres Ausführungsbeispiel für den Fall „interne Steuerung“.
7 zeigt ein Beispiel für eine 2-Strom-FUS-Architektur für ein Fusionsnetzwerk für ein digitales Bild und einen optischen Fluss.
8 zeigt ein Blockdiagramm eines Ausführungsbeispiels für das Steuerungssystem für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern.
9 stellt ein Ausführungsbeispiel eines Computersystems dar, welches das System entsprechend 8 aufweist.

Detaillierte Figurenbeschreibung
Im Kontext dieser Beschreibung sollen Konventionen, Begriffe und/oder Ausdrücke folgendermaßen verstanden werden:
Der Begriff ‚Steuerungssignal‘ kann ein analoges oder digitales Signal bzw. auch eine Kombination mehrerer analoger und/oder digitaler Signale beschreiben. Sie können eine direkte Verwendung für die Steuerung eines robotischen Assistenzsystems erlauben. Andererseits ist eine indirekte Verwendung - beispielsweise nach einer weiteren Transformation des/der Steuerungssignals(e) - für ein automatisches Assistenzsystem möglich.
Der Begriff „Lokalisierung“ kann eine Bestimmung von Koordinaten in einem aufgenommenen digitalen Bild für ein besonderes Merkmal eines Elementes in Bilddaten eines der aufgenommenen digitalen Bilder beschreiben. Ein Beispiel wäre eine Instrumentenspitze innerhalb einer Aufnahme, die durch ein digitales Bild einer chirurgischen Operation repräsentiert wird. Die Lokalisierung kann sich aber auch auf etwas anderes beziehen, beispielsweise auf einen Kreuzungspunkt von zwei virtuellen Linien, welche Verlängerungen von mindestens zwei Instrumenten (oder anderen Werkzeugen) und/oder deren Bewegungsrichtungen repräsentieren, so dass das Zentrum der chirurgischen (oder sonstigen) Aktivität bestimmt werden kann. Dabei kann eines der Instrumente ein Sauger sein, während das andere Instrument beispielsweise eine (bipolare) Pinzette, eine Drahtschlinge, eine Schere, ein Verödungsgerät, ein Ultraschallaspirator (CUSA) oder ein Skalpell sein kann.
Der Begriff ‚Instrument‘ kann eine Vielzahl von unterschiedlichen, beispielsweise chirurgischen, Instrumenten, die in der Mikrochirurgie und/oder Neurochirurgie verwendet werden, beschreiben. Das hier vorgestellte Konzept muss die verwendeten Instrumente nicht explizit „kennen“; d.h. das vorgestellte Konzept ist in der Lage, auch im Zusammenhang mit solchen Instrumenten zu funktionieren, für die es bisher nicht direkt trainiert wurde. Dabei steht immer die jeweilige Instrumentenspitze im Fokus der Betrachtungen, da nur mit diesem Teil des Instrumentes operiert wird. Als Lokalisieren eines Instruments kann also verstanden werden, dass zumindest ein Teil eines/des Instruments lokalisiert wird.
Der Begriff ‚digitales Bild‘ kann ein Bild einer chirurgischen Szene beschreiben, die mit einer digitalen Kamera (z.B. RGB-Kamera) aufgenommen wurde. Typischerweise können mehrere digitale Bilder zeitlich hintereinander aufgenommen werden, wie es bei Filmaufnahmen üblich ist. Jeder einzelne Datenrahmen (data frame) würde dann Bilddaten eines einzelnen digitalen Bildes repräsentieren.
Der Begriff ‚Bewegung des Instrumentes in der Szene‘ kann sich insbesondere auf die Bewegung einer erkannten oder zu erkennenden Instrumentenspitze (oder eines anderen markanten Punktes am Operationsinstrument) beziehen. Die Verbindungslinie der Instrumentenspitze in direkt oder indirekt aufeinanderfolgenden aufgenommenen digitalen Bildern kann charakteristisch für die Bewegung des Instrumentes in der Szene sein.
Der Begriff ‚Parameterwert‘ kann im Kontext des vorliegenden Textes unterschiedliche Dinge beschreiben. Zunächst ist es möglich, dass der Parameterwert einen einfachen skalaren Wert beschreibt. Andererseits kann der Parameterwert - beispielsweise im Zusammenhang mit einem ermittelten Bewegungskontext - auch ein expliziter Vektor oder eine Matrix mit unterschiedlichen Werten sein; allgemein gesprochen: Werte eines Tensorfeldes. Diese erweiterte Bedeutung eines Parameterwertes wird auch im Zusammenhang mit einer semantischen Segmentierung eines digitalen Bildes genutzt, bei dem ein Vorhersageergebnis eines maschinellen Lernsystems als eine pixelweise Zuordnung von einzelnen Pixeln des digitalen Bildes zu detektierten Objekten sein kann.
Der Begriff ‚Bewegungskontext‘ kann hier - innerhalb einer Abfolge von digitalen Bildern - eine Bewegung eines Elementes in den mehreren digitalen Bildern bewerten. Dabei bleibt die gesamte Szene, die durch das Bild dargestellt wird und die den weit überwiegenden Anteil des digitalen Bildes beansprucht, weitgehend unverändert. Innerhalb der Szene bewegen sich ein oder mehrere Objekte gegenüber dem Hintergrund der Gesamtszene. Eine Analyse eines solchen Zusammenhanges kann mittels des Analyseverfahrens ‚optischer Fluss‘ erfasst werden. Dabei wird der optische Fluss einer Bildsequenz als das Vektorfeld von einer in die Bildebene projizierten Geschwindigkeit von sichtbaren Punkten (z.B. Pixeln) des Objektraumes im Bezugssystem der Abbildungsoptik verstanden. Folglich kann der optische Fluss eine wichtigere Präsentation von Bewegungsinformationen in frühen Stufen der Bildverarbeitung darstellen. Ähnlich wie die semantische Segmentierung von einzelnen Pixeln unterstützt auch der optische Fluss eine Zuordnung von Pixeln zu Objekten.
Der Begriff ‚Einflussparameterwert‘ kann - ähnlich wie bereits oben der Begriff ‚Parameterwert‘ - eine Mehrzahl von Ausprägungen haben. Als Beispiel sei eine Gewichtung der räumlichen Modalität gegenüber der zeitlichen Modalität von Objekten und deren Bewegungen in einer Abfolge von digitalen Bildern genannt. Je nach Bewertung der räumlichen bzw. zeitlichen Modalität können Merkmalstensoren, die zu diesen beiden Modalitäten gehören, unterschiedlich stark gewichtet werden und so auf einen nachfolgenden Algorithmus oder ein nachfolgendes System unterschiedlichen Einfluss haben. Als ganz konkretes Beispiel kann der Einflussparameterwert ein einfacher Skalarwert oder auch ein Tensorfeld sein, welcher/welches Charakteristiken des optischen Flusses charakterisiert. Andererseits kann der Einflussparameterwert aber auch ein Unsicherheitswert, welcher ein Ergebnis eines maschinellen Lernsystems für eine Hauptvorhersage ist, sein, der sich aber auch wiederum als Tensorfeld ausdrücken ließe. Ein Beispiel wäre in pixelweisen Unsicherheitswerten als Ergebnis einer semantischen Segmentierung zu sehen.
Der Begriff ‚trainierten maschinellen Lernsystem‘ beschreibt ein System, welches sowohl komplett Hardware-mäßig als auch komplett Software-mäßig, als auch mittels einer Mischung aus beiden Varianten, implementiert sein kann. Ein hier typisches Beispiel wäre ein neuronales Netzwerk, welche Knoten und Verbindungen zwischen den Knoten - sogenannten Kanten - aufweisen kann. Eingangsseitig und ausgangsseitig sind typischerweise ein Reihe von Knoten vorgesehen. Bei tiefen neuronalen Netzwerken (deep neural networks, DNN) kann eine Reihe von verborgenen Knoten-Ebenen (hidden layers) existieren.
Derartige Systeme sind nach einer Trainingsphase in der Lage, Ausgabeergebnisse (sog. Vorhersagen) zu unbekanntem Input zu erzeugen. In der Trainingsphase wird das maschinelle Lernsystem mit Eingabewerten und erwarteten Ausgabewerten („ground truth“) beschickt. Die internen Parameterwerte justieren sich typischerweise über Feedback-Funktionen entlang des Lernprozesses selbstständig (z.B. Optimierungsprozess hinsichtlich eines minimal erlaubten Fehlers zwischen gegebenem Eingangswert und erwartetem Ausgangswert).
Die Ergebnisse werden in der Vorhersagephase aufgrund von unbekanntem Input erzeugt; daher auch der Ausdruck `Vorhersagewert`. Neben dem Vorhersagewert kann das maschinelle Lernsystem auch einen Unsicherheitswert ergeben, der ein Maß für die Sicherheit (confidence) ist, den das maschinelle Lernsystem seinem eigenen Vorhersagewert zubilligt.
Außerdem gilt, dass die Grundstruktur, d.h. die Topologie, die Art der Feedbackfunktion, etc. des maschinellen Lernsystems, z.B. in Form eines neuronalen Netzwerkes durch sogenannte Hyperparameter festgelegt wird, die typischerweise systemimmanent sind. Hingegen können Parameterwerte der Knoten und Kanten durch den Lernprozess (s.o.) trainiert werden - d.h. sie passen sich selbstoptimiert so an, dass ein kleinstmöglicher Fehler bei der Vorhersage geschieht.
In diesem Zusammenhang ist auch erwähnenswert, dass maschinelle Lernmodelle kaskadiert werden können; d.h. Ausgangswerte eines maschinellen Lernsystems können als Eingangswerte für eine anderes maschinelles Lernsystem verwendet werden. Konkret kann z.B. ein Lernsystem, das als Vorhersagewerte(e) Charakteristiken eines optischen Flusses repräsentiert, als Eingangsdaten für ein nachfolgendes maschinelles Lernsystem verwendet werden, welches einen Merkmalstensor („feature map“) für einen zeitlichen Kontakt (z.B. F2, vgl. weiter unten) vorhersagt.
Alle in diesem Text genannten maschinellen Lernsysteme können als neuronale Netzwerke implementiert sein. Nach dem individuellen Training ist jedem maschinellen Lernsystem ein Lernmodell inhärent. Mehrere kaskadierte maschinelle Lernsysteme können auch gemeinsam trainiert werden und/oder als ein kombiniertes maschinelles Lernsystem betrachtet werden. Außerdem lassen sich Ausgabetensoren von maschinellen Lernsystemen - beispielsweise mittels einer Gewichtungseinheit - fusionieren.
Der Begriff ‚Lernmodell‘ kann in Weiterführung der Definition des maschinellen Lernsystems als die Summe der durch das Training gelernten Parameterwerte des maschinellen Lernsystems als Ergebnis eines Trainings mit einem Satz von Trainingsdaten verstanden werden. Andere Sätze von Lerndaten würden zu anderen Lernmodellen und damit zu anderen Vorhersageergebnissen führen, obwohl die Hyperparameter des Lernsystems konstant bleiben würden.
Der Begriff ‚robotisches Visualisierungssystem‘ kann einen Roboter oder Roboterarm beschreiben, welcher z.B. an seiner äußeren Extremität eine Bilderfassungseinheit trägt, die je nach chirurgischem (oder sonstigem) Kontext einer Operation das Zentrum des Operationsgeschehens möglichst gut mittels einer Kamera erfasst. Insofern kann das robotische Visualisierungssystem Teil eines Operationsmikroskops sein, mithilfe dessen beispielsweise immer der Fokus immer auf eine optische Ebene eines Operationsinstrumentes gelegt wird, und dass die Spitze des Operationsinstrumentes möglichst immer in der Mitte des Bildschirms darstellt.
Der Begriff ‚Parameterwerte einer Bildeigenschaft‘ kann eine Reihe von unterschiedlichen Charakteristiken eines digitalen Bildes beschreiben. Hierzu gehören insbesondere räumliche Bildeigenschaften, die durch entsprechende Parameterwerte (wie bereits beschrieben: im Sinne von einfacher Skalarwert bis zu einem Tensorfeld) angegeben sein können.
Der Begriff ‚Merkmalstensor‘ kann ein Ergebnis eines maschinellen Lernsystems beschreiben. Der dem Fachmann geläufigere entsprechende englische Begriff wäre „feature maps“ (Fx). Hierbei kann beispielsweise jedem Pixel eines digitalen Bildes ein bestimmter Bewertungswert zugeordnet sein: z.B. „gehört zum Objekt A“, „ist Bestandteil einer Kante“, „liegt an der Außenkante des Bildes“, „ist ein Pixel einer Reflexion“, „ist ein Hintergrund Pixel“, usw. Dabei können unterschiedliche maschinelle Lernsysteme, welche von unterschiedliche Analyseaufgaben trainiert wurden, unterschiedliche Arten von Merkmalstensoren ausgeben.
Der Begriff ‚Gewichtungseinheit‘ kann Daten, die z.B. zu einem räumlichen Kontext gehören, in ihrem Einfluss auf nachgelagerte Systeme höher oder niedriger bewerten als Daten, die z.B. zu einem zeitlichen Kontext (z.B. optischer Fluss) gehören. Allgemein kann man sagen, dass eine Gewichtungseinheit geeignet ist, Daten, die zu einer Mehrzahl von unterschiedlichen Modalitäten gehören, als Eingangswerte zu einer nachgelagerten Einheit zu verstärken oder abzuschwächen.
Der Begriff ‚optisch scharfe Bildregionen‘ kann die Regionen des digitalen Bildes beschreiben, in denen eine höhere Unterscheidbarkeit von Details in dem Bild als in ‚optisch unscharfe Bildregionen‘ gegeben ist. Im Kontext dieser Beschreibung ist damit die physikalische Schärfe gemeint, die messbar vorhanden ist, und nicht der subjektive Schärfeneindruck.
Der Begriff ‚Unsicherheit‘ bzw. Unsicherheitswert kann hier ein Maß dafür sein, wie sicher ein Vorhersagewert eines maschinellen Lernsystems von dem maschinellen Lernsystem selbst angesehen wird. Das maschinelle Lernsystem erzeugt also nicht nur den/die Vorhersagewert (e) sondern auch eine Angabe über die Vertrauenswürdigkeit des vorhergesagten Ausgangswertes des maschinellen Lernsystems. Nicht untypisch für neuronale Netzwerke ist auch der Begriff des Vertrauenswertes (confidence value) bezüglich der eigenen Vorhersage, der üblicherweise als prozentualer Skalarwert ausgegeben werden kann. Beide Begriffe lassen sich ineinander umrechnen:

Unsicherheitswert = 1 - Vertrauenswert.

Der Unsicherheitswert der Vorhersage kann auch bei einer semantischen Segmentierung von Pixeln eines digitalen Bildes verwendet werden. Dabei bedeutet der Begriff ‚semantische Segmentierung‘, dass ein maschinelles Lernsystem für jeden Pixel des digitalen Bildes vorhersagt zu welcher Objektkategorie ein Pixel des digitalen Bildes gehört. Folglich würden im Falle einer semantischen Segmentierung durch ein maschinelles Lernsystem genauso viele skalare Sicherheitswerte vorhergesagt werden wie das digitale Bildpixel aufweist. In diesem Fall hätte man es mit Werten einer Unsicherheitsmatrix oder Werten eines Unsicherheitstensors zu tun.
Wenn ein Ergebnis einer semantischen Segmentierung wieder visualisiert wird, sehen diese Bilder häufig wie ungenaue Falschfarbendarstellungen der ursprünglichen Bilder aus, weil unterschiedliche Farben für unterschiedlich erkannte Objektkategorien genutzt werden. Dabei wäre das digitale Bild des „Ground Truth“ das unverfälschte Originalbild, während die vorhergesagten digitalen Bilder der semantischen Segmentierungsvorhersage andere Farben benutzen und Umrisse von Objekten - je nach Erkennungsgrad der Zugehörigkeit eines Pixels zu einem erkannten bzw. nicht erkannten Objekt - wären unscharf oder auch teilweise unzutreffend. Die im Zusammenhang mit dem hier vorgestellten Konzept wichtigen Objektkategorien wären ‚Instrument‘ , ‚Instrumentenspitze‘, sonstigeOP-Utilities (z.B. Tupfer), `Gewebe` und andere Artefakte`.
Der Begriff ‚Ensemble-Learning-Verfahren‘ beschreibt im Kontext von maschinellen Lernsystemen, dass, um ein Ergebnis zu erzeugen bzw. vorherzusagen, mehrere Lernalgorithmen oder Lernmodelle des gleichen oder von unterschiedlichen maschinellen Lernsystemen genutzt werden, um entweder eine bessere Performance (schnelleres Ergebnis) oder einen höheren Vertrauenswert (d.h. einen niedrigeren Unsicherheitswert) für eine Vorhersage zu erhalten. Dabei können die mehreren Lernmodelle parallel eingesetzt werden. Aus den unterschiedlichen Vorhersageergebniswerten kann ein Mittelwert gebildet werden, welcher dann als Vorhersageergebnis genutzt werden. Alternativ kann der Mittelwert auch über die Zeit von einem einzelnen Lernmodells ermittelt werden - unter der Annahme kleiner stetiger Bewegungen in den Eingangsbilddaten.
Im Folgenden wird eine detaillierte Beschreibung der Figuren angegeben. Dabei versteht es sich, dass alle Details und Anweisungen in den Figuren schematisch dargestellt sind. Zunächst wird eine flussdiagrammartige Darstellung eines Ausführungsbeispiels des erfindungsgemäßen Computer-implementierten Verfahrens für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern dargestellt. Nachfolgend werden weitere Ausführungsbeispiele, bzw. Ausführungsbeispiele für das entsprechende System beschrieben:
1 stellt eine flussdiagrammartige Darstellung eines bevorzugten Ausführungsbeispiels des Computer-implementierten Verfahrens 100 für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes - insbesondere einer Instrumentenspitze z.B. innerhalb eines Operationsfeldes - durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern dar. Die Instrumente können OP-Instrumente (OP = Operation) wie Skalpell, Sauger, Pinzette, Schere etc. sein, sich aber auch auf Werkzeuge jeder Art in praktisch jeder Branche beziehen. Es kann - in erweitertem Sinne - auch ein Kreuzungspunkt von virtuellen Verlängerungen oder extrapolierten Bewegungstrajektorien von Instrumenten oder Werkzeugen sein.
Das Verfahren 100 weist ein Bereitstellen, 102, von mindestens zwei digitalen Bildern einer räumlich gleichen Szene mit einer Bewegung des Instrumentes in der Szene als Eingangsdaten auf. Aus den mindesten zwei digitalen Bildern lassen sich sowohl räumliche Information wie auch zeitliche Informationen - z.B. optischer Fluss - ableiten. Stehen mehrere digitale Bilder in einer zeitlichen Abfolge bereit, kann für die räumliche Modalität beispielsweise das jeweils letzte (oder ein anderes ausgewähltes digitales Bild) genutzt werden. Die digitalen Bilder können beispielsweise mittels einer digitalen RGB-Kamera aufgenommen werden.
Weiterhin weist das Verfahren ein Bestimmen, 104, von Parameterwerten eines Bewegungskontextes auf - also einer zeitlichen Modalität z.B. eines optischen Flusses - durch Nutzung der mindestens zwei digitalen Bilder und ein Bestimmen, 106, eines Einflussparameterwertes, der einen Einfluss von einem der digitalen Bilder - d.h. der räumlichen Modalität - und den Parameterwerten des Bewegungskontextes auf die Eingangsdaten steuert, die innerhalb eines ersten trainierten maschinellen Lernsystems, welches ein erstes Lernmodell aufweist, zur Erzeugung des Steuerungssignals verwendet, 108, werden. Das oder die erzeugten Steuerungssignale können für eine Steuerung eines robotischen Assistenzsystems, eines Operationsroboters und/oder von anderen digitalen und/oder motorisch bewegten Systemen eingesetzt werden.
2 zeigt einen Grundaufbau 200 eines ersten Ausführungsbeispiels eines Systems, welches das vorgeschlagene Konzept umsetzt. Das erzeugte Steuerungssignal 202 ist dabei ein Vorhersagewert 202 des ersten maschinellen Lernsystems 204 (ML-System). Dieses erste ML-System 204 nutzt als Eingangsdaten mindestens eines der aufgenommenen digitalen Bilder 206 und Informationen eines Bewegungskontextes, der z.B. in Form eines als Merkmalstensors 210 (z.B. F1) als Vorhersageergebnis eines fünften ML-Systems 208 erzeugt wird.
Außerdem wird ein Einflussparameterwert 214 erzeugt, der einen Einfluss von einem der digitalen Bilder - d.h. der räumlichen Modalität - und der Parameterwerte des Bewegungskontextes - d.h. der zeitlichen Modalität - auf die Eingangsdaten des ersten ML-Systems 204 steuert. Der Einflussparameterwert 214 kann durch ein Bildanalysesystem 212 - z.B. in Form eines weiteren trainierten ML-Systems 212 - erzeugt werden, welches eine Bildeigenschaft - z.B. Bildunschärfekarte (oder eines der anderen oben genannten Karten oder Indexwerte) - in Form entsprechender Parameterwerte charakterisiert. Der Einflussparameterwert 214 kann als Gewichtungsparameterwert zwischen den Bilddaten, die dem ersten ML-System 204 direkt zugeführt werden (oberster Eingangspfeil) und den Informationen eines Bewegungskontextes (vgl. Merkmalstensor 204) aufgefasst werden.
Erwähnenswert ist auch, dass die Bilddaten- d.h. die aufgenommenen digitalen Bilder 206 - als Weißlichtaufnahmen, als Fluoreszenzaufnahmen (d.h. ggfs. mit vorher appliziertem Kontrastmittel in das Gewebe) und/oder auch als OCT-Daten (erweiterte Interpretation des Begriffes `Bilddaten`) verfügbar sein können.
3 zeigt einen alternativen Grundaufbau 300 eines Ausführungsbeispiels eines Systems, welches das vorgeschlagene Konzept umsetzt. Hier werden dem weiteren ML-System 212 die Bildinformationen der digitalen Bilder 206 nicht direkt zugeführt, sondern in Form der Ausgangsdaten - als Merkmalstensor 210 - des 5. ML-Systems 208, welches als Ausgangsdaten diejenigen der räumlichen Modalität vorhersagt. Damit können Informationen bezüglich der zeitlichen Modalität im weiteren ML-System 212 erarbeitet werden und als Gewichtungsparameterwert 214 (vgl. 1 und 2) genutzt werden.
4 zeigt ein implementierungsnäheres Ausführungsbeispiel 400 eines Systems, welches das vorgeschlagene Konzept in einer ersten Architektur umsetzt. In dieser Darstellung ist das erste ML-System 204 mit mehr Details dargestellt. Wie bei den vorangegangenen Darstellungen der 2 und 3 können auch hier die symbolisch dargestellten Signalpfade zwischen den einzelnen Elementen des Ausführungsbeispiels 400 aus mehreren parallelen Signalpfaden bestehen.
Die Details des ersten ML-Systems 204 zeigen hier zusätzlich den optionalen Speicher 404, in dem zum Beispiel das jeweils letzte bereitgestellte digitale Bild 206 (oder ein anderes ausgewähltes) einer zeitlichen Abfolge von digitalen Bildern gespeichert sein kann. Zusätzlich sind ein zweites ML-System 406 (MLS) und ein drittes ML-System 408, die jeweils entsprechende trainierte Lernmodelle aufweisen, dargestellt.
Das zweite ML-System 406 erzeugt an seinem Ausgang als Vorhersagewert einen ersten Merkmalstensor (z.B. Skalarwert, Vektorfeldwerte, Matrixwerte, Tensorfeldwerte) für die räumliche Modalität eines digitalen Bildes; das dritte ML-System 408 erzeugt an seinem Ausgang als Vorhersagewert einen zweiten Merkmalstensor für die zeitliche Modalität einer Abfolge von digitalen Bildern (z.B. den optischen Fluss).
Beide Merkmalstensoren dienen als Eingangswerte für die Gewichtungseinheit 402, welche einen dritten Eingangswert 214 empfängt, der aus dem weiteren ML-System 212 kommt, welches als Ausgangswerte (oder Tensor) eine Bildeigenschaft beschreibt. Über die Multiplikatoren 412, 414 wird in Abhängigkeit von dem Einflussparameterwert 214 und den skizzierten Schwellwertschaltern 418 (im Wesentlichen Einsatz von parallelen UND-Gattern) gesteuert, ob die räumliche Modalität aus dem zweiten ML-System 406 oder die zeitliche Modalität (bzw. zugehörigen Informationen bzw. Daten) aus dem dritten ML-System 408 über die dargestellte Summationsfunktion 416 (bzw. Modul; im Wesentlichen ein Set von parallelen ODER-Gattern) als Eingangswerte für ein viertes ML-System 410 dienen, welches in der Folge das Steuersignal 202 für ein robotisches chirurgisches Assistenzsystem vorhersagt bzw. generiert.
Dadurch, dass das weitere ML-System 212 außerhalb des ersten ML-Systems 204 dargestellt ist, erklärt sich auch der Ausdruck der „externen Steuerung“ für die Gewichtungen in Bezug auf den ersten und den zweiten Merkmalstensor. Weiter unten (vgl. 5) ist eine architekturmäßige alternative Ausführungsform dargestellt, bei der im Gegensatz zur „externen Steuerung“ eine „interne Steuerung“ vorgesehen ist, die durch Unsicherheitsfaktoren bezüglich der Vorhersagewerte von ML-Systemen beeinflusst wird.
Weiterhin soll erwähnt werden, dass eines der Eingangs-ML-Systeme - d.h. das zweite ML-System 406 und das dritte ML-System 408 - bereits als ein Fusionsnetzwerk realisiert sein kann. Hierzu würden sich z.B. das fünfte ML-System 208 und das dritte ML System 408 gut eignen. Aber auch andere Kombination/Integrationen von anderen maschinellen Teil-Lernsystemen mit einem kombinierten Lernmodell würde durch Trainingsdaten bestehend aus den digitalen Bildern 206 und entsprechenden Vorhersageergebnissen für zugehörige zweite Merkmalstensoren (oder andere bei anderen Kombinationen) in einem überwachten Lernprozess (supervised learning) trainiert werden.
Zusätzlich sei erwähnt, dass beide Eingangs-ML-Systeme - d.h. das zweite ML-System 406 und dritte ML-System 408 - bereits Fusionsnetze sein können, denen sowohl einzelne digitale Bilder 206 als auch eine Abfolge von digitalen Bildern 206 als Eingangsdaten zugeführt werden. Während eines entsprechenden Trainings für derartige neuronale Netze würde die Fusion der räumlichen und der zeitlichen Modalität gleichzeitig trainiert werden.
5 stellt die bereits oben erwähnte architekturmäßig andere Implementierungsalternative 500 mit einer „internen Steuerung“- mittels Vorhersageunsicherheitswerten - dar. Hier werden aus dem Eingangsstrom von digitalen Bildern (mindestens zwei digitale Bilder) 206 Informationen T bezüglich der zeitlichen Modalität mittels des ML-Systems „optischer Fluss“ 502 ermittelt. In diesem Beispiel sind die Interna des ersten ML-Systems 204 - etwas anders als in 4 dargestellt - miteinander verbunden. Es fehlt also das weitere ML-System 212, das bei den vorherigen Architekturalternativen präsent war.
Der Merkmalstensor 504, der als F1 bezeichnet werden kann und der die räumliche Modalität charakterisiert, wird über den potenziell optionalen Bildspeicher 404 (z.B. das jeweils letzte digitale Bild speichernd) und das zweite ML-System 406 ermittelt. Auf der anderen Seite wird der zweite Merkmalstensor 506, der als F2 bezeichnet werden kann und der die zeitliche Modalität charakterisiert, über das ML-System „optischer Fluss“ 502 und das dritte ML-System 408 bestimmt.
Allerdings erzeugen das 2. ML-Systeme 406 und das 3. ML-Systeme 408 auch jeweilige Vorhersage-unsicherheitswerte 508 (U1), 510 (U2), welche auch als zusätzliche Eingangswerte für das vierte ML-System 410 genutzt werden. Auf diese Weise lässt sich auf die Gewichtungseinheit 402 (vgl. 4) verzichten. In einem solchen Szenario würden die jeweiligen ML-Systeme in individuellen überwachten Lernprozessen entsprechende Lernmodelle ausbilden, die während der Vorhersagephase die jeweiligen Vorhersage- oder Ausgabewerte (z.B. entsprechende Skalarwerte, Vektorfeldwerte, Matrixwerte, Tensorfeldwerte) erzeugen. Auch hier würde der Einfluss der Unsicherheitswerte durch entsprechende Trainingsdaten berücksichtigt.
Auch in einem solchen Ausführungsbeispiel ist es denkbar, dass eines (oder beide) der neuronalen Eingangsnetze (406, 408) bereits Fusionsnetze sind. So wäre eine Kombination der neuronalen Netze des ML-Systems „optischer Fluss“ 502 und des dritten ML-Systems 408 durchaus denkbar. Mittels entsprechender Trainingsdaten würde ein exemplarisches Lernmodell entstehen, welches befähigt wäre, den zweiten Merkmalstensor 506 und den zugehörigen Unsicherheitswert 510 vorherzusagen bzw. zu erzeugen.
In Kurzform ließe sich dieses Ausführungsbeispiel auch folgendermaßen beschreiben: Entsprechend diesem Aspekt der vorliegenden Erfindung wird ein Computer-implementiertes Verfahren für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern vorgestellt. Das Verfahren weist dabei ein Bereitstellen von mindestens zwei digitalen Bildern einer räumlich gleichen Szene mit einer Bewegung des Instrumentes in der Szene als Eingangsdaten, ein Bestimmen von Parameterwerten eines Bewegungskontextes durch Nutzung der mindestens zwei digitalen Bilder und ein Bestimmen von Unsicherheitswerten auf, die einen Einfluss von einem der digitalen Bilder und den Parameterwerten des Bewegungskontextes auf die Eingangsdaten steuert, die innerhalb eines ersten trainierten maschinellen Lernsystems, welches ein erstes Lernmodell aufweist, zur Erzeugung des Steuerungssignals verwendet werden.
6 zeigt ein weiteres Ausführungsbeispiel 600 für den Fall „interne Steuerung“. In diesem Fall werden die Unsicherheitswerte 508 (U1) und 506 (U2) nicht direkt als Eingangswerte für das vierte ML-System 410 verwendet sondern von einer Gewichtungseinheit 602 verarbeitet, die im Wesentlichen so aufgebaut ist wie die Gewichtungseinheit 402 (vgl. 4). Auch hier kommen zwei Multiplikationseinheiten und eine entsprechende Summationseinheit (jeweils ohne Bezugszeichen) zum Einsatz, welche ein Eingangssignal (bzw. ein gewichtetes Bündel von Eingangssignalen) für das vierte ML-System 410, erzeugt, um das Steuerungssignal 202 für ein digitales Assistenzsystem bzw. ein robotisches, chirurgisches Assistenzsystem oder eine andere assistierende (Operations-) Mikroskopfunktionalität 604 - welche hier exemplarisch dargestellt ist - zu erzeugen.
Hierbei ist zu beachten, dass das vorgeschlagene Konzept so implementiert sein kann, dass die Merkmalstensoren 504 F1 bzw. 506 F2 mit den Unsicherheitstensoren 510 U2 bzw. 508 U1 pixelweise multipliziert werden, bevor sie von der Summationseinheit addiert werden. Diese Art der Kombination der Merkmalstensoren F1 und F2 mit den Unsicherheitstensoren U2 und U1 wird als ein Beispiel für einen Fusionsmechanismus der Ausgabetensoren des zweiten und dritten maschinellen Lernsystems 406, 408 angesehen. Die Merkmalstensoren F1 und F2 können auch als „Feature Map“ verstanden werden.
Die Gewichtungseinheit 602 wird hier also dazu benutzt, die räumliche und zeitliche Information basierend auf den Unsicherheitswerten 508, 510 zu fusionieren. Wenn der räumliche Unsicherheitswert U1 508 in einer Region hoch ist, bedeutet dies, dass sich das zweite ML-System 406 hinsichtlich seines Vorhersagewertes/seiner Vorhersagewerte (z.B. seiner pixelweisen semantischen Segmentierungsvorhersage) nicht sicher ist. Deshalb ist es in so einem Falle vorteilhaft, den Merkmalstensor F2 506 des dritten ML-Systems 408 gegenüber dem Merkmalstensor F1 zu verstärken bzw. zu erhöhen (und umgekehrt).
Durch dieses Verfahren werden Merkmale oder Merkmalselemente - d.h. pixelweise zugeordnete Werte der jeweiligen Merkmalstensoren („feature maps“) - mit hohen Unsicherheitswerten in ihrer Relevanz reduziert, während Merkmale bzw. Merkmalselemente mit geringen Unsicherheitswerten verstärkt werden. Diese zusätzliche Randbedingung bei einer Berücksichtigung von räumlichen und zeitlichen Merkmalen aus einer Mehrzahl von digitalen Bildern grenzt das hier vorgeschlagene Verfahren vorteilhaft gegenüber traditionellen Verfahren ab.
Sowohl für das Ausführungsbeispiel, welches durch 5 näher beschrieben wurde, wie auch für das Ausführungsbeispiel, welches durch 6 näher beschrieben wurde, gilt, dass neben der räumlichen und der zeitlichen Modalität auch andere Eingabemodalitäten genutzt werden können. Der allgemeinere Ansatz wäre also N Modalitäten als Eingabevariablen zu nutzen, wobei jede Modalität durch einen entsprechenden Merkmalsextraktionsalgorithmus ALG_i, (i = 1 ... N) - d.h. im allgemeinen Fall durch jeweils ein speziell trainiertes maschinelles Lernsystem - ausgewertet werden könnte. Für jeden Satz von resultierenden Merkmalen F_i können dann auch aufgabenspezifische Unsicherheitswerte oder Unsicherheitsindikatoren U_i bestimmt werden (z.B. zur Identifikation einer Instrumentenspitze). Das vierte ML-Lernsystem würde dann relevante und qualitativ hochwertige Merkmale basierend auf den Unsicherheitsindikatoren für die Fusion auswählen (vorausgesetzt, dass keine Gewichtungseinheit eingesetzt wird).
7 zeigt ein Beispiel für eine 2-Strom-FUS-Architektur 700 für ein Fusionsnetzwerk für ein digitales Bild (Image) X und einen optischen Fluss Y. Die Auflösung eines digitalen Bildes 206 X und des Eingangsstromes des optischen Flusses beträgt z.B. jeweils 144 x 256 x 3 (d.h. 3 Farbebenen). Die Elemente bzw. Funktionen des Netzwerkes Conv2D_3x3 702, MaxPool2D 704, Dense Block 706, Transistion Block 708 und Sigmoid 710 sind für sich genommen bekannt; dies gilt aber nicht für diese neue und vorteilhafte Kombination und den daraus resultierenden Ergebnissen und Vorteilen (s.o.). Weitere Netzwerkdetails sind in der Tabelle 712 dargestellt, die jeweils Parameterwerte für die unterschiedlichen Schichten des FUS-Netzwerkes angeben. Gleiche Straffuren weisen auf funktionsmäßig vergleichbare Netzwerk-Ebenen und -Funktionen hin. Außerdem sei erwähnt, dass die 2-Strom-FUS-Architektur sowohl in Software wie auch komplett in Hardware wie auch als eine Kombination aus Software- und Hardware-Elementen realisierbar ist.
Die Basisblöcke für den oberen Bereich (Image X) und den unteren Bereich (optischer Fluss Y) sind symmetrisch gestaltet. Die Fusion wird durch eine Addition (vgl. Additionssymbol) erwirkt, wodurch eine Vergrößerung des Modell vermeiden werden kann. Durch die Addition sind - im Gegensatz z.B. zu einem Zusammenfügen („concatenation“) - in der Fusionsebene weniger Merkmale explizit vorhanden, wodurch das erforderliche Modell kleiner wird und somit die Anzahl der erforderlichen Berechnungen sinkt. Das kommt der Performance bzw. den Anforderungen an die verarbeitende Hardware zu Gute.
Vorteilhaft ist also eine Zweistrom-Fusionsarchitektur FUS, wobei das digitale Bild als auch der optische Fluss als Eingabeparameterwerte dienen. Die komplementäre Leistung der beiden nutzen Single Stream Networks wird in der genutzten Architektur dadurch ermöglicht, dass alle verfügbaren Informationen von beide Eingänge verwendet werden. Um tieferliegende Merkmale aus beiden Eingabemodalitäten zu extrahieren, werden erst die beiden zwei Encoder-Pfade erst dann kombiniert (d.h. addiert), nachdem die endgültige Merkmalsauflösung erreicht wurde.
Bei praktischen Experimenten wurden jeweils Eingangsdaten (d.h. digitale Bilder) mit einer Auflösung von 256 x 144 genutzt. Der optische Fluss wurde dabei in kartesischen Koordinaten vorberechnet, d.h. für jedes Bildpixel berechnet. Außerdem wurden Data-Augmentation-Techniken eingesetzt, um künstlich eine größere Anzahl von Trainingsdaten zu erzeugen. Dabei umfassten die Data-Augmentation-Techniken mindesten räumliche und zeitliche Beschneidungen (spatial and temporal crop), Flip- und Rotations-Offsets (letzteres nur für den optischen Fluss), zufällige Kontrastveränderungen sowie Farb- und Helligkeitsanpassungen (nur für die fixen Bilddaten). Beide Eingangsdatenströme wearden typischerweise in Bezug auf Mittelwerte und Standardartabweichung normalisiert. Die Trainingsverlustfunktion basiert auf dem mittleren quadratischen Fehler (mean square error). Das Training wird typischerweise mit einem „unbehandelten“ (d.h. nicht vortrainierten) System begonnen. Dabei kommen ein Adam-Optimierer und eine anfängliche Lernrate von 0,01 zum Einsatz. Die Lernrate wurde in 10%-Schritten basierend auf einer Plateau-Erkennung anhand der Validierungskriterien (auf gleichen Domain-Daten) und unter einer „Patience“ (d.h. einer Anzahl von Trainingsepochen, nach der das Training beendet wird, ohne dass eine Verbesserung erzielt wird) bis 10^-6 angepasst. Außerdem war ein frühzeitiger Abbruch des Trainings bei einer „Patience“ von 100 vorgesehen. Nachdem das Training des ML-Models für 12h Stunden ausgeführt wurdem konnte eine Vorhersagezeit (inference time) von 50ms erreicht werden. Diese Zeit reicht aus, um eine operativen Eingriff durch ein robotisches System gut zu unterstützen.
8 zeigt symbolisch ein Blockdiagramm eines Ausführungsbeispiels eines Steuerungssystems 800 für eine Erzeugung eines Steuerungssignals durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern. Das Steuerungssystem 800 weist einen Prozessor 802 und einen mit dem Prozessor verbundenen Speicher 804 auf, wobei der Speicher Programm-Code-Segmente speichert, die, wenn sie von dem Prozessor 802 ausgeführt werden, den Prozessor 802 veranlassen zum Empfangen - insbesondere mittels eines Empfangsmoduls 806 - von mindestens zwei digitalen Bildern einer räumlich gleichen Szene mit einer Bewegung des Instrumentes in der Szene als Eingangsdaten.
Der Prozessor 802 kann weiter zum Bestimmen- z. B. mittels eines ersten Bestimmungsmoduls 808 - von Parameterwerten eines Bewegungskontextes durch Nutzung der mindestens zwei digitalen Bilder veranlasst werden, und - mittels eines zweiten Bestimmungsmoduls 810 - zum Bestimmen eines Einflussparameterwertes, der einen Einfluss von einem der digitalen Bilder und den Parameterwerten des Bewegungskontextes auf die Eingangsdaten steuert, veranlasst werden. Dabei werden die Eingangsdaten, die innerhalb eines ersten trainierten maschinellen Lernsystems 812, welches ein erstes Lernmodell aufweist, zur Erzeugung des Steuerungssignals verwendet.
Es sei ausdrücklich darauf hingewiesen, dass die genannten Module und Einheiten - insbesondere der Prozessor 802, der Speicher 804, das Empfangsmodul 806, das erste Bestimmungsmodul 808, das zweite Bestimmungsmodul 810, das trainierte maschinelle Lernsystem 812 - mit elektrischen Signalleitungen oder über ein systeminternes Bussystem 814 zum Zwecke des Signal- oder Datenaustausches verbunden sein können.
9 stellt ein Blockdiagramm eines Computersystems 900 dar, welches als Ausführungssystem für das oben genannte Verfahren einsetzbar ist. Ausführungsformen des hier vorgeschlagenen Konzepts können grundsätzlich mit praktisch jedem Typ von Computer, unabhängig von der darin verwendeten Plattform zur Speicherung und/oder Ausführung von Programmcodes, genutzt werden. 9 stellt beispielhaft ein Computersystem 900 dar, welches zur Ausführung von Programmcodes entsprechend des hier vorgestellten Verfahrens geeignet ist. Es ist auch möglich, das ein bereits in einem Operationsmikroskop oder in einem anderen Operationsassistenzsystem vorhandenes Computersystem, das ggfs. zu erweitern wäre, mindestens für eine teilweise Ausführung des hier vorgestellten Verfahrens genutzt wird.
Das Computersystem 900 weist eine Mehrzahl von allgemein nutzbaren Funktionen (general purpose functions) auf. Dabei kann das Computersystem ein Tablet-Computer, ein Laptop-/Notebook-Computer, ein anderes tragbares oder mobiles elektronisches Gerät, ein Mikroprozessorsystem, ein Mikroprozessor - basiertes System, ein Smartphone, ein Computersystem mit speziell eingerichteten Sonderfunktionen, oder auch ein Bestandteil von einem Mikroskopsystem sein. Das Computersystem 900 kann eingerichtet sein zur Ausführung vom Computersystem ausführbaren Anweisungen - wie beispielsweise Programmmodulen - die ausgeführt werden können, um Funktionen der hier vorgeschlagenen Konzepte umzusetzen. Dazu können die Programmmodule Routinen, Programme, Objekte, Komponenten, Logik, Datenstrukturen usw. aufweisen, um bestimmte Aufgaben oder bestimmte abstrakte Datentypen zu implementieren.
Die Komponenten des Computersystems können Folgendes aufweisen : einen oder mehrere Prozessoren oder Verarbeitungseinheiten 902, ein Speichersystem 904 und ein Bussystem 906, welches verschiedene Systemkomponenten, inklusive des Speichersystems 904, mit dem Prozessor 902 verbindet. Typischerweise weist das Computersystem 900 eine Mehrzahl von durch das Computersystem 900, zugreifbaren flüchtigen oder nicht-flüchtigen Speichermedien auf. Im Speichersystem 904 können die Daten und / oder Instruktionen(Befehle) der Speichermedien in flüchtiger Form - wie beispielsweise in einem RAM (random access memory) 908 - gespeichert sein, um von dem Prozessor 902 ausgeführt zu werden. Diese Daten und Instruktionen realisieren einzelne oder mehrere Funktionen bzw. Schritte des hier vorgestellten Konzeptes. Weitere Komponenten des Speichersystems 904 können ein Permanentspeicher(ROM) 910 und ein Langzeitspeicher 912 sein, in dem die Programmodule und Daten(Bezugszeichen 916), wie auch Workflows, gespeichert sein können.
Das Computersystem weist zur Kommunikation eine Reihe von dedizierten Vorrichtungen (Tastatur 918, Maus / Pointing Device (nicht dargestellt), Bildschirm 920, usw.) auf. Diese dedizierten Vorrichtungen können auch in einem berührungsempfindlichen Display vereint sein. Ein separat vorgesehener I/O-Controller 914 sorgt für einen reibungslosen Datenaustausch zu externen Geräten. Zur Kommunikation über ein lokales oder globales Netzwerk (LAN, WAN, beispielsweise über das Internet) steht ein Netzwerkadapter 922 zur Verfügung. Auf dem Netzwerkadapter kann durch andere Komponenten des Computersystems 900 über das Bussystem 906 zugegriffen werden. Dabei versteht es sich, dass - obwohl nicht dargestellt - auch andere Vorrichtungen an das Computersystem 900 angeschlossen sein können.
Zusätzlich können mindestens Teile des Steuerungssystems 800 (vgl. 7) an das Bussystem 906 angeschlossen sein. Das Steuerungssystems 800 und das Computersystem 900 können ggfs. die Speicher oder Teile davon und/oder den oder die Prozessoren gemeinsam nutzen. Außerdem kann das Computersystem 900 durch Spezial-Hardware, die auch mit dem Bussystem 906 verbunden sein kann, ergänzt sein, welche mindestens teilweise Elemente eines maschinellen Lernsystems aufweisen. Damit könnte das Computersystem zu einem Quasi-I/O-System eines oder mehrerer in Hardware implementierter maschineller Lernsystem unterschiedlicher Architektur oder Topologie genutzt werden
Die Beschreibung der verschiedenen Ausführungsbeispiele der vorliegenden Erfindung wurde zum besseren Verständnis dargestellt, dient aber nicht einer unmittelbaren Einschränkung der erfinderischen Idee auf diese Ausführungsbeispiele. Weitere Modifikationen und Variationen erschließt sich der Fachmann selbst. Die hier genutzte Terminologie wurde so gewählt, um die grundsätzlichen Prinzipien der Ausführungsbeispiele am besten zu beschreiben und sie dem Fachmann leicht zugänglich zu machen.
Das hier vorgestellte Prinzip kann sowohl als System, als Verfahren, Kombinationen davon und / oder auch als Computerprogrammprodukt verkörpert sein. Dabei kann das Computerprogrammprodukt ein(oder mehrere) Computer-lesbare/s Speichermedium/-medien aufweisen, welches Computer-lesbare Programminstruktionen aufweist, um einen Prozessor oder ein Steuerungssystem dazu zu veranlassen, verschiedene Aspekte der vorliegenden Erfindung auszuführen.
Als Medien kommen elektronische, magnetische, optische, elektromagnetische, Infrarot-Medien oder Halbleitersysteme als Weiterleitungsmedium zum Einsatz; beispielsweise SSDs (solid state device / drive als Festkörperspeicher), RAM(Random Access Memory) und/oder ROM (Read-Only Memory), EEPROM (Electrically Eraseable ROM) oder eine beliebige Kombination davon. Als Weiterleitungsmedien kommen auch sich ausbreitende elektromagnetische Wellen, elektromagnetische Wellen in Wellenleitern oder anderen Übertragungsmedien (z.B. Lichtimpulse in optischen Kabeln) oder elektrische Signale, die in Drähten übertragen werden, in Frage.
Das Computer-lesbare Speichermedium kann eine verkörpernde Vorrichtung sein, welche Instruktionen für eine Nutzung durch ein Instruktionsausführungsgerät vorhält bzw. speichert. Die Computer-lesbaren Programminstruktionen, die hier beschrieben sind, können auch auf ein entsprechendes Computersystem heruntergeladen werden, beispielsweise als(Smartphone-)App von einem Service-Provider über eine kabelbasierte Verbindung oder ein Mobilfunknetzwerk.
Die Computer-lesbaren Programminstruktionen zur Ausführung von Operationen der hier beschriebenen Erfindung können maschinenabhängig sein oder maschinenunabhängige Instruktionen, Microcode, Firmware, Status-definierende Daten oder jeglicher Source-Code oder Objektcode sein, der beispielsweise in C++, Java oder ähnlichen bzw.in konventionellen prozeduralen Programmiersprachen, wie beispielsweise der Programmiersprache „C“ oder ähnlichen Programmiersprachen geschrieben sein. Die Computer-lesbaren Programminstruktionen können komplett durch ein Computersystem ausgeführt werden. In einigen Ausführungsbeispielen können es auch elektronische Schaltkreise, wie beispielsweise programmierbare Logikschaltkreise, Feld-programmierbare Gate Arrays(FPGA) oder programmierbare Logik-Arrays(PLA), sein, die die Computer-lesbaren Programminstruktionen durch Nutzung von Statusinformationen der Computer-lesbaren Programminstruktionen ausführen, um die elektronischen Schaltkreise entsprechend Aspekten der vorliegenden Erfindung zu konfigurieren bzw. zu individualisieren.
Darüber hinaus ist die hier vorgestellte Erfindung mit Bezug auf Flussdiagramme und/oder Blockdiagramme von Verfahren, Vorrichtungen(Systemen) und Computerprogrammprodukten entsprechend Ausführungsbeispielen der Erfindung dargestellt. Es sei darauf hingewiesen, dass praktisch jeder Block der Flussdiagramme und/oder Blockdiagramme als Computer-lesbare Programminstruktionen ausgestaltet sein kann.
Die Computer-lesbaren Programminstruktionen können einem General-Purpose-Computer, einem Spezialcomputer oder einem anderweitig programmierbaren Datenverarbeitungssystem zur Verfügung gestellt werden, um eine Maschine herzustellen, so dass die Instruktionen, welche durch den Prozessor oder den Computer oder andere programmierbare Datenverarbeitungsvorrichtungen ausgeführt werden, Mittel erzeugen, um die Funktionen oder Vorgänge, die in dem Flussdiagramm und/oder Blockdiagrammen dargestellt sind, zu implementieren. Diese Computerlesbaren Programminstruktionen können entsprechend auch auf einem Computer-lesbaren Speichermedium gespeichert werden.
In diesem Sinne kann jeder Block in dem dargestellten Flussdiagramm oder den Blockdiagrammen ein Modul, ein Segment oder Anteile an Instruktionen darstellen, welche mehrere ausführbare Instruktionen zur Implementierung der spezifischen Logikfunktion darstellt. In einigen Ausführungsbeispielen können die Funktionen, die in den einzelnen Blöcken dargestellt sind, in einer anderen Reihenfolge - gegebenenfalls auch parallel - ausgeführt werden.
Die dargestellten Strukturen, Materialien, Abläufe und Äquivalente aller Mittel und/oder Schritte mit zugehörigen Funktionen in den untenstehenden Ansprüchen sind dazu gedacht, alle Strukturen, Materialien oder Abläufe anzuwenden, wie es durch die Ansprüche ausgedrückt ist.
Bezugszeichenliste

100: Verfahren
102: Verfahrensschritt des Verfahrens
104: Verfahrensschritt des Verfahrens
106: Verfahrensschritt des Verfahrens
108: Verfahrensschritt des Verfahrens
200: Grundaufbau 1. Ausführungsbeispiel
202: Vorhersagewert, Steuersignal
204: 1. maschinelles Lernsystem
206: digitales Bild
208: 5. maschinelles Lernsystem
210: Merkmalstensor
212: Bildanalysesystem, weiteres ML-System
214: Einflussparameterwert, Gewichtungsparameterwert
300: alternativer Grundaufbau
400: implementierungsnäheres Ausführungsbeispiel
402: Gewichtungseinheit
404: Speicher, Bildspeicher
406: 2. ML-System
408: 3. ML-System
410: 4. ML-System
412: Multiplikator
414: Multiplikator
416: Summationsfunktion, Summenmodul
418: Schwellenwertschalter
500: architekturmäßig andere Implementierungsalternative
502: ML-System „optischer Fluss“
504: 1. Merkmalstensor, F1
506: 2. Merkmalstensor, F2
508: Unsicherheitswert, U1
510: Unsicherheitswert, U2
600: weiteres Ausführungsbeispiel für „interne Steuerung“
602: Gewichtungseinheit
604: Assistenzsystem
700: 2-Strom-FUS-Architektur
702: NN Conv2D 3x3
704: MaxPool2D
706: Dense Block
708: Transistion Block
710: Sigmoid
712: Tabelle
800: Steuerungssystems
802: Prozessor
804: Speicher
806: Empfangsmodul
808: 1. Bestimmungsmodul
810: 2. Bestimmungsmodul
812: Lernsystem
814: Bussystem
900: Computersystem
902: Prozessor
904: Speichersystem
906: Bussystem
908: Speicher, Memory
910: Permanentspeicher(ROM)
912: Langzeitspeicher
914: I/O-Controller
916: Daten(Bezugszeichen
918: Tastatur
920: Bildschirm
922: Netzwerkadapter

Claims

Ein Computer-implementiertes Verfahren (100) für eine Erzeugung eines Steuerungssignals (202) durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern (20&), das Verfahren (100) aufweisend - Bereitstellen (102) von mindestens zwei digitalen Bildern (206 einer räumlich gleichen Szene mit einer Bewegung des Instrumentes in der Szene als Eingangsdaten, - Bestimmen (104) von Parameterwerten eines Bewegungskontextes durch Nutzung der mindestens zwei digitalen Bilder (206), und - Bestimmen (106) eines Einflussparameterwertes (214), der einen Einfluss von - einem der digitalen Bilder (206) und - den Parameterwerten des Bewegungskontextes (210) auf die Eingangsdaten steuert, die innerhalb eines ersten trainierten maschinellen Lernsystems (204), welches ein erstes Lernmodell aufweist, zur Erzeugung des Steuerungssignals (202) verwendet werden.
Das Verfahren (100) gemäß Anspruch 1, wobei das Steuerungssignal (202) angepasst ist, ein robotisches Visualisierungssystem zu steuern.
Das Verfahren (100) gemäß Anspruch 1 oder 2, bei dem der Einflussparameterwert durch eine Extraktion von Parameterwerten einer Bildeigenschaft aus mindestens einem der mindestens zwei digitalen Bilder (206) bestimmt wird.
Das Verfahren (100) gemäß Anspruch 3, wobei die Parameterwerte der Bildeigenschaft durch mindestens eines ausgewählt aus einer Gruppe repräsentiert werden, die Folgendes aufweist: eine Bildunschärfekarte, eine Bildkontrastkarte, eine Bildfarbsättigungskarte, Bildfarbhomogenitätskarte einen Indikatorwert für Spiegelreflexionszonen, eine Bildhelligkeitskarte, einen Schatteneffektindikatorwert, einen Verdeckungsindexwert, und einen Bildartefakteindexwert jeweils bezogen auf das mindestens eine Bild (206).
Das Verfahren (100) gemäß Anspruch 3, bei dem - mindestens eines der mindestens zwei digitalen Bilder (206), - die Parameterwerte des Bewegungskontextes und - die Parameterwerte der Bildeigenschaft als Eingangswerte für das erste ML-System (204) verwenden werden.
Das Verfahren (100) gemäß einem der Ansprüche 1 bis 5, bei dem das erste trainierte maschinelle Lernsystem (204) Folgendes aufweist: - ein zweites maschinelles Lernsystem (406), das für eine Erzeugung von Ausgabewerten in Form eines ersten Merkmalstensors aus dem mindestens einen digitalen Bild (206) trainiert wurde, - ein drittes maschinelles Lernsystem (408), das für eine Erzeugung von Ausgabewerten in Form eines zweiten Merkmalstensors aus den Parameterwerten des Bewegungskontextes trainiert wurde, und - eine Gewichtungseinheit (402), die angepasst ist, um den Einfluss des ersten Merkmalstensors gegenüber dem Einfluss des zweiten Merkmalstensors auf ein viertes maschinelles Lernsystem (410) in dem ersten maschinellen Lernsystem (204) zu steuern.
Das Verfahren (100) gemäß Anspruch 6, zusätzlich aufweisend - Erhöhen des Einflusses des ersten Merkmalstensors gegenüber dem zweiten Merkmalstensors, wenn ein Bildeigenschaftswert höher als ein vorgegebener Schwellwert ist, und - Erhöhen des Einflusses des zweiten Merkmalstensors gegenüber dem ersten Merkmalstensors, wenn der Bildeigenschaftswert niedriger als ein vorgegebener Schwellwert ist.
Das Verfahren (100) gemäß Anspruch 7, wobei in optisch scharfen Bildregionen der zweite Merkmalstensor gegenüber dem ersten Merkmalstensor übergewichtet wird, und in optisch unscharfen Bildregionen der erste Merkmalstensor gegenüber dem zweiten Merkmalstensors übergewichtet wird.
Das Verfahren (100) gemäß Anspruch 1 oder 2, bei dem das erste trainierte maschinelle Lernsystem (204) Folgendes aufweist: - ein zweites maschinelles Lernsystem (406), das zur Erzeugung von Werten eines ersten Merkmalstensors (504) und eines ersten Unsicherheitswertes (508) aus dem mindestens einen digitalen Bild (206) trainiert wurde, - ein drittes maschinelles Lernsystem (408), das zur Erzeugung von Werten eines zweiten Merkmalstensors (506) und eines zweiten Unsicherheitswertes (510) aus den Parameterwerten des Bewegungskontextes trainiert wurde, wobei der erste Merkmalstensors (504) und der erste Unsicherheitswert (508) und der zweite Merkmalstensors (506) und der zweite Unsicherheitswert (510) als Eingangsdatendaten für ein viertes maschinelles Lernsystem (410) dienen, das trainiert wurde, um das Steuerungssignals (202) zu erzeugen.
Das Verfahren (100) gemäß Anspruch 9, wobei das erste trainierte maschinelle Lernsystem (204) zusätzlich eine Gewichtungseinheit (508) aufweist, die den Einfluss des ersten Merkmalstensors (504) gegenüber dem Einfluss des zweiten Merkmalstensors (506) auf das vierte maschinelles Lernsystem (410) steuert.
Das Verfahren (100) gemäß Anspruch 10, zusätzlich aufweisend - Erhöhen des Einflusses des ersten Merkmalstensors (504) gegenüber dem zweiten Merkmalstensor (50), wenn der zweite Unsicherheitswert (510) höher als der erste Unsicherheitswert (508) ist, und - Erhöhen des Einflusses des zweiten Merkmalstensors (506) gegenüber dem ersten Merkmalstensor (504), wenn der erste Unsicherheitswert (508) höher als der zweite Unsicherheitswert (510) ist.
Das Verfahren (100) gemäß einem der Ansprüche 9 bis 11, wobei entweder der erste Unsicherheitswert (508) oder der zweite Unsicherheitswert (510) Null ist.
Das Verfahren (100) gemäß einem der Ansprüche 9 bis 11, wobei Unsicherheitswerte (508, 510) durch ein Ensemble-Learning-Verfahren bestimmt werden.
Ein Steuerungssystem (800) für eine Erzeugung eines Steuerungssignals (202) durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern (206), das Steuerungssystem (800) aufweisend - einen Prozessor (802) und einen mit dem Prozessor (802) verbundenen Speicher (804), wobei der Speicher (804) Programm-Code-Segmente speichert, die, wenn sie von dem Prozessor (802) ausgeführt werden, den Prozessor (802) veranlassen zum - Empfangen von mindestens zwei digitalen Bildern (206) einer räumlich gleichen Szene mit einer Bewegung des Instrumentes in der Szene als Eingangsdaten, - Bestimmen von Parameterwerten eines Bewegungskontextes durch Nutzung der mindestens zwei digitalen Bilder (206), und - Bestimmen eines Einflussparameterwertes, der einen Einfluss von - einem der digitalen Bilder (206) und - den Parameterwerten des Bewegungskontextes auf die Eingangsdaten steuert, die innerhalb eines ersten trainierten maschinellen Lernsystems (204), welches ein erstes Lernmodell aufweist, zur Erzeugung des Steuerungssignals (202) verwendet werden.
Ein Computerprogrammprodukt für eine Erzeugung eines Steuerungssignals (202) durch eine Lokalisierung mindestens eines Instrumentes durch eine Kombination maschineller Lernsysteme auf Basis von digitalen Bildern (206), wobei das Computerprogrammprodukt ein Computer-lesbares Speichermedium aufweist, welches darauf gespeicherte Programminstruktionen aufweist, wobei die Programminstruktionen durch einen oder mehrere Computer oder Steuereinheiten ausführbar sind, und den einen oder die mehreren Computer oder Steuereinheiten dazu veranlasst, das Verfahren (100) entsprechend einem der Ansprüche 1 bis 13 auszuführen.