-
Die Erfindung betrifft ein Verfahren, ein System und ein Softwareprogrammprodukt zum Erstellen von Trainingsdaten für endoskopische Anwendungen, bei dem gespeicherte Einzelbilder und/oder Videodaten von endoskopischen Eingriffen oder Untersuchungen als Trainingsdaten für Machine Learning-Anwendungen aufbereitet werden.
-
Endoskopische Eingriffe, zu denen als Spezialfall auch laparoskopische Eingriffe zählen, werden in zunehmendem Maße videotechnisch begleitet. Dazu dienen Video-Endoskope mit integrierten Videoeinheiten einschließlich eines oder mehrerer Bildsensoren und Ausleseelektronik sowie Endoskope mit aufsetzbaren Videoköpfen, die die entsprechenden Komponenten umfassen und Licht aus dem Okular des jeweiligen Endoskops empfangen und verarbeiten, bzw. deren laparoskopische Pendants. Mit diesen videoendoskopischen Instrumenten werden Videodaten und gegebenenfalls Einzelbilder aufgenommen, angezeigt, gespeichert und verarbeitet. Neben der unmittelbaren Anzeige für den Arzt, der den Eingriff oder die Untersuchung ausführt, dienen diese Videodaten und Einzelbilder auch zur Dokumentation und als Datenbasis zur nachträglichen Diagnose von Verletzungen, krankhaften Gewebeveränderungen, Krankheitsbildern und vielem mehr.
-
Es gibt Anwendungen, die Videodaten von endoskopischen Einsätzen bereits während des Eingriffs bzw. der Untersuchung auszuwerten und die Ergebnisse der Bildauswertung zur unmittelbaren Steuerung von Betriebsparametern des Endoskopsystems zu nutzen. Beispielhaft hierfür wird in der deutschen Patentanmeldung Nr.
10 2020 105 835.7 der Anmelderin ein Verfahren zur Unterstützung eines HF-chirurgischen Eingriffs offenbart, bei dem ein Gewebe mit einer HF-Elektrode eines endoskopischen HF-Instruments geschnitten oder koaguliert wird, wobei für verschiedene Gewebetypen verschiedene an die Gewebetypen angepasste HF-Moden zur Verfügung stehen. Das endoskopische HF-Instrument ist mit einer optischen Aufnahmevorrichtung ausgestattet, deren Sichtfeld auf das mittels der HF-Elektrode zu behandelnde Gewebe ausgerichtet ist. Unmittelbar vor bzw. während der Behandlung des Gewebes wird eine optische Klassifizierung des Gewebetyps des zu behandelnden Gewebes durchgeführt und ein zu dem erkannten Gewebetyp passender HF-Mode eingestellt.
-
In der deutschen Patentanmeldung Nr.
10 2020 116 473.4 der Anmelderin ist ein Verfahren zur endoskopischen Bildgebung beschrieben, bei dem mit einem Videoendoskop unter Weißlichtbeleuchtung Weißlichtbilder aufgenommen und von der Bildauswertungseinheit in Echtzeit auf das Vorhandensein wenigstens einer Struktur mit wenigstens einer vordefinierten Charakteristik hin ausgewertet werden.
-
Wenn die Bildauswertungseinheit in einem Weißlichtbild das Vorhandensein einer entsprechenden Struktur erkennt, wird eine Speziallichtbeleuchtung mit einem einen Speziallicht erzeugt und es werden Bildaufnahmen eines Videostreams unter der Speziallichtbeleuchtung aufgenommen, die einer Bildverarbeitung in einem Speziallichtverarbeitungsmodus unterzogen werden.
-
Die deutsche Patentanmeldung Nr.
10 2021 101 410.7 der Anmelderin betrifft ferner ein Verfahren zur Steuerung eines chirurgischen HF-Generators während eines HF-chirurgischen Eingriffs mit einem HF-chirurgischen Handinstrument. Dabei wird ein Operationsfeld mittels eines Videoendoskops überwacht, welches eine Abfolge von Bildern erfasst. Die erfassten Bilder werden einer automatischen Real-Time-Bilderkennung unterzogen, in der sie auf Strukturen eines oder mehrerer Strukturtypen und/oder Operationssituationen eines oder mehrerer Operationssituationstypen hin ausgewertet werden. Wenn eine vorherbestimmte Struktur oder Operationssituation erkannt wird, wird eine Änderung eines oder mehrerer Betriebsparameter und/oder Betriebsmodi des HF-Generators vorgeschlagen oder durchgeführt.
-
Einige dieser Anwendungen von Bilderkennung in der Video-Endoskopie basieren auf Instanzen von Machine Learning, beispielsweise, aber nicht ausschließlich, auf der Grundlage des Trainings von künstlichen neuronalen Netzen, im Folgenden kurz „neuronale Netze“ genannt. Solche neuronalen Netze, insbesondere neuronale Faltungsnetze („convolutional neural networks“, CNN), eignen sich besonders gut zur schnellen Erkennung von Strukturen oder Objekten in Bildern. Dafür werden sie anhand von Trainingsbildern bzw. Trainingsvideos trainiert, die zum Teil die Strukturen aufweisen, die später im Einsatz erkannt werden sollen. Während das Training ein sehr rechenintensiver Prozess ist, erfolgt die Bildverarbeitung mit dem neuronalen Netz sehr schnell und ermöglicht eine Echtzeit-Bildanalyse.
-
Die hierüber angegebenen Anwendungsfälle lassen sich unterschiedlich realisieren. So kann für jeden Anwendungsfall ein eigenes neuronales Netz trainiert werden. Weil aber bei endoskopischen Eingriffen und Prozeduren sehr ähnliche Bilder zustande kommen, ist es auch möglich, die verschiedenen Anwendungen auf der Grundlage von miteinander eng verwandten neuronalen Netzen zu realisieren. Diese miteinander verwandten neuronalen Netze gehen auf ein neuronales Netz zurück, das, stark vereinfacht ausgedrückt, zunächst auf der Grundlage einer gemeinsamen Basis von Bild- und Videodaten trainiert wurde, von dem aus anschließend Kopien für die verschiedenen Anwendungen ausdifferenziert und weitertrainiert werden.
-
Ein Grundproblem beim Training neuronaler Netze für medizinische, insbesondere endoskopische, Anwendungen, ist die geringe Verfügbarkeit von Trainingsdaten. Deshalb wird das Grundtraining üblicherweise anhand von besser verfügbaren Bilddaten durchgeführt. Dabei kann es sich um Bilder von Alltagsgegenständen, Tieren, Pflanzen und Personen, aber auch von endoskopischen Eingriffen und/oder Untersuchungen handeln, zu denen von Menschen bestimmte Klassifikationen als Metadaten hinzugefügt worden waren. Dieses initiale Training kann überwacht oder unüberwacht als „Deep Learning“ erfolgen, wobei ein initialer Satz von Klassifikatoren eingesetzt wird, die zur Beschreibung bestimmter Eigenschaften der Bilddaten geeignet sind und die in den zuvor von Hand gepflegten Metadaten vorhanden sind. Dabei passen sich die Strukturen der eingangsseitigen tieferen Neuronenschichten an das zum Training verwendete Bildmaterial an, die ausgangsseitigen oberen Neuronenschichten bilden Klassifizierer für die oben genannten initialen Klassifikationen, die dem Training zugrunde liegen.
-
Ein auf nichtmedizinischen Bildern trainiertes Netz kann anhand von endoskopischen Bildern weitertrainiert werden, wobei entweder alle, oder, weniger rechenintensiv, nur die oberen Schichten zum Optimieren freigegeben werden, während die unteren Schichten eingefroren bleiben.
-
Wenn das neuronale Netz sein initiales Training mit endoskopischen Bildern durchlaufen hat, kann eine weitere Anpassung an verschiedene Fragestellungen bzw. Anwendungen erfolgen. Dazu wird das neuronale Netz in seinen unteren Schichten eingefroren und nur die obersten Schichten, die die Klassifizierer bilden, aufgetaut, so dass sie auf neue Klassifikatoren wie beispielsweise bestimmte Gewebetypen, Operationssituationen etc. trainiert werden können, die für eine bestimmte Anwendung erforderlich sind. Dieses Nachtrainieren, das üblicherweise überwacht erfolgt, führt dann zu einem neuronalen Netz, das von dem ursprünglichen neuronalen Netz abstammt und für die trainierte Anwendung gute Ergebnisse erzielt. Die abgeleiteten Neuronalen Netze weisen also, wieder stark vereinfacht gesagt, die gleichen unteren Schichten auf und unterscheiden sich nur in den oberen Klassifikator-Schichten.
-
Wie bereits ausgeführt, stellt sich für das Training der neuronalen Netze in Bezug auf endoskopische Anwendungen das Problem der geringen Verfügbarkeit von Trainingsdaten. Neben der geringen Verfügbarkeit von fachlich ausgebildeten Personen, die die zur Verfügung gestellten Aufnahmen von Eingriffen und Untersuchungen klassifizieren können, ist ein weiteres Hindernis in der Notwendigkeit des Einhaltens von Datenschutzrichtlinien zu sehen. So dürfen Trainingsdaten für Machine Learning keine Informationen enthalten, die einzelnen Individuen zugeordnet werden können. Dies bedeutet, dass weder Patienten noch Ärzte identifizierbar sein dürfen. Viele Einzelbilder und Videoaufnahmen von endoskopischen Eingriffen und Untersuchungen sind jedoch mit verschiedenen Textbestandteilen unterlegt, die beispielsweise einen Namen eines Patienten, eines Krankenhauses, eines Geräts, eines behandelnden Arztes oder das Datum des Eingriffes und Ähnliches beinhalten. Solche Bilddaten sind nicht als Trainingsdaten zu verwenden.
-
Ferner kann es auch passieren, dass Bilddaten, die von einem Endoskop vor oder nach dem Eingriff oder der Untersuchung aufgenommen wurden, Gesichter von Patienten oder anderen Personen zeigen, die ebenfalls deren Identität preisgeben.
-
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, das Erstellen von Trainingsdaten für endoskopische Anwendungen aufgrund einer beliebigen Auswahl von Bilddaten von endoskopischen Eingriffen und Untersuchungen zu ermöglichen.
-
Diese Aufgabe wird durch ein Verfahren zum Erstellen von Trainingsdaten für endoskopische Anwendungen, bei dem gespeicherte Einzelbilder und/oder Videodaten von endoskopischen Eingriffen oder Untersuchungen als Trainingsdaten für Machine Learning-Anwendungen aufbereitet werden, gelöst, wobei
- a) die Einzelbilder und/oder Videodaten zunächst einem Bilderkennungsalgorithmus unterzogen werden, mit dem erkannt wird,
- i) ob die Aufnahmen der Einzelbilder und/oder Videodaten innerhalb oder außerhalb eines Körpers aufgenommen wurden und
- ii) ob Textinformationen und/oder Gesichter in den Einzelbildern und/oder Videodaten enthalten sind, wobei
- b) die Einzelbilder und/oder Videodaten anschließend einem Bildbearbeitungsalgorithmus unterzogen werden, mit dem die Einzelbilder und/oder die Videodaten, abhängig vom Ergebnis des Bilderkennungsalgorithmus im Verfahrensschritt a) i),
- i) durch Verschleierung oder Entfernung von Textinformationen und Gesichtern, soweit vorhanden, anonymisiert werden, wenn die Aufnahmen der jeweiligen Einzelbilder und/oder Videodaten außerhalb eines Körpers aufgenommen wurden, und
- ii) durch Verschleierung oder Entfernung von allen Textinformationen, soweit vorhanden, anonymisiert werden, wenn die Aufnahmen der jeweiligen Einzelbilder und/oder Videodaten innerhalb eines Körpers aufgenommen wurden.
-
Die Erfindung beruht auf der Erkenntnis, dass eine Unterscheidung, ob Bilddaten von Endoskopen innerhalb eines Körpers oder außerhalb eines Körpers aufgenommen wurden, bei der Bearbeitung der Bilddaten zur Herstellung von Trainingsdaten für Machine Learning-Anwendungen nützlich sind, weil sie es ermöglicht, bestimmte Bilderkennungsalgorithmen nur in bestimmten Kontexten anzuwenden, wodurch die Verarbeitungsgeschwindigkeit gesteigert wird.
-
Der Bilderkennungsalgorithmus selbst erkennt zunächst, ob Aufnahmen der Einzelbilder und/oder Videodaten innerhalb oder außerhalb eines Körpers aufgenommen wurden und außerdem, ob Textinformationen und/oder Gesichter darin enthalten sind. Die anschließende Bildbearbeitung erfolgt dann in Abhängigkeit von dem Ergebnis, ob die Aufnahmen von innerhalb oder von außerhalb des Körpers stammen, sodass bei Aufnahmen innerhalb des Körpers lediglich auf Textinformationen geachtet werden muss, während bei Aufnahmen außerhalb des Körpers zusätzlich auch Gesichter verschleiert oder entfernt werden müssen.
-
Die Erkennung, ob Aufnahmen von außerhalb oder von innerhalb eines Körpers stammen, kann ihrerseits auf trainierten neuronalen Netzen beruhen, die auf diese Unterscheidung hin trainiert wurden. Andere, konventionelle Bilderkennungsalgorithmen können beispielsweise aufgrund der Helligkeitsverteilung erkennen, ob beispielsweise, wie bei Aufnahmen aus dem Körperinneren, die äußeren Ränder heller sind als das Zentrum des Bildes. Mehrheitlich rötliche Farbwerte können ebenfalls signalisieren, dass ein Bild aus dem Körperinneren stammt. Ferner können künstliche Strukturen wie gerade Linien und Kanten, signalisieren, dass ein Bild von außerhalb eines Körpers stammt.
-
In Ausführungsformen werden im Verfahrensschritt b) i), also bei Aufnahmen von außerhalb des Körpers, zur Verschleierung oder Entfernung von Textinformationen und Gesichtern die Einzelbilder und/oder Videodaten im Ganzen oder nur lokal in Bereichen, in denen Textinformationen und/oder Gesichter erkannt wurden, unscharf gestellt oder eingefärbt. Im Allgemeinen wird es vorzuziehen sein, nur lokal die Bereiche, in denen Textinformationen und/oder Gesichter erkannt wurden, zu verschleiern oder einzuverleiben. Es kann jedoch in bestimmten Fällen, beispielsweise dann, wenn die betroffenen Bereiche einen größeren Teil des Bildes ausmachen, einfacher sein, das gesamte Bild zu verschleiern bzw. einzufärben. In diesem Fall ist der Verlust an Information für das Training klein. Weiterhin werden in Ausführungsformen im Verfahrensschritt b) ii), also bei Aufnahmen aus dem Körperinneren, zur Verschleierung oder Entfernung von Textinformationen nur Bildbereiche mit Textinformationen unscharf gestellt oder eingefärbt.
-
Die Einfärbung der Bilder im Ganzen oder der auszublendenden Bildbereiche erfolgt in verschiedenen Ausführungsformen als Schwärzung, als Weißung oder durch Füllung mit einer Farbe, die einer durchschnittlichen Farbgebung im einzufärbenden Bildbereich entspricht, wobei die Durchschnittsfarbe insbesondere unter Ausschluss von Pixeln, die eindeutig dem Text zuzuordnen sind, ermittelt wird. Eine Schwärzung oder Weißung des betroffenen Bereichs macht diesen Bereich unmittelbar als geändert kenntlich. Die Einfärbung mit einer Durchschnittshintergrundfarbe macht die Veränderung weniger offensichtlich und kann dazu führen, dass das Training des neuronalen Netzes hierdurch weniger beeinflusst wird. Das Merkmal, dass die Durchschnittshintergrundfarbe auch unter Ausschluss von Pixeln, die eindeutig dem Text zuzuordnen sind, ermittelt wird, verhindert, dass dieser Bereich durch den Einfluss der schwarzen oder weißen Pixel des Textes eine gegenüber dem Hintergrund in der Umgebung des veränderten Bereiches dunklere oder hellere Färbung aufweist. Dies gilt ebenso, falls der Text eine andere Farbe als schwarz oder weiß aufweist, was beispielsweise dann der Fall ist, wenn bei der Superposition des Textes über das Bild ein besonders guter Farbkontrast gegenüber dem restlichen Bild und dadurch eine besonders gute Lesbarkeit erzielt werden soll.
-
In einer Weiterentwicklung ist vorgesehen, dass im Verfahrensschritt a) ii) zwischen allgemeinem Text und personenbezogenem Text unterschieden wird, wobei als personenbezogener Text insbesondere Text gewertet wird, der Namen, ID oder Geburtsdatum des Patienten, Namen oder ID des behandelnden Arztes oder das Datum des Eingriffs oder andere Informationen beinhaltet, die direkt oder indirekt auf Individuen rückschließen lassen können. Dies bedeutet, dass nicht personenbezogener allgemeiner Text in den Trainingsdaten verbleiben kann. Damit lernt das neuronale Netz während des Trainings, auch mit textbeladenen Bildern umzugehen, ohne dadurch bei der angestrebten Klassifikation in die Irre geführt zu werden.
-
Ein Teil des trainierten neuronalen Netzes ist in solchen Fällen in der Lage, beispielsweise Zeichenfolgen mit verschiedenen Datumsformaten oder typische Platzierungen von bestimmten Informationen in den Bildern zu erkennen. Dies resultiert in einer Zuweisung einer Wahrscheinlichkeit zu diesen Bereichen, mit der sie entsprechende zu anonymisierende oder unverfängliche Informationen beinhalten.
-
In der Bearbeitung der Bilddaten ist entsprechend in Ausführungsformen vorgesehen, dass, abgesehen von ebenfalls zu anonymisierenden Gesichtern, die Verschleierung oder Einfärbung nur in Bezug auf personenbezogene Texte, nicht aber in Bezug auf allgemeine Texte angewandt wird.
-
In verschiedenen Ausführungsformen wird das Ergebnis der Bildbearbeitung im Verfahrensschritt b) anstelle der oder zusätzlich zu den ursprünglichen Einzelbildern und/oder Videodaten gespeichert. Die Speicherung anstelle der ursprünglichen Daten hat den Vorteil des geringeren Platzbedarfs. Die gespeicherten Daten sind bereits die herzustellenden Trainingsdaten für das Machine Learning. Eine Speicherung zusätzlich zu den ursprünglichen Bilddaten ermöglicht es, die Ergebnisse zu kontrollieren und mit den Originalen zu vergleichen. Sollte das Ergebnis unzulänglich sein, kann der Vorgang mit gegebenenfalls veränderten Parametern erneut durchlaufen werden. Insbesondere kann beispielsweise dann, wenn systematische Fehlentscheidungen erkannt werden, die Klassifikation in den Metadaten der originalen Bilddaten angepasst oder ergänzt werden, um den Prozess der Herstellung der Trainingsdaten zu verbessern.
-
In Ausführungsformen beruht der Bilderkennungsalgorithmus des Verfahrensschritts a), insbesondere in Bezug auf die Erkennung, ob die Einzelbilder und/oder Videodaten innerhalb oder außerhalb eines Körpers aufgenommen wurden, die Anwesenheit und der Inhalt von Texten und die Identifizierung von zu verschleiernden oder einzufärbenden Bereichen, auf einem oder mehreren trainierten neuronalen Netzen.
-
Die der Erfindung zugrunde liegende Aufgabe wird auch durch ein System zum Erstellen von Trainingsdaten für endoskopische Anwendungen, umfassend einen Massenspeicher mit Einzelbildern und/oder Videodaten von endoskopischen Eingriffen oder Untersuchungen, sowie eine Datenverarbeitungsanlage, gelöst, die ausgebildet und eingerichtet ist, die Einzelbilder und/oder Videodaten einem Bilderkennungsalgorithmus gemäß Verfahrensschritt a) und einem Bildbearbeitungsalgorithmus gemäß Verfahrensschritt b) eines zuvor beschriebenen erfindungsgemäßen Verfahrens zu unterziehen und die bearbeiteten Einzelbilder und/oder Videodaten als Trainingsdaten abzuspeichern, insbesondere im Massenspeicher.
-
Das System verwirklicht damit die gleichen Eigenschaften, Merkmale und Vorteile wie das zuvor beschriebene erfindungsgemäße Verfahren.
-
Die der Erfindung zugrunde liegende Aufgabe wird ferner durch ein Softwareprogrammprodukt mit Programmcodemitteln gelöst, die bei Ablauf in einer Datenverarbeitungsanlage eines zuvor beschriebenen erfindungsgemäßen Systems die Datenverarbeitungsanlage des Systems einrichten, die Einzelbilder und/oder Videodaten aus dem Massenspeicher des Systems abzurufen, einem Bilderkennungsalgorithmus gemäß Verfahrensschritt a) und einem Bildbearbeitungsalgorithmus gemäß Verfahrensschritt b) eines zuvor beschriebenen, erfindungsgemäßen Verfahrens zu unterziehen und die bearbeiteten Einzelbilder und/oder Videodaten als Trainingsdaten abzuspeichern, insbesondere im Massenspeicher.
-
Auch das erfindungsgemäße Softwareprogrammprodukt verwirklicht somit die gleichen Eigenschaften, Merkmale und Vorteile wie die zuvor genannten Erfindungsgegenstände. Das gleiche gilt für Speichermedien, wiederbeschreibbar oder nur einmal beschreibbar, die ein zuvor beschriebenes erfindungsgemäß Softwareprogrammprodukt für eine Datenverarbeitungsanlage abrufbar und ausführbar speichern.
-
Weitere Merkmale der Erfindung werden aus der Beschreibung erfindungsgemäßer Ausführungsformen zusammen mit den Ansprüchen und den beigefügten Zeichnungen ersichtlich. Erfindungsgemäße Ausführungsformen können einzelne Merkmale oder eine Kombination mehrerer Merkmale erfüllen.
-
Im Rahmen der Erfindung sind Merkmale, die mit „insbesondere“ oder „vorzugsweise“ gekennzeichnet sind, als fakultative Merkmale zu verstehen.
-
Die Erfindung wird nachstehend ohne Beschränkung des allgemeinen Erfindungsgedankens anhand von Ausführungsbeispielen unter Bezugnahme auf die Zeichnungen beschrieben, wobei bezüglich aller im Text nicht näher erläuterten erfindungsgemäßen Einzelheiten ausdrücklich auf die Zeichnungen verwiesen wird. Es zeigen:
- 1 eine schematische Darstellung eines erfindungsgemäßen Systems,
- 2 eine beispielhafte schematische Repräsentation eines von einem Endoskop innerhalb eines Körpers aufgenommenen Bildes,
- 3 eine beispielhafte schematische Repräsentation eines von einem Endoskop außerhalb eines Körpers aufgenommenen Bildes,
- 4 eine schematische Darstellung eines allgemeinen Ablaufdiagramms eines erfindungsgemäßen Verfahrens und
- 5 eine detailliertere schematische Darstellung eines Teils eines erfindungsgemäßen Verfahrens.
-
In den Zeichnungen sind jeweils gleiche oder gleichartige Elemente und/oder Teile mit denselben Bezugsziffern versehen, so dass von einer erneuten Vorstellung jeweils abgesehen wird.
-
In 1 ist ein System 100 zum Erstellen von Trainingsdaten für endoskopische Anwendungen schematisch dargestellt. Das System 100 umfasst im Wesentlichen eine Datenverarbeitungsanlage 110 und einen Massenspeicher 112, die miteinander im Datenaustausch stehen. Der Massenspeicher 112 kann Teil der Datenverarbeitungsanlage 110 sein oder ein lokal angeordnetes Massenspeichersystem, beispielsweise ein netzgebundener Speicher (ein sogenanntes „Network Attached Storage“, NAS), oder auch ein Massenspeichersystem in der Cloud.
-
Der Massenspeicher 112 speichert eine Vielzahl von Einzelbildern und/oder Videodaten, die mit Endoskopen bei Eingriffen oder Untersuchungen aufgenommen worden sind und aus denen Trainingsdaten als Grundlage für Machine Learning für verschiedene Anwendungen im Bereich der Bildauswertung in der Endoskopie erstellt werden sollen. Der Massenspeicher 112 kann auch eine Instanz eines zu trainierenden oder trainierten neuronalen Netzes speichern, das von der Datenverarbeitungsanlage 110 abgerufen wird und nach einem Optimieren wieder in den Massenspeicher 112 zurückgespeichert werden kann. Ebenso kann die Datenverarbeitungsanlage 110 die bearbeiteten Bilddaten der Einzelbilder und/oder Videodaten als Trainingsdaten im Massenspeicher 112 abspeichern.
-
Die Datenverarbeitungsanlage 110 kann ein Computer oder ein System mit mehreren miteinander kommunizierenden Computern oder auch ein Cloud-Dienst, also ein cloudbasierter Server, sein. Auf der Datenverarbeitungsanlage 110 läuft eine Software ab, die das im Weiteren beschriebene erfindungsgemäße Verfahren ausführt.
-
2 und 3 zeigen zwei Beispiele von Bilddaten 101 und 102. Das Bild 101 zeigt schematisiert eine Ansicht, die ein Endoskop aus einem Körperhohlraum eines Patienten anzeigen kann. Dabei kann es sich um einen Darm, einen Magen oder dergleichen handeln, bei speziell laparoskopischen Aufnahmen um Ansichten der Bauchhöhle. In der linken unteren Ecke sind Textinformationen in einem Bereich 20 angezeigt, die beispielsweise Patientendaten, Operationsdaten oder dergleichen anzeigen können, die Rückschlüsse auf beteiligte Personen zulassen, wie beispielsweise den Patienten oder den ausführenden Arzt.
-
Insgesamt ist das Bild 101 allerdings von den Bilddaten des Endoskops dominiert und somit zum Erstellen von Trainingsdaten geeignet. Dazu müssen die Textinformationen anonymisiert werden.
-
Das in 3 dargestellte Bild 102 zeigt, in schematisierter Form, eine Szene aus dem Umfeld einer Operation und somit eine Situation, bei der ein Endoskop noch nicht oder nicht mehr in einen Körperhohlraum eines Patienten eingeführt ist. Das Bild 102 zeigt drei Personen, die bei der Operation beteiligt sind, zusammen mit Strukturen aus dem Operationssaal. Die behandelnden Personen tragen Operationsmasken, wären bei genauerer Analyse jedoch möglicherweise noch identifizierbar. Im vorliegenden Bild sind keine Textinformationen enthalten, jedoch könnten auch solche dem Bild unterlegt sein.
-
Für die Bilddaten des Bildes 102, das von den Köpfen der dargestellten Personen dominiert wird, kann es sinnvoll sein, das Bild vollständig aus den Trainingsdaten auszuschließen. Jedoch ist es für das zu trainierende neuronale Netz auch relevant, unterscheiden zu können, ob ein Bild von innerhalb eines Körpers oder von außerhalb eines Körpers stammt, und aus diesem Grund werden auch Trainingsbilder von außerhalb eines Körpers benötigt. Im Fall des Bildes 102 ist es notwendig, die Gesichter der abgebildeten Personen unkenntlich zu machen, beispielsweise, indem ein Unschärfe-Filter angewendet wird oder die entsprechenden Bildbereiche eingefärbt werden.
-
4 zeigt schematisch ein Ablaufdiagramm eines erfindungsgemäßen Verfahrens. Die in dem in 1 dargestellten Massenspeicher 112 gespeicherten Bilddaten 101, 102, 103, ..., 10N dienen als Input für das System 100, bei dem in der in 1 dargestellten Datenverarbeitungsanlage 110 zu jeder der Bilddaten 101, 102, 103, ..., 10N ein Bilderkennungsalgorithmus 102 sowie ein Bildbearbeitungsalgorithmus 104 abläuft. Bei dem Bilderkennungsalgorithmus 102 wird festgestellt, ob die Bilder mit den Bilddaten 101, 102, 103, ..., 10N von innerhalb oder von außerhalb eines Körpers stammen und ob darin Gesichter und/oder Textinformationen vorhanden sind. Es kann, wenn gewünscht, auch festgestellt werden, ob gegebenenfalls gefundene Textinformationen eine Identifizierung von beteiligten Personen ermöglichen. Dazu wird ermittelt, ob die Textinformationen in eines von einer Auswahl von Schemata passen, die entsprechende Rückschlüsse zulassen, beispielsweise, ob sie ein Datumsformat oder ein Namensformat haben.
-
In dem Bildbearbeitungsalgorithmus 104 werden anhand der Ergebnisse des Bilderkennungsalgorithmus 102 die Bilddaten 101, 102, 103, ..., 10N bearbeitet und mit geeigneten Mitteln die gefundenen Bereiche oder ggf. gesamten Bilder verschleiert oder eingefärbt. Die resultierenden bearbeiteten Bilder werden als Trainingsdaten 12 wieder im Massenspeicher 112 abgelegt. Alternativ können sie auch an anderer Stelle abgelegt werden, beispielsweise in einem anderen Massenspeicher.
-
In 5 ist der zentrale Teil des Verfahrens detaillierter dargestellt. Im Verfahrensschritt 200 werden nacheinander Bilddaten 101, 102, 103, ..., 10N jeweils eines der im Massenspeicher 112 gespeicherten Bilder in die Datenverarbeitungsanlage 110 geladen, beginnend mit den Bilddaten 101 des ersten gespeicherten Bildes, und im Verfahrensschritt 202 einem Bilderkennungsalgorithmus unterzogen, mit dem festgestellt wird, ob die Bilder von außerhalb oder von Innerhalb eines Körpers stammen. Das Ergebnis wird als Zwischenergebnis abgespeichert. Anschließend wird im Verfahrensschritt 204 das gleiche Bild einem Bilderkennungsalgorithmus unterzogen, der das Vorhandensein von Textinformationen im Bild erkennt und die entsprechenden Bereiche markiert. Die Bilderkennung kann auf mehreren separaten Algorithmen beruhen, die zusammen den Bilderkennungsalgorithmus ergeben. Alternativ kann auch die Bilderkennung der Lokalität und des Textes auch in einem gemeinsamen Verfahrensschritt 203, der die Schritte 202 und 204 miteinander vereint, erfolgen.
-
Nach Abschluss der Bilderkennung an den Bilddaten 101, 102, 103, ..., 10N des geladenen Bildes erfolgt die Bildbearbeitung entsprechend dem Bildbearbeitungsalgorithmus 104 aus 4. Dieser beinhaltet, dass zunächst in einem Entscheidungsschritt 206 entschieden wird, ob das Bild von innerhalb oder außerhalb eines Körpers stammt. Hierzu wird das Zwischenergebnis aus dem Verfahrensschritt 202 verwendet. Sollte ein Bild von außerhalb eines Körpers stammen („out“), wird der linke Zweig der weiteren Verfahrensschritte 208, 210 gewählt. Im Entscheidungsschritt 208 wird gefragt, ob Textinformation und/oder Gesichter im Bild vorhanden sind. Sollte dies der Fall sein („yes“), wird im Verfahrensschritt 210 der Bereich mit Textinformationen und/oder Gesichtern im Bild verschleiert bzw. entfernt oder gegebenenfalls das gesamte Bild verschleiert oder eingefärbt. Das Ergebnis wird abgespeichert. Das Verfahren kehrt dann zum Verfahrensschritt 200 zurück, wo Bilddaten eines nächsten Bildes geladen werden.
-
Falls der Entscheidungsschritt 208 zu dem Ergebnis kommt, dass kein Text und keine Gesichter im Bild vorhanden sind, wird der Zweig „no“ beschritten und der Algorithmus kehrt direkt zum Anfang mit dem Verfahrensschritt 200 zurück. Das Bild selbst wird als Teil der Trainingsdaten abgespeichert. Im Verfahrensschritt 200 werden die Bilddaten 101, 102, 103, ..., 10N des nächsten Bildes geladen und der Bilderkennung und Bildbearbeitung unterzogen.
-
Wenn im Entscheidungsschritt 206 festgestellt wurde, dass ein Bild von innerhalb eines Körpers („in“) stammt, erfolgt ein Entscheidungsschritt 212, ob Text im Bild vorhanden ist. Dies ist das Ergebnis des Bilderkennungsalgorithmus 204 für Text. Sollte Text vorhanden sein (Zweig „yes“), so wird im Verfahrensschritt 214 der Textbereich des Bildes verschleiert oder entfernt, das bearbeitete Bild bei den Trainingsdaten abgespeichert und der Algorithmus kehrt zum Verfahrensschritt 200 zurück, wo die Bilddaten des nächstfolgenden Bildes vom Massenspeicher 112 geladen werden.
-
Kommt die Entscheidung 212, ob Text im Bild ist, hingegen zu dem Ergebnis, dass kein Text vorhanden ist („no“), so kehrt der Algorithmus direkt zum Verfahrensschritt 200 zurück und die Daten des nächsten Bildes werden geladen. Dies erfolgt so lang, bis sämtliche noch nicht verarbeiteten Bilddaten von Einzelbildern und/oder Videodaten auf diese Weise verarbeitet sind.
-
Anstelle einer streng sequentiellen Verarbeitung der Bilddaten101, 102, 103, ..., 10N nacheinander kann auch eine parallele Verarbeitung mehrerer Bilder gleichzeitig erfolgen, was die benötigte Zeit, um die Bilddaten 101, 102, 103, ..., 10N aller gespeicherten Bilder zu bearbeiten, erheblich verkürzt.
-
Die resultierenden abgespeicherten Trainingsdaten sind fertig anonymisiert und damit geeignet, in neuronalen Netzen oder anderen Beispielen für Machine Learning eingesetzt zu werden, wo sie dafür verwendet werden, bestimmte Anwendungen für endoskopische Eingriffe und Untersuchungen zu unterstützen. Hierbei kann es sich beispielsweise um die Frage handeln, was für Gewebetypen in einem bestimmten Moment vorliegen, um beispielsweise HF-Moden anzupassen, oder bei bestimmten Untersuchungen automatisch zu erkennen, ob der Einsatz einer Speziallichtbeleuchtung notwendig ist und diese dann automatisch vorzunehmen.
-
Alle genannten Merkmale, auch die den Zeichnungen allein zu entnehmenden sowie auch einzelne Merkmale, die in Kombination mit anderen Merkmalen offenbart sind, werden allein und in Kombination als erfindungswesentlich angesehen. Erfindungsgemäße Ausführungsformen können durch einzelne Merkmale oder eine Kombination mehrerer Merkmale erfüllt sein.
-
Bezugszeichenliste
-
- 101,2,...,N
- Bilddaten
- 12
- Trainingsdaten
- 20
- Bereich mit Textinformationen
- 100
- System
- 102
- Bilderkennungsalgorithmus
- 104
- Bildbearbeitungsalgorithmus
- 110
- Datenverarbeitungsanlage
- 112
- Massenspeicher
- 200
- Bilddaten laden
- 202
- Bilderkennungsalgorithmus Lokalität
- 203
- Bilderkennungsalgorithmus Lokalität und Text
- 204
- Bilderkennungsalgorithmus Text
- 206
- Entscheidung: Bild von innerhalb oder außerhalb eines Körpers
- 208
- Entscheidung: Text und/oder Gesicht im Bild?
- 210
- Verschleierung/Entfernung Text und/oder Gesicht und Abspeichern
- 212
- Entscheidung: Text im Bild?
- 214
- Verschleierung/Entfernung Text und Abspeichern
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 102020105835 [0003]
- DE 102020116473 [0004]
- DE 102021101410 [0006]