DE102022131446A1

DE102022131446A1 - Verfahren und Vorrichtung zum Aufbereiten von Daten zum Identifizieren von Analyten

Info

Publication number: DE102022131446A1
Application number: DE102022131446.4A
Authority: DE
Inventors: Manuel Amthor; Daniel Haase; Ralf Wolleschensky
Original assignee: Carl Zeiss Microscopy GmbH
Current assignee: Carl Zeiss Microscopy GmbH
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2024-05-29
Also published as: US20240177310A1

Abstract

Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben eines oder mehrerer Analyten mit Markern in mehreren Färberunden, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind, Detektieren mehrerer Marker mit einer Kamera, welche für eine jede Färberunde zumindest ein Bild mit mehreren Bildpunkten und ihnen zugeordneten Farbwerten erzeugt, das Farbinformationen eines oder mehrerer Marker enthalten kann, und Speichern der Farbinformationen der jeweiligen Färberunden zum Auswerten der Farbinformationen, wobei ein Datenpunkt jeweils ein oder mehrere zusammenhängende Bildpunkte in den Bildern der mehreren Färberunden umfasst, die demselben Ort in einer Probe zugeordnet sind,dadurch gekennzeichnet,dass für einen jeden Datenpunkt einer Probe jeweils der Farbwert für eine von n Färberunden eines Experiments aufgenommen wird und diese Farbwerte jeweils eine Komponente eines Ausgangsvektors mit der Dimension n bilden, wobei die einzelnen Vektorkomponenten nach Aufnahme des entsprechenden Farbwerts auf einen Projektionsvektor mit einer Dimension k, die kleiner als n ist, projiziert werden und der Projektionsvektor für eine jede Färberunde auf einen Aggregationsvektor mit der gleichen Dimension k wie der Projektionsvektor sequentiell aggregiert wird, und der Aggregationsvektor gespeichert wird.

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Aufbereiten von Daten zum Identifizieren von Analyten.
Aus der EP 2 992 115 B1 geht ein Verfahren zum Identifizieren von Nukleinsäure-Sequenzen durch Einfärben der zu identifizierenden Nukleinsäure-Sequenzen mit Markern in mehreren Färberunden hervor. Die Marker bestehen aus Oligonukleotiden und daran gekoppelten Farbstoffen, welche in der Regel Fluoreszenz-Farbstoffe sind. Die Oligonukleotide sind spezifisch für bestimmte Abschnitte der zu identifizierenden Nukleinsäure-Sequenzen. Die einzelnen Oligonukleotide der Marker sind jedoch nicht eindeutig für die jeweiligen Nukleinsäure-Sequenzen. Aber aufgrund der mehreren Färberunden ist es möglich, eine eindeutige Bestimmung der Nukleinsäure-Sequenzen durchzuführen, da mehrere unterschiedliche Marker nach dem Durchführen der mehreren Färberunden einem bestimmten Oligonukleotid zugeordnet werden können und die zugeordneten mehreren Marker dann eindeutig für die jeweilige Nukleinsäure-Sequenz sind.
Mit diesem Verfahren können unterschiedlichste Nukleinsäure-Sequenzen in vitro beispielsweise in einer Zelle mittels eines Fluoreszenz-Mikroskops detektiert werden. Die Nukleinsäure-Sequenzen können eine RNA, insbesondere eine mRNA oder eine tRNA, sein. Die Nukleinsäure-Sequenzen können auch ein Abschnitt einer DNA sein.
In einer Probe befinden sich oftmals eine Vielzahl von Nukleinsäure-Sequenzen, die mit den oben erläuterten Färberunden parallel identifiziert werden können, auch wenn es sich hierbei um unterschiedliche Nukleinsäure-Sequenzen handeln sollte. Je mehr Nukleinsäure-Sequenzen sich in der Probe befinden, desto größer ist die Anzahl der zu detektierenden Marker in den jeweiligen Färberunden. Bei einer automatischen Erfassung und Auswertung der entsprechenden Farbinformationen muss die Farbinformation aller Marker in der Probe erfasst und auch von nicht durch Marker verursachten Farbinformationen in der Probe unterschieden werden.
Aus der WO 2020/254519 A1 und der WO 2021/255244 A1 geht ein weiteres Verfahren zum Identifizieren von Analyten hervor. Die Analyte können Proteine oder Nukleinsäure-Sequenzen sein. Bei diesem Verfahren werden zunächst Sonden, welche für die jeweiligen Analyte spezifisch sind, an diese gekoppelt. Die Sonden weisen Oligonukleotid-Reste auf, welche nicht mit den Analyten hybridisieren. An diesen freien Resten werden Dekodier-Oligonukleotide hybridisiert, welche einen Überstand zu den freien Resten aufweisen. An den Überständen werden Markermoleküle mit einem Farbstoff hybridisiert. Auch bei diesem Verfahren wird eine Folge von Farbinformationen an den entsprechenden Analyten in mehreren Färberunden erzeugt, welche Aufschluss über den jeweils vorliegenden Analyten geben.
In der Praxis hat sich gezeigt, dass die Datenmenge zum Beschreiben der Farbinformationen der mehreren Färberunden mehrere Terabyte betragen kann. Die Verarbeitung solch großer Datenmengen erfordert einen entsprechend großen Speicherbedarf. Die hierdurch verursachten Anschaffungs- und Wartungskosten sind entsprechend hoch. Als Datenspeicher werden bevorzugt SSD-Festplatten verwendet, welche einerseits zum Speichern derart großer Datenmengen geeignet sind und andererseits einen schnellen Zugriff auf die Daten erlauben. SSD-Festplatten erlauben jedoch nur eine begrenzte Anzahl an Schreibzyklen. Bei solch großen Datenmengen wird diese Grenze schnell erreicht, wodurch ein Ausfall des Systems verursacht werden kann.
Zudem erfordert eine Auswertung derart großer Datenmengen einen erheblichen Rechenaufwand und einen entsprechend großen Zeitbedarf. Dies beschränkt den Durchsatz an Proben.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zum Aufbereiten von Daten zum Identifizieren von Nukleinsäure-Sequenzen durch Einfärben eines oder mehrerer Analyte mit Markern in mehreren Färberunden zu schaffen, das effizient und kostengünstig ausführbar ist und einen hohen Probendurchsatz erlaubt.
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Ausgestaltungen sind in den jeweiligen Unteransprüchen angegeben.
Nach einem ersten Aspekt der Erfindung (Aspekt A) wird ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben eines oder mehrerer Analyte mit Markern in mehreren Färberunden vorgesehen, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind. Die Marker werden mit einer Kamera detektiert, welche für eine jede Färberunde zumindest ein Bild mit mehreren Bildpunkten erzeugt, das Gefärbt-Signale und Ungefärbt-Signale umfasst, wobei ein Gefärbt-Signal ein Bildpunkt mit einer Farbinformation eines Markers und ein Ungefärbt-Signal ein Bildpunkt mit einer Farbinformation ist, die nicht auf einem Marker beruht. Die Bilder der jeweiligen Färberunden werden zum Auswerten der Farbinformationen gespeichert, wobei ein Datenpunktjeweils ein oder mehrere zusammenhängende Bildpunkte in den Bildern der mehreren Färberunden umfasst, die demselben Ort in einer Probe zugeordnet sind.
Das Verfahren zeichnet sich dadurch aus, dass ein jeder Datenpunkt anhand der Farbinformationen zumindest des aktuellen Bildes bewertet wird, ob er ein Kandidaten-Datenpunkt sein kann, d.h., dass er Gefärbt-Signale enthalten und damit einen Analyt codieren kann, und beim Speichern der Farbinformationen die Farbinformationen der Datenpunkte der Bilder eliminiert werden, die anhand der Bewertung sicher kein Kandidaten-Datenpunkt sind.
Hierdurch werden beim Speichern der Farbinformationen die Farbinformationen der Bildpunkte der Bilder eliminiert, die keine Farbinformationen der Marker enthalten, und die Bilder werden ohne die eliminierten Farbinformationen gespeichert. Dadurch, dass die Bilder ohne die eliminierten Farbinformationen gespeichert werden, wird die zu speichernde Datenmenge erheblich reduziert. Diese Verminderung der Datenmenge an Farbinformationen erlaubt eine einfache und schnelle Verarbeitung der Farbinformationen. Die Kapazität der Speichervorrichtung kann im Vergleich zu herkömmlichen Verfahren gering sein und die Anzahl der Schreibzyklen auf der Speichervorrichtung wird entsprechend verringert. Hierdurch wird ein effizientes, einfaches und schnelles Verarbeiten der Farbinformationen möglich.
Ein Datenpunkt umfasst die Menge aller Bildpunkte der unterschiedlichen Bilder, die einen bestimmten Ort der Probe darstellen. Ein einen Analyt codierender Datenpunkt kann somit Gefärbt-Signale und Ungefärbt-Signale enthalten.
Gemäß der vorliegenden Erfindung können für mehrere benachbarte Bildpunkte Farbinformationen zusammengefasst werden. Die zusammengefassten Farbinformationen bilden dann die Farbinformationen des aus mehreren Bildpunkten zusammengefassten Datenpunkts. Typischerweise werden hier benachbarte Bildpunkte, beispielsweise 2x2, 4x4 oder 6x6 Bildpunkte zusammengefasst. Werden im Experiment jeweils Bild-Stapel, auch Z-Bilder genannt, aufgenommen, so können auch 2x2x2, 4x4x4 oder 6x6x6 Bildpunkte zusammengefasst werden.
Dieses Verfahren kann in vitro beispielsweise anhand einer sich auf einem Probenglas befindenden Zellprobe mittels eines Mikroskops durchgeführt werden, das eine Kamera zum automatischen Erzeugen von Bildern der Probe aufweist. Die Probe kann beispielsweise eine Zellprobe sein mit einer oder mehreren Zellen.
Ein jeder Datenpunkt kann anhand der Farbinformationen aller bisherigen Färberunden und/oder einer Teilmenge der bisherigen Färberunden und/oder anhand von Farbinformationen benachbarter Datenpunkten bewertet werden, ob er ein Kandidaten-Datenpunkt ist.
Beim Eliminieren der Farbinformationen können die Bildpunkte, die keine relevanten Farbinformationen beinhalten, vollständig entfernt werden. Es ist jedoch auch möglich, dass die Bildpunkte, die keine relevanten Farbinformationen enthalten, auf einen vorbestimmten Farbwert, wie z.B. „0“ gesetzt werden. Da die Bildpunkte mit nicht-relevanten Farbinformationen in der Regel zusammenhängende Bereiche in einem Bild bilden, können diese sehr effizient gespeichert werden, wobei in solch einem Bereich insgesamt lediglich der eine vorbestimmte Farbwert einmal zugeordnet wird. Gehen die Farbinformationen benachbarter Datenpunkte in die Bewertung, ob ein Datenpunkt ein Kandidaten-Datenpunkt ist ein, so wird ein Datenpunkt erst dann als keine relevanten Farbinformationen enthaltend bewertet, wenn für er für die Bewertung benachbarter Datenpunkte nicht mehr benötigt wird, weil alle Datenpunkte bewertet sind.
Ein Bild kann eine zweidimensionale Abbildung mit mehreren Pixeln als Bildpunkten umfassen. Das Bild kann auch eine dreidimensionale Abbildung mit mehreren Voxeln als Bildpunkten fassen, wobei die Bilder als zusätzliche Dimension eine Zeitinformation umfassen können. Die Zeitinformation kann nicht nur dazu dienen, den Zeitpunkt anzugeben, wann ein einzelnes Bild aufgenommen worden ist, sondern auch zum Darstellen einer Zeitreihe mit mehreren aufeinanderfolgenden Bildern, wobei die Zeitinformation die Zeitpunkte der einzelnen Bilder umfasst. Eine dreidimensionale Abbildung wird auch als Bild-Stapel oder Z-Bild bezeichnet, das mehrere zweidimensionale Bildebenen umfasst,
Die Datenpunkte können mit einem Verarbeitungsmodell eines Maschinenlernsystems bewertet werden.
Das Verarbeitungsmodell kann mit einem annotierten Datensatz trainiert worden sein, der als Eingabe Folgen von Farbinformationen eines oder mehrerer Datenpunkte umfasst und als Zielausgabe eine Klassifizierung, ob die jeweilige Folge von einem Kandidaten-Datenpunkt oder einem Hintergrund-Datenpunkt stammt. Eine solche Zielausgabe kann beispielsweise Bilder umfassen, in denen Bereiche annotiert sind, die die Farbinformationen eines der Marker wiedergeben, und/oder Bereiche annotiert sind, die keine Farbinformationen von Markern beinhalten. Die Folge von Farbinformationen eines oder mehrerer Datenpunkte kann auch als Folge von Mikroskopbildern eingegeben werden. Das Training eines solchen Verarbeitungsmodells wird als überwachtes Lernen bezeichnet.
Im Stand der Technik werden vor allem Farbwerte von sehr hellen Datenpunkten zur Analyt-Decodierung analysiert, da diese sehr gut anhand eines Schwellwerts zu identifizieren sind. Die Erfinder haben erkannt, dass die Eingabe-Folgen von Datenpunkten, die einen Analyt codieren, also Kandidaten-Datenpunkte, jeweils mindestens ein bestimmtes Verhältnis zwischen den Farbwerten von Gefärbt -und/oder Ungefärbt-Signalen der jeweiligen Eingabe-Folge aufweisen, daraus ergibt sich für die Eingabe-Folgen von Kandidaten-Datenpunkten eine charakteristische Signatur, umfassend das mindestens eine bestimmte Verhältnis der Farbwerte der Gefärbt- und/oder Ungefärbt-Signale. Anhand des bestimmten Verhältnisses lassen sich Gefärbt- und Ungefärbt-Signale in einer Eingabe-Folge erkennen und somit auch eine Anzahl von Gefärbt-Signalen in einer Signalfolge bestimmen. Anhand des bestimmten Verhältnisses bzw. anhand der charakteristischen Signatur kann ein Verarbeitungsmodell dazu trainiert werden, die Gefärbt- und Ungefärbt-Signale zu identifizieren und somit die Kandidaten-Datenpunkt anhand der eingebebenen Folge von Farbwerten zu identifizieren.
Das bestimmte Verhältnis kann ein bestimmter Abstand zwischen den Farbwerten sein, ein Quotient zwischen den Farbwerten, eine bestimmte Anzahl von Farbwerten mit einem höheren Farbwert als den übrigen, wobei das Verhältnis jeweils für normierte Farbwerte oder für nicht normierte Farbwerte gelernt werden kann. Analytisch ist die charakteristische Signatur nur schwer zu definieren, sie kann für verschiedene Analyt-Arten unterschiedlich sein, es zeigt sich aber, dass Verarbeitungsmodelle wie neuronale Netze die charakteristische Signatur bzw. das bestimmte Verhältnis mit ausreichendem Training sehr gut identifizieren können.
Vorzugsweise kann nach einem neuen Experiment nach einem Identifizieren der Analyte ein weiterer annotierter Datensatz anhand der komprimierten Bilder, die ohne die Farbinformationen der Datenpunkte gespeichert worden sind, die keinen Analyt codieren, erzeugt wird, wobei für eine Auswahl der Datenpunkte, die keinen Analyt codieren, die Farbinformationen mit gespeichert werden und die Farbinformationen der Datenpunkte, die keinen Analyt codieren, im weiteren annotierten Datensatz als Hintergrund-Datenpunkte verwendet werden und das Verarbeitungsmodell mit dem weiteren annotierten Datensatz trainiert wird.
Vorzugsweise umfasst die Auswahl der Datenpunkte, die keinen Analyt codieren, möglichst Datenpunkte, die in dem neuen Experiment erst in einer möglichst späten der Färberunden des Experiments als Hintergrund-Datenpunkte identifiziert wurden.
Dadurch, dass man in einem neuen Experiment immer eine Auswahl von Hintergrund-Datenpunkten mit speichert und danach das Verarbeitungsmodell mit diesen weiteren annotierten Daten erneut trainiert, kann man ein Verarbeitungsmodell noch besser zum Identifizieren von Kandidaten-Datenpunkten trainieren. Dadurch, dass man Hintergrund-Datenpunkte in den weiteren annotierten Datensatz aufnimmt, die erst in späten Färberunden als Hintergrund Datenpunkte erkannt wurden, kann man das Erkennen von schwierig zu erkennenden Hintergrund-Datenpunkten weiter verbessern.
Vorzugsweise umfasst das Identifizieren der Analyte nach einem neuen Experiment auch ein Identifizieren von Hintergrund-Datenpunkten, die fälschlicherweise als Kandidaten-Datenpunkte identifiziert wurden, wobei fälschlicherweise als Kandidaten-Datenpunkte identifizierte Hintergrund-Datenpunkte auch mit in den weiteren annotierten Datensatz aufgenommen werden.
Dadurch, dass man auch die fälschlicherweise als Kandidaten-Datenpunkte identifizierten Hintergrund-Datenpunkte in den weiteren annotierten Datensatz aufnimmt, kann man das Identifizieren von Hintergrund-Datenpunkten noch weiter verbessern.
Ein Verarbeitungsmodell, in dem Bereiche der Bilder, die Kandidaten-Bildpunkte enthalten, als positives Beispiel, und/oder Bereiche der Bilder, die Hintergrund-Bildpunkte enthalten, als negatives Beispiel binär klassifiziert werden, kann ein Klassifizierungsmodell sein.
Das Verarbeitungsmodell kann auch ein semantisches Segmentierungsmodell sein, mit dem die Kandidaten-Datenpunkte und/oder Hintergrund-Datenpunkte semantisch segmentiert werden.
Das Verarbeitungsmodell kann weiterhin ein Bild-zu-Bild-Modell sein, welches insbesondere zum Ausgeben einer Heat-Map trainiert ist, mit der Wahrscheinlichkeiten oder Dichten von Kandidaten-Datenpunkten und/oder Hintergrund-Datenpunkten ausgegeben werden.
Ein Verarbeitungsmodell kann zum Bewerten aller Färberunden trainiert und ausgebildet sein. Es können jedoch auch mehrere Modelle für eine jede Färberunde einzeln oder für Gruppen von Färberunden trainiert und ausgebildet sein.
Das Verarbeitungsmodell kann ein Detektionsmodell sein, das zum Detektieren von Kandidaten-Datenpunkten trainiert ist, wobei insbesondere eine Liste der Koordinaten der Kandidaten-Datenpunkte ausgegeben wird.
Das Detektionsmodell zum Detektieren der Ausdehnung der Kandidaten-Datenpunkte ist vorzugsweise so trainiert, dass die ausgegebene Liste neben den Koordinaten der Kandidaten-Datenpunkte auch die Ausdehnung der jeweiligen Kandidaten-Datenpunkte umfasst.
Ein Verarbeitungsmodell, das mehrere solcher Teilmodelle umfasst, die für Gruppen von Färberunden trainiert sind, kann dann zweckmäßig sein, wenn eine Probe gleichzeitig mit mehreren unterschiedlichen Farbstoffen gefärbt wird. In einem Farbbild sind dann die Farbinformationen aller Marker gleichzeitig vorhanden. Ein solches Farbbild enthält somit die Informationen mehrerer Färberunden gleichzeitig. Ein solches Farbbild kann dann spektral in Bilder zerlegt werden, wobei ein jedes dieser Bilder dann nur einen Spektralbereich wiedergibt, der die Farbe des jeweiligen Farbstoffes umfasst. Man spricht dann von einem Farbkanal. Wird jedoch ein mehrere solcher Farbkanäle umfassendes Farbbild dem Verarbeitungsmodell als Eingangsdaten zugeführt, dann sollte das Verarbeitungsmodell derart trainiert sein, dass es die mehreren Färberunden, die durch den jeweiligen Farbkanal repräsentiert werden, verarbeitet werden kann.
In der Regel werden solche Farbbilder jedoch in mehrere separate Bilder für die jeweiligen Farbkanäle zerlegt. Diese Bilder sind einfarbige Bilder, die die Farbinformationen durch Intensitätswerte für die Farbe des jeweiligen Farbkanals enthalten.
Der Begriff Intensitätswerte oder das Synonym Intensität wird daher im Folgenden so verstanden, dass hiermit entweder die Intensität eines Bildpunktes eines Bildes für eine bestimmte Farbe eines vorbestimmten Farbkanals wiedergegeben wird, oder es werden hiermit Intensitäten unterschiedlicher Grundfarben eines Farbraumes eines Farbbildes wiedergegeben.
Die Bereiche, die die Farbinformation eines Datenpunktes wiedergeben, können einen einzelnen Bildpunkt und/oder mehrere zusammenhängende Bildpunkte umfassen. Ein Bereich mit mehreren zusammenhängenden Bildpunkten erstreckt sich in einer Dimension vorzugsweise über nicht mehr als zehn Bildpunkte. Vorzugsweise erstreckt sich ein solcher Bereich mit mehreren Bildpunkten in einer Dimension über nicht mehr als sieben Bildpunkte bzw. nicht mehr als fünf Bildpunkte. Mit anderen Worten wird solchen Bereichen, die entweder durch einen einzelnen Bildpunkt oder durch mehrere zusammenhängende Bildpunkte dargestellt werden, jeweils einer Analyt-Art zugeordnet, an den sich die Marker binden können.
Beim Speichern der Farbinformationen nach einer der Färberunden werden Datenpunkte nicht berücksichtigt, die nach einer vorhergehenden Färberunde bereits eliminiert worden sind. Dieses Eliminieren von Datenpunkten, welche in vorhergehenden Färberunden bereits eliminiert worden sind, kann dem Verarbeitungsmodell antrainiert werden. Hierzu wird beim Training des Verarbeitungsmodells ein annotierter Datensatz verwendet, der auch die in den vorhergehenden Färberunden eliminierten Datenpunkte umfasst, wobei diese entsprechend annotiert sind. Das Eliminieren von Datenpunkten, die nach einer vorhergehenden Färberunde bereits eliminiert worden sind, kann auch entsprechend hart-kodiert sein, sodass dem Verarbeitungsmodell das jeweils erfasste Bild, um diese Bereiche bereinigt, zugeführt wird.
Die Farbinformationen von bestimmten Bildpunkten können auch eliminiert werden, wobei deren Farbwerte zwar aufgrund ihrer Intensität und/oder ihrer charakteristischen Signatur als Farbwerte eines Markers beurteilt werden können, diese Farbwerte aber jeweils eines dieser Bildpunkte nach einigen Färberunden keinem Analyt zuordbar sind, da die Folge von Farbwerten des jeweiligen Datenpunktes keinem möglichen Muster von Farbwerten für einen Analyt entsprechen kann. Hierbei kann die Tatsache ausgenutzt werden, dass mit einem solchen Verfahren zum Identifizieren von Analyten mit mehreren unterschiedlichen Markern nur eine relativ geringe Teilmenge an Mustern von allen potenziell möglichen Mustern, die mit diesen Marken erzeugt werden können, tatsächlich auftreten können. Muster, welche zwar theoretisch möglich sind, aber in der Praxis nicht auftreten können, da es keinen Analyt gibt, der ein solches Muster von Farbwerten erzeugt, können somit als nicht relevant beurteilt werden und die entsprechenden Farbwerte können eliminiert werden.
Das Überprüfen einer solchen Folge von Farbwerten eines Bildpunktes kann mit einem Scoring-Modell ausgeführt werden, wobei die Bildpunkte mit einer charakteristischen Signatur als potentielle Marker beurteilt werden und die Folge von Farbwerten der potentiellen Marker dahingehend überprüft wird, ob sie einem möglichen Muster eines Analyts entsprechen können.
Dem Verarbeitungsmodell können als Eingangsdaten zusätzlich Kontextinformationen zugeführt werden.
Die Kontextinformationen können weitere Eigenschaften der Probe und/oder des Experiments und/oder der zu erwartenden Analyte beschreiben und insbesondere Parameter zum Färben der Probe und/oder die erwartete Anzahl an Analyten oder auch das erwartete Verhältnis der in der Probe enthaltenen Analyte umfassen.
Anhand der Kontextinformationen kann die Sensitivität der Bewertung der Datenpunkte justiert werden und/oder automatisch ein Verarbeitungsmodell aus einem Satz von Verarbeitungsmodellen ausgewählt werden.
Die Kontextinformationen können vorab durch eine Segmentierung gewonnen werden. Sie unterscheiden beispielsweise die Zellbereiche und Bereiche, die keiner Zelle zugeordnet sind.
Die Sensitivität des Verarbeitungsmodells, mit dem bewertet wird, ob ein Datenpunkt ein Kandidaten-Datenpunkt sein kann, kann für die unterschiedlichen Färberunden variiert werden.
Bei den ersteren Färberunden wird vorzugsweise eine höhere Sensitivität als in den späteren Färberunden angewendet. Eine hohe Sensitivität bedeutet im Vergleich zu einer niedrigen Sensitivität, dass viele Datenpunkte als Kandidaten-Datenpunkte bewertet werden.
Die Reihenfolge der Färberunden kann so gewählt werden, dass die Anzahl der gemessenen Marker bzw. Kandidaten-Datenpunkte in frühen Runden maximiert wird. Da ein jeder Marker für eine Teilmenge aller detektierbaren Analyte spezifisch ist, ist es zweckmäßig, in den ersten Färberunden Marker zu verwenden, deren Teilmenge an detektierbaren Analyten, für die sie spezifisch sind, sich möglichst wenig überschneiden. Die Färberunden werden vorzugsweise so gewählt, dass alle oder fast alle detektierbaren Analyte in den ersten fünf und vorzugsweise in den ersten vier bzw. ersten drei Färberunden markiert werden.
Es können auch spezielle Marker für die ersten Färberunden eingesetzt werden, die sehr unspezifisch sind, d.h. dass deren Teilmenge möglichst groß ist und gegebenenfalls sogar alle potentiell detektierbaren Analyte umfasst.
Die Analyte können Nukleinsäure-Sequenzen sein.
Die Marker können jeweils eine Oligonukleotid-Sequenz, die für einen Abschnitt der Nukleinsäure-Sequenz spezifisch ist, und ein daran gekoppeltes Farbstoffmolekül aufweisen. Das Farbstoffmolekül ist vorzugsweise ein Fluoreszenz-Farbstoffmolekül.
Nach einer bevorzugten Ausführungsform kann der Marker oder können die Marker der ersten Färberunden bzw. der ersten und/oder der ersten und der zweiten Färberunde kürzere Oligonukleotid-Sequenzen als in den nachfolgenden Färberunden aufweisen. Marker mit kürzeren Oligonukleotid-Sequenzen sind unspezifischer. Die Oligonukleotid-Sequenzen der Marker der ersten bzw. der ersten und zweiten Färberunde umfassen vorzugsweise nicht mehr als zehn Nukleotide, insbesondere nicht mehr als acht Nukleotide und insbesondere nicht mehr als fünf Nukleotide.
Je kürzer die Oligonukleotid-Sequenz der Marker ist, desto unspezifischer ist der Marker. Dies führt dazu, dass die Marker an viele unterschiedliche Nukleinsäure-Sequenzen koppeln. Während einer Färberunde, insbesondere der ersten Färberunde bzw. der ersten und zweiten Färberunde, können auch mehrere unterschiedliche Marker, insbesondere mehrere Marker mit kurzen Oligonukleotid-Sequenzen (z.B. nicht mehr als zehn oder nicht mehr als acht oder nicht mehr als fünf Oligonukleotid-Sequenzen), die sich in ihren Oligonukleotid-Sequenzen unterscheiden, verwendet werden.
Durch die Verwendung einer oder mehrerer derart unspezifischer Marker werden bereits in der ersten oder zumindest in der ersten und zweiten Färberunde alle oder fast alle Nukleinsäure-Sequenzen mit einem Marker markiert, wodurch bereits nach der ersten oder spätestens nach der zweiten Färberunde alle oder fast alle Nukleinsäure-Sequenzen bekannt sind und in den folgenden Färberunden nur noch die Farbinformationen der Bildpunkte betrachtet bzw. ausgewertet werden, die jeweils einer Nukleinsäure-Sequenz zugeordnet sind. Hierdurch können mit einer einzigen oder mit lediglich zwei Färberunden alle relevanten Bereiche der Bilder identifiziert werden, sodass in den folgenden Färberunden nur noch diese relevanten Bereiche untersucht werden. Die weiteren Färberunden können auch unterschiedliche Typen von Markern bzw. Markersysteme verwenden, z.B. solche, wie sie aus der WO 2020/254519 A1 und der WO 2021/255244 A1 bekannt sind.
Die Bilder können in einem der folgenden Formate gespeichert werden:

- Hintergrunddatenpunkte, die keinen Analyt codieren, werden auf einen bestimmten Wert, insbesondere „0“ gesetzt, wobei Bereiche der Bilder, deren Bildpunkten der gleiche Wert zugeordnet ist, beim Speichern komprimiert werden (im Folgenden: „PNG-Format“),
- Binärarray, bei dem in einem Array mittels nur eines Bits abgespeichert wird, ob es sich um einen Kandidaten- oder Hintergrunddatenpunkt handelt, wobei eine zusätzliche Liste gespeichert werden kann, in der fortlaufend alle Farbwerte der Kandidaten-Datenpunkte abgelegt werden, wobei mittels eines Index eine Zuordnung der Kandidaten-Datenpunkte des Arrays zu den Farbwerten der Liste hergestellt wird,
- schwach besetzte Matrix (sparse-matrix), welche eine Liste mit Koordinaten und Farbwerten aller Kandidaten-Datenpunkte und optional deren Ausdehnung umfasst.

Die Bilder der unterschiedlichen Färberunden können mit unterschiedlichen Formaten abgespeichert werden, wobei insbesondere die Bilder der ersten Färberunden im PNG-Format gespeichert werden und die Bilder der späteren Färberunden als schwach besetzte Matrix oder als Binärarray gespeichert werden.
Die Analyte können anhand der ermittelten und komprimiert gespeicherten Farbinformationen identifiziert werden.
Ein Maschinenlernsystem mit einem Verarbeitungsmodell zum Ausführen eines oben erläuterten Verfahren kann mit folgenden Verfahrensschritten trainiert werden:

- Bereitstellen eines annotierten Datensatzes, und
- Optimieren einer Zielfunktion durch Anpassen der Modellparameter des Verarbeitungsmodells, wobei die Zielfunktion einen Unterschied zwischen einer vom Verarbeitungsmodell ausgegebenen Ergebnisausgabe und einer Zielausgabe erfasst.

Dieses Trainingsverfahren kann sich dadurch auszeichnen, dass der annotierte Datensatz mindestens eine Soll-Signalfolge eines Kandidaten-Datenpunkts und eine Soll-Signalfolge eines Hintergrund-Datenpunkts umfasst und das Verarbeitungsmodell als Eingabe eine Teil-Signalfolge der Soll-Signalfolgen des annotierten Datensatzes verarbeitet und anhand einer Ausgabe des Verarbeitungsmodells ein zu der jeweiligen Soll-Signalfolge korrespondierender Datenpunkt als Hintergrund-Datenpunkt oder Kandidaten-Datenpunkt bewertet wird.
Nach einem zweiten Aspekt der Erfindung (Aspekt B) wird ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten in einer Probe vorgesehen, bei dem in einem Experiment ein oder mehrere Analyte mit Markern in mehreren Färberunden eingefärbt werden, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind. Die mehreren Marker werden mit einer Kamera detektiert, welche für eine jede Färberunde zumindest ein Bild mit mehreren Bildpunkten und ihnen zugeordneten Farbwerten erzeugt, wobei das Bild Gefärbt-Signale und Ungefärbt-Signale umfasst. Ein Gefärbt-Signal ist ein Bildpunkt mit einem Farbwert, der von einem Marker stammt, und ein Ungefärbt-Signal ist ein Bildpunkt mit einem Farbwert, der nicht auf einem Marker beruht. Die Farbinformationen der jeweiligen Färberunden werden zum Auswerten der Farbinformationen gespeichert, wobei ein Datenpunkt jeweils einen oder mehrere zusammenhängende Bildpunkte in den Bildern der mehreren Färberunden umfasst, die demselben Ort in einer Probe zugeordnet sind.
Dieses Verfahren zeichnet sich dadurch aus, dass für einen jeden Datenpunkt der mehreren Bilder der Probe die jeweiligen Farbwerte bewertet werden, ob sie jeweils ein Gefärbt-Signal darstellen und dementsprechend einen Analyt codieren, und die n Farbwerte der unterschiedlichen Färberunden für einen jeden Datenpunkt ausgewählt werden, die am wahrscheinlichsten ein Gefärbt-Signal darstellen, wobei n eine ganze Zahl ist, die kleiner als die gesamte Anzahl der Färberunden eines Experiments ist. Beim Speichern der Farbinformationen werden die Farbwerte, die nicht ausgewählt sind, eliminiert.
Dadurch, dass die nicht ausgewählten Farbwerte weggelassen werden, wird das Datenvolumen der Farbinformationen erheblich verringert. Diese Verminderung des Datenvolumens an Farbinformationen erlaubt eine einfache und schnelle Verarbeitung der Farbinformationen. Die Kapazität der Speichervorrichtung kann im Vergleich zu herkömmlichen Verfahren geringer sein und die Anzahl der Schreibzyklen auf der Speichervorrichtung wird entsprechend verringert. Hierdurch wird ein effizientes, einfaches und schnelles Verarbeiten der Farbinformationen möglich.
Bei diesem Verfahren werden die Bilder vor allem nur mit den ausgewählten Farbwerten gespeichert. Neben den ausgewählten Farbwerten können auch Zusatzinformationen gespeichert werden, wie es unten näher ausgeführt ist, jedoch werden nicht benötigte Farbinformationen weggelassen, wodurch sich die Qualität der Auswertung der Bilder zum Identifizieren von Analyten nicht verschlechtert, jedoch die Datenmenge sich signifikant verringert. Die Auswahl der n Farbwerte kann mit einem Scoring-Modell eines Maschinenlernsystems ausgeführt werden. Die Kriterien, anhand derer bewertet wird, ob die Farbwerte ein Gefärbt-Signal darstellen, werden dem Scoring-Modell antrainiert.
Bei diesem Verfahren können nach einer jeden Färberunde die Datenpunkte bewertet und die in der aktuellen Färberunde aufgenommenen Farbinformationen gespeichert werden, wobei als Eingabe zu einem Datenpunkt sowohl die maximal n Farbwerte, die das Scoring-Modell nach einer unmittelbar vorhergehenden Färberunde ausgegeben hat, als auch der in der Färberunde aufgenommene Farbwert des Datenpunktes in das Scoring-Modell eingegeben werden und das Scoring-Modell basierend auf dieser Eingabe n Farbwerte ausgibt, wobei derjenige Farbwert aussortiert wird, der am wenigsten wahrscheinlich ein Gefärbt-Signal darstellt. Bei dieser Ausgestaltung des Verfahrens werden alle in den vorhergehenden Färberunden erfassten relevanten Farbwerte dem Scoring-Modell als Eingabedaten zugeführt. Vor allem nach den ersten Runden können in dem vom Scoring-Modell bisher ausgewählten Satz von Farbwerten auch Farbwerte enthalten sein, die keinen Marker wiedergeben. Auch wenn hier mehrere Farbwerte vorhanden sein sollten, die nicht auf einem Marker beruhen, wird lediglich ein Farbwert aussortiert, und zwar der, der am wenigsten wahrscheinlich einem Marker zugeordnet werden kann. Nach den ersten Färberunden sind auch weniger als n Farbwerte pro Datenpunkt vorhanden. Die nicht vorhandenen Farbwerte können durch einen Platzhalter (zum Beispiel „0“) aufgefüllt werden und sind dann auch die ersten, die bei den nächsten Runden aussortiert werden. Nach einer jeden Runde wird der Farbwert aussortiert, der am wenigsten wahrscheinlich einem Marker zugeordnet werden kann, sodass am Ende lediglich die n Farbwerte verbleiben, mit welchen der Analyt codiert ist.
Bei einer alternativen Ausgestaltung des Verfahrens werden nach einer jeden Färberunde die Datenpunkte bewertet und das in der aktuellen Färberunde aufgenommenen Bild gespeichert, wobei dem Scoring-Modell lediglich die Farbinformationen des aktuell aufgenommenen Bildes eingegeben werden.
Ist das Scoring-Modell als CNN (Convolutional Neuronal Network) oder MLP (Multi-Layer-Perzeptron) ausgebildet, sind dem Scoring-Modell neben den Farbinformationen der aktuellen Färberunde auch die Ausgaben der vorherigen Runde (ausgewählte Farbwerte und Bewertungen) einzugeben. Bei einem sequenziellen Modell (z.B. Recurrent Neural Network (RNN)) genügt es hingegen, ausschließlich die Farbinformationen der aktuellen Färberunde einzugeben.
Das Scoring-Modell kann mit einem annotierten Datensatz trainiert worden sein, der als Eingangsdaten Mikroskopbilder oder Farbwerte der Bildpunkte und korrespondierende Zielausgaben enthält, die jeweils definieren, ob die Farbwerte ein Gefärbt-Signal und/oder ein Ungefärbt-Signal darstellen.
Der annotierte Datensatz kann mit einem Verfahren erstellt werden, bei dem die Bilder der mehreren Färberunden mit ihren Farbwerten nicht-komprimiert abgespeichert und dann ausgewertet werden, wobei beim Training für eine jede Färberunde als Eingabe zu einem Datenpunkt die maximal n Farbwerte, die nach vorbestimmten Kriterien ein Gefärbt-Signal darstellen können, sowie der in der jeweiligen Färberunde erhaltene Farbwert des Datenpunktes in das Verarbeitungsmodell eingegeben werden. Es wird eine Zielfunktion berechnet, wobei die Zielfunktion einen Unterschied zwischen den vom Verarbeitungsmodell ausgegebenen n Farbwerten, die am wahrscheinlichsten ein Gefärbt-Signal darstellen, und den gemäß dem annotierten Datensatz auszuwählenden n Farbwerten, die gemäß der Bewertung im annotierten Datensatz am wahrscheinlichsten ein Gefärbt-Signal darstellen, erfasst. Die Zielfunktion wird durch Anpassen der Modellparameter optimiert.
Der annotierte Datensatz kann grundsätzlich mittels einem oder mehreren der folgenden Schritte generiert worden sein:

- Simulieren von Signalen der verschiedenen Marker unter Verwendung eines repräsentativen Hintergrundbildes und einer bekannten Punktspreizfunktion eines Mikroskops.
- Generieren des annotierten Datensatzes mittels eines generativen Modells, das auf vergleichbaren Daten trainiert wurde.
- Aufnehmen von Referenzbildern umfassend mindestens ein Hintergrundbild sowie zu jedem der Hintergrundbilder für jede der Analyt-Arten mindestens ein Bild, in dem Analyte der jeweiligen Analyt-Art markiert sind.
- Durchführen eines herkömmlichen Verfahrens zur räumlichen Identifizierung von Analyten.
- Aufnehmen eines repräsentativen Hintergrundbildes und pixelweises Abziehen der Farbwerte des repräsentativen Hintergrundbildes von den Farbwerten der Bilder, auf denen der annotierte Datensatz basiert, vor dem Bereitstellen des annotierten Datensatzes, sodass der annotierte Datensatz nur hintergrundkorrigierte Farbwerte umfasst.
- Gewinnen des annotierten Datensatzes anhand eines Teils eines Experiments, sodass das trainierte Scoring-Modell auf den übrigen Teil des Experiments angewendet werden kann.

Dass ein annotierter Datensatz gemäß einem der oben genannten Schritte generiert werden kann, gilt für alle Aspekte der vorliegenden Erfindung.
Die Datenpunkte zum Auswählen der n Farbwerte können nach vorbestimmten Kriterien bewertet werden, ob sie ein Gefärbt-Signal darstellen, wobei die Kriterien die Intensität, die Farbe und/oder die Ausdehnung des Datenpunkts berücksichtigt werden. Eine solche Auswahl kann auch analytisch (= hart codiert) erfolgen oder eine Kombination mit einem Maschinenlernsystem sein.
Die Kriterien zum Auswählen der n Farbwerte können Schwellwerte für eine minimale und/oder maximale Intensität umfassen, wobei die Schwellwerte statisch vorgegeben sind oder dynamisch bestimmt werden können, und/oder nur die Schwellwerte können für eine minimale und/oder maximale Intensität in Abhängigkeit von der Farbe der Farbwerte variieren, und/oder die Auswahl kann durch einen minimalen Abstand zu vorbestimmten Zielwerten der Intensität, Farbe und/oder Ausdehnung ausgeführt werden. Diese Kriterien können sowohl für eine analytische Bewertung der Farbwerte als auch zum Erzeugen eines annotierten Datensatzes angewandt werden, wobei mit diesen Kriterien die Zielausgaben des annotierten Datensatzes bestimmt werden können.
Neben den ausgewählten Farbwerten können auch Zusatzinformationen gespeichert werden. Diese Zusatzinformationen können beispielsweise statistische Informationen zu allen Farbwerten eines jeweiligen Datenpunktes und/oder statistische Informationen zu den nicht-ausgewählten Farbwerten eines der Datenpunkte und/oder statistische Informationen zu den ausgewählten Farbwerten eines der Datenpunkte sein. Die Zusatzinformationen können eine Information zur Färberunde (Nummer der Färberunde, Zeitpunkt der Färberunde, etc.) und/oder ein gleitender statistischer Wert, insbesondere der Mittelwert, eine Standardabweichung und/oder ein Median einer Eigenschaft der Farbinformation des jeweiligen Datenpunktes oder der Farbinformation mehrerer Datenpunkte sein. Die Eigenschaften der Farbinformation umfassen vor allem die Intensität, Farbe und/oder Ausdehnung der Datenpunkte. Statistische Zusatzinformationen können mit wenigen Daten dargestellt werden und tragen daher nur geringfügig zum gesamten Datenvolumen bei. Sie sind insbesondere für nicht ausgewählte Daten relevant, da gewisse Informationen über die nicht-ausgewählten Daten nach wie vor vorliegen, auch wenn die nicht-ausgewählten Daten insgesamt nicht mehr vorhanden sind.
Wird einer der Analyte mit i Markern in m Färberunden eingefärbt, dann kann die Anzahl n der ausgewählten Farbwerte für einen jeden Datenpunkt gleich i oder gleich i + a sein, wobei i + a kleiner als die gesamte Anzahl der m Färberunden ist. Vorzugsweise ist a eine ganze Zahl zwischen 0 und 3. a wird vorzugsweise anhand einer Semantik automatisch bestimmt. Anhand von bekannten Strukturen im Bild (Zellkern, Zellorganoide, Zelle, Zellrand, Zellzwischenraum, Hintergrund) kann der Parameter a in den entsprechenden Bereichen speziell angepasst werden.
Bei herkömmlichen Experimenten ist es üblich, dass die unterschiedlichen Analyte jeweils mit der gleichen Anzahl n von Farbwerten codiert werden. Ein Experiment kann jedoch auch dahingehend abgewandelt werden, dass die Anzahl der Farbwerte, mit denen die unterschiedlichen Analyte codiert werden, variiert. In diesem Fall ist n die maximale Anzahl von Farbwerten, die zum Codieren eines der Analyte vorgesehen sind.
Das Bild kann ein zweidimensionales Bild mit mehreren Pixeln als Bildpunkten oder ein dreidimensionales Bild mit mehreren Pixeln als Bild umfassen. Die Bilder können als zusätzliche Dimension eine Zeitinformation enthalten. Die Zeitinformation kann nicht nur dazu dienen, den Zeitpunkt anzugeben, wann ein einzelnes Bild aufgenommen worden ist, sondern auch zum Darstellen einer Zeitreihe mit mehreren aufeinanderfolgenden Bildern, wobei die Zeitinformationen die Zeitpunkte der einzelnen Bilder wiedergeben.
Vorzugsweise ist die Anzahl n der ausgewählten Farbwerte nicht größer als die Hälfte und insbesondere nicht größer als ein Drittel der gesamten Anzahl der Färberunden eines Experiments, n kann beispielsweise nicht größer als 10 und insbesondere nicht größer als 8 bzw. nicht größer als 5 sein.
Das Identifizieren der Analyte kann anhand der ausgewählten und gespeicherten Farbwerte erfolgen.
Das Scoring-Modell kann ein CNN (Convolutional Neuronal Network), ein MLP (Multi-Layer-Perzeptron), ein Transformer, ein Diffusionsmodell oder ein sequenzielles Modell sein.
Die Farbinformationen können in einem der folgenden Formate gespeichert werden:

- Für die Datenpunkte werden nur die ausgewählten Farbwerte mit und ohne Zusatzinformationen gespeichert.
- Für die Datenpunkte werden nur die ausgewählten Farbwerte jeweils zusammen mit einem Index, der angibt, von welcher Färberunde der jeweilige Farbwert stammt, mit und ohne Zusatzinformationen gespeichert.
- Die erfassten Bilder werden abgespeichert, wobei die nicht-ausgewählten Farbwerte auf einen vorbestimmten Füllwert gesetzt werden, der beispielsweise „0“ ist.

Die Analyte können anhand der ausgewählten, gespeicherten Farbwerte identifiziert werden.
Nach dem Identifizieren der Analyte und gegebenenfalls nach einem manuellen Korrigieren kann ein entsprechend erweiterter annotierter Datensatz erzeugt und das Verarbeitungsmodell mit dem erweiterten annotierten Datensatz trainiert werden. Hierbei werden vor allem positive Beispiele (Bildpunkte, die auf Markern beruhen) berücksichtigt. Es kann jedoch auch vorteilhaft sein, negative Beispiele (Bildpunkte, die nicht auf Markern beruhen) beim Erstellen des annotierten Datensatzes mit zu berücksichtigen.
Vor dem Aufbereiten von Daten zum Identifizieren von Analyten kann noch ein Schritt Durchführen einer Hintergrundkorrektur der Farbwerte erfolgen. Das Durchführen der Hintergrundkorrektur umfasst eines oder mehrere der folgenden:

- ein Rolling-Ball-Verfahren ,
- eine Filterung wie beispielsweise ein Top-Hat-Verfahren, eine homomorphe Filterung, eine Tiefpassfilterung, wobei das Ergebnis der Tiefpassfilterung vom Signal abgezogen wird, oder eine zeitliche Filterung,
- Hintergrundkorrektur mittels eines Bild-zu-Bild-Modells,
- Hintergrundkorrektur mittels Misch-Modellen,
- Hintergrundkorrektur mittels eines Mean-Shift Verfahrens,
- Hintergrundkorrektur mittels einer Hauptkomponentenanalyse,
- Hintergrundkorrektur mittels einer nicht-negativen Matrixfaktorisierung,
- Hintergrundkorrektur mittels Anregung der Auto-Fluoreszenz mit mindestens einem spezifischen Laser für alle Bildbereiche der Bildfolge, wobei der spezifische Laser gerade einem Anregungs-Spektralbereich einer der verwendeten Marker entspricht und die Analyte noch nicht mit Markern markiert sind, oder
- Hintergrundkorrektur mittels Anregung der Auto-Fluoreszenz mittels eines unspezifischen Lasers für alle Datenpunkte der Bilder.

Dadurch, dass das Verfahren eine Hintergrundkorrektur umfasst, können die Farbwerte unabhängig vom Hintergrund betrachtet und somit besser vom Hintergrund getrennt werden. Dadurch reduziert sich ein Rechenaufwand sowohl in der Inferenz als auch beim Training des Modells, da Hintergrund-Beiträge nicht länger berücksichtigt bzw. mit gelernt werden müssen.
Dadurch, dass man eine Hintergrundkorrektur basierend auf einer Aufnahme mit einem spezifischen Laser durchführt, wobei die Analyte noch nicht mit Markern markiert sind, sollte das aufgenommene Hintergrundbild besonders gut mit dem in den Färberunden aufgenommen Bildhintergrund übereinstimmen, weshalb eine Hintergrundkorrektur besonders exakt ausfallen sollte.
Dem Scoring-Modell können als Eingangsdaten zusätzliche Kontextinformationen zugeführt werden, welche weitere Eigenschaften der Probe und/oder des Experiments und/oder der zu erwartenden Analyte beschreiben. Diese Kontextinformationen können insbesondere Parameter zum Färben der Probe und/oder die erwartete Anzahl an Analyten oder auch das erwartete Verhältnis der in der Probe enthaltenen Analyte umfassen.
Diese Art von Kontextinformationen kann auch dazu verwendet werden, ein geeignetes Scoring-Modell aus einer Vielzahl unterschiedlicher, vortrainierter Scoring-Modelle auszuwählen.
Die Kontextinformationen können durch eine Segmentierung gewonnen werden und insbesondere Zellbereiche und Bereiche, die keiner Zelle zugeordnet sind, unterscheiden.
Nach einem dritten Aspekt der Erfindung (Aspekt C) wird ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben eines oder mehrerer Analyte mit Markern in mehreren Färberunden vorgesehen, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind. Mehrere Marker werden mit einer Kamera detektiert, welche für eine jede Färberunde zumindest ein Bild mit mehreren Bildpunkten und ihnen zugeordneten Farbwerten erzeugt, das Farbinformationen eines oder mehrerer Marker enthalten kann. Die Farbinformationen der jeweiligen Färberunden werden zum Auswerten derselben gespeichert. Ein Datenpunkt umfasst jeweils einen oder mehrere zusammenhängende Bildpunkte in den Bildern der mehreren Färberunden, die demselben Ort in einer Probe zugeordnet sind.
Das Verfahren zeichnet sich dadurch aus, dass für einen jeden Datenpunkt einer Probe jeweils der Farbwert für eine von m Färberunden eines Experiments aufgenommen wird und diese Farbwerte jeweils eine Komponente eines Ausgabevektors mit der Dimension m bilden, wobei die einzelnen Vektorkomponenten nach Aufnahme des entsprechenden Farbwertes auf einen Projektionsvektor mit einer Dimension k, die kleiner als m ist, projiziert werden und der Projektionsvektor für eine jede Färberunde auf einen Aggregationsvektor mit der gleichen Dimension k wie der Projektionsvektor sequenziell aggregiert wird. Der Aggregationsvektor wird dann gespeichert.
Dadurch, dass der Ausgabevektor mit der Dimension m durch die Projektion auf einen Aggregationsvektor mit der Dimension k projiziert wird, wird die Anzahl der Vektorkomponenten von m auf k reduziert. Dementsprechend reduziert sich auch die Datenmenge der zu speichernden Farbinformationen. Diese Verminderung der Datenmenge an Farbinformationen erlaubt eine einfache und schnelle Verarbeitung der Farbinformationen. Die Kapazität der Speichervorrichtung kann im Vergleich zu herkömmlichen Verfahren gering sein und die Anzahl der Schreibzyklen auf der Speichervorrichtung wird entsprechend verringert. Hierdurch wird ein effizientes, einfaches und schnelles Verarbeiten der Farbinformationen möglich.
Bei diesem Verfahren werden die Farbwerte nicht als Skalar, sondern als Vektorkomponente des Ausgabevektors auf den Projektionsvektor projiziert und dort aggregiert. Dieses Verfahren kann sequenziell durchgeführt werden, d.h. dass jeder Farbwert nach seiner Erfassung als Vektorkomponente auf einen Projektionsvektor projiziert wird, ohne dass alle Farbwerte eines Bildes gemeinsam in einem Datenspeicher vorgehalten werden müssen. Dies heißt mit anderen Worten, dass unmittelbar nach dem Erfassen der Farbwerte diese in den dimensionsreduzierten Raum des Aggregationsvektors übertragen werden können.
Die Projektion ist vorzugsweise eine lineare Projektion und das Aggregieren zum Aggregationsvektor erfolgt vorzugsweise durch Aufsummieren der erzeugten Projektionsvektoren auf den jeweiligen Aggregationsvektor. Die Projektion kann eine Hauptachsentransformation oder eine Singulärwertzerlegung (SVD) sein.
Die Projektion kann beispielsweise anhand eines nicht-komprimierten Datensatzes mittels der Singulärwertzerlegung oder der Hauptachsentransformation geschätzt werden.
Bei einer Hauptachsentransformation bzw. Hauptkomponentenanalyse wird zwar grundsätzlich ein Koordinatensystem nur gedreht und verschoben, aber es wird nicht die Dimension reduziert. Bei einer Hauptkomponentenanalyse im mehrdimensionalen Raum werden jedoch die Komponenten so gewählt, dass ihre Varianz und damit ihr Informationsgehalt zunehmend abnimmt. Die letzten Komponenten erklären die geringste Varianz der Daten und können lediglich als rauschende Daten angesehen werden. Deshalb können die letzten Komponenten weggelassen werden, wodurch sich die Dimension des Aggregationsvektors gegenüber der ursprünglich Dimension erheblich reduzieren lässt.
Das erfindungsgemäße Verfahren kann mit allen linearen und nicht-linearen Abbildungen ausgeführt werden, welche Vektorkomponenten erzeugen, die eine geringe Varianz erklären und damit einen geringen Informationsgehalt haben. Derartige Komponenten können weggelassen werden, ohne dass die Qualität der Daten nennenswert beeinträchtigt wird. Vorzugsweise können bei diesen Abbildungen die einzelnen Komponenten sequenziell auf einen Aggregationsvektor mit reduzierter Dimension aggregiert werden.
Ist die Projektion eine Hauptachsentransformation, dann können die Basen und die Transformationsmatrix unter Nutzung simulierter Daten auch mit Berücksichtigung der Punktspreizfunktion des verwendeten Mikroskops aus folgenden Daten generiert oder geschätzt werden:

- Hintergrundbild.
- vorheriges Experiment oder vorherige Experimente.
- erwartete ideale Codes.
- Kombination aus Hintergrundbild und erwarteten idealen Codes.

Es können auch Kombinationen dieser Informationsquellen verwendet werden, insbesondere ist auch eine Kombination aus Hintergrundbild und erwarteten Codes sinnvoll.
Die Verwendung einer Hauptachsentransformation bzw. einer Hauptkomponentenanalyse (PCA) hat zudem die Eigenschaft, dass die erste Hauptkomponente die absolute Helligkeit, welche ein Hintergrundsignal ist, darstellt. Dies ist für die Identifikation der Analyte im Wesentlichen ohne Bedeutung. Deshalb ist es möglich, auch die erste Hauptkomponente wegzulassen, wodurch das Datenvolumen weiter reduziert wird.
Vorzugsweise werden jeweils zunächst d Farbwerte aufgenommen, die jeweils eine Vektorkomponente des Ausgabevektors bilden, und die Projektion und die Aggregation erfolgt für beide Vektorkomponenten zusammen.
Dadurch, dass die Projektion und die Aggregation erst nach einer Aufnahme von d Farbwerten erfolgt, kann in einem Verfahren, in dem beispielsweise d verschiedene Farbkanäle untersucht werden, nach der Aufnahme eines Bildes das Bild nach Farbkanälen getrennt werden und die einzelnen Farbwerte der verschiedenen Farbkanäle dann gemeinsam projiziert und aggregiert werden, wodurch weniger Projektions- und Aggregationsschritte durchgeführt werden müssen, was Rechenressourcen spart.
Die Projektion kann mit einem Verarbeitungsmodell ausgeführt werden. Das Verarbeitungsmodell ist insbesondere aus einem neuronalen Netzwerk, wie z.B. aus einem CNN, ausgebildet.
Das Verarbeitungsmodell kann c Eingabestränge aufweisen, welche jeweils d Eingabekanäle aufweisen und die c Eingabestränge sich k Ausgabekanäle teilen, wobei die Ausgaben der einzelnen Eingabestränge in den k Ausgabekanälen kanalweise aggregiert werden, wobei d vorzugsweise eine Anzahl an verschiedenen verwendeten Farbkanälen entspricht und c*d = m, mit m der Anzahl an Färberunden und c der Proportionalitätsfaktor zwischen der Anzahl an Färberunden m und der Anzahl an verwendeten Farbkanälen d ist.
Dadurch, dass die Projektionen und die Aggregation erst nach einer Aufnahme von d Farbwerten erfolgt, kann in einem Verfahren in dem beispielsweise d verschiedene Farbkanäle untersucht werden nach der Aufnahme eines Bildes, das Bild nach Farbkanälen getrennt werden und die einzelnen Farbwerte der verschiedenen Farbkanäle dann gemeinsam durch das Verarbeitungsmodell verarbeitet und aggregiert werden, wodurch weniger Verarbeitungsschritte durchgeführt werden müssen, was Rechenressourcen spart.
Das Verarbeitungsmodell kann mit einem annotierten Datensatz trainiert worden sein, dem zum Berechnen des Aggregationsvektors eines der Datenpunkte als Eingabevektoren zugeführt werden, bei denen ein i-tes Vektorelement der Farbwerte des Datenpunktes der i-ten Färberunde ist und die übrigen Vektorelemente 0 sind, wobei eine Zielfunktion den Unterschied zwischen einer Zielausgabe und den Aggregationsvektoren erfasst und wobei die Zielausgabe mit einer dimensionsreduzierenden Transformation, insbesondere einer linearen oder nichtlinearen Projektion, aus den Eingabevektoren berechnet wird, wobei die transformierten Eingabevektoren sequenziell miteinander zum Aggregationsvektor aggregiert werden.
Das Verarbeitungsmodell kann für einen jeden Eingabevektor separat trainiert werden. Das Verarbeitungsmodell kann unabhängig vom durchzuführenden Experiment vortrainiert sein. Es ist jedoch auch möglich, dass mehrere Verarbeitungsmodelle für unterschiedliche Typen von Experimenten vortrainiert sind, und dass eine Kontextinformation zum Typ des jeweiligen Experiments zur automatischen Auswahl des geeignetsten Verarbeitungsmodells verwendet wird.
Die Analyte können anhand der ermittelten und dimensionsreduziert abgespeicherten Farbinformationen identifiziert werden, wobei vor dem Identifizieren die gespeicherten Aggregationsvektoren rücktransformiert werden, sodass die Farbwerte der jeweiligen Färberunden in der ursprünglichen Fassung wiederhergestellt sind.
Die Analyte können auch anhand der transformierten und dimensionsreduzierten gespeicherten Farbinformationen identifiziert werden, wobei vorab die für die zum Erfassen der Analyte jeweils typischen Folgen von Farbwerten mit der gleichen Projektion wie die aufgenommenen und gespeicherten Farbwerte auf einen jeweiligen Ergebnisvektor mit der Dimension k projiziert werden und die Identifikation des Analyts anhand eines Vergleiches der Aggregationsvektoren mit dem Ergebnisvektor zum jeweiligen Datenpunkt erfolgt.
Grundsätzlich kann es sinnvoll sein, vor dem Projizieren die Ausgabevektoren einer Hintergrundkorrektur zu unterziehen. Dies gilt vor allem für das Identifizieren der Analyte im transformierten und dimensionsreduzierten Raum der Aggregationsvektoren. Eine solche Hintergrundkorrektur ist jedoch nicht notwendig, wenn die erste Hauptkomponente einer Hauptachsentransformation weggelassen worden ist.
Das Vergleichen des Aggregationsvektors mit dem Ergebnisvektor kann auch mittels eines Identifikationsverarbeitungsmodells ausgeführt werden, das mit einem annotierten Datensatz trainiert worden ist, der als Eingangsdatensatz Aggregationsvektoren und Ergebnisvektoren von Experimenten aufweist, bei welchen die Analyte auf herkömmliche Weise identifiziert worden sind.
Vorzugsweise wird der Aggregationsvektor in ein Identifikationsverarbeitungsmodell eingegeben, das als Klassifikationsnetzwerk dazu trainiert wurde, den Aggregationsvektor einer Klasse, umfassend die zu erfassenden Analyt-Arten, zuzuordnen, oder dazu trainiert wurde, eine Ergebnis-Bitfolge auszugeben, wobei die Ergebnis-Bitfolge mit den für die zu erfassenden Analyte jeweils typischen Bitfolgen abgeglichen wird, um eine Analyt-Art zu identifizieren. Das Training des Identifikationsverarbeitungsmodells erfolgt dabei entweder mit komprimierten Daten oder mit nicht-komprimierten Daten, für den letzteren Fall müssten die komprimierten Daten mittels einer Rücktransformation in nicht-komprimierte Daten zurücktransformiert werden.
Ein Identifikationsverarbeitungsmodell kann beispielsweise als Klassifikationsnetzwerk implementiert sein und dazu trainiert werden, einem Aggregationsvektor eine Klasse entsprechend seiner Analyt-Art zuzuordnen. Dazu muss ein annotierter Datensatz derart erstellt werden, dass er als Netzwerkeingaben Aggregationsvektoren der verschiedenen Analyt-Arten umfasst und als Netzwerkausgaben jeweils die korrespondierende Klasse der eingegebenen Netzwerkeingabe umfasst. Die Zuordnung der Analyt-Art kann darüber hinaus hart oder weich erfolgen, d.h. das Klassifikationsnetzwerk gibt entweder genau die zugeordnete Klasse aus, oder das Klassifikationsnetzwerk gibt beispielsweise eine Wahrscheinlichkeitsverteilung aus, in der jeder der möglichen Klassen eine Wahrscheinlichkeit zugeordnet wird, dass die eingegebenen Daten, hier die Aggregationsvektoren, der jeweiligen Klasse entsprechen.
Alternativ kann das Identifikationsverarbeitungsmodell dazu trainiert werden, die eingegebenen Aggregationsvektoren auf typische Bitfolgen der verschiedenen Analyt-Arten abzubilden. Die typischen Bitfolgen geben hierbei an, in welchen der Färberunden der jeweilige Analyt mit einem Marker markiert war. Wie auch oben mit Bezug zum Klassifikationsnetzwerk, das direkt eine zu einer Analyt-Art korrespondierende Klasse zuordnet, beschrieben, kann auch eine Abbildung auf typische Bitfolgen der verschiedenen Analyt-Arten hart oder weich erfolgen. Es wird dann für jede Färberunde eine Wahrscheinlichkeit ausgegeben, ob in der jeweiligen Färberunde der jeweilige Analyt mit einem Marker markiert war oder nicht.
Dadurch, dass das Identifikationsverarbeitungsmodell als Klassifikationsnetzwerk trainiert wird, kann ein potentieller Analyt mit wenig Rechenaufwand einer Analyt-Art zugewiesen werden.
Gemäß einer weiteren Alternative kann das Identifikationsverarbeitungsmodell auch als Einbettungsmodell implementiert sein. In das Einbettungsmodell können sowohl die Farbinformation, komprimiert oder nicht-komprimiert, als auch die typischen Bitfolgen eingegeben werden. Die eingegebenen Daten bettet das Einbettungsmodell in einen Einbettungsraum ein. Im Training werden die Modellparameter des Einbettungsmodells nun gerade so angepasst, dass die Einbettung der Daten mittels einer Zielfunktion so optimiert wird, dass eingegebene Daten, die zu derselben Analyt-Art bzw. Ergebnisklasse korrespondieren, im Einbettungsraum einen möglichst kleinen Abstand haben und Einbettungen von eingegebene Daten, die zu verschiedenen Ergebnisklassen bzw. Analyt-Arten korrespondieren, einen möglichst großen Abstand zueinander haben. In der Inferenz sorgt diese Art des Trainings jetzt gerade dafür, dass anhand eines Abstands einer Einbettung von Farbinformationen zu den Einbettungen der typischen Bitfolgen die Ergebnisklasse bzw. die Analyt-Art bestimmt werden kann, wobei hier der kleinste Abstand gerade die Analyt-Art gibt.
Ein Bild kann eine zweidimensionale Abbildung mit mehreren Pixeln als Bildpunkten oder eine dreidimensionale Abbildung mit mehreren Voxeln als Bildpunkten umfassen, wobei einem jeden Datenpunkt einer Probe zumindest ein Bildpunkt eines jeden Bildes zuordbar ist. Die Bilder können als zusätzliche Dimension eine Zeitinformation umfassen. Die Zeitinformation kann nicht nur dazu dienen, den Zeitpunkt anzugeben, wann ein einzelnes Bild aufgenommen worden ist, sondern auch zum Darstellen einer Zeitreihe mit mehreren aufeinanderfolgenden Bildern, wobei die Zeitinformation die Zeitpunkte der einzelnen Bilder angibt.
Ein Datenpunkt kann jeweils ein Bildpunkt eines jeden Bildes oder eine Gruppe zusammenhängender Bildpunkte sein. Werden die Farbinformationen mit einem Verarbeitungsmodell auf den dimensionsreduzierten Aggregationsvektor transformiert, dann muss es nicht ganz klar sein, wie groß die entsprechenden Datenpunkte sind. Dies gilt vor allem für vollständig faltende Netze. In der Praxis hat sich jedoch gezeigt, dass die Datenpunkte oftmals nicht mehr als 10 Bildpunkte und insbesondere nicht mehr als 5 Bildpunkte in einer Dimension umfassen, sodass die maximalen Bildpunkte pro Datenpunkt einer zweidimensionale Abbildung 10x10 bzw. 5x5 Bildpunkte und einer dreidimensionalen Abbildung 10x10x10 bzw. 5x5x5 Bildpunkte sind.
Die Bilder können in verschiedene semantische Bereiche vorsegmentiert werden, wobei für unterschiedliche semantische Bereiche unterschiedliche Projektionen zum Transformieren der Ausgabevektoren auf Aggregationsvektoren verwendet werden.
Wenn die unterschiedlichen Projektionen Hauptachsentransformationen sind, dann können sie sich in den Basen und den Transformationsmatrizen unterscheiden.
Nach einem vierten Aspekt der Erfindung (Aspekt D) wird ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben eines oder mehrerer Analyte mit Markern in mehreren Färberunden vorgesehen, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind. Die Marker werden mit einer Kamera detektiert, welche für eine jede Färberunde zumindest ein Bild mit mehreren Bildpunkten erzeugt, das Farbinformationen eines oder mehrerer Marker enthalten kann. Die Bilder der jeweiligen Färberunden werden zum Auswerten der Farbinformationen gespeichert.
Das Verfahren zeichnet sich dadurch aus, dass die in den einzelnen Färberunden ermittelten Farbwerte nach ihren Intensitätswerten in lokale oder globale Cluster mit ähnlichen Intensitätswerten geclustert werden und lediglich die geclusterten Daten abgespeichert werden.
Durch das Clustern der Farbwerte zu Clustern mit ähnlichen Intensitätswerten wird die Datenmenge der Farbinformationen erheblich reduziert, da für ein jedes Cluster der Intensitätswert nur einmal gespeichert werden muss. Ähnlich wie bei den oben erläuterten Aspekten der Erfindung werden durch die Datenreduktion eine erhebliche Vereinfachung und Beschleunigung der Bearbeitung der Bilddaten erzielt sowie die Anforderungen an das eingesetzte Speichermedium erheblich verringert.
Vorzugsweise werden die Intensitätswerte nach jeder Färberunde durch die erneut gewonnenen Farbinformationen als zusätzliche Merkmalsdimension erneut geclustert. Hierbei werden in der Regel die bereits bestehenden Cluster in Teilcluster zerlegt. Aber falls die Intensitätswerte zweier benachbarter Cluster sehr ähnlich sind, dann kann es auch sein, dass ein neues Cluster entsteht, das sich über die Clustergrenze zweier bisher benachbarter Cluster hinweg erstreckt. Dies ist dann der Fall, wenn in dem neuen Cluster in den nachfolgenden Färberunden immer sehr ähnliche Intensitätswerte auftreten, sodass der ursprüngliche Intensitätsabstand relativiert wird.
Zu jedem Bildpunkt kann eine Cluster-ID gespeichert werden, die beschreibt, zu welchem Cluster der jeweilige Bildpunkt gehört.
Zu jedem Cluster kann der Intensitätswert einer jeden Färberunde gespeichert werden. Die Intensitätswerte der einzelnen Färberunden werden somit nur einmal für ein jedes Cluster gespeichert. Sie können daher mit einer hohen Auflösung gespeichert werden, ohne dass hierdurch eine große Datenmenge erzeugt wird. Eine Cluster-ID, die für jeden Bildpunkt gespeichert wird, kann in der Regel mit wesentlich weniger Bit als die Intensitätswerte codiert werden. Mit 8 Bit können beispielsweise 256 unterschiedliche Cluster identifiziert werden. Mit 10 Bit können bereits mehr als 1000 unterschiedliche Cluster codiert werden.
Diese Art der Zuordnung von Intensitätswerten zu den jeweiligen Clustern wird auch als Farbpaletten-Kompression bezeichnet. Beim erfindungsgemäßen Verfahren wird die Tatsache ausgenutzt, dass die auf einem bestimmten Marker beruhenden Farbinformationen ähnlich sind, wodurch sie in einem Cluster zusammengefasst werden können. Bestimmte Cluster enthalten somit die zum Identifizieren der Analyte notwendigen Farbinformationen. Bei dem oben erläuterten aufeinanderfolgenden Clustern nach einer jeden Färberunde wird jedem Cluster eine Folge von Intensitätswerten zugeordnet. Aus dieser Folge von Intensitätswerten kann, wie es unten näher erläutert ist, bestimmt werden, ob an dem Ort des jeweiligen Clusters ein bestimmter Analyt vorhanden ist.
Beim erfindungsgemäßen Verfahren können grundsätzlich zwei unterschiedliche Clusterverfahren verwendet werden, das Erzeugen von lokalen Clustern, welche auch als Superpixel bezeichnet werden, und das Erzeugen von globalen Clustern. Beiden Verfahren ist gemeinsam, dass jedes Cluster für eine Färberunde nur durch einen einzigen Intensitätswert repräsentiert wird. Bei einem lokalen Cluster besteht ein jedes Cluster aus zusammenhängenden Bildpunkten. Bei einem globalen Cluster kann ein Cluster mehrere separate Bereiche in einem Bild umfassen, die voneinander beabstandet sind.
Mit globalen Clustern kann eine höhere Kompressionsrate erzielt werden, da mehrere getrennte Bereiche im Bild jeweils gemeinsam ein Cluster bilden und damit einem einzigen gemeinsamen Intensitätswert zugeordnet sind. Bei lokalen Clustern muss für einen jeden separaten Clusterbereich ein eigener Intensitätswert hinterlegt werden, da jeder Clusterbereich ein separates Cluster bildet. Jedoch hat bei einem lokalen Cluster die Bildposition bzw. der Ort des Clusters im Bild einen wesentlich höheren Informationsgehalt, da sich alle Bildpunkte des jeweiligen Clusters zumindest in der Nähe dieser Bildposition befinden. Bei einer lokalen Clusterung ist die Gefahr, dass man sogenannte „seltene“ Bildpunkte verliert, wesentlich geringer. Seltene Bildpunkte sind Bildpunkte, welche Intensitätswerte oder Folgen von Intensitätswerten aufweisen, die in dem gesamten Bild nur selten vorkommen.
Zu jedem Cluster kann ein gleitender statistischer Wert, insbesondere ein Mittelwert und/oder eine Varianz und/oder ein Median und/oder ein zentraler Farbwert, gespeichert werden. Da durch das Clustern die Farbwerte bzw. Intensitätswerte auf den für die jeweilige Färberunde dem jeweiligen Cluster zugeordneten Intensitätswert quantisiert werden, gehen Detailinformationen der ursprünglichen Bilddaten verloren. Mittels eines oder mehrerer gleitender statistischer Werte können gewisse Eigenschaften der ursprünglichen Bilddaten beibehalten werden, ohne hierdurch ein großes Datenvolumen zu erzeugen. Es kann z.B. für die Auswertung der Cluster von Bedeutung sein, ob die einzelnen Bildpunkte innerhalb eines Clusters sehr ähnlich sind und deshalb eine geringe Varianz aufweisen oder doch zwischen den Intensitätswerten der einzelnen Bildpunkte signifikante Unterschiede bestanden, welche sich in einer Erhöhung der Varianz niederschlagen.
Beim oben erläuterten Verfahren werden die Intensitätswerte der Bildpunkte nach jeder Färberunde aufeinanderfolgend geclustert, sodass einem jeden Cluster für eine jede Färberunde ein Intensitätswert zugeordnet ist. Im Rahmen der Erfindung ist es jedoch auch möglich, dass jedes Bild einer Färberunde separat geclustert wird. Auch hierdurch kann eine erhebliche Reduzierung der Datenmenge im Vergleich zu ungeclusterten Bilddaten erzielt werden. Im Rahmen der Erfindung ist es auch möglich, dass mehrere Gruppen von Färberunden eines Experiments aufeinanderfolgend geclustert werden, sodass den Clustern jeweils die Intensitätswerte der Färberunden der jeweiligen Gruppen von Färberunden zugeordnet sind.
Das Clustern kann mit einem partitionierenden, hierarchischen, graphentheoretischen oder optimierenden Clusterverfahren ausgeführt werden.
Es ist auch möglich, das Clustern mit einem überwachten oder einem nicht-überwachten Clusterverfahren durchzuführen.
Es kann auch zweckmäßig sein, dass die Intensitätswerte, welche stark, d.h. um einen vorbestimmten Schwellenwert, von einem zentralen Farbwert des jeweiligen Clusters abweichen, separat gespeichert werden, um bei Bedarf ein neues Cluster zu erzeugen. Durch das Vorhalten stark vom zentralen Intensitätswert des jeweiligen Clusters abweichender Intensitätswerte werden große Intensitätsunterschiede in einem Cluster festgehalten, welche bei einer Clusterung in nachfolgenden Färberunden den Ausschlag zu einer Auftrennung in weitere Cluster geben können.
Werden lokale Cluster erzeugt, dann kann eines der Bildmerkmale zum Clustern der jeweilige Intensitätswert und ein weiteres Bildmerkmal zum Clustern die Position der jeweiligen Bildpunkte im Bild sein.
Ein Bild kann eine zweidimensionale Abbildung mit mehreren Pixeln als Bildpunkten oder eine dreidimensionale Abbildung mit mehreren Voxeln als Bildpunkten umfassen, wobei einem jeden Messpunkt einer Probe zumindest ein Bildpunkt eines jeden Bildes zuordbar ist. Die Bilder können als zusätzliche Dimension eine Zeitinformation aufweisen.
Bestimmte Cluster, welchen die Intensitätswerte für eine jede Färberunde zugeordnet sind, können einem bestimmten Analyt eindeutig zugeordnet sein, sodass die Analyte durch Auslesen dieser entsprechenden Cluster identifiziert werden können. Dies ist bei einem geringen Signal/RauschVerhältnis ohne weitere Datenbearbeitung möglich. Bei verrauschten Signalen empfiehlt sich jedoch eine Aufbereitung der Daten, wobei die Daten beispielsweise vorab entrauscht werden, bevor sie geclustert werden.
Zum Identifizieren der Analyte können auch die zu den einzelnen Clustern gespeicherten und durch das Clustern quantisierten Folgen von Intensitätswerten mit den den jeweiligen Analyten kodierenden Folgen von Ziel-Intensitätswerten verglichen werden. Hierbei werden die Ziel-Intensitätswerte vorzugsweise vorab auf den gleichen Wertebereich wie die Cluster quantisiert. Beim Clustern werden, wie es oben bereits kurz erläutert ist, die Intensitätswerte aller Bildpunkte des Clusters auf einen zentralen Farbwert bzw. einen zentralen Intensitätswert gesetzt. Diese zentralen Intensitätswerte der Cluster bilden den Wertebereich. Ist den Clustern für jede Färberunde jeweils ein Intensitätswert zugeordnet, dann bilden die mehreren zentralen Intensitätswerte der einzelnen Färberunden für das jeweilige Cluster den quantisierten Wertebereich des Clusters.
Das Identifizieren der Analyte anhand der Cluster kann mittels eines Verarbeitungsmodells ausgeführt werden. Dieses Verarbeitungsmodell ist vorzugsweise ein Klassifizierungsmodell.
Das Clustern selbst kann auch mit einem Verarbeitungsmodell ausgeführt werden. Vorzugsweise ist ein solches Verarbeitungsmodell zum Clustern ein Segmentierungsmodell und insbesondere ein semantisches Segmentierungsmodell.
Dem Verarbeitungsmodell können als Eingangsdaten zusätzliche Kontextinformationen zugeführt werden, welche weitere Eigenschaften der Probe und/oder des Experiments und/oder der zu erwartenden Analyte beschreiben. Diese Kontextinformationen sind insbesondere Parameter zum Färben der Probe und/oder die erwartete Anzahl an Analyten oder auch das erwartete Verhältnis der in der Probe enthaltenen Analyte. Anhand dieser Kontextinformationen kann die Quantisierung der Clusterung eingestellt werden, d.h. dass hiermit die zentralen Intensitätswerte für die jeweiligen Färberunden bestimmt und den jeweiligen Clustern zugeordnet werden.
Nach einem fünften Aspekt der Erfindung (Aspekt E) wird ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben eines oder mehrerer Analyte mit Markern in mehreren Färberunden vorgesehen, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind. Die Marker werden mit einer Kamera detektiert, welche für eine jede Färberunde zumindest ein Bild erfasst, das Farbinformationen eines oder mehrerer Marker enthalten kann. Die Farbinformationen der jeweiligen Färberunden werden zum Auswerten derselben gespeichert.
Das Verfahren zeichnet sich dadurch aus, dass die Bilder in Quantisierungsbereiche unterteilt werden, in welchen die Intensitätswerte der Bildpunkte mit jeweils einer unterschiedlichen Quantisierung codiert werden, und als Farbinformation die quantisierten Intensitätswerte der Bildpunkte gespeichert werden.
Eine Quantisierung bedeutet, dass die Intensitätswerte in den unterschiedlichen Quantisierungsbereichen unterschiedliche Wertebereiche mit in der Regel einer reduzierten Anzahl von Intensitätswerten gegenüber der ursprünglichen Darstellung der Intensitätswerte nach dem Erfassen der Bilder mit der Kamera aufweisen. D.h. die unterschiedlichen Quantisierungsbereiche werden mit unterschiedlichen Bittiefen codiert, d.h. eine unterschiedliche Anzahl von Bits repräsentiert dann den jeweiligen Intensitätswert.
Die Intensitätswerte des ursprünglich mit der Kamera aufgenommenen Bildes besitzen eine vorbestimmte Bittiefe, von z.B. 16 Bit in einem bestimmten Farbkanal. Dies heißt mit anderen Worten, dass der Helligkeitsbereich von maximal dunkel bis maximal hell dieser Farbe gleichmäßig mit 16 Bit codiert ist. Die Quantisierungsbereiche umfassen in der Regel nur einen Teil des Helligkeitsbereiches und dieser Teil des Helligkeitsbereiches ist mit einer vorbestimmten Bittiefe quantisiert. Dieser kann beispielsweise für dunkle Bereiche, die lediglich Hintergrund darstellen, eine Bittiefe von einem einzigen Bit aufweisen. Für Bereiche mittlerer Helligkeit, die sehr viel Information enthalten, da in diesen Bereichen ein Großteil der Signale von Markern auftreten, deren Unterschied zum Hintergrund oft nur sehr gering ist, wird in diesem Intensitätsbereich die ursprüngliche Bittiefe von 16 Bit beibehalten. In den hellen Bereichen, in denen sich oftmals die Marker-Signale, welche auch als Gefärbt-Signale bezeichnet werden, deutlich von den Nicht-Marker-Signalen, welche auch als Ungefärbt-Signale bezeichnet werden, abheben, ist es ausreichend, die Intensitätswerte mit einer geringeren Bittiefe von beispielsweise 8 Bit zu codieren, um die Intensitätswerte der Gefärbt-Signale von den Intensitätswerten der Ungefärbt-Signale zuverlässig unterscheiden zu können. Die Wahl der geeigneten Quantisierungsbereiche hängt auch vom jeweiligen Experiment und insbesondere den dabei verwendeten Farbstoffen und dem jeweils vorliegenden Hintergrundbild ab.
Die Bittiefe einer Quantisierung, also die Anzahl von Bits, mit denen die Intensitätswerte codiert werden, ist zumindest für bestimmte Quantisierungsbereiche kleiner als die Anzahl von Bits, mit welcher die von der Kamera erfassten Intensitätswerte von der Kamera codiert werden.
In den unterschiedlichen Quantisierungsbereichen können auch unterschiedliche Bittiefen angewendet werden.
Die Quantisierungsbereiche können nach einem oder mehreren der folgenden Verfahrensschritte eingeteilt werden:

- Die Quantisierungsbereiche sind vorab durch Intensitätsgrenzen festgelegt, sodass jeder Quantisierungsbereich einem bestimmten Intensitätsbereich entspricht.
- Die Bilder werden semantisch in unterschiedliche Quantisierungsbereiche aufgeteilt.
- Die Häufigkeit der einzelnen Intensitätswerte wird erfasst und durch Intensitätsgrenzen, die um Häufigkeitsspitzen herum angeordnet werden, werden die Quantisierungsbereiche festgelegt.
- Die Quantisierungsbereiche werden durch Clustern von ähnlichen Intensitätswerten festgelegt.
- Die Quantisierungsbereiche werden durch semantisches Segmentieren der Bilder, beispielsweise in Hintergrund, Zelle und Zellkern, festgelegt.

Es kann auch eine Kombination von mehreren der oben erläuterten Verfahrensschritte zum Bestimmen der Quantisierungsbereiche verwendet werden.
Die Quantisierungsbereiche können zu folgenden Zeitpunkten eingeteilt werden:

- einmalig vor dem erstmaligen Quantisieren eines der Bilder, wobei die Einteilung der Quantisierungsbereiche vorzugsweise mittels eines Hintergrundbildes ausgeführt wird, das ohne Marker erzeugt wird,
- nach der ersten Färberunde, wobei die Quantisierungsbereiche auf Grundlage eines Teils des während der ersten Färberunde erfassten Bildes oder auf Grundlage des gesamten Bildes eingeteilt werden,
- nach jeweils mehreren Färberunden, wobei die Quantisierungsbereiche auf Grundlage eines Teils des während der jeweiligen Färberunde erfassten Bildes oder auf Grundlage des gesamten Bildes eingeteilt werden, oder
- nach jeder Färberunde, wobei die Quantisierungsbereiche auf Grundlage eines Teils des während der jeweiligen Färberunde erfassten Bildes oder auf Grundlage des gesamten Bildes eingeteilt werden.

Demgemäß ist es auch möglich, dass die Quantisierungsbereiche zunächst nach der ersten Färberunde und dann nach einigen Färberunden später erneut eingeteilt werden. Es kann eine wiederholte Einteilung bzw. Bestimmung der Quantisierungsbereiche nach jeweils einer gleichen Anzahl von Färberunden oder auch nach ungleichen Anzahlen von Färberunden erfolgen.
Die Bereiche des Bildes, welche zum Einteilen der Quantisierungsbereiche besonders geeignet sind, können automatisch bestimmt werden, wobei dies insbesondere anhand von Bereichen ermittelt wird, die mehrere unterschiedliche Quantisierungsbereiche umfassen.
Es können drei Quantisierungsbereiche verwendet werden, die jeweils unterschiedliche Intensitätsbereiche bilden, wobei der Intensitätsbereich mit mittleren Intensitätswerten fein quantisiert wird, der Intensitätsbereich mit hellen Intensitätswerten gröber als der Intensitätsbereich mit mittleren Intensitätswerten quantisiert wird, wobei vorzugsweise der Intensitätsbereich mit hellen Intensitätswerten feiner als der Intensitätsbereich mit dunklen Intensitätswerten quantisiert wird. Der Intensitätsbereich mit dunklen Intensitätswerten ist folglich der am gröbsten quantisierte Intensitätsbereich.
Der Intensitätsbereich mit dunklen Intensitätswerten kann einem dunklen Hintergrund entsprechen. Dessen Intensitätswerte sind für die Identifizierung der Analyte oftmals nicht relevant und können deshalb sehr grob quantisiert werden oder sogar vollständig verworfen werden.
Der Intensitätsbereich mit mittleren Intensitätswerten kann den Zellbereichen entsprechen, welche aufgrund der Relevanz kleiner Intensitäts-Unterschiede für die Analyt-Identifikation sehr fein quantisiert sein sollte.
Der Intensitätsbereich mit hellen Intensitätswerten gibt helle Punkte in den Zellen wieder, welche sehr große Intensitätswerte aufweisen. Diese sind zwar sehr relevant für die Analyt-Identifikation, setzen sich aber aufgrund großer Helligkeitsunterschiede oftmals deutlich von den nicht für die Identifikation der Analyten relevanten Intensitätswerten ab. Daher ist hier eine gröbere Quantisierung, also mit geringerer Bittiefe als im mittleren Intensitätsbereich, möglich.
Ein Bild kann eine zweidimensionale Abbildung mit mehreren Pixeln als Bildpunkten oder eine dreidimensionale Abbildung mit mehreren Voxeln als Bildpunkten umfassen, wobei einem jeden Messpunkt einer Probe zumindest ein Bildpunkt eines jeden Bildes zuordbar ist. Die Bilder können als zusätzliche Dimension eine Zeitinformation umfassen.
Zum Identifizieren der Analyte werden die gespeicherten quantisierten Folgen von Intensitätswerten mit den den jeweiligen Analyt kodierenden Folgen von Ziel-Intensitätswerten verglichen.
Vor dem Vergleichen können die die Analyte kodierenden Ziel-Intensitätswerte wie die erfassten Farbinformationen quantisiert werden. Alternativ kann auch vor dem Vergleichen die Quantisierung der gespeicherten quantisierten Folgen von Intensitätswerten aufgehoben werden, um sie mit den die Analyte kodierenden Ziel-Intensitätswerten vergleichen zu können. Eine exakte Rücktransformation ist nicht immer möglich, da aufgrund der Quantisierung Information verlorengehen kann. Mit der Aufhebung der Quantisierung ist auch eine Transformation in einem Wertebereich gemeint, der dem Wertebereich der ursprünglich gemessenen Intensitätswerte entspricht. Hierzu kann es zweckmäßig sein, wenn neben den quantisierten Intensitätswerten noch weitere Kontextinformationen vorliegen.
Gemäß einer Alternative können die gespeicherten Farbinformationen auch direkt binarisiert werden und dann mit binarisierten Soll-Bitfolgen eines Codebuchs des Experiments verglichen werden.
Gemäß der vorliegenden Erfindung umfasst ein Codebuch für jede Analyt-Art eine Folge von Markern, welche in den jeweiligen Färberunden an die jeweilige Analyt-Art koppeln.
Nach einem sechsten Aspekt der Erfindung (Aspekt F) wird ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten in einer Probe vorgesehen, wobei in einem Experiment ein oder mehrere Analyte mit Markern in mehreren Färberunden eingefärbt werden. Die Marker sind jeweils spezifisch für eine bestimmte Menge von Analyten, wobei die mehreren Marker mit einer Kamera detektiert werden, welche für eine jede Färberunde zumindest ein Bild erzeugt, das Farbinformationen eines oder mehrerer Marker enthalten kann. Die Farbinformationen der jeweiligen Färberunden werden zum Auswerten gespeichert.
Das Verfahren zeichnet sich dadurch aus, dass für eine n-te Färberunde ein zu erwartendes Prognosebild anhand von Vorhersagebilddaten einer oder mehrerer vorhergehender Färberunden und/oder anhand von Vorhersagebilddaten der aktuellen Färberunde vorhergesagt wird und einerseits aus einem tatsächlich erfassten Bild oder aus einer tatsächlich erfassten Bildebene der aktuellen Färberunde und andererseits aus dem Prognosebild ein Differenzbild gebildet wird, wobei als Farbinformationen das Differenzbild gespeichert wird.
Da viele Bildpunkte des tatsächlich erfassten Bildes bzw. der tatsächlich erfassten Bildebene und des Prognosebildes in der Regel gleich sind, enthält das Differenzbild viele Bildpunkte mit dem Differenzwert „0“. Derartige Bilder können sehr stark komprimiert gespeichert werden. Es ist auch möglich, lediglich die Differenz der beiden Bilder, d.h. die Bildpunkte zu speichern, die einen Differenzwert aufweisen, der sich von „0“ unterscheidet. Auch hierdurch wird die Datenmenge erheblich reduziert.
Eine Reduktion der Datenmenge der zu speichernden Bilddaten führt zu einer erheblichen Vereinfachung und Beschleunigung der Schreib- und Lesevorgänge und verringert auch die Anzahl der Zugriffe auf das Speichermedium, wodurch dessen Lebensdauer verlängert wird.
Die Prognose der Vorhersagebilddaten wird mit einem Verfahren ausgeführt, das eindeutig und umkehrbar ist, sodass es anhand des Differenzbildes jederzeit möglich ist, das tatsächlich erfasste Bild oder die tatsächlich erfasste Bildebene wiederherzustellen, wenn das Bild bzw. die Bildebene, von welchen ausgehend die Vorhersagebilddaten hergestellt worden sind, bekannt ist. Hierdurch können alle tatsächlich erfassten Bilder bzw. Bildebenen ohne Datenverlust wieder rekonstruiert werden. Vorzugsweise wird das erste Bild unkomprimiert oder mit einem vom vorliegenden Aspekt unabhängigen Kompressionsverfahren komprimiert gespeichert, so dass das erste Bild, auf das die weiteren Bilder mittels des Differenzbildes oder der Differenzbilder referenzieren, vollständig zur Verfügung steht,
Das Prognosebild kann einer Bildebene eines aus mehreren Bildebenen bestehenden Z-Bildes entsprechen und die Vorhersagebilddaten können eine oder mehrere Bildebenen von Z-Bildern aus einer oder mehreren vorhergehenden Färberunden und/oder eine oder mehrere Bildebenen des Z-Bildes der aktuellen Färberunde umfassen. Somit kann die Prognose bei dreidimensionalen Bilddaten mit mehreren Bildebenen sowohl von einer Bildebene einer vorhergehenden Färberunde als auch von einer Bildebene einer aktuellen Färberunde ausgehen.
Die vorhergehenden Färberunden können Färberunden desselben Experiments oder Färberunden eines anderen Experiments mit vorzugsweise einer ähnlichen oder der gleichen Probe sein. Je ähnlicher die Probe und der jeweilige Zustand der Probe während des Experiments der vorhergehenden Färberunde mit der aktuellen Färberunde ist, desto besser ist in der Regel die Übereinstimmung der Vorhersagebilddaten mit dem tatsächlich erfassten Bild bzw. der tatsächlich erfassten Bildebene.
Die Vorhersagebilddaten können Teilmengen der Bilder einer oder mehrerer vorhergehender Färberunden und/oder der aktuellen Färberunde umfassen, wobei die Teilmenge einzelne oder mehrere Bildebenen eines Z-Bildes oder auch Ausschnitte in einer Ebene der Bilder sein können. Diese Ausschnitte können Ausschnitte von zweidimensionalen Bildern sein oder auch Ausschnitte von Bildebenen eines Z-Bildes.
Die Vorhersagebilddaten können rekonstruierte Bilddaten aus Differenzbildern oder nur die Differenzbilder selbst aus vorhergehenden Färberunden sein. Mit anderen Worten kann eine Prognose auch ausgehend von den in Form von Differenzbildern komprimierten Bilddaten erfolgen. Dementsprechend können die Vorhersagebilddaten komprimiert vorgehalten werden.
Die Vorhersagebilddaten können auch ausschließlich von der unmittelbar vorhergehenden Färberunde und/oder von der aktuellen Färberunde stammen. Die Vorhersagebilddaten, die von einer aktuellen Färberunde stammen, sind Bildebenen eines Z-Bildes, anhand welcher andere Bildebenen vorhergesagt bzw. prognostiziert werden.
Das Differenzbild wird vorzugsweise vor dem Speichern komprimiert. Wie oben erläutert, ist die Komprimierung derartiger Differenzbilder in der Regel sehr wirkungsvoll.
Die Vorhersagen werden mit einem Prädiktor, insbesondere einem linearen Prädiktor ausgeführt. Der Prädiktor ist vorzugsweise so ausgebildet, dass er eine eindeutige Zuordnung aus den Ausgangsbilddaten auf die vorhergesagten Bilddaten vornimmt, sodass anhand der vorhergesagten Bilddaten die Ausgangsbilddaten jederzeit wieder eindeutig und ohne Informationsverlust hergestellt werden können.
Die Vorhersagen können mit einem Verarbeitungsmodell eines Maschinenlernsystems durchgeführt werden. Hierfür ist insbesondere ein neuronales Netzwerk für die Bild-zu-Bild-Regression geeignet.
Das Verarbeitungsmodell kann

- für jede Färberunde neu trainiert werden, oder
- für jedes Experiment neu trainiert werden, oder
- aus mehreren vortrainierten Verarbeitungsmodellen ausgewählt werden, wobei diese Auswahl vorzugsweise anhand von Kontextinformationen getroffen wird. Diese Kontextinformationen können Eigenschaften der Probe und/oder des Experiments und/oder der zu erwartenden Analyte sein und die Kontextinformationen können insbesondere Parameter zum Färben der Probe und/oder die erwartete Anzahl an Analyten oder auch das erwartete Verhältnis der in der Probe enthaltenen Analyte umfassen.

Das Verarbeitungsmodell kann mit annotierten Trainingsdaten trainiert worden sein, wobei die annotierten Trainingsdaten jeweils ein Ausgangsbild und ein korrespondierendes Zielbild umfassen, wobei sowohl das Ausgangsbild als auch das Zielbild an einer Probe gemessen worden sind.
Das Ausgangsbild kann hierbei von einer vorherigen Färberunde und das Zielbild von einer nachfolgenden Färberunde stammen. Das Ausgangsbild kann jedoch auch eine Bildebene eines dreidimensionalen Z-Bildes und das Zielbild eine andere Bildebene des gleichen dreidimensionalen Z-Bildes sein.
Die Vorhersagebilddaten können vor der Vorhersage normiert werden, um beispielsweise einen vorbestimmten Intensitätsbereich und/oder ein definiertes Hintergrundsignal aufzuweisen.
Die Vorhersagebilddaten können vor der Vorhersage entrauscht werden. Ein solches Entrauschen kann mit unterschiedlichen Methoden ausgeführt werden. Hierzu gehören klassische Methoden (Filtering/BM3D) und auch Methoden des maschinellen Lernens (NOISE2NOISE/NOISE2VOID).
Ein Bild kann eine zweidimensionale Abbildung mit mehreren Pixeln als Bildpunkten oder eine dreidimensionale Abbildung mit mehreren Voxeln als Bildpunkten umfassen, wobei die dreidimensionale Abbildung in der Regel durch mehrere Bildebenen eines Z-Bildes erzeugt wird. Die Bilder können als zusätzliche Dimension eine Zeitinformation umfassen.
Zum Identifizieren der Analyte mit Hilfe der gespeicherten Differenzbilder können aus diesen das tatsächlich erfasste Bild oder die tatsächlich erfasste Bildebene zumindest für vorbestimmte Datenpunkte wiederhergestellt werden, wobei ein Datenpunkt jeweils ein oder mehrere zusammenhängende Bildpunkte in den Bildern der mehreren Färberunden umfasst, die demselben Ort in einer Probe zugeordnet sind.
Bei der Identifizierung der Analyte kann somit die Rekonstruktion der erfassten Bilder bzw. der erfassten Bildebenen bildpunktweise bzw. datenpunktweise oder aber auch über das gesamte Bild hinweg erfolgen.
Die Analyte können Nukleinsäure-Sequenzen sein und die Marker jeweils eine Oligonukleotid-Sequenz und ein daran gekoppeltes Farbstoffmolekül aufweisen.
Die Kontextinformation kann beispielsweise einen gleitenden statistischen Wert, insbesondere einen Mittelwert und/oder eine Varianz und/oder einen Median und/oder einen zentralen Farbwert umfassen.
Die Analyte können Nukleotidsequenzen sein und die Marker jeweils eine Oligonukleotid-Sequenz und ein daran gekoppeltes Farbstoffmolekül aufweisen.
Nach einem siebten Aspekt der Erfindung (Aspekt G) wird ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben eines oder mehrerer Analyte mit Markern in mehreren Färberunden vorgesehen, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind. Die Marker werden mit einer Kamera detektiert, welche für eine jede Färberunde zumindest ein Bild mit mehreren Bildpunkten, denen als Farbinformation jeweils ein Farbwert zugeordnet ist, erzeugt, das Gefärbt-Signale und Ungefärbt-Signale umfasst. Ein Gefärbt-Signal ist ein Bildpunkt mit einer Farbinformation eines Markers und ein Ungefärbt-Signal ist ein Bildpunkt mit einer Farbinformation, die nicht auf einem Marker beruht. Die Farbinformationen der jeweiligen Färberunden werden zum Auswerten derselben gespeichert, wobei ein Datenpunkt jeweils ein oder mehrere zusammenhängende Bildpunkte in den Bildern der mehreren Färberunden umfasst, die demselben Ort in einer Probe zugeordnet sind.
Das Verfahren zeichnet sich dadurch aus, dass die Farbwerte der Bildpunkte der Bilder einer Probe einer Bewertung unterzogen werden, ob sie ein Gefärbt-Signal und/oder ein Ungefärbt-Signal darstellen, und die Bildpunkte, deren Farbwerte mit einer vorbestimmten Wahrscheinlichkeit bewertet werden, dass sie ein Gefärbt-Signal oder ein Ungefärbt-Signal sind, werden entsprechend binarisiert, und beim Speichern der Farbinformationen wird für diese binarisierten Bildpunkte ein entsprechender Binärwert anstelle der Farbwerte gespeichert.
Der Binärwert ist eine einstellige Binärzahl. Durch die Reduktion der Farbwerte auf Binärwerte kann die Datenmenge erheblich reduziert werden, wodurch die oben erläuterten Vorteile der einfacheren und schnelleren Bearbeitung und der geringeren Beanspruchung des Speichermediums erzielt werden.
Für Farbwerte, die nicht binarisiert werden, werden die jeweiligen gemessenen Farbwerte gespeichert.
Ein gemäß einer Bewertung nicht-binarisierter Farbwert kann bei einer späteren Bewertung erneut bewertet und, falls er dann die gewünschten Kriterien erfüllt, binarisiert werden. Man kann somit eine Re-Komprimierung von früheren Bewertungsrunden durchführen. Nach einer jeden Färberunde oder jeweils nach einer vorbestimmten Anzahl von Färberunden können die Bildpunkte der Bewertung unterzogen werden. Wird die Bewertung erst nach mehreren Färberunden durchgeführt, so ist es zweckmäßig, zumindest die Bildpunkte aller Färberunden zu bewerten, die bisher noch nicht bewertet worden sind.
Die Bewertung der Farbwerte kann auf einem oder mehreren der folgenden Werte beruhen:

- Farbwert, der zu bewerten ist,
- einer oder mehrere Farbwerte einer oder mehrerer vorhergehender Färberunden,
- statistische Werte der gemessenen Farbwerte der bisher durchgeführten Färberunden,
- einer oder mehrere Farbwerte von Hintergrundbildern, und/oder
- statistische Werte zum Hintergrund.

Die Bewertung kann auch anhand einer Kombination der oben aufgeführten Daten erfolgen.
Ob der Farbwert mit einer vorbestimmten Wahrscheinlichkeit ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellt, kann mit einem Konfidenzmaß oder mittels einer Heuristik ermittelt werden.
Die Farbwerte können mit einem Scoring-Modell eines Maschinenlernsystems bewertet werden, wobei dem Scoring-Modell Kriterien zum Bewerten der Farbwerte antrainiert sind, ob diese mit einer gewissen Wahrscheinlichkeit ein Gefärbt-Signal und/oder ein Ungefärbt-Signal darstellen. Das Scoring-Modell kann mit einem annotierten Datensatz trainiert worden sein, der als Eingangsdatensatz die Farbwerte der Bildpunkte und korrespondierende Zielausgaben enthält, wobei die Zielausgaben für jeden Farbwert einzeln definieren, ob er ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellt.
Das Scoring-Modell kann mit einem annotierten Datensatz trainiert worden sein, der als Eingangsdatensatz die Farbwerte der Bildpunkte und korrespondierende Zielausgaben enthält, die jeweils definieren, ob die Farbwerte ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellen oder es nicht bestimmt werden kann, ob sie ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellen.
Das Scoring-Modell ist vorzugsweise ein Klassifikator. Gemäß obigen Ausführungen kann der Klassifikator einerseits bezüglich einer Zielausgabe „Gefärbt-Signal“ oder „Ungefärbt-Signal“ oder andererseits bezüglich der Zielausgabe „Gefärbt-Signal“ oder „Ungefärbt-Signal“ oder ein nicht bestimmbares Signal trainiert sein. Im ersten Fall wird der Klassifikator unsicher, wenn eine Klassenwahrscheinlichkeit nahe an der Entscheidungsgrenze von 0,5 liegt. Man kann den Klassifikator jedoch auch gezielt dahingehend trainieren, dass eine dritte Klasse oder übergeordnete Klasse eingeführt wird, welche besagt, dass es nicht entscheidbar ist.
Der annotierte Datensatz kann auch mit einem Verfahren erstellt werden, bei dem die Farbwerte der mehreren Färberunden nicht binarisiert ausgewertet werden, ob sie ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellen. Hierbei werden beim Training für eine jede Färberunde als Eingabe die Farbwerte, die ein Gefärbt-Signal oder Ungefärbt-Signal darstellen, in das Scoring-Modell eingegeben und eine Zielfunktion berechnet. Die Zielfunktion erfasst einen Unterschied zwischen den vom Scoring-Modell ausgegebenen Bewertungen, dass die Farbwerte ein Gefärbt-Signal oder Ungefärbt-Signal darstellen, und den Annotationen der Farbwerte des annotierten Datensatzes, die angeben ob die Farbwerte gerade ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellen. Abschließend wird die Zielfunktion durch Anpassen der Modellparameter optimiert.
Bei einem Training für eine jede Färberunde können als Eingabe die Farbwerte, die ein Gefärbt-Signal oder Ungefärbt-Signal darstellen, in das Scoring-Modell zum Teil als gemessene Farbwerte und zum Teil als Binärwerte eingegeben werden. Hierdurch wird das Modell sowohl mit den ursprünglich gemessenen Werten als auch mit komprimierten Binärwerten trainiert, hierdurch lernt das Modell mit einer Mischung aus tatsächlichen Messwerten und Binärwerten als Eingangswerten umzugehen.
Der annotierte Datensatz kann mittels einem oder mehreren der folgende Schritte generiert worden sein:

- Simulieren von Signalen der verschiedenen Marker unter Verwendung eines repräsentativen Hintergrundbildes und einer bekannten Punktspreizfunktion eines Mikroskops,
- Generieren des annotierten Datensatzes mittels eines generativen Modells, dass auf vergleichbaren Daten trainiert wurde,
- Aufnehmen von Referenzbildern, umfassend mindestens ein Hintergrundbild sowie zu jedem der Hintergrundbilder für jede Analyt-Art mindestens ein Bild, in dem Analyte der jeweiligen Analyt-Art markiert sind,
- Durchführen eines herkömmlichen Verfahrens zur räumlichen Identifizierung von Analyten,
- Aufnehmen eines repräsentativen Hintergrundbildes und pixelweises Abziehen der Bildsignale des repräsentativen Hintergrundbildes von den Bildsignalen der Bildfolge, auf denen der annotierte Datensatz basiert, vor dem Bereitstellen des annotierten Datensatzes, sodass der annotierte Datensatz nur Hintergrund-korrigierte Farbwerte umfasst, und/oder
- Gewinnen des annotierten Datensatzes anhand eines Teils eines Experiments, sodass das trainierte Verarbeitungsmodell auf den übrigen Teil des Experiments angewendet werden kann. Der annotierte Datensatz kann somit durch unterschiedliche Verfahren hergestellt werden.

Neben dem jeweiligen Farbwert können weitere Kontextinformationen dem Scoring-Modell für die Bewertung der Farbwerte eingegeben werden, welche vorzugsweise folgende Daten umfassen:

- Farbwert des jeweiligen Bildpunktes der vorhergehenden Färberunde,
- statistische Werte der bisher durchgeführten Färberunden,
- ein oder mehrere Farbwerte von Hintergrundbildern und/oder
- statistische Werte zum Hintergrund und/oder
- Anzahl der zu erwartenden Analyte pro Experiment bzw. pro Farbkanal,
- verwendetes Code-Buch und/oder
- Nutzer-ID.

Weitere geeignete Kontextinformationen, die in dem Scoring-Modell für die Bewertung der Farbwerte eingegeben werden können, sind statistische Informationen zu allen Farbwerten eines jeweiligen Datenpunktes und/oder zu den nicht-ausgewählten Farbwerten eines der Datenpunkte und/oder zu den ausgewählten Farbwerten eines der Datenpunkte, wie z.B. eine Information zur Färberunde (Nummer; Zeitpunkt; etc.) und/oder ein gleitender Mittelwert, eine Standardabweichung, eine Varianz und/oder ein Median einer Eigenschaft der Farbinformationen des jeweiligen Datenpunktes oder der Farbinformationen mehrerer Datenpunkte. Bei den Eigenschaften der Farbinformationen sind insbesondere die Helligkeit, Farbe und/oder Ausdehnung relevant.
Die Kontextinformationen können durch eine Segmentierung gewonnen werden und insbesondere Zellbereiche und Bereiche, die keiner Zelle zugeordnet sind, unterscheiden.
Das Bild kann ein zweidimensionales Bild mit mehreren Pixeln als Bildpunkten oder ein dreidimensionales Bild mit mehreren Voxeln als Bildpunkten umfassen, wobei die Bilder als zusätzliche Dimension eine Zeitinformation aufweisen können.
Das Identifizieren der Analyte kann anhand der gespeicherten und zum Teil der binarisierten Farbwerte erfolgen. Beim Identifizieren der Analyte können gemessene und binarisierte Werte nebeneinander verwendet werden.
Das Scoring-Modell kann ein CNN (Convolutional Neural Network), ein MLP (Multi-Layer-Perzeptron), ein Transformer-Netzwerk oder ein sequenzielles Modell, beispielsweise ein RNN (engl.: recurrent neural network), sein.
Die Analyte können anhand der gespeicherten Farbinformationen identifiziert werden und nach dem Identifizieren der Analyte und gegebenenfalls manuellem Korrigieren kann ein entsprechend erweiterter annotierter Datensatz erzeugt werden und das Verarbeitungsmodell mit dem erweiterten annotierten Datensatz trainiert werden. Hierdurch ist ein kontinuierliches und überwachtes Lernen möglich.
Das Verfahren kann vor dem Aufbereiten von Daten zum Identifizieren von Analyten noch einen Schritt zum Korrigieren der Bildsignale der Bildfolge anhand eines Hintergrund-Signals umfassen, wobei das Hintergrund-Bildsignal beispielsweise mittels eines Rolling-Ball-Verfahrens, eines Top-Hat-Verfahrens und/oder mittels Anregung der Auto-Fluoreszenz mittels eines unspezifischen Lasers für alle Bildpunkte ermittelt werden.
Wenn eine Mindestanzahl der Farbwerte eines Datenpunkts binarisiert wurde, kann anhand der binarisierten Farbwerte und der nicht-binarisierten Farbwerte der Datenpunkte ein Abgleich mit einem Codebuch erfolgen, um die Bewertung bisher nicht-binarisierter Farbwerte zu verbessern.
Der Abgleich kann mittels einer Matrixmultiplikation eines Farbwertvektors mit einer Codebuchmatrix erfolgen, wobei die Codebuchmatrix für jedes zu identifizierende Analyt eine Ziel-Bitfolge umfasst und der Farbwertvektor für die binarisierten Farbwerte und für die nicht-binarisierten Farbwerte einen zu der Bewertung korrespondierenden Wahrscheinlichkeitswert zwischen 0 und 1 umfasst und anhand eines Ergebnisvektors der Matrixmultiplikation die Ziel-Bitfolgen bestimmt werden, die am besten zu dem Farbvektor passen, und die nicht-binarisierten Farbwerte basierend auf den bestimmten Ziel-Bitfolgen binarisiert werden.
Es kann auch ein Verfahren zum Trainieren eines Maschinenlernsystems mit Scoring-Modell vorgesehen sein, bei dem das Scoring-Modell insbesondere zum Durchführen des Verfahrens gemäß einer der oben erläuterten Ausführungen trainiert wurde.
Die Analyte können Nukleinsäure-Sequenzen sein und die Marker jeweils eine Oligonukleotid-Sequenz und ein daran gekoppeltes Farbstoffmolekül aufweisen.
Die oben erläuterten unterschiedlichen Aspekte der Erfindung (Aspekte A-G) können einzeln oder in beliebigen Kombinationen miteinander verwendet werden. Nachfolgend werden beispielhaft einige bevorzugte Kombinationen erläutert:

Bei einer Kombination der Aspekte A und B werden die Datenpunkte der Bilder eliminiert, die anhand der Bewertung sicher keine Kandidaten-Datenpunkte sind, und gleichzeitig werden für einen jeden Kandidaten-Datenpunkt lediglich n Farbwerte der unterschiedlichen Färberunden ausgewählt, die am wahrscheinlichsten ein Gefärbt-Signal darstellen. Hierzu wird beispielsweise ein Scoring-Modell angelernt, das anhand der nach dem Aspekt B ausgewählten Farbwerte entscheidet, ob der Datenpunkt kein Kandidaten-Datenpunkt ist und deshalb eliminiert werden kann.

Bei der Kombination der Aspekte A und D kann für ein jedes Cluster durch ein Scoring-Modell entschieden werden, ob ein Cluster zum Hintergrund gehört und alle Datenpunkte in den jeweiligen Clustern verworfen werden können. Dies gilt sowohl für lokale als auch für globale Cluster.
Bei der Kombination der Aspekte B und D wird ein Clustern durchgeführt, bei welchem nur die nach dem Aspekt B ausgewählten Farbwerte für die jeweiligen Cluster behalten werden.
Bei einer Kombination der Aspekte A, B und D wird ein Clustern durchgeführt, wobei für die einzelnen Cluster nur die nach dem Aspekt B ausgewählten Farbwerte beibehalten werden und mittels eines Scoring-Modells entschieden wird, ob ein Cluster zum Hintergrund gehört und alle Datenpunkte dieses Clusters verworfen werden können. Dies gilt wiederum sowohl für lokale als auch globale Cluster.
Es ist auch eine Kombination der Aspekte A, B, C, D, E und F zweckmäßig. Hierbei wird ein Clustering gemäß dem Aspekt D (lokales oder globales Clustering) durchgeführt. Für die einzelnen Cluster werden lediglich die nach dem Aspekt B ausgewählten Farbwerte den einzelnen Clustern zugeordnet, wobei diese gemäß dem Aspekt C auf einen Projektionsvektor mit einer reduzierten Dimension projiziert werden. Zusätzlich kann nach dem Scoring-Modell des Aspektes A entschieden werden, ob Cluster zum Hintergrund gehören und alle Datenpunkte dieses Clusters verworfen werden können. In Abhängigkeit von vorbestimmten Quantisierungsbereichen bzw. in Abhängigkeit vom Ort der Datenpunkte kann für diese jeweils eine spezielle bzw. individuelle Quantisierung nach dem Aspekt E angewendet werden. Der Speicherbedarf kann dann mittels rundenweiser Kompression gemäß dem Aspekt F weiter reduziert werden.
Bildpunkte des Hintergrunds, also Hintergrund-Bildpunkte, können gemäß der vorliegenden Erfindung in verschiedene Arten von Hintergrund-Bildpunkten eingeteilt werden. Zum einen gibt es Hintergrund-Bildpunkte, sog. analytfreie Hintergrund-Bildpunkte, in denen von vornherein keine Analyten lokalisiert sein können, weil sich beispielsweise keine Zellen mit Analyten an den Stellen in der Probe befinden. Darüber hinaus gibt es noch Hintergrund-Bildpunkte, an denen sich zwar potentiell Analyten befinden könnten, aber in der aktuellen Probe keine zu finden sind bzw. detektiert wurden. Diese Bildpunkte können auch Analyt-Hintergrund-Bildpunkte genannt werden. Die Farbinformationen von Hintergrund-Bildpunkte, egal ob sie Analyt-Hintergrund-Bildpunkte sind oder analyfreie Hintergrund-Bildpunkte, werden auch als Hintergrundsignale bezeichnet. Datenpunkte mit Hintergrundsignalen von Hintergrund-Bildpunkten können für das Training auch mit in den annotierten Datensatz aufgenommen werden.
Gemäß einer Alternative können die analytfreien Hintergrund-Bildpunkte aufgrund der Semantik, beispielsweise durch semantische Segmentierung der Bilder, von vornherein von der Analyse ausgenommen werden. Entsprechend kann ein annotierter Datensatz auch so ausgebildet sein, dass Trainings-Datenpunkte von Hintergrund-Bildpunkten gerade Datenpunkte von den Analyt-Hintergrund-Bildpunkten sind.
Kurze Zusammenfassung der Figuren
Die Erfindung wird nachfolgend anhand der in den Zeichnungen dargestellten Beispiele näher erläutert. Die Zeichnungen zeigen schematisch in

1 ein System zum Identifizieren von Analyten in Proben gemäß einer Ausführungsform,
2 eine Auswerteeinrichtung des Systems aus 1 in einem Blockschaltbild, und
3a, 3b, 3c Ausschnitte von Mikroskopbildern und eine korrespondierende Ergebnisausgabe, einen Analyt und daran gekoppelte Marker sowie die Codeworte dreier relevanter Datenpunkte.
4 eine Auswerteeinrichtung des Systems aus 1 in einem Blockschaltbild gemäß einer weiteren Ausführungsform.
5 ein Steuerungsmodul der Auswerteeinrichtung aus 4.
6 schematisch ein Verfahren zur Aufbereitung von Daten gemäß einer Ausführungsform,
7 schematisch ein Verfahren zur Aufbereitung von Daten gemäß einer Ausführungsform,
8 schematisch eine Auswerteeinrichtung gemäß einer weiteren Ausführungsform.
9 schematisch ein Verfahren zur Aufbereitung von Daten gemäß einer Ausführungsform,
10 schematisch ein Verfahren zur Aufbereitung von Daten gemäß einer Ausführungsform,
11 schematisch ein Verfahren zur Aufbereitung von Daten gemäß einer Ausführungsform,

Detaillierte Beschreibung der Ausführungsformen
Ein Ausführungsbeispiel (Aspekt A) eines Maschinenlernsystems 1 umfasst ein Mikroskop 2, eine Steuervorrichtung 3 und eine Auswerteeinrichtung 4 (1). Das Mikroskop 2 ist kommunikativ, d.h. mit einer kabelgebundenen oder Funk-Datenleitung mit der Auswerteeinrichtung 4 gekoppelt. Die Auswerteeinrichtung 4 umfasst ein Verarbeitungsmodell 5 zum Komprimieren der Bilddaten (2). Das Verarbeitungsmodell kann auch als Kompressionsverarbeitungsmodell 5 bezeichnet werden.
Das Mikroskop 2 ist ein Lichtmikroskop. Das Mikroskop 2 umfasst ein Stativ 6, das weitere Mikroskopkomponenten hält. Die weiteren Mikroskopkomponenten sind insbesondere ein Objektivwechsler oder -revolver 7 mit einem montierten Objektiv 8, ein Probentisch 9 mit einem Halterahmen 10 zum Halten eines Probenträgers 11 und einer Mikroskopkamera 12. Ist eine Probe in den Probenträger 11 eingespannt und das Objektiv 8 in den Mikroskopstrahlengang eingeschwenkt und beleuchtet eine Beleuchtungseinrichtung 13a die Probe im Durchlicht oder eine Anregungsbeleuchtung 13b im Auflicht, so empfängt die Mikroskopkamera 12 Detektionslicht von der eingespannten Probe und kann ein Mikroskopbild 24 aufnehmen. Proben können beliebige Objekte, Fluide oder Strukturen sein. Die Anregungsbeleuchtung 13b ist vorzugsweise zum Anregen bestimmter Fluoreszenzfarbstoffe ausgebildet.
Das aufgenommene Mikroskopbild 24 ist ein zweidimensionales Bild mit in Reihen und Spalten angeordneten Bildpunkten bzw. Pixeln. Das Mikroskopbild 24 ist eine optische Abbildung der Probe in einer Fokusebene des Mikroskops 2. Mehrere Mikroskopbilder 24, welche sich in der Anordnung der Fokusebene bzgl. der Probe jeweils etwas unterscheiden, können zu einem dreidimensionalen Bild zusammengesetzt werden, wobei die Bildpunkte des dreidimensionalen Bildes Voxel bilden. Im Folgenden wird unter dem Ausdruck „Mikroskopbild“ 24 sowohl ein zweidimensionales als auch ein dreidimensionales Bild, auch Z-Bild oder Bildstapel genannt, verstanden. Dementsprechend bedeutet das Erfassen eines Mikroskopbildes 24 sowohl das Erfassen eines zweidimensionalen als auch das Erfassen eines dreidimensionalen Mikroskopbildes 24.
Optional umfasst das Mikroskop 2 eine Übersichtskamera 14, mit der Übersichtsbilder einer Probenumgebung aufgenommen werden können. Die Übersichtsbilder zeigen beispielsweise den Probenträger 11. Ein Sichtfeld 15 der Übersichtskamera 14 ist größer als ein Sichtfeld 15 bei einer Aufnahme eines Mikroskopbildes 24. Die Übersichtskamera 14 blickt mittels eines Spiegels 16 auf den Probenträger 11. Der Spiegel 16 ist am Objektivrevolver 7 angeordnet und kann anstelle des Objektivs 8 ausgewählt werden.
Gemäß dieser Ausführungsform umfasst die Steuervorrichtung 3, wie in der 1 schematisch dargestellt, einen Bildschirm 17 sowie die Auswerteeinrichtung 4. Die Steuervorrichtung 3 ist dazu eingerichtet, das Mikroskop 2 zum Aufnehmen von Mikroskopbildern 24 zu steuern und von der Mikroskopkamera 12 aufgenommene Mikroskopbilder 24 auf einem Speichermodul 18 (2) der Auswerteeinrichtung 4 zu speichern und diese auf dem Bildschirm 17 darzustellen. Die aufgenommenen Mikroskopbilder 24 werden dann von der Auswerteeinrichtung 4 weiterverarbeitet.
Die Auswerteeinrichtung 4 speichert außerdem Trainingsdaten zum Trainieren der Verarbeitungsmodelle 5 im Speichermodul 18. Die Trainingsdaten umfassen einen annotierten Datensatz.
Der annotierte Datensatz für das Verarbeitungsmodell 5 umfasst als Eingangsdaten Mikroskopbilder 24 oder deren Bildpunkte und eine Zielausgabe, die einen Vordergrund und/oder Hintergrund des jeweiligen Bildpunktes oder Bildes definiert. Zum Vordergrund gehören die Datenpunkte, die Kandidaten-Datenpunkte sind.
Die Eingangsdaten bzw. Eingangstensoren sind im vorliegenden Ausführungsbeispiel Mikroskopbilder 24 oder deren Bildpunkte einer vorbestimmten Probe und die Zielausgaben sind die jeweiligen Beschreibungen des entsprechenden Vordergrundes und/oder Hintergrundes. Die Zielausgaben können Mikroskopbilder 24 sein, wobei die Orte der Marker in den Bildern markiert sind. Hierbei können in allen Mikroskopbildern 24 alle potentiellen Orte von Markern (= alle Kandidaten-Datenpunkte) markiert sein oder lediglich nur die in den jeweiligen Mikroskopbildern 24 vorhandenen Marker markiert sein. Wenn alle potentiellen Orte von Markern markiert sind, dann enthält jedes annotierte Mikroskopbild 24 das gleiche Muster von Orten für Markern. Sind hingegen die tatsächlich vorhandenen Marker markiert, dann weisen die einzelnen annotierten Mikroskopbilder 24 üblicherweise unterschiedliche Muster von Orten für Marker auf. Als annotierte Daten genügen an sich die Muster der Orte der Marker alleine, so dass auch die entsprechenden Mikroskopbilder 24 weggelassen werden können, aber in der Praxis ist es einfacher, bestehende Mikroskopbilder 24 mit Markierungen für die Orte der Marker zu versehen, um so die annotierten Daten zu erzeugen.
Das vorliegende Ausführungsbeispiel ist ein Maschinenlernsystem 1, das beim Identifizieren von in einer Probe eines Experiments enthaltenen Analyten die Datenmenge an Farbinformationen der Bilder 24 von mehreren Färberunden während des Auswertevorganges mittels des Verarbeitungsmodells 5 reduziert.
Bei einem Experiment wird versucht, unterschiedliche Analyte in einer Probe in einem Verfahren gleichzeitig zu identifizieren. Hierzu werden die Analyte in mehreren Färberunden aufeinanderfolgend mit Markern markiert. Nach den jeweiligen Färberunden werden die Marker wieder entfernt, so dass in darauf folgenden Färberunden Analyte wieder mit einem weiteren Marker mit gleichem oder ähnlichem Farbstoff markiert werden können. Die Marker müssen somit nicht unmittelbar nach jeder Färberunde entfernt werden, sondern erst, wenn weitere Marker mit dem gleichen Farbstoff eingesetzt werden sollen.
Ein jeder Marker ist spezifisch für eine bestimmte Menge bzw. echte Teilmenge aller möglichen detektierbaren Analyte. In der Regel ist ein Marker für mehrere Analyte spezifisch. In jeder Färberunde wird ein anderer Marker verwendet, so dass jeweils unterschiedliche Analyte markiert werden. Da ein Marker in der Regel an mehrere unterschiedliche Analyte koppeln kann, ist er nicht für einen bestimmten Analyten spezifisch. Jedoch kann bei mehreren Färberunden aus der Folge von Markern, welche an einen Analyten gekoppelt wurden, geschlossen werden, um welchen Analyten es sich handelt, womit dieses eindeutig identifiziert werden kann.
Alle Folgen von Markern, welche für einen Analyten spezifisch sind, bilden ein Codebuch. D.h. ein Codebuch umfasst für jede Analyt-Art eine Folge von Markern, welche in den jeweiligen Färberunden an die jeweilige Analyt-Art koppeln.
Da nicht immer jeder Analyt bei einer Färberunde mit einem Marker markiert werden muss, kann sich bei mehreren Färberunden für einen jeden Analyten eine Folge von markierten und nicht-markierten Zuständen ergeben, welche auch als Gefärbt-Signal und Ungefärbt-Signal, als wahr und falsch oder jeweils mit „0“ und „1“ dargestellt werden können.
Die Marker enthalten in der Regel einen Farbstoff, insbesondere einen Fluoreszenzfarbstoff, welcher in der Probe mit dem Mikroskop 2 erfasst werden kann. Die Marker können aus einem einzelnen Molekül bestehen. Die Marker können jedoch auch aus mehreren Molekülen gebildet sein, wie es beispielsweise in der WO 2020/254519 A1 und der WO 2021/255244 A1 offenbart ist.
Es ist auch möglich, dass Marker mit unterschiedlichen Farbstoffen verwendet werden. Marker mit unterschiedlichen Farbstoffen können gleichzeitig mit der Probe in Kontakt gebracht und auch gleichzeitig oder sequentiell mit dem Mikroskop 2 aufgenommen werden. Werden gleichzeitig Marker mit unterschiedlichen Farbstoffen verwendet, so können gleichzeitig mehrere Färberunden im Sinne der vorliegenden Erfindung ausgeführt werden, da die Markierung von Analyten mit unterschiedlichen Markern jeweils eine Färberunde darstellt.
Beim gleichzeitigen Ausführen mehrerer Färberunden können die Marker mit unterschiedlichen Farbstoffen separat angeregt werden, wobei dann für jeden Typ von Marker ein separates Mikroskopbild 24 aufgenommen wird. Jedes dieser Mikroskopbilder 24 enthält die Farbinformationen einer Färberunde. Es ist auch möglich, die Farbstoffe breitbandig anzuregen, wenn die Probe gleichzeitig Marker mit unterschiedlichen Farbstoffen enthält, sodass mehrere Marker mit unterschiedlichen Farbstoffen gleichzeitig leuchten. Die gleichzeitig angeregten Marker werden mit einem Mikroskopbild 24 erfasst, das somit Farbinformationen mehrerer Färberunden enthält, welche bei der späteren Analyse durch Filtern der unterschiedlichen Farben separiert werden können. Die Spektralbereiche, die jeweils eine Farbe eines Markers umfassen, werden auch als Farbkanäle bezeichnet. Die in die Farbkanäle separierten Bilder sind monochromatische Bilder und enthalten für einen jeden Bildpunkt als Farbwert einen Intensitätswert bzw. eine Intensität des Bildpunktes in der Farbe des Farbkanals.
Die Analyte können Nukleinsäure-Sequenzen sein. Derartige Experimente mit Nukleinsäure-Sequenzen gehen beispielsweise aus der EP 2 992 115 B1 hervor. Die Erfindung ist jedoch nicht auf Nukleinsäure-Sequenzen beschränkt, sondern für alle Experimente geeignet, bei welchen Analyte aufeinanderfolgend mit unterschiedlichen Markern markiert werden, die jeweils für eine Teilmenge der potentiell detektierbaren Analyte spezifisch sind. So können beispielsweise auch Proteine Analyte darstellen, wie es aus der WO 2020/254519 A1 und der WO 2021/255244 A1 bekannt ist.
Gemäß der vorliegenden Erfindung ist ein Analyt eine Sache, deren Vorhandensein oder Fehlen in einer Probe spezifisch nachgewiesen werden soll und deren das Vorhandensein im Falle ihres Vorhandenseins kodiert werden soll. Dabei kann es sich um jede Art von Entität handeln, einschließlich eines Proteins, Polypeptids, Proteins oder eines Nukleinsäuremoleküls (z. B. RNA, PNA oder DNA), auch Transkript genannt. Der Analyt bietet mindestens eine Stelle für eine spezifische Bindung mit analytspezifischen Sonden. Ein Analyt im Sinne der Erfindung kann auch einen Komplex von Gegenständen umfassen, z. B. mindestens zwei einzelne Nukleinsäure-, Protein- oder Peptidmoleküle. In einer Ausführungsform der Offenbarung schließt ein Analyt ein Chromosom aus. In einer anderen Ausführungsform der Offenbarung schließt ein Analyt DNA aus. In einigen Ausführungsformen kann ein Analyt eine kodierende Sequenz, eine strukturelle Nukleotidsequenz oder ein strukturelles Nukleinsäuremolekül sein, das sich auf eine Nukleotidsequenz bezieht, die in ein Polypeptid übersetzt wird, in der Regel über mRNA, wenn sie unter der Kontrolle geeigneter regulatorischer Sequenzen steht. Die Grenzen der kodierenden Sequenz werden durch ein Translationsstartcodon am 5'-Terminus und ein Translationsstoppcodon am 3'-Terminus bestimmt. Eine kodierende Sequenz kann genomische DNA, cDNA, EST und rekombinante Nukleotidsequenzen umfassen, ist aber nicht darauf beschränkt. Abhängig davon, welche Art von Analyt identifiziert werden soll, werden solche Verfahren beispielsweise räumliche Transkriptomie oder auch Multiomie genannt.
Die generierten Mikroskopbilder 24 enthalten Farbinformationen, welche zum Teil von Markern stammen, die an Analyte gekoppelt sind. Diese von den an die Analyte gekoppelten Markern erzeugte Farbinformation ist diejenige, welche auszuwerten ist, um die einzelnen Analyte zu identifizieren. Damit diese von den Markern beeinflussten Farbinformationen der unterschiedlichen generierten Mikroskopbilder 24 jeweils den entsprechenden Analyten zugeordnet werden können, müssen die Mikroskopbilder 24 der unterschiedlichen Färberunden zueinander exakt registriert werden. Dies kann beispielsweise derart ausgeführt werden, dass in den einzelnen Mikroskopbildern 24 Landmarken bzw. markante Punkte identifiziert werden, welche sich in den aufeinanderfolgenden erzeugten Mikroskopbildern 24 wiederholen. Dies können beispielsweise helle Punkte sein, welche möglichst über die gesamte Probe verteilt sind. Diese Punkte bilden ein Registriermuster. Ein solches Registriermuster ist bei einem zweidimensionalen Bild ein zweidimensionales Muster und bei einem dreidimensionalen Bild eine 3D-Punktewolke.
Beim Registrieren wird das nach jeder Färberunde erzeugte Mikroskopbild 24 anhand seines Registriermusters mit dem Mikroskopbild 24 der ersten oder einer der vorhergehenden Färberunden registriert, d.h. in Übereinstimmung gebracht, indem die Registriermuster der beiden Bilder zur Deckung gebracht werden. Dies kann beispielsweise mit dem Iterative-Closest-Point-Algorithmus ausgeführt werden.
Nach der Registrierung der Ergebnis-Mikroskopbilder zueinander wird jedem Ergebnis-Mikroskopbild ein Koordinatensystem zugeordnet, wobei die Koordinatensysteme der unterschiedlichen Ergebnis-Mikroskopbilder zueinander in Deckung sind. Dies bedeutet, dass bei einer korrekten Registrierung sich die jeweiligen Analyte an Positionen befinden, die mit den gleichen oder im Wesentlichen gleichen Koordinaten in den unterschiedlichen Bildern beschrieben werden. Hierdurch ist es möglich, Farbwerte der unterschiedlichen Ergebnis-Mikroskopbilder jeweils denselben Analyten zuzuordnen.
Neben dem Verarbeitungsmodell 5 sowie dem Speichermodul 18 umfasst die Auswerteeinrichtung 4 weitere Module, die über Kanäle 20 Daten austauschen. Die Kanäle 20 sind logische Datenverbindungen zwischen den einzelnen Modulen. Die Module können sowohl als Software- als auch als Hardware-Module ausgebildet sein.
Ein Mikroskopbildregistrierungsmodul 19 ist direkt mit dem Speichermodul 18 verbunden und registriert die mit dem Mikroskop 2 erfassten Mikroskopbilder 24 (2).
Die Auswerteeinrichtung 4 umfasst ein Lern-Daten-Zuführungsmodul 26, das den annotierten Datensatz aus dem Speichermodul 18 ausliest und in das Verarbeitungsmodell 5 eingibt. Der annotierte Datensatz umfasst Mikroskopbilder 24 und jeweils eine korrespondierende Zielausgabe 21 (3), mit welcher der Vordergrund bzw. die Bildpunkte der Mikroskopbilder 24, die zu einem Kandidaten-Datenpunkt gehören, definiert ist bzw. sind. Das Lerndaten-Zuführungsmodul 26 dient zum Zuführen der Mikroskopbilder 24 des annotierten Datensatzes zu der Eingangsseite des Verarbeitungsmodells 5 und zum Zuführen der Zielausgabe 21 über ein Zielfunktionsmodul 31 zu der Ausgangsseite des Verarbeitungsmodells 5.
Das Verarbeitungsmodell 5 ist im vorliegenden Ausführungsbeispiel ein CNN (Convolutional Neural Network) mit einer Eingabeschicht, mehreren Zwischenschichten sowie einer Ausgabeschicht. Das Verarbeitungsmodell 5 wird im Folgenden auch als Scoring-Modell 5 bezeichnet, da es die Bildpunkte der in den unterschiedlichen Färberunden erzeugten Mikroskopbilder 24 dahingehend bewertet, ob sie für die Auswertung relevante Farbinformationen (= Vordergrund) oder nicht relevante Farbinformationen (= Hintergrund) enthalten. Die Kandidaten-Datenpunkte weisen Farbinformationen von Markern bei einigen, aber nicht bei allen Färberunden auf und die Hintergrund-Datenpunkte sind Datenpunkte, welche normalerweise bei keiner einzigen Färberunde oder bei weniger Färberunden als durch einen vorbestimmten Schwellenwert definierte Farbinformationen von einem Marker aufweisen. Dieser vorbestimmte Schwellenwert ist kleiner als die Anzahl von unterschiedlichen Markern, die zum Identifizieren eines Analyts notwendig ist.
Mit dem Scoring-Modell soll nach möglichst wenigen Färberunden festgestellt werden, welche Datenpunkte relevant sind und ob deshalb deren Farbinformation zu speichern ist, und welche Datenpunkte nicht relevant sind, so dass deren Farbinformation ignoriert werden kann und dementsprechend nicht gespeichert werden muss.
Die Bewertung der Datenpunkte kann entweder für jeden Datenpunkt einzeln erfolgen, man spricht davon, dass das rezeptive Feld des Verarbeitungsmodells 5 dann nur einen einzigen Datenpunkt umfasst, alternativ kann das rezeptive Feld des Verarbeitungsmodells 5 aber auch benachbarte Datenpunkte des zu bewertenden Datenpunkts umfassen. Das Verarbeitungsmodell 5 bewertet dann den jeweiligen Datenpunkt unter anderem anhand der Farbinformation der weiteren Datenpunkte im rezeptiven Feld sowie der Farbinformationen des jeweiligen Datenpunktes. Man spricht auch davon, dass in die Bewertung der Farbinformationen des Datenpunkts der räumliche Kontext eingeht, hier gerade die Farbinformationen der benachbarten Datenpunkte, die zum rezeptiven Feld des Verarbeitungsmodell 5 gehören.
Eine Anzahl der Datenpunkte im rezeptiven Feld kann beispielsweise basierend auf der Punktspreizfunktion des Mikroskops 2 so gewählt werden, dass ein Durchmesser des rezeptiven Felds nicht größer als, nur unwesentlich größer als oder beispielsweise doppelt so groß wie ein Durchmesser eines Bereichs, auf den ein Punkt in einer Probe aufgrund der Punktspreizfunktion abgebildet wird ist. Beispielsweise ist das rezeptive Feld 3x3, 5x5, 7x7, 9x9, 13x13, 17x17 Datenpunkte groß, das rezeptive Feld kann aber auch 3x3x3, 5x5x5, 7x7x7, 9x9x9, 13x13x13 oder auch 17x17x17 Datenpunkte groß sein, wenn in den Färberunden Z-Bilder aufgenommen werden.
Geht der räumliche Kontext in die Bewertung eines Datenpunkts ein, so können Farbinformationen von Datenpunkten, die das Verarbeitungsmodell 5 als eliminierbar klassifiziert, erst dann eliminiert werden, wenn diese Datenpunkte nicht mehr als räumlicher Kontext für die Bewertung der benachbarten Datenpunkte benötigt werden. Dies ist beispielsweise der Fall, wenn alle Datenpunkte im räumlichen Kontext bereits als eliminierbar klassifiziert sind oder wenn alle Datenpunkte im räumlichen Kontext eindeutig als Kandidaten-Datenpunkte oder eliminierbar klassifiziert wurden. D.h. die Bewertung, dass ein Datenpunkt sicher kein Kandidaten-Datenpunkt ist, umfasst für Verarbeitungsmodelle 5, in die bei der Bewertung der Datenpunkte deren räumlicher Kontext mit eingeht, immer auch, dass die Farbinformationen der zu eliminierenden Datenpunkte nicht mehr relevant für die Bewertung der übrigen noch zu bewertenden Datenpunkte ist, zu deren räumlichem Kontext die Datenpunkte beitragen.
Das Scoring-Modell umfasst, sofern nachfolgend nichts anderes ausgeführt ist, mehrere Scoring-Teilmodelle, welche jeweils ein Verarbeitungsmodell 5 für eine einzelne Färberunde bilden. Sofern nichts anderes ausgeführt wird, sind die Scoring-Teilmodelle eines Scoring-Modells im Wesentlichen gleich oder ähnlich ausgebildet. In der Regel wird sowohl beim Training als auch bei der Inferenz jedem Teilmodell für eine n-te Färberunde alle oder zumindest einige der in der ersten bis zur n-ten Färberunde erzeugten Mikroskopbilder 24 dem Verarbeitungsmodell 5 als Eingangsdaten zugeführt. Die erzeugten Mikroskopbilder 24 können zum Zuführen eines Scoring-Teilmodells einer späteren Färberunde rekonstruiert werden oder auch in der abgespeicherten komprimierten Form dem Scoring-Teilmodell einer späteren Färberunde zugeführt werden. Die Scoring-Teilmodelle sind dementsprechend zu trainieren.
Das Verarbeitungsmodell 5 kann alternativ auch aus einem Multi-Layer-Perzeptron (MLP) oder einem Diffusionsmodell oder einem Recurrent Neural Network (RNN)) ausgebildet sein.
Das Verarbeitungsmodell 5 kann jedoch auch ein Transformer-Netzwerk sein.
Alternativ kann das Verarbeitungsmodell 5 auch lediglich ein einziges Modell sein, wobei das Modell für jede Färberunde eigene Eingabekanäle umfasst und die Eingabekanäle von noch nicht aufgenommenen Färberunden mit Nullen aufgefüllt werden.
Das Zielfunktionsmodul 31 empfängt die Ergebnis-Ausgabe 30 vom Verarbeitungsmodell 5 und berechnet aus ihr und der Ziel-Ausgabe 21 eine Zielfunktion. Die Zielfunktion beschreibt den Abstand der Ergebnis-Ausgabe 30 von der Ziel-Ausgabe 21. Dieser Abstand soll minimiert werden. Das Zielfunktionsmodul 31 gibt die berechnete Zielfunktion an ein Modellparameter-Verarbeitungsmodul 32 weiter.
Das Modellparameter-Verarbeitungsmodul 32 empfängt die Zielfunktion vom Zielfunktionsmodul 31 und berechnet anhand der Zielfunktion neue Modellparameter für das Verarbeitungsmodell 5, beispielsweise mittels einem stochastischen Gradientenverfahren, um den Abstand zwischen der Ergebnis-Ausgabe 30 und der Ziel-Ausgabe 21 zu minimieren. Die neuen Modellparameter gibt das Modellparameter-Verarbeitungsmodul 32 an das Verarbeitungsmodell 5 weiter.
Das Verarbeitungsmodell 5 empfängt die neuen Modellparameter und passt die Modellparameter des Verarbeitungsmodells 5 anhand der neuen Modellparameter an.
Die Auswerteeinrichtung 4 umfasst ein Analyse-Daten-Zuführungsmodul 33, das für die Analyse Mikroskopbilder 24 aus dem Speichermodul 18 ausliest und an das fertig trainierte Verarbeitungsmodell 5 weitergibt. Das Verarbeitungsmodell 5 führt mit den empfangenen Mikroskopbildern 24 eine antrainierte Scoring-Abbildung aus, bei der Datenpunkte für die Analyt-Bestimmung als relevant bzw. nicht relevant beurteilt werden. Das fertig trainierte Verarbeitungsmodell 5 kann man deshalb auch als Scoring-Modell bezeichnen.
Ein Ergebnisausgabe-Auslesemodul 34 ist mit der Ausgangsseite des Verarbeitungsmodells 5 verbunden und über einen Kanal 20 mit einem Kompressionsmodul 35 gekoppelt. Das Ergebnisausgabe-Auslesemodul 34 liest die Ergebnisausgabe 30 am Verarbeitungsmodell 5 aus und übermittelt sie zum Kompressionsmodul 35. Das Kompressionsmodul 35 komprimiert das entsprechende Mikroskopbild anhand der Ergebnis-Ausgabe 30, mit welcher der Vordergrund der Mikroskopbilder 24 definiert ist. Hierdurch wird das Datenvolumen der Bilder reduziert und komprimierte Bilder erzeugt.
Die Auswerteeinrichtung 4 umfasst darüber hinaus ein Mikroskopbild-Auslesemodul 23. Das Mikroskopbild-Auslesemodul 23 liest Mikroskopbilder 24 (3) aus der Mikroskopkamera 12 aus und legt sie im Speichermodul 18 ab. Das Mikroskop-Auslesemodul 23 kann auch derart weitergebildet sein, dass es die Mikroskopbilder 24, ohne sie im Speichermodul 18 abzulegen, unmittelbar an das Analyse-Daten-Zuführungsmodul 33 weiterleitet.
Das Datenvolumen der komprimierten Bilder kann auf unterschiedliche Art und Weise reduziert werden. Hierbei werden Kandidaten-Datenpunkte und Hintergrund- Datenpunkte unterschieden. Kandidaten-Datenpunkte sind Datenpunkte, die zumindest in einer Färberunde und vorzugsweise in n Färberunden eine Farbinformation enthalten, welche vom Farbstoff eines Markers stammt. Die Kandidaten-Datenpunkte geben somit in einem Bild einen Marker wieder. Hintergrund-Datenpunkte sind hingegen Datenpunkte, deren Farbinformationen in alle Färberunden nicht von einem an einen Analyten gekoppelten Marker stammen.
Ein Datenpunkt kann ein einzelner Pixel oder Voxel oder eine Gruppe von zusammenhängenden Pixeln oder Voxeln sein. Pixel sind Bildpunkte eines zweidimensionalen Bildes und Voxel Bildpunkte einer dreidimensionalen Rastergrafik.
Nach einer ersten Ausführungsform werden in den komprimierten Bildern die Hintergrund-Datenpunkte auf einen bestimmten Farbwert gesetzt, der vorzugsweise „0“ ist. Hierdurch ergeben sich Bildbereiche, in denen die Bildpunkte bzw. Datenpunkte alle den gleichen Farbwert aufweisen. Bilder mit zusammenhängenden Bereichen mit dem gleichen Farbwert können sehr effizient komprimiert werden. Sie können beispielsweise im PNG-Format gespeichert werden, das derartige Farbbereiche zusammenfasst.
Alternativ sind auch andere Komprimierungsverfahren zum Komprimieren von Farbinformationen derartiger Bilder bzw. Bildformate, in denen die Farbinformationen komprimiert gespeichert werden, bekannt, wie beispielsweise:

- Asymmetric Numeral Systems Entropiekodierungs-Algorithmen,
- arithmetisches Kodieren,
- ein Algorithmus, basierend auf Burrows-Wheeler-Transformation,
- eine Huffman-Kodierung,
- eine Lempel-Ziv-Kodierung (beispielsweise LZ77 oder LZ78),
- ein Lempel-Ziv-Markov-Algorithmus,
- ein Lempel-Ziv-Storer-Szymanski-Algorithmus,
- ein Deflate-Algorithmus,
- ein Lempel-Ziv-Welch-Algorithmus,
- ein Prediction by Partial Matching - Algorithmus,
- eine Lauflängenkodierung,
- AV1 Image File Format (AVIF),
- Free Lossless Image Format (FLIF),
- High Efficiency Image File Format (HEIF),
- Interleaved Bitmap (ILBM),
- JBIG2,
- JPEG 2000,
- JPEG-LS,
- JPEG XL,
- JPEG XR,
- Diskrete Kosinustransformation, (englisch: discrete cosine transform, DCT),
- Verlustfreie diskrete Kosinustransformation (englisch lossless discrete cosine transform, LDCT),
- Picture exchange (PCX)
- Portable Document Format (PDF),
- Portable Network Graphics (PNG),
- Truevision TGA, oft auch nur TARGA genannt,
- Tagged Image File Format (TIFF),
- WebP,
- Block Truncation Coding (BTC),
- Wavelet Compression,
- DjVu,
- ICER,
- Portable Graphics Format (PGF),
- Cartesian Perceptual Compression (CPC),
- Fractal compression,
- JBIG2,
- S3TC texture compression,
- H.261,
- Motion JPEG,
- MPEG-1 Part 2,
- MPEG-2 Part 2 (H.262),
- MPEG-4 Part 2 (H.263),
- Advanced Video Coding (AVC / H.264 / MPEG-4 AVC),
- High Efficiency Video Coding (HEVC / H.265),
- Ogg Theora,
- VC-1
- Motion JPEG 2000
- Dirac
- Sorenson video codec.

Im Folgenden wird der Begriff PNG-Format stellvertretendend als Beispiel zum Speichern von Farbinformationen mit zusammenhängenden Bereichen verwendet, die Bildpunkte aufweisen, die auf den gleichen Farbwert gesetzt sind. Zum Komprimieren der Farbinformationen der Datenpunkte kann aber alternativ auch ein anderes der oben genannten Verfahren verwendet werden.
Bei einem alternativen Format wird in einem Array mittels nur eines Bits abgespeichert, ob es sich um einen Vordergrund- oder Hintergrund-Datenpunkt handelt. Es wird eine zusätzliche Liste gespeichert, in der fortlaufend alle Farbwerte der Kandidaten-Datenpunkte abgelegt werden, wobei mittels eines Index eine Zuordnung der Kandidaten-Datenpunkte des Arrays zu den Farbwerten der Liste hergestellt wird. Dieses Format führt bereits zu einer Datenreduzierung bei einer Besetzung von 94 %, d.h. dass 94 % der Farbwerte des nicht-komprimierten Mikroskopbildes 24 im komprimierten Bild übernommen werden. Dieses Format wird im Folgenden als Binär-Array bezeichnet.
Ein weiteres Format zum Abspeichern der komprimierten Bilder enthält eine Liste mit Koordinaten und Farbwerten aller Kandidaten-Datenpunkte. Dieses Format wird auch als schwach besetzte Matrix (englisch: sparse-matrix) bezeichnet. Eine solche schwach besetzte Matrix lohnt sich gegenüber einer Speicherung des entsprechenden nicht-komprimierten Mikroskopbildes 24 ab einer Besetzung von ca. 40 %.
Die komprimierten Bilder können sowohl zweidimensionale als auch dreidimensionale Bilder sein. So ist dementsprechend auch das Array des Binär-Arrays ein zweidimensionales oder dreidimensionales Array.
Es sind auch Mischformen der oben erläuterten Formate zum Speichern der komprimierten Bilder möglich. Beispielsweise können die Mikroskopbilder 24 nach den ersten Färberunden nicht komprimiert gespeichert werden, da hier die Besetzung in der Regel noch sehr dicht sein kann. Ab einer bestimmten Färberunde, wenn die Datendichte ausreichend dünn ist, kann das Mikroskopbild 24 in einem komprimierten Format abgespeichert werden. Ein solches Vorgehen ist vor allem dann zweckmäßig, wenn eine schwach besetzte Matrix oder ein Binär-Array verwendet wird. Die Mikroskopbilder 24 der ersten Färberunden können im PNG-Format gespeichert werden. Die mit einem Farbwert zusammengefassten Hintergrund-Datenpunkte können bei einem Wechsel auf eine schwach besetzte Matrix oder ein Binär-Array beibehalten werden oder alle Daten können in die entsprechende Liste überführt werden. Eine solche Überführung in eine vollständige Liste verursacht Rechenaufwand und erfordert weitere Schreibzyklen, reduziert jedoch die Datenmenge und führt somit zu einer weiteren Komprimierung.
Nach den einzelnen Färberunden werden somit die Mikroskopbilder 24 in komprimierte Bilder umgesetzt. Hierbei können die von den vorhergehenden Färberunden erzeugten komprimierten Bilder unverändert beibehalten oder erneut ausgelesen werden, um mit den in der nachfolgenden Färberunde gewonnen Informationen weiter komprimiert zu werden. Eine solche Re-Komprimierung kann nach dem Durchführen einer jeden weiteren Färberunde oder lediglich nach dem Durchführen bestimmter weiterer Färberunden ausgeführt werden. Insbesondere kann eine solche Re-Komprimierung nach dem Durchführen der letzten Färberunde zweckmäßig sein.
Das Durchführen der Re-Komprimierung führt zu einer erheblichen Reduktion der Datenmenge. Eine solche Re-Komprimierung erfordert jedoch ein mehrfaches Lesen und Schreiben, wodurch die Anzahl der Schreibzyklen erhöht wird. Je nachdem, ob vor allem eine Reduktion des Datenvolumens oder eine Reduktion der Schreibzyklen erzielt werden soll, kann die Anwendung der Re-Komprimierung spezifisch angepasst werden. Die Effizienz der Kompression hängt auch grundsätzlich von der Art des Experiments ab. Wenn die Farbwerte von Markern sich deutlich von den Farbwerten des Hintergrunds unterscheiden, dann ist die Kompression von Anfang an sehr effizient, so dass eine Re-Kompression weniger notwendig ist. Ist der Unterschied zwischen den Farbwerten der Marker und den Farbwerten des Hintergrundes nicht so ausgeprägt, dann ist eine Re-Kompression vorteilhaft.
Nachdem die komprimierten Mikroskopbilder im Speichermodul 19 gespeichert wurden, kann ein Identifikationsdaten-Zuführungsmodul 36 die komprimierten Mikroskopbilder auslesen und einem Identifikations-Modul 37 zuführen. Das Identifikations-Modul 37 ist so ausgebildet, dass es jedem Kandidaten-Datenpunkt eine Analyt-Art zuordnet. Das Identifikations-Modul 37 kann beispielsweise zunächst die Farbinformationen der Datenpunkte binarisieren. Dazu werden die Färberunden identifiziert, in denen der Datenpunkt ein Marker-Molekül detektiert hat, den entsprechenden Färberunden wird dann ein Gefärbt-Signal bzw. eine „1“ zugeordnet, den weiteren Färberunden wird ein Ungefärbt-Signal bzw. eine „0“ zugeordnet. Die sich daraus ergebenden Ergebnis-Bit-Folgen werden daraufhin mit Ziel-Bit-Folgen eines Codebuchs abgeglichen, wobei das Codebuch für alle zu identifizierenden Analyt-Arten eine Ziel-Bit-Folge umfasst.
Alternativ kann das Identifikations-Modul 37 auch mittels einem Clusteranalyse-Algorithmus die Datenpunkte im komprimierten Mikroskopbild clustern, daraufhin wird für jeden der gefundenen Cluster ein Clusterzentrum bestimmt, die Clusterzentren werden dann mit Ziel-Clusterzentren gematcht, wobei die Ziel-Clusterzentren aus Ziel-Bit-Folgen eines Codebuchs bestimmt werden, das Codebuch umfasst wiederum für jede zu identifizierende Analyt-Art eine Ziel-Bit-Folge. Alternativ kann das Codebuch auch Signalfolgen der jeweiligen Analyt-Arten aus einem vorherigen Experiment umfassen, dann erfolgt das Matching der bestimmten Clusterzentren zu den sich aus dem vorherigen Experiment bestimmten Referenzaufnahmen ergebenden Clusterzentren.
Vorzugsweise ist der verwendete Clusteranalyse-Algorithmus einer aus den folgenden: k-Means-Clustering, Gauß'sches-Mischmodell-Clustering, kernbasierte Hauptkomponentenanalyse, EM-Clustering, Leiden-Clustering, Louvain-Clustering, Divisive-Analysis-Clustering.
Es ist auch möglich, dass das Identifikations-Modul 37 ein Matching, wie es beispielsweise in der EP 2 992 115 B1 , der WO 2020/254519 A1 oder der WO 2021/255244 A1 beschrieben ist, ausführt.
Bei dem oben erläuterten Verfahren zum Identifizieren von Analyten werden die Mikroskopbilder 24 komprimiert im Speichermodul 18 gespeichert, wobei sichergestellt wird, dass alle Vordergrundinformation bzw. alle Kandidaten-Datenpunkte vollständig erhalten bleiben. Hierdurch wird einerseits der notwendige Speicherbedarf und die Anzahl der Schreibzyklen verringert und andererseits die Verarbeitung der Daten erheblich beschleunigt. Dies verlängert auch die Lebensdauer des Speichermediums des Speichermoduls 18, das in der Regel eine SSD-Festplatte ist.
Gemäß einer weiteren Alternative kann das Identifikation-Modul 37 auch ein Identifizierungsverarbeitungsmodell umfassen, das dazu ausgebildet und trainiert wurde, direkt eine Analyt-Art des eingegebenen Datenpunkts bzw. der eingegebenen Datenpunkte im komprimierten Mikroskopbild auszugeben.
Alternativ kann das Identifizierungsverarbeitungsmodell auch so ausgebildet sein, dass es eine Binarisierung der eingegebenen Datenpunkte bzw. der eingegebenen Farbinformationen ausgibt. Anhand der ausgegebenen Binärwerte bzw. Binärwertfolgen kann dann ein Abgleich mit dem Codebuch erfolgen.
Gemäß einer weiteren Alternative kann das Identifizierungsverarbeitungsmodell auch ein Einbettungsmodell sein. Das Einbettungsmodell wird so trainiert, dass es eingegebenen Datenpunkte in einen Einbettungsraum so einbettet, dass Datenpunkte und Ziel-Bit-Folgen, die zu derselben Analyt-Art gehören, so in den Einbettungsraum eingebettet werden, dass sie einen möglichst geringen Abstand voneinander haben, während Datenpunkte und Ziel-Bit-Folgen, die zu unterschiedlichen Analyt-Arten oder dem Hintergrund gehören, so in den Einbettungsraum eingebettet werden, dass sie einen möglichst großen Abstand haben. Während der Inferenz wird einem Datenpunkt dann gerade die Analyt-Art zugeordnet, zu deren korrespondierender Soll-Bit-Folge die Einbettung des Datenpunkts den geringsten Abstand hat.
Für das Training des Scoring-Modells verwendet man ein finales Ergebnis eines Experiments als Ground-Truth (positive Beispiele an Analyt-Positionen und negative Beispiele an Hintergrund-Positionen), welche in einem (Teil-)Experiment gewonnen werden, welches ohne Datenkompressionsverfahren beispielsweise mit dem Identifikations-Modul 37 berechnet wurde. Die positiven Beispiele sind somit Kandidaten-Datenpunkte, welche relevante Farbinformationen, d.h. Farbinformationen von Markern aufweisen, und die negativen Beispiele sind Hintergrund-Datenpunkte, die keine relevante Farbinformationen, also keine Farbinformationen von Markern enthalten.
Gemäß einer weiteren Alternative kann der annotierte Datensatz anstelle mithilfe des Identifikations-Moduls 37 auch mit anderen Mitteln generiert werden.
Beispielsweise können die Signale der verschiedenen Marker unter Verwendung eines repräsentativen Hintergrundbildes und einer bekannten Punktspreizfunktion des Mikroskops 2 simuliert werden. In eine solche Simulation geht dann auch das Codebuch ein.
Alternativ kann auch ein generatives Modell dazu trainiert werden, den annotierten Datensatz zu generieren. Da generative Modelle besonders gut dafür geeignet sind, Bilder zu generieren, kann mit einem generativen Modell ein besonders realistischer annotierter Datensatz erstellt werden. Zusätzlich können auch ein oder mehrere Referenzbilder aufgenommen werden, die mindestens ein Hintergrundbild umfassen, sowie zu jedem Hintergrundbild mindestens ein Bild, in dem zu identifizierende Analyte an einen Marker gekoppelt sind und Fluoreszenzsignale der Marker in den jeweiligen Bildbereichen erfasst werden. Werden verschiedene Fluoreszenzfarbstoffe in den verschiedenen Färberunden verwendet, so sollte außerdem jeder Analyt mit jedem der verschiedenen Fluoreszenzfarbstoffe markiert werden.
Es können darüber hinaus auch bekannte klassische Verfahren wie beispielsweise aus den oben genannten Patentanmeldungen EP 2 992 115 B1 , WO 2020/254519 A1 und der WO 2021/255244 A1 zum Generieren des annotierten Datensatzes verwendet werden.
Da die Farbstoffe der unterschiedlichen Marker unterschiedlich hell leuchten können und es im „Hintergrund“ oftmals Bildpunkte gibt, die leuchten, aber deren Leuchtwirkung nicht von einem Marker verursacht wird, ist es in einem einzelnen Bild schwierig zu unterscheiden, welche leuchtenden Bildpunkte von einem Marker stammen und damit eine relevante Information darstellen und welche leuchtenden Bildpunkte andere Ursachen haben.
Das Scoring-Modell kann als Klassifikator ausgebildet sein, der positive und negative Beispiele aus einem Experiment auswählt und der als binäres Klassifikationsproblem trainiert wird. Hierbei werden die einzelnen Datenpunkte als Kandidaten-Datenpunkte oder Hintergrund-Datenpunkte klassifiziert, wobei die endgültige Zuordnung mittels einer Aktivierungsfunktion (z.B. Softmax oder Sigmoid) ausgeführt werden kann. Bei diesem Scoring-Modell werden die Datenpunkte einzeln klassifiziert, so dass beim Training des Scoring-Modells die annotierten Trainingsdaten entsprechende Farbwerte als Eingabevektor bzw. Eingangstensor, die datenpunktweise eingegeben werden, und als Zielwert die Information umfassen, ob der jeweilige Datenpunkt ein Kandidaten-Datenpunkt oder Hintergrund-Datenpunkt ist.
Bei der Klassifikation können auch zusätzliche Kontextinformationen berücksichtigt werden, welche beispielsweise die Farbwerte in der Umgebung des jeweiligen Datenpunktes oder Kontextinformationen, die das jeweilige Experiment beschreiben, mit einschließen, welche dann Bestandteil des Eingabevektors bzw. Eingabetensors des Scoring-Modells sind und dementsprechend auch beim Training mitberücksichtigt werden müssen.
Der Klassifikator kann auch als lineares Modell ausgebildet sein, bei dem die Gewichte der Linearkombination den einzelnen Runden zugeordnet sind. Hierdurch kann stückchenweise immer besser entschieden werden, ob ein Datenpunkt zum Hintergrund gehört. Dies hängt maßgeblich von den Gewichten späterer Schichten ab. Eine Run-Reihenfolge könnte dementsprechend sortiert werden. Ein solches lineares Modell hat den Vorteil, dass man nur ein einziges Scoring-Modell im Gegensatz zu mehreren Teilmodellen benötigt.
Das Scoring-Modell kann auch alternativ zum Durchführen einer semantischen Segmentierung ausgebildet sein. Bei der semantischen Segmentierung werden alle Datenpunkte eines Bildes in zumindest zwei Klassen, nämlich in Kandidaten-Datenpunkte und in Hintergrund-Datenpunkte, unterteilt. Bei Berücksichtigung weiterer Kontextinformationen können die Hintergrund-Datenpunkte in weitere Klassen unterteilt werden, wie z.B. Hintergrund-Datenpunkte, welche außerhalb des Bereiches einer Zelle liegen, und Hintergrund-Datenpunkte, welche im Bereich einer Zelle angeordnet sind. Die annotierten Trainingsdaten eines solchen Scoring-Modells umfassen als Eingabevektoren bzw. Eingangstensoren jeweils vollständige Bilder und als Zielvektoren bzw. Zieltensoren vollständig segmentierte Bilder und insbesondere das nach Berücksichtigung einer letzten Färberunde vollständig segmentierte Bilder.
Das Scoring-Modell kann alternativ auch als Detektionsmodell ausgebildet sein. Hier werden ähnlich wie beim Klassifikator positive und negative Beispiele aus einem Experiment gesampelt, um die Kandidaten-Datenpunkte zu detektieren. Als Ergebnis wird eine Liste mit Koordinaten der Kandidaten-Datenpunkte ausgegeben. Zusätzlich kann zu der Liste mit den Koordinaten der Kandidaten-Datenpunkte auch deren Ausdehnung detektiert und ausgegeben werden. Die annotierten Trainingsdaten umfassen als Eingabevektor bzw. Eingangstensor die entsprechenden Farbwerte und als Ausgabevektor bzw. Ausgangstensor eine Liste mit Koordinaten der Kandidaten-Datenpunkte, welche zusätzlich auch mit der Ausdehnung der jeweiligen Datenpunkte versehen sein kann. Ein solches Detektionsmodell wird insbesondere in Kombination mit der Speicherung der Bilder im Format der schwach besetzten Matrix (englisch: sparse-matrix) verwendet.
In einer weiteren Alternative kann das Scoring-Modell als Bild-zu-Bild-Modell ausgebildet sein. Anstelle einer „harten“ Entscheidung zwischen Kandidaten-Datenpunkten und Hintergrund-Datenpunkten, wie es oben bei der Segmentierung bzw. Klassifikation erläutert ist, kann auch eine „weiche“ Entscheidung erfolgen, mit welcher die Wahrscheinlichkeit und/oder die Dichte von Vordergrund- und Hintergrund-Datenpunkten in den jeweiligen Bildbereichen angegeben ist. Dies kann beispielsweise in Form einer Heat-Map ausgegeben werden. Die annotierten Trainingsdaten umfassen dementsprechend die vollständigen Mikroskopbilder 24 als Eingabevektoren bzw. Eingangstensoren und das entsprechend umgesetzte Bild im Ausgabeformat, insbesondere in Form einer Heat-Map.
Für alle oben erläuterten unterschiedlichen Ausführungsformen des Scoring-Modells gelten folgende weitere Möglichkeiten der Ausgestaltung:

In einer bestimmten Färberunde können nur diejenigen Datenpunkte analysiert werden, die in früheren Färberunden noch nicht verworfen wurden. Eine derartige Ausgestaltung erhöht erheblich die Verarbeitungsgeschwindigkeit und verringert den Rechenaufwand und das Datenvolumen.

Die Analyse eines Datenpunktes nach einer bestimmten Färberunde kann anhand seines Farbwertes der aktuellen Färberunde, seiner Farbwerte aller bisherigen Färberunden oder auch anhand der Farbwerte einer Teilmenge der bisher durchgeführten Färberunden ausgeführt werden. Eine solche Teilmenge kann beispielsweise die hellsten Farbwerte für diesen Datenpunkt der bisherigen Färberunden umfassen. Zur Bestimmung der hellsten Farbwerte kann ein Intensitätsschwellenwert verwendet werden. Es ist jedoch auch möglich, anhand einer relativen Intensität die hellsten Farbwerte zu bestimmen, wobei beispielsweise eine vorbestimmte Anzahl n von hellen Farbwerten berücksichtigt wird, wobei n von der Anzahl der durchgeführten Färberunden abhängen kann oder die hellen und dunklen Punkte entsprechend ihrer Helligkeit gruppiert werden und die hellen Farbwerte mit ähnlicher Intensität bei der Analyse berücksichtigt werden. Die zu berücksichtigenden Farbwerte eines Datenpunktes können auch nach anderen Kriterien, wie z.B. ihrer charakteristischen Signatur und/oder ihrer Farbe (bei einem mehrfarbigen Bild) und/oder Ähnlichkeit zu typischen Farbwerten der Marker bestimmt werden.
Alternativ kann das Maschinenlernsystem 1 auch lediglich aus der Auswerteeinrichtung 4 bestehen. Der annotierte Datensatz kann über eine Kommunikationsverbindung oder von einem mobilen Datenträger auf das Speichermodul 18 der Auswerteeinrichtung 4 übertragen werden und die Auswerteeinrichtung 4 wird dann anhand der Trainingsdaten trainiert. Ist das Verarbeitungsmodell 5 der Auswerteeinrichtung 4 vollständig trainiert, so kann die Auswerteeinrichtung 4 auch unabhängig von einem Mikroskop 2 Mikroskopbilder 24 des Probentyps entsprechend der gelernten Verarbeitungsabbildung auswerten.
Gemäß der ersten Ausführungsform ist die Auswerteeinrichtung 4 ein separat vom Mikroskop 2 ausgebildeter Computer. Alternativ kann die Auswerteeinrichtung 4 aber auch in das Mikroskop 2 integriert sein oder durch beispielsweise einen Cloudserver realisiert sein, der die Auswertung einem Benutzer über eine Netzwerkverbindung zur Verfügung stellt.
Die Marker können jeweils ein Oligonukleotid und einen Farbstoff umfassen. Die Oligonukleotide umfassen in der Regel zumindest 10, vorzugsweise zumindest 15 Nukleotide. Je größer ein Oligonukleotid ist, desto spezifischer ist es. In besonderen Anwendungen kann ein Oligonukleotid auch weniger als 10 Nukleotide aufweisen, wie es unten näher erläutert wird.
Die Proben werden in Färberunden mit jeweils einem der Marker eingefärbt. Das Einfärben mit einem Marker erfolgt, indem mehrere Markermoleküle des gleichen Typs auf die Probe aufgebracht werden und an die in der Probe enthaltenen Analyte koppeln. Hierbei können sie unmittelbar am Analyt oder auch indirekt über an einen Analyt gekoppelte Sonden (siehe z.B.: WO 2020/254519 A1 und der WO 2021/255244 A1 ) ankoppeln. Nicht-gekoppelte Markermoleküle oder kurz „Marker“ werden abgewaschen und so von der Probe entfernt. Da nur die an den Analyten gekoppelten bzw. mit der Nukleotidsequenz hybridisierten Marker in der Probe verbleiben, sieht man unter dem Mikroskop 2 nur Marker, welche an einen Analyt gekoppelt sind. Die Detektion eines solchen Markers unter dem Mikroskop 2 bedeutet, dass sich an diesem Ort ein Analyt befindet, der einen Abschnitt aufweist, der komplementär zu einem Kopplungsabschnitt bzw. einem Kopplungsmittel (bei indirekter Kopplung), insbesondere zu einer Oligonukleotid-Sequenz des entsprechenden Markers ist. Nach der Detektion oder dem Abtasten der Marker werden die Marker beispielsweise durch Annealen von den Analyten getrennt und die Probe kann mit weiteren Markern markiert werden.
Marker von unterschiedlichem Typ, d.h. mit unterschiedlichen Typen von Kopplungsabschnitten, insbesondere unterschiedlichen Typen von Oligonukleotiden, können auch mit entsprechend unterschiedlichen Farbstoffen versehen sein, so dass diese unterschiedlichen Marker gleichzeitig angewendet werden und unter dem Mikroskop 2 beispielsweise durch unterschiedliche Wellenlängen auseinander gehalten werden können.
Das oben erläuterte Ausführungsbeispiel kann auf unterschiedliche Art und Weise abgewandelt werden.
Das oben erläuterte Scoring-Modell wird mit einem finalen Ergebnis eines Experiments und den korrespondierenden generierten Mikroskopbildern 24 der entsprechenden Färberunden trainiert. Zusätzlich zu dem finalen Ergebnis, das beispielsweise in Form eines Binärarrays oder in Form eines komprimierten Zielbildes im annotierten Datensatz vorliegt, können auch weitere Kontextinformationen dem Scoring-Modell zugeführt werden. Diese weiteren Kontextinformationen können beispielsweise eine Nutzeridentifikation und somit die für den Nutzer typischen Experimentinhalte oder zusätzliche Informationen zum Experiment selbst sein. Solche zusätzlichen Informationen zum Experiment sind beispielsweise Parameter, die das Verfahren des Einfärbens der Probe in den einzelnen Färberunden beschreiben. Diese Experiment-Informationen können auch die erwartete Anzahl an Analyten oder auch das erwartete Verhältnis der in der Probe enthaltenen Analyte sein, womit die Sensitivität der Filterung justiert werden kann. Hierdurch ist eine zu starke Filterung in den frühen Färberunden oder eine zu schwache Filterung in den späten Färberunden vermeidbar.
Im Rahmen der Erfindung können auch unterschiedliche Scoring-Modelle zur Filterung der Ergebnis-Mikroskopbilder verwendet werden, die für unterschiedliche Experimente bzw. unterschiedliche Probenarten oder unterschiedliche Arten von zu erwartenden Analyten spezifisch sind. Die Scoring-Modelle können beispielsweise für die unterschiedlichen Experimente, Probenarten oder die unterschiedlichen Arten von Analyten speziell trainiert sein.
Wenn als Kontextinformationen entsprechend das Experiment, die Probenart und/oder die zu erwartenden Analyten beschreibende Daten verwendet werden, so kann das entsprechende Scoring-Modell auch automatisch aus einem Satz von Scoring-Modellen ausgewählt werden.
Im Rahmen der Erfindung ist es auch möglich, bei einem neuen Experiment-Typ, einem neuen Probenort oder einer neuen Art der zu erwartenden Analyte zunächst die Identifizierung der Analyte ohne Komprimierung der Ergebnis-Mikroskopbilder durchzuführen und nach Abschluss der Identifizierung der Analyte in einem solchen Experiment anhand des finalen Resultats die Mikroskopbilder 24 zu komprimieren, d.h. in eines der oben erläuterten komprimierten Formate umzusetzen und dann das Scoring-Modell anhand der derart komprimierten Mikroskopbilder 24 anzulernen. Für alle folgenden Proben eines solchen Experiment-Typs, einer solchen Probenart und/oder einer solchen Art der zu erwartenden Analyte kann dann die Filterung wie oben beschrieben zur Kompression der Bilddaten verwendet werden.
Nach einer Weiterbildung des erfindungsgemäßen Verfahrens kann die Reihenfolge der Färberunden optimal festgelegt werden, um möglichst frühzeitig Kandidaten-Datenpunkte filtern zu können und Hintergrund-Datenpunkte ausschließen zu können. Durch eine geschickte Auswahl der Marker kann sichergestellt werden, dass alle oder zumindest fast alle Analyte in den ersten Färberunden markiert werden. Die Marker können jeweils so ausgewählt werden, dass sie für unterschiedliche Teilmengen der zu identifizierenden Analyte spezifisch sind, deren Schnittmenge möglichst gering ist.
Gemäß einer weiteren Weiterbildung des erfindungsgemäßen Verfahrens kann vor dem Aufbereiten der Daten noch ein Schritt Durchführen einer Hintergrundkorrektur der Farbwerte erfolgen. Die Hintergrundkorrektur wird gemäß dem Ausführungsbeispiel mittels eines Rolling-Ball-Verfahrens durchgeführt. Alternativ kann die Hintergrundkorrektur auch mittels eines Top-Hat-Verfahrens, einer homomorphen Filterung, einer Tiefpassfilterung oder einer zeitlichen Filterung erfolgen, außerdem ist es denkbar, dass zur Hintergrundkorrektur ein Bild-zu-Bild-Modell verwendet wird, oder ein Misch-Modell. Gemäß einer weiteren Alternative kann auch ein Mean-Shift Verfahren zur Hintergrundkorrektur verwendet werden. Als weitere Alternativen für die Hintergrundkorrektur kommt auch ein Verfahren mit einer Hauptkomponentenanalyse einer nicht-negativen-Matrixfaktorisierung infrage. Eine weitere Alternative ist die Korrektur durch eine Anregung der Auto-Fluoreszenz mittels eines unspezifischen Lasers für alle Datenpunkte der Bilder.
Das Verfahren kann auch dahingehend abgewandelt werden, dass in der ersten Färberunde oder in den ersten Färberunden alle vorkommenden Analyte mit einem oder mehreren unterschiedlichen Markern markiert werden. Hierzu können sehr unspezifische Marker verwendet werden. Sind die Analyte Nukleinsäure-Sequenzen, dann werden vorzugsweise Marker mit relativ kurzen Oligonukleotiden verwendet, welche beispielsweise weniger als zehn, insbesondere weniger als sieben und vorzugsweise weniger als fünf Nukleotide aufweisen. Dies ermöglicht die frühzeitige vollständige oder fast vollständige Detektion von Kandidaten-Datenpunkten.
Ein weiteres Ausführungsbeispiel (Aspekt B) des Maschinenlernsystems 1 umfasst ebenfalls das Mikroskop 2, die Steuervorrichtung 3 und die Auswerteeinrichtung 4. Die Auswerteeinrichtung 4 unterscheidet sich von der Auswerteeinrichtung 4 des Ausführungsbeispiels gemäß Aspekt A dahingehend, dass die Auswerteeinrichtung 4 ein Steuerungsmodul 22, das Verarbeitungsmodell 5, das Speichermodul 18 sowie das Identifikations-Modul 37 umfasst.
Das Steuerungsmodul 22 implementiert gemäß Aspekt B das Mikroskopbild-Auslesemodul 23, das Mikroskopbild-Registrierungsmodul 19, das Lern-Daten-Zuführungsmodul 26, das Zielfunktionsmodul 31, das Modellparameter-Verarbeitungsmodul 32, das Analyse-Daten-Zuordnungsmodul 33, das Ergebnisausgabe-Auslesemodul 34, das Kompressionsmodul 35 sowie das Identifikationsdaten-Zuführungsmodul 36, wie in 5 durch die gestrichelt in der Auswerteeinrichtung 4 angedeuteten Module dargestellt. Wobei zwischen den einzelnen Modulen des Steuerungsmoduls 22 Daten ausgetauscht werden können.
Gemäß einer Alternative können die Farbinformationen auch anhand von vorbestimmten Kriterien bewertet werden. Für diese Alternative wird kein Verarbeitungsmodell 5 benötigt, stattdessen kann die Auswerteeinrichtung 4 die Farbinformationen beispielsweise geeignet filtern. Für diesen Fall umfasst die Auswerteeinrichtung 4 die weiteren für das Training und die Inferenz nötigen oben beschriebenen Module nicht.
Das Verarbeitungsmodell 5 ist im Ausführungsbeispiel gemäß Aspekt B wiederum ein CNN (Convolutional Neural Network), und wiederum als Scoring-Modell implementiert. Das Verarbeitungsmodell 5 umfasst wiederum eine Eingabeschicht, mehrere Zwischenschichten sowie eine Ausgabeschicht. Das Verarbeitungsmodell 5 ist dazu trainiert, für einen jeden Datenpunkt der mehreren Bilder der Probe die jeweiligen Farbwerte danach zu bewerten, ob sie jeweils ein Gefärbt-Signal darstellen und dementsprechend mit einer gewissen Wahrscheinlichkeit einen Analyten codieren. Die Bewertung der jeweiligen Farbwerte erfolgt jeweils nach dem Aufnehmen eines neuen Mikroskopbildes 24. Dazu liest das Verarbeitungsmodell 5 die nach einer vorherigen Färberunde ausgewählten n Farbwerte eines Datenpunktes sowie den in der neuen Färberunde aufgenommenen Farbwert ein, bewertet die n+1 Farbwerte und wählt anhand der Bewertung die n Farbwerte aus, die am wahrscheinlichsten ein Gefärbt-Signal darstellen, wobei n kleiner als eine Gesamtanzahl von Färberunden ist.
Gemäß einer Alternative kann das Verarbeitungsmodell 5 auch als Multi-Layer-Perceptron (MLP), als Diffusion Network, als Transformer Network oder als sequenzielles Modell (zum Beispiel ein RNN) ausgebildet sein.
Der annotierte Datensatz umfasst eine Folge von Farbwerten eines Datenpunktes über alle Färberunden eines Experiments. In der Folge sind die n Farbwerte markiert, die am wahrscheinlichsten einem Gefärbt-Signal entsprechen.
Der annotierte Datensatz wird, wie bereits mit Bezug zur Ausführungsform gemäß Aspekt A erläutert, erstellt.
Im Training werden jeweils n+1 Farbwerte der Folge in das Verarbeitungsmodell 5 eingegeben und bewertet. Beispielsweise ist das Verarbeitungsmodell 5 als Klassifikationsnetzwerk implementiert und weist jedem der eingegebenen n+1 Farbwerte eine Klasse zu, beispielsweise entspricht eine Klasse gerade den Signalen, die am wahrscheinlichsten ein Gefärbt-Signal sind, eine weitere Klasse umfasst die Ungefärbt-Signale. Die Zielfunktion erfasst einen Unterschied zwischen vom Verarbeitungsmodell 5 ausgegebenen Bewertungen bzw. Zuordnungen zu den jeweiligen Klassen und den gemäß dem annotierten Datensatz zuzuordnenden Klassen.
Analog zu dem oben mit Bezug zum Ausführungsbeispiel des Aspekts A beschriebenen Verfahren zum Trainieren des Verarbeitungsmodells 5, werden die Modellparameter des Verarbeitungsmodells 5 durch Optimieren der Zielfunktion beispielsweise mittels eines stochastischen Gradientenverfahrens angepasst.
Um das Verarbeitungsmodell 5 auch für Färberunden zu trainieren, in denen während des Experiments bisher nur b < n+1 Färberunden bzw. Farbwerte aufgenommen wurden, werden im Training für diese frühen Runden bei der Eingabe der Farbwerte in das Verarbeitungsmodell 5 für Färberunden, für die noch keine Farbwerte vorliegen, Platzhalter, wie z.B. Nullen, so aufgefüllt, dass a Farbwerte sowie n+1-b Platzhalter in das Verarbeitungsmodell 5 eingegeben werden. Die n +1 eingegebenen Werte werden durch das Verarbeitungsmodell 5 bewertet und die entsprechenden Bewertungen ausgegeben.
Gerade für frühe Färberunden ist es hierbei sehr wahrscheinlich, dass weniger als n der n +1 eingegebenen Farbwerte gemäß dem annotierten Datensatz Gefärbt-Signale sind, da die Gefärbt-Signale über alle Färberunden vorzugsweise in etwa gleichmäßig verteilt sind. Wichtig ist im Training jedoch, dass das Verarbeitungsmodell 5 gerade die als Gefärbt-Signal markierten der eingegebenen Farbwerte erkennt. Ein zunächst falsch der Klasse der Gefärbt-Signale zugeordneter Farbwert kann in einer späteren Färberunde, wenn weitere Gefärbt-Signale zu den n+1 in das Verarbeitungsmodell 5 eingegeben Farbwerten hinzukommen, noch richtig der Klasse der Ungefärbt-Signale zugeordnet werden.
Vorzugsweise wird daher ein falsch der Klasse der Ungefärbt-Signale zugeordnetes Gefärbt-Signal in der Zielfunktion stärker bestraft, als ein falsch der Klasse der Gefärbt-Signal zugeordnetes Ungefärbt-Signal.
Wird beispielsweise ein Gefärbt-Signal falsch als Ungefärbt-Signal klassifiziert, so sollte dies in der Zielfunktion beispielsweise mit einem höheren Faktor bewertet werden, während bei einer falschen Bewertung eines Ungefärbt-Signals als Gefärbt-Signal die falsche Bewertung lediglich mit einem niedrigeren Faktor bewertet wird. Durch diese stärkere Berücksichtigung von falsch-negativen Ungefärbt-Signalen kann verhindert werden, dass das Modell Gefärbt-Signale falsch als Ungefärbt-Signale identifiziert und die für die Identifizierung der Analyten wichtigen Informationen verwirft.
Vorzugsweise geht also ein falsch als Ungefärbt-Signal identifiziertes Gefärbt-Signal stärker in ein Distanzmaß oder ein Ähnlichkeitsmaß einer Zielfunktion ein als andersherum.
Gemäß einer Alternative kann eine Zuordnung zu den Klassen der Gefärbt- und Ungefärbt-Signale auch weich erfolgen, indem jedem Farbwert ein Wert zwischen 0 und 1 zugeordnet wird. Der zugeordnete Wert gibt an, wie wahrscheinlich der jeweilige Farbwert ein Gefärbt-Signal ist.
Im Training kann das Verarbeitungsmodell 5 so trainiert werden, dass eine Ausgabeschicht jeweils wie oben beschrieben die Bewertungen ausgibt und anhand der Bewertungen die entsprechenden n Farbwerte ausgewählt und vom Steuerungsmodul 22 im Speichermodul 18 gespeichert werden.
Während der Inferenz kann das Verarbeitungsmodell 5 so abgeändert werden, dass das Verarbeitungsmodell 5 zusätzlich zu der während des Trainings verwendeten Ausgabeschicht um eine weitere Verarbeitungsschicht erweitert wird. Die Verarbeitungsschicht führt eine Matrix-Multiplikation durch, in der die Ergebnis-Ausgabe 30 der Ausgabeschicht mit den eingegebenen n+1 Farbwerten geeignet so multipliziert wird, dass lediglich die ausgewählten n Farbwerte durch die Verarbeitungsschicht des Verarbeitungsmodells 5 ausgegeben werden. Auf diese Weise kann die vollständige Verarbeitung bzw. die Auswahl der n Farbwerte vollständig mittels beispielsweise einer dafür optimierten Grafikkarte durchgeführt werden.
Alternativ kann das Verarbeitungsmodells 5 im Training direkt zur Ausgabe der ausgewählten Farbwerte trainiert werden. Im Training werden jeweils n+1 Eingabewerte in das Verarbeitungsmodell 5 eingegeben und n Ausgabewerte ausgegeben. Der annotierte Datensatz kann für diesen Fall entweder vollständige Farbwertfolgen umfassen, dann wird jeweils nur eine Auswahl n+1 der Farbwerte eingegeben und entsprechend korrespondierende n Ausgabewerte werden zum Training ausgewählt.
Alternativ kann der annotierte Datensatz aber auch jeweils Paare von n +1 Eingabewerten und n Ausgabewerten umfassen.
Beim Speichern werden die n Farbwerte gespeichert, ein übrig bleibender nicht ausgewählter Farbwert kann verworfen werden. Gemäß einer Alternative können zusätzlich zu den ausgewählten n Farbwerten Zusatzinformationen gespeichert werden. Zu den Zusatzinformationen zählen beispielsweise Informationen über die zu den ausgewählten Farbwerten korrespondierenden Färberunden, beispielsweise eine Nummer oder ein Zeitpunkt der Färberunde. Zusätzlich zu den ausgewählten n Farbwerten können noch statistische Informationen über die verworfenen Farbwerte, beispielsweise ein gleitender Mittelwert, eine Standardabweichung, ein Minimum, ein Maximum, ein Median einer Eigenschaft der Farbinformationen ebenso wie Informationen über eine Ausdehnung, Intensität oder Farbe der Datenpunkte gespeichert werden.
Gemäß dem Ausführungsbeispiel nach Aspekt B umfasst ein Experiment insgesamt m Färberunden. In den m Färberunden werden die Analyte in i der m Färberunden mittels Markern markiert. Die Anzahl der n ausgewählten Farbwerte ist vorzugsweise gleich der Anzahl i an Färberunden, in denen ein Analyt mit einem Marker markiert ist. Gemäß einer Alternative ist n = i + a, wobei a=0, 1, 2 oder 3 ist. Wie oben bereits erwähnt, können in einem Experiment die Anzahl der Marker und damit die Anzahl der auszuwählenden Farbwerte in Abhängigkeit vom Analyten variieren. In diesem Fall ist n die maximale Anzahl der Farbwerte, welche für einen der Analyten codieren.
Gemäß einer Alternative werden die Farbwerte, die am wahrscheinlichsten ein Gefärbt-Signal darstellen, nicht mittels eines Verarbeitungsmodells 5 ausgewählt, sondern anhand von vorbestimmten Kriterien mittels einer klassischen Vorauswahl. Die Kriterien zum Auswählen der n Farbwerte können beispielsweise Schwellwerte für eine minimale und/oder maximale Intensität umfassen, wobei die Schwellwerte statisch vorgegeben sind oder dynamisch bestimmt werden. Die Schwellwerte können für eine minimale und/oder maximale Intensität in Abhängigkeit von der Farbe der Farbwerte, d.h. nach dem verwendeten Farbkanal 20, variieren, und/oder durch einen minimalen Abstand zu vorbestimmten Zielwert der Intensität, Farbe und/oder Ausdehnung bestimmt werden.
Die übrigen mit Bezug zum Ausführungsbeispiel gemäß Aspekt A beschriebenen Details lassen sich analog auf das Ausführungsbeispiel gemäß Aspekt B anwenden.
Ein weiteres Ausführungsbeispiel gemäß Aspekt C des Maschinenlernsystems 1 umfasst ebenfalls das Mikroskop 2, die Steuervorrichtung 3 und die Auswerteeinrichtung 4.
Die Auswerteeinrichtung 4 gemäß diesem Ausführungsbeispiel entspricht der Auswerteeinrichtung 4 gemäß dem Ausführungsbeispiel nach Aspekt B, weshalb gleiche Teile nicht nochmals erläutert werden. Die Auswerteeinrichtung 4 gemäß diesem Ausführungsbeispiel unterscheidet sich von der Auswerteeinrichtung 4 gemäß dem Ausführungsbeispiel nach Aspekt B dadurch, dass das Verarbeitungsmodell 5 dazu trainiert wurde, eine Projektion auf einen Unterraum auszuführen. Der Unterraum umfasst k Dimensionen, wobei gilt k < m und m die Anzahl an Färberunden eines Experimentes angibt.
Das Verarbeitungsmodell 5 umfasst c verschiedene Eingabestränge sowie für jeden der Eingabestränge d Eingabekanäle. Die c verschiedenen Eingabestränge teilen sich einen Ausgabestrang mit k Ausgabekanälen. Vorzugsweise ist das Produkt aus c mit d gerade gleich der Anzahl der Färberunden m.
Gemäß der vorliegenden Erfindung ist jeder der Eingabestränge einem Färbevorgang zugeordnet. Ein Färbevorgang kann eine oder mehrere Färberunden umfassen. Ein Färbevorgang kann z.B. mehrere Färberunden umfassen, wenn Marker mit unterschiedlichen Farben verwendet werden, welche breitbandig angeregt werden und mit einem einzigen Bild aufgenommen werden. Die Anzahl der Färberunden pro Färbevorgang entspricht der Anzahl d von Eingabekanälen pro Eingabestrang.
Alternativ kann ein Färbevorgang aber auch mehrere Marker mit unterschiedlichen Farben aufweisen, die jeweils spezifisch angeregt werden, es werden dann entsprechend d Bilder aufgenommen.
Bei der Projektion auf den Unterraum wird grundsätzlich ein Eingangsvektor mit der Dimension m auf einen Ausgangsvektor mit der Dimension k abgebildet. Die Bilder einer Färberunde liefern für einen jeden Datenpunkt jeweils einen Intensitätswert, der im Eingangsvektor eine der Vektorkomponenten 38 bildet. Da nach jedem Färbevorgang lediglich für eine jede Färberunde des Färbevorgangs eine Vektorkomponente erzeugt wird, sind die anderen Vektorkomponenten 38 gleich Null, weshalb es genügt, lediglich d Eingabekanäle für einen jeden Eingabestrang vorzusehen, wobei d der Anzahl der Färberunden pro Färbevorgang bzw. der Anzahl der Farbkanäle 20 im Experiment entspricht.
Im Experiment werden nach der Aufnahme von jeweils d Bildern während eines Färbevorganges, für jeden Datenpunkt d Farbwerte in einen der Eingabestränge eingegeben. Diese werden vom Verarbeitungsmodell 5 auf den Unterraum projiziert und in den k Ausgabekanälen sequenziell aggregiert. Beispielsweise kann jedes der d Bilder einem anderen von d verschiedenen Farbkanälen, die während des Experiments verwendet werden, entsprechen.
Ist die Transformation beispielsweise eine Hauptachsentransformation oder eine Singulärwertzerlegung, so kann die Projektion auch klassisch mittels einer Matrixmultiplikation berechnet werden, ein Training des Verarbeitungsmodells 5 entspricht dann gerade dem Bestimmen von Basen der Transformationsmatrix anhand eines Trainingsdatensatzes. Das Training ist für diesen Fall ein unüberwachtes Training, in dem die Basen der Hauptachsentransformation geschätzt werden.
Der Trainingsdatensatz kann entweder basierend auf einem vorherigen Experiment zusammengestellt werden, oder er wird, wie auch oben bereits für die weiteren Aspekte beschrieben, mittels beispielsweise eines Generativen Modells erstellt.
Gemäß dieses Ausführungsbeispiels ist die Projektion eine lineare Transformation, hier eine Transformation, basierend auf einer Hauptachsentransformation. Die Basen sowie die Transformationsmatrix der Hauptachsentransformation wurden beispielsweise in einem vorherigen Experiment bestimmt, oder in demselben Experiment beispielsweise anhand eines Teils der Daten.
Gemäß dieser Ausführungsform berechnet das Verarbeitungsmodell 5 basierend auf den im Training bestimmten Basen der Transformationsmatrix die entsprechenden Projektionen und Aggregationen. Die Modellparameter des Verarbeitungsmodells 5 entsprechen in diesem Fall gerade den Parametern der Transformationsmatrix der Hauptachsentransformation.
Bei einer Hauptachsentransformation bzw. Hauptkomponentenanalyse wird zwar grundsätzlich ein Koordinatensystem nur gedreht und verschoben, aber es wird nicht die Dimension reduziert. Bei einer Hauptkomponentenanalyse im mehrdimensionalen Raum werden jedoch die Komponenten so gewählt, dass ihre Varianz und damit ihr Informationsgehalt zunehmend abnimmt. Die letzten Komponenten erklären die geringste Varianz der Daten und können lediglich als rauschende Daten angesehen werden. Deshalb können die letzten Komponenten weggelassen werden, wodurch sich die Dimension des Ausgabevektors, welcher auch als Aggregationsvektor 40 bezeichnet wird, gegenüber der ursprünglichen Dimension erheblich reduzieren lässt.
Ist beispielsweise d = 1, so wird beispielsweise nur ein einziger Farbkontrast betrachtet. Nach jeder Färberunde wird ein Farbwert der jeweiligen Färberunde in den korrespondierenden Eingabestrang eingegeben, d.h. in der i-ten Färberunde wird die i-te Vektorkomponente 38 in den i-ten Eingabestrang eingegeben. Über die m Färberunden werden die jeweils eingegebenen Vektorkomponenten 38 in den k Ausgabekanälen sequenziell aggregiert. Ist beispielsweise die Anzahl der Färberunden m = 16, so werden nacheinander die 16 Farbwerte in die 16 Eingabestränge eingegeben.
Die Anzahl der Färberunden ist hier nur als Beispiel mit 16 angegeben. Abhängig vom jeweiligen Experiment und den verwendeten Markern sowie abhängig von den zu identifizierenden Analyten, kann die Anzahl der Färberunden frei gewählt werden.
Ist beispielsweise d = 2, so werden beispielsweise zwei unterschiedliche Farbkontraste bzw. zwei unterschiedliche Farbkanäle 20 aufgenommen. Die zwei in den unterschiedlichen Farbkontrasten aufgenommenen Farbwerte werden dann gleichzeitig in einen Eingabestrang mit zwei Eingabekanälen eingegeben. Das Verarbeitungsmodell 5 projiziert die zwei Eingabekanäle auf die k Ausgabekanäle und aggregiert die Projektionen der verschiedenen Eingabestränge. Umfasst das Experiment wiederum m =16 Färberunden, so weist das Verarbeitungsmodell 5 acht Eingabestränge auf, die jeweils zwei Eingabekanäle aufweisen gibt, jeweils einen für jeden Farbkontrast. Nach jeweils zwei Färberunden, d. h. nachdem die zwei Farbkontraste aufgenommen wurden, werden die zwei Farbwerte der zwei Farbkontraste in den jeweiligen Eingabestrang eingegeben.
D.h. die Vektorkomponente 38, die gemeinsam in einen Eingabestrang eingegeben werden, werden auch gemeinsam auf den Unterraum projiziert. Beispielsweise kann der jeweiliger Vektor mit einem Eintrag in der jeweiligen Vektorkomponente 38 mit einer Projektionsmatrix 39 multipliziert werden, die resultierenden Projektionsvektoren werden, sofern es sich um eine lineare Transformation handelt, sequenziell aufaddiert und ergeben den Aggregationsvektor 40 (siehe 6 unten).
Bei einer Hauptachsentransformation wird normalerweise ein vollständiger Rohdatenvektor 41 mit allen Komponenten in den Unterraum transformiert, um den Aggregationsvektor 40 zu erhalten (siehe 6 oben).
Dadurch, dass die Hauptachsentransformation aber auch komponentenweise ausgeführt werden kann, können, wie hier beschrieben, aber auch die Vektorkomponenten 38 einzeln oder entsprechend der Anzahl d von Färberunden pro Färbevorgang transformiert und aggregiert werden. Entsprechend ist hier eine Aufteilung in Eingabestränge auch nicht notwendig, man könnte die Vektorkomponenten 38 der einzelnen Färberunden auch einzeln transformieren und aggregieren. Dadurch, dass der Unterraum weniger Dimensionen als der Ursprungsraum aufweist, kann die ab einer gewissen Färberunde zu speichernde Datenmenge deutlich reduziert werden.
In der von dem Verarbeitungsmodell 5 gelernten Projektion kann optional die erste Hauptkomponente der Hauptachsentransformation weggelassen werden.
Gemäß einer Alternative kann das Verarbeitungsmodell 5 auch eine Singulärwertzerlegung erlernen. Gemäß einer weiteren Alternative kann das Verarbeitungsmodell 5 auch dazu trainiert werden, eine nichtlineare Transformation durchzuführen. Führt das Verarbeitungsmodell 5 eine nichtlineare Transformation aus, so kann es beispielsweise auch als neuronales Netzwerk, beispielsweise ein CNN, ein RNN, ein MLP oder auch ein Transformer-Netzwerk sein.
Ist die Transformation eine nichtlineare Transformation und beispielsweise mittels einem trainierten neuronalen Netzwerk implementiert, so kann es ggf. nötig und von Vorteil sein, die Farbinformationen der d Färberunden eines Färbevorgangs zusammen in einen d Eingabekanäle aufweisenden Eingabestrang einzugeben. Beispielsweise kann ein neuronales Netzwerk in einem solchen Fall bestimmte Nebenbedingungen durch die Art und Weise, wie die Daten eingeben werden, intrinsisch mitlernen. Eine solche Nebenbedingung kann beispielsweise sein, dass für jeden Datenpunkt in jedem Färbevorgang immer nur eine der Färberunden ein Gefärbt-Signal aufweisen sollte.
Ist die Projektion eine nichtlineare Projektion, so kann das Aggregieren auch ein Multiplizieren der jeweiligen Komponenten verschiedener Färberunden miteinander umfassen, aber auch jede andere Rechenoperation kann zum Aggregieren verwendet werden.
Es zeigt sich, dass bei dieser Art von Aufnahmen eine erste Hauptkomponente der Hauptachsentransformation die absolute Helligkeit darstellt. Die absolute Helligkeit spielt aber für die Kodierung von Analyten praktisch keine Rolle, weshalb die erste Hauptkomponente vernachlässigt werden kann.
Das Verarbeitungsmodell 5 wurde mittels einem annotierten Datensatz trainiert, wobei der annotierte Datensatz jeweils Vektoren mit Farbwerten aus m Färberunden und korrespondierende projizierte Aggregationsvektoren 40 umfasst.
Gemäß einer Alternative umfasst der annotierte Datensatz anstelle der korrespondierenden projizierten Aggregationsvektoren 40 jeweils korrespondierende Projektionen der einzelnen Vektorkomponenten 38, d. h. Projektionen einzelner der Farbwerte. Durch die Eingabe einzelner Vektorkomponenten 38 kann das Verarbeitungsmodell 5 gezielt zur Projektion der jeweiligen Komponente 38 trainiert werden.
Das Trainieren des Verarbeitungsmodell 5 gemäß diesem Ausführungsbeispiel nach Aspekt C erfolgt, wie oben mit Bezug zu den Ausführungsbeispielen gemäß der Aspekte A und B beschrieben, durch geeignetes Anpassen der Modellparameter zum Optimieren einer Zielfunktion, wobei die Zielfunktion einen Unterschied zwischen einer vom Verarbeitungsmodell 5 ausgegebenen Ergebnis-Ausgabe 30 und einer Zielausgabe des annotierten Datensatzes erfasst.
Während der Inferenz kann der Aggregationsvektor 40 nach der Ausgabe durch das Verarbeitungsmodell 5 in das Identifikations-Modul 37 eingegeben werden, wobei das Identifikations-Modul 37 ein Identifizierungsverarbeitungsmodell umfasst. Das Identifizierungsverarbeitungsmodell ist dazu ausgebildet, eine zu dem eingegebenen Aggregationsvektor 40 korrespondierende Analyt-Art zu bestimmen. Das Identifizierungsverarbeitungsmodell ist als Klassifikationsnetzwerk trainiert und gibt direkt eine zu einer erkannten Analyt-Art korrespondierende Klasse aus.
Gemäß einer Alternative gibt das Identifizierungsverarbeitungsmodell eine Bitfolge aus, die Bitfolge kann dann mit zu erwarteten Bitfolgen für die verschiedenen zu erfassenden Analyt-Arten verglichen werden, um die jeweilige Analyt-Art zu bestimmen.
Gemäß einer weiteren Alternative erfolgt das Bestimmen einer Analyt-Art ohne ein zu trainierendes Netzwerk, stattdessen werden entweder die Aggregationsvektoren 40 analytisch zurücktransformiert und ein Vergleich mit Soll-Bitfolgen der zu erfassenden Analyt-Arten erfolgt beispielsweise nach einer Binarisierung der zurücktransformierten Vektoren, oder es werden für jede der zu erfassenden Analyt-Arten aus typischen Folgen von Farbwerten Soll-Aggregationsvektoren generiert, beispielsweise durch eine Simulation oder durch Verwenden von Daten aus einem früheren Experiment, indem die typischen Folgen von Farbwerten in den Unterraum projiziert werden. Im Unterraum erfolgt dann ein Abgleich von Aggregationsvektoren 40 des Experiments mit den Soll-Aggregationsvektoren.
Gemäß einer weiteren Alternative umfasst die Auswerteeinrichtung 4 anstelle des Verarbeitungsmodells 5 ein Verarbeitungsmodul, in dem die Hauptachsentransformation, die Singulärwertzerlegung, oder eine andere geeignete lineare oder nichtlineare Transformation analytisch, ohne die Verwendung eines zu trainierenden Netzwerks, ausgeführt wird.
Gemäß einer Ausgestaltung des Ausführungsbeispiels nach Aspekt C wird eine Basis für die Hauptachsentransformation oder die Singulärwertzerlegung basierend auf einer semantischen Segmentierung der aufgenommenen Bilder ausgewählt.
Ein weiteres Ausführungsbeispiel gemäß Aspekt D des Maschinenlernsystems 1 umfasst ebenfalls das Mikroskop 2, die Steuervorrichtung 3 und die Auswerteeinrichtung 4.
Die Auswerteeinrichtung 4 gemäß diesem Ausführungsbeispiel entspricht den oben erläuterten Ausführungsbeispielen, weshalb gleiche Teile nicht erneut beschrieben werden. Die Auswerteeinrichtung 4 gemäß diesem Ausführungsbeispiel unterscheidet sich aber von den Auswerteeinrichtungen 4 gemäß den Ausführungsbeispielen nach den Aspekten A bis C dadurch, dass die Auswerteeinrichtung 4 anstelle des Verarbeitungsmodells 5 ein Clusteranalysemodul 42 umfasst (siehe 8).
Das Clusteranalysemodul 42 ist dazu ausgebildet, nach einer Färberunde eine Clusteranalyse eines gemäß der Färberunde aufgenommenen Bildes 24 durchzuführen. Dazu werden die Farbwerte mit ähnlichen Werten bzw. Intensitätswerten so geclustert, dass Datenpunkte mit ähnlichen Intensitätswerten demselben Cluster 43 zugeordnet werden. Gemäß diesem Ausführungsbeispiel erfolgt das Clustern global über das gesamte Bild 24 (siehe 7).
Nachdem die Farbwerte entsprechend geclustert sind, wird jedem Datenpunkt eine Cluster-ID zugeordnet und die Cluster-ID wird anstelle des Farbwertes gespeichert. Zusätzlich kann zu jeder Cluster-ID ein repräsentativer Farbwert gespeichert werden. Dies kann beispielsweise ein Mittelwert der Farbwerte der zu der jeweiligen Cluster-ID korrespondierenden Datenpunkte des jeweiligen Bildes sein.
Nach jeder weiteren Färberunde werden die gewonnenen Farbwerte erneut geclustert und als weitere Merkmalsdimension den gemäß den vorherigen Färberunden bestimmten Clustern 43 hinzugefügt. Wieder wird zu jedem der Cluster 43 der repräsentative Farbwert bzw. Intensitätswert des jeweiligen Clusters zu der jeweiligen Färberunde gespeichert.
Beim wiederholten Clustern können neue Cluster 43 entstehen. Im Regelfall werden bestehende Cluster 43 beim erneuten Clustern in kleinere Cluster 43 unterteilt, welche durch die Farbwerte der jüngeren Färberunden bedingt sind. Es können sich Clustergrenzen 44 verschieben, wie es beispielsweise beim Vergleich der Teilbilder (a) bis (d) von 7 zu sehen ist. Ein solches Verschieben tritt dann auf, wenn Abstände der Intensitätswerte benachbarter Cluster 43 nach einer der ersten Färberunden gering ist und die Abstände der Intensitätswerte späterer Färberunden größer ist, wobei die Clustergrenzen 44 der Bereiche mit unterschiedlichen Intensitätswerten der späteren Färberunden von denen der ersteren Färberunden unterscheiden. Durch die größeren Abstände der Intensitätswerte der späteren Färberunden wird dann der Verlauf der Grenzen 44 der einzelnen Cluster 43 in diesem Bereich neu bestimmt.
Umfasst ein Experiment beispielsweise 16 Färberunden, so wird für jeden Cluster 43 eine Cluster-ID sowie der zu dem jeweiligen Cluster 43 in der jeweiligen Färberunde korrespondierende repräsentative Farbwert bzw. Intensitätswert gespeichert. Für jeden Datenpunkt wird jeweils ausschließlich die zu dem jeweiligen Datenpunkt des Bildes korrespondierende Cluster-ID gespeichert. Beim Clustern wird beispielsweise eine Anzahl, insbesondere eine maximale Anzahl, von zu bildenden Clustern 43 vorgegeben, beispielsweise 128, 256 oder 512. Diese Vorgabe der maximalen Anzahl von Clustern 43 entspricht der Anzahl von Bits, die zum Speichern der Cluster-ID notwendig sind. Je weniger Bit zum Beschreiben der Cluster-ID notwendig sind, desto geringer ist die zu speichernde Datenmenge.
Vorzugweise ist die Anzahl der Cluster 43 größer als eine Anzahl an zu identifizierenden Analyt-Arten, insbesondere ist für alle zu identifizierenden Analyt-Arten jeweils mindestens ein Cluster 43 vorgesehen, ebenso für alle möglichen verschiedenen Hintergründe.
Zusätzlich zum repräsentativen Wert können beispielsweise noch eine Varianz, ein Median oder andere gleitende statistische Werte anhand der Farbwerte bzw. Intensitätswerte erzeugt und erfasst werden.
Ein verwendeter Clusteralgorithmus kann beispielsweise ein partitionierender, ein hierarchischer, ein graphentheoretischer oder ein optimierender Clusteralgorithmus sein.
Das Clustern kann beispielsweise überwacht erfolgen, aber auch ein nicht-überwachtes Clustern kann durch das Clusteranalysemodul 42 implementiert sein.
Wird gemäß einer Alternative anstelle eines globalen Clusterverfahrens ein lokales Clusterverfahren verwendet, so bilden sich lediglich zusammenhängende Cluster 43. Bei einem lokalen Clusterverfahren wird zusätzlich zu den Intensitätswerten jeweils die Bildposition berücksichtigt, so dass sich jeweils lokal zusammenhängende Cluster 43 bilden und entsprechend deren Cluster-ID gespeichert werden. Bei einem lokalen Clustering ergeben sich in der Regel insgesamt mehr Cluster 43 als beim globalen Clustering, da nur Bildpunkte in der lokalen Umgebung des jeweiligen Clusters 43 bei der Clusteranalyse berücksichtigt werden. Hierdurch kann lokal wesentlich individueller als beim globalen Clustering differenziert werden. Dies führt auch dazu, dass beim lokalen Clustering weniger selten auftretende Farbwerte verloren gehen.
Dadurch, dass die Farbwerte der aufgenommenen Bilder zu Clustern 43 mit ähnlichen Werten zusammengefasst werden, müssen für jeden der Datenpunkte nur jeweils die jeweilige Cluster-IDs gespeichert werden. Dadurch kann der Speicherverbrauch beim Speichern der verschiedenen Bilder aus den Färberunden erheblich reduziert werden.
Gemäß einer Alternative kann das Clusterverfahren mittels eines Verarbeitungsmodells 5, beispielsweise einem Convolutional Neural Network (CNN), durchgeführt werden.
Vorzugsweise ist ein verwendeter Clusteranalyse-Algorithmus einer aus den folgenden: k-Means-Clustering, Gauß'sches-Mischmodell-Clustering, kernbasierte Hauptkomponentenanalyse, EM-Clustering, Leiden-Clustering, Louvain-Clustering, Divisive-Analysis-Clustering.
Nach dem Aufnehmen aller Färberunden kann anhand der gespeicherten geclusterten Daten anhand der jeweiligen Folgen von Intensitätswerten der jeweiligen Cluster 43 den Clustern 43 jeweils eine Analyt-Art zugeordnet werden. Hierzu wird die jeweilige Folge von Intensitätswerten zunächst binarisiert und dann mit beispielsweise in dem Codebuch vorgehaltenen Zielwerten bzw. Soll-Bitfolgen verglichen.
Alternativ kann auch ein Identifikationsverarbeitungsmodell dazu trainiert werden anhand der geclusterten Daten den Clustern 43 eine Analyt-Art zuzuordnen.
Gemäß dem beschriebenen Ausführungsbeispiel können sowohl bei der Clusteranalyse als auch beim Identifizieren einer Analyt-Art Kontextinformationen verwendet werden, um beispielsweise ein jeweiliges Clustering oder das Identifizieren einer Analyt-Art geeignet zu verbessern.
Ein weiteres Ausführungsbeispiel gemäß Aspekt E des Maschinenlernsystems 1 umfasst ebenfalls das Mikroskop 2, die Steuervorrichtung 3 und die Auswerteeinrichtung 4.
Die Auswerteeinrichtung 4 gemäß dem Ausführungsbeispiel gemäß Aspekt E entspricht den vorhergehenden Ausführungsbeispielen, weshalb gleiche Teile nicht erneut beschrieben werden. Die Auswerteeinrichtung 4 gemäß dem Ausführungsbeispiel gemäß Aspekt E unterscheidet sich von den vorher beschriebenen Auswerteeinrichtungen 4 dadurch, dass die Auswerteeinrichtung 4 gemäß Aspekt E ein Quantisierungsmodul 45 umfasst.
Das Quantisierungsmodul 45 ist dazu ausgebildet, nach der Aufnahme eines der Bilder in einer Färberunde, das aufgenommene Bild in Quantisierungsbereiche zu unterteilen. In den unterschiedlichen Quantisierungsbereichen eines Bildes werden Intensitätswerte der Bildpunkte bzw. die Farbwerte der Datenpunkte mit jeweils einer anderen Quantisierung codiert und die Neuquantitäten als Intensitätswerte bzw. Farbwerte als Farbinformationen der Bildpunkte bzw. der Datenpunkte gespeichert.
Während eine Kamera einen gesamten Bildbereich mit derselben Quantisierung codiert, haben die Erfinder erkannt, dass in verschiedenen Bildbereichen, welche beispielsweise durch eine semantische Segmentierung entsprechend unterteilt werden, ganz unterschiedliche Quantisierungen der Intensitätswerte bzw. Farbwerte sinnvoll sind, um den für die Analyse der Analyten notwendigen Informationsgehalt verfügbar zu machen. Durch eine geeignete Quantisierung der verschiedenen Bildbereiche kann ganz erheblich an Speicherplatz beim Speichern der Bilder eingespart werden. Dies ist im Folgenden mit Bezug zu 9 näher erklärt.
Erfassen beispielsweise Datenpunkte in bestimmten Bildbereichen Signale von Bereichen in einer Probe, in denen lediglich Hintergrund und keine Analyte vorkommen, den im Folgenden sogenannten niedrigen Intensitätsbereich 46 (siehe beispielsweise 9), so kommen hier vor allem niedrige Intensitätswerte bzw. Farbwerte vor. Da in diesen Bereichen aber keine Analyte vorkommen, ist es ausreichend, diesen Bereich mit niedrigen Intensitäten 46 lediglich mit einer Quantifizierung zu codieren, die eine geringe Bittiefe und verhältnismäßig große Intervalle aufweist.
Darüber hinaus gibt es Bildbereiche in einem mittleren Intensitätsbereich 47, in dem Signale von an Analyte gekoppelten Markern auftauchen, die Farbwerte bzw. Intensitätswerte sich aber nur gering von den Intensitätswerten bzw. Farbwerten des Hintergrunds unterscheiden, weshalb es für diese Bildbereiche sehr wichtig ist, eine Quantisierung zu verwenden, die eine im Verhältnis zu den Bildbereichen mit niedrigen Intensitätswerten 46 bzw. Farbwerten eine feinere Quantisierung bzw. höhere Bittiefe und damit eine kleinere Intervallbreite aufweist.
Darüber hinaus treten beispielsweise noch hohe Intensitätsbereiche 48 mit sehr hohen Intensitätswerten bzw. Farbwerten auf. Für diese Bildbereiche zeigt sich, dass Bildpunkte bzw. Datenpunkte, die Signale von Markern erfassen, also Gefärbt-Signale erfassen, einen sehr hohen Intensitätswert bzw. Farbwert aufweisen, der sich stark von Intensitätswerten bzw. Farbwerten unterscheidet, in denen ein Marker nicht an den erfassten Analyten gekoppelt ist, und der Intensitätswert bzw. Farbwert sich entsprechend einfach von einem Intensitätswert eines Gefärbt-Signals unterscheiden lässt.
Wählt man nun beispielsweise für den sogenannten niedrigen Intensitätsbereich 46 eine Quantisierung mit einer Bittiefe von lediglich 2 Bit, für den mittleren Intensitätsbereich 47 eine Quantisierung mit einer Bittiefe von beispielsweise 14 Bit und für den hohen Intensitätsbereich 48 eine Quantisierung mit einer Bittiefe von beispielsweise 4 Bit, so spart man beim Speichern der Bilder für die niedrigen Intensitätsbereiche 46 und die hohen Intensitätsbereiche 48 ganz erhebliche Datenmengen, ohne aber Informationen zu verlieren, die man bei der Identifizierung der Analyte benötigt.
Wie viele verschiedene Quantisierungsbereiche tatsächlich verwendet werden, hängt jeweils vom Experiment ab. Es kann jeweils eine Bittiefe sowie ein Abstand der Intervalle frei gewählt werden. Der Abstand kann hierbei beispielsweise fest oder auch variabel eingestellt werden. Die Quantisierung kann entsprechend der erwarteten Intensitätswerte gewählt werden.
Beispielsweise kann es nötig sein, eine Anzahl der Quantisierungsbereiche in Abhängigkeit von verschiedenen betrachteten Zellarten zu wählen. Beispielsweise können die Intensitätswerte einer ersten Art von Zellen in einem ersten Quantisierungsbereich liegen, in diesem ersten Quantisierungsbereich sollte eine feine Quantisierung mit einer hohen Bittiefe gewählt werden. Beispielsweise liegen die Intensitätswerte einer zweiten Art von Zellen in einem zweiten Quantisierungsbereich, diesem zweiten Intensitätswerte-Bereich sollte ebenfalls eine feine Quantisierung mit einer hohen Bittiefe gewählt werden. Darüber hinaus treten in dem Experiment beispielsweise auch Bildbereiche, die ausschließlich Hintergrund erfassen auf, sowie Bildbereiche, die helle Spots erfassen. Die Bildbereiche, die ausschließlich Hintergrund erfassen, können wiederum mit lediglich einem oder 2 Bits Bittiefe quantisiert werden, die hellen Spots beispielsweise wie oben beschrieben mit 4 Bit Bittiefe.
Beispielsweise kann in einem anderen Experiment der Quantisierungsbereich mit ganz niedrigen Intensitätswerten wegfallen, da beispielsweise eine gesamte betrachtete Fläche vollständig mit Zellen bedeckt ist. In diesem Fall fällt der Bildbereich, der ausschließlich einen Hintergrund erfasst, weg, ebenso der Quantisierungsbereich mit niedrigen Intensitätswerten.
Die Quantisierungen werden jeweils so gewählt, dass die Kombination aus codierten Intensitätswerten plus den Informationen über den jeweils anzuwendenden Quantisierungsbereich nicht mehr Speicher verbraucht als eine von der Kamera ausgegebene Quantisierung der erfassten Intensitätswerte.
Für die Quantisierungsbereiche können beispielsweise vorab anhand von Intensitätswerten Grenzen festgelegt werden, sodass jeder Quantisierungsbereich immer bestimmten Intensitätsbereichen entspricht.
Alternativ können die Bilder in semantisch unterschiedliche Quantisierungsbereiche aufgeteilt werden.
Gemäß einer weiteren Alternative wird eine Häufigkeit der einzelnen Intensitätswerte zunächst erfasst und anhand der Häufigkeit werden die Intensitätsgrenzen der verschiedenen Intensitätsbereiche bzw. Quantisierungsbereiche festgelegt.
Gemäß einer weiteren Alternative können die Quantisierungsbereiche auch durch Clustern ähnlicher Intensitätswerte festgelegt werden.
Gemäß einer weiteren Alternative kann das Festlegen der Quantisierungsbereiche anhand einer semantischen Segmentierung erfolgen, bei der semantische Segmentierung der Bilder erfolgt beispielsweise ein Segmentierung in Hintergrund, bestimmte Zellbereiche - wie beispielsweise dem Zellkern - oder einem Zellrand.
Während des Experiments werden die Quantisierungsbereiche einmalig vor der erstmaligen Quantisierung eines Bildes festgelegt, wobei die Festlegung der Quantisierungsbereiche vorzugsweise mittels eines Hintergrundbildes erfolgt.
Gemäß einer Alternative erfolgt das Festlegen der Quantisierungsbereiche nach der ersten Färberunde, wobei das Festlegen der Quantisierungsbereiche anhand eines Teilbildes oder anhand eines vollständigen Bildes erfolgen kann.
Gemäß einer weiteren Alternative können die Quantisierungsbereiche auch nach jeder Färberunde neu für das jeweils aufgenommene Bild festgelegt werden. Gemäß einer weiteren Alternative können die Quantisierungsbereiche jeweils nach dem Aufnehmen mehrerer der Färberunden eines Experiments auf Grundlage von Teilbildern oder vollständigen Bildern erfolgen.
Nach dem Experiment kann beispielsweise eine Identifizierung einer Analyt-Art für Datenpunkte, die einen Analyten codieren, anhand der gespeicherten, neu quantisierten Intensitätswerte erfolgen. Hierzu kann entweder eine Rücktransformation erfolgen, diese ist aufgrund der geänderten Quantisierung zwar etwas ungenau, da diese Ungenauigkeit aber nur in den Bereichen auftritt, in denen sie unerheblich ist, sollte auch mit den rücktransformierten Daten eine hinreichend genaue Bestimmung der Analyt-Art möglich sein. Alternativ können auch die neu quantisierten Intensitätswerte geeignet binarisiert werden und mit den Soll-Bitfolgen des Codebuchs abgeglichen werden.
Gemäß einer weiteren Alternative kann ein Identifizierungsverarbeitungsmodell, wie weiter oben beschrieben, auch mit einem annotierten Datensatz trainiert werden, in dem die Farbinformationen mit den neu quantisierten Intensitätswerten gespeichert wurden. Für diesen Fall entfällt eine Rücktransformation und das Identifizierungsverarbeitungsmodell kann direkt die neu quantisierten Intensitätswerte verarbeiten.
Ein weiteres Ausführungsbeispiel gemäß Aspekt F des Maschinenlernsystems 1 umfasst ebenfalls das Mikroskop 2, die Steuervorrichtung 3 und die Auswerteeinrichtung 4. Dieses Ausführungsbeispiel entspricht den vorhergehenden Ausführungsbeispielen, weshalb gleiche Teile nicht erneut beschrieben werden.
Die Auswerteeinrichtung 4 gemäß diesem Ausführungsbeispiel unterscheidet sich von der Auswerteeinrichtung 4 gemäß dem Aspekt B dahingehend, dass das Verarbeitungsmodell 5 dazu trainiert wurde, um für eine n-te Färberunde ein zu erwartendes Prognosebild anhand von Vorhersagebilddaten 49 einer oder mehrerer vorhergehender Färberunden und/oder anhand von Vorhersagebilddaten 49 der aktuellen Färberunde vorherzusagen (siehe dazu schematisch 10).
Beispielsweise können die Vorhersagebilddaten 49 alle Bilder eines Experiments umfassen, die bisher aufgenommen wurden. Diese umfassen sowohl Bilder, die in einer vorherigen Färberunde aufgenommen wurden, als auch Bildebenen eines Z-Bildes, die vor einer jetzt aufzunehmenden Bildebene des Z-Bildes aufgenommen wurden. Vor oder nach dem Aufnehmen der jetzt aufzunehmenden Bildebene des Z-Bildes wird mittels des Verarbeitungsmodells 5 das Prognosebild 50 bestimmt, wobei das Verarbeitungsmodell 5 dazu trainiert wurde bzw. so eingerichtet ist, gerade zu jedem aufzunehmenden Bild bzw. zu jeder aufzunehmenden Bildebene eines Z-Bildes ein korrespondierendes Prognosebild 50 zu bestimmen. D.h. es gibt zu jedem bestimmten Prognosebild 50 ein korrespondierendes aufgenommenes Bild 24.
Alternativ kann auch nur ein Teil der vor einem Bild aufgenommenen Bilder zu den Vorhersagebilddaten 49 gehören.
Das Verarbeitungsmodell 5 wird hierbei für jede Färberunde separat trainiert, d.h. es gibt für jede Färberunde ein Teil-Verarbeitungsmodell, das spezifisch für die jeweilige Färberunde trainiert wurde. Ein annotierter Datensatz umfasst beispielsweise einen Satz von Bildern 24 als Vorhersagebilddaten 49 und ein zu den Vorhersagebilddaten 49 korrespondierendes Zielbild, das gerade dem Bild entspricht, das vom Verarbeitungsmodell 5 vorhergesagt werden soll. Demnach ist das Vorhersagemodell 5 als Bild-zu-Bild-Modell trainiert. Solche vorhersagenden Bild-zu-Bild-Modelle nennt man auch Regressionsmodell.
Gemäß einer Alternative kann das Verarbeitungsmodell 5 auch ein einzelnes Modell sein, dass zusätzlich zu den eingegebenen Bilddaten, auf denen dann jeweils das Prognosebild 50 basiert, Kontextinformationen in das Verarbeitungsmodell 5 eingegeben werden, die beispielsweise eine jeweilige Nummer einer Färberunde der eingegebenen Bilddaten wiedergeben.
Gemäß einer weiteren Alternative kann das Verarbeitungsmodell 5 auch ein RNN sein, ein Prognosebild 50 einer Färberunde n+1 basiert auf den Bilddaten einer aktuellen Färberunde n sowie einem internen Zustand des RNNs.
Darüber hinaus kann das Vorhersagemodell 5 für jedes neue Experiment separat trainiert werden. Dazu kann beispielsweise ein vortrainiertes Modell gewählt werden, das mittels Transferlernen für das jeweilige Experiment trainiert wird, oder es wird ein Modell vollständig antrainiert.
Beispielsweise kann, wie bereits oben mit Bezug zu den weiteren Ausführungsbeispielen beschrieben, das Vorhersagemodell 5 aus einem bestehenden Modellkatalog ausgewählt werden. Beispielsweise umfasst der Modellkatalog vortrainierte Vorhersagemodelle 5, wobei vor der Inferenz überprüft werden kann, ob das vortrainierte Vorhersagemodell 5 hinreichend gute Vorhersagen macht, ansonsten muss das Vorhersagemodell 5 vor der Inferenz noch für das anstehende Experiment trainiert werden.
Aus dem Prognosebild 50 sowie dem korrespondierenden aufgenommenen Bild 24 wird ein Differenzbild 51 berechnet. Bei einem hinreichend gut trainierten Verarbeitungsmodell 5 ist ein Unterschied zwischen dem Prognosebild 50 und dem korrespondierenden aufgenommenen Bild 24 sehr gering, so dass das Differenzbild 51 vor allem Nullen umfasst. Nach dem Berechnen des Differenzbildes 51 wird das Differenzbild 51 als Farbinformation gespeichert. Dadurch, dass das Differenzbild 51 vor allem Nullen umfasst, kann das Differenzbild 51 sehr effizient gespeichert werden und es wird beim Speichern gegenüber dem Speichern der erfassten Bilder oder Bildebenen der Z-Bilder erheblich weniger Datenvolumen benötigt.
Dadurch, dass die Vorhersagen der Prognosebilder 50 reproduzierbar sind, können aus den gespeicherten Differenzbildern 51 jeweils wieder die erfassten Bilder rekonstruiert werden. Hierzu wird zunächst ein unkomprimiert gespeichertes Bild der ersten Färberunde ausgelesen. Basierend auf dem ersten, umkomprimiert gespeicherten Bild wird ein Bild der zweiten Färberunde mittels des Verarbeitungsmodells 5 vorhergesagt und mittels dem gespeicherten Differenzbild 51 und dem vorhergesagten Prognosebild 50 der zweiten Färberunde dann das tatsächliche Bild der zweiten Färberunde bestimmt. Für die Bilder der weiteren Färberunden erfolgt die Rekonstruktion entsprechend. Anschließend wird anhand der rekonstruierten Bilder die in den Bildern bzw. in der Folge von Bildern erfassten Analyte bestimmt.
Beim Training können anstelle von vollständigen Bildern auch Ausschnitte der Bilder verwendet werden. Dies gilt sowohl für Ausschnitte in einem 2-dimensionalen Bild als auch für Ausschnitte von Bildebenen eines Z-Bildes.
Gemäß einer alternativen Ausführungsform kann anstelle des Verarbeitungsmodells 5 für die Vorhersage der Prognosebilder 50 auch ein Prädiktor verwendet werden. Insbesondere kann ein linearer Prädiktor verwendet werden.
Vorzugsweise werden die Vorhersagebilddaten 49 vor der Vorhersage entrauscht. Ein solches Entrauschen kann mit unterschiedlichen Methoden ausgeführt werden. Hierzu gehören klassische Methoden (Filtering/BM3D) und auch Methoden des maschinellen Lernens (NOI-SE2NOISE/NOISE2VOID).
Vorzugsweise werden die Vorhersagebilddaten 49 vor der Vorhersage normiert, sodass die zu verarbeitenden Bilddaten alle in einem vorbestimmten Intensitätsbereich liegen. Auch die mit Bezug zu den weiter oben beschriebenen Ausführungsbeispielen beschriebene Hintergrundunterdrückung kann vor dem Durchführen der Vorhersage erfolgen.
Ein Identifizieren der Analyte kann entweder anhand der gespeicherten Differenzbilder 51 erfolgen, dann muss ein dafür verwendetes Verarbeitungsmodell 5 beispielsweise basierend auf solchen Differenzbildern 51 zum Identifizieren von Analyt-Arten trainiert werden, oder die Bilder werden, wie oben beschrieben, rekonstruiert und die rekonstruierten Daten werden zum Identifizieren der Analyte, wie weiter oben beschrieben, verwendet.
Eine weitere Ausführungsform gemäß Aspekt G des Maschinenlernsystems 1 umfasst ebenfalls das Mikroskop 2, die Steuervorrichtung 3 und die Auswerteeinrichtung 4.
Die Auswerteeinrichtung 4 gemäß diesem Ausführungsbeispiel entspricht den oben erläuterten Ausführungsbeispielen, weshalb gleiche Teile nicht erneut beschrieben werden, unterscheidet sich aber von den Auswerteeinrichtungen 4 gemäß den Ausführungsbeispielen nach den Aspekten A bis F dadurch, dass die Auswerteeinrichtung 4 ein Verarbeitungsmodell 5 umfasst, das dazu trainiert wurde die Farbwerte der Bildpunkte der Bilder einer Probe einer Bewertung zu unterziehen, wobei die Bewertung angibt, ob die Farbwerte einem Gefärbt-Signal und/oder einem Ungefärbt-Signal entsprechen, und die Bildpunkte, deren Farbwerte mit einer vorbestimmten Wahrscheinlichkeit entweder ein Gefärbt-Signal oder ein Ungefärbt-Signal sind, entsprechend zu binarisieren, d.h. für die Bildpunkte wird anstelle des Farbwerts ein Binärwert, also eine 0 oder eine 1, gespeichert, je nachdem, ob das Verarbeitungsmodell 5 den Farbwert als Gefärbt-Signal oder als Ungefärbt-Signal klassifiziert (siehe hierzu 11, die exemplarisch ein Binarisieren eines vollständigen Experiments darstellt).
Beim Speichern der Farbinformation wird für die binarisierten Bildpunkte lediglich der Binärwert gespeichert. Für nicht-binarisierte Bildpunkte, bei denen die Bewertung der Farbwerte noch kein eindeutiges Ergebnis ausgibt, d.h. die Wahrscheinlichkeit nicht der vorbestimmten Wahrscheinlichkeit entspricht, wird der Farbwert weiterhin gespeichert. Die nicht-binarisierten Bildpunkte können in einer späteren Bewertung, beispielsweise nach einer der folgenden Färberunden neu bewertet werden, wenn eine erneute Bewertung ergibt, dass die vorher nicht-binarisierten Farbwerte mit der vorbestimmten Wahrscheinlichkeit entweder ein Gefärbt-Signal oder ein Ungefärbt-Signal sind, so werden auch diese zunächst nicht-binarisierten Farbwerte binarisiert und für die Bildpunkte wird anstelle des Farbwerts ein Binärwert gespeichert.
Das Verarbeitungsmodell 5 ist beispielsweise ein Scoring-Modell, das zum Bewerten der Farbwerte trainiert wurde. Ein im Training verwendeter annotierter Datensatz umfasst als Eingabe Folgen von Farbwerten und als Zielausgabe die binarisierten Farbwerte. Im Training werden dem Verarbeitungsmodell 5 die Folgen von Farbwerten eingegeben und eine Zielfunktion erfasst einen Unterschied zwischen einer Ausgabe des Verarbeitungsmodells 5 und der Zielausgabe.
Das Verarbeitungsmodell 5 kann darüber hinaus dazu eingerichtet sein, die mit Bezug zum Aspekt A beschriebene charakteristische Signatur zu erkennen und anhand der charakteristischen Signatur den Farbwerten eine Klasse zuzuweisen, d.h. hier die Klassen Gefärbt-Signal oder Ungefärbt-Signal, bzw. eine übergeordnete Klasse, wenn eine eindeutige Zuordnung nicht oder noch nicht möglich ist.
Gemäß diesem Ausführungsbeispiel werden nach der Aufnahme einer neuen Färberunde jeweils die Farbwerte aller bisher durchgeführten Färberunden in das Verarbeitungsmodell 5 eingegeben und die Farbwerte der neuen Färberunde sowie noch nicht binarisierte Farbwerte von vorherigen Färberunden bewertet.
Das Verarbeitungsmodell 5 kann so ausgebildet sein, dass es in einem Experiment, in dem m Färberunden durchgeführt werden, m Eingabekanäle hat, also für jede Färberunde einen Eingabekanal. Zu jedem der Eingabekanäle weist das Verarbeitungsmodell 5 einen Ausgabekanal auf, der die Bewertung angibt. Die Bewertung kann beispielsweise eine Wahrscheinlichkeit zwischen 0 und 1 sein, die angibt, ob der Farbwert einem Gefärbt-Signal entspricht.
Sind erst wenige der Färberunden aufgenommen, so werden bei der zur Bewertung erfolgenden Eingabe der Farbwerte in das Verarbeitungsmodell 5 die Farbwerte für die noch nicht erfolgten Färberunden zu Null gesetzt.
Die Eingabe der bereits binarisierten Farbwerte in das Verarbeitungsmodell 5 erfolgt so, dass das Verarbeitungsmodell 5 für die binarisierten Farbwerte jeweils wieder den entsprechenden Binärwert ausgibt. Dazu kann das Verarbeitungsmodell 5 auf verschiedene Weisen realisiert sein.
Beispielsweise ist das Verarbeitungsmodell 5 so ausgebildet, dass es Eingaben lediglich im Wertebereich zwischen 0 und 1 empfängt, entsprechend müssen die Farbwerte vor der Eingabe so normiert werden, dass sie zwischen 0 und 1 liegen.
Alternativ kann das Verarbeitungsmodell 5 so ausgebildet sein, dass zu jedem Eintrag der Eingabe ein weiterer Binarisierungskontrollwert eingegeben wird, der angibt, ob der jeweilige Farbwert binarisiert wurde oder nicht. Entsprechend verarbeitet das Verarbeitungsmodell 5 die Komponenten der Eingaben anders, abhängig davon, ob die Eingaben bereits binarisiert wurden oder nicht. Beispielsweise kann ein bereits binarisierter Farbwert, der ja als „0“ oder „1“, also als Binärwert mit lediglich einem Bit und somit einer anderen Quantisierung, gespeichert ist, entsprechend einem Wertebereich der Farbwerte als 0 bzw. Maximalwert des Wertebereichs der Farbwerte in das Verarbeitungsmodell 5 eingegeben werden, wenn das Verarbeitungsmodell 5 den Binarisierungskontrollwert entsprechend einliest und feststellt, dass der Farbwert bereits binarisiert wurde. Reicht der Wertebereich der Farbwerte beispielsweise von 0-65.536 und ist ein Farbwert bereits binarisiert, so ist der Binarisierungskontrollwert beispielsweise 1 und der binarisierte Farbwert 0, dann liest das Verarbeitungsmodell eine 0 als Eingabewert stellvertretend für die Färberunde ein. Ist der binarisierte Farbwert 1, so liest das Verarbeitungsmodell 65.536 als Eingabewert für die entsprechende Färberunde ein. Ist der jeweilige Farbwert noch nicht binarisiert worden, so wird dies vom Binarisierungskontrollwert entsprechend angegeben, beispielsweise ist der Binarisierungskontrollwert dann gerade 0, und das Verarbeitungsmodell liest gerade den nicht-binarisierten Farbwert zu der jeweiligen Färberunde ein.
Die Entscheidung, ob ein Farbwert mit einer vorbestimmten Wahrscheinlichkeit ein Gefärbt-Signal oder ein Ungefärbt-Signale darstellt, kann mittels einem Konfidenzmaß oder mittels einer Heuristik ermittelt werden.
Gemäß einer Alternative ist das Verarbeitungsmodell 5 als Klassifikationsmodell ausgebildet, das jedem der Farbwerte entweder die Klasse Gefärbt-Signal oder Ungefärbt-Signale zuordnen sollte. Es zeigt sich, dass die Zuordnung zu einer der Klassen gerade für frühe Färberunden mitunter nicht eindeutig ist. Daher ist es zweckmäßig, eine 3. Klasse einzuführen, diese 3. Klasse umfasst alle Farbwerte, die nicht eindeutig der Gefärbt-Signal oder der Ungefärbt-Signal Klasse zugeordnet werden können, da die Wahrscheinlichkeit, dass der jeweilige Farbwert ein Gefärbt-Signal oder ein Ungefärbt-Signale ist, zu gering ist.
Wie bereits mit Bezug zu den vorherigen Ausführungsformen beschrieben, kann das Verarbeitungsmodell 5 zusätzlich noch Kontextinformationen einlesen, die bei der Bewertung der Farbwerte verwendet werden. Beispielsweise umfassen die Kontextinformationen Farbwerte der vorherigen Färberunden, statistische Werte der bisher durchgeführten Färberunden, ein oder mehrere Farbwerte von Hintergrundbildern, statistische Werte zum Hintergrund, Informationen über eine Anzahl zu erwartender Analyte in einer Probe, ein verwendetes Codebuch oder auch eine Nutzer-ID.
Beispielsweise kann die verwendete Kontextinformation auch von einer Semantik der aufgenommenen Bilder abhängen. Dementsprechend können Kontextinformationen auch anhand einer semantischen Segmentierung eingelesen werden.
Sind alle Farbwerte eines Datenpunktes bzw. eines Bildpunktes bewertet und gegebenenfalls binarisiert worden, so kann anhand der resultierenden (nicht-)binarisierten Farbwerte durch Abgleich mit einem Codebuch eine Analyt-Art bestimmt werden, vorausgesetzt, dass ausreichend viele Farbwerte als Gefärbt-Signal identifiziert werden.
Gemäß einer Ausführung erfolgt nach einer vollständigen Binarisierung eines Farbwertvektors eine Multiplikation mit einer Codebuch-Matrix, wobei die Codebuch-Matrix für alle zu identifizierenden Analyt-Arten eine Soll-Bitfolge umfasst. Durch die Matrix-Multiplikation erhält man für jede der Soll-Bitfolgen in der Codebuch-Matrix eine Summe der übereinstimmenden 1-Einträge zwischen dem vollständig binarisierten Farbvektor und der jeweiligen Soll-Bitfolge der Codebuch-Matrix.
Umfasst ein Experiment beispielsweise 16 Färberunden und wird jede der Analyt-Arten mit fünf Gefärbt-Signalen codiert, so sollte das Ergebnis der Multiplikation des vollständig binarisierten Farbwertvektors mit der Codebuch-Matrix für die richtige Analyt-Art gerade eine 5 ergeben, da in der Matrix-Multiplikation die 1-Einträge des binarisierten Farbwertvektors gerade auf die 1-Einträge der Soll-Bitfolge treffen und aufaddiert werden. Für alle nicht passenden Soll-Bitfolgen ist das Ergebnis der Matrix-Multiplikation kleiner als 5.
Weitere Ausführungsformen der Erfindung können der folgenden Auflistung von Beispielen gemäß der Teillösungen A bis G entnommen werden. Die Beispiele zu den Teillösungen A-G können einzeln oder in beliebigen Kombinationen miteinander verwendet werden.
Teillösung A
Beispiel 1A der Erfindung betrifft einVerfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben einer oder mehrerer Analyten mit Markern in mehreren Färberunden, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind, Detektieren mehrerer Marker mit einer Kamera (12), welche für eine jede Färberunde zumindest ein Bild (24) mit mehreren Bildpunkten erzeugt, das Gefärbt-Signale und Ungefärbt-Signale umfasst, wobei ein Gefärbt-Signal ein Bildpunkt mit einer Farbinformation eines Markers und ein Ungefärbt-Signal ein Bildpunkt mit einer Farbinformation ist, die nicht auf einem Marker beruht, und Speichern der Bilder (24) der jeweiligen Färberunden zum Auswerten der Farbinformationen, wobei ein Datenpunkt jeweils ein oder mehrere zusammenhängende Bildpunkte in den Bildern (24) der mehreren Färberunden umfasst, die demselben Ort in einer Probe zugeordnet sind, dadurch gekennzeichnet,
dass ein jeder der Datenpunkte anhand der Farbinformationen zumindest des aktuellen Bildes (24) bewertet wird, ob er ein Kandidaten-Datenpunkt sein kann, d.h., dass er Gefärbt-Signale enthalten und damit einen Analyten codieren kann, und
beim Speichern der Farbinformationen die Farbinformationen der Datenpunkte der Bilder (24) eliminiert werden, die anhand der Bewertung sicher kein Kandidaten-Datenpunkt sind.
Beispiel 2A der Erfindung betrifft ein Verfahren nach Beispiel 1A,
dadurch gekennzeichnet,
dass ein jeder Datenpunkt auch anhand der Farbinformationen aller bisherigen Färberunden und/oder einer Teilmenge der bisherigen Färberunden und/oder anhand von Farbinformationen benachbarter Datenpunkten bewertet wird, ob er ein Kandidaten-Datenpunkt ist.
Beispiel 3A der Erfindung betrifft ein Verfahren nach Beispiel 1A oder 2A,
dadurch gekennzeichnet,
dass die Datenpunkte mit einem Verarbeitungsmodell (5) eines Maschinenlernsystems (1) bewertet werden.
Beispiel 4A der Erfindung betrifft ein Verfahren nach Beispiel 3A,
dadurch gekennzeichnet,
dass das Verarbeitungsmodell (5) mit einem annotierten Datensatz trainiert worden ist, der als Eingabe Folgen von Farbinformationen mehrerer Datenpunkte umfasst und als Zielausgabe eine Klassifizierung ob die jeweilige Folge von einem Kandidaten-Datenpunkt oder einem Hintergrund-Datenpunkt stammt.
Beispiel 5A der Erfindung betrifft ein Verfahren nach Beispiel 4A,
dadurch gekennzeichnet,
dass der annotierte Datensatz anhand eines Teils eines Experiments gewonnen worden ist, so dass das trainierte Verarbeitungsmodell (5) auf den übrigen Teil des Experiments angewendet werden kann.
Beispiel 6A der Erfindung betrifft ein Verfahren nach Beispiel 4A oder 5A,
dadurch gekennzeichnet,
dass nach einem neuen Experiment ein weiterer annotierter Datensatz nach einem Identifizieren der Analyten anhand der komprimierten Bilder, die ohne die Farbinformationen der Datenpunkte gespeichert worden sind, die keinen Analyten codieren, erzeugt wird, wobei für eine Auswahl der Datenpunkte die keinen Analyten codieren die Farbinformationen mit gespeichert werden und die Farbinformationen der Datenpunkte, die keinen Analyt codieren, im weiteren annotierten Datensatz als Hintergrund-Datenpunkte verwendet werden, und das Verarbeitungsmodell (5) mit dem weiteren annotierten Datensatz trainiert wird.
Beispiel 7A der Erfindung betrifft ein Verfahren nach einem der Beispiele 1A bis 6A,
dadurch gekennzeichnet,
dass ein Bild (24) eine zweidimensionale Abbildung umfasst mit mehreren Pixeln als Bildpunkte oder eine dreidimensionale Abbildung mit mehreren Voxeln als Bildpunkte umfasst, wobei die Bilder (24) als zusätzliche Dimension eine Zeitinformation umfassen können.
Beispiel 8A der Erfindung betrifft ein Verfahren nach einem der Beispiele 1A bis 7A,
dadurch gekennzeichnet,
dass das Verarbeitungsmodell (5) ein Klassifizierungsmodell ist, mit welchem Kandidaten-Datenpunkte und/oder Hintergrund-Datenpunkte binär klassifiziert werden, und/oder dass das Verarbeitungsmodell (5) ein semantisches Segmentierungsmodell ist, mit welchem Kandidaten-Datenpunkte und/oder Hintergrund-Datenpunkte semantisch segmentiert werden, und/oder dass das Verarbeitungsmodell (5) ein Bild-zu-Bild-Modell ist, welches insbesondere zum Ausgeben einer Heat-Map trainiert ist, mit der Wahrscheinlichkeiten oder Dichten von Kandidaten-Datenpunkten und/oder Hintergrund-Datenpunkten ausgegeben werden.
Beispiel 9A der Erfindung betrifft ein Verfahren nach einem der Beispiele 1A bis 7A,
dadurch gekennzeichnet,
dass das Verarbeitungsmodell (5) ein Detektionsmodell ist, das zum Detektieren von Kandidaten-Datenpunkten trainiert ist, wobei insbesondere eine Liste der Koordinaten der Kandidaten-Datenpunkte ausgegeben wird.
Beispiel 10A der Erfindung betrifft ein Verfahren nach Beispiel 9A,
dadurch gekennzeichnet,
dass das Detektionsmodell zum Detektieren der Ausdehnung der Kandidaten-Datenpunkte trainiert ist, wobei die ausgegebene Liste neben den Koordinaten der Vordergrunddatenpunkte auch die Ausdehnung der jeweiligen Kandidaten-Datenpunkte umfasst.
Beispiel 11A der Erfindung betrifft ein Verfahren nach einem der Beispiele 1A bis 10A,
dadurch gekennzeichnet,
dass beim Speichern der Bilder (24) nach einer der Färberunden Datenpunkte nicht berücksichtigt werden, deren Farbinformationen nach einer vorhergehenden Färberunde bereits eliminiert worden sind.
Beispiel 12A der Erfindung betrifft ein Verfahren nach einem der Beispiele 1A bis 11A,
dadurch gekennzeichnet,
dass Datenpunkte mit Farbinformationen als nicht einen Analyten codierend bewertet werden, deren Farbwerte zwar aufgrund ihrer Intensität und/oder charakteristischen Signatur als Farbwerte eines Markers beurteilt werden können, wobei die Farbwerte dieser Datenpunkte nach einigen Färberunden keinem Analyten zuordbar sind, da die dem jeweiligen Datenpunkt zugeordnete Folge von Farbwerten keinem möglichen Muster oder keiner möglichen Folge von Farbwerten für einen Analyten entsprechen kann.
Beispiel 13A der Erfindung betrifft ein Verfahren nach Beispiel 12A,
dadurch gekennzeichnet,
dass die Überprüfung einer Folge von Farbwerten eines Bildpunkts mit einem Scoring-Modell ausgeführt wird, wobei die Bildpunkte mit einer charakteristischen Signatur als potentielle Marker beurteilt werden und deren Folge von Farbwerten dahingehend überprüft wird, ob sie einem möglichen Muster eines Analyts entsprechen können.
Beispiel 14A der Erfindung betrifft ein Verfahren nach einem der Beispiele 3A bis 13A,
dadurch gekennzeichnet,
dass dem Verarbeitungsmodell (5) als Eingangsdaten zusätzlich Kontextinformationen zugeführt werden, welche weitere Eigenschaften der Probe und/oder des Experiments und/oder der zu erwartenden Analyten beschreiben und insbesondere Parameter zum Färben der Probe, und/oder die erwartete Anzahl an Analyten oder auch das erwartete Verhältnis der in der Probe enthaltenen Analyten umfassen können, wobei anhand dieser Kontextinformationen die Sensitivität der Bewertung der Datenpunkte justiert wird und/oder automatisch ein Verarbeitungsmodell (5) aus einem Satz von Verarbeitungsmodellen (5) ausgewählt wird.
Beispiel 15A der Erfindung betrifft ein Verfahren nach Beispiel 14A,
dadurch gekennzeichnet,
dass die Kontextinformationen durch eine Segmentierung gewonnen wurden und insbesondere Zellbereiche und Bereiche, die keiner Zelle zugeordnet sind, unterscheiden.
Beispiel 16A der Erfindung betrifft ein Verfahren nach einem der Beispiele 3A bis 15A,
dadurch gekennzeichnet,
dass die Sensitivität des Verarbeitungsmodells (5), mit dem bewertet wird, ob ein Datenpunkt ein Kandidaten-Datenpunkt sein kann, für die unterschiedlichen Färberunden variiert wird, wobei insbesondere bei den ersteren Färberunden eine höhere Sensitivität als in den späteren Färberunden angewendet wird.
Beispiel 17A der Erfindung betrifft ein Verfahren nach einem der Beispiele 1A bis 16A,
dadurch gekennzeichnet,
dass die Reihenfolge der Färberunden so gewählt wird, dass die Anzahl der gemessenen Marker in frühen Runden maximiert wird.
Beispiel 18A der Erfindung betrifft ein Verfahren nach einem der Beispiele 1A bis 17A,
dadurch gekennzeichnet,
dass die Bilder (24) in einem der folgenden Formate gespeichert werden:

- Hintergrunddatenpunkte, die keinen Analyten codieren, werden auf einen bestimmten Wert, insbesondere „0“ gesetzt, wobei Bereiche der Bilder (24), deren Bildpunkten der gleiche Wert zugeordnet ist, beim Speichern komprimiert werden,
- Binärarray, bei dem in einem Array mittels nur eines Bits abgespeichert wird, ob es sich um einen Vordergrund- oder Hintergrunddatenpunkt handelt, wobei eine zusätzliche Liste gespeichert werden kann, in der fortlaufend alle Farbwerte der Vordergrunddatenpunkte abgelegt werden, wobei mittels eines Index eine Zuordnung der Vordergrunddatenpunkte des Arrays zu den Farbwerten der Liste hergestellt wird,
- schwach besetzte Matrix (sparse-matrix), welche eine Liste mit Koordinaten und Farbwerten aller Vordergrunddatenpunkte und optional deren Ausdehnung umfasst.

Beispiel 19A der Erfindung betrifft ein Verfahren nach Beispiel 18A,
dadurch gekennzeichnet,
dass die Bilder (24) der unterschiedlichen Färberunden mit unterschiedlichen Formaten abgespeichert werden, wobei insbesondere die Bilder (24) der ersten Färberunden in einem komprimierenden Bildformat gespeichert werden und die Bilder (24) der späteren Färberunden als schwach besetzte Matrix oder als Binärarray gespeichert werden.
Beispiel 20A der Erfindung betrifft ein Verfahren nach einem der Beispiele 1A bis 19A,
dadurch gekennzeichnet,
dass die Analyten eines von Proteine, Polypeptide oder Nukleinsäuremoleküle sind und die Marker mittels analytspezifischer Sonden an die Analyten koppeln und ein an den Marker gekoppeltes Farbstoffmolekül aufweisen.
Beispiel 21A der Erfindung betrifft ein Verfahren nach Beispiel 20A,
dadurch gekennzeichnet,
dass die Marker der ersten bzw. der ersten und zweiten Färberunde eine kürzere Oligonukleotid-Sequenz als in den nachfolgenden Färberunden aufweisen, wobei die Oligonukleotid-Sequenzen der Marker der ersten bzw. ersten und zweiten Färberunde nicht mehr als 10 Nukleotide umfassen.
Beispiel 22A der Erfindung betrifft ein Verfahren nach einem der Beispiele 1A bis 21A,
dadurch gekennzeichnet,
dass die Analyten anhand der ermittelten Farbinformationen identifiziert werden.
Beispiel 23A betrifft ein Verfahren nach einem der Beispiele 1A bis 22A,
dadurch gekennzeichnet,
dass das Verfahren vor dem Aufbereiten von Daten zum Identifizieren von Analyten noch einen Schritt Durchführen einer Hintergrundkorrektur der Bildsignale der Bildfolge umfasst, wobei das Durchführen der Hintergrundkorrektur eines oder mehrere der folgenden umfasst:

- ein Rolling-Ball-Verfahren ,
- eine Filterung wie beispielsweise ein Top-Hat-Verfahren, eine homomorphe Filterung, eine Tiefpassfilterung, wobei das Ergebnis der Tiefpassfilterung vom Signal abgezogen wird, oder eine zeitliche Filterung,
- Hintergrundkorrektur mittels eines Bild-zu-Bild-Modells,
- Hintergrundkorrektur mittels Misch-Modellen,
- Hintergrundkorrektur mittels eines Mean-Shift Verfahrens,
- Hintergrundkorrektur mittels einer Hauptkomponentenanalyse,
- Hintergrundkorrektur mittels einer nicht-negativen Matrixfaktorisierung,
- Hintergrundkorrektur mittels Anregung der Auto-Fluoreszenz mit mindestens einem spezifischen Laser für alle Bildbereiche der Bildfolge, wobei der spezifische Laser gerade einem Anregungs-Spektralbereich einer der verwendeten Marker entspricht und die Analyten noch nicht mit Markern markiert sind, oder
- Hintergrundkorrektur mittels Anregung der Auto-Fluoreszenz mittels eines unspezifischen Lasers für alle Bildbereiche der Bildfolge.

Beispiel 24A der Erfindung betrifft ein Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell zum Ausführen eines Verfahrens nach einem der Beispiele 1A bis 23A, umfassend:

- Bereitstellen eines annotierten Datensatzes, und
- Optimieren einer Zielfunktion durch Anpassen der Modellparameter des Verarbeitungsmodells (5), wobei die Zielfunktion einen Unterschied zwischen einer vom Verarbeitungsmodell (5) ausgegebenen Ergebnis-Ausgabe (30) und einer Zielausgabe erfasst, dadurch gekennzeichnet:
- dass der annotierte Datensatz mindestens eine Soll-Signalfolge eines Kandidaten-Datenpunkts und eine Soll-Signalfolge eines Hintergrund-Datenpunkts umfasst und das Verarbeitungsmodell (5) als Eingabe eine Teil-Signalfolge der Soll-Signalfolgen des annotierten Datensatzes verarbeitet und anhand einer Ausgabe des Verarbeitungsmodells (5) ein zu der jeweiligen soll Signalfolge korrespondierender Datenpunkt als Hintergrund-Datenpunkt oder Kandidaten-Datenpunkt bewertet wird.

Beispiel 25A der Erfindung betrifft eine Auswerteeinrichtung (4) zum Auswerten von Bildern (24) mehrerer Färberunden, welche insbesondere als Maschinenlernsystem (1) ausgebildet ist, umfassend die Mittel zur Ausführung des Verfahrens gemäß einem der vorhergehenden Ansprüche.
Beispiel 26A der Erfindung betrifft ein Bildverarbeitungssystem (1), umfassend eine Auswerteeinrichtung (4) nach dem vorhergehenden Beispiel 25A, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Beispiel 27A der Erfindung betrifft ein Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren gemäß einem der vorhergehenden Beispiele 1A bis 24A auszuführen, das Computerprogrammprodukt ist insbesondere ein computerlesbares Speichermedium.
Beispiel 28A der Erfindung betrifft ein Maschinenlernsystem (1), umfassend eine Auswerteeinrichtung (4), wobei die Auswerteeinrichtung (4) ein Verarbeitungsmodell umfasst, das gemäß dem Verfahren gemäß einem der vorhergehenden Beispiel 24A trainiert worden ist, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Teillösung B
Beispiel 1B der Erfindung betrifft ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten in einer Probe, wobei in einem Experiment ein oder mehrere Analyten mit Markern in mehreren Färberunden eingefärbt werden, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind, Detektieren mehrerer Marker mit einer Kamera, welche für eine jede Färberunde zumindest ein Bild (24) mit mehreren Bildpunkten und ihnen zugeordneten Farbwerten erzeugt, wobei das Bild (24) Gefärbt-Signale und Ungefärbt-Signale umfasst, wobei ein Gefärbt-Signal ein Bildpunkt mit einem Farbwert, der von einem Marker stammt, und ein Ungefärbt-Signal ein Bildpunkt mit einem Farbwert ist, der nicht auf einem Marker beruht, und Speichern der Farbinformationen der jeweiligen Färberunden zum Auswerten der Farbinformationen, wobei ein Datenpunkt jeweils ein oder mehrere zusammenhängende Bildpunkte in den Bildern (24) der mehreren Färberunden umfasst, die demselben Ort in einer Probe zugeordnet sind,
dadurch gekennzeichnet,
dass für einen jeden Datenpunkt der mehreren Bilder (24) der Probe die jeweiligen Farbwerte bewertet werden, ob sie jeweils ein Gefärbt-Signal darstellen und dementsprechend einen Analyten codieren, und die n Farbwerte der unterschiedlichen Färberunden für einen jeden Datenpunkt ausgewählt werden, die am wahrscheinlichsten ein Gefärbt-Signal darstellen, wobei n eine ganze Zahl ist, die kleiner als die gesamte Anzahl der Färberunden eines Experiments ist,
dass beim Speichern der Farbinformationen die Farbwerte, die nicht ausgewählt sind, weggelassen werden.
Beispiel 2B der Erfindung betrifft ein Verfahren nach Beispiel 1 B,
dadurch gekennzeichnet,
dass die n Farbwerte mit einem Scoring-Modell eines Maschinenlernsystems (1) ausgewählt werden, wobei dem Scoring-Modell Kriterien zum Bewerten der Farbwerte, ob sie ein Gefärbt-Signal darstellen, antrainiert sind.
Beispiel 3B der Erfindung betrifft ein Verfahren nach Beispiel 2B,
dadurch gekennzeichnet,
dass nach einer jeden Färberunde die Farbwerte der Datenpunkte bewertet und die in der aktuellen Färberunde aufgenommenen Farbinformationen gespeichert werden, wobei als Eingabe zu einem Datenpunkt die maximal n Farbwerte, die das Scoring-Modell nach einer unmittelbar vorhergehenden Färberunde ausgegeben hat, sowie der in der Färberunde aufgenommene Farbwert des Datenpunkts in das Scoring-Modell eingegeben werden und das Scoring Modell die eingegebenen Farbwerte bewertet und basierend auf der Bewertung n Farbwerte ausgewählt werden, wobei der Farbwert aussortiert wird, der am wenigsten wahrscheinlich ein Gefärbt-Signal darstellt.
Beispiel 4B der Erfindung betrifft ein Verfahren nach Beispiel 2B,
dadurch gekennzeichnet,
dass nach einer jeden Färberunde die Datenpunkte bewertet und das in der aktuellen Färberunde aufgenommene Bild (24) gespeichert wird, wobei dem Scoring-Modell lediglich die Farbinformationen des aktuell aufgenommene Bildes (24) eingegeben werden.
Beispiel 5B der Erfindung betrifft ein Verfahren nach einem der Beispiele 2B bis 4B,
dadurch gekennzeichnet,
dass das Scoring-Modell mit einem annotierten Datensatz trainiert worden ist, der als Eingangsdaten Bilder (24) oder die Farbwerte der Bildpunkte und korrespondierende Zielausgaben, die jeweils definieren, ob die Farbwerte ein Gefärbt-Signal und/oder ein Ungefärbt-Signal darstellen, erhält.
Beispiel 6B betrifft ein Verfahren nach Beispiel 5B,
dadurch gekennzeichnet,
dass der annotierte Datensatz mit einem Verfahren erstellt wird, bei dem die Bilder (24) der mehreren Färberunden mit ihren Farbwerten nicht-komprimiert abgespeichert und dann ausgewertet werden, wobei beim Training für eine jede Färberunde als Eingabe zu einem Datenpunkt die maximal n Farbwerte, die nach vorbestimmten Kriterien ein Gefärbt-Signal darstellen können, sowie den in der jeweiligen Färberunde erhaltenen Farbwert des Datenpunkts in das Verarbeitungsmodell eingegeben werden,
Berechnen einer Zielfunktion, wobei die Zielfunktion einen Unterschied ausmacht zwischen den vom Verarbeitungsmodell (5) ausgegebenen n Farbwerten, die am wahrscheinlichsten ein Gefärbt-Signal darstellen, und den gemäß dem annotierten Datensatz auszuwählenden n Farbwerten, die gemäß der Bewertung im annotierten Datensatz am wahrscheinlichsten ein Gefärbt-Signal darstellen, und Optimieren der Zielfunktion durch Anpassen der Modellparameter.
Beispiel 7B der Erfindung betrifft ein Verfahren nach Beispiel 5B oder 6B,
dadurch gekennzeichnet,
dass der annotierte Datensatz mittels einem oder mehreren der folgenden Schritte generiert wurde:

- Simulieren von Signalen der verschiedenen Marker unter Verwendung eines repräsentativen Hintergrundbildes und einer bekannten Punktspreizfunktion eines Mikroskops (2),
- Generieren des annotierten Datensatzes mittels eines generativen Modells, das auf vergleichbaren Daten trainiert wurde,
- Aufnehmen von Referenzbildern, umfassend mindestens ein Hintergrundbild sowie zu jedem der Hintergrundbilder für jede Analyt-Art mindestens ein Bild (24), in dem Analyte der jeweiligen Analyt-Art markiert sind,
- Durchführen eines herkömmlichen Verfahrens zur räumlichen Identifizierung von Analyten,
- Aufnehmen eines repräsentativen Hintergrundbildes und pixelweises Abziehen der Bildsignale des repräsentativen Hintergrundbildes von den Bildsignalen der Bildfolge, auf denen der annotierte Datensatz basiert, vor dem Bereitstellen des annotierten Datensatzes, so dass der annotierte Datensatz nur hintergrundkorrigierte Signalfolgen umfasst, und/oder
- Gewinnen des annotierten Datensatzes anhand eines Teils eines Experiments, so dass das trainierte Scoring-Modell auf den übrigen Teil des Experiments angewendet werden kann.

Beispiel 8B der Erfindung betrifft ein Verfahren nach einem der Beispiele 1B bis 7B,
dadurch gekennzeichnet,
dass die Datenpunkte zum Auswählen der n Farbwerte nach vorbestimmten Kriterien bewertet werden, ob sie ein Gefärbt-Signal darstellen, wobei die Kriterien die Intensität, die Farbe und/oder die Ausdehnung des Datenpunktes berücksichtigen.
Beispiel 9B der Erfindung betrifft ein Verfahren nach einem der Beispiele 6B bis 8B,
dadurch gekennzeichnet,
dass die Kriterien zum Auswählen der n Farbwerte Schwellwerte für eine minimale und/oder maximale Intensität umfassen, wobei die Schwellwerte statisch vorgegeben sind oder dynamisch bestimmt werden, und/oder
die Schwellwerte für eine minimale und/oder maximale Intensität in Abhängigkeit von der Farbe der Farbwerte variieren, und/oder
durch einen minimalen Abstand zu vorbestimmten Zielwerten der Intensität, Farbe und/oder Ausdehnung bestimmt werden.
Beispiel 10B der Erfindung betrifft ein Verfahren nach einem der Beispiele 1B bis 9B,
dadurch gekennzeichnet,
dass Zusatzinformationen, wie z.B. statistische Informationen zu allen Farbwerten eines jeweiligen Datenpunktes und/oder zu den nicht-ausgewählten Farbwerten eines der Datenpunkte und/oder zu den ausgewählten Farbwerten eines der Datenpunkte, wie z.B. eine Information zur Färberunde (Nr.; Zeitpunkt; etc.) und/oder ein gleitender Mittelwert, eine Standardabweichung und/oder ein Median einer Eigenschaft der Farbinformationen des jeweiligen Datenpunktes oder der Farbinformationen mehrerer Datenpunkte gespeichert werden, wobei die Eigenschaften der Farbinformationen insbesondere die Intensität, Farbe und/oder Ausdehnung umfassen.
Beispiel 11B der Erfindung betrifft ein Verfahren nach einem der Beispiele 1B bis 10B,
dadurch gekennzeichnet,
dass einer der Analyte mit i Marker in m Färberunden eingefärbt wird, und die Anzahl n der ausgewählten Farbwerte für einen jeden Datenpunkt n = i+a ist, wobei i+a kleiner als die Anzahl m der Färberunden ist, wobei a eine ganze Zahl zwischen 0 und 3 ist und vorzugsweise anhand einer Semantik automatisch bestimmt wird.
Beispiel 12B der Erfindung betrifft ein Verfahren nach einem der Beispiele 1B bis 11 B,
dadurch gekennzeichnet,
dass ein Bild (24) ein zweidimensionales Bild (24) mit mehreren Pixeln als Bildpunkten oder ein dreidimensionales Bild (24) mit mehreren Voxeln als Bildpunkten umfasst, wobei die Bilder (24) als zusätzliche Dimension eine Zeitinformation umfassen können.
Beispiel 13B der Erfindung betrifft ein Verfahren nach einem der Beispiele 1B bis 12B,
dadurch gekennzeichnet,
dass n nicht größer als die Hälfte und insbesondere nicht größer als ein Drittel der gesamten Anzahl der Färberunden eines Experimentes ist.
Beispiel 14B der Erfindung betrifft ein Verfahren nach einem der Beispiele 5B bis 13B,
dadurch gekennzeichnet,
dass das Scoring-Modell ein CNN (Convolutional Neural Network), ein MLP (Multi-Layer-Perzeptron) oder eine sequentielles Modell ist.
Beispiel 15B der Erfindung betrifft ein Verfahren nach einem der Beispiele 1B bis 14B,
dadurch gekennzeichnet,
dass die Farbinformationen in einem der folgenden Formate gespeichert werden:

- für die Datenpunkte werden nur die ausgewählten Farbwerte mit und ohne Zusatzinformationen gespeichert,
- für die Datenpunkte werden nur die ausgewählten Farbwerte jeweils zusammen mit einem Index, der angibt, von welcher Färberunde der jeweilige Farbwert stammt, mit und ohne Zusatzinformationen gespeichert,
- die erfassten Bilder werden abgespeichert, wobei die nicht ausgewählten Farbwerte auf einen vorbestimmten Füllwert gesetzt werden, der beispielsweise „0“ ist.

Beispiel 16B der Erfindung betrifft ein Verfahren nach einem der Beispiele 1B bis 15B,
dadurch gekennzeichnet,
dass die Analyten anhand der ausgewählten, gespeicherten Farbwerte identifiziert werden.
Beispiel 17B der Erfindung betrifft ein Verfahren nach Beispiel 16B,
dadurch gekennzeichnet,
dass nach dem Identifizieren der Analyten und ggfs. manuellem Korrigieren ein entsprechend erweiterter annotierter Datensatz erzeugt und das Verarbeitungsmodell 5 mit dem erweiterten annotierten Datensatz trainiert wird.
Beispiel 18B der Erfindung betrifft ein Verfahren nach einem der Beispiele 1B bis 17B,
dadurch gekennzeichnet,
dass das Verfahren vor dem Aufbereiten von Daten zum Identifizieren von Analyten noch einen Schritt Durchführen einer Hintergrundkorrektur der Farbwerte umfasst, wobei das Durchführen der Hintergrundkorrektur eines oder mehrere der folgenden umfasst:

- ein Rolling-Ball-Verfahren,
- eine Filterung wie beispielsweise ein Top-Hat-Verfahren, eine homomorphe Filterung, eine Tiefpassfilterung, wobei das Ergebnis der Tiefpassfilterung vom Signal abgezogen wird, oder eine zeitliche Filterung,
- Hintergrundkorrektur mittels eines Bild-zu-Bild-Modells,
- Hintergrundkorrektur mittels Misch-Modellen,
- Hintergrundkorrektur mittels eines Mean-Shift Verfahrens,
- Hintergrundkorrektur mittels einer Hauptkomponentenanalyse,
- Hintergrundkorrektur mittels einer nicht-negativen Matrixfaktorisierung,
- Hintergrundkorrektur mittels Anregung der Auto-Fluoreszenz mit mindestens einem spezifischen Laser für alle Bildbereiche der Bildfolge, wobei der spezifische Laser gerade einem Anregungs-Spektralbereich einer der verwendeten Marker entspricht und die Analyten noch nicht mit Markern markiert sind, oder
- Hintergrundkorrektur mittels Anregung der Auto-Fluoreszenz mittels eines unspezifischen Lasers für alle Datenpunkte der Bilder.

Beispiel 19B der Erfindung betrifft ein Verfahren nach einem der Beispiele 2B bis 18B,
dadurch gekennzeichnet,
dass dem Scoring-Modell als Eingangsdaten zusätzlich Kontextinformationen zugeführt werden, welche weitere Eigenschaften der Probe und/oder des Experiments und/oder der zu erwartenden Analyten beschreiben und insbesondere Parameter zum Färben der Probe, und/oder die erwartete Anzahl an Analyten oder auch das erwartete Verhältnis der in der Probe enthaltenen Analyten umfassen können.
Beispiel 20B der Erfindung betrifft ein Verfahren nach einem der Beispiele 2B bis 10B,
dadurch gekennzeichnet,
dass zusätzlich Kontextinformationen verwendet werden, um ein geeignetes Scoring-Modell aus einer Vielzahl unterschiedlicher, vortrainierter Scoring-Modelle auszuwählen, wobei die Kontextinformationen weitere Eigenschaften der Probe und/oder des Experiments und/oder der zu erwartenden Analyten beschreiben und insbesondere Parameter zum Färben der Probe, und/oder die erwartete Anzahl an Analyten oder auch das erwartete Verhältnis der in der Probe enthaltenen Analyten umfassen können.
Beispiel 21B der Erfindung betrifft ein Verfahren nach Beispiel 19B oder 20B,
dadurch gekennzeichnet,
dass die Kontextinformationen durch eine Segmentierung gewonnen wurden und insbesondere Zellbereiche und Bereiche, die keiner Zelle zugeordnet sind, unterscheiden.
Beispiel 22B der Erfindung betrifft ein Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell zum Ausführen eines Verfahrens nach einem der Beispiele 1B bis 21B, umfassend:

Beispiel 23B der Erfindung betrifft eine Auswerteeinrichtung (4) zum Auswerten von Bildern (24) mehrerer Färberunden, welche insbesondere als Maschinenlernsystem (1) ausgebildet ist, umfassend die Mittel zur Ausführung des Verfahrens gemäß einem der vorhergehenden Beispiele.
Beispiel 24B der Erfindung betrifft ein Bildverarbeitungssystem (1), umfassend eine Auswerteeinrichtung (4) nach dem vorhergehenden Beispiel 22B, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Beispiel 25B der Erfindung betrifft ein Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren gemäß einem der vorhergehenden Beispiele 1B bis 22B auszuführen, das Computerprogrammprodukt ist insbesondere ein computerlesbares Speichermedium.
Beispiel 26B der Erfindung betrifft ein Maschinenlernsystem (1), umfassend eine Auswerteeinrichtung (4), wobei die Auswerteeinrichtung (4) ein Verarbeitungsmodell umfasst, das gemäß dem Verfahren gemäß einem der vorhergehenden Beispiel 22B trainiert worden ist, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Teillösung C
Beispiel 1C der Erfindung betrifft ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben eines oder mehrerer Analyten mit Markern in mehreren Färberunden, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind, Detektieren mehrerer Marker mit einer Kamera, welche für eine jede Färberunde zumindest ein Bild mit mehreren Bildpunkten und ihnen zugeordneten Farbwerten erzeugt, das Farbinformationen eines oder mehrerer Marker enthalten kann, und Speichern der Farbinformationen der jeweiligen Färberunden zum Auswerten der Farbinformationen, wobei ein Datenpunkt jeweils ein oder mehrere zusammenhängende Bildpunkte in den Bildern der mehreren Färberunden umfasst, die demselben Ort in einer Probe zugeordnet sind, dadurch gekennzeichnet,
dass für einen jeden Datenpunkt einer Probe jeweils der Farbwert für eine von n Färberunden eines Experiments aufgenommen wird und diese Farbwerte jeweils eine Komponente eines Ausgangsvektors mit der Dimension n bilden, wobei die einzelnen Vektorkomponenten (38) nach Aufnahme des entsprechenden Farbwerts auf einen Projektionsvektor mit einer Dimension k, die kleiner als n ist, projiziert werden und der Projektionsvektor für eine jede Färberunde auf einen Aggregationsvektor (40) mit der gleichen Dimension k wie der Projektionsvektor sequentiell aggregiert wird, und der Aggregationsvektor (40) gespeichert wird.
Beispiel 2C der Erfindung betrifft ein Verfahren nach Beispiel 1C,
dadurch gekennzeichnet,
dass die Projektion eine lineare Projektion ist und das Aggregieren zum Aggregationsvektor (40) ein Aufsummieren ist, und insbesondere eine Hauptachsentransformation oder eine Singulärwertzerlegung, SVD, ist.
Beispiel 3C der Erfindung betrifft ein Verfahren nach Beispiel 1C,
dadurch gekennzeichnet,
dass die Projektion eine nichtlineare Projektion ist und das Aggregieren zum Aggregationsvektor (40) ein Aufsummieren oder ein Multiplizieren der Komponenten ist.
Beispiel 4C der Erfindung betrifft ein Verfahren nach Beispiel 2C,
dadurch gekennzeichnet,
dass die Projektion eine Hauptachsentransformation ist und die Basen und die Transformationsmatrix aus den Daten eines vorhergehenden Experimentes und/oder Hintergrundbildes oder den erwarteten idealen Codes analytisch berechnet oder geschätzt werden.
Beispiel 5C der Erfindung betrifft ein Verfahren nach Beispiel 4C,
dadurch gekennzeichnet,
dass die Hauptachsentransformation eine Transformation vom m-dimensionalen Ausgangsraum auf einen m-dimensionalen Zielraum ist und ein k-dimensionaler Projektionsraum ein Teilraum des Zielraums ist, und die k Komponenten der Projektionsvektoren den k Dimensionen des Projektionsraums entsprechen und (m-k)=j Komponenten im Zielraum weggelassen werden, um aus dem Zielraum den Projektionsraum zu erhalten, und die weggelassenen j Komponenten insbesondere mindestens eine der folgenden Komponenten umfassen:

- die letzte Komponente,
- die letzten Komponenten,
- die erste Komponente, oder
- die erste und die letzte Komponente.

Beispiel 6C der Erfindung betrifft ein Verfahren nach einem der Beispiele 1C bis 5C,
dadurch gekennzeichnet,
dass die Projektion mit einem Verarbeitungsmodell (5) ausgeführt wird.
Beispiel 7C der Erfindung betrifft ein Verfahren nach Beispiel 6C,
dadurch gekennzeichnet,
dass das Verarbeitungsmodell (5) aus einem neuronalen Netzwerk, insbesondere als ein Convolutional Neural Network, CNN, gebildet ist.
Beispiel 8C der Erfindung betrifft ein Verfahren nach Beispiel 6C oder 7C,
dadurch gekennzeichnet,
dass das Verarbeitungsmodell (5) c Eingabestränge aufweist, welche jeweils d Eingabekanäle aufweisen und die c Eingabestränge sich k Ausgabekanäle teilen, wobei die Ausgaben der einzelnen Eingabestränge in den k Ausgabekanälen kanalweise aggregiert werden, wobei d vorzugsweise eine Anzahl an beim Detektieren verwendeten Farbkanälen ist und c*d=m, mit m der Anzahl der Färberunden und c einem Proportionalitätsfaktor zwischen der Anzahl an Färberunden m und der Anzahl an verwendeten Farbkanälen d ist.
Beispiel 9C der Erfindung betrifft ein Verfahren nach Beispiel 6C oder 7C,
dadurch gekennzeichnet,
dass das Verarbeitungsmodell 5 mit einem annotierten Datensatz trainiert worden ist, dem zum Berechnen des Aggregationsvektors 40 einer der Datenpunkte als Eingangsvektoren zugeführt werden, bei denen ein i-tes Vektorelement der Farbwert des Datenpunktes der i-ten Färberunde ist und die übrigen Vektorelemente 0 sind, und
eine Zielfunktion den Unterschied zwischen einer Zielausgabe und den Aggregationsvektoren (40) erfasst, wobei die Zielausgabe mit einer dimensionsreduzierenden Transformation, insbesondere einer linearen oder nichtlinearen Projektion, aus den Eingangsvektoren berechnet werden, wobei die transformierten Eingangsvektoren sequentiell miteinander zum Aggregationsvektor (40) aggregiert werden.
Beispiel 10C der Erfindung betrifft ein Verfahren nach Beispiel 9C,
dadurch gekennzeichnet,
dass das Verarbeitungsmodell (5) für einen jede Vektorkomponente (38) des Eingabevektors separat trainiert wird.
Beispiel 11C der Erfindung betrifft ein Verfahren nach einem der Beispiele 6C bis 10C,
dadurch gekennzeichnet,
dass ein Verarbeitungsmodell (5) unabhängig vom durchzuführenden Experiment vortrainiert ist, oder dass mehrere Verarbeitungsmodelle (5) für unterschiedliche Typen von Experimenten vortrainiert sind, und dass eine Kontextinformation zum Typ des jeweiligen Experiments zur automatischen Auswahl des geeignetsten Verarbeitungsmodells (5) verwendet wird.
Beispiel 12C der Erfindung betrifft ein Verfahren nach einem der Beispiele 1C bis 11C,
dadurch gekennzeichnet,
dass die Analyten anhand der ermittelten Farbinformationen identifiziert werden, wobei vor dem Identifizieren die gespeicherten Aggregationsvektoren (40) rücktransformiert werden, so dass die Farbwerte der jeweiligen Färberunden in der ursprünglichen Fassung wiederhergestellt sind.
Beispiel 13C der Erfindung betrifft ein Verfahren nach einem der Beispiele 1C bis 11C,
dadurch gekennzeichnet,
dass die Analyten anhand der transformierten und gespeicherten Farbinformationen identifiziert werden, wobei vorab die für die zu erfassenden Analyten jeweils typischen Folgen von Farbwerten mit der gleichen Projektion wie die aufgenommenen Farbwerte auf einen jeweiligen Ergebnisvektor mit der Dimension k projiziert werden und die Identifikation des Analyt anhand eines Vergleichs des Aggregationsvektors 40 mit dem Ergebnisvektor zum jeweiligen Datenpunkt erfolgt.
Beispiel 14C der Erfindung betrifft ein Verfahren nach Beispiel 13C,
dadurch gekennzeichnet,
dass das Vergleichen des Aggregationsvektors mit dem Ergebnisvektor mittels eines Identifikationsverarbeitungsmodelles ausgeführt wird, mit einem annotierten Datensatz trainiert worden ist, der als Eingangsdaten Aggregationsvektoren 40 und Ergebnisvektoren von Experimenten aufweist, bei welchen die Analyten auf herkömmliche Weise identifiziert worden sind.
Beispiel 15C der Erfindung betrifft ein Verfahren nach Beispielen 1C bis 11C,
wobei der Aggregationsvektor 40 in ein Identifikationsverarbeitungsmodell eingegeben wird, das als Klassifikationsnetzwerk dazu trainiert wurde, den Aggregationsvektor 40 einer Klasse, umfassend verschiedene Analyt-Arten, zuzuordnen, oder dazu trainiert wurde, eine Ergebnis-Bitfolge auszugeben, wobei die Ergebnis-Bitfolge mit für die zu erfassenden Analyten jeweils typischen Bitfolgen abgeglichen werden, um eine Analyt-Art zu identifizieren.
Beispiel 16C der Erfindung betrifft ein Verfahren nach einem der Beispiele 1C bis 15C,
dadurch gekennzeichnet,
dass vor dem Projizieren die Ausgangsvektoren einer Hintergrundkorrektur unterzogen werden.
Beispiel 17C der Erfindung betrifft ein Verfahren nach einem der Beispiele 1C bis 16C,
dadurch gekennzeichnet,
dass ein Bild eine zweidimensionale Abbildung umfasst mit mehreren Pixeln als Bildpunkten oder eine dreidimensionale Abbildung mit mehreren Voxeln als Bildpunkten umfasst, wobei einem jeden Datenpunkt einer Probe zumindest ein Bildpunkt eines jeden Bildes zuordbar ist, wobei die Bilder als zusätzliche Dimension eine Zeitinformation umfassen können.
Beispiel 18C der Erfindung betrifft ein Verfahren nach einem der Beispiele 1C bis 16C,
dadurch gekennzeichnet,
dass einem jeden Datenpunkt jeweils ein Bildpunkt eines jeden Bildes oder einer Gruppe zusammenhängender Bildpunkte ist.
Beispiel 19C der Erfindung betrifft ein Verfahren nach einem der Beispiele 1C bis 18C,
dadurch gekennzeichnet,
dass die Bilder in verschiedene semantische Bereiche vorsegmentiert werden, wobei für unterschiedliche semantische Bereiche unterschiedliche Projektionen zum Transformieren der Ausgangsvektoren auf Aggregationsvektoren 40 verwendet werden.
Beispiel 20C der Erfindung betrifft ein Verfahren nach Anspruch 19C,
dadurch gekennzeichnet,
dass die unterschiedlichen Projektionen Hauptachsentransformationen sind, welche sich in den Basen und den Transformationsmatrizen unterscheiden.
Beispiel 21C der Erfindung betrifft ein Verfahren nach einem der Beispiele 1C bis 20C,
dadurch gekennzeichnet,
dass die Analyten eines von Proteine, Polypeptide oder Nukleinsäuremoleküle sind und die Marker mittels analytspezifischer Sonden an die Analyten koppeln und ein an den Marker gekoppeltes Farbstoffmolekül aufweisen.
Beispiel 22C der Erfindung betrifft ein Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell zum Ausführen eines Verfahrens nach einem der Beispiele 1C bis 21C, umfassend:

Beispiel 23C der Erfindung betrifft eine Auswerteeinrichtung (4) zum Auswerten von Bildern (24) mehrerer Färberunden, welche insbesondere als Maschinenlernsystem (1) ausgebildet ist, umfassend die Mittel zur Ausführung des Verfahrens gemäß einem der vorhergehenden Beispiele.
Beispiel 24C der Erfindung betrifft ein Bildverarbeitungssystem (1), umfassend eine Auswerteeinrichtung (4) nach dem vorhergehenden Beispiel 23C, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Beispiel 25C der Erfindung betrifft ein Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren gemäß einem der vorhergehenden Beispiele 1C bis 23C auszuführen, das Computerprogrammprodukt ist insbesondere ein computerlesbares Speichermedium.
Beispiel 26C der Erfindung betrifft ein Maschinenlernsystem (1), umfassend eine Auswerteeinrichtung (4), wobei die Auswerteeinrichtung (4) ein Verarbeitungsmodell umfasst, das gemäß dem Verfahren gemäß einem der vorhergehenden Beispiel 23C trainiert worden ist, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Teillösung D
Beispiel 1D der Erfindung betrifft ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben eines oder mehrerer Analyten mit Markern in mehreren Färberunden, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind, Detektieren mehrerer Marker mit einer Kamera, welche für eine jede Färberunde zumindest ein Bild (24) mit mehreren Bildpunkten erzeugt, das Farbinformationen eines oder mehrerer Marker enthalten kann, und Speichern der Farbinformationen der jeweiligen Färberunden zum Auswerten der Farbinformationen,
dadurch gekennzeichnet,
dass die in den einzelnen Färberunden ermittelten Farbwerte nach ihren Intensitätswerten in lokale oder globale Cluster (43) mit ähnlichen Intensitätswerten geclustert werden und lediglich die geclusterten Daten abgespeichert werden.
Beispiel 2D der Erfindung betrifft ein Verfahren nach Beispiel 1D,
dadurch gekennzeichnet,
dass nach jeder Färberunde durch die erneut gewonnen Farbinformationen als zusätzliche Merkmalsdimension die Intensitätswerte erneut geclustert werden.
Beispiel 3D der Erfindung betrifft ein Verfahren nach Beispiel 1D oder 2D,
dadurch gekennzeichnet,
dass zu jedem Bildpunkt eine Cluster-ID gespeichert wird, die beschreibt, zu welchem Cluster (43) der jeweilige Bildpunkt gehört.
Beispiel 4D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 3D,
dadurch gekennzeichnet,
dass zu jedem Cluster (43) der Intensitätswert einer jeden Färberunde gespeichert wird.
Beispiel 5D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 4D,
dadurch gekennzeichnet,
dass zu jedem Cluster (43) ein gleitender statistischer Wert, insbesondere ein Mittelwert, und/oder eine Varianz und/oder ein Median und/oder ein zentraler Farbwert, gespeichert wird.
Beispiel 6D der Erfindung betrifft ein Verfahren nach Beispiel 1D,
dadurch gekennzeichnet,
dass jedes Bild (24) einer Färberunde separat geclustert wird.
Beispiel 7D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 6D,
dadurch gekennzeichnet,
dass das Clustern mit einem partitionierenden, hierarchischen, graphentheoretischen oder optimierenden Clusterverfahren ausgeführt wird.
Beispiel 8D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 7D,
dadurch gekennzeichnet,
dass das Clustern mit einem überwachten oder einem nicht-überwachten Clusterverfahren ausgeführt wird.
Beispiel 9D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 8D,
dadurch gekennzeichnet,
dass Intensitätswerte, welche um einen vorbestimmten Schwellenwert von einem zentralen Intensitätswert des jeweiligen Clusters (43) abweichen, separat gespeichert werden, um bei Bedarf ein neues Cluster (43) zu erzeugen.
Beispiel 10D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 9D,
dadurch gekennzeichnet,
dass lokale Cluster (43) erzeugt werden, wobei eines der Bildmerkmale zum Clustern Intensitätswerte und ein weiteres Bildmerkmal zum Clustern die Position der jeweiligen Bildpunkte im Bild (24) ist.
Beispiel 11 D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 10D,
dadurch gekennzeichnet,
dass ein Bild (24) eine zweidimensionale Abbildung umfasst mit mehreren Pixeln als Bildpunkten oder eine dreidimensionale Abbildung mit mehreren Voxeln als Bildpunkten umfasst, wobei einem jeden Messpunkt einer Probe zumindest ein Bildpunkt eines jeden Bildes (24) zuordbar ist, wobei die Bilder (24) als zusätzliche Dimension eine Zeitinformation umfassen können.
Beispiel 12D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 11D,
dadurch gekennzeichnet,
dass bestimmte Cluster (43) einem bestimmten Analyten eindeutig zugeordnet sind, so dass die Analyten durch Auslesen der entsprechenden Cluster (43) identifiziert werden.
Beispiel 13D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 12D,
dadurch gekennzeichnet,
dass zum Identifizieren der Analyten die zu den einzelnen Clustern (43) gespeicherten und durch das Clustern quantisierten Folgen von Intensitätswerten mit den den jeweiligen Analyten codierenden Folgen von Ziel-Intensitätswerten verglichen werden, wobei vorzugsweise die Ziel-Intensitätswerte auf den gleichen Wertebereich wie die Cluster (43) vorab quantisiert werden.
Beispiel 14D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 13D,
dadurch gekennzeichnet,
dass das Identifizieren der Analyten anhand der Cluster (43) mittels eines Verarbeitungsmodells (5) ausgeführt wird, wobei dieses Verarbeitungsmodell (5) vorzugsweise ein Klassifizierungsmodell ist.
Beispiel 15D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 14D,
dadurch gekennzeichnet,
dass das Clustern mit einem Verarbeitungsmodell (5) ausgeführt wird.
Beispiel 16D der Erfindung betrifft ein Verfahren nach Beispiel 15D,
dadurch gekennzeichnet, dass das Verarbeitungsmodell (5) zum Clustern ein Segmentierungsmodell und insbesondere ein semantisches Segmentierungsmodell ist.
Beispiel 17D der Erfindung betrifft ein Verfahren nach Beispiel 15D oder 16D,
dadurch gekennzeichnet,
dass dem Verarbeitungsmodell (5) als Eingangsdaten zusätzlich Kontextinformationen zugeführt werden, welche weitere Eigenschaften der Probe und/oder des Experiments und/oder der zu erwartenden Analyten beschreiben und insbesondere Parameter zum Färben der Probe, und/oder die erwartete Anzahl an Analyten oder auch das erwartete Verhältnis der in der Probe enthaltenen Analyten umfassen können, wobei anhand dieser Kontextinformationen die Quantisierung der Clusterung eingestellt wird.
Beispiel 18D der Erfindung betrifft ein Verfahren nach einem der Beispiele 1D bis 17D,
dadurch gekennzeichnet,
dass die Analyten eines von Proteine, Polypeptide oder Nukleinsäuremoleküle sind und die Marker mittels analytspezifischer Sonden an die Analyten koppeln und ein an den Marker gekoppeltes Farbstoffmolekül aufweisen.
Beispiel 19D der Erfindung betrifft ein Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell zum Ausführen eines Verfahrens nach einem der Beispiele 1D bis 18D, umfassend:

Beispiel 20D der Erfindung betrifft eine Auswerteeinrichtung (4) zum Auswerten von Bildern (24) mehrerer Färberunden, welche insbesondere als Maschinenlernsystem (1) ausgebildet ist, umfassend die Mittel zur Ausführung des Verfahrens gemäß einem der vorhergehenden Beispiele.
Beispiel 21 D der Erfindung betrifft ein Bildverarbeitungssystem (1), umfassend eine Auswerteeinrichtung (4) nach dem vorhergehenden Beispiel 20D, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Beispiel 22D der Erfindung betrifft ein Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren gemäß einem der vorhergehenden Beispiele 1D bis 19D auszuführen, das Computerprogrammprodukt ist insbesondere ein computerlesbares Speichermedium.
Beispiel 23D der Erfindung betrifft ein Maschinenlernsystem (1), umfassend eine Auswerteeinrichtung (4), wobei die Auswerteeinrichtung (4) ein Verarbeitungsmodell umfasst, das gemäß dem Verfahren gemäß einem der vorhergehenden Beispiel 19D trainiert worden ist, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Teillösung E
Beispiel 1E der Erfindung betrifft ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben eines oder mehrerer Analyten mit Markern in mehreren Färberunden, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind, Detektieren mehrerer Marker mit einer Kamera, welche für eine jede Färberunde zumindest ein Bild erfasst, das Farbinformationen eines oder mehrerer Marker enthalten kann, und Speichern der Farbinformationen der jeweiligen Färberunden, zum Auswerten der Farbinformationen,
dadurch gekennzeichnet,
dass die Bilder in Quantisierungsbereiche unterteilt werden, in welchen die Intensitätswerte der Bildpunkte mit jeweils einer unterschiedlichen Quantisierung codiert werden und als Farbinformation die quantisierten Intensitätswerte der Bildpunkte gespeichert werden.
Beispiel 2E der Erfindung betrifft ein Verfahren nach Beispiel 1E,
dadurch gekennzeichnet,
dass jeder der Quantisierungen eine gewissen Bittiefe zugeordnet ist, welche zumindest für bestimmte Quantisierungsbereiche kleiner ist als eine Bittiefe einer Quantisierung, mit welcher die von der Kamera erfassten Intensitätswerte aufgenommen werden.
Beispiel 3E der Erfindung betrifft ein Verfahren nach Beispiel 1E oder 2E,
dadurch gekennzeichnet,
dass unterschiedliche Bittiefen in den unterschiedlichen Quantisierungsbereichen angewendet werden.
Beispiel 4E der Erfindung betrifft ein Verfahren nach einem der Beispiele 1E bis 3E,
dadurch gekennzeichnet,
dass die Quantisierungsbereiche nach einem oder mehreren der folgenden Verfahrensschritte eingeteilt werden:

- die Quantisierungsbereiche sind vorab durch Intensitätsgrenzen festgelegt, so dass jeder Quantisierungsbereich einem bestimmten Intensitätsbereich entspricht;
- die Bilder werden semantisch in unterschiedliche Quantisierungsbereiche aufgeteilt;
- die Häufigkeit der einzelnen Intensitätswerte wird erfasst und durch Intensitätsgrenzen, die um Häufigkeitsspitzen herum angeordnet werden, werden die Quantisierungsbereiche festgelegt;
- die Quantisierungsbereiche werden durch Clustern von ähnlichen Intensitätswerten festgelegt; und/oder
- die Quantisierungsbereiche werden durch semantisches Segmentieren der Bilder, beispielsweise in Hintergrund, Zelle und Zellkern, festgelegt.

Beispiel 5E der Erfindung betrifft ein Verfahren nach einem der Beispiele 1E bis 4E,
dadurch gekennzeichnet,
dass die Quantisierungsbereiche zu folgenden Zeitpunkten eingeteilt werden:

- einmalig vor dem erstmaligen Quantisieren eines der Bilder (24), wobei die Einteilung der Quantisierungsbereiche vorzugsweise mittels eines Hintergrundbildes ausgeführt wird, das ohne Marker erzeugt wird,
- nach der ersten Färberunde, wobei die Quantisierungsbereiche auf Grundlage eines Teils des während der ersten Färberunde erfassten Bildes oder auf Grundlage des gesamten Bildes eingeteilt werden,
- nach jeweils mehreren Färberunden, wobei die Quantisierungsbereiche auf Grundlage eines Teils des während der jeweiligen Färberunde erfassten Bildes oder auf Grundlage des gesamten Bildes eingeteilt werden, oder
- nach jeder Färberunde, wobei die Quantisierungsbereiche auf Grundlage eines Teils des während der jeweiligen Färberunde erfassten Bildes oder auf Grundlage des gesamten Bildes eingeteilt werden.

Beispiel 6E der Erfindung betrifft ein Verfahren nach Beispiel 5E,
dadurch gekennzeichnet,
dass Bereiche eines Bildes (24), welche zum Einteilen der Quantisierungsbereiche besonders geeignet sind, automatisch bestimmt werden, wobei insbesondere Bereiche ermittelt werden, die mehrere unterschiedliche Quantisierungsbereiche umfassen.
Beispiel 7E der Erfindung betrifft ein Verfahren nach einem der Beispiele 1E bis 6E,
dadurch gekennzeichnet,
dass die Quantisierungsbereiche unterschiedliche Intensitätsbereiche bilden, wobei die Intensitätswerte des dunkelsten Intensitätsbereichs am gröbsten quantisiert werden oder nur ein einziger Intensitätswert allen Bildpunkten dieses Intensitätsbereichs zugeordnet wird.
Beispiel 8E der Erfindung betrifft ein Verfahren nach Beispiel 7E,
dadurch gekennzeichnet,
dass drei Quantisierungsbereiche verwendet werden, die jeweils unterschiedliche Intensitätsbereiche bilden, wobei der Intensitätsbereich mit mittleren Intensitätswerten (47) fein quantisiert wird, und der Intensitätsbereich mit hellen Intensitätswerten (48) gröber als der Intensitätsbereich mit mittleren Intensitätswerten (47) und vorzugsweise feiner als der Intensitätsbereich mit dunklen Intensitätswerten quantisiert wird.
Beispiel 9E der Erfindung betrifft ein Verfahren nach einem der Beispiele 1E bis 8E,
dadurch gekennzeichnet,
dass ein Bild (24) eine zweidimensionale Abbildung mit mehreren Pixeln als Bildpunkten oder eine dreidimensionale Abbildung mit mehreren Voxeln als Bildpunkten umfasst, wobei einem jeden Messpunkt einer Probe zumindest ein Bildpunkt eines jeden Bildes zuordbar ist, wobei die Bilder (24) als zusätzliche Dimension eine Zeitinformation umfassen können.
Beispiel 10E der Erfindung betrifft ein Verfahren nach einem der Beispiele 1E bis 9E,
dadurch gekennzeichnet,
dass zum Identifizieren der Analyten die gespeicherten quantisierten Folgen von Intensitätswerten mit den den jeweiligen Analyten codierenden Folgen von Ziel-Intensitätswerten verglichen werden.
Beispiel 11E der Erfindung betrifft ein Verfahren nach Beispiel 10E,
dadurch gekennzeichnet,
dass vor dem Vergleichen die die Analyten codierenden Ziel-Intensitätswerte wie die erfassten Farbinformationen quantisiert werden.
Beispiel 12E der Erfindung betrifft ein Verfahren nach Beispiel 10E,
dadurch gekennzeichnet,
dass vor dem Vergleichen die Quantisierung der gespeicherten quantisierten Folgen von Intensitätswerten aufgehoben wird, um sie mit den die Analyten codierenden Ziel-Intensitätswerten vergleichen zu können.
Beispiel 13E der Erfindung betrifft ein Verfahren nach einem der Beispiele 1E bis 12E,
dadurch gekennzeichnet,
dass die Analyten eines von Proteine, Polypeptide oder Nukleinsäuremoleküle sind und die Marker mittels analytspezifischer Sonden an die Analyten koppeln und ein an den Marker gekoppeltes Farbstoffmolekül aufweisen.
Beispiel 14E der Erfindung betrifft ein Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell zum Ausführen eines Verfahrens nach einem der Beispiele 1E bis 13E, umfassend:

Beispiel 15E der Erfindung betrifft eine Auswerteeinrichtung (4) zum Auswerten von Bildern (24) mehrerer Färberunden, welche insbesondere als Maschinenlernsystem (1) ausgebildet ist, umfassend die Mittel zur Ausführung des Verfahrens gemäß einem der vorhergehenden Beispiele.
Beispiel 16E der Erfindung betrifft ein Bildverarbeitungssystem (1), umfassend eine Auswerteeinrichtung (4) nach dem vorhergehenden Beispiel 15E, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Beispiel 17E der Erfindung betrifft ein Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren gemäß einem der vorhergehenden Beispiele 1E bis 14E auszuführen, das Computerprogrammprodukt ist insbesondere ein computerlesbares Speichermedium.
Beispiel 18E der Erfindung betrifft ein Maschinenlernsystem (1), umfassend eine Auswerteeinrichtung (4), wobei die Auswerteeinrichtung (4) ein Verarbeitungsmodell umfasst, das gemäß dem Verfahren gemäß einem der vorhergehenden Beispiel 14E trainiert worden ist, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Teillösung F
Beispiel 1F der Erfindung betrifft ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten in einer Probe, wobei in einem Experiment ein oder mehrere Analyten mit Markern in mehreren Färberunden eingefärbt werden, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind, die mehreren Marker mit einer Kamera detektiert werden, welche für eine jede Färberunde zumindest ein Bild (24) erzeugt, das Farbinformationen eines oder mehrerer Marker enthalten kann, und die Farbinformationen der jeweiligen Färberunden zum Auswerten gespeichert werden,
dadurch gekennzeichnet,
dass für eine n-te Färberunde ein zu erwartendes Prognosebild (50) anhand von Vorhersagebilddaten (49) einer oder mehrerer vorhergehender Färberunden und/oder anhand von Vorhersagebilddaten (49) der aktuellen Färberunde vorhergesagt wird, und einerseits aus einem tatsächlich erfassten Bild (24) oder aus einer tatsächlich erfassten Bildebene der aktuellen Färberunde und andererseits aus dem Prognosebild (50) ein Differenzbild (51) gebildet wird, wobei als Farbinformationen das Differenzbild (51) gespeichert wird.
Beispiel 2F der Erfindung betrifft ein Verfahren nach Beispiel 1F,
dadurch gekennzeichnet,
dass das Prognosebild (50) einer Bildebene eines aus mehreren Bildebenen bestehenden Z-Bildes entspricht und die Vorhersagebilddaten (49) eine oder mehrere Bildebenen von Z-Bildern aus einer oder mehrerer vorhergehenden Färberunden und/oder eine oder mehrere Bildebenen des Z-Bildes der aktuellen Färberunde umfassen.
Beispiel 3F der Erfindung betrifft ein Verfahren nach Beispiel 1F oder 2F,
dadurch gekennzeichnet,
dass die vorhergehenden Färberunden Färberunden desselben Experiments oder Färberunden eines anderen Experiments mit vorzugsweise einer ähnlichen oder der gleichen Probe sind.
Beispiel 4F der Erfindung betrifft ein Verfahren nach einem der Beispiele 1F bis 3F,
dadurch gekennzeichnet, dass die Vorhersagebilddaten (49) Teilmengen der Bilder (24) einer oder mehrerer vorhergehender Färberunden und/oder der aktuellen Färberunde umfassen, wobei die Teilmengen einzelnen oder mehrere Bildebenen eines Z-Bildes oder auch Ausschnitte in einer Ebene der Bilder (24) sein können.
Beispiel 5F der Erfindung betrifft ein Verfahren nach einem der Beispiele 1F bis 4F,
dadurch gekennzeichnet,
dass die Vorhersagebilddaten (49) rekonstruierte Bilddaten aus Differenzbildern (51) oder nur die Differenzbilder (51) selbst aus vorherhergehenden Färberunden sind
Beispiel 6F der Erfindung betrifft ein Verfahren nach einem der Beispiele 1F bis 5F,
dadurch gekennzeichnet,
dass die Vorhersagebilddaten (49) komprimiert vorgehalten werden.
Beispiel 7F der Erfindung betrifft ein Verfahren nach einem der Beispiele 1F bis 5F,
dadurch gekennzeichnet,
dass die Vorhersagebilddaten (49) ausschließlich von der unmittelbar vorhergehenden Färberunde und/oder von der aktuellen Färberrunde stammen.
Beispiel 8F der Erfindung betrifft ein Verfahren nach einem der Beispiele 1F bis 6F,
dadurch gekennzeichnet,
dass das Differenzbild (51) vor dem Speichern komprimiert wird.
Beispiel 9F der Erfindung betrifft ein Verfahren nach einem der Beispiele 1F bis 7F,
dadurch gekennzeichnet,
dass das Vorhersagen mit einem Prädiktor, insbesondere einem linearen Prädiktor, ausgeführt wird.
Beispiel 10F der Erfindung betrifft ein Verfahren nach einem der Beispiele 1F bis 7F,
dadurch gekennzeichnet,
dass das Vorhersagen mit einem Verarbeitungsmodell (5) eines Maschinenlernsystems (1), insbesondere eines neuronalen Netzwerks, für die Bild-zu-Bild-Regression ausgeführt wird.
Beispiel 11 F der Erfindung betrifft ein Verfahren nach Beispiel 9F,
dadurch gekennzeichnet,
dass das Verarbeitungsmodell (5)
für jede Färberunde neu trainiert wird, oder
für jedes Experiment neu trainiert wird, oder
dass ein Verarbeitungsmodell (5) aus mehreren vortrainierten Verarbeitungsmodellen 5 ausgewählt wird, wobei diese Auswahl vorzugsweise anhand von Kontextinformationen getroffen wird, welche Eigenschaften der Probe und/oder des Experiments und/oder der zu erwartenden Analyten und insbesondere Parameter zum Färben der Probe, und/oder die erwartete Anzahl an Analyten oder auch das erwartete Verhältnis der in der Probe enthaltenen Analyten umfassen können.
Beispiel 12F der Erfindung betrifft ein Verfahren nach Beispiel 10F oder 11F,
dadurch gekennzeichnet,
dass das Verarbeitungsmodell (5) mit annotierten Trainingsdaten trainiert worden ist, wobei die annotierten Trainingsdaten jeweils ein Ausgangsbild und ein korrespondierendes Zielbild umfassen, wobei sowohl das Ausgangsbild als auch das Zielbild an einer Probe gemessen worden sind.
Beispiel 13F der Erfindung betrifft ein Verfahren nach einem der Beispiele 1F bis 12F,
dadurch gekennzeichnet,
dass die Vorhersagebilddaten (49) vor der Vorhersage normiert werden, um beispielsweise einen vorbestimmten Intensitätsbereich und/oder ein definiertes Hintergrundsignal aufzuweisen.
Beispiel 14F der Erfindung betrifft ein Verfahren nach einem der Ansprüche 1F bis 13F,
dadurch gekennzeichnet,
dass die Vorhersagebilddaten (49) vor der Vorhersage entrauscht werden.
Beispiel 15F der Erfindung betrifft ein Verfahren nach einem der Ansprüche 1F bis 14F,
dadurch gekennzeichnet,
dass ein Bild eine zweidimensionale Abbildung mit mehreren Pixeln als Bildpunkten oder eine dreidimensionale Abbildung mit mehreren Voxeln als Bildpunkten umfasst, wobei die Bilder als zusätzliche Dimension eine Zeitinformation umfassen können.
Beispiel 16F der Erfindung betrifft ein Verfahren nach einem der Beispiele 1F bis 15F,
dadurch gekennzeichnet,
dass zum Identifizieren der Analyten mit Hilfe der gespeicherten Differenzbilder (51) aus diesen das tatsächlich erfasste Bild (24) oder die tatsächlich erfasste Bildebene zumindest für vorbestimmte Datenpunkte wiederhergestellt wird, wobei ein Datenpunkt jeweils einen oder mehrere zusammenhängende Bildpunkte in den Bildern der mehreren Färberunden umfasst, die demselben Ort in einer Probe zugeordnet sind.
Beispiel 17F der Erfindung betrifft ein Verfahren nach einem der Beispiele 1F bis 16F,
dadurch gekennzeichnet,
dass die Analyten eines von Proteine, Polypeptide oder Nukleinsäuremoleküle sind und die Marker mittels analytspezifischer Sonden an die Analyten koppeln und ein an den Marker gekoppeltes Farbstoffmolekül aufweisen.
Beispiel 18F der Erfindung betrifft ein Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell zum Ausführen eines Verfahrens nach einem der Beispiele 1F bis 17F, umfassend:

Beispiel 19F der Erfindung betrifft eine Auswerteeinrichtung (4) zum Auswerten von Bildern (24) mehrerer Färberunden, welche insbesondere als Maschinenlernsystem (1) ausgebildet ist, umfassend die Mittel zur Ausführung des Verfahrens gemäß einem der vorhergehenden Beispiele.
Beispiel 20F der Erfindung betrifft ein Bildverarbeitungssystem (1), umfassend eine Auswerteeinrichtung (4) nach dem vorhergehenden Beispiel 19F, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Beispiel 21F der Erfindung betrifft ein Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren gemäß einem der vorhergehenden Beispiele 1F bis 18F auszuführen, das Computerprogrammprodukt ist insbesondere ein computerlesbares Speichermedium.
Beispiel 22F der Erfindung betrifft ein Maschinenlernsystem (1), umfassend eine Auswerteeinrichtung (4), wobei die Auswerteeinrichtung (4) ein Verarbeitungsmodell umfasst, das gemäß dem Verfahren gemäß einem der vorhergehenden Beispiel 18F trainiert worden ist, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Teillösung G
Beispiel 1G der Erfindung betrifft ein Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben eines oder mehrerer Analyte mit Markern in mehreren Färberunden, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind, Detektieren mehrerer Marker mit einer Kamera, welche für eine jede Färberunde zumindest ein Bild (24) mit mehreren Bildpunkten, denen als Farbinformation jeweils ein Farbwert zugeordnet ist, erzeugt, das Gefärbt-Signale und Ungefärbt-Signale umfasst, wobei ein Gefärbt-Signal ein Bildpunkt mit einer Farbinformation eines Markers und ein Ungefärbt-Signal ein Bildpunkt mit einer Farbinformation ist, die nicht auf einem Marker beruht, und Speichern der Farbinformationen der jeweiligen Färberunden zum Auswerten der Farbinformationen, wobei ein Datenpunkt jeweils einen oder mehrere zusammenhängende Bildpunkte in den Bildern (24) der mehreren Färberunden umfasst, die demselben Ort in einer Probe zugeordnet sind,
dadurch gekennzeichnet,
dass die Farbwerte der Bildpunkte der Bilder (2$) einer Probe einer Bewertung unterzogen werden, ob sie ein Gefärbt-Signal und/oder ein Ungefärbt-Signal darstellen, und die Bildpunkte, deren Farbwerte mit einer vorbestimmten Wahrscheinlichkeit bewertet sind, dass sie ein Gefärbt-Signal oder ein Ungefärbt-Signal sind, werden die Farbwerte entsprechend binarisiert, und
beim Speichern der Farbinformationen wird für diese binarisierten Bildpunkte ein entsprechender Binärwert anstelle der Farbwerte gespeichert.
Beispiel 2G der Erfindung betrifft ein Verfahren nach Beispiel 1G,
dadurch gekennzeichnet,
dass für Farbwerte, die nicht binarisiert wurden, die jeweiligen Farbwerte gespeichert werden.
Beispiel 3G der Erfindung betrifft ein Verfahren nach Beispiel 2G,
dadurch gekennzeichnet,
dass ein nicht-binarisierter Farbwert bei einer späteren Bewertung erneut bewertet und ggf. binarisert wird, insbesondere wenn die spätere Bewertung die vorbestimmte Wahrscheinlichkeit, dass sie ein Gefärbt-Signal oder ein Ungefärbt-Signal sind, erreicht.
Beispiel 4G der Erfindung betrifft ein Verfahren nach einem der Beispiele 1G bis 3G,
dadurch gekennzeichnet,
dass nach einer jeden Färberunde oder jeweils nach einer vorbestimmten Anzahl von Färberunden die Bildpunkte der Bewertung unterzogen werden.
Beispiel 5G der Erfindung betrifft ein Verfahren nach einem der Beispiele 1G bis 4G,
dadurch gekennzeichnet,
dass die Bewertung der Farbwerte auf einer oder mehreren der folgenden Angaben beruht:

- Farbwert, der zu bewerten ist,
- ein oder mehrere Farbwerte einer oder mehrerer vorhergehender Färberunden,
- statistische Werte der gemessenen Farbwerte der bisher durchgeführten Färberunden,
- ein oder mehrere Farbwerte von Hintergrundbildern, und/oder
- statistische Werte zum Hintergrund.

Beispiel 6G der Erfindung betrifft ein Verfahren nach einem der Beispiele 1G bis 5G,
dadurch gekennzeichnet,
dass die Bewertung, ob ein Farbwert mit einer vorbestimmten Wahrscheinlichkeit ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellt, mit einem Konfidenzmaß oder mittels einer Heuristik ausgeführt.
Beispiel 7G der Erfindung betrifft ein Verfahren nach einem der Beispiele 1G bis 6G,
dadurch gekennzeichnet,
dass die Farbwerte mit einem Scoring-Modell eines Maschinenlernsystems bewertet werden, wobei dem Scoring-Modell Kriterien zum Bewerten der Farbwerte antrainiert sind, ob sie mit einer gewissen Wahrscheinlichkeit ein Gefärbt-Signal und/oder ein Ungefärbt-Signal darstellen.
Beispiel 8G der Erfindung betrifft ein Verfahren nach Beispiel 7G,
dadurch gekennzeichnet,
dass das Scoring-Modell mit einem annotierten Datensatz trainiert worden ist, der als Eingangsdaten die Farbwerte der Bildpunkte und korrespondierende Zielausgaben enthält, die jeweils definieren, ob die Farbwerte ein Gefärbt-Signal oder einen Ungefärbt-Signal darstellen
Beispiel 9G der Erfindung betrifft ein Verfahren nach Beispiel 8G,
dadurch gekennzeichnet,
dass das Scoring-Modell mit einem annotierten Datensatz trainiert worden ist, der als Eingangsdaten die Farbwerte der Bildpunkte und korrespondierende Zielausgaben enthält, die jeweils definieren, ob die Farbwerte ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellen oder es nicht bestimmt werden kann, ob sie ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellen.
Beispiel 10G der Erfindung betrifft ein Verfahren nach Beispiel 8G oder 9G,
dadurch gekennzeichnet,
dass der annotierte Datensatz mit einem Verfahren erstellt wird, bei dem die Farbwerte der mehreren Färberunden nicht-binarisiert abgespeichert und dann ausgewertet werden, ob sie ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellen, wobei
beim Training für eine jede Färberunde als Eingabe die Farbwerte, die ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellen, in das Scoring-Modell eingegeben werden,
Berechnen einer Zielfunktion, wobei die Zielfunktion einen Unterschied angibt zwischen den vom Scoring-Modell ausgegebenen Bewertungen, dass die Farbwerte ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellen, und den Farbwerten gemäß dem annotierten Datensatz, die gemäß der Auswertung im annotierten Datensatz ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellen, und Optimieren der Zielfunktion durch Anpassen der Modellparameter.
Beispiel 11G der Erfindung betrifft ein Verfahren nach Beispiel 10G,
dadurch gekennzeichnet,
dass beim Training für eine jede Färberunde als Eingabe die Farbwerte, die ein Gefärbt-Signal oder ein Ungefärbt-Signal darstellen, in das Scoring-Modell zum Teil als gemessene Farbwerte und zum Teil als Binärwerte eingegeben werden,
Beispiel 12G der Erfindung betrifft ein Verfahren nach einem der Beispiele 8G bis 11G,
dadurch gekennzeichnet,
dass der annotierte Datensatz mittels einem oder mehreren der folgenden Schritte generiert wurde:

Simulieren von Signalen der verschiedenen Marker unter Verwendung eines repräsentativen Hintergrundbildes und einer bekannten Punktspreizfunktion eines Mikroskops (2), Generieren des annotierten Datensatzes mittels eines generativen Modells, das auf vergleichbaren Daten trainiert wurde,
Aufnehmen von Referenzbildern umfassend mindestens ein Hintergrundbild sowie zu jedem der Hintergrundbilder für jede Analyt-Art mindestens ein Bild (24), in dem Analyte der jeweiligen Analyt-Art markiert sind,
Durchführen eines herkömmlichen Verfahrens zur räumlichen Identifizierung von Analyten, Aufnehmen eines repräsentativen Hintergrundbildes und pixelweises Abziehen der Bildsignale des repräsentativen Hintergrundbildes von den Bildsignalen der Bildfolge, auf denen der annotierte Datensatz basiert, vor dem Bereitstellen des annotierten Datensatzes, so dass der annotierte Datensatz nur hintergrundkorrigierte Farbwerte umfasst, und/oder Gewinnen des annotierten Datensatzes anhand eines Teils eines Experiments, so dass das trainierte Verarbeitungsmodell (5) auf dem übrigen Teil des Experiments angewendet werden kann.

Beispiel 13G der Erfindung betrifft ein Verfahren nach einem der Beispiele 7G bis 12G,
dadurch gekennzeichnet,
dass neben dem jeweiligen Farbwert weitere Kontextinformationen dem Scoring-Modell für die Bewertung der Farbwerte eingegeben werden, welche vorzugsweise folgende Daten umfassen:

- Farbwert des jeweiligen Bildpunktes der vorhergehenden Färberunde,
- statistische Werte der bisher durchgeführten Färberunden,
- ein oder mehrere Farbwerte von Hintergrundbildern,
- statistische Werte zum Hintergrund,
- Anzahl der zu erwartenden Analyte pro Experiment bzw. pro Farbkanal 20,
- verwendetes Codebuch, und/oder
- Nurtzer-ID,.

Beispiel 14G der Erfindung betrifft ein Verfahren nach einem der Beispiele 7G bis 13G,
dadurch gekennzeichnet,
dass mehrere Scoring-Modelle vorgesehen sind, wobei ein geeignetes Scoring-Modell anhand von Kontextinformationen ausgewählt wird, wobei die Kontextinformationen weitere Eigenschaften der Probe und/oder des Experiments und/oder der zu erwartenden Analyten beschreiben und insbesondere Parameter zum Färben der Probe, und/oder die erwartete Anzahl an Analyten oder auch das erwartete Verhältnis der in der Probe enthaltenen Analyten umfassen können, wobei anhand dieser Kontextinformationen automatisch ein Scoring-Modell aus einem Satz von Scoring-Modellen ausgewählt wird.
Beispiel 15G der Erfindung betrifft ein Verfahren nach Beispiel 14G,
dadurch gekennzeichnet,
dass die Kontextinformationen durch eine Segmentierung gewonnen wurden und insbesondere Zellbereiche und Bereiche, die keiner Zelle zugeordnet sind, unterscheiden.
Beispiel 16G der Erfindung betrifft ein Verfahren nach einem der Beispiele 1G bis 15G,
dadurch gekennzeichnet,
dass ein Bild ein zweidimensionales Bild mit mehreren Pixeln als Bildpunkten oder eine dreidimensionales Bild mit mehreren Voxeln als Bildpunkten umfasst, wobei die Bilder als zusätzliche Dimension eine Zeitinformation umfassen können.
Beispiel 17G der Erfindung betrifft ein Verfahren nach einem der Beispiele 1G bis 16G,
dadurch gekennzeichnet,
dass das Identifizieren der Analyten anhand der gespeicherten und zum Teil der binarisierten Farbwerte erfolgt.
Beispiel 18G der Erfindung betrifft ein Verfahren nach einem der Beispiele 7G bis 17G,
dadurch gekennzeichnet,
dass das Scoring-Modell ein CNN (Convolutional Neural Network), ein MLP (Multi-Layer-Perzeptron) oder eine sequentielles Modell ist.
Beispiel 19G der Erfindung betrifft ein Verfahren nach einem der Beispiele 1G bis 18G,
dadurch gekennzeichnet,
dass die Analyten anhand der gespeicherten Farbinformationen identifiziert werden und nach dem Identifizieren der Analyten und ggf. manuellem Korrigieren ein entsprechend erweiterter annotierter Datensatz erzeugt wird und das Verarbeitungsmodell mit dem erweiterten annotierten Datensatz trainiert wird.
Beispiel 20G der Erfindung betrifft ein Verfahren nach einem der Beispiele 1G bis 19G,
dadurch gekennzeichnet,
dass das Verfahren vor dem Aufbereiten von Daten zum Identifizieren von Analyten noch einen Schritt Durchführen einer Hintergrundkorrektur der Farbwerte umfasst, wobei das Durchführen der Hintergrundkorrektur eines oder mehrere der folgenden umfasst:

- ein Rolling-Ball-Verfahren ,
- eine Filterung wie beispielsweise ein Top-Hat-Verfahren, eine homomorphe Filterung, eine Tiefpassfilterung, wobei das Ergebnis der Tiefpassfilterung vom Signal abgezogen wird, oder eine zeitliche Filterung,
- Hintergrundkorrektur mittels eines Bild-zu-Bild-Modells,
- Hintergrundkorrektur mittels Misch-Modellen,
- Hintergrundkorrektur mittels eines Mean-Shift Verfahrens,
- Hintergrundkorrektur mittels einer Hauptkomponentenanalyse,
- Hintergrundkorrektur mittels einer nicht-negativen Matrixfaktorisierung,
- Hintergrundkorrektur mittels Anregung der Auto-Fluoreszenz mit mindestens einem spezifischen Laser für alle Bildbereiche der Bildfolge, wobei der spezifische Laser gerade einem Anregungs-Spektralbereich einer der verwendeten Marker entspricht und die Analyten noch nicht mit Markern markiert sind, oder
- Hintergrundkorrektur mittels Anregung der Auto-Fluoreszenz mittels eines unspezifischen Lasers für alle Datenpunkte der Bilder.

Beispiel 21G der Erfindung betrifft ein Verfahren gemäß einem der vorhergehenden Beispiele 1G bis 20G,
dadurch gekennzeichnet,
dass wenn eine Mindestanzahl der Farbwerte eines Datenpunkts binarisiert wurde, anhand der binarisierten Farbwerte und der nicht-binarisierten Farbwerte des Datenpunkts ein Abgleich mit einem Codebuch erfolgt, um die Bewertung bisher nicht binarisierter Farbwerte zu verbessern.
Beispiel 22G der Erfindung betrifft ein Verfahren gemäß dem vorhergehenden Beispiel 17G, wobei der Abgleich mittels einer Matrixmultiplikation eines Farbwertvektors mit einer Codebuchmatrix erfolgt, wobei die Codebuchmatrix für jeden zu identifizierenden Analyten eine Ziel-Bitfolge umfasst und der Farbwertvektor die binarisierten Farbwerte und für die nicht-binarisierten Farbwerte einen zu der Bewertung korrespondierenden Wahrscheinlichkeitswert zwischen 0 und 1 umfasst und anhand eines Ergebnisvektors der Matrixmultiplikation Ziel-Bitfolgen bestimmt werden, die am besten zu dem Farbwertvektor passen, und die nicht-binarisierten Farbwerte basierend auf den bestimmten Ziel-Bitfolgen binarisiert werden.
Beispiel 23G der Erfindung betrifft ein Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell zum Ausführen eines Verfahrens nach einem der Beispiele 1G bis 22G, umfassend:

Beispiel 24G der Erfindung betrifft eine Auswerteeinrichtung (4) zum Auswerten von Bildern (24) mehrerer Färberunden, welche insbesondere als Maschinenlernsystem (1) ausgebildet ist, umfassend die Mittel zur Ausführung des Verfahrens gemäß einem der vorhergehenden Beispiele.
Beispiel 25G der Erfindung betrifft ein Bildverarbeitungssystem (1), umfassend eine Auswerteeinrichtung (4) nach dem vorhergehenden Beispiel 24G, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Beispiel 26G der Erfindung betrifft ein Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren gemäß einem der vorhergehenden Beispiele 1Gbis 23G auszuführen, das Computerprogrammprodukt ist insbesondere ein computerlesbares Speichermedium.
Beispiel 27G der Erfindung betrifft ein Maschinenlernsystem (1), umfassend eine Auswerteeinrichtung (4), wobei die Auswerteeinrichtung (4) ein Verarbeitungsmodell umfasst, das gemäß dem Verfahren gemäß einem der vorhergehenden Beispiel 23G trainiert worden ist, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Bezugszeichenliste

1: Maschinenlernsystem
2: Mikroskop
3: Steuervorrichtung
4: Auswerteeinrichtung
5: Verarbeitungsmodell
6: Stativ
7: Objektivrevolver
8: montiertes Objektiv
9: Probentisch
10: Halterahmen
11: Probenträgers
12: Mikroskopkamera
13a: Beleuchtungseinrichtung
13b: Anregungsbeleuchtung
14: Übersichtskamera
15: Sichtfeld
16: Spiegels
17: Bildschirm
18: Speichermodul
19: Mikroskopbildregistrierungsmodul
20: Kanal
21: korrespondierende Zielausgabe
22: Steuerungsmodul
23: Mikroskopbild-Auslesemodul
24: Mikroskopbild
26: Lern-Daten-Zuführungsmodul
30: Ergebnis-Ausgabe
31: Zielfunktionsmodul
32: Modellparameter-Verarbeitungsmodul
33: Analyse-Daten-Zuführungsmodul
34: Ergebnisausgabe-Auslesemodul
35: Kompressionsmodul
36: Identifikationsdaten-Zuführungsmodul
37: Identifikations-Modul
38: Vektorkomponente
39: Projektionsmatrix
40: Aggregationsvektor
41: Rohdatenvektor
42: Clusteranalysemodul
43: Cluster
44: Clustergrenze
45: Quantisierungsmodul
46: niedriger Intensitätsbereich
47: mittlerer Intensitätsbereich
48: hoher Intensitätsbereich
49: Vorhersagebilddaten
50: Prognosebild
51: Differenzbild

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

EP 2992115 B1 [0002, 0234, 0271, 0280]
WO 2020254519 A1 [0005, 0053, 0231, 0234, 0271, 0280, 0293]
WO 2021255244 A1 [0005, 0053, 0231, 0234, 0271, 0280, 0293]

Claims

Verfahren zum Aufbereiten von Daten zum Identifizieren von Analyten durch Einfärben eines oder mehrerer Analyten mit Markern in mehreren Färberunden, wobei die Marker jeweils spezifisch für eine bestimmte Menge von Analyten sind, Detektieren mehrerer Marker mit einer Kamera, welche für eine jede Färberunde zumindest ein Bild mit mehreren Bildpunkten und ihnen zugeordneten Farbwerten erzeugt, das Farbinformationen eines oder mehrerer Marker enthalten kann, und Speichern der Farbinformationen der jeweiligen Färberunden zum Auswerten der Farbinformationen, wobei ein Datenpunkt jeweils ein oder mehrere zusammenhängende Bildpunkte in den Bildern der mehreren Färberunden umfasst, die demselben Ort in einer Probe zugeordnet sind, dadurch gekennzeichnet, dass für einen jeden Datenpunkt einer Probe jeweils der Farbwert für eine von n Färberunden eines Experiments aufgenommen wird und diese Farbwerte jeweils eine Komponente eines Ausgangsvektors mit der Dimension n bilden, wobei die einzelnen Vektorkomponenten (38) nach Aufnahme des entsprechenden Farbwerts auf einen Projektionsvektor mit einer Dimension k, die kleiner als n ist, projiziert werden und der Projektionsvektor für eine jede Färberunde auf einen Aggregationsvektor (40) mit der gleichen Dimension k wie der Projektionsvektor sequentiell aggregiert wird, und der Aggregationsvektor (40) gespeichert wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Projektion eine lineare Projektion ist und das Aggregieren zum Aggregationsvektor (40) ein Aufsummieren ist, und insbesondere eine Hauptachsentransformation oder eine Singulärwertzerlegung, SVD, ist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Projektion eine nichtlineare Projektion ist und das Aggregieren zum Aggregationsvektor (40) ein Aufsummieren oder ein Multiplizieren der Komponenten ist.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Projektion eine Hauptachsentransformation ist und die Basen und die Transformationsmatrix aus den Daten eines vorhergehenden Experimentes und/oder Hintergrundbildes oder den erwarteten idealen Codes analytisch berechnet oder geschätzt werden.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Hauptachsentransformation eine Transformation vom m-dimensionalen Ausgangsraum auf einen m-dimensionalen Zielraum ist und ein k-dimensionaler Projektionsraum ein Teilraum des Zielraums ist, und die k Komponenten der Projektionsvektoren den k Dimensionen des Projektionsraums entsprechen und (m-k)=j Komponenten im Zielraum weggelassen werden, um aus dem Zielraum den Projektionsraum zu erhalten, und die weggelassenen j Komponenten insbesondere mindestens eine der folgenden Komponenten umfassen: - die letzte Komponente, - die letzten Komponenten, - die erste Komponente, oder - die erste und die letzte Komponente.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Projektion mit einem Verarbeitungsmodell (5) ausgeführt wird.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass das Verarbeitungsmodell (5) aus einem neuronalen Netzwerk, insbesondere als ein Convolutional Neural Network, CNN, gebildet ist.
Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, dass das Verarbeitungsmodell (5) c Eingabestränge aufweist, welche jeweils d Eingabekanäle aufweisen und die c Eingabestränge sich k Ausgabekanäle teilen, wobei die Ausgaben der einzelnen Eingabestränge in den k Ausgabekanälen kanalweise aggregiert werden, wobei d vorzugsweise eine Anzahl an beim Detektieren verwendeten Farbkanälen ist und c*d=m, mit m der Anzahl der Färberunden und c einem Proportionalitätsfaktor zwischen der Anzahl an Färberunden m und der Anzahl an verwendeten Farbkanälen d ist.
Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, dass das Verarbeitungsmodell 5 mit einem annotierten Datensatz trainiert worden ist, dem zum Berechnen des Aggregationsvektors (40) einer der Datenpunkte als Eingangsvektoren zugeführt werden, bei denen ein i-tes Vektorelement der Farbwert des Datenpunktes der i-ten Färberunde ist und die übrigen Vektorelemente 0 sind, und eine Zielfunktion den Unterschied zwischen einer Zielausgabe und den Aggregationsvektoren (40) erfasst, wobei die Zielausgabe mit einer dimensionsreduzierenden Transformation, insbesondere einer linearen oder nichtlinearen Projektion, aus den Eingangsvektoren berechnet werden, wobei die transformierten Eingangsvektoren sequentiell miteinander zum Aggregationsvektor (40) aggregiert werden.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass das Verarbeitungsmodell (5) für einen jede Vektorkomponente (38) des Eingabevektors separat trainiert wird.
Verfahren nach einem der Anspruch 6 bis 10, dadurch gekennzeichnet, dass ein Verarbeitungsmodell (5) unabhängig vom durchzuführenden Experiment vortrainiert ist, oder dass mehrere Verarbeitungsmodelle (5) für unterschiedliche Typen von Experimenten vortrainiert sind, und dass eine Kontextinformation zum Typ des jeweiligen Experiments zur automatischen Auswahl des geeignetsten Verarbeitungsmodells (5) verwendet wird.
Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass die Analyten anhand der ermittelten Farbinformationen identifiziert werden, wobei vor dem Identifizieren die gespeicherten Aggregationsvektoren (40) rücktransformiert werden, so dass die Farbwerte der jeweiligen Färberunden in der ursprünglichen Fassung wiederhergestellt sind.
Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass die Analyten anhand der transformierten und gespeicherten Farbinformationen identifiziert werden, wobei vorab die für die zu erfassenden Analyten jeweils typischen Folgen von Farbwerten mit der gleichen Projektion wie die aufgenommenen Farbwerte auf einen jeweiligen Ergebnisvektor mit der Dimension k projiziert werden und die Identifikation des Analyt anhand eines Vergleichs des Aggregationsvektors 40 mit dem Ergebnisvektor zum jeweiligen Datenpunkt erfolgt.
Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass das Vergleichen des Aggregationsvektors mit dem Ergebnisvektor mittels eines Identifikationsverarbeitungsmodelles ausgeführt wird, mit einem annotierten Datensatz trainiert worden ist, der als Eingangsdaten Aggregationsvektoren (40) und Ergebnisvektoren von Experimenten aufweist, bei welchen die Analyten auf herkömmliche Weise identifiziert worden sind.
Verfahren nach Ansprüchen 1 bis 11, wobei der Aggregationsvektor (40) in ein Identifikationsverarbeitungsmodell eingegeben wird, das als Klassifikationsnetzwerk dazu trainiert wurde, den Aggregationsvektor (40) einer Klasse, umfassend verschiedene Analyt-Arten, zuzuordnen, oder dazu trainiert wurde, eine Ergebnis-Bitfolge auszugeben, wobei die Ergebnis-Bitfolge mit für die zu erfassenden Analyten jeweils typischen Bitfolgen abgeglichen werden, um eine Analyt-Art zu identifizieren.
Verfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, dass vor dem Projizieren die Ausgangsvektoren einer Hintergrundkorrektur unterzogen werden.
Verfahren nach einem der Ansprüche 1 bis 16, dadurch gekennzeichnet, dass ein Bild eine zweidimensionale Abbildung umfasst mit mehreren Pixeln als Bildpunkten oder eine dreidimensionale Abbildung mit mehreren Voxeln als Bildpunkten umfasst, wobei einem jeden Datenpunkt einer Probe zumindest ein Bildpunkt eines jeden Bildes zuordbar ist, wobei die Bilder als zusätzliche Dimension eine Zeitinformation umfassen können.
Verfahren nach einem der Ansprüche 1 bis 16, dadurch gekennzeichnet, dass einem jeden Datenpunkt jeweils ein Bildpunkt eines jeden Bildes oder einer Gruppe zusammenhängender Bildpunkte ist.
Verfahren nach einem der Ansprüche 1 bis 18, dadurch gekennzeichnet, dass die Bilder in verschiedene semantische Bereiche vorsegmentiert werden, wobei für unterschiedliche semantische Bereiche unterschiedliche Projektionen zum Transformieren der Ausgangsvektoren auf Aggregationsvektoren (40) verwendet werden.
Verfahren nach Anspruch 19, dadurch gekennzeichnet, dass die unterschiedlichen Projektionen Hauptachsentransformationen sind, welche sich in den Basen und den Transformationsmatrizen unterscheiden.
Verfahren nach einem der Ansprüche 1 bis 20, dadurch gekennzeichnet, dass die Analyten eines von Proteine, Polypeptide oder Nukleinsäuremoleküle sind und die Marker mittels analytspezifischer Sonden an die Analyten koppeln und ein an den Marker gekoppeltes Farbstoffmolekül aufweisen.
Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell zum Ausführen eines Verfahrens nach einem der Ansprüche 1 bis 21, umfassend: - Bereitstellen eines annotierten Datensatzes, und - Optimieren einer Zielfunktion durch Anpassen der Modellparameter des Verarbeitungsmodells (5), wobei die Zielfunktion einen Unterschied zwischen einer vom Verarbeitungsmodell (5) ausgegebenen Ergebnis-Ausgabe (30) und einer Zielausgabe erfasst, dadurch gekennzeichnet: - dass der annotierte Datensatz mindestens eine Soll-Signalfolge eines Kandidaten-Datenpunkts und eine Soll-Signalfolge eines Hintergrund-Datenpunkts umfasst und das Verarbeitungsmodell (5) als Eingabe eine Teil-Signalfolge der Soll-Signalfolgen des annotierten Datensatzes verarbeitet und anhand einer Ausgabe des Verarbeitungsmodells (5) ein zu der jeweiligen soll Signalfolge korrespondierender Datenpunkt als Hintergrund-Datenpunkt oder Kandidaten-Datenpunkt bewertet wird.
Auswerteeinrichtung (4) zum Auswerten von Bildern (24) mehrerer Färberunden, welche insbesondere als Maschinenlernsystem (1) ausgebildet ist, umfassend die Mittel zur Ausführung des Verfahrens gemäß einem der vorhergehenden Ansprüche.
Bildverarbeitungssystem (1), umfassend eine Auswerteeinrichtung (4) nach dem vorhergehenden Anspruch 23, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren gemäß einem der vorhergehenden Ansprüche 1 bis 22 auszuführen, das Computerprogrammprodukt ist insbesondere ein computerlesbares Speichermedium.
Maschinenlernsystem (1), umfassend eine Auswerteeinrichtung (4), wobei die Auswerteeinrichtung (4) ein Verarbeitungsmodell umfasst, das gemäß dem Verfahren gemäß dem vorhergehenden Anspruch 22 trainiert worden ist, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).