DE102022131451A1

DE102022131451A1 - Verfahren und Vorrichtung zum Bestimmen einer Signal-Zusammensetzung von Signalfolgen einer Bildfolge

Info

Publication number: DE102022131451A1
Application number: DE102022131451.0A
Authority: DE
Inventors: Manuel Amthor; Daniel Haase; Ralf Wolleschensky
Original assignee: Carl Zeiss Microscopy GmbH
Current assignee: Carl Zeiss Microscopy GmbH
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2024-05-29
Also published as: US20240177505A1; CN118098355A

Abstract

Verfahren zum Bestimmen einer Signal-Zusammensetzung von Signalfolgen einer Bildfolge mit einem Analytdatenauswertesystem, wobei die Bildfolge durch Markieren von Analyten mit Markern in mehreren Färberunden und Detektieren der Marker mit einer Kamera erzeugt wird, die Kamera in jeder Färberunde ein Bild der Bildfolge aufnimmt, die Marker so ausgewählt werden, dass Signalfolgen von Analyten in einem Bildbereich über die Bildfolge Gefärbt- und Ungefärbt-Signale umfassen und Signalfolgen verschiedener Analyt-Arten jeweils eine spezifische Reihenfolge an Gefärbt-Signalen und Ungefärbt-Signalen aufweisen, und die verschiedenen Analyt-Arten anhand der spezifischen Reihenfolgen identifiziert werden können, umfassend: Empfangen von Signalfolge; Einlesen eines Codebuchs, wobei das Codebuch für alle Signalkomponenten eine Sollfolge umfasst, die Sollfolgen Analyt-Sollfolgen umfassen, die Analyt-Sollfolgen eine Abfolge von Wahr- und Falsch-Werten gemäß den spezifischen Reihenfolgen der Signalfolgen der verschiedenen Analyt-Arten aufweisen; und Bestimmen der Signal-Zusammensetzung für jede der Signalfolgen, wobei gemäß der Signal-Zusammensetzung den Signalkomponenten ein Signalanteil an der jeweiligen Signalfolge zugeordnet wird; und Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell, wobei das Verarbeitungsmodell dazu trainiert wird, eine Signal-Zusammensetzung von Signalfolgen von Bildbereichen einer Bildfolge zu bestimmen.

Description

Die vorliegende Erfindung betrifft ein Verfahren sowie eine Vorrichtung zum Bestimmen einer Signal-Zusammensetzung von Signalfolgen einer Bildfolge sowie ein Verfahren und eine Vorrichtung zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell, das dazu trainiert wird, eine Signal-Zusammensetzung von Signalfolgen von Bildbereichen einer Bildfolge zu bestimmen.
Aus der EP 2 992 115 B1 geht ein Verfahren zum Identifizieren von Analyten durch Einfärben der zu identifizierenden Analyten mit Markern in mehreren Färberunden hervor. Die Marker bestehen aus Oligonukleotiden und daran gekoppelten Farbstoffen, welche in der Regel Fluoreszenz-Farbstoffe sind. Die Oligonukleotide sind spezifisch für bestimmte Abschnitte der zu identifizierenden Analyten. Die einzelnen Oligonukleotide der Marker sind jedoch nicht eindeutig für die jeweiligen Analyten. Aber aufgrund der mehreren Färberunden ist es möglich, eine eindeutige Bestimmung der Analyten durchzuführen, da mehrere unterschiedliche Marker nach dem Durchführen der mehreren Färberunden einem bestimmten Oligonukleotid zugeordnet werden können und die zugeordneten mehreren Marker dann eindeutig für die jeweiligen Analyten sind.
Mit diesem Verfahren können unterschiedlichste Analyten in vitro, beispielsweise in einer Zelle mittels eines Fluoreszenz-Mikroskops, detektiert werden. Die Analyten können eine RNA, insbesondere eine mRNA oder eine tRNA sein. Die Analyten können auch ein Abschnitt einer DNA sein.
In einer Probe befinden sich oftmals eine Vielzahl von Analyten, die mit den oben erläuterten Färberunden parallel identifiziert werden können, auch wenn es sich hierbei um unterschiedliche Analyten handeln sollte. Je mehr Analyten sich in der Probe befinden, desto größer ist die Anzahl der zu detektierenden Marker in den jeweiligen Färberunden. Bei einer automatischen Erfassung und Auswertung der entsprechenden Bildsignale müssen die Bildsignale aller Marker in der Probe erfasst und auch von nicht durch an Analyten gekoppelte Marker verursachten Bildsignalen in der Probe unterschieden werden.
Aus der WO 2020/254519 A1 und der WO 2021/255244 A1 geht ein weiteres Verfahren, mit dem unter anderem Analyten, aber auch Proteine identifiziert werden können, hervor. Bei diesem Verfahren werden zunächst Sonden, welche für die jeweiligen Analyten spezifisch sind, an diese gekoppelt. Die Sonden weisen Oligonukleotid-Reste auf, welche nicht mit den Analyten hybridisieren. An den freien Oligonukleotid-Resten werden Dekodier-Oligonukleotide hybridisiert, welche einen Überstand zu den freien Resten aufweisen. An den Überständen werden Markermoleküle, kurz Marker, mit einem Farbstoff hybridisiert. Auch bei diesem Verfahren wird eine Folge von Bildsignalen an den entsprechenden Analyten in mehreren Färberunden erzeugt, welche Aufschluss über den jeweils vorliegenden Analyten geben. Es sind aber auch Verfahren bekannt, bei denen die Marker direkt an die freien Oligonukleotid-Reste binden.
Nach der Aufnahme der Bilder werden die über die Färberunden aufgenommenen Signalfolgen von Bildsignalen einer Analyse unterzogen, in der die Signalfolgen den Analyt-Arten zugeordnet werden. Es hat sich gezeigt, dass die Analyse der Signalfolgen nicht immer eindeutige Ergebnisse liefert.
Zusammenfassung der Erfindung
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren bereitzustellen, mit dem eine Signal-Zusammensetzung von Signalfolgen einer Bildfolge auch für Signalfolgen, die sich aus Signalfolgen mehrerer Analyten zusammensetzen, bestimmt werden kann.
Eine weitere Aufgabe der Erfindung ist es, ein Verfahren bereitzustellen, dass das Trainieren eines Maschinenlernsystems zum Bestimmen einer Signal-Zusammensetzung von Signalfolgen einer Bildfolge auch für Signalfolgen, die sich aus Signalfolgen mehrerer Analyten zusammensetzt, ermöglicht.
Ein Aspekt der Erfindung betrifft ein Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell. Das Verarbeitungsmodell wird dazu trainiert, eine Signal-Zusammensetzung von Signalfolgen von Bildbereichen einer Bildfolge zu bestimmen. Die Bildfolge wird durch Markieren von Analyten mit Markern in mehreren Färberunden und Detektieren der Marker mit einer Kamera erzeugt. Die Kamera nimmt in jeder Färberunde ein Bild der Bildfolge auf. Die Marker werden so ausgewählt, dass Signalfolgen von Analyten in einem Bildbereich über die Bildfolge Gefärbt-Signale und Ungefärbt-Signale umfassen. Die Gefärbt- und Ungefärbt-Signale der Signalfolgen von Analyten weisen mindestens ein bestimmtes Verhältnis eines der Gefärbt- und/oder Ungefärbt-Signale der jeweiligen Signalfolge zu mindestens einem anderen der Gefärbt- und/oder Ungefärbt-Signal der jeweiligen Signalfolge auf, oder die Signalfolgen von Analyten weisen eine charakteristische Signatur, umfassend das mindestens eine bestimmte Verhältnis, auf. Das Verfahren umfasst einen Schritt Bereitstellen eines annotierten Datensatzes, wobei der annotierte Datensatz für verschiedene zu identifizierende Signalkomponenten Eingabe-Signalfolgen sowie korrespondierende Ziel-Ausgaben umfasst. Die Signalkomponenten umfassen mindestens eine Signalkomponente für jede zu identifizierende Analyt-Art. Die Signalfolgen von Analyten weisen eine spezifische Reihenfolge der Gefärbt- und Ungefärbt-Signale auf, anhand derer den Signalfolgen eine Analyt-Art zugeordnet werden kann. Das Verfahren umfasst außerdem einen Schritt Optimieren einer Zielfunktion durch Anpassen der Modellparameter des Verarbeitungsmodells, wobei die Zielfunktion basierend auf einer vom Verarbeitungsmodell ausgegebenen Ergebnis-Ausgabe und der Ziel-Ausgabe berechnet wird.
Gemäß der vorliegenden Erfindung ist ein Analyt eine Sache, deren Vorhandensein oder Fehlen in einer Probe spezifisch nachgewiesen werden soll und die im Falle ihres Vorhandenseins kodiert werden soll. Dabei kann es sich um jede Art von Entität handeln, einschließlich eines Proteins, Polypeptids, Proteins oder eines Nukleinsäuremoleküls (z. B. RNA, PNA oder DNA), auch Transkript genannt. Der Analyt bietet mindestens eine Stelle für eine spezifische Bindung mit analytspezifischen Sonden. Ein Analyt im Sinne der Erfindung kann einen Komplex von Gegenständen, z. B. mindestens zwei einzelne Nukleinsäure-, Protein- oder Peptidmoleküle umfassen. In einer Ausführungsform der Offenbarung schließt ein Analyt ein Chromosom aus. In einer anderen Ausführungsform der Offenbarung schließt ein Analyt DNA aus. In einigen Ausführungsformen kann ein Analyt eine kodierende Sequenz, eine strukturelle Nukleotidsequenz oder ein strukturelles Nukleinsäuremolekül sein, das sich auf eine Nukleotidsequenz bezieht, die in ein Polypeptid übersetzt wird, in der Regel über mRNA, wenn sie unter der Kontrolle geeigneter regulatorischer Sequenzen steht. Die Grenzen der kodierenden Sequenz werden durch ein Translationsstartcodon am 5'-Terminus und ein Translationsstoppcodon am 3'-Terminus bestimmt. Eine kodierende Sequenz kann genomische DNA, cDNA, EST und rekombinante Nukleotidsequenzen umfassen, ist aber nicht darauf beschränkt. Abhängig davon, welche Art von Analyten identifiziert werden soll, werden solche Verfahren beispielsweise räumliche Transkriptomie oder auch Multiomie genannt.
Der Begriff Bildsignal wird im Folgenden so verstanden, dass hiermit entweder ein Wert eines Bildpunktes des Bildes für eine bestimmte Farbe eines vorbestimmten Farbkanals gemeint ist, oder das Bildsignal umfasst Werte unterschiedlicher Grundfarben eines Farbraumes eines Farbbildes.
Der Begriff Signalfolge wird im Folgenden so verstanden, dass die Signalfolge die Bildsignale von Bildbereichen der Bildfolge umfasst, wobei die Bildbereiche der verschiedenen Bilder der Bildfolge zueinander registriert sind. Die Bildbereiche erfassen demnach in allen der Bilder der Bildfolge Bildsignale desselben Ortes in der Probe. Die Signalfolge eines Bildbereichs umfasst die Bildsignale der Bilder der Bildfolge des jeweiligen Bildbereichs.
Der Begriff Signal-Zusammensetzung wird im Folgenden so verstanden, dass eine Signal-Zusammensetzung für verschiedene mögliche oder zu identifizierende Signalkomponenten einen Signalanteil umfasst. Die Signalkomponenten können beispielsweise Signalkomponenten verschiedener Analyt-Arten sein, aber auch Signalkomponenten von Hintergrundsignalen. Ein Signalanteil können hier ein absoluter Signalanteil, ein relativer Signalanteil oder auch nur ein binärer Signalanteil sein, d.h. die Signal-Zusammensetzung gibt jeweils nur an, welche der möglichen Signalkomponenten einen Beitrag zu einer Signalfolge liefern.
Gemäß der vorliegenden Erfindung werden die Spektralbereiche, die jeweils eine Farbe eines Markers umfassen, auch als Farbkanäle bezeichnet. Die in die Farbkanäle separierten Bilder sind monochromatische Bilder und enthalten für einen jeden Bildpunkt als Wert oder Messwert das oben beschriebene Bildsignal des Bildpunkts in der Farbe des Farbkanals.
Die Erfinder haben erkannt, dass die Signalfolgen von Bildbereichen, die Bildsignale von Analyten erfassen, über die Signalfolge jeweils mindestens ein bestimmtes Verhältnis zwischen Gefärbt- und/oder Ungefärbt-Signalen der jeweiligen Signalfolge aufweisen. Dementsprechend umfassen Signalfolgen, die von Analyten herrühren, eine charakteristische Signatur umfassend dem mindestens einen bestimmten Verhältnis der Gefärbt- und/oder Ungefärbt-Signale der Signalfolge. Darüber hinaus weisen die Signalfolgen von Analyten für jede der zu identifizierenden Analyt-Arten eine bestimmte Reihenfolge der Gefärbt- und Ungefärbt-Signale auf, anhand derer die Signalfolgen der Analyten einer Analyt-Art zugeordnet werden können. Dadurch, dass gemäß dem Verfahren zum Trainieren eines Maschinenlernsystems ein Verarbeitungsmodell mit Signalfolgen, die Gefärbt- und Ungefärbt-Signale mit dem bestimmten Verhältnis bzw. die charakteristische Signatur sowie die spezifische Reihenfolge von Gefärbt- und Ungefärbt-Signalen aufweisen, dazu trainiert wird, eine Analyt-Art zu identifizieren, kann ein sehr effektives, schnelles und gut zu kontrollierendes Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell, das Signalfolgen von Bildbereichen einer Bildfolge Signalanteile von Signalkomponenten zuordnet, bereitgestellt werden. Ein auf diese Weise trainiertes Maschinenlernsystems kann sehr effizient die Daten einer Bildfolge mit markierten Analyten analysieren und auch Signalfolgen mit Signalanteilen von mehreren Signalkomponenten diesen zuverlässig zuordnen.
Vorzugsweise umfasst der annotierte Datensatz außerdem Eingabe-Signalfolgen von Hintergrund-Bildbereichen, wobei Hintergrund-Bildbereiche Bildbereiche der Bildfolge sind, in denen keine Signale von Analyten erfasst werden, und die Ziel-Ausgabe für Hintergrund-Bildbereiche mindestens eine eigene Signalkomponente in der Menge der Signalkomponenten bildet.
Dadurch, dass ein Signal eines Hintergrund-Bildbereichs als eigene Signalkomponente in die Analyse der Signalkomponenten eingeht und bereits im Training berücksichtigt wird, verbessert sich die Erkennung und Zuordnung von Signalanteilen zu den Signalkomponenten weiter.
Vorzugsweise ist das Verarbeitungsmodell ein Klassifikationsmodell, die Ergebnis-Ausgabe eine Signalkomponente der Eingabe-Signalfolge. Alternativ ist die Ergebnis-Ausgabe eine Wahrscheinlichkeitsverteilung, die jeweils die Wahrscheinlichkeit angibt, zu einer der Signalkomponenten zu gehören und die Zielfunktion erfasst einen Unterschied zwischen der Ergebnis-Ausgabe und der Ziel-Ausgabe.
Dadurch, dass das Verarbeitungsmodell als Klassifikationsmodell zum Ausgeben der Signalkomponenten trainiert ist, kann anhand einer Ausgabe des Verarbeitungsmodells auf einfache Weise der Signalanteil der jeweiligen Signalkomponente zugeordnet werden, ein weiteres Matching ist nicht nötig. Ist das Klassifikationsmodell dazu trainiert, dass es eine Wahrscheinlichkeitsverteilung ausgibt, so kann anhand des Ergebnisses auch direkt abgelesen werden, wie sicher sich das Verarbeitungsmodell beim Zuordnen der Signalkomponente ist, was dem Benutzer ermöglicht, bei zweifelhafter Zuordnung die entsprechende Zuordnung gegebenenfalls zu überprüfen, was besonders erwünscht ist. Die vorliegende Erfindung stellt demnach ein Verfahren zum Trainieren eines Maschinenlernsystems bereit, mit dem auf einfache Weise ein Maschinenlernsystem dazu trainiert werden kann, Signalanteile von Signalkomponenten einer Signalfolge zu identifizieren.
Vorzugsweise erfolgt das Optimieren einer Zielfunktion in mehreren Runden, wobei in einigen der Runden die Reihenfolge der Gefärbt- und Ungefärbt-Signale einer der Eingabe-Signalfolgen so geändert wird, dass die geänderte Reihenfolge einer Reihenfolge einer anderen der zu identifizierenden Analyt-Arten entspricht und zu der geänderten Reihenfolge die entsprechend korrespondierende Ziel-Ausgabe beim Optimieren der Zielfunktion verwendet wird.
Dadurch, dass man die Reihenfolge der Gefärbt- und Ungefärbt-Signale einer der Eingabe-Signalfolgen geeignet so ändert, dass sich eine Reihenfolge einer anderen der zu identifizierenden Analyt-Arten ergibt, kann eine Eingabe-Signalfolge konstruiert werden, mit der das Netzwerk zum Identifizieren einer Analyt-Art trainiert wird, für die keine Eingabe-Signalfolge zum Training verfügbar ist.
Vorzugsweise ist die Zielfunktion eine Klassifikations-Loss und die Ergebnis-Ausgabe für jeden der Einträge ein Wert zwischen 0 und 1, der eine Wahrscheinlichkeit angibt, dass die jeweilige Signalfolge zu der jeweiligen Signalkomponente gehört.
Die Klassifikations-Loss kann beispielsweise eine Cross-Entropie-Loss, eine Hinge-Loss, eine Logistic-Loss oder eine Kullback-Leibler-Loss sein.
Dadurch, dass beim Training eine Klassifikations-Loss verwendet wird, kann auf besonders einfache Weise eine Wahrscheinlichkeitsausgabe generiert werden.
Vorzugsweise ist die Ziel-Ausgabe eine Soll-Bitfolge, wobei die Ziel-Ausgabe für jedes Gefärbt-Signal in der Eingabe-Signalfolge ein Wahr-Bit und für jedes Ungefärbt-Signal ein Falsch-Bit umfasst.
Dadurch, dass die Ziel-Ausgabe eine Soll-Bitfolge ist, kann eine Ergebnis-Ausgabe des Verarbeittungsmodells besonders leicht gematcht werden, außerdem benötigen die Soll-Bitfolgen nur wenig Speicher, somit kann der annotierte Datensatz so zur Verfügung gestellt werden, dass er möglichst wenig Speicher verbraucht.
Vorzugsweise ist die Ergebnis-Ausgabe eine Wahrscheinlichkeitsverteilung, in der jedem Bildsignal der Eingabe-Signalfolge eine Wahrscheinlichkeit zugeordnet ist, dass das Bildsignal ein Gefärbt-Signal ist oder nicht. Die Zielfunktion erfasst einen Unterschied zwischen der Ergebnis-Ausgabe und der Ziel-Ausgabe.
Dadurch, dass die Ergebnis-Ausgabe eine Wahrscheinlichkeitsverteilung ist, kann ein Benutzer beim Überprüfen der ausgegebenen Ergebnisse leicht erkennen, ob das Verarbeitungsmodell die jeweiligen Gefärbt-Signale mit einer hohen Sicherheit erkannt hat. Somit ermöglicht das Verfahren eine besonders leichte Interpretation der ausgegebenen Ergebnisse.
Vorzugsweise sind die Einträge der Ergebnis-Ausgaben jeweils ein Wert zwischen 0 und 1, der eine Wahrscheinlichkeit angibt, dass das jeweilige Bildsignal der Signalfolge ein Gefärbt-Signal ist.
Die Zielfunktion kann beispielsweise eine L1-Norm, eine L2-Norm, eine Cross-Entropie-Loss, eine Hinge-Loss, eine Logistic-Loss oder eine Kullback-Leibler-Loss sein.
Vorzugsweise ist das Verarbeitungsmodell ein vollständig faltendes Netzwerk, das als Klassifikationsmodell mit vollständig verbundenen Schichten mittels Signalfolgen von einzelnen Bildbereichen trainiert wurde, wobei das Klassifikationsmodell nach dem Training durch Ersetzen der vollständig verbundenen Schichten durch faltende Schichten in das vollständig faltende Netzwerk überführt wird. Das vollständig faltende Netzwerk verarbeitet die Signalfolgen aller Bildbereiche der Bildfolge gleichzeitig. Gemäß einer Alternative kann das vollständig faltende Netzwerk direkt als solches trainiert werden.
Dadurch, dass das vollständig faltende Netzwerk als Klassifikationsmodell mit vollständig verbundenen Schichten trainiert wird, spart man beim Training durch Verwenden von Signalfolgen einzelner Bildbereiche Rechenleistung, da nicht immer die gesamte Bildfolge inferiert werden muss.
Vorzugsweise umfasst ein Berechnen der Zielfunktion ein Berechnen einer Kandidaten-Gruppe von Kandidaten-Zielfunktionen für jede Eingabe-Signalfolge von Analyten. Für jede der Kandidaten-Zielfunktionen wird ein anderes der Gefärbt-Signale in der Eingabe-Signalfolge beim Berechnen der Kandidaten-Zielfunktion nicht berücksichtigt, indem es beispielsweise auf Null gesetzt wird oder durch ein Ungefärbt-Signal ersetzt wird. Beim Berechnen der Kandidaten-Zielfunktion für Eingabe-Signalfolgen eines Hintergrund-Bildbereichs werden einzelne oder mehrere in Eingabe-Signalfolgen von Hintergrund-Bildbereichen enthaltene Gefärbt-Signale bei der Berechnung der Kandidaten-Zielfunktionen nicht berücksichtigt, indem die entsprechenden Gefärbt-Signale bei der Berechnung ausgelassen werden oder durch Ungefärbt-Signale ersetzt werden. Nach dem Berechnen einer Kandidaten-Gruppe erfolgt ein Auswählen einer Wahl-Zielfunktion aus der Kandidaten-Gruppe. Die Wahl-Zielfunktion ist diejenige der Kandidaten-Zielfunktionen, die entweder einen zweitgrößten oder einen drittgrößten oder einen viertgrößten Unterschied zwischen Ziel-Bitfolge und Ergebnis-Bitfolge aufweist, vorzugsweise einen zweitgrößten Unterschied.
Gemäß dem vorliegenden Verfahren werden vor dem Aufnehmen der Bildfolge die Soll-Bitfolgen so gewählt, dass die verschiedenen zu identifizierenden Analyt-Arten einen gewissen Hamming-Abstand aufweisen. Unter dem Hamming-Abstand versteht man Maße für die Unterschiedlichkeit von Zeichenketten, hier beispielsweise Bitfolgen. Der Hamming-Abstand zweier Blöcke mit gleicher Länge ist dabei die Anzahl an unterschiedlichen Stellen.
Der Hamming-Abstand wird so gewählt, dass die zu identifizierenden Analyt-Arten auch bei einem Fehler von z.B. einem Bit noch erkannt werden können. Durch das Bestimmen der Wahl-Zielfunktion wie hier beschrieben kann dem Verarbeitungsmodell somit beigebracht werden, auch fehlerhaft erfasste Signalfolgen noch zuverlässig zu erkennen
Vorzugsweise ist das Verarbeitungsmodell ein Einbettungs-Modell, das für Einbettungs-Eingaben eine Einbettung in einen Einbettungsraum bestimmt. Die Einbettungs-Eingaben umfassen die Eingabe-Signalfolgen und die Ziel-Ausgaben. Die Ergebnis-Ausgaben umfassen die Einbettungen der Eingabe-Signalfolgen. Ziel-Einbettungen umfassen die Einbettungen der Ziel-Ausgaben. Das Optimieren der Zielfunktion minimiert den Unterschied zwischen Einbettungen von Einbettungs-Eingaben derselben Signalkomponente und maximiert gleichzeitig den Unterschied zwischen Einbettungen von Einbettungs-Eingaben unterschiedlicher Signalkomponenten.
Dadurch, dass die Zielfunktion so gewählt wird, dass die Soll-Bitfolgen einer Analyt-Art und korrespondierende Eingabe-Signalfolgen so in den Einbettungsraum eingebettet werden, dass ihr Unterschied minimiert wird, kann man auf einfache Weise die Soll-Bitfolgen den erfassten Signalfolgen zuordnen. Darüber hinaus erfolgt ein Abgleich von Soll-Bitfolgen zu den erfassten Signalfolgen direkt im Modell, was eine Verarbeitungsgeschwindigkeit erheblich erhöht, da das Verfahren beispielsweise direkt auf einer Grafikkarte bzw. einer speziellen Beschleunigungskarte für maschinelles Lernen, beispielsweise einem Tensor-Prozessor oder einem anwendungsspezifischen Chip, ausgeführt werden kann.
Vorzugsweise werden die Soll-Bitfolgen und die Eingabe-Signalfolgen in unterschiedliche Verarbeitungspfade einer Eingabe-Schicht des Einbettungs-Modells eingegeben.
Dadurch, dass die Soll-Bitfolgen und die Eingabe-Signalfolgen in unterschiedliche Verarbeitungspfade einer Eingabe-Schicht des Einbettungs-Modells eingegeben werden, weist das Einbettungs-Modell unterschiedliche Modellparameter für die Soll-Bitfolgen und die Eingabe-Signalfolgen auf, weshalb diese geeignet in den Einbettungsraum eingebettet werden können. Durch Verwendung verschiedener Verarbeitungspfade verringert sich daher ein Abstand im Einbettungsraum und die Analyt-Arten können besser voneinander unterschieden werden.
Vorzugsweise umfasst das Optimieren einer Zielfunktion mehrere Runden, wobei in einigen der Runden ein Randomisieren der Eingabe-Signalfolge erfolgt. Das Randomisieren umfasst dabei: Vertauschen einer Reihenfolge der Bildsignale der Eingabe-Signalfolge, sowie korrespondierendes Vertauschen korrespondierender Einträge der Zielausgabe und zufälliges Auswählen einer ersten Anzahl an Gefärbt-Signalen und einer zweiten Anzahl an Ungefärbt-Signalen aus der Menge der Eingabe-Signalfolgen und Erstellen der entsprechend korrespondierenden Ziel-Ausgabe.
Gemäß dem Stand der Technik werden vor einem Experiment zum räumlichen Bestimmen von Analyten Soll-Bitfolgen festgelegt, anhand derer verschiedene Analyt-Arten identifiziert werden können. Abhängig von in den jeweiligen Proben enthaltenen Analyt-Arten werden verschiedene Sätze von Soll-Bitfolgen verwendet. Durch das Randomisieren der Eingabe-Signalfolgen kann das Verarbeitungsmodell dazu trainiert werden, unabhängig von den jeweils neu für ein neues Experiment festgelegten Soll-Bitfolgen, Signalfolgen von Analyten zu erkennen. Somit kann ein Modell einmal zum Erkennen von Signalfolgen von Analyten trainiert werden und dann auf ganz verschiedene Sätze von Soll-Bitfolgen angewandt werden.
Vorzugsweise erfolgt das Optimieren einer Zielfunktion in mehreren Runden, wobei in einigen der Runden ein Augmentieren der Eingabe-Signalfolgen erfolgt. Das Augmentieren kann beispielsweise eines oder mehrere der folgenden umfassen: Ersetzen mindestens eines einzelnen der Gefärbt-Signale der Eingabe-Signalfolge durch ein Ungefärbt-Signal, wobei das Ungefärbt-Signal entweder durch ein Absenken des Gefärbt-Signals oder durch Ersetzen des Gefärbt-Signals durch ein Bildsignal aus der Umgebung des Bildbereichs der Eingabe-Signalfolge, aus einer anderen Färberunde oder von einem anderen Ort in der Probe, erzeugt wird, zufälliges Verrauschen einiger der Bildsignale der Bildfolge, beispielsweise der Bildsignale einer Eingabe-Signalfolge, eines der Bilder der Bildfolge oder aller Bilder der Bildfolge, Verschieben und/oder Verdrehen der Bilder der Bildfolge zueinander, um beispielsweise weniger als zwei Bildpunkte oder weniger oder gleich einem Bildpunkt, beispielsweise einem halben Bildpunkt, Ersetzen eines einzelnen der Ungefärbt-Signale der Eingabe-Signalfolge durch ein Gefärbt-Signal, Verschieben der Bildsignale von mindestens einem der Bilder der Bildfolge um einen konstanten Wert und Verschieben der Bildsignale der Eingabe-Signalfolge um einen konstanten Wert.
Durch das Augmentieren der Eingabe-Signalfolgen kann ein Training des Verarbeitungsmodells robuster gestaltet werden.
Vorzugsweise werden die Eingabe-Signalfolgen mittels einer Transformation in transformierte Eingabe-Signalfolgen transformiert und die transformierten Eingabe-Signalfolgen in das Verarbeitungsmodell eingegeben. Als Transformationen kommen beispielsweise eine oder mehrere der folgenden infrage: eine Hauptkomponentenanalyse, eine Hauptachsentransformation, eine Singulärwert-Zerlegung, eine Normierung, wobei die Normierung eine Normierung der Bildsignale über ein Bild oder eine Normierung der Bildsignale über eine Signalfolge oder beides umfasst.
Dadurch, dass transformierte Signalfolgen in das Verarbeitungsmodell eingegeben werden, können beispielsweise bestimmte Hintergrundkomponenten, die mittels der Hauptachsentransformation oder der Singulärwert-Zerlegung extrahiert werden, im Verarbeitungsmodell einfach zugeordnet bzw. erkannt werden, wodurch sich das Training des Verarbeitungsmodells deutlich verbessert. Vorzugsweise wird beispielsweise nur eine Teilmenge der Komponenten der transformierten Signalfolge in das Verarbeitungsmodell eingegeben.
Es zeigt sich, dass bei einer geeigneten Transformation, beispielsweise bei der Hauptkomponentenanalyse, eine erste Komponente in den transformierten Daten eine sehr große Varianz erzeugt, aber nicht zur Trennung der Analyten beiträgt. Diese erste Komponente kann auch als die Helligkeit interpretiert werden, anhand dieser Komponente können entweder die übrigen Komponenten normiert werden oder die erste Komponente kann direkt weggelassen werden. Dadurch, dass man nun die erste Hauptkomponente weglässt, erspart man sich eine Hintergrundkorrektur, wodurch in der weiteren Analyse Zeit gespart wird.
Vorzugsweise wird der annotierte Datensatz mittels mindestens einem der folgenden generiert: Simulieren von Signalen der verschiedenen Marker unter Verwendung eines repräsentativen Hintergrundbildes und einer bekannten Punktspreizfunktion des Mikroskops, Generieren des annotierten Datensatzes mittels eines generativen Modells, das auf vergleichbaren Daten trainiert wurde, Aufnehmen von Referenzbildern, umfassend mindestens ein Hintergrundbild sowie zu jedem der Hintergrundbilder für jede der Analyt-Arten mindestens ein Bild, in dem Analyten der jeweiligen Analyt-Art markiert sind, Durchführen eines klassischen Verfahrens zur räumlichen Identifizierung von Analyten, Aufnehmen eines repräsentativen Hintergrundbildes und pixelweises Abziehen der Bildsignale des repräsentativen Hintergrundbildes von den Bildsignalen der Bildfolge, auf denen der annotierte Datensatz basiert, vor dem Bereitstellen des annotierten Datensatzes, so dass der annotierte Datensatz nur hintergrundkorrigierte Signalfolgen umfasst.
Das verwendete generative Modell kann beispielsweise eines der folgenden Modelle sein: ein Active Appearance Modell (AAMs), ein Generative Adversarial Network (GANs), ein Variational Autoencoder (VAEs), ein Auto-regressive Modell oder ein Diffusion Modell.
Durch die Aufnahme eines repräsentativen Hintergrundbildes einer Probe, für die im weiteren Verlauf die enthaltenen Analyten räumlich bestimmt werden sollen, sowie durch das Simulieren von Signalen der Marker unter Verwendung des repräsentativen Hintergrundbildes, sowie einer bekannten Punktspreizfunktion des Mikroskops, kann auf einfache Weise ein annotierter Datensatz mit einer hinreichenden Genauigkeit erstellt werden, sodass ein entsprechend der Probe geeigneter annotierter Datensatz vorliegt, mittels dem ein geeignetes Verarbeitungsmodell trainiert werden kann.
Dadurch, dass generative Modelle besonders gut dafür geeignet sind, künstlich Bilder zu erstellen, erreicht man durch das Generieren eines annotierten Datensatzes mittels eines generativen Modells in besonders effizienter Weise, einen annotierten Datensatz mit einer hohen Qualität zu erstellen.
Dadurch, dass man Referenzbilder, umfassend ein Hintergrundbild sowie zu jedem Hintergrund mindestens ein Bild, in dem jeder zu identifizierende Analyt markiert ist, aufnimmt, kann für ein jeweiliges Hintergrundbild entsprechend ein annotierter Datensatz erstellt werden, da über die Bilder alle zu identifizierende Analyten markiert sind und so auf einfache Weise vom Hintergrundbild unterschieden werden können.
Dadurch, dass man vor dem Erstellen des annotierten Datensatzes ein klassisches Verfahren zum räumlichen Erkennen von Analyten durchführt, kann ein besonders realistischer annotierter Datensatz erstellt werden. Die Erstellung des annotierten Datensatzes ist dann zwar sehr rechenintensiv, da die klassischen Verfahren zum Auswerten sehr rechenintensiv sind, dadurch, dass dann mittels des klassischen Verfahrens ermittelte Soll-Folgen jeweils Aufnahmen aus einem Ergebnis-Merkmalsraum enthalten, ist ein Matching hier jedoch besonders zuverlässig.
Dadurch, dass man die Bildsignale eines repräsentativen Hintergrundbildes von den Bildsignalen der Bildfolge abzieht, kann das Verarbeitungsmodell die unterschiedlichen Hintergründe in den unterschiedlichen Bildbereichen vernachlässigen und muss lediglich entsprechend der auftretenden Signalfolgen trainiert werden. Daher sollte das Verarbeitungsmodell durch vorherigen Abzug des repräsentativen Hintergrundbildes schneller trainiert werden können.
Vorzugsweise ist das Trainieren des Verarbeitungsmodells ein vollständiges Anlernen des Verarbeitungsmodells oder ein Transfer-Lernen eines vortrainierten Verarbeitungsmodells. Das vortrainierte Verarbeitungsmodell kann beispielsweise anhand von Kontextinformationen aus einem Satz von vortrainierten Verarbeitungsmodellen ausgesucht werden.
Dadurch, dass das Verarbeitungsmodell ein vortrainiertes Verarbeitungsmodell ist, kann eine Gesamtzeit, die zum Training aufgewendet wird, erheblich reduziert werden. Gleichzeitig werden hierdurch hochspezifische Verarbeitungsmodelle mit einer hohen Genauigkeit beim Zuordnen von Signalkomponenten trainiert.
Ein weiterer Aspekt der Erfindung betrifft ein Verfahren zum Bestimmen einer Signal-Zusammensetzung von Signalfolgen einer Bildfolge. Die Bildfolge wird durch Markieren von Analyten mit Markern in mehreren Färberunden und Detektieren der Marker mit einer Kamera erzeugt. Die Kamera nimmt in jeder Färberunde ein Bild der Bildfolge auf, die Marker werden so ausgewählt, dass Signalfolgen von Analyten in einem Bildbereich über die Bildfolge Gefärbt- und Ungefärbt-Signale umfassen und Signalfolgen der verschiedenen Analyt-Arten jeweils eine spezifische Reihenfolge von Gefärbt-Signalen und Ungefärbt-Signalen aufweisen, und die verschiedenen Analyt-Arten anhand der spezifischen Reihenfolge identifiziert werden können. Das Verfahren umfasst die folgenden Schritte: Empfangen von Signalfolgen, Einlesen eines Codebuchs, wobei das Codebuch für alle Signalkomponenten eine Sollfolge umfasst, die Sollfolgen Analyt-Sollfolgen umfassen, die Analyt-Sollfolgen eine Abfolge von Wahr- und Falsch-Werten gemäß den spezifischen Reihenfolgen der Signalfolgen der verschiedenen Analyt-Arten aufweisen, und Bestimmen der Signal-Zusammensetzung für jede der Signalfolgen, wobei gemäß der Signal-Zusammensetzung den Sollfolgen des Codebuchs ein Signalanteil an der jeweiligen Signalfolge zugeordnet wird.
Gemäß der vorliegenden Erfindung umfasst ein Codebuch für jede Analyt-Art eine Folge von Markern, welche in den jeweiligen Färberunden an die jeweilige Analyt-Art koppeln.
Bei herkömmlichen Verfahren zum Identifizieren von Analyten in einer Bildfolge werden zunächst helle Bildpunkte über die Bildfolge identifiziert, aus der Abfolge von hellen Bildpunkten wird eine Signalfolge erstellt und die Signalfolge direkt mit Signalfolgen in einem Codebuch gematcht. Als Ergebnis umfasst die Analyse die Analyt-Art, die am besten auf die jeweilige Signalfolge passt. Im Stand der Technik sind keine Verfahren bekannt, die Signalfolgen mit einer Mischung von mehreren Analyt-Arten abgleichen und beispielsweise ein Mischungsverhältnis mehrerer Analyt-Arten ausgeben.
Die Erfinder haben erkannt, dass bei einer Vielzahl der Signalfolgen Beiträge von mehreren Analyten zu sehen sind. D.h. Analyten liegen in der Probe so dicht beieinander, dass sie aufgrund des Auflösungsvermögens eines Mikroskops auf denselben Bildbereich abgebildet werden. Dadurch, dass das Verfahren zum Bestimmen einer Signal-Zusammensetzung basierend auf Sollfolgen eines Codebuchs verschiedenen Sollfolgen jeweils einen Signalanteil zuordnet, ermöglicht das vorliegende Verfahren, Signalfolgen von Bildbereichen zu analysieren und Analyt-Arten zu identifizieren, auch wenn diese auf demselben Bildbereich abgebildet werden. Dies ist dem oben zitierten Stand der Technik nicht möglich.
Vorzugsweise wird die Signal-Zusammensetzung anhand einer Signalanteilsfunktion bestimmt. Die Signalanteilsfunktion erfasst einen Unterschied zwischen der jeweiligen Signalfolge und einer Linearkombination mehrerer der Sollfolgen. Das Bestimmen der Signal-Zusammensetzung erfolgt durch Optimieren der Signalanteilsfunktion anhand der Signalanteile.
Dadurch, dass die Signal-Zusammensetzung mittels einer zu optimierenden Signalanteilsfunktion bestimmt wird, kann auf einfache Weise die Signal-Zusammensetzung bestimmt werden.
Vorzugsweise erfolgt das Optimieren der Signalanteilsfunktion mittels einem der folgenden Algorithmen: eine Nicht-Negative-Matrixfaktorisierung, eine Hauptkomponentenanalyse, eine Diskriminanzfunktion, eine Singulärwert-Zerlegung oder ein klassisches Optimierungsverfahren, insbesondere eine konvexe Optimierung, eine nicht-konvexe Optimierung, eine konkave Optimierung, eine lineare Optimierung oder eine nicht-lineare Optimierung, wobei das klassische Optimierungsverfahren mit oder ohne Nebenbedingungen, vorzugsweise mit Nebenbedingungen, insbesondere Randbedingungen durchgeführt wird.
Durch geeignete Optimierung der Signalanteilsfunktion lässt sich mit den genannten Algorithmen eine Signal-Zusammensetzung gut bestimmen.
Vorzugsweise erfolgt das Optimieren unter Verwendung von vorgegebenen Randbedingungen. Die Randbedingungen umfassen beispielsweise: die Signalanteile können nicht negativ sein, die Einträge in den Sollfolgen können nicht negativ sein, eine Anzahl der Gefärbt-Signale in einer Sollfolge ist für alle Analyt-Arten im Codebuch vorgegeben, beispielsweise als fester Wert oder als Intervall, die Anzahl der Gefärbt-Signale ist für jede der Sollfolgen werden individuell vorgegeben.
Während eines Experiments übersteigt die Anzahl an verschiedenen Analyt-Arten im Codebuch die Anzahl der Messwerte, d.h. der Bildsignale über die Signalfolge, je Bildpunkt bzw. je Bildbereich. Daher hat das mathematische Optimierungsproblem keine eindeutige Lösung, man spricht auch davon, dass das Problem schlecht gestellt wurde. Durch die Wahl geeigneter Randbedingungen wie oben genannt kann das unlösbare Problem in ein lösbares Problem überführt werden. Die beschriebenen Randbedingungen sind hierbei beispielsweise durch die physikalischen Randbedingungen vorgegeben, es ergibt zum Beispiel keinen physikalischen Sinn, den Signalanteilen einen negativen Wert zuzuordnen, ebenso wenig wie die Einträge der Sollfolgen sinnvollerweise keine negativen Einträge haben.
Vorzugsweise erfolgt das Optimieren unter Verwendung einer Regularisierung. Die Regularisierungsparameter der Regularisierung umfassen beispielsweise: eine vorgegebene maximale Anzahl an verschiedenen Signalkomponenten, eine erwartete Anzahl von Analyt-Arten, eine Beschränkung der kombinierbaren Analyt-Arten des Codebuchs untereinander sowie eine Beschränkung der Optimierung auf dünn besetzte Lösungen, d. h. es haben immer nur wenige der verschiedenen Sollfolgen des Codebuchs Signalanteile.
Durch die Einführung einer Regularisierung kann man das mathematisch nicht bzw. nur schlecht oder nicht eindeutig lösbare Problem so abändern, dass es mathematisch lösbar wird.
Vorzugsweise umfasst das Bestimmen einer Signal-Zusammensetzung: Eingeben der Signalfolgen in ein Verarbeitungsmodell, wobei das Verarbeitungsmodell beispielsweise gemäß einem der oben beschriebenen Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell dazu trainiert wurde, eine Ergebnis-Ausgabe bereitzustellen, aus der für jede Signalkomponente der Signalanteil zur jeweiligen Signalfolge bestimmt wird.
Dadurch, dass die Signal-Zusammensetzung mittels eines Verarbeitungsmodells, beispielsweise eines neuronalen Netzwerks bestimmt wird, kann schnell und effizient die Signal-Zusammensetzung bestimmt werden.
Vorzugsweise ist das Verarbeitungsmodell ein Klassifikationsmodell und die Ergebnis-Ausgabe für jede Signalfolge eine Wahrscheinlichkeitsverteilung über die Signalkomponenten des Codebuchs, die jeweils eine Wahrscheinlichkeit angibt zu einer der Signalkomponenten zu gehören und den Signalanteil basierend auf der Wahrscheinlichkeitsverteilung bestimmt.
Dadurch, dass das Verarbeitungsmodell ein Klassifikationsmodell ist, das eine Wahrscheinlichkeitsverteilung über die Signalkomponenten des Codebuchs ausgibt, kann man beispielsweise alle Signalkomponenten mit einer Wahrscheinlichkeit oberhalb einem Schwellwert als in der Signalfolge enthalten identifizieren und basierend auf jeweils der Höhe der Wahrscheinlichkeit einen Signalanteil festlegen. Durch Verwendung des Klassifikationsmodells ist diese Zuordnung besonders einfach. Außerdem kann anhand des Ergebnisses auch direkt abgelesen werden, wie sicher sich das Verarbeitungsmodell beim Zuordnen der Signalkomponente ist, was dem Benutzer ermöglicht, bei zweifelhafter Zuordnung die entsprechende Zuordnung gegebenenfalls zu überprüfen, was besonders erwünscht ist.
Vorzugsweise basiert die Ergebnis-Ausgabe auf einem Multiplizieren einer Schicht-Ausgabe des Verarbeitungsmodells mit einer Analyt-Matrix. Die Analyt-Matrix basiert auf den Sollfolgen des Codebuchs. Die Ergebnis-Ausgabe liefert für jede der Signalkomponenten einen Wert, aus dem der Signalanteil bestimmt wird.
Dadurch, dass die Ergebnis-Ausgabe mittels einer einfachen Matrixmultiplikation implementiert wird, kann die Ergebnis-Ausgabe auf besonders einfache Weise bestimmt werden. Dadurch, dass die Multiplikation mit der Analyt-Matrix im Netz implementiert ist, kann die Ergebnis-Ausgabe besonders effizient beispielsweise auf einer Grafikkarte bzw. einer speziellen Beschleunigungskarte für maschinelles Lernen, beispielsweise einem Tensor-Prozessor oder einem anwendungsspezifischen Chip berechnet werden. Darüber hinaus wird die Ergebnis-Ausgabe lediglich mittels einer Matrixmultiplikation in der letzten Faltungsschicht implementiert. Man kann die Berechnung der Ergebnis-Ausgabe sehr einfach auf ein neues Codebuch umstellen, indem man die Analyt-Matrix durch eine andere Analyt-Matrix ersetzt, ohne das Verarbeitungsmodell neu trainieren zu müssen. Hat man das Verarbeitungsmodell unspezifisch zum Erkennen von Gefärbt- und Ungefärbt-Signalen trainiert, so hat man demnach ein analyt-agnostisches-Modell trainiert, das leicht auf neue Analyt-Matrizen und somit auf neue spezifische Reihenfolgen oder neue analyt-spezifische Proben umgestellt werden kann.
Vorzugsweise ist das Verarbeitungsmodell ein Klassifikationsmodell, wobei die Schicht-Ausgabe eine Wahrscheinlichkeitsverteilung umfasst, die jedem Bildsignal einer Signalfolge eine Wahrscheinlichkeit zuordnet, ein Gefärbt-Signal zu sein. Die Sollfolgen sind Bitfolgen, die für jedes erwartete Gefärbt-Signal einen Wahr-Wert umfasst und für jedes erwartete Ungefärbt-Signal einen Falsch-Wert umfasst. Die Ergebnis-Ausgabe umfasst für jede Signalfolge eine Summe der Wahrscheinlichkeitswerte der Schichtausgabe, die zu einem Wahr-Wert der Sollfolge korrespondieren. Basierend auf der Summe wird der Signalanteil bestimmt.
Dadurch, dass das Verarbeitungsmodell ein Klassifikationsmodell ist, das für jedes der Bildsignale einer Signalfolge die Wahrscheinlichkeit ausgibt, dass das jeweilige Bildsignal ein Gefärbt-Signal ist, und in der Matrixmultiplikation die Wahrscheinlichkeiten gerade so mit der Analyt-Matrix multipliziert werden, dass für jede Signalkomponente gerade die zu den Wahr-Werten der jeweiligen Signalkomponenten korrespondierenden Wahrscheinlichkeiten aufsummiert werden, bedeutet ein höherer Wert, also eine höhere ausgegebene Summe der Wahrscheinlichkeitswerte, gerade, dass mehr und höhere Wahrscheinlichkeiten jeweils zu den Wahr-Werten der Sollfolge korrespondieren. Somit gibt eine höhere Summe gerade an, dass mit einer hohen Wahrscheinlichkeit viele der Wahr-Werte der Sollfolge in der Signalfolge Gefärbt-Signale sind. Man erhält also über die Summe ein einfaches Maß, welche der Signalkomponenten Anteile an den Signalen der Signalfolge haben.
Vorzugsweise ist das Verarbeitungsmodell ein Einbettungsmodell. Das Einbettungsmodell bestimmt Einbettungen der Signalfolgen und der Sollfolgen in einen Einbettungsraum, sodass die Schicht-Ausgabe eine Ergebnis-Einbettung ist und die Analyt-Matrix auf den Einbettungen der Sollfolgen basiert. Das Einbettungsmodell wurde dazu trainiert, Signalfolgen einer bestimmten Analyt-Art und deren korrespondierende Soll-Folgen so auf den Einbettungsraum abzubilden, dass die verschiedenen Einbettungen, die zu derselben Signalkomponente korrespondieren, einen möglichst kleinen Abstand im Einbettungsraum aufweisen und die Einbettungen, die zu verschiedenen Signalkomponenten korrespondieren, einen möglichst großen Abstand aufweisen. Darüber hinaus sollten die Einbettungen von Signalfolgen mit Signalanteilen von mehreren Signalkomponenten zu den Einbettungen der jeweiligen mehreren Signalkomponenten einen möglichst kleinen Abstand aufweisen und zu den Einbettungen der übrigen Signalkomponenten einen möglichst großen Abstand.
Dadurch, dass man das Einbettungsmodell so trainiert, dass auch Signalfolgen mit Signalanteilen von mehreren Signalkomponenten so eingebettet werden, dass ein Abstand zu den Einbettungen in den jeweils mehreren Signalkomponenten minimal ist, erreicht man, dass für Signalfolgen mit mehreren Signalkomponenten, die ja im Merkmalsraum eine besondere Nähe zu den Signalfolgen der jeweiligen Signalkomponenten aufweisen, auch im Einbettungsraum diese Nähe gegeben ist, d.h. kurze Abstände im Merkmalsraum werden auf kurze Abstände im Einbettungsraum abgebildet, weshalb es besonders einfach wird, die jeweiligen Signalkomponenten, aus denen sich die Signalfolgen mit den mehreren Signalkomponenten zusammensetzen, anhand der ermittelten Abstände im Einbettungsraum zu bestimmen.
Vorzugsweise wurde beim Training des Verarbeitungsmodells ein annotierter Datensatz verwendet, der für eine Mehrzahl von zu identifizierenden Signalkomponenten, die jeweils beispielsweise zu einer Analyt-Art korrespondieren, Trainings-Signalfolgen und die korrespondierenden Sollfolgen umfasst. Während des Trainings werden Trainings-Signalfolgen unterschiedlicher Signalkomponenten, d. h. beispielsweise unterschiedlicher Analyt-Arten, linear kombiniert und die Linearkombination in das Verarbeitungsmodell eingegeben. Die korrespondierenden Sollfolgen werden ebenfalls entsprechend linear kombiniert und dienen im Training zum Berechnen der Zielfunktion.
Dadurch, dass Trainings-Signalfolgen generiert werden, die sich aus Signalfolgen mehrerer Signalkomponenten zusammensetzen, kann man das Verarbeitungsmodell gezielt zum Erkennen von solchen gemischten Signalfolgen trainieren. Dies ist einerseits für ein Verarbeitungsmodell, das als Indikationsmodell implementiert ist, vorteilhaft, da man so eine geeignete Umsetzung im Verarbeitungsmodell gezielt erreichen kann. Andererseits kann man hiermit auch die Einbettung der gemischten Signalfolgen wie oben beschrieben gezielt erreichen.
Vorzugsweise umfasst das Bestimmen einer Signal-Zusammensetzung außerdem die folgenden Schritte: Clustern der extrahierten Signalfolgen mittels eines Clusteranalyse-Algorithmus, wobei eine Anzahl an vorgegebenen Clustern mindestens gleich einer Anzahl der Signalkomponenten ist; Bestimmen, für jedes der Cluster, eines Clusterzentrums; Bestimmen mindestens eines Soll-Clusterzentrums für jede der Signalkomponenten, basierend auf den Sollfolgen; Bestimmen, für jedes der Clusterzentren, von Cluster-Abständen des Clusterzentrums zu den Soll-Clusterzentren; Zuordnen, basierend auf den Cluster-Abständen der Cluster zu einer der Signalkomponenten; Bestimmen für jede der Signalfolgen des Abstandes zu den jeweiligen Clusterzentren; und Bestimmen des Signalanteils, basierend auf den Abständen.
Mittels einer Clusteranalyse ist es möglich, Cluster für jede der Signalkomponenten zu bestimmen. Für Signalfolgen, die sich aus mehreren Signalkomponenten zusammensetzen, sollte sich im Raum der Clusteranalyse ein Abstand jeweils zu den Signalkomponenten, aus denen sich die Signalfolge zusammensetzt, minimieren. Somit kann durch Bestimmen der jeweils minimalen Abstände zu den jeweiligen Clusterzentren ein Anteil der Signalkomponenten an der jeweiligen Signalfolge bestimmt werden.
Vorzugsweise ist der jeweilige Abstand ein euklidischer Abstand im Raum der Clusteranalyse, alternativ kann der Abstand zum Beispiel auch abhängig von einer Streuung der Werte innerhalb eines Clusters sein, beispielsweise basierend auf der Streuung normiert sein. Außerdem kann beim Bestimmen des Abstands auch eine Entropie der jeweiligen Signalfolge berücksichtigt werden oder eine Entropie eines Abstandsvektors, wobei der Abstandsvektor gerade der Vektor zwischen dem Ortsvektor der Signalfolge im Clusteranalyseraum und dem Ortsvektor des Clusterzentrums im Clusteranalyseraum ist.
Vorzugsweise korrespondieren jeweils n der Färberunden zu einer Markierungsrunde und jeder Analyt wird in nur einer der n Färberunden einer Markierungsrunde detektiert, d.h. ein Analyt wird nur mit einem der n Marker gekoppelt, wobei die n Marker so ausgebildet sind, dass in jeder Markierungsrunde jeweils an jede der Analyt-Arten nur einer der n Marker koppelt und jeder der n Marker in einem anderen Farbkontrast aufgenommen wird. Beispielsweise wird beim Bestimmen der Signal-Zusammensetzung als Randbedingung berücksichtigt, dass nur in einer der n Färberunden einer Markierungsrunde ein Analyt mit einem Marker markiert wird.
Dadurch, dass man als Randbedingung eingibt, dass jede der Analyt-Arten in nur einer der n Färberunden einer Markierungsrunde mit einem Marker gekoppelt ist und somit nur in einer der n Färberunden einer Markierungsrunde ein Gefärbt-Signal sein kann, kann man beispielsweise bei der Optimierung, wenn man binnen der n Färberunden einer Markierungsrunde mehr als ein Gefärbt-Signal in einem Bildbereich bzw. in einer Signalfolge erhält, direkt darauf schließen, dass in der jeweiligen Signalfolge mehrere Analyt-Arten Bildsignale erzeugen.
Vorzugsweise werden insgesamt n x m=k Färberunden durchgeführt und n x m =k Bilder aufgenommen. Eine Signalfolge umfasst somit k Bildsignale, wobei jede Analyt-Art in maximal n der Färberunden ein Gefärbt-Signal aufweist. Beim Bestimmen der Signal-Zusammensetzung wird beispielsweise als Randbedingung berücksichtigt, dass für jeden Analyten bzw. jede Signalkomponente maximal n der Färberunden ein Gefärbt-Signal darstellen.
Dadurch, dass man als weitere Randbedingung eine maximale Anzahl an Gefärbt-Signalen verwendet, kann das Bestimmen der Signal-Zusammensetzung noch zuverlässiger erfolgen.
Vorzugsweise gehen in das Bestimmen einer Signal-Zusammensetzung Signalkomponenten-Kontextinformationen ein. Die Signalkomponenten-Kontextinformationen umfassen dabei mindestens eines der folgenden: Informationen über eine Lage einer Analyt-Art in einer Probe, Informationen über eine Anzahl an erwarteten Analyt-Arten, Informationen über Co-Lokalisierungen bestimmter Analyt-Arten in bestimmten Bereichen einer Probe, Informationen über eine maximale Anzahl an Analyt-Arten in bestimmten Bereichen der Probe, eine Nutzer-ID, Experiment-Informationen wie Experimentart und Probenart sowie Informationen über einen Hintergrundanteil in verschiedenen Bereichen der Probe.
Dadurch, dass beim Bestimmen der Bild-Region insbesondere Kontextinformationen über eine identifizierte Analyt-Art bzw. Signalkomponente verwendet werden, können auch nach dem Identifizieren der Analyt-Art einer Signalfolge immer noch Korrekturen bei der Bestimmung bzw. Fehler bei der Bestimmung korrigiert werden.
Vorzugsweise umfasst das Verfahren vor dem Bestimmen einer Signal-Zusammensetzung, insbesondere vor dem Eingeben der Signalfolgen in ein Verarbeitungsmodell, noch einen Schritt Durchführen einer Hintergrundkorrektur der Bildsignale der Bildfolge, wobei das Durchführen der Hintergrundkorrektur eines oder mehrere der folgenden umfasst: ein Rolling-Ball-Verfahren, eine Filterung wie beispielsweise ein Top-Hat-Verfahren, eine homomorphe Filterung, eine Tiefpassfilterung, wobei das Ergebnis der Tiefpassfilterung vom Signal abgezogen wird, oder eine zeitliche Filterung, eine Hintergrundkorrektur mittels eines Bild-zu-Bild-Modells, Hintergrundkorrektur mittels Misch-Modellen, Hintergrundkorrektur mittels eines Mean-Shift Verfahrens, Hintergrundkorrektur mittels einer Hauptkomponentenanalyse, Hintergrundkorrektur mittels einer nicht-negativen Matrixfaktorisierung, oder Hintergrundkorrektur mittels Anregung der Auto-Fluoreszenz mittels eines unspezifischen Lasers für alle Bildbereiche der Bildfolge.
Dadurch, dass das Verfahren eine Hintergrundkorrektur umfasst, können die Bildsignale der Signalfolgen unabhängig und somit besser vom Hintergrund getrennt werden bzw. reduziert sich ein Rechenaufwand beispielsweise beim Matching, da Hintergrund-Beiträge nicht länger berücksichtigt werden müssen.
Vorzugsweise wird beim Bestimmen einer Signal-Zusammensetzung für jede der Signalfolgen auch eine Hintergrund-Signalkomponente als eine weitere der Signalkomponenten mit einem weiteren Signalanteil berücksichtigt.
Dadurch, dass eine Hintergrund-Signalkomponente ebenfalls beim Bestimmen der Signal-Zusammensetzung berücksichtigt wird, kann beispielsweise bei der Linearkombination der Signalkomponenten inklusive der Hintergrund-Signalkomponente ein Hintergrund besonders gut berücksichtigt werden, was die Identifizierung der Signalkomponenten weiter verbessert.
Vorzugsweise wird die Hintergrund-Signalkomponente aus Bildsignalen von den Bildbereich der Signalfolge umgebenden Bildbereichen bestimmt und anhand der so bestimmten Hintergrund-Signalkomponente ein Anteil der Hintergrund-Signalkomponente an der Signalfolge bestimmt.
Dadurch das die Hintergrund-Signalkomponenten anhand der umgebenden Bildbereiche individuell für jede Signalfolge bestimmt wird, kann die Hintergrundkomponente besonders zuverlässig entsprechend dem umgebenden Hintergrund bestimmt werden, was die Bestimmung der Signalanteile weiter verbessert.
Vorzugsweise wird beim Bestimmen einer Signal-Zusammensetzung für jede der Signalfolgen auch eine Rauschkomponente als eine weitere der Signalkomponenten mit einem weiteren Signalanteil berücksichtigt.
Dadurch, dass eine Rauschkomponente ebenfalls beim Bestimmen der Signal-Zusammensetzung berücksichtigt wird, kann beispielsweise bei der Linearkombination der Signalkomponenten inklusive der Rauschkomponente ein Rauschen der Anordnung besonders gut berücksichtigt werden, was ein Bestimmen der Signalkomponenten weiter verbessert.
Vorzugsweise umfasst das Verfahren außerdem ein Normieren der Bildsignale, wobei das Normieren mindestens eines der folgenden umfasst: Normieren der Bildsignale über ein gesamtes Bild; Normieren der Bildsignale über alle Bilder der Bildfolge; Normieren der Bildsignale über eine Signalfolge; Normieren der Bildsignale über eine Signalfolge, sodass relative Signalanteile bestimmt werden; Normieren der Bildsignale basierend auf einem Farbkontrast der Bildsignale.
Dadurch, dass die Bildsignale vor dem Bestimmen der Signal-Zusammensetzung normiert werden, erreicht man beispielsweise bei der Ausgabe eine bessere Korrelation bezüglich der relativen Signalanteile verschiedener Signalkomponenten zueinander.
Vorzugsweise umfassen die Bildbereiche beispielsweise jeweils nur einen Bildpunkt, eine Fläche von zusammenhängenden Bildpunkten oder ein zusammenhängendes Volumen in einem Bildstapel. Beispielsweise wird die Signalfolge als ein Tensor in das Verarbeitungsmodell eingegeben, der Einträge für jeden der Bildpunkte im Bildbereich hat und jede der Färberunden umfasst. Gemäß einer Alternative werden die Werte benachbarter Bildpunkte des Bildbereichs zu Einträgen im Tensor zusammengefasst. Beispielsweise wird ein Durchschnittswert benachbarter Bildpunkte eingegeben, ein Maximalwert, ein Minimalwert oder ein Median.
Dadurch, dass man mehrere Bildpunkte zu einem Bildbereich zusammenfasst, kann man eine benötigte Rechenleistung während des Auswertens der Signalfolgen reduzieren. Dahingegen ermöglicht eine bildpunktweise Auswertung gegebenenfalls eine Trennung von Signalen dicht beieinanderliegender Analyten, die beim Zusammenfassen der mehreren Bildpunkte zu einem Bildbereich mit lediglich einem einzigen Wert miteinander verschmelzen würden und nicht mehr voneinander getrennt werden könnten.
Dadurch, dass man die Größe eines Bildbereichs abhängig von einer erwarteten Analyt-Dichte wählt, kann man entsprechend einer erwarteten Analyt-Dichte eine benötigte Rechenleistung optimieren.
Entsprechend kann eine Größe eines Bildbereichs abhängig von einer erwarteten Analyt-Dichte in der Probe gewählt werden. Vorzugsweise kann eine Größe eines Bildbereichs über das gesamte Bild variieren, abhängig jeweils von der in dem Bildbereich erwarteten Analyt-Dichte.
Gemäß der vorliegenden Erfindung können beim Eingeben der Signalfolgen in ein Modell, beispielsweise das Verarbeitungsmodell, entweder Signalfolgen einzelner Bildbereiche in das Modell eingegeben werden, man spricht davon, dass das rezeptive Feld des Modells dann nur einen einzigen Bildbereich umfasst, alternativ kann das rezeptive Feld des Modells aber auch Signalfolgen benachbarte Bildbereiche umfassen. Das Modell verarbeitet dann die Signalfolge des jeweiligen Bildbereichs unter anderem anhand der Bildsignale bzw. Signalfolgen der weiteren Bildbereiche im rezeptiven Feld. Man spricht auch davon, dass in die Verarbeitung der Bildsignale bzw. der Signalfolge des Bildbereichs der räumliche Kontext eingeht, hier gerade die Bildsignale bzw. Signalfolgen der benachbarten Bildbereiche, die zum rezeptiven Feld des Modell gehören.
Eine Anzahl der Bildbereiche im rezeptiven Feld kann beispielsweise basierend auf der Punktspreizfunktion des Mikroskops so gewählt werden, dass ein Durchmesser des rezeptiven Felds nicht größer als, nur unwesentlich größer als oder beispielsweise doppelt so groß ist wie ein Durchmesser eines Bereichs, auf den ein Punkt in einer Probe aufgrund der Punktspreizfunktion abgebildet wird. Beispielsweise ist das rezeptive Feld 3x3, 5x5, 7x7, 9x9, 13x13, 17x17 Bildbereiche groß, das rezeptive Feld kann aber auch 3x3x3, 5x5x5, 7x7x7, 9x9x9, 13x13x13 oder auch 17x17x17 Bildbereiche groß sein, wenn in den Färberunden Bildstapel aufgenommen werden.
Vorzugsweise umfasst das Verfahren ein Bestimmen einer Bild-Region. Das Bestimmen einer Bild-Region umfasst hierbei insbesondere Zusammenfassen von benachbarten Bildbereichen zu einer Bild-Region, wenn die benachbarten Bildbereiche Signalfolgen mit den gleichen Signalkomponenten aufweisen, wobei das Zusammenfassen von benachbarten Bildbereichen beispielsweise eine Non-Maximum-Suppression umfasst.
Durch das Zusammenfassen von Bildbereichen in Bild-Regionen und das Bestimmen von Bild-Region-Signalfolgen kann ein Rechenaufwand beim Auswerten der Bildfolge erheblich reduziert werden.
Vorzugsweise umfasst das Bestimmen einer Bild-Region außerdem ein Überprüfen der Bild-Regionen, wobei das Überprüfen der Bild-Regionen mindestens eines aus den folgenden umfasst: Auftrennen der Bild-Region in zwei oder mehr Bild-Regionen, wenn die Bild-Region eine Maximal-Größe überschreitet; Auftrennen der Bild-Regionen in zwei oder mehr Bild-Regionen, wenn die Bild-Regionen jeweils nur durch einige Brücken-Bildpunkte miteinander verbunden sind oder anhand einer Form der Bild-Region erkenntlich ist, dass sich hier zwei Bild-Regionen überschneiden; Auftrennen der Bild-Region, basierend auf Signalkomponenten-Kontextinformationen, wobei Signalkomponenten-Kontextinformationen beispielsweise umfassen: Informationen über eine Größe einer Bild-Region in Abhängigkeit der Analyt-Art, Informationen über eine Lage einer Bild-Region in einer Probe, Informationen über Co-Lokalisierungen bestimmter Analyt-Arten in bestimmten Bereichen bzw. in einer Lage in einer Probe, erwartete Analyt-Dichten, abhängig von einer Lage der Bild-Region in einer Probe; und Verwerfen von Bild-Regionen, wenn eine Bild-Region eine Mindestgröße unterschreitet oder eine Form aufweist, die sicher nicht einem Analyten zugeordnet werden kann.
Vorzugsweise wird die Maximal-Größe der Bild-Region abhängig von der Punktspreizfunktion einer Bildgebungseinrichtung gewählt.
Darüber hinaus kann die Maximal-Größe auch abhängig von einer erwarteten Analyt-Dichte so gewählt werden, dass bei einer hohen erwarteten Analyt-Dichte, die Maximal-Größe möglichst klein ist, während bei einer geringen erwarteten Analyt-Dichte größere Maximal-Größen zulässig sind. Die Maximal-Größe kann jeweils entsprechend einer semantischen Segmentierung des Bildes gewählt sein.
Dadurch, dass die Maximal-Größe basierend auf der Punktspreizfunktion einer Aufnahmevorrichtung gewählt wird, kann die Größe einer Bild-Region optimal an eine erwartete Ausdehnung eines Signals von einem Analyt angepasst werden. Somit verbraucht man nicht unnötige Rechenkapazitäten, indem man zu viele Signalfolgen analysiert, und außerdem wird auch ein zu grobes Rastern durch die Wahl der Maximal-Größe anhand der Punktspreizfunktion verhindert.
Dadurch, dass man Bild-Regionen entsprechend bestimmter Kriterien auftrennt oder verwirft, kann sowohl beim Überprüfen, ob die Signalfolge der jeweiligen Bild-Region eine Kandidaten-Signalfolge ist, als auch beim Identifizieren einer Analyt-Art der Signalfolge eine benötigte Rechenleistung erheblich reduziert werden, darüber hinaus kann es anhand des Auftrennens vermieden werden, mehrere, insbesondere mehrere verschiedene Analyt-Arten in einer Bild-Region zu erfassen, wenn eine erwartete Analyt-Dichte sehr groß ist.
Vorzugsweise umfasst das Bestimmen einer Bild-Region außerdem Bestimmen einer Bild-Region-Signalfolge, basierend auf den Signalfolgen der Bildbereiche, aus denen sich die Bild-Region zusammensetzt, wobei das Bestimmen der Signal-Zusammensetzung anhand der Bild-Region-Signalfolge erfolgt und ein Zusammenfassen von Bildsignalen benachbarter Bildbereiche zu einem kombinierten Bildsignal der Bild-Region einschließt.
Vorzugsweise erfolgt das Bestimmen einer Bild-Region nach dem Bestimmen einer Signal-Zusammensetzung für jede der Signalfolgen.
Dadurch, dass das Bestimmen der Bild-Regionen nach dem Bestimmen einer Signal-Zusammensetzung erfolgt, ist sichergestellt, dass beispielsweise auch nach dem Bestimmen einer Signal-Zusammensetzung noch ein Trennen der Bild-Regionen erfolgen kann, wenn beispielsweise in einer Bild-Region so viele Gefärbt-Signale gefunden werden, dass möglicherweise Bildsignale von mehreren Analyten in der Bild-Region erfasst wurden. Entsprechend ermöglicht das Auftrennen der Bild-Regionen ein verbessertes Bestimmen der Signal-Zusammensetzung der Signalfolgen.
Vorzugsweise umfasst das Bestimmen der Signal-Zusammensetzung eine Non-Maximum-Suppression.
Dadurch, dass mittels einer Non-Maximum-Suppression doppelt bestimmte Signal-Zusammensetzungen herausgefiltert werden können, kann verhindert werden, dass beispielsweise sich überschneidende oder benachbarte Bildbereiche doppelt als gefundene Analyte gezählt werden.
Vorzugsweise gibt der Signalanteil einen relativen Anteil des Bildsignals der jeweiligen Signalkomponente an den Bildsignalen der Signalfolge an.
Dadurch, dass die Signalanteile der jeweiligen Signalkomponenten als relativer Anteil des Bildsignals ausgegeben werden, kann man einen Anteil der jeweiligen zu den jeweiligen Signalkomponenten korrespondierenden Analyten bestimmen.
Vorzugsweise wird ist der Signalanteil ein absoluter Anteil der jeweiligen Signalkomponenten am Bildsignal.
Vorzugsweise wird zunächst wie oben beschrieben mit einem Verarbeitungsmodell die Signal-Zusammensetzung bestimmt, die bestimmten Signalanteile werden dann als Ausgangswerte für das oben beschriebene Optimieren einer Signalanteilsfunktion als Signalanteile der Linearkombination verwendet und die Signal-Zusammensetzung basierend auf dem oben beschriebenen Verfahren zum Optimieren einer Signalanteilsfunktion erneut bestimmt.
Dadurch, dass man zunächst mittels eines Verarbeitungsmodells Signalkomponenten, die einen Signalanteil an der Signalfolge haben, bestimmt und anschließend mittels des Optimierungsverfahrens durch Optimieren der Signalanteilsfunktion die Signalanteile erneut bestimmt, erhält man einen deutlich genauer bestimmten Signalanteil, als wenn man ausschließlich das Verarbeitungsmodell zum Bestimmen der Signalanteile verwendet, außerdem beschleunigt man die Optimierung erheblich, da man sie ausgehend von den mittels des Verarbeitungsmodells bestimmten Signalanteilen ausführt und die mittels des Verarbeitungsmodells bestimmten Signalkomponenten und deren Signalanteile als Nebenbedingung bei der Optimierung verwendet, wodurch die Lösung einfacher, besser lösbar bzw. eindeutig lösbar wird.
Vorzugsweise umfasst das Verfahren außerdem die Schritte: Generieren eines erweiterten annotierten Datensatzes basierend auf den bestimmten Signalanteilen; und Durchführen des oben beschriebenen Verfahrens zum Trainieren eines Maschinenlernsystems zumindest mit dem erweiterten annotierten Datensatz als dem annotierten Datensatz.
Durch die Erweiterung des annotierten Datensatzes mit verifizierten Daten kann das Training des Verarbeitungsmodells kontinuierlich verbessert werden.
Vorzugsweise umfasst das Extrahieren der Signalfolge mindestens eines der folgenden: Extrahieren aller Bildbereiche der Bildfolge; Extrahieren einer zufälligen Auswahl der Bildbereiche der Bildfolge; Extrahieren einer mit einer strukturellen Eigenschaft der Bildbereiche gewichteten Auswahl der Bildbereiche der Bildfolge, beispielsweise mit höherer Wahrscheinlichkeit für Zellen, Zellkerne und helle Bildpunkte; Extrahieren von Bildbereichen ausschließlich aus Bildbereichen mit einem Mindestmaß an Bildschärfe und Überspringen von Bildbereichen, in denen keine Analyten zu erwarten sind.
Durch geschicktes Extrahieren der Bildbereiche wie oben beschrieben kann ein Aufwand bei der Auswertung der Bildsignale der Bildfolge erheblich reduziert werden.
Vorzugsweise wird das Verarbeitungsmodell von Hand ausgewählt oder automatisch ausgewählt. Beispielsweise erfolgt die automatische Auswahl anhand von Kontextinformationen, die Kontextinformationen umfassen beispielsweise eine Probenart, eine Experimentart oder eine Nutzer-ID.
Vorzugsweise umfasst das Extrahieren außerdem die folgenden Schritte: Herausfiltern von Kandidaten-Signalfolgen aus den extrahierten Signalfolgen, wobei ein Verhältnis mindestens eines der Gefärbt- und/oder Ungefärbt-Signale einer Kandidaten-Signalfolge zu mindestens einem anderen der Gefärbt- und/oder Ungefärbt-Signale der jeweiligen Signalfolge ein charakteristisches Verhältnis ist und/oder eine Kandidaten-Signalfolge eine charakteristische Signatur, umfassend das mindestens eine charakteristische Verhältnis, aufweist, so dass, wenn die Signalfolge mindestens ein charakteristisches Verhältnis und/oder die charakteristische Signatur aufweist, die Signalfolge als Kandidaten-Signalfolge beurteilt wird
Gemäß dem Stand der Technik werden in einer Bildfolge Bildpunkte identifiziert, die ein Bildsignal oberhalb eines gewissen Schwellwerts aufweisen. Der Schwellwert wird jeweils lokal innerhalb eines Bildes der Bildfolge bestimmt. Die Erfinder haben erkannt, dass es, abgesehen von den Analyten in einer Bildfolge, die besonders helle Bildsignale liefern, noch weitere Analyten gibt, deren Bildsignal sich nur unwesentlich von Bildsignalen in einer unmittelbaren Umgebung der Bildpunkte unterscheidet. Solche Kandidaten-Signalfolgen können anhand des bestimmten Verhältnisses von Gefärbt- und/oder Ungefärbt-Signalen zueinander bzw. anhand einer charakteristischen Signatur innerhalb einer Signalfolge, umfassend mindestens ein bestimmtes Verhältnis, identifiziert werden. Dadurch, dass das Kandidatenextrahierungs-Modell dazu trainiert wurde, Kandidaten-Signalfolgen sowie die Gefärbt- und Ungefärbt-Signale innerhalb einer Signalfolge anhand des bestimmten Verhältnisses zu erkennen bzw. anhand einer charakteristischen Signatur, umfassend das mindestens eine bestimmte Verhältnis zu identifizieren, ist es mittels des vorliegenden Verfahrens möglich, auch Analyten innerhalb einer Probe zu finden, die sich trotz des Markierens mit Markern zumindest in einigen der Färberunden nur gering von einer Helligkeit der übrigen Signale der Signalfolge und einer Helligkeit umgebender Bildpunkte absetzt.
Vorzugsweise wird das Herausfiltern von Kandidaten-Signalfolgen mittels eines Kandidatenextrahierungs-Modells ausgeführt, wobei das Kandidatenextrahierungs-Modell beispielsweise anhand einer Probenart, einer Experimentart oder einer Nutzer-ID aus einem Satz von Kandidatenextrahierungs-Modellen ausgesucht wird.
Dadurch, dass ein maschinenlernbares Kandidatenextrahierungs-Modell zum Identifizieren von Kandidaten-Signalfolgen bzw. zum Identifizieren von Analyt-Bereichen verwendet wird, können Analyt-Bereiche bzw. Kandidaten-Signalfolgen besonders effizient in der Bildfolge identifiziert werden.
Vorzugsweise wurde das Kandidatenextrahierungs-Modell dazu trainiert, die Gefärbt- und Ungefärbt-Signale anhand mindestens eines bestimmten Verhältnisses eines der Gefärbt- und/oder Ungefärbt-Signale der jeweiligen Signalfolge zu mindestens einem anderen der Gefärbt- und/oder Ungefärbt-Signale der jeweiligen Signalfolge zu identifizieren und/oder die Kandidaten-Signalfolgen jeweils anhand einer charakteristischen Signatur, umfassend das mindestens eine bestimmte Verhältnis, zu identifizieren.
Die Erfinder haben erkannt, dass die Signalfolgen von Bildbereichen, in denen die Bildsignale von Analyten erfasst werden, jeweils mindestens ein bestimmtes Verhältnis zwischen Gefärbt- und/oder Ungefärbt-Signalen der jeweiligen Signalfolge aufweisen, daraus ergibt sich für die Kandidaten-Signalfolgen eine charakteristische Signatur, umfassend das mindestens eine bestimmte Verhältnis der Gefärbt- und/oder Ungefärbt-Signale. Anhand des bestimmten Verhältnisses lassen sich Gefärbt- und Ungefärbt-Signale in einer Signalfolge erkennen und somit auch eine Anzahl von Gefärbt-Signalen in einer Signalfolge bestimmen. Anhand des bestimmten Verhältnisses bzw. anhand der charakteristischen Signatur kann ein Kandidatenextrahierungs-Modell dazu trainiert werden, die Gefärbt- und Ungefärbt-Signale sowie die Kandidaten-Signalfolgen in Signalfolgen einer Bildfolge zu identifizieren, das Kandidatenextrahierungs-Modell lernt also, bestimmte Muster in den Bildsignalen der Signalfolgen zu erkennen.
Dadurch, dass zunächst aus allen Signalfolgen die Signalfolgen eines Kandidaten-Bereichs herausgefiltert werden, bevor die jeweiligen Signalfolgen mit entsprechenden Soll-(Bit-)folgen gematcht werden, um die Signal-Zusammensetzung des jeweiligen Kandidaten-Bereichs bzw. der Kandidaten-Signalfolge zu bestimmen, kann der Rechenaufwand beim Bestimmen einer Analyt-Art eines Kandidaten-Bereichs erheblich reduziert werden, da erheblich weniger Signalfolgen mit einem Codebuch abzugleichen sind.
Vorzugsweise ist das Kandidatenextrahierungs-Modell ein semantisches Segmentierungsmodell, das eine semantische Segmentierungsmaske ausgibt, die jedem Bildbereich eine semantische Klasse zuordnet, die angibt, ob der Bildbereich Bildsignale eines Analyten erfasst oder nicht.
Vorzugsweise umfasst die Segmentierungsmaske mehr als zwei Klassen. Beispielsweise eine Klasse, in der von vornherein nicht nach Kandidaten-Signalfolgen gesucht wird, eine Klasse, die die Bildbereiche dem Hintergrund zuordnet, und eine Klasse mit Bildbereichen, in denen Kandidaten-Signalfolgen gefunden wurden. Alternativ kann die Segmentierungsmaske auch mehrere Klassen aufweisen, in denen Kandidaten-Signalfolgen gefunden werden können, wobei jede der mehreren Klassen beispielsweise nur bestimmte Kandidaten-Signalfolgen aufweist oder ein bestimmtes Verhältnis von verschiedenen Analyt-Arten zueinander.
Dadurch, dass das Kandidatenextrahierungs-Modell ein semantisches Segmentierungsmodell ist, kann anhand einer gemäß dem semantischen Segmentierungsmodell zugeordneten Klasse des jeweiligen Bildbereichs in einer auf das Identifizieren der Kandidaten-Signalfolgen folgenden Bestimmung der Signal-Zusammensetzung entsprechend der durch das semantische Segmentierungsmodell zugewiesenen Klasse die Signalfolge nur anhand der Klasse gegen das Codebuch gematcht bzw. mit den Soll-Bitfolgen des Codebuchs abgeglichen werden, wodurch beim Matching weitere Rechenressourcen gespart werden können, da beispielsweise weniger Soll-Bitfolgen abgeglichen werden müssen.
Dadurch, dass die Segmentierungsmaske mehr als zwei Klassen umfasst, können beispielsweise Bildbereiche außerhalb von Zellen direkt vom Modell erkannt werden, in diesen Bildbereichen wird dann gar nicht erst nach Kandidaten-Signalfolgen gesucht, dadurch wird das Verfahren weiter beschleunigt und weiter Rechenleistung gespart.
Vorzugsweise ist das Kandidatenextrahierungs-Modell ein Patch-Klassifikator, der mittels eines Sliding-Window-Verfahrens jedem Bildbereich den Wert zuordnet.
Vorzugsweise ist das Kandidatenextrahierungs-Modell ein vollständig faltendes Netzwerk und als Klassifikationsmodell mit vollständig verbundenen Schichten mit Signalfolgen von einzelnen Bildbereichen trainiert worden, wobei das Klassifikationsmodell nach dem Training durch Ersetzen der vollständig verbundenen Schichten durch faltende Schichten in das vollständig faltende Netzwerk überführt wird, das die Signalfolgen aller Bildbereiche der Bildfolge gleichzeitig verarbeitet.
Dadurch, dass zum Trainieren des Kandidatenextrahierungs-Modells ein Klassifikationsmodell mit vollständig verbundenen Schichten verwendet wird, reduziert sich im Training die benötigte Rechenkapazität erheblich, so kann das Training erheblich beschleunigt werden, damit die optimierten Modellparameter des Klassifikationsmodells dann im vollständig faltenden Netzwerk verwendet werden können. Dadurch, dass ein überwiegender Anteil der Bildbereiche der Bildfolge keine Signale von Analyten erfassen und somit zu den Hintergrund-Bildbereichen zählen, würde bei einem Training als vollständig faltendes Netzwerk, bei dem ja immer komplette Bilder eingegeben würden, das Training sehr unbalanciert ausfallen, da ein Verhältnis zwischen Signalfolgen aus Hintergrund-Bildbereichen und Signalfolgen mit Bildsignalen von Analyten durch die Signalfolgen aus Hintergrund-Bildbereichen dominiert wäre. Daher ermöglicht das Training als vollständig verbundenes Netzwerk ein Ausbalancieren der Trainingsdaten durch eine geeignete, ausgeglichene Auswahl von Signalfolgen von Hintergrund-Bildbereichen und Bildbereichen, die Signale von Analyten erfassen, so dass auch das identifizieren der Kandidaten-Signalfolgen hinreichend trainiert wird. In der Inferenz kann dann ein vollständig faltendes Netzwerk verwendet werden, dies erhöht einen Durchsatz des Netzwerks wiederum.
Gemäß einer Alternative kann das Kandidatenextrahierungs-Modell auch direkt als vollständig faltendes Netzwerk trainiert werden.
Vorzugsweise ist das Kandidatenextrahierungs-Modell ein Bild-zu-Bild Modell, das eine Bild-zu-Bild-Abbildung ausführt, die jedem Bildbereich einen Abstands-Wert zuordnet, der angibt, wie weit der Bildbereich von einem nächsten Bildbereich mit einer Kandidaten-Signalfolge entfernt ist, oder die jedem Bildpunkt eine Wahrscheinlichkeit zuweist, ein Bildbereich mit einer Kandidaten-Signalfolge zu sein.
Dadurch, dass das Kandidatenextrahierungs-Modell ein Bild-zu-Bild-Modell ist, kann bei der identifizierung von für das Matching der Signalfolgen mit den Ziel-Folgen eines Codebuchs zu verwendenden Signalfolgen anhand der Ziel-Ausgabe auf einfache Weise eine Schwelle gesetzt werden, sodass beispielsweise in der Inferenz des Modells zunächst Signalfolgen mit einem möglichst kleinen Abstands-Wert oder einem möglichst hohen Wahrscheinlichkeitswert ausgewählt werden und sukzessive mit steigendem Abstands-Wert bzw. fallendem Wahrscheinlichkeitswert so lange inferiert wird, bis eine Anzahl an gefundenen Analyten einer erwarteten Anzahl an gefundenen Analyten entspricht.
Vorzugsweise ist das Kandidatenextrahierungs-Modell als Detektionsmodell realisiert und gibt eine Liste der Bildbereiche, die die Bildsignale eines Analyten erfassen, aus.
Die Bildkoordinaten umfassen hierbei räumliche und zeitliche Komponenten, da die Bildfolge sowohl räumliche als auch zeitliche Koordinaten hat.
Dadurch, dass das Kandidatenextrahierungs-Modell als Detektionsmodell realisiert ist, umfasst die Ausgabe des Kandidatenextrahierungs-Modells gerade bei einer niedrigen Besetzung nur sehr wenige Daten, weshalb wenig Daten verbraucht werden.
Vorzugsweise umfasst das Verfahren vor dem Überprüfen, ob die Signalfolge eine Kandidaten-Signalfolge ist, noch einen Schritt „Transformieren der Signalfolge mittels einer Hauptachsentransformation oder einer Singulärwert-Zerlegung“, wobei die transformierte Signalfolge beim Überprüfen, ob die Signalfolge eine Kandidaten-Signalfolge ist, verwendet wird.
Dadurch, dass transformierte Signalfolgen in das Kandidatenextrahierungs-Modell eingegeben werden, können beispielsweise bestimmte Hintergrundkomponenten, die mittels der Hauptachsentransformation oder der Singulärwert-Zerlegung einfach aus den transformierten Signalfolgen eliminiert werden können, quasi durch die Transformation schon vor der Eingabe in das Modell eliminiert werden, wodurch Gefärbt- und Ungefärbt-Signale bzw. Kandidaten-Signalfolgen einfacher vom Modell erkannt werden können.
Vorzugsweise sind die Bildbereiche entweder jeweils nur ein Bildpunkt, eine Fläche von zusammenhängenden Bildpunkten oder ein zusammenhängendes Volumen in einem Bildstapel, wobei die Bildsignale der Bildbereiche beispielsweise als Tensor in das Kandidatenextrahierungs-Modell eingegeben werden.
Dadurch, dass man mehrere Bildpunkte zu einem Bildbereich zusammenfasst, kann man eine benötigte Rechenleistung während des Auswertens der Signalfolgen reduzieren. Dahingegen ermöglicht eine bildpunktweise Auswertung gegebenenfalls eine Trennung von dicht beieinanderliegenden Bildbereichen, die beim Zusammenfassen der mehreren Bildpunkte miteinander verschmelzen würden.
Entsprechend kann eine Größe eines Bildbereichs abhängig von einer erwarteten Analyt-Dichte in der Probe gewählt werden. Vorzugsweise kann eine Größe eines Bildbereichs über das gesamte Bild variieren, abhängig jeweils von der in dem Bildbereich erwarteten Analyt-Dichte.
Dadurch, dass man die Größe eines Bildbereichs abhängig von einer erwarteten Analyt-Dichte wählt, kann man entsprechend einer erwarteten Analyt-Dichte eine benötigte Rechenleistung optimieren.
Vorzugsweise bilden das Verarbeitungsmodell und das Kandidatenextrahierungs-Modell ein gemeinsames Zuordnungsmodell mit einer gemeinsamen Eingabeschicht.
Vorzugsweise bilden mehrere der Schichten des Kandidatenextrahierungs-Modells und des Verarbeitungsmodells, umfassend die gemeinsame Eingabeschicht, einen gemeinsamen Eingabestamm, in dem die Signalfolgen für das Kandidatenextrahierungs-Modell und das Verarbeitungsmodell gemeinsam verarbeitet werden.
Vorzugsweise werden die Signalfolgen zunächst vom Kandidatenextrahierungs-Modell verarbeitet und die als Kandidaten-Signalfolgen identifizierten Signalfolgen anschließend vom Verarbeitungsmodell verarbeitet, um die Signal-Zusammensetzung der Kandidaten-Signalfolgen zu bestimmen. Alternativ werden die Signalfolgen in beiden Modellen unabhängig voneinander verarbeitet.
Dadurch, dass man das Extrahieren der Kandidaten-Signalfolgen und das Zuordnen der Signal-Zusammensetzung der Kandidaten-Signalfolgen in einem gemeinsamen Modell mit einer gemeinsamen Eingabeschicht implementiert, kann eine Verarbeitung der Signalfolgen vereinfacht werden, indem/dahingehend, dass lediglich ein Modell, das Zuordnungsmodell, bedient werden muss.
Dadurch, dass das Verarbeitungsmodell und das Kandidatenextrahierungs-Modell den gemeinsamen Eingabestamm gemeinsam verwenden, müssen die im gemeinsamen Eingabestamm erfolgten Berechnungen nur einmal berechnet werden, was Geschwindigkeitsvorteile bringt.
Vorzugsweise werden die Ausgaben der beiden Modelle des Zuordnungsmodells in einem finalen Zuordnungsschritt unabhängig vom Zuordnungsmodell kombiniert.
Alternativ wird die Ausgabe der beiden Modelle in einer Ausgabeschicht des Zuordnungsmodells so kombiniert, dass Signalfolgen, die vom Kandidatenextrahierungs-Modell nicht als Kandidaten-Signalfolgen identifiziert werden, automatisch einem Hintergrund zugeordnet werden, die dem Hintergrund entsprechen, und die identifizierten Kandidaten-Signalfolgen entsprechend der Zuordnung des Verarbeitungsmodells die Signal-Zusammensetzung werden.
Dadurch, dass man die Ausgaben der beiden Modelle des Zuordnungsmodells in einer letzten Ausgabeschicht kombiniert, kann ein gegebenenfalls aufwändiges Zuordnen außerhalb des Zuordnungsmodells unterbleiben, was die Zuordnung weiter beschleunigt.
Kurze Zusammenfassung der Figuren
Die Erfindung wird nachfolgend anhand der in den Zeichnungen dargestellten Beispiele näher erläutert. Die Zeichnungen zeigen in

1 schematisch ein System zur Verwendung mit dem Verfahren zum Identifizieren von Analyten in einer Bildfolge gemäß einer Ausführungsform;
2 schematisch eine Vorrichtung zur Verwendung mit dem Verfahren gemäß einer Ausführungsform;
3 schematisch ein Verfahren zum Erzeugen einer Bildfolge durch Markieren von Analyten mit Markern in mehreren Färberunden und Detektieren der Marker mit einer Kamera, wie es vor dem Identifizieren von Analyten in der Bildfolge ausgeführt wird;
4 schematisch ein Verfahren zum Zuordnen einer Ergebnisklasse;
5 schematisch ein Verfahren zum Zuordnen einer Ergebnisklasse;
6 schematisch ein Verfahren zum Zuordnen einer Ergebnisklasse;
7 eine schematische Darstellung eines Verarbeitungsmodells, wie es gemäß mehreren der Ausführungsformen verwendet werden kann;
8 eine schematische Darstellung von Messdaten wie sie in verschiedenen der Verfahren der verschiedenen Ausführungsformen analysiert werden;
9 eine schematische Darstellung von Prozessen eines Verfahrens gemäß einer weiteren Ausführungsform;
10 eine schematische Darstellung von Prozessen eines Verfahrens gemäß einer weiteren Ausführungsform.

Detaillierte Beschreibung der Ausführungsformen
Ein Ausführungsbeispiel eines Analytdatenauswertesystems 1 umfasst ein Mikroskop 2, eine Steuervorrichtung 3 und eine Auswerteeinrichtung 4. Das Mikroskop 2 ist kommunikativ mit der Auswerteeinrichtung 4 gekoppelt (beispielsweise mit einer kabelgebundenen oder kabellosen Kommunikationsverbindung). Die Auswerteeinrichtung 4 kann mit dem Mikroskop 2 erfasste Mikroskopbilder 5 auswerten (1). Umfasst das Analytdatenauswertesystem ein Verarbeitungsmodell, so wird es auch als Maschinenlernsystem bezeichnet.
Das Mikroskop 2 ist ein Lichtmikroskop. Das Mikroskop 2 umfasst ein Stativ 6, das weitere Mikroskop-Komponenten umfasst. Die weiteren Mikroskop-Komponenten sind insbesondere ein Objektivwechsler oder -revolver 7 mit einem montierten Objektiv 8, ein Probentisch 9 mit einem Halterahmen 10 zum Halten eines Probenträgers 11 und eine Mikroskopkamera 12.
Ist eine Probe in den Probenträger 11 eingespannt und das Objektiv 8 in den Mikroskop-Strahlengang eingeschwenkt, so kann für Fluoreszenz-Aufnahmen eine Fluoreszenz-Beleuchtungseinrichtung 13 die Probe beleuchten und die Mikroskopkamera 12 empfängt das Fluoreszenzlicht als Detektionslicht von der eingespannten Probe und kann ein Mikroskopbild 5 in einem Fluoreszenzkontrast aufnehmen. Soll das Mikroskop 2 zur Durchlichtmikroskopie verwendet werden, so kann eine Durchlicht-Beleuchtungseinrichtung 14 verwendet werden, um die Probe zu beleuchten. Die Mikroskopkamera 12 empfängt das Detektionslicht nach dem Durchtritt durch die eingespannte Probe und nimmt ein Mikroskopbild 5 auf. Proben können beliebige Objekte, Fluide oder Strukturen sein.
Optional umfasst das Mikroskop 2 eine Übersichtskamera 15, mit der Übersichtsbilder einer Probenumgebung aufgenommen werden können. Die Übersichtsbilder zeigen beispielsweise den Probenträger 11. Ein Sichtfeld 16 der Übersichtskamera 15 ist größer als ein Sichtfeld 16 bei einer Aufnahme eines Mikroskopbildes 5 mit der Mikroskopkamera 12. Die Übersichtskamera 15 blickt mittels eines Spiegels 17 auf den Probenträger 11. Der Spiegel 17 ist am Objektivrevolver 7 angeordnet und kann anstelle des Objektivs 8 ausgewählt werden.
Gemäß dieser Ausführungsform umfasst die Steuervorrichtung 3, wie in der 1 schematisch dargestellt, einen Bildschirm 18 sowie die Auswerteeinrichtung 4. Die Steuervorrichtung 3 ist dazu eingerichtet, das Mikroskop 2 zum Aufnehmen von Bildfolgen 19 von Mikroskopbildern 5 zu steuern und die von der Mikroskopkamera 12 aufgenommenen Bildfolgen 19 auf einem Speichermodul 20 der Auswerteeinrichtung 4 zu speichern und diese bei Bedarf auf dem Bildschirm 18 darzustellen. Die aufgenommenen Mikroskopbilder 5 werden dann von der Auswerteneinrichtung 4 weiterverarbeitet.
Die Auswerteeinrichtung 4, wie in 2 schematisch dargestellt, umfasst diverse Module, welche über Kanäle 21 Daten austauschen. Die Kanäle 21 sind logische Datenverbindungen zwischen den einzelnen Modulen. Die Module können sowohl als Software- als auch als Hardwaremodule ausgebildet sein.
Die Auswerteeinrichtung 4 umfasst das Speichermodul 20. Das Speichermodul 20 speichert die vom Mikroskop 2 aufgenommenen Bilder 5 und verwaltet die in der Auswerteeinrichtung 4 auszuwertenden Daten.
Die Auswerteeinrichtung 4 umfasst das Speichermodul 20, mittels dem Bilddaten der Bildfolge 19 vorgehalten und gespeichert werden. Ein Steuerungsmodul 22 liest Bilddaten der Bildfolge 19 sowie ein Codebuch 23 aus dem Speichermodul 20 aus und gibt die Bilddaten und das Codebuch 23 an ein Verarbeitungsmodul 24 weiter. Gemäß einer Ausführungsform liest das Steuerungsmodul 22 Signalfolgen 31 je eines Bildbereichs der Bildfolge 19 ein und gibt diese in das Verarbeitungsmodul 24 ein.
Gemäß einer Ausführungsform umfasst das Verarbeitungsmodul 24 ein Verarbeitungsmodell, beispielsweise ein Klassifikationsmodell, das als neuronales Netzwerk implementiert ist. Das Verarbeitungsmodul 24 empfängt die Signalfolgen 31 vom Steuerungsmodul 22 und gibt als Ergebnis-Ausgabe entweder Signalanteile von Signalkomponenten zu jeder der eingegebenen Signalfolgen 31 aus, oder die Ergebnis-Ausgabe gibt für jede der Signalkomponenten eine Wahrscheinlichkeit aus, dass die jeweilige Signalkomponente einen Signalanteil an der Signalfolge 31 hat.
Die Ergebnis-Ausgabe empfängt das Steuerungsmodul 22 vom Verarbeitungsmodul 24 und speichert sie in das Speichermodul 20.
Im Training des Klassifikationsmodells wird vom Steuerungsmodul 22 ein annotierter Datensatz aus dem Speichermodul 20 ausgelesen und beispielsweise im Rahmen eines stochastischen Gradientenabstiegsverfahrens in das Verarbeitungsmodul 24 eingegeben. Basierend auf den Ergebnis-Ausgaben des Klassifikation Modells und im annotierten Datensatz enthaltenen Ziel-Ausgaben berechnet das Steuerungsmodul 22 eine Zielfunktion und optimiert die Zielfunktion durch Anpassen von Modellparametern des Klassifikationsmodells.
Ist das Klassifikationsmodell vollständig trainiert, so speichert das Steuerungsmodul 22 die bestimmten Modellparameter im Speichermodul 20. Zusätzlich zu den Modellparametern kann das Steuerungsmodul 22 noch Kontextinformationen über die aufgenommenen Bilder 5 speichern.
Das Verarbeitungsmodell kann jeweils als neuronales Netz, Convolutional Neural Network (CNN), Multi-Layer Perzeptron (MLP), oder als sequentielles Netz, beispielsweise ein Recurrent Neural Network (RNN), sein oder als ein Transformer Network implementiert sein.
Ist das Verarbeitungsmodell als sequentielles Netz implementiert, so werden die Signalfolgen 31 nicht als Ganzes in das jeweilige Modell eingegeben, sondern es werden die Bildsignale der Signalfolgen 31 einzeln in das Modell eingegeben. Ist das Modell ein faltendes Netzwerk und als sequenzielles Netzwerk implementiert, dann sieht das Modell zuerst das Bild 5 einer ersten Färberunde, dann das Bild 5 einer zweiten Färberunde und dann Schritt für Schritt die Bilder 5 der folgenden Färberunden. In einer Färberunde N bekommt das Modell nur das Bild aus der Runde N eingegeben und hat einen internen Zustand, der die Bilder 5 aus den Runden 1 bis N -1 intern codiert bzw. speichert. In Runde N verarbeitet das Modell dann den internen Zustand mit dem Bild 5 aus der Färberunde N.
Nachfolgend wird ein Verfahren zum Betrieb des Analytdatenauswertesystems 1 (9) beschrieben.
In dem beschriebenen Verfahren zum Betrieb des Analytdatenauswertesystems 1 werden in einem Schritt S1 zunächst annotierte Datensätze generiert. Dazu wird zunächst von der Mikroskopkamera 12 eine Bildfolge 19 aufgenommen. Zum Aufnehmen der Bildfolge 19 werden die Analyten 39 in einer Probe in mehreren Färberunden so markiert, dass sich für Bildbereiche, die Bildsignale eines Analyten 39 erfassen, über die Bildfolge 19 eine Signalfolge 31 ergibt, die Gefärbt-Signale und Ungefärbt-Signale umfasst, wobei die Marker so ausgewählt werden, dass sich für die Signalfolge 31 einer bestimmten Analyt-Art eine Abfolge von Gefärbt-Signalen und Ungefärbt-Signalen entsprechend einer Soll-Bitfolge 35 der Analyt-Art im Codebuch ergibt.
Gemäß der vorliegenden Erfindung werden Marker an Analyten 39 gekoppelt und dann mit der Mikroskopkamera 12 erfasst. Beim Koppeln der Marker an die Analyten 39 können verschiedene Analyten 39 mit Markern mit unterschiedlichen Fluoreszenzfarbstoffen markiert werden. Werden beispielsweise n verschiedene Fluoreszenzfarbstoffe verwendet, so werden nach dem Koppeln eine Anzahl von n Bildern 5 aufgenommen. Die n Bilder 5 werden jeweils mit einem anderen Fluoreszenzkontrast entsprechend der Anzahl n der unterschiedlichen Fluoreszenzfarbstoffe aufgenommen. Jede dieser n Aufnahmen entspricht einer Färberunde. Nach der Aufnahme der n Bilder 5 werden die Marker wieder von den Analyten 39 entkoppelt. Einen Kopplungsvorgang sowie die Aufnahme der n Färberunden zusammen mit dem Entkoppeln der Marker nennt man auch eine Markierungsrunde. Nachdem die Marker wieder von den Analyten 39 entkoppelt wurden, können die Analyten 39 in einer neuen Markierungsrunde erneut mit neuen Markern markiert werden. Beim erneuten Koppeln von Markern an Analyten 39 können dieses Mal anders farbige Marker jeweils an Analyten 39 koppeln. Manche der zu identifizierenden Analyten 39 können in einzelnen der verschiedenen Markierungsrunden auch gar nicht mit einem Marker markiert sein. Aus den sich daraus ergebenden Mustern von farbigen und nicht farbigen Signalen, bzw. Gefärbt- und Ungefärbt-Signalen, jeweils in Bezug zu einer Fluoreszenzfarbe ergibt sich eine für einen bestimmten Analyten 39 bzw. eine bestimmte Analyt-Art erwartete Signalfolge 31. Diese zu erwartenden Signalfolgen werden für alle zu identifizierenden Analyt-Arten im Codebuch 23 zusammengefasst, wobei die Marker in den jeweiligen Markierungsrunden so gewählt sind, dass sich für die jeweilige Analyt-Art gerade die erwartete Signalfolge 31 ergibt.
Gemäß einer Alternative kann pro Markierungsrunde auch nur ein einziges Bild 5 mittels einer Fluoreszenzaufnahme mit einem breiten Fluoreszenzanregungsspektrum erfolgen, dass die Fluoreszenz aller verwendeter Fluoreszenzfarbstoffe gleichzeitig anregt. Das aufgenomme Bild 5 wird dann nach der Aufnahme mittels Filtern in die jeweiligen n Fluoreszenzkontraste umgerechnet, so dass wieder n Bilder 5 für n Färberunden zur Verfügung stehen.
Gemäß dieser Ausführungsform umfasst das Codebuch Soll-Bitfolgen 35, wobei jedem erwarteten Gefärbt-Signal ein Wahr-Wert und jedem erwarteten Ungefärbt-Signal ein Falsch-Wert zugeordnet ist.
Gemäß einer weiteren Ausführungsform werden pro Markierungsrunde lediglich Marker mit einem einzigen Fluoreszenzfarbstoff verwendet. Für diesen Fall sind die Färberunden gerade gleich den Markierungsrunden.
Nach der Aufnahme der Bildfolge 19 werden Bilder 5 der Bildfolge 19 zueinander registriert. Das Registrieren kann mittels einem klassischen Registrierungsalgorithmus erfolgen, oder mit einem dazu trainierten Registrierungs-Modell.
Auch wenn hier exemplarisch beschrieben wird, dass in jeder der Färberunde ein Bild 5 aufgenommen wird, kann auch in jeder Färberunde ein Stapel von Bildern 5 aufgenommen werden, wobei dann die Bilder 5 des Stapels zum einen zueinander registriert werden müssen, außerdem müssen die Bilder 5 aus unterschiedlichen Färberunden jeweils zueinander registriert werden.
Nach dem Registrieren der Bilder 5 der Bildfolge 19 zueinander und dem Speichern der registrierten Bildfolge 19 kann die Bildfolge 19 mittels eines klassischen Algorithmus zur Analyse von Bildfolgen 19 mit Analyten 39, wie sie beispielsweise in den oben genannten Dokumenten aus dem Stand der Technik beschrieben ist, erfolgen.
Wird beim Aufnehmen der Bildfolge 19 in jeder Färberunde ein Bildstapel aufgenommen, so kann anstelle einzelner Bildpunkte auch eine Signalfolge 31 für ein zusammenhängendes Volumen von Bildpunkten im Bildstapel extrahiert werden. Eine Signalfolge 31 gemäß der vorliegenden Erfindung korrespondiert immerzu einem Bildbereich, ein Bildbereich kann einen einzelnen Bildpunkt, eine Fläche von benachbarten Bildpunkten oder ein Volumen von benachbarten Bildpunkten umfassen, wobei die Bildbereiche in den verschiedenen Bildern 5 oder Bildstapeln der Bildfolge 19 zueinander registriert sind, d.h. gleiche Koordinaten in den Bildern 5 zeigen die gleichen Objekte in den Proben.
Gemäß dieser Ausführungsform liegt das Codebuch 23 als Sammlung von Soll-Bitfolgen 35 vor.
Nach der Analyse der Bildfolge 19 können die analysierten Signalfolgen 31 als annotierter Datensatz für das Training des Verarbeitungsmodells im Speichermodul 20 gespeichert werden und eine Trainingsphase auf das Erzeugen des/der annotierten Datensätze folgen. Das Steuerungsmodul 22 kann den annotierten Datensatz im Speichermodul 20 speichern.
Beispielsweise speichert das Speichermodul 20 zusammen mit der Signalfolge 31 die jeweilige Analyt-Art. Gemäß dieser Ausführungsform kann jede der Analyt-Arten eine der Signalkomponenten sein.
Gemäß einer Alternative umfasst der annotierte Datensatz die Signalfolgen 31 und die korrespondierenden Soll-Bitfolgen 35.
Im Schritt S2 wird das Training des Verarbeitungsmodells ausgeführt.
Gemäß dieser Ausführungsform wird das Verarbeitungsmodell dazu trainiert, eine Signal-Zusammensetzung, umfassend Signalanteile der Signalkomponenten an den Signalfolgen 31, zu bestimmen. Gemäß dieser Ausführungsform wird das Verarbeitungsmodell dazu trainiert, eine Wahrscheinlichkeitsverteilung über die Signalkomponenten zu bestimmen, in der jeder Signalkomponente eine Wahrscheinlichkeit zugeordnet ist, einen Signalanteil an der Signalfolge 31 zu haben.
Wie oben beschrieben sind die Marker in den Markierungsrunden bzw. Färberunden so gewählt, dass sich für eine bestimmte Analyt-Art über die Färberunden eine spezifische Reihenfolge von Gefärbt- und Ungefärbt-Signalen ergibt. Das Verarbeitungsmodell muss demnach dazu trainiert werden, die spezifische Reihenfolge von Gefärbt- und Ungefärbt-Signalen zu erkennen, um die verschiedenen Analyt-Arten zu identifizieren.
Die Erfinder haben erkannt, dass Gefärbt- bzw. Ungefärbt-Signale in Signalfolgen von Analyten eine charakteristischen Signatur, umfassend mindestens ein bestimmtes Verhältnis zueinander, aufweisen. Um die Gefärbt-Signale von den Ungefärbt-Signalen zu unterscheiden, wird das Verarbeitungsmodell dazu trainiert, in einer Signalfolge 31 mindestens ein bestimmtes Verhältnis von Gefärbt-Signal zu Ungefärbt-Signal, von Gefärbt-Signal zu Gefärbt-Signal, von Ungefärbt-Signal zu Gefärbt-Signal oder von Ungefärbt-Signal zu Ungefärbt-Signal zu erkennen bzw. die spezifische Reihenfolge der Gefärbt- und Ungefärbt-Signale zu erkennen, um die verschiedenen Analyt-Arten zu identifizieren.
Das bestimmte Verhältnis kann ein bestimmter Abstand oder eine Differenz zwischen den Bildsignalen sein, ein Quotient zwischen den Bildsignalen, eine bestimmte Anzahl von Bildsignalen mit einem höheren Bildsignal als den übrigen, wobei das Verhältnis jeweils für ein normiertes Bildsignal oder für nicht normierte Bildsignale gelernt werden kann. Während im Stand der Technik vor allem Bildsignale von sehr hellen Bildpunkten in Betracht gezogen werden, haben die Erfinder erkannt, dass Signalfolgen 31 von Bildpunkten, die Bildsignale von Analyten 39 erfassen, Bildsignale mit dem oben beschriebenen bestimmten Verhältnis aufweisen bzw. dass die Signalfolgen 31 jeweils die charakteristische Signatur aufweisen. Analytisch ist die charakteristische Signatur nur schwer zu definieren, sie kann für verschiedene Analyt-Arten unterschiedlich sein, es zeigt sich aber, dass (verschiedene) neuronale Netze die charakteristische Signatur bzw. das bestimmte Verhältnis mit ausreichend Training sehr gut identifizieren können. Entsprechend können neuronale Netze auch dazu trainiert werden, nicht nur die charakteristische Signatur gut zu identifizieren, sondern auch die spezifische Reihenfolge der verschiedenen Analyt-Arten zu identifizieren.
Um die verschiedenen Analyt Arten voneinander unterscheiden zu können, muss ein annotierter Datensatz für jede zu identifizierende Analyt-Art Trainings-Signalfolgen eines Bildbereichs, der Bildsignale des jeweiligen Analyten 39 erfasst, umfassen. Die Gefärbt-Signale und Ungefärbt-Signale der Trainings-Signalfolgen weisen das bestimmte Verhältnis oder die charakteristische Signatur auf bzw. die für die jeweilige Analyt-Art spezifische Reihenfolge.
Gemäß einer alternativen Ausführungsform, in der einer Hintergrund-Signalkomponente als weitere Signalkomponenten ein Signalanteil zugeordnet wird, kann der annotierte Datensatz zusätzlich Trainings-Signalfolgen von Bildbereichen des Hintergrunds umfassen. Die Bildbereiche des Hintergrunds weisen nur vereinzelt Gefärbt-Signale auf, diese sind meist auf nicht entfernte oder falsch gekoppelte Marker zurückzuführen.
Gemäß der ersten Ausführungsform ist das Verarbeitungsmodell ein vollständig faltendes Netzwerk 37 (siehe 7). Das Verarbeitungsmodell wird zunächst als Klassifikationsmodell, das ein vollständig verbundenes Netzwerk 38 mit vollständig verbundenen Schichten ist, mit Signalfolgen 31 von einzelnen Bildbereichen trainiert. Dazu gibt das Steuerungsmodul 22 Signalfolgen 31 des annotierten Datensatzes in das Verarbeitungsmodell ein. Das Verarbeitungsmodell bestimmt für die eingegebene Signalfolge 31 eine Wahrscheinlichkeitsverteilung, die für jede Signalkomponente, also für jede Analyt-Art und ggf. eine Hintergrund-Signalkomponente, eine Wahrscheinlichkeit angibt, dass die eingegebene Signalfolge 31 einen Signalanteil der jeweiligen Signalkomponenten aufweist.
Gemäß der vorliegenden Ausführungsform wird das Verarbeitungsmodell zunächst nur mit Signalfolgen 31 trainiert, die eindeutig einer Analyt-Art bzw. dem Hintergrund zugeordnet werden können.
Das Steuerungsmodul 22 steuert wiederum das Training, indem es einen Teil der Signalfolgen 31 aus dem annotierten Datensatz ausliest, die Signalfolgen 31 dem Klassifikationsmodell zuführt und einen Unterschied zwischen der Ausgabe des Klassifikationsmodells und einer Soll-Ausgabe mittels einer Zielfunktion erfasst. Außerdem optimiert das Steuerungsmodul 22 die Zielfunktion anhand der Modellparameter des Klassifikationsmodells.
Gemäß einer Ausgestaltung der vorliegenden Ausführungsform können mittels einer Augmentierung aus Trainings-Signalfolgen, die lediglich auf eine einzelne Analyt-Art zurückzuführen sind, auch gemischte Trainings-Signalfolgen konstruiert werden. Dazu werden mehrere der Trainings-Signalfolgen, beispielsweise 2, mittels einer Linearkombination miteinander kombiniert. Die Trainings-Signalfolgen gehen dann gerade mit ihrem jeweiligen Signalanteil in die Linearkombination ein.
Solche kombinierten Signalfolgen können aus zwei, drei oder mehr Signalfolgen 31, die jeweils nur Signalkomponenten einer Analyt-Art enthalten, zusammengesetzt sein. Alternativ kann auch noch eine Signalkomponente eines Hintergrund-Bildbereichs mit einem gewissen Signalanteil in die Linearkombination eingehen.
Verwendet man beispielsweise zwei Trainings-Signalfolgen zweier verschiedener Analyt-Arten, so kann das Verarbeitungsmodell dazu trainiert werden, gerade diese beiden Analyt-Arten als Signalkomponenten auszugeben. Hierbei kann das Verarbeitungsmodell entweder dazu trainiert werden, einfach nur anzugeben, dass diese beiden Analyt-Arten Signalkomponenten der (kombinierten) Signalfolge sind. Gemäß einer Ausgestaltung kann das Verarbeitungsmodell aber auch direkt dazu trainiert werden, den jeweiligen Signalanteil auszugeben, oder wie oben beschrieben eine Wahrscheinlichkeitsverteilung 40 über alle möglichen Signalkomponenten.
Für den Fall, dass das Verarbeitungsmodell dazu trainiert wurde, direkt die Signalanteile der Signalkomponenten auszugeben, so erfasst die Zielfunktion direkt einen Unterschied zwischen den vom Verarbeitungsmodell bestimmten Signalanteile der Signalkomponenten und den beim Kombinieren der Trainings-Signalfolgen verwendeten Signalanteile in der Linearkombination der Signalkomponenten.
Ist das Klassifikationsmodell mit den vollständig verbundenen Schichten fertig trainiert, so werden die vollständig verbundenen Schichten in vollständig faltende Schichten umgewandelt. Das entstandene vollständig faltende Netzwerk 37 kann dann als Eingabe eine komplette Bildfolge 31 verarbeiten. Als Ausgabe gibt das fertig trainierte Klassifikationsmodell bzw. das dann zum vollständig faltenden Netzwerk 37 umgewandelte Netzwerk beispielsweise für jeden der Bildbereiche der Bildfolge 19 die oben beschriebene Wahrscheinlichkeitsverteilung 40 aus (siehe 3 unten Mitte).
Gemäß einer weiteren Alternative kann der annotierte Datensatz anstelle mithilfe der klassischen Multiomie auch mit anderen Mitteln generiert werden. Beispielsweise können die Signale der verschiedenen Marker unter Verwendung eines repräsentativen Hintergrundbildes und einer bekannten Punktspreizfunktion des Mikroskops 2 simuliert werden. In eine solche Simulation geht dann auch das Codebuch 23 ein.
Alternativ kann auch ein generatives Modell dazu trainiert werden, den annotierten Datensatz zu generieren. Da generative Modelle besonders gut dafür geeignet sind, Bilder 5 zu generieren, kann mittels einem generativen Model ein besonders realistischer annotierter Datensatz erstellt werden.
Das verwendete generative Modell kann beispielsweise eines der folgenden Modelle sein: ein Active Appearance Modell (AAMs), ein Generative Adversarial Network (GANs), ein Variational Autoencoder (VAEs), ein Auto-regressive Modell oder ein Diffusion Modell.
Zusätzlich können auch ein oder mehrere Referenzbilder aufgenommen werden, die mindestens ein Hintergrundbild umfassen, sowie zu jedem Hintergrundbild mindestens ein Bild 5, in dem zu identifizierende Analyten 39 an einen Marker gekoppelt sind und die Marker in den jeweiligen Bildbereichen erfasst werden.
Werden verschiedene Fluoreszenzfarbstoffe in den verschiedenen Färberunden verwendet, so sollte außerdem jeder Analyt mit jedem der verschiedenen Fluoreszenzfarbstoffe markiert werden. Natürlich kann auch jedes bekannte klassische Verfahren wie beispielsweise aus den oben genannten Patentanmeldungen EP 2 992 115 B1 , WO 2020/254519 A1 und der WO 2021/255244 A1 zum Generieren des annotierten Datensatzes verwendet werden.
Gemäß einer weiteren Alternative können während des Trainings die Trainings-Signalfolgen durch Vertauschen der Reihenfolge der Bildsignale in den Trainings-Signalfolgen die verschiedenen Verarbeitungsmodelle so trainiert werden, dass sie auch Signalfolgen 31 erkennen, in denen die Reihenfolge, in der die Marker in den Färberunden verwendet werden, vertauscht wurde. Somit können signalfolgen-agnostische Modelle trainiert werden.
Das signalfolgen-agnostische Training ist insbesondere dann sinnvoll, wenn für verschiedene der zu identifizierenden Analyt-Arten noch keine Trainings-Signalfolgen vorliegen. Dann würde man für das Training die Bildsignale der Signalfolgen 31 gerade so vertauschen, dass sich bei einem Binarisieren der Bildsignale der vertauschten Signalfolgen 31 gerade die Soll-Bitfolge 35 ergibt, die zu einer zu identifizierenden Analyt-Art gehört, für die keine Trainings-Signalfolge vorliegt.
Gemäß einer Ausführungsform kann für das Training auch eine konstruierte Trainings-Signalfolge aus mehreren der Trainings-Signalfolgen konstruiert werden, indem Bildsignale aus verschiedenen der Trainings-Signalfolgen so ausgewählt werden, dass sich gerade wieder eine entsprechende Trainings-Signalfolge mit einer geeigneten Anzahl an Gefärbt- und Ungefärbt-Signalen ergibt. Beispielsweise können die Bildsignale gerade so ausgewählt werden, dass sich durch Binarisieren gerade wieder eine Soll-Bitfolge 35 des Codebuchs 23 ergibt. Alternativ kann die Reihenfolge von Gefärbt- und Ungefärbt-Signalen in der konstruierten Trainings-Signalfolge beliebig sein.
Gemäß der Ausführungsform kann nach dem Bestimmen der Zielfunktion das Steuerungsmodul 22 Signalfolgen 31 identifizieren, die fälschlicherweise eine Wahrscheinlichkeit für eine Signalkomponente, die einer Analyt-Art entspricht, ausgeben, obwohl die eingegebene Signalfolge 31 einem Hintergrund-Bildbereich 25 entstammt, und aus einem Bildbereich 25 stammen, der innerhalb eines ersten vorbestimmten Radius um einen Bildbereich 25 liegt, dessen Signalfolge 31 tatsächlich eine Signalkomponente einer Analyt-Art aufweist. Da die Signalfolgen 31 zufällig aus dem annotierten Datensatz ausgewählt werden, kann es sein, dass nur wenige Signalfolgen 31, die beim Training verwendet werden, innerhalb des ersten vorbestimmten Radius liegen. Solche Signalfolgen 31 richtig zu klassifizieren, ist aufgrund der geringen Anzahl im jeweiligen Trainingssatz für das Verarbeitungsmodell schwierig. Um ein Erkennen dieser falsch klassifizierten Signalfolgen 31 zu verbessern, werden diese Signalfolgen 31 von Hintergrund-Bildbereichen 26 in einer folgenden Trainingsrunde automatisch in einen zu trainierenden Datensatz mit aufgenommen, um deren Gewicht in der Zielfunktion zu erhöhen. Dieses Verfahren nennt man auch Hard-Negative-Mining.
Gemäß einer Abwandlung können optional die Signalfolgen 31 von Bildpunkten die innerhalb eines zweiten vorbestimmten Radius, der kleiner ist als der erste vorbestimmte Radius, unmittelbar neben einem Bildbereich 25, der richtigerweise eine Kandidaten-Signalfolge erfasst, beim Hard-Negative-Mining nicht mit in die folgende Trainingsrunde übernommen werden. Gemäß der Punktspreizfunktion von Mikroskopen 2 erstrecken sich die Signale von Markern typischerweise über mehrere Bildpunkte. Würde man jetzt Signalfolgen 31 von Bildpunkten innerhalb des zweiten vorbestimmten Radius ebenfalls zum Hard-Negative-Mining verwenden, so käme es zu einem Verwaschen der Klassengrenzen, was vermieden werden sollte.
Beim Trainieren des Verarbeitungsmodells kann ein vortrainiertes Modell aus einem Satz von vortrainierten Modellen ausgewählt werden und das vortrainierte Modell mittels Transferlernen an ein neues Experiment angepasst werden.
Alternativ kann ein Identifizieren der Signalkomponenten auch in zwei Schritten erfolgen. Hierzu wird zunächst die Signalfolge 31 binarisiert. Danach erfolgt ein Matching oder Abgleich zu den Soll-Bitfolgen 35 des Codebuchs 23. Erfolgt die Zuordnung der Analyt-Art in zwei Schritten, so muss das Verarbeitungsmodell als ein Binarisierungs-Modell trainiert werden. Das Binarisierungs-Modell bildet die Bildsignale der Kandidaten-Signalfolge, also die Gefärbt-Signale und die Ungefärbt-Signale, auf Bitwerte, also wahr und falsch, ab. Bei einem Training des Binarisierungs-Modells werden die aufgenommenen Signalfolgen 31 auf Bit-Folgen abgebildet.
Eine Ergebnis-Ausgabe des Binarisierungs-Modells ist eine Ausgabe-Bitfolge, die Zielfunktion erfasst einen Unterschied zwischen der im annotierten Datensatz enthaltenen Soll-Bitfolge 35 und der Ausgabe-Bitfolge.
Alternativ kann das Binarisierungs-Modell auch so ausgebildet sein, dass es für jedes Bildsignal in der Signalfolge 31 eine Wahrscheinlichkeit ausgibt, ein Gefärbt-Signal zu sein.
Wie auch oben mit Bezug zum Klassifikationsmodell beschrieben, kann auch beim Training des Binarisierungs-Modells aus mehrere Signalfolgen 31 mittels einer Linearkombination eine kombinierte Signalfolge generiert werden, beim Training mit kombinierten Signalfolgen müssen die Soll-Bitfolgen 35 auch jeweils so kombiniert werden, dass alle zu erwartenden Gefärbt-Signale mit einem Wahr-Wert korrespondieren.
Das Binarisieren der Signalfolgen 31 kann auch mit einem heuristischen Ansatz erfolgen. Alternativ kann auch ein generatives Modell die Abbildung in den binären Raum ausführen.
Das verwendete generative Modell kann beispielsweise eines der folgenden Modelle sein: ein Active Appearance Modell (AAMs), ein Generative Adversarial Network (GANs), ein Variational Autoencoder (VAEs), ein Auto-regressive Modell oder ein Diffusion Modell.
Zusätzlich zu den zu identifizierenden Analyt-Arten umfassen die Signalkomponenten noch mindestens eine Klasse stellvertretend für Signalfolgen 31 von Bildbereichen, die dem Hintergrund zugeordnet werden müssen. Eine solche Zuordnung zum Hintergrund erfolgt immer dann, wenn beispielsweise ein Abgleich zu den Soll-Bitfolgen 35 sehr schlecht ist, oder auch, wenn die vom Verarbeitungsmodell ausgegebene Wahrscheinlichkeit für alle zu den zu erkennenden Analyt-Arten korrespondierenden Signalkomponenten einen sehr schlechten Wert ergibt, also eine sehr kleine Wahrscheinlichkeit.
Gemäß einer Alternative ist das Verarbeitungsmodell ein Einbettungs-Modell. Ein Einbettungs-Modell bettet Eingaben in einen Einbettungsraum ein. Der Einbettungsraum muss vor allem groß genug sein, damit eine von dem Einbettungs-Modell zu lernende Abbildung von einem Signalraum der Signalfolgen 31 und/oder einem Binärraum der Soll-Bitfolgen 35 in den Einbettungsraum folgende Bedingungen erfüllt: Eine Zielfunktion des Einbettungs-Modells wird dahingehend optimiert, dass die Einbettungen, die zu derselben Ergebnisklasse korrespondieren, im Einbettungsraum einen möglichst geringen Abstand haben. D.h. ein Abstand zwischen Einbettungen von Signalfolgen 31 und korrespondierenden Soll-Bitfolgen 35 derselben Signalkomponente im annotierten Datensatz wird durch geeignete Anpassung der Modellparameter des Einbettungs-Modells minimiert, ebenso ein Abstand zwischen Einbettungen zweier Signalfolgen 31, die derselben Signalkomponente angehören.
Gleichzeitig wird die Zielfunktion so gewählt bzw. optimiert, dass ein Abstand zwischen Einbettungen, die zu unterschiedlichen Ergebnisklassen gehören, einen möglichst großen Abstand im Einbettungsraum aufweisen.
Gemäß einer weiteren Ausgestaltung kann man das Training des Einbettungs-Modells außerdem dahingehend optimieren, dass Einbettungen von Signalfolgen 31, die Bildsignale von mehreren Signalkomponenten, insbesondere mehreren Analyt-Arten, umfassen, gerade so in den Einbettungsraum eingebettet werden, dass ihr Abstand zu den Einbettungen von Signalkomponenten mit von Null verschiedenem Signalanteil jeweils kleiner ist als der Abstand zu den Einbettungen von Signalkomponenten, deren Signalanteil sehr klein oder Null ist.
Da die Signalfolgen 31 und die Soll-Bitfolgen 35 in unterschiedlichen Räumen liegen, kann es schwierig sein, die Einbettungen der Signalfolgen 31 und der Soll-Bitfolgen 35 gleichzeitig geeignet zu optimieren. Daher weist das Einbettungsmodell vorzugsweise für die Signalfolgen 31 und die Soll-Bitfolgen 35 zwei verschiedene Eingabepfade bzw. Verarbeitungspfade auf, wodurch ein Abstand der Einbettungen der Signalfolgen 31 und der Soll-Bitfolgen 35 noch weiter verringert werden kann, wodurch sowohl das Training als auch ein Abgleich während der Inferenz noch weiter verbessert werden.
Gemäß einer Alternative teilen sich die Signalfolgen 31 und die Soll-Bitfolgen 35 denselben Eingangspfad.
Gemäß einer weiteren Alternative kann im Training beim Berechnen der Zielfunktion jeweils zunächst eine Kandidaten-Gruppe von Kandidaten-Zielfunktionen berechnet werden. Eine Kandidaten Zielfunktion unterscheidet sich von den normalen Zielfunktionen der oben beschriebenen Modelle dadurch, dass bei der Berechnung der Kandidaten-Zielfunktionen eines der Gefärbt-Signale nicht berücksichtigt wird. Eine Kandidaten-Gruppe korrespondiert zu einer eingegebenen Signalfolge 31, in der Signalfolge 31 werden jetzt nacheinander so viele Kandidaten-Zielfunktionen berechnet, wie die eingegebenen Signalfolge 31 Gefärbt-Signale enthält, wobei in jeder der Kandidaten-Zielfunktionen ein anderes der Gefärbt- Signal ausgelassen wird. Aus der Kandidaten-Gruppe wird dann eine Wahl-Zielfunktion ausgewählt. Die Wahl-Zielfunktion ist diejenige der Kandidaten-Zielfunktionen der Kandidaten-Gruppe, die entweder einen zweitgrößten, einen drittgrößten oder einen viertgrößten Unterschied zwischen Ergebnis-Ausgabe und Ziel-Ausgabe aufweist.
Da es in den Signalfolgen 31 mitunter dazu kommt, dass ein Bildsignal einer Signalfolge 31 nicht als Gefärbt-Signal erkannt wird, obwohl gemäß einer Soll-Bitfolge 35 an der entsprechenden Stelle bzw. in der entsprechenden Färberunde ein Gefärbt-Signal vorhanden sein sollte, kann mittels dem Verwenden von Kandidaten-Zielfunktion bzw. Kandidaten-Gruppen und einer Auswahl einer Wahl-Zielfunktion ein Modell gezielt darauf trainiert werden, dass die aufgenommenen Signalfolgen 31 Fehler aufweisen.
Gemäß einer weiteren Alternative können während des Trainings die Bildsignale der Trainings-Signalfolgen so vertauscht werden, dass die Gefärbt- und Ungefärbt-Signale in der vertauschten Signalfolge gerade wieder einer Reihenfolge einer anderen Analyt-Art entsprechen. Eine Reihenfolge der Binärcodes in der Soll-Bitfolge 35 wird entsprechend angepasst, so können dann auch Signalfolgen 31 von Analyt-Arten generiert werden, zu denen keine gemessenen Signalfolgen 31 vorliegen. Diese Art des Trainings kann für alle oben erwähnten Modelle erfolgen.
Sind die verschiedenen Modelle des Analytdatenauswertesystems 1 fertig trainiert, so kann in Schritt S3 die Inferenz erfolgen, d.h. neue Daten können aufgenommen werden und mit den verschiedenen Modellen des Analytdatenauswertesystems 1 analysiert werden.
Gemäß der ersten Ausführungsform werden zunächst Bilder 5 der Bildfolge 19 aufgenommen. Hierzu werden gemäß einem Codebuch 23 verschiedene Marker an die in der Probe vorliegenden Analyten 39 gekoppelt und dann ein Bild 5 der Probe aufgenommen. Gemäß der ersten Ausführungsform werden in jeder Markierungsrunde Marker mit beispielsweise n=3 verschiedenen Farben, beispielsweise Orange, Gelb und Grün, an die Analyten 39 gekoppelt. Nach dem Koppeln werden in drei Färberunden drei Bilder 5 aufgenommen, also eines je Färberunde. Jedes der Bilder 5 wird in einem anderen Fluoreszenzkontrast aufgenommen, in dem die Fluoreszenz-Beleuchtungseinrichtung 13 mit verschiedenen Anregungswellenlängen oder verschiedenen Filtern betrieben wird, hier beispielweise Wellenlängen um eine Fluoreszenz in Orange, Gelb und Grün anzuregen. Entsprechend wird für Analyten 39, an die in der ersten Färberunde, die beispielsweise mit dem orangfarbenen Fluoreszenzkontrast aufgenommen wird, orangfarbene Marker gekoppelt sind, ein Gefärbt-Signal erfasst, während für Analyten 39, an die gelbe oder grüne Marker gekoppelt sind, ein Ungefärbt-Signal erfasst wird. Gemäß der Ausführungsform wird jeweils in einer ersten Färberunde nach dem Koppeln ein Bild 5 im orangefarbenen Fluoreszenzkontrast aufgenommen, in einer zweiten Färberunde nach dem Koppeln ein Bild im grünen Fluoreszenzkontrast aufgenommen und in einer dritten Färberunde nach dem Koppeln ein Bild 5 im gelben Fluoreszenzkontrast aufgenommen. Das in 3 dargestellte Codebuch 23 enthält anstelle einer Soll-Bitfolge 35 ein Codewort, codiert in den Kontrastfarben der Färberunden. D.h. ein Analyt A wird beim ersten bis zum dritten Koppeln mit einem orangefarbenen Marker gekoppelt, beim vierten und fünften Koppeln mit einem grünen Marker. Da jeweils in der ersten Färberunde nach dem Koppeln zunächst ein Bild 5 im Orangekontrast aufgenommen wird, entspricht ein „O“ im Codewort einer Bitfolge „100“, ein „Y“ einem „"010" in der Bitfolge und ein „G“ einem „001“ in der Bitfolge.
Entsprechende Analyte A, B und C sind in den Färberunden R1, R2, R3 und R4 der Bilder 5 der Bildfolge 19 markiert (siehe 3).
Gemäß einer Alternative kann auch lediglich ein einzelner Farbkontrast, zwei Farbkontraste oder mehr als zwei Farbkontraste beim Aufnehmen der Bilder 5 der Bildfolge 19 verwendet werden, wobei die Anzahl der Farbkontraste vorzugsweise der Anzahl der verschiedenen verwendeten Marker entspricht. 8 zeigt schematisch Ausschnitte von Bildern 5 einer Bildfolge, wobei schwarz umrandete Ausschnitte lediglich Bildpunkte mit Ungefärbt-Signalen enthalten, während in den weiß umrandeten Ausschnitten jeweils mittig Bildpunkte mit Gefärbt-Signalen schematisch dargestellt sind. Die Bilder 5 in der oberen Zeile sind mit einem ersten Farbkontrast aufgenommen, die Bilder 5 in der unteren Zeile sind in einem zweiten Farbkontrast aufgenommen.
Nachdem die Bildfolge 19 aufgenommen wurde, werden die Bilder 5 der Bildfolge 19 zueinander registriert und die Bildfolge 19 im Speichermodul 20 gespeichert.
Das Steuerungsmodul 22 extrahiert die Signalfolgen 31 und gibt die Signalfolgen 31 in das Verarbeitungsmodell ein.
Das Verarbeitungsmodul 24 ordnet den Signalfolgen 31 die Signalanteile der Signalkomponenten zu. Wie oben beschrieben, kann das Zuordnen der Signalanteile der Signalkomponenten auch ergeben, dass die Signalfolge 31 zu keiner der Analyt-Arten des Codebuchs 23 passt und daher dem Hintergrund zugeordnet wird. Umfassen die Signalkomponenten auch eine Signalkomponente eines Hintergrund-Bildbereichs, so ordnet das Verarbeitungsmodell der Signalfolge 31 entsprechend diese Signalkomponente zu.
Wie oben beschrieben, kann das Verarbeitungsmodell direkt die Signalanteile der Signalkomponenten von eingegebenen Signalfolgen 31 ausgeben.
Alternativ kann das Verarbeitungsmodell aber auch eine Wahrscheinlichkeitsverteilung 40 über die Signalkomponenten ausgeben (siehe schematisch 4).
Gemäß einer weiteren Alternative gibt das Verarbeitungsmodell basierend auf der Wahrscheinlichkeitsverteilung 40 jeweils für die Signalkomponenten, für die die Wahrscheinlichkeit größer als ein Schwellwert, beispielsweise 20,30, 40,50 oder 60 %, ist, lediglich binär aus, dass die jeweilige Signalkomponente einen Signalanteil an der Signalfolge 31 hat. Die Ergebnis-Ausgabe des Verarbeitungsmodells ist für diesen Fall gerade ein Vektor mit einem binären Eintrag für jede der Signalkomponenten.
Wie oben beschrieben, kann das Verarbeitungsmodell auch dazu trainiert worden sein, als Ergebnis-Ausgabe eine Binarisierung 41, auch Bitfolge genannt, einer eingegebenen Signalfolge 31 auszugeben. Anhand der Binarisierung 41 erfolgt dann ein Abgleich, bzw. Matching, mit Soll-Bitfolgen 35 des Codebuchs 23 (siehe schematisch 5).
Gemäß einer weiteren Alternative gibt das Verarbeitungsmodell für jedes Bildsignal in der eingegebenen Signalfolge 31 eine Wahrscheinlichkeit, also eine Wahrscheinlichkeitsfolge 42, aus, wobei die Wahrscheinlichkeit jeweils angibt, ob das jeweilige Bildsignal ein Gefärbt-Signal ist (siehe schematisch 6). Anhand der Wahrscheinlichkeitsfolge 42 erfolgt dann ein Matching mit dem Codebuch 23.
Ist das Verarbeitungsmodell ein wie oben mit Bezug zum Training beschriebenes Einbettungsmodell, so erfolgt das Matching im Einbettungsraum. Eine einfache Interpretation der Einbettung von Signalfolgen 31 ist bei Einbettungsmodellen nicht möglich. Ein Matching erfolgt beispielsweise durch Bestimmen eines Abstandes zu den Einbettungen der Soll-Bitfolgen 35 des Codebuchs 23 im Einbettungsraum.
Gemäß einer Alternative kann ein Matching für die oben beschriebenen Alternativen, in denen das Verarbeitungsmodell entweder eine Binarisierung 41, eine Wahrscheinlichkeitsfolge 42 oder eine Einbettung ausgibt mittels einer Matrix-Multiplikation erfolgen. Bei der Matrix-Multiplikation wird die jeweilige Ergebnis-Ausgabe des Verarbeitungsmodells mit einer Codebuchmatrix multipliziert. Die Codebuch-Matrix umfasst als Einträge die Soll-Bitfolgen 35 der verschiedenen Analyt-Arten und ggf. der weiteren Signalkomponenten, beispielsweise von Signalfolgen 31 von Hintergrund-Bildbereichen 26, bei denen alle Einträge der Soll-Bitfolgen 35 typischerweise identisch Null sind. Das Ergebnis der Matrix-Multiplikation ist ein Vektor, der für jede Signalkomponente einen Eintrag umfasst. Der Eintrag mit dem höchsten Wert entspricht dann einer wahrscheinlichsten Ergebnisklasse.
Wie das Ergebnis der Matrix-Multiplikation zu interpretieren ist, soll anhand eines Beispiels im Folgenden genauer erklärt werden. Gemäß dem vorliegenden Beispiel umfasst ein Experiment 16 Färberunden. Die verschiedenen Analyt-Arten sind so codiert, dass jede der in dem Experiment zu identifizierende Analyt-Arten in fünf der 16 Färberunden mit einem Marker markiert sind. D.h. im Experiment sollten Bildbereiche, die Bildsignale von Analyten 39 erfassen, über die 16 Färberunden genau fünf Gefärbt-Signale und elf Ungefärbt-Signale aufweisen. Entsprechend weisen die Soll-Bitfolgen 35 im Codebuch 23 jeweils fünf Wahr-Werte und elf Falsch-Werte auf.
Gemäß diesem Beispiel ist das Verarbeitungsmodell das Binarisierungs-Modell. Das Verarbeitungsmodell gibt für alle Gefärbt-Signale einen Wahr-Wert aus und für alle Ungefärbt-Signale einen Falsch-Wert. Die Ergebnis-Ausgabe ist also eine Bitfolge. Die Matrix-Multiplikation wird jetzt so ausgeführt, dass für jede der Signalkomponenten in der Codebuch-Matrix ein Skalarprodukt der Ergebnis-Ausgabe mit der Soll-Bitfolge 35 berechnet wird. Dementsprechend erhält man als Ergebnis der Matrix-Multiplikation für jede der Signalkomponenten in der Codebuch-Matrix gerade das Skalarprodukt der jeweiligen Signalkomponenten mit der Ergebnis-Ausgabe. Wird das Skalarprodukt aus der Ergebnis-Ausgabe, die ja gerade die binarisierte Signalfolge ist, und der korrespondierenden Soll-Bitfolge 35 gebildet, so sollte das Ergebnis des Skalarprodukts gerade gleich „5“ sein, weil jeweils ein Wahr-Wert in der Ergebnis-Ausgabe, also eine „1“, auf eine „1“ in der Soll-Bitfolge 35 trifft. Entsprechend erhält man für Soll-Bitfolgen 35, die lediglich in vier übereinstimmenden der 16 Färberunden übereinstimmend einen Wahr-Wert aufweisen, als Summe 4, für Soll-Bitfolgen 35, die lediglich in drei übereinstimmenden der 16 Färberunden übereinstimmend einen Wahr-Wert aufweisen, als Summe 3 usw..
Gemäß einem weiteren Beispiel wird eine kombinierte Signalfolge, die sich aus Signalfolgen 31 von zwei verschiedenen Analyt-Arten zusammensetzt, betrachtet. Da sich die Soll-Bitfolgen 35 verschiedener Analyt-Arten mindestens in einem Bit unterscheiden müssen, können für 2 Analyt-Arten maximal 4 der Gefärbt-Signale der 2 Analyt-Arten in derselben Färberunde auftreten.
Wie oben hat das Experiment 16 Färberunden und Analyt-Arten werden mit 5 Gefärbt-Signalen codiert. Die binarisierte kombinierte Signalfolge hat dann 16 Einträge, von denen zwischen 6 und 10 ein Gefärbt-Signal sein können.
Abhängig davon, wie die Codierung der Analyt-Arten gemäß dem Codebuch 23 erfolgt, kann ein Hamming-Abstand zwischen den Soll-Bitfolgen 35 der verschiedenen Analyt-Arten aber auch mehr als ein Bit sein. Gemäß diesem Beispiel treten 2 der Gefärbt-Signale der zwei verschiedenen Analyt-Arten in derselben Färberunde auf. Die übrigen jeweils 3 Gefärbt-Signale der zwei verschiedenen Analyt-Arten treten in unterschiedlichen der 16 Färberunden auf. Die kombinierte Signalfolge weist demnach insgesamt 8 Gefärbt-Signale über die 16 Färberunden auf. Entsprechend erhält man als Ergebnis der Matrix-Multiplikation im Regelfall bei mehr als nur den zu den zwei Analyt-Arten korrespondierenden Signalkomponenten, auf denen die kombinierte Signalfolge 31 basiert, eine Summe die gerade 5 ist, da im Regelfall mehr als nur 2 der Soll-Bitfolgen 35 gerade in den Färberunden der 8 Gefärbt-Signale der kombinierten Signalfolge ihre 5 Gefärbt-Signale aufweisen.
Entsprechend den beiden oben beschriebenen Beispielen können natürlich auch mehr als zwei der Signalfolgen 31 der jeweiligen Analyt-Arten zu einer kombinierten Signalfolge kombiniert werden.
Auch relative Signalanteile der Signalkomponenten der kombinierten Signalfolgen können für die verschiedenen Analyt-Arten in etwa gleich sein, also etwa 50 %, er kann aber auch ganz verschieden ausfallen. Es ist allerdings zu erwarten, dass eine Bestimmung für Signalkomponenten mit Signalanteilen beispielsweise 20,10 oder 5 % nur sehr schwierig und ungenau möglich ist.
Vorzugsweise ist die Matrix-Multiplikation mit der Codebuchmatrix in einer letzten Schicht des Verarbeitungsmodells implementiert.
In einer Nachbearbeitung können benachbarte Bildbereiche zu Bild-Regionen zusammengefasst werden, wenn die benachbarten Bildbereiche beispielsweise jeweils Signalanteile derselben Signalkomponenten aufweisen.
Nachdem das Steuerungsmodul 22 die Bild-Regionen bestimmt hat, werden die bestimmten Bild-Regionen noch einer Überprüfung unterzogen. Beim Überprüfen der Bild-Regionen überprüft das Steuerungsmodul 22, ob die Bild-Regionen beispielsweise eine Maximalgröße überschreiten, ob die Formen der bestimmten Bild-Regionen darauf schließen lassen, dass hier zwei der Bild-Regionen eigentlich voneinander getrennt werden sollten, beispielsweise weil sich zwischen zwei Bild-Regionen lediglich einige wenige Brücken-Bildpunkte befinden. Außerdem kann das Steuerungsmodul 22 Bild-Regionen verwerfen, wenn sie eine Mindestgröße nicht erreichen.
Das Steuerungsmodul 22 bestimmt zu den Bild-Regionen Bild-Region-Signalfolgen, basierend auf den Signalfolgen 31 der zusammengefassten Bildbereiche.
Anschließend werden die Bild-Region-Signalfolgen als Signalfolgen 31 vom Steuerungsmodul 22 in das Verarbeitungsmodell weitergegeben, um basierend auf den Bild-Region-Signalfolgen die jeweilige Analyt-Art bzw. die Signalanteile der Signalkomponenten der Signalfolgen 31 zu bestimmen.
Beispielsweise umfasst das Codebuch 23 zu jeder der zu identifizierenden Analyt-Arten bzw. Signalkomponenten Analyt- bzw. Signalkomponenten-Kontextinformationen, die beispielsweise eine Maximalgröße für eine Bild-Region in Abhängigkeit der Analyt-Art angeben, die beispielsweise angeben, wo in einer Probe, beispielsweise in welcher der oben beschriebenen Bestandteile einer Zelle, die jeweiligen Analyt-Arten auftauchen können, oder welche der Analyt-Arten in der Probe an welchen Stellen kolokalisiert sein können.
Das Bestimmen der Analyt-Region kann entsprechend diese Signalkomponenten-Kontextinformationen berücksichtigen und gegebenenfalls Analyt-Regionen zusammenfassen oder trennen, neue Analyt-Regionen-Signalfolgen entsprechend dem Zusammenfassen oder Trennen bestimmen und die neu bestimmten Signalfolgen erneut in das Verarbeitungsmodell zum Bestimmen der Signalanteile der Signalkomponenten eingeben.
Die Signalkomponenten-Kontextinformationen umfassen beispielsweise außerdem mindestens eines der folgenden: Informationen über eine Lage einer Analyt-Art in einer Probe, Informationen über eine Anzahl an erwarteten Analyt-Arten, Informationen über Co-Lokalisierungen bestimmter Analyt-Arten in bestimmten Bereichen einer Probe, Informationen über eine maximale Anzahl an Analyt-Arten in bestimmten Bereichen der Probe sowie Informationen über einen Hintergrundanteil in verschiedenen Bereichen der Probe.
Gemäß der vorliegenden Erfindung kann das Verarbeitungsmodell als Signalanteil beispielsweise einen relativen, einen absoluten oder auch nur einen binären Signalanteil ausgeben. Außerdem kann das Verarbeitungsmodell auch Wahrscheinlichkeiten, dass die Signalkomponente einen Signalanteil an einer Signalfolge 31 hat, als Signalanteil ausgeben.
Gemäß den oben beschriebenen Beispielen implementiert das Verarbeitungsmodell in der letzten Schicht die Matrix-Multiplikation und gibt für jede der Signalkomponenten in der Codebuchmatrix eine Summe aus, die angibt, wie viele der Gefärbt-Signale der binarisierten Signalfolge bei der Matrix-Multiplikation auf Wahr-Werte der zu der jeweiligen Signalkomponenten korrespondierenden Soll-Bitfolge 35 treffen. Diese Ergebnis-Ausgabe des Verarbeitungsmodells kann so interpretiert werden, dass alle Signalkomponenten, für die die Summe größer als ein Schwellwert ist, einen Signalanteil an der Signalfolge 31 haben. Ist die Anzahl der Färberunden wie in den oben beschriebenen Beispielen 16 und eine erwartete Anzahl von Gefärbt-Signalen für jede Analyt Art beispielsweise 5, und erwartet man ein relativ gutes Signal-zu-Rausch-Verhältnis, so kann man beispielsweise alle Signalkomponenten mit einer Summe von 4 oder größer als potentielle Signalkomponenten der binarisierten Signalfolge interpretieren.
Abhängig davon, wie viele Gefärbt-Signale zum Codieren von Analyt-Arten verwendet werden, wie groß der Hamming-Abstand der Soll-Bitfolgen 35 der verschiedenen Analyt-Arten ist und wie viele Färberunden ein Experiment umfasst, kann dieser Schwellwert variabel gewählt werden.
Nachdem das Verarbeitungsmodell die Signalanteile der verschiedenen Signalkomponenten ausgegeben hat bzw. bestimmt hat, welche der Signalkomponenten einen Signalanteil an einer Signalfolge 31 haben, erfolgt gemäß dieser Ausführungsform ein Überprüfen bzw. Verifizieren der bestimmten Signalanteile der Signalkomponenten an der Signalfolge 31 in einem folgenden Schritt S4
Im Schritt S4 werden zunächst die Soll-Bitfolgen 35 der Signalkomponenten des Codebuchs 23, die gemäß der Ergebnis-Ausgabe des Verarbeitungsmodells einen Signalanteil an der Signalfolge 31 haben aus dem Codebuch 23 ausgelesen.
Die Informationen, dass bestimmte Signalkomponenten einen Signalanteil an einer Signalfolge 31 haben, kann beispielsweise einfach ein binärer Vektor sein, in dem alle Signalkomponenten einer Komponente entsprechen und der für alle Signalkomponenten die möglicherweise einen Signalanteil an der Signalfolge 31 haben den Wert „1“ hat. Die übrigen Komponenten des Vektors, die zu den Signalkomponenten korrespondieren, die keinen Signalanteile an der Signalfolge 31 haben, haben den Wert „0“.
Alternativ können die Signalkomponenten, die einen Signalanteil an einer Signalfolge 31 haben, auch basierend auf dem oben mit Bezug zu den Beispielen beschriebenen Schwellwert bestimmt werden. Die Ergebnis-Ausgabe ist für diesen Fall wiederum ein Vektor, in dem jede Komponente einer Signalkomponente entspricht, und Signalkomponenten, in denen die Summe der Matrix-Multiplikation größer als der Schwellwert ist, haben einen Signalanteil an der Signalfolge 31.
Entsprechend dem oben beschriebenen Beispiel sind das gerade die Signalkomponenten, für deren Einträge in der Ergebnis-Ausgabe die Summe größer als 4 ist.
Gemäß einer weiteren Alternative kann das Verarbeitungsmodell auch direkt dazu trainiert worden sein, Signalanteile der jeweiligen Signalkomponenten auszugeben oder aber Wahrscheinlichkeiten auszugeben, dass eine bestimmte Signalkomponente zu einer Signalfolge 31 beiträgt.
Nachdem die Signalkomponenten bestimmt wurden, die einen Signalanteil an der Signalfolge 31 haben, wird mittels einem Hintergrundkorrekturverfahren ein Hintergrundsignal der Signalfolge 31 basierend auf Signalfolgen von umgebenden Bildbereichen bestimmt.
Das bestimmte Hintergrundsignal wird von der Signalfolge 31 abgezogen, um einen hintergrundkorrigierten Messdatenvektor zu erhalten. Der hintergrundkorrigierte Messdatenvektor umfasst wie in den oben beschriebenen Beispielen 16 Einträge für ein Experiment mit 16 Färberunden.
Gemäß einer Alternative kann auch ein anderes Verfahren zur Hintergrundkorrektur verwendet werden, wie weiter oben beschrieben. Eine Hintergrundkorrektur kann auch vollständig entfallen, stattdessen kann der Hintergrund als eigenständige Signalkomponente verwendet werden.
Nach der Hintergrundkorrektur wird der hintergrundkorrigierte Messdatenvektor auf die Länge „1“ normiert, um einen normierten, hintergrundkorrigierten Messdatenvektor x zu erhalten.
Mittels des Optimierungsverfahrens wird daraufhin für jedes Paar (T_A, T_B) von Signalkomponenten, die gemäß der Ergebnis-Ausgabe einen Signalanteil an der Signalfolge 31 haben können, die Signalanteilsfunktion basierend auf den Signalanteilen der Signalkomponenten so optimiert, dass die Signalanteilsfunktion minimal wird. Die Signalanteilsfunktion α̂_A,B lautet: $\begin{matrix} {\hat{α}}_{A, B} = {argmin}_{α} {‖ x \cdot (α x_{A} + (1 - α) x_{b}) ‖}_{2}, & mit α \in (0,1), \end{matrix}$
wobei a das Mischungsverhältnis der beiden Signalkomponenten angibt, da hier der Spezialfall mit lediglich zwei Analyt-Arten T_A und T_B betrachtet wird, ist dies ein eindimensionales Optimierungsproblem. x_A ist hier die Soll-Bitfolge 35 der Analyt-Art T_A, x_B die Soll-Bitfolge 35 der Analyt-Art T_B. α ist der Signalanteil der Analyt-Art T_A, (1- α) ist der Signalanteil der Analyt-Art T_B. Im Folgenden wird α so optimiert, dass die Signalanteilsfunktion α̂_{A, B} minimal wird.
In einem nächsten Schritt wird nun das Analyt-Paar (T_A, T_B) ausgewählt, für welches die Signalanteilsfunktion α̂_{A, B} minimal ist, aus dem α der Signalanteilsfunktion α̂_{A, B} kann dann das Mischungsverhältnis des Analyt-Paares bestimmt werden, aus dem Mischungsverhältnis dann die jeweiligen Signalanteile.
Bei dem hier beschriebenen Optimierungsverfahren gehen in die Optimierung verschiedene Randbedingungen ein. Zum einen wird Signalanteil α auf den Wertebereich zwischen 0 und 1 beschränkt.
Weiter umfassen die Einträge der Soll-Bitfolgen 35 lediglich Einsen und Nullen. Darüber hinaus wird mittels der Signalanteilsfunktion α̂_{A, B} eine Linearkombination von lediglich zwei Signalkomponenten optimiert.
Außerdem ist die Optimierung der Signalanteilsfunktion auf Signalkomponenten beschränkt, die gemäß der Ergebnis-Ausgabe mit einer gewissen Wahrscheinlichkeit einen Signalanteil an der Signalfolge 31 haben.
Gemäß einer Variante der Ausführungsform kann die Signalanteilsfunktion auch als Linearkombinationen von beispielsweise drei, vier oder mehr Signalkomponenten aufgestellt werden. Mit geeigneten Randbedingungen und/oder Regularisierungen können auch entsprechend komplexere Signalanteilsfunktionen so optimiert werden, dass die Signalanteile der jeweiligen Signalkomponenten bestimmt werden können.
Gemäß einer Alternative, in der das Verarbeitungsmodell direkt die Signalanteile der jeweiligen Signalkomponenten der Signalfolge 31 ausgibt, können die Signalanteile im Schritt S4 als Ausgangswerte der Signalanteile in die Linearkombination der Signalkomponenten in der Signalanteilsfunktion eingehen.
Das Optimieren der Signalanteilsfunktion anhand der Signalanteile erfolgt beispielsweise mittels eines gängigen Optimierungsverfahrens. Gemäß der vorliegenden Ausführungsform erfolgt das Optimieren mittels einer Nicht-Negativen Matrixfaktorisierung, kurz NMF.
Gemäß weiterer Alternativen kann das Optimierungsverfahren ein beliebiges klassisches Optimierungsverfahren sein, insbesondere eine konvexe Optimierung, eine nicht-konvexe Optimierung, eine konkave Optimierung, eine lineare Optimierung oder eine nicht-lineare Optimierung, wobei das klassische Optimierungsverfahren mit oder ohne Nebenbedingungen, vorzugsweise mit Nebenbedingungen, insbesondere Randbedingungen, durchgeführt wird.
Gemäß einer Alternative kann das Optimieren der Signalanteilsfunktion mittels eines der folgenden Algorithmen erfolgen: einer Nicht-Negativen-Matrixfaktorisierung, einer Hauptkomponentenanalyse, einer Diskriminanzfunktion oder einer Singulärwert-Zerlegung.
Als weitere Randbedingungen oder Regularisierungen können auch noch Signalkomponenten-Kontextinformationen, wie oben mit Bezug zum Verarbeitungsmodell beschrieben, in die Optimierungen eingehen.
Umfasst das Optimieren beispielsweise eine Hauptkomponentenanalyse, so kann als die Transformationsmatrix der Hauptkomponentenanalyse gerade eine Codebuch-Matrix oder eine Analyt-Signalfolgen-Matrix gewählt werden. Die Codebuch-Matrix umfasst als Einträge wiederum gerade die Vektoren der Soll-Bitfolge 35. Die Analyt-Signalfolgen-Matrix umfasst als Einträge gerade Vektoren von Signalfolgen 31 der verschiedenen Analyt-Arten der möglichen Signalkomponenten.
Wie oben mit Bezug zur Matrix-Multiplikation in einer Ausgabeschicht eines Verarbeitungsmodells beschrieben, erhält man durch die Multiplikation der Signalfolgen 31 mit der Transformationsmatrix ein Maß für einen Anteil der jeweiligen Signalkomponente an der Signalfolge 31. Basierend auf diesem Maß können dann die Signalkomponenten mit den größten Anteilen jeweils in einem klassischen Optimierungsverfahren als Nebenbedingung für die Optimierung vorgegeben werden. Beispielsweise die zwei, drei, vier oder fünf Signalkomponenten mit den höchsten Anteilen.
Gemäß einem Schritt S5 werden nach der Optimierung der Signalanteilsfunktionen und nach dem Bestimmen der minimalen Signalanteilsfunktion die Signalanteile entsprechend der minimalen Signalanteilsfunktion den jeweiligen Signalkomponenten zugeordnet. Dadurch, dass man zunächst mittels eines Verarbeitungsmodells mögliche Signalkomponenten aussucht und das Optimieren der Signalanteilsfunktion auf die ausgesuchten Signalkomponenten beschränkt, werden erheblich weniger Rechenressourcen benötigt, um das Optimierungsproblem zu lösen.
Nachdem die Signalanteile mittels des Optimierungsverfahrens möglichst genau bestimmten wurden, kann basierend auf den Signalanteilen, die mittels des Optimierungsverfahrens bestimmt wurden, der annotierte Datensatz um Signalfolgen 31 erweitert werden, die gemischte bzw. kombinierte Signalfolgen bzw. Signalanteile von mehreren Signalkomponenten umfassen. Nach dem Zusammenstellen des erweiterten annotierten Datensatzes kann das Training des Verarbeitungsmodells mit dem erweiterten Datensatz verbessert werden.
Gemäß einer weiteren Ausführungsform erfolgt der Schritt S4 zum Optimieren der Signalanteilsfunktion, ohne die Signalfolge 31 vorher in das Verarbeitungsmodell einzugeben.
Entsprechend muss die Signalanteilsfunktion für alle Signalfolgen 31 aller Bildbereiche der Bildfolge 19 bestimmt werden, außerdem müssen, abhängig von der Anzahl der Signalkomponenten, die in die Linearkombination der Signalanteilsfunktion eingehen, entsprechend viele Signalanteilsfunktionen mit entsprechend vielen verschiedenen Signalkomponenten jeweils für die Signalanteile der Signalkomponenten bestimmt werden.
Wiederum wird aus der Vielzahl der optimierten Signalanteilsfunktionen eine minimale Signalanteilsfunktion ausgewählt, anhand derer die Signalanteile der verschiedenen Signalkomponenten bestimmt bzw. ausgewählt werden.
Beispielsweise kann eine Signalanteilsfunktion gewählt werden, die die Signalanteile mittels einer Linearkombination von zwei, drei, vier oder mehr Signalkomponenten bestimmt. Es werden wiederum geeignete Randbedingungen oder Regularisierungen während der Optimierung verwendet.
Gemäß einem Beispiel (siehe 10) ist die Signalanteilsfunktion eine Linearkombination von drei Signalkomponenten. Es werden jeweils Signalfolgen 31 aus den aufgenommenen registrierten Daten extrahiert und mittels eines Optimierungsverfahrens der Signalanteile von Signalkomponenten an der jeweiligen Signalfolge 31 wie oben beschrieben bestimmt.
Im Gegensatz zum oben beschriebenen Optimierungsverfahren wird die Optimierung allerdings mit allen Soll-Bitfolgen 35, also allen möglichen Signalkomponenten des Codebuchs 23 durchgeführt, d.h. es werden alle möglichen Linearkombinationen von Soll-Bitfolgen 35 jeweils optimiert und dann eine minimale Signalanteilsfunktion aus der Menge der optimierten Signalanteilsfunktionen ausgewählt.
Auch gemäß dieser Ausführungsform können Signalkomponenten-Kontextinformationen als Randbedingung oder Regularisierungen in das Optimierungsverfahren eingehen.
Ein Ergebnis der Optimierung mittels einer Signalanteilsfunktion, die die Signalanteile von Signalkomponenten mittels einer Linearkombination von drei Signalkomponenten bestimmt, ist schematisch in 10 (c) dargestellt. Ein Ergebnis der Optimierung gibt dann den jeweiligen Anteil der Analyten für die minimale Signalanteilsfunktion aus. Die in 10 betrachtete Signalfolge 31 setzt sich, wie in 10 (c) zu sehen, aus den Analyten A, B und C zusammen. Im Stand der Technik würde eine Analyt-Zuordnung ergeben, dass die betrachtete Signalfolge 31 vom Analyten A herrührt, wie in 10 (b) gezeigt. Gemäß der vorliegenden Erfindung hingegen wird dem Analyten A ein Signalanteil von 45 %, dem Analyten B ein Signalanteil von 35 % und dem Analyten C ein Signalanteil von 20 % zugeordnet.
Darüber hinaus kann das Bestimmen der Signal-Zusammensetzung gemäß einer Variante noch eine Non-Maximum-Suppression umfassen.
Bei der Aufnahme der Bildfolge 19 werden aufgrund der optischen Eigenschaften der Objektive 8 des Mikroskops 2, insbesondere der Punktspreizfunktion des Mikroskops 2, Signale von analytischen bzw. von an Analyten 39 gekoppelten Markern auf mehrere Bildpunkte abgebildet. Für jede der Signalfolgen 31 der Bildpunkte bzw. der Bildbereiche 25, die zu demselben Analyten 39 gehören, würde das beschriebene Verfahren jeweils ein Auffinden eines Analyten 39 in der Probe ausgeben, abhängig von der Anzahl an Bildpunkten, auf die ein Analyt abgebildet wird, würden mit Hilfe des beschriebenen Verfahrens demnach ein Vielfaches der tatsächlich in der Probe vorhandenen Analyten 39 aufgefunden werden.
Mittels der Non-Maximum-Suppression werden die Signalfolgen 31 benachbarter Bildbereiche 25 dahingehend verarbeitet bzw. gefiltert, dass für einen Bildausschnitt, dessen Fläche in etwa der Punktspreizfunktion des Mikroskops 2 entspricht, lediglich eine einzige Signal-Zusammensetzung ausgegeben wird.
Die Non-Maximum-Suppression sucht bzw. filtert aus den ggf. mehreren bestimmten Signal-Zusammensetzungen der mehreren Signalfolgen 31 jeweils diejenige heraus, deren Ergebnis einem maximalen Score entspricht, d.h. deren Ergebnis mit einer höchsten Wahrscheinlichkeit dem richtigen Ergebnis entspricht. Dies kann beispielsweise für den Fall, dass das Verarbeitungsmodell Wahrscheinlichkeitsverteilungen über die Signalkomponenten ausgibt, gerade das Ergebnis mit den höchsten Wahrscheinlichkeiten sein. Wurden die Signalkomponenten beispielsweise mit einem klassischen Optimierungsalgorithmus bestimmt, so sollte das Ergebnis mit dem kleinsten Fehler durch die Non-Maximum-Suppression ausgesucht werden. Auch jede andere Form der weichen Zuordnung mittels einem Verarbeitungsmodell kann durch die Non-Maximum-Suppression bewertet werden und ein entsprechend als maximal vertrauensvoll zu bewertendes Ergebnis als Maximum ausgewählt werden.
Insbesondere kann die Non-Maximum-Suppression auch auf das oben beschriebene Bestimmen einer Bild-Region angewandt werden. Hierzu wird für eine zu bestimmende Bild-Region und die dazugehörige Bild-Region-Signalfolge für verschiedene Zusammensetzungen der Bild-Region aus verschiedenen der Bildbereiche 25 jeweils die Signal-Zusammensetzung basierend auf der jeweiligen Bild-Region-Signalfolge bestimmt und für die so bestimmte Signal-Zusammensetzung ein Score bestimmt, der wiedergibt, wie vertrauensvoll die bestimmte Signal-Zusammensetzung ist. Basierend auf dem Score wird dann die Bild-Region und deren korrespondierende Bild-Region-Signalfolge ausgewählt, deren Score gerade das Maximum ist.
Beispielsweise ist es vorstellbar, dass für Signalfolgen 31 von Bildbereichen 25 im Zentrum einer solchen Bild-Region die Gefärbt-Signale besonders gut von den Ungefärbt-Signalen zu unterscheiden sind, während sich für Bildbereiche 25 am Rand der Bild-Region die Gefärbt-Signale nur sehr schlecht von den Ungefärbt-Signalen unterscheiden lassen. Daher würden die am Rand gelegenen Bildbereiche 25 möglicherweise einen Score einer größeren Bild-Region verschlechtern, weshalb eine Bild-Region beispielsweise auf zentrale Bildpunkte bzw. Bildbereiche 25 mit relativ hellen Gefärbt-Signalen begrenzt ist. Mittels der Non-Maximum-Suppression könnten hier die Bild-Regionen gerade so bestimmt werden, dass sich die Signal-Zusammensetzung der Bild-Region-Signalfolge besonders gut bestimmen lässt.
Gemäß einer weiteren Ausführungsform umfasst die Auswerteeinrichtung 4 außerdem ein Kandidatenextrahierungsmodul 27.
Das Kandidatenextrahierungsmodul 27 ist dazu eingerichtet, aus den Bilddaten der Bildfolge 19 mehrere Signalfolgen 31 jeweils eines Bildbereiches 25 der Bildfolge 19 zu extrahieren und aus den extrahierten Signalfolgen 31 Kandidaten-Signalfolgen herauszufiltern, wobei Kandidaten-Signalfolgen Signalfolgen 31 von Bildbereichen 25 sind, die mit einer hohen Wahrscheinlichkeit Bildsignale von Analyten 39 erfasst haben, d.h. in einigen der Bildbereiche 25 der Bildfolge 19 umfassen die Signalfolgen 31 Bildsignale, die von einem an einen Analyten 39 gekoppelten Marker stammen.
Das Kandidatenextrahierungsmodul 27 ist beispielsweise als neuronales Netzwerk, genannt Kandidatenextrahierungs-Modell, implementiert, das dazu trainiert wurde, Kandidaten-Signalfolgen in den extrahierten Signalfolgen zu erkennen und auszugeben.
Während des Trainings liest das Steuerungsmodul 22 einen Teil der Bilddaten eines annotierten Datensatzes aus dem Speichermodul 20 aus und gibt sie in das Kandidatenextrahierungsmodul 27 ein. Das Steuerungsmodul 22 bestimmt anhand von Ergebnis-Ausgaben des Kandidatenextrahierungs-Modells und anhand von Zieldaten im annotierten Datensatz eine Zielfunktion und optimiert die Zielfunktion durch Anpassen von Modellparametern des Kandidatenextrahierungs-Modells, basierend auf der Zielfunktion.
Das Training erfolgt beispielsweise mittels eines stochastischen Gradientenabstiegsverfahrens. Es kann auch jedes andere beliebige Trainingsverfahren verwendet werden. Ist das Training beendet, so speichert das Steuerungsmodul 22 die Modellparameter des Kandidatenextrahierungs-Modells im Speichermodul 20.
Während der Inferenz gibt das Kandidatenextrahierungsmodul 27 die vom Kandidatenextrahierungs-Modell ausgegebenen Kandidaten-Signalfolgen entweder an das Steuerungsmodul 22 aus, das die Kandidaten-Signalfolge für eine spätere Analyse im Speichermodul 20 speichert, oder direkt an das Verarbeitungsmodul 24 weiter, das dann den Kandidaten-Signalfolgen entsprechend wie oben beschrieben die Signal-Zusammensetzung der Kandidaten-Signalfolgen bestimmt.
Das Kandidatenextrahierungs-Modell kann ähnlich wie das Verarbeitungsmodell als neuronales Netz, Convolutional Neural Network (CNN), Multi-Layer Perzeptron (MLP), oder als sequentielles Netz, beispielsweise ein Recurrent Neural Network (RNN) oder ein Transformer Network, implementiert sein.
Auch das Training des Kandidatenextrahierungs-Modells erfolgt im Schritt S2.
Gemäß dieser Ausführungsform wird das Kandidatenextrahierungs-Modell dazu trainiert, Kandidaten-Signalfolgen anhand einer Anzahl von Gefärbt-Signalen zu identifizieren oder die Kandidaten-Signalfolgen jeweils anhand einer charakteristischen Signatur, umfassend mindestens ein bestimmtes Verhältnis, zu identifizieren. Um die Gefärbt-Signale von den Ungefärbt-Signalen zu unterscheiden, lernt das Kandidatenextrahierungs-Modell, in einer Kandidaten-Signalfolge mindestens ein bestimmtes Verhältnis von Gefärbt-Signal zu Ungefärbt-Signal, von Gefärbt-Signal zu Gefärbt-Signal, von Ungefärbt-Signal zu Gefärbt-Signal oder von Ungefärbt-Signal zu Ungefärbt-Signal zu erkennen. D.h. eine Kandidaten-Signalfolge weist mindestens ein bestimmtes Verhältnis eines Gefärbt- und/oder Ungefärbt-Signals der jeweiligen Signalfolge 31 zu mindestens einem anderen der Gefärbt- und/oder Ungefärbt-Signale der jeweiligen Signalfolge 31 auf.
Das bestimmte Verhältnis kann ein bestimmter Abstand oder eine Differenz zwischen den Bildsignalen sein, ein Quotient aus den Bildsignalen, eine bestimmte Anzahl von Bildsignalen mit einem höheren Bildsignal als den übrigen, wobei das Verhältnis jeweils für ein normiertes Bildsignal oder für ein nicht-normiertes Bildsignal gelernt werden kann.
Gemäß dieser Ausführungsform ist das Kandidatenextrahierungs-Modell ein vollständig faltendes-Netzwerk 37. Das Kandidatenextrahierungs-Modell wird zunächst als Klassifikationsmodell, das ein vollständig verbundenes Netzwerk 38 mit vollständig verbundenen Schichten ist, mit den in Schritt S1 als Trainings-Signalfolgen gespeicherten Signalfolgen 31 von einzelnen Bildbereichen 25 trainiert. Dazu gibt das Steuerungsmodul 22 Signalfolgen 31 des annotierten Datensatzes in das Kandidatenextrahierungs-Modell ein. Das Klassifikationsmodell ordnet der Signalfolge 31 eine Klasse zu, die angibt, ob die Signalfolge 31 eine Kandidaten-Signalfolge ist. Eine Kandidaten-Signalfolge ist eine Signalfolge 31, die entweder die charakteristische Signatur aufweist oder mit einer hohen Wahrscheinlichkeit die charakteristische Signatur aufweist oder die Gefärbt-Signale oder Ungefärbt-Signale mit dem bestimmten Verhältnis aufweist bzw. eine gewisse Anzahl der Gefärbt-Signale und/oder Ungefärbt-Signale aufweist.
Das Klassifikationsmodell kann entweder ein binärer Klassifikator sein, beispielsweise gibt dann eine „1“ an, dass es sich um eine Kandidaten-Signalfolge handelt, die Klassenzuordnung kann aber auch weich erfolgen, das Klassifikationsmodell gibt für jede Klasse eine Wahrscheinlichkeit für die Zugehörigkeit zu der jeweiligen Klasse aus.
Das Steuerungsmodul 22 steuert wiederum das Training wie auch das Training des Verarbeitungsmodells.
Gemäß einer Alternative kann auch das Kandidatenextrahierungs-Modell ein Bild-zu-Bild-Modell sein, das eine Bild-zu-Bild Abbildung lernt. Eine Zielausgabe im annotierten Datensatz ist dann entweder ein Abstandswert, der angibt, wie weit der jeweilige Bildbereich 25 von einem nächsten Bildbereich 25 mit einer Kandidaten-Signalfolge entfernt ist, oder ein Wahrscheinlichkeitswert, der angibt, wie hoch die Wahrscheinlichkeit ist, dass der Bildbereich 25 eine Kandidaten-Bildfolge erfasst.
Gemäß einer weiteren Alternative ist das Kandidatenextrahierungs-Modell ein Detektionsmodell. Das Detektionsmodell gibt lediglich eine Liste der Bildbereiche 25, die eine Kandidaten-Signalfolge detektieren, aus.
Auch für das Kandidatenextrahierungs-Modell kann das signalfolgen-agnostische Training ebenso wie das Hard-Negative-Mining wie oben beschrieben erfolgen.
Beim Trainieren des Kandidatenextrahierungs-Modells kann ein vortrainiertes Modell aus einem Satz von vortrainierten Modellen ausgewählt werden und das vortrainierte Modell mittels Transferlernen an ein neues Experiment angepasst werden.
Umfasst das Analytdatenauswertesystem 1 wie hier beschrieben auch das Kandidatenextrahierungs-Modell, so gibt das Steuerungsmodul 22 die extrahierten Signalfolgen 31 in das Kandidatenextrahierungs-Modell ein, die vom Kandidatenextrahierungs-Modell identifizierten Kandidaten-Signalfolgen werden dann an das Verarbeitungsmodell zur weiteren Analyse weitergegeben.
Gemäß einer weiteren Alternative kann die Signal-Zusammensetzung für jede der Signalfolgen 31 auch eine Hintergrund-Signalkomponente umfasst. Hierzu wird aus Bildsignalen von den Bildbereich 25 der Signalfolge 31 umgebenden Bildbereichen 25 bestimmt. Beispielsweise erfasst das Verarbeitungsmodell ein rezeptives Feld, dessen Außenmaße dem doppelten einer Fläche einer Punktspreizfunktion des Mikroskops 2 entsprechen, deren Fläche also viermal so groß ist wie die Fläche der Punktspreizfunktion.
Beispielsweise werden die Bildsignale eines mit Marker markierten Analyten auf eine Analyt-Fläche in einem Bild 5 abgebildet, deren Fläche gerade gleich der Punktspreizfunktion des Mikroskops 2 ist. Erfasst das rezeptive Feld des Verarbeitungsmodells die Signalfolge 31 eines zentraler Bildbereichs der Analyt-Fläche, so kann das Verarbeitungsmodell beispielsweise dazu trainiert werden, anhand von Bildsignalen von Bildbereiche außerhalb der Analyt-Fläche die Hintergrund-Signalkomponente zu bestimmen. Die Analyt-Fläche wird beispielsweise mittels einer Non-Maximum-Suppression bestimmt. Anhand der so bestimmten Hintergrund-Signalkomponente kann dann entsprechend einer Hintergrundkorrektur durchgeführt werden.
Bezugszeichen liste

1: Analytdatenauswertesystem
2: Mikroskop
3: Steuervorrichtung
4: Auswerteeinrichtung
5: Mikroskopbild
6: Stativ
7: Objektivrevolver
8: (montiertes) Objektiv
9: Probentisch
10: Halterahmen
11: Probenträger
12: Mikroskopkamera
13: Fluoreszenz-Beleuchtungseinrichtung
14: Durchlicht-Beleuchtungseinrichtung
15: Übersichtskamera
16: Sichtfeld
17: Spiegel
18: Bildschirm
19: Bildfolge
20: Speichermodul
21: Kanal
22: Steuerungsmodul
23: Codebuch
24: Verarbeitungsmodul
25: Bildbereich
26: Hintergrundbildbereich
27: Kandidatenextrahierungsmodul
31: Signalfolge
35: Soll-Bitfolge
36: Segmentierungsmaske
37: vollständig faltendes Netzwerk
38: vollständig verbundenes Netzwerk
39: Analyt
40: Wahrscheinlichkeitsverteilung
41: Binarisierung
42: Wahrscheinlichkeitsfolge

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

EP 2992115 B1 [0002, 0209]
WO 2020/254519 A1 [0005, 0209]
WO 2021/255244 A1 [0005, 0209]

Claims

Verfahren zum Trainieren eines Maschinenlernsystems mit einem Verarbeitungsmodell, wobei das Verarbeitungsmodell dazu trainiert wird, eine Signal-Zusammensetzung von Signalfolgen (31) von Bildbereichen (25) einer Bildfolge (19) zu bestimmen, wobei die Signal-Zusammensetzung Signalanteile für verschiedene zu identifizierende Signalkomponenten umfasst, die Bildfolge (19) durch Markieren von Analyten (39) mit Markern in mehreren Färberunden und Detektieren der Marker mit einer Kamera (12) erzeugt wird, die Kamera (12) in jeder Färberunde ein Bild (5) der Bildfolge (19) aufnimmt, die Marker so ausgewählt werden, dass Signalfolgen (31) von Analyten (39) in einem Bildbereich (25) über die Bildfolge (19) Gefärbt-Signale und Ungefärbt-Signale umfassen, die Gefärbt- und Ungefärbt-Signale der Signalfolgen (31) von Analyten (39) mindestens ein bestimmtes Verhältnis eines der Gefärbt- und/oder Ungefärbt-Signale der jeweiligen Signalfolge (31) zu mindestens einem anderen der Gefärbt- und/oder Ungefärbt-Signale der jeweiligen Signalfolge (31) aufweisen und/oder die Signalfolgen (31) von Analyten (39) eine charakteristische Signatur, umfassend das mindestens eine bestimmte Verhältnis, aufweisen, umfassend: - Bereitstellen eines annotierten Datensatzes, wobei der annotierte Datensatz für die Signalkomponenten Eingabe-Signalfolgen sowie korrespondierende Ziel-Ausgaben umfasst, die Signalkomponenten mindestens eine Signalkomponente für jede zu identifizierende Analyt-Art umfasst und Signalfolgen (31) von Analyten (39) eine spezifische Reihenfolge der Gefärbt- und Ungefärbt-Signale umfassen, anhand derer den Signalfolgen (31) eine Analyt-Art zugeordnet werden kann, und - Optimieren einer Zielfunktion durch Anpassen der Modellparameter des Verarbeitungsmodells, wobei die Zielfunktion basierend auf einer vom Verarbeitungsmodell ausgegebenen Ergebnis-Ausgabe und der Ziel-Ausgabe berechnet wird.
Verfahren gemäß Anspruch 1, wobei der annotierte Datensatz außerdem Eingabe-Signalfolgen von Hintergrund-Bildbereichen (26) umfasst, wobei Hintergrund-Bildbereiche (26) Bildbereiche (25) der Bildfolge (19) sind, in denen keine Signale von Analyten (39) erfasst werden, und die Ziel-Ausgabe für Hintergrund-Bildbereiche (26)mindestens eine eigene Signalkomponente in der Menge der Signalkomponenten bildet.
Verfahren gemäß einem der vorhergehenden Ansprüche 1 oder 2, wobei das Verarbeitungsmodell ein Klassifikationsmodell ist, die Ergebnis-Ausgabe die Signalanteile der Signalkomponenten der Eingabe-Signalfolge angeben oder die Ergebnis-Ausgabe eine Wahrscheinlichkeitsverteilung (40) ist, die jeweils die Wahrscheinlichkeit angibt, zu einer der Signalkomponenten zu gehören, und die Zielfunktion einen Unterschied zwischen der Ergebnis-Ausgabe und der Ziel-Ausgabe erfasst.
Verfahren gemäß einem der vorhergehenden Ansprüche 1 bis 3, wobei das Optimieren einer Zielfunktion in mehreren Runden erfolgt und in einigen der Runden die Reihenfolge der Gefärbt- und Ungefärbt-Signale einer der Eingabe-Signalfolgen so geändert wird, dass die geänderte Reihenfolge einer Reihenfolge einer anderen der zu identifizierenden Analyt-Arten entspricht und die zu der geänderten Reihenfolge entsprechend korrespondierende Ziel-Ausgabe beim Optimieren der Zielfunktion verwendet wird.
Verfahren gemäß den vorhergehenden Ansprüchen 1 bis 4, wobei die Zielfunktion eine Klassifikations-Loss ist und die Ergebnis-Ausgabe für jeden Eintrag einen Wert zwischen 0 und 1 aufweist, der eine Wahrscheinlichkeit angibt, dass hier die jeweilige Signalfolge (31) Signalanteile der jeweiligen Signalkomponente aufweist.
Verfahren gemäß dem vorhergehenden Anspruch 1 oder 2, wobei die Ziel-Ausgabe eine Soll-Bitfolge (35) ist, die Ziel-Ausgabe für jedes Gefärbt-Signal in der Eingabe-Signalfolge ein Wahr-Bit und für jedes Ungefärbt-Signal ein Falsch-Bit umfasst.
Verfahren gemäß dem vorhergehenden Anspruch 6, wobei die Ziel-Ausgabe für Signalfolgen (31) von Hintergrund-Bildbereichen (26) lediglich Falsch-Werte umfasst.
Verfahren gemäß Anspruch 6 oder 7, wobei die Ergebnis-Ausgabe eine Ergebnis-Bitfolge ist, wobei das Verarbeitungsmodell dazu trainiert wird, jedem Gefärbt-Signal in der Eingabe-Signalfolge ein Wahr-Bit zuzuordnen und jedem Ungefärbt-Signal in der Eingabe-Signalfolge ein Falsch-Bit zuzuordnen, und die Zielfunktion einen Unterschied zwischen der Ergebnis-Bitfolge und der Ziel-Ausgabe erfasst.
Verfahren gemäß Anspruch 6 oder 7, wobei die Ergebnis-Ausgabe eine Wahrscheinlichkeitsverteilung (40) ist, in der jedem Bildsignal der Eingabe-Signalfolge eine Wahrscheinlichkeit zugeordnet ist, dass das Bildsignal ein Gefärbt-Signal ist oder nicht, und die Zielfunktion einen Unterschied zwischen der Ergebnis-Ausgabe und der Ziel-Ausgabe erfasst.
Verfahren gemäß einem der vorhergehenden Ansprüchen 6 bis 9, wobei die Ergebnis-Ausgabe für jeden der Einträge einen Wert zwischen 0 und 1 aufweist, der eine Wahrscheinlichkeit angibt, dass hier ein Gefärbt-Signal erfasst wurde oder nicht.
Verfahren gemäß einem der vorhergehenden Ansprüche 1 bis 10, wobei das Verarbeitungsmodell ein vollständig faltendes Netzwerk (37) ist, das entweder als Klassifikationsmodell mit vollständig verbundenen Schichten mit Signalfolgen (31) von einzelnen Bildbereichen (25) trainiert wurde, und das Klassifikationsmodell nach dem Training durch Ersetzen der vollständig verbundenen Schichten durch faltende Schichten in das vollständig faltende Netzwerk (37)überführt wird, das die Signalfolgen (31) aller Bildbereiche (25) der Bildfolge (19) gleichzeitig verarbeiten kann, oder das direkt als vollständig faltendes Netzwerk (37)trainiert wird.
Verfahren gemäß einem der vorhergehenden Ansprüche 2 bis 11, wobei ein Berechnen der Zielfunktion umfasst: - Berechnen einer Kandidaten-Gruppe von Kandidaten-Zielfunktionen für jede Eingabe-Signalfolge von Analyten (39), wobei für jede der Kandidaten-Zielfunktionen ein anderes der Gefärbt-Signale der Eingabe-Signalfolge beim Berechnen der Kandidaten-Zielfunktion nicht berücksichtigt wird, indem es beispielsweise Null gesetzt wird oder durch ein Ungefärbt-Signal ersetzt wird, und/oder für Eingabe-Signalfolgen eines Hintergrund-Bildbereichs für jede der Kandidaten-Zielfunktionen ein oder mehrere Bildsignale der Eingabe-Signalfolge, die Gefärbt-Signale sind, bei der Berechnung der Kandidaten-Zielfunktionen nicht berücksichtigt werden, indem die entsprechenden Gefärbt-Signale bei der Berechnung ausgelassen werden oder durch Ungefärbt-Signale ersetzt werden, und - Auswählen einer Wahl-Zielfunktion aus der Kandidaten-Gruppe, wobei die Wahl-Zielfunktion diejenige der Kandidaten-Zielfunktionen der Kandidaten-Gruppe ist, die entweder einen zweitgrößten oder einen drittgrößten oder einen viertgrößten Unterschied zwischen Ziel-Bitfolge und Ergebnis-Bitfolge aufweist.
Verfahren gemäß dem vorhergehenden Anspruch 6 oder 7, wobei das Verarbeitungs-Modell ein Einbettungs-Modell ist, das für die Einbettungs-Eingaben eine Einbettung in einen Einbettungsraum bestimmt, die Einbettungs-Eingaben die Eingabe-Signalfolgen und die Ziel-Ausgaben umfassen, die Ergebnis-Ausgaben die Einbettungen der Eingabe-Signalfolgen umfassen, Ziel-Einbettungen die Einbettungen der Ziel-Ausgaben umfassen und das Optimieren der Zielfunktionen gleichzeitig den Unterschied zwischen Einbettungen von Einbettungs-Eingaben derselben Signalkomponente minimiert und den Unterschied zwischen Einbettungen, basierend auf Einbettungs-Eingaben unterschiedlicher Signalkomponenten, maximiert.
Verfahren gemäß einem der vorhergehenden Ansprüche 6 bis 13, wobei das Optimieren einer Zielfunktion in mehreren Runden erfolgt, und in einigen der Runden ein Randomisieren der Eingabe-Signalfolge umfasst, wobei das Randomisieren eines oder mehrere der folgenden umfasst: - Vertauschen einer Reihenfolge der Bildsignale der Eingabe-Signalfolge sowie korrespondierendes Vertauschen korrespondierender Einträge der Ziel-Ausgabe, und - zufälliges Auswählen einer ersten Anzahl an Gefärbt-Signalen und einer zweiten Anzahl an Ungefärbt-Signalen aus der Menge der Eingabe-Signalfolgen und Erstellen der entsprechend korrespondierenden Ziel-Ausgabe.
Verfahren gemäß einem der vorhergehenden Ansprüche 1 bis 14, wobei das Optimieren einer Zielfunktion in mehreren Runden erfolgt und in einigen der Runden ein Augmentieren der Eingabe-Signalfolge umfasst, wobei das Augmentieren eines oder mehrere der folgenden umfasst: - Ersetzen eines einzelnen der Gefärbt-Signale der Eingabe-Signalfolge durch ein Ungefärbt-Signal, wobei das Ungefärbt-Signal entweder durch ein Absenken des Gefärbt-Signals oder durch Ersetzen des Gefärbt-Signals durch ein Bildsignal aus der Umgebung des Bildbereichs (25) der Eingabe-Signalfolge, aus einer anderen Färberunde oder von einem anderen Ort in der Probe erzeugt wird, - zufälliges Verrauschen einiger der Bildsignale der Eingabe-Bildfolge, beispielsweise der Bildsignale einer Eingabe-Signalfolge, eines der Bilder (5) der Bildfolge (19) oder aller Bilder (5) der Bildfolge (19), - Verschieben und/oder Verdrehen der Bilder (5) der Bildfolge (19) zueinander, um beispielsweise weniger als zwei Bildpunkte oder weniger oder gleich einem Bildpunkt, beispielsweise einem halben Bildpunkt, - Ersetzen eines einzelnen der Ungefärbt-Signale der Eingabe-Signalfolge durch ein Gefärbt-Signal, - Verschieben der Bildsignale von mindestens einem der Bilder (5) der Bildfolge (19) um einen konstanten Wert, - Generieren von kombinierten Signalfolgen durch lineares Kombinieren mehrerer der Signalfolgen (31) verschiedener Analyt-Arten, wobei jede der Analyt-Arten mit einem Analyt-Gewicht in die Summe eingeht und die Zielfunktion vorzugsweise außerdem einen Unterschied zwischen den Analyt-Gewichten und einem bestimmten Signalanteil der jeweiligen Signalkomponente der Signal-Zusammensetzung erfasst, und - Verschieben der Bildsignale der Eingabe-Signalfolge um einen konstanten Wert.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die Eingabe-Signalfolgen mittels einer Transformation in eine transformierte Eingabe-Signalfolge transformiert wird und die transformierte Eingabe-Signalfolge in das Verarbeitungsmodell eingegeben wird, wobei die Transformation insbesondere eine oder mehrere der folgenden umfasst: - eine Hauptkomponentenanalyse, - eine Hauptachsentransformation, - eine Singulärwert-Zerlegung, - eine Normierung, wobei die Normierung ein Normieren der Bildsignale über ein Bild (5) oder ein Normieren der Bildsignale über eine Signalfolge (31) oder beides umfasst.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei der annotierte Datensatz mittels mindestens einem der folgenden Schritte generiert wurde: - Simulieren von Signalen der verschiedenen Marker unter Verwendung eines repräsentativen Hintergrundbildes und einer bekannten Punktspreizfunktion des Mikroskops (2), - Generieren des annotierten Datensatzes mittels eines generativen Modells, das auf vergleichbaren Daten trainiert wurde, - Aufnehmen von Referenzbildern, umfassend mindestens ein Hintergrundbild sowie zu jedem der Hintergrundbilder für jede der Analyt-Arten mindestens ein Bild (5), in dem Analyten (39) der jeweiligen Analyt-Art markiert sind, - Durchführen eines klassischen Verfahrens zur räumlichen Identifizierung von Analyten (39), - Aufnehmen eines repräsentativen Hintergrundbildes und pixelweises Abziehen der Bildsignale des repräsentativen Hintergrundbildes von den Bildsignalen der Bildfolge (19), auf denen der annotierte Datensatz basiert, vor dem Bereitstellen des annotierten Datensatzes, so dass der annotierte Datensatz nur hintergrundkorrigierte Signalfolgen umfasst.
Verfahren zum Bestimmen einer Signal-Zusammensetzung von Signalfolgen (31) einer Bildfolge (19) mit einem Analytdatenauswertesystem (1), wobei die Bildfolge (19) durch Markieren von Analyten (39) mit Markern in mehreren Färberunden und Detektieren der Marker mit einer Kamera (12) erzeugt wird, die Kamera (12) in jeder Färberunde ein Bild (5) der Bildfolge (19) aufnimmt, die Marker so ausgewählt werden, dass Signalfolgen (31) von Analyten (39) in einem Bildbereich (25) über die Bildfolge (19) Gefärbt- und Ungefärbt-Signale umfassen und Signalfolgen (31) verschiedener Analyt-Arten jeweils eine spezifische Reihenfolge an Gefärbt-Signalen und Ungefärbt-Signalen aufweisen, und die verschiedenen Analyt-Arten anhand der spezifischen Reihenfolgen identifiziert werden können, umfassend: - Empfangen von Signalfolgen (31), - Einlesen eines Codebuchs (23), wobei das Codebuch(23) für alle Signalkomponenten eine Sollfolge umfasst, die Sollfolgen Analyt-Sollfolgen umfassen, die Analyt-Sollfolgen eine Abfolge von Wahr- und Falsch-Werten gemäß den spezifischen Reihenfolgen der Signalfolgen (31) der verschiedenen Analyt-Arten aufweisen, und - Bestimmen der Signal-Zusammensetzung für jede der Signalfolgen (31), wobei gemäß der Signal-Zusammensetzung den Signalkomponenten ein Signalanteil an der jeweiligen Signalfolge (31) zugeordnet wird.
Verfahren gemäß Anspruch 18, wobei die Signal-Zusammensetzung anhand einer Signalanteilsfunktion bestimmt wird, wobei die Signalanteilsfunktion einen Unterschied zwischen der Signalfolge (31) und einer Linearkombination mehrerer der Sollfolgen erfasst und das Bestimmen der Signal-Zusammensetzung außerdem umfasst: - Optimieren der Signalanteilsfunktion anhand der Signalanteile.
Verfahren gemäß einem der vorhergehenden Ansprüche 18 oder 19, wobei das Optimieren der Signalanteilsfunktion mittels mindestens einem der folgenden Algorithmen erfolgt: ein klassischer Optimierungsalgorithmus, eine Nicht-Negative-Matrixfaktorisierung, eine Hauptkomponentenanalyse, eine Diskriminanzfunktion, oder eine Singulärwert-Zerlegung.
Verfahren gemäß einem der vorhergehenden Ansprüche 18 bis 20, wobei das Optimieren anhand von vorgegebenen Nebenbedingungen erfolgt.
Verfahren gemäß dem vorhergehenden Anspruch 21, wobei die Nebenbedingungen mindestens eine der folgenden umfassen: - Werte der Signalanteile können nicht negativ sein, - Einträge in den Sollfolgen können nicht negativ sein, - Anzahl der Gefärbt-Signale in einer Sollfolge ist für alle Analyt-Arten im Codebuch (23) vorgegeben, beispielweise als fester Wert oder als Intervall, - Anzahl der Gefärbt-Signale ist für jede der Sollfolgen individuelle vorgegeben.
Verfahren gemäß dem vorhergehenden Anspruch 22, wobei das Optimieren anhand von Regularisierungen erfolgt.
Verfahren gemäß dem vorhergehenden Anspruch 23, wobei die Regularisierungen mindestens eine der folgenden umfassen: - eine vorgegebene maximale Anzahl an verschiedenen Signalkomponenten, - eine erwartete Anzahl von Analyt-Arten, - Beschränkung der Kombinierbarkeit der Analyt-Arten untereinander, - Beschränkung der Optimierung auf dünn besetzte Lösungen.
Verfahren gemäß Anspruch 18, wobei das Bestimmen einer Signal-Zusammensetzung umfasst: - Eingeben der Signalfolgen (31) in ein Verarbeitungsmodell, wobei das Verarbeitungsmodell beispielsweise gemäß einem der Verfahren gemäß Anspruch 1 bis 17 dazu trainiert wurde, eine Ergebnis-Ausgabe bereitzustellen, aus der für jede Signalkomponente der Signalanteil zu der jeweiligen Signalfolge (31) bestimmt wird.
Verfahren gemäß dem vorhergehenden Anspruch 25, wobei das Verarbeitungsmodell ein Klassifikationsmodell ist, die Ergebnis-Ausgabe für jede Signalfolge (31) eine Wahrscheinlichkeitsverteilung (40) über die zu identifizierenden Signalkomponenten ist, die jeweils eine Wahrscheinlichkeit angibt, zu einer der zu identifizierenden Signalkomponenten zu gehören, und der Signalanteil basierend auf der Wahrscheinlichkeitsverteilung (40) bestimmt wird.
Verfahren gemäß dem vorhergehenden Anspruch 25, wobei die Ergebnis-Ausgabe auf einem Multiplizieren einer Schicht-Ausgabe des Verarbeitungsmodells mit einer Analyt-Matrix basiert, wobei die Analyt-Matrix auf den Sollfolgen des Codebuchs (23) basiert, und die Ergebnis-Ausgabe für jede der Signalkomponenten einen Wert liefert, aus dem der Signalanteil bestimmt wird.
Verfahren gemäß Anspruch 27, wobei das Verarbeitungsmodell ein Klassifikationsmodell ist, wobei die Schicht-Ausgabe eine Wahrscheinlichkeitsverteilung (40) umfasst, die jedem Bildsignal einer Signalfolge (31) eine Wahrscheinlichkeit zuordnet, ein Gefärbt-Signal zu sein, die Sollfolgen Bitfolgen sind, die für jedes erwartete Gefärbt-Signal einen Wahr-Wert umfassen und für jedes erwartete Ungefärbt-Signal einen Falsch-Wert, und die Ergebnis-Ausgabe für jede Signalfolge (31) eine Summe der Wahrscheinlichkeitswerte der Schicht-Ausgabe umfasst, die zu einem Wahr-Wert der Sollfolge korrespondieren, und der Signalanteil basierend auf der Summe bestimmt wird.
Verfahren gemäß Anspruch 27, wobei das Verarbeitungsmodell ein Einbettungsmodell ist, das jeweils Einbettungen der Signalfolgen (31) und der Sollfolgen in einen Einbettungsraum bestimmt, sodass die Schicht-Ausgabe eine Ergebnis-Einbettung ist und die Analyt-Matrix auf den Einbettungen der Sollfolgen basiert, wobei das Einbettungsmodell dazu trainiert wurde, Signalfolgen (31) einer bestimmten Analyt-Art und deren korrespondierende Sollfolgen so auf den Einbettungsraum abzubilden, dass die verschiedenen Einbettungen, die zu derselben Signalkomponente korrespondieren, einen möglichst kleinen Abstand im Einbettungsraum aufweisen, die Einbettungen, die zu verschiedenen Signalkomponenten korrespondieren, einen möglichst großen Abstand aufweisen und Einbettungen von Signalfolgen (31) mit Signalanteilen von mehreren Signalkomponenten zu den Einbettungen der jeweiligen mehreren Signalkomponenten möglichst kleine Abstände aufweisen und zu den Einbettungen der übrigen Signalkomponenten einen möglichst großen Abstand aufweisen.
Verfahren gemäß einem der vorhergehenden Ansprüche 25 bis 29, wobei beim Training des Verarbeitungsmodells ein annotierten Datensatz verwendet wurde, der für eine Mehrzahl von zu identifizierenden Analyt-Arten Trainings-Signalfolgen und die korrespondierenden Sollfolgen umfasst, und im Training Trainings-Signalfolgen und korrespondierende Sollfolgen unterschiedlicherer Analyt-Arten linear kombiniert werden, um das Verarbeitungsmodell auch auf gemischte Signalfolgen zu trainieren.
Verfahren gemäß Anspruch 19, wobei das Bestimmen einer Signal-Zusammensetzung umfasst: - Clustern der extrahierten Signalfolgen mittels eines Clusteranalyse-Algorithmus, wobei eine Anzahl an vorgegebenen Clustern mindestens gleich einer Anzahl der Signalkomponenten ist, - Bestimmen, für jedes der Cluster, eines Clusterzentrums, - Bestimmen mindestens eines Soll-Clusterzentrums für jede der Signalkomponenten, basierend auf den Sollfolgen, - Bestimmen, für jedes der Clusterzentren, von Cluster-Abständen des Clusterzentrums zu den Soll-Clusterzentren, und - Zuordnen, basierend auf den Cluster-Abständen, der Cluster zu einer der Signalkomponenten, - Bestimmen für jede der Signalfolgen (31) des Abstandes zu den jeweiligen Clusterzentren, und - Bestimmen des Signalanteils, basierend auf den Abständen.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei jeweils n der Färberunden zu einer Markierungsrunde korrespondieren und jede Analyt-Art nur in einer der n Färberunden einer Markierungsrunde detektiert wird, wobei die n Marker so ausgebildet sind, dass in jeder Markierungsrunde jeweils an jede der Analyt-Arten nur einer der n Marker koppeln und jeder der n Marker in einem anderen Farbkontrast aufgenommen wird und beispielsweise beim Bestimmen der Signal-Zusammensetzung als Randbedingung berücksichtigt wird, dass in nur einer der n Färberunden einer Markierungsrunde ein Analyt (39) mit einem Marker markiert wird.
Verfahren gemäß Anspruch 32, wobei insgesamt n*m Färberunden durchgeführt werden und entsprechend n*m Bilder (5) aufgenommen werden und eine Signalfolge (31) n*m Bildsignale umfasst, wobei jede Analyt-Art in maximal m der Färberunden ein Gefärbt-Signal aufweist und beispielsweise beim Bestimmen der Signal-Zusammensetzung als Randbedingung berücksichtigt wird, dass in nur maximal m der Färberunden ein Analyt (39) mit einem Marker markiert wird.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei in das Bestimmen einer Signal-Zusammensetzung Signalkomponenten-Kontextinformationen eingehen, wobei die Signalkomponenten-Kontextinformation mindestens eines der folgenden umfasst: - Informationen über eine Lage einer Analyt-Art in einer Probe, - Information über eine Anzahl an erwarteten Analyt-Arten, - Informationen über Ko-Lokalisierungen bestimmter Analyt-Arten in bestimmten Bereichen in einer Probe, - Informationen über eine maximale Anzahl von Analyt-Arten in bestimmten Bereichen der Probe - Informationen über einen Hintergrundanteil in verschiedenen Bereichen der Probe.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei das Verfahren vor dem Bestimmen einer Signal-Zusammensetzung noch einen Schritt Durchführen einer Hintergrundkorrektur der Bildsignale der Bildfolge (19) umfasst, wobei das Durchführen der Hintergrundkorrektur eines oder mehrere der folgenden umfasst: - ein Rolling-Ball-Verfahren , - eine Filterung wie beispielsweise ein Top-Hat-Verfahren, eine homomorphe Filterung, eine Tiefpassfilterung, wobei das Ergebnis der Tiefpassfilterung vom Signal abgezogen wird, oder eine zeitliche Filterung, - Hintergrundkorrektur mittels eines Bild-zu-Bild-Modells, - Hintergrundkorrektur mittels Misch-Modellen, - Hintergrundkorrektur mittels eines Mean-Shift Verfahrens, - Hintergrundkorrektur mittels einer Hauptkomponentenanalyse, - Hintergrundkorrektur mittels einer Nicht-Negativen-Matrixfaktorisierung, - Hintergrundkorrektur mittels Anregung der Auto-Fluoreszenz mit mindestens einem spezifischen Laser für alle Bildbereiche (25) der Bildfolge (19), wobei der spezifische Laser gerade einem Anregungs-Spektralbereich einer der verwendeten Marker entspricht und die Analyten (39) nicht mit Markern markiert sind, oder - Hintergrundkorrektur mittels Anregung der Auto-Fluoreszenz mittels eines unspezifischen Lasers für alle Bildbereiche (25) der Bildfolge (19).
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei beim Bestimmen einer Signal-Zusammensetzung für jede der Signalfolgen (31) auch eine Hintergrundkomponente als eine weitere der Signalkomponenten mit einem weiteren Signalanteil eingeht.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei beim Bestimmen einer Signal-Zusammensetzung für jede der Signalfolgen (31) auch eine Rauschkomponente als eine weitere der Signalkomponenten mit einem weiteren Signalanteil eingeht.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei das Verfahren außerdem ein Normieren der Bildsignale umfasst, wobei das Normieren mindestens eines der folgenden umfasst: - Normieren der Bildsignale über ein gesamtes Bild (5), - Normieren der Bildsignale über alle Bilder (5) der Bildfolge (19), - Normieren der Bildsignale über eine Signalfolge(31) - Normieren der Bildsignale über eine Signalfolge (31), so dass relative Signalanteile bestimmt werden, oder - Normieren der Bildsignale, basierend auf einem Farbkontrast der Bildsignale.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die Bildbereiche (25) beispielsweise jeweils nur einen Bildpunkt, eine Fläche von zusammenhängenden Bildpunkten oder ein zusammenhängendes Volumen in einem Bildstapel umfassen, und beispielsweise die Signalfolge (31) ein Tensor ist, der Einträge für jeden der Bildpunkte im Bildbereich (25) und jede der Färberunden umfasst, oder Werte benachbarter Bildpunkte in zusammengefassten Einträgen in den Tensor eingehen.
Verfahren gemäß einem der vorhergehenden Ansprüche, außerdem umfassend Bestimmen einer Bild-Region, das Bestimmen einer Bild-Region umfassend: - Zusammenfassen von benachbarten Bildbereichen (25) zu einer Bild-Region, wenn die benachbarten Bildbereiche (25) Signalfolgen (31) mit den gleichen Signalkomponenten aufweisen, wobei das Zusammenfassen von benachbarten Bildbereichen (25) beispielsweise eine Non-Maximum-Suppression umfasst.
Verfahren gemäß dem vorhergehenden Anspruch 40, wobei das Bestimmen einer Bild-Region außerdem umfasst: Überprüfen der Bild-Regionen, wobei das Überprüfen einer Bild-Region mindestens eines aus den folgenden umfasst: - Auftrennen der Bild-Region in zwei oder mehr Bild-Regionen, wenn die Bild-Region eine Maximal-Größe überschreitet, - Auftrennen der Bild-Region in zwei oder mehr Bild-Regionen, wenn die Bild-Regionen jeweils nur durch einige Brücken-Bildpunkte miteinander verbunden sind und/oder anhand einer Form der Bild-Region erkenntlich ist, dass sich hier zwei Bild-Regionen überschneiden, - Auftrennen der Bild-Region, basierend auf Signalkomponenten-Kontextinformationen, wobei Signalkomponenten -Kontextinformationen beispielsweise umfassen: Informationen über eine Größe einer Bild-Region in Abhängigkeit der Analyt-Art, Informationen über eine Lage einer Bild-Region in einer Probe, Informationen über Co-Lokalisierungen bestimmter Analyt-Arten in bestimmten Bereichen bzw. in einer Lage in einer Probe, erwartete Analyt-Dichten abhängig von einer Lage der Bild-Region in einer Probe; - Verwerfen von Bild-Regionen, wenn eine Bild-Region eine Mindestgröße unterschreitet oder eine Form aufweist, die sicher nicht einer Analyt-Art zugeordnet werden kann.
Verfahren gemäß dem vorherigen Anspruch 41, wobei die Maximal-Größe der Bild-Region abhängig von der Punkspreizfunktion einer Bildgebungseinrichtung gewählt wird.
Verfahren gemäß den Ansprüchen 40 bis 42, wobei das Bestimmen einer Bild-Region außerdem umfasst: - Bestimmen einer Bild-Region-Signalfolge basierend auf den Signalfolgen (31) der Bildbereiche (25), aus denen sich die Bild-Region zusammensetzt, und - das Bestimmen der Signal-Zusammensetzung anhand der Bild-Region-Signalfolge erfolgt und ein Zusammenfassen von Bildsignalen benachbarter Bildbereiche (25) zu einem kombinierten Bildsignal der Bild-Region umfasst.
Verfahren gemäß einem der vorhergehenden Ansprüche 40 bis 43, wobei das Bestimmen einer Bild-Region nach dem Bestimmen einer Signal-Zusammensetzung für jede der Signalfolgen (31) erfolgt.
Verfahren gemäß einem der vorhergehenden Ansprüche 18 bis 44, wobei das Bestimmen einer Signal-Zusammensetzung eine Non-Maximum-Suppression umfasst.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei der Signalanteil einen relativen Anteil des Bildsignals der jeweiligen Signalkomponente an den Bildsignalen der Signalfolge (31) angibt.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei der Signalanteil einen absoluten Anteil des Bildsignals der jeweiligen Signalkomponente an den Bildsignalen der Signalfolge (31) angibt.
Verfahren gemäß einem der vorhergehenden Ansprüche 29 bis 47, wobei nach dem Bestimmen der Signal-Zusammensetzung die bestimmten Signalanteile als Ausgangswerte für das Optimieren einer Signalanteilsfunktion verwendet werden und anschließend mit den Ausgangswerten das Optimieren der Signalanteilsfunktion die Signalanteile erneut mittels des Verfahrens gemäß der Verfahren gemäß den Ansprüchen 19 bis 24 bestimmt.
Verfahren gemäß einem der vorhergehenden Ansprüche 29 bis 48, weiterhin umfassend: - Generieren eines erweiterten annotierten Datensatzes basierend auf den bestimmten Signalanteilen, wobei die Signalanteile vor einem Aufnehmen in den erweiterten annotierten Datensatz verifiziert werden, insbesondere indem die bestimmten Signalanteile der Signalfolgen (31) mit mehreren Signalkomponenten mittels dem Verfahren gemäß den Ansprüchen 19 bis 24 erneut bestimmt und bei Übereinstimmung der bestimmten Signalanteile in den erweiterten Datensatz aufgenommen werden, und - Durchführen des Verfahrens zum Trainieren eines Maschinenlernsystems gemäß einem der Ansprüche 1 bis 18 mit zumindest dem erweiterten annotierten Datensatz als dem annotierten Datensatz.
Verfahren gemäß einem der vorhergehenden Ansprüche 18 bis 49, wobei das Empfangen von Signalfolgen (31) mindestens eines der folgenden umfasst: - Extrahieren aller Bildbereiche (25) der Bildfolge (19), - Extrahieren einer zufälligen Auswahl der Bildbereiche (25) der Bildfolge (19), - Extrahieren einer mit einer strukturellen Eigenschaft der Bildbereiche (25) gewichteten Auswahl der Bildbereiche (25) der Bildfolge (19), beispielsweise mit höherer Wahrscheinlichkeit für Zellen, Zellkerne, Zellzwischenräume und helle Bildpunkte, - Extrahieren von Bildbereichen (25) ausschließlich aus Bildbereichen (25) mit einem Mindestmaß an Bildschärfe, und - Überspringen von Bildbereichen (25),in denen keine Analyten (39) zu erwarten sind.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die Bildfolge (19) zusätzlich noch Kontextinformationen umfasst, die während des Verfahrens verwendet werden, wobei die Kontextinformationen beispielsweise umfassen: - eine Art der Probe, die in den Mikroskopbildern (5) abgebildet ist, - eine Art des Probenträgers (11), der für die Aufnahme des Probenbildes verwendet wurde, beispielsweise ob ein Kammerobjektträger, eine Mikrotiterplatte, ein Objektträger mit Deckglas oder eine Petrischale verwendet wurde, - Bildaufnahmeparameter, wie beispielsweise Informationen über Beleuchtungsstärke, Belichtungsdauer, Filtereinstellungen, Fluoreszenzanregung, Kontrastmethode, oder Probentischeinstellungen, - Informationen über in dem jeweiligen Mikroskopbild (5) enthaltene Objekte, - Anwendungsinformationen, die angeben, für welche Art von Anwendung die Mikroskopbilder (5) aufgenommen wurden, - Informationen über einen Nutzer, der die Bilder (5) aufgenommen hat.
Verfahren gemäß Anspruch 51, wobei das Verarbeitungsmodell aus einem Satz von Verarbeitungsmodellen ausgesucht wird, wobei das Verarbeitungsmodell beispielsweise von Hand ausgewählt wird, automatisch ausgewählt wird, anhand von Kontextinformationen oder anhand einer Probenart, einer Experimentart oder einer Nutzer-ID.
Verfahren gemäß einem der vorherigen Ansprüche 19 bis 52, wobei das Verarbeitungsmodell aus einem Satz von vortrainierten Verarbeitungsmodellen ausgesucht wird, wobei die Auswahl beispielsweise anhand von Kontextinformationen erfolgt, automatisch erfolgt oder von einem Nutzer ausgewählt wird und der Satz von Verarbeitungsmodellen vorzugsweise lokal bei einem Nutzer vorgehalten wird, auf einem Modellkatalog vom Hersteller basiert oder vom Hersteller online vorgehalten wird und das Verarbeitungsmodell insbesondere gemäß einem der vorhergehenden Verfahren 1 bis 18 trainiert worden ist.
Auswerteeinrichtung (4) zum Auswerten von Bildern (5) einer Bildfolge (19), welche insbesondere als Analytdaten-Auswertesystem (1) ausgebildet ist, umfassend die Mittel zur Ausführung des Verfahrens gemäß einem der vorhergehenden Ansprüche.
Bildverarbeitungssystem (1), umfassend eine Auswerteeinrichtung (4) nach dem vorhergehenden Anspruch 54, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).
Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren gemäß einem der vorhergehenden Ansprüche 1 bis 55 auszuführen, das Computerprogrammprodukt ist insbesondere ein computerlesbares Speichermedium.
Analytdaten-Auswertesystem (1), umfassend eine Auswerteeinrichtung (4), wobei die Auswerteeinrichtung (4) ein Verarbeitungsmodell umfasst, das gemäß dem Verfahren gemäß einem der vorhergehenden Ansprüche 1 bis 18 trainiert worden ist, insbesondere umfassend eine Bilderzeugungseinrichtung wie ein Mikroskop (2).