-
Querverweis
auf verwandte US-Anmeldungen
-
Diese
Anmeldung beansprucht die Priorität der vorläufigen US-Anmeldung 60/554,462 "Patientenidentifikation
für klinische
Untersuchungen unter Verwendung von inhaltsbasiertem Erlangen und
Lernen" von Zhou
et al. vom 19. März
2004, deren Inhalte hierin durch Bezugnahme beinhaltet sind.
-
Technischer
Bereich
-
Diese
Erfindung ist auf das Identifizieren von Patienten für klinische
Untersuchungen gerichtet.
-
Diskussion
des Standes der Technik
-
Das
große,
heterogene und ständig
wachsende Volumen von Patientendatenbanken, die Schwierigkeiten
des manuellen Einteilens dieser Sammlungen und die mangelnde Eignung
der menschlichen Sprache alleine, deren reiche Inhalte zu beschreiben,
wie Bildinformationen, die visuell erkennbar und medizinisch bedeutend
sind, liefern alle einen Anstoß für Forschung
und Entwicklung in Richtung von praktischen Systemen zur inhaltsbasierten Bild-
und Informationserlangung (CBIR), die ein übliches Angebot der medizinischen
Bibliothek der Zukunft werden könnten.
Obwohl CBIR zur Unterstützung
der Diagnose während
oder nach klinischen Untersuchungen verwendet wurde, gibt es kein
früheres
Werk, das auf die Anwendung von inhaltsbasierter Erlangung und Lernen
zum Zwecke der Patientenidentifikation für die Rekrutierung vor klinischen Untersuchungen
fokussiert ist.
-
Zusammenfassung
der Erfindung
-
Beispielhafte
Ausführungsformen
der Erfindung, wie sie hierin beschrieben sind, umfassen im Allgemeinen
Verfahren und Systeme für
die Anwendung von CBIR-Techniken zur Patientenidentifikation für klinische
Untersuchungen. Gemäß einer
Ausführungsform
der Erfindung kann ein Patientenidentifizierungsprozess für klinische
Untersuchungen als ein modalitätsübergreifender
inhaltsbasierter Erlangungsprozess modelliert werden, wobei mehrere
Modalitäten
einschließlich
Bildinformationen, genomischen Informationen, klinischen Informationen
und finanziellen Informationen in einem automatischen und halbautomatischen
inhaltsbasierten Erlangungssystem mit Experten in der Schleife integriert
werden. Gemäß einer
Ausführungsform
der Erfindung kann Textinformation mit kategorischen, numerischen
und visuellen Daten kombiniert werden, die klinische, genomische
und finanzielle Informationen sowie Bildinformationen repräsentieren.
Computervisions- und Gerätelernwerkzeuge
können
Deskriptoren oder Merkmale extrahieren, um die visuellen und genomischen
Daten zu repräsentieren.
Ein System gemäß einer
Ausführungsform
der Erfindung kann qualifizierte Patienten aus einer großen, heterogenen
Datenbank auf der Basis des Lernens von Beispielen, die von Experten
ausgewählt
wurden, und von deren entsprechenden Online-Rückmeldungen aufspüren. Das
Online-Lernen aus
der Anwenderrückmeldung kann
für den
Anwender eine größere Flexibilität schaffen,
um auf einfache Weise Patienten auf der Basis verschiedener Kriterien
auszuwählen,
ohne das mühsame
und schwierige Einstellen der Parameter für die Abstandsmaße durch
den Anwender. Der Patientenidentifikationsprozess wird durch Beispielsabfrage,
Abfrage nach Profil/Maske/Skizze und Lernen von der Anwenderrückmeldung
unterstützt. Gemäß einer
Ausführungsform
der Erfindung wird eine Langzeitrückmeldung und ein Lernen von
mehreren Experten unterstützt,
das über
die Verwendung des Erlangungssystems hinweg im Hintergrund ausgeführt werden
kann. Langzeitlernen kann eine automatische und halbautomatische
Kenntnisdarstellung und -entdeckung liefern. Mit ausreichenden Statistiken
können
versteckte Korrelationen oder Abhängigkeiten zwischen den Modalitäten entdeckt
werden und in quantifizierbaren Formen repräsentiert werden. Wenn ein Expertenanwender
am Prozess teilnimmt, kann ein CBIR-System gemäß einer Ausführungsform
der Erfindung nicht nur eine grundlegende Ähnlichkeitssuche unterstützen, sondern
auch das adaptive Online-Abstandsmetrik-Einstellen der Such- und
Erlangungsalgorithmen gemäß der speziellen Anforderung
des derzeitigen Anwenders und der derzeitigen Aufgabe.
-
Gemäß einem
Gesichtspunkt der Erfindung ist ein Verfahren zum Identifizieren
eines Patienten für
eine klinische Studie vorgeschlagen, das die Schritte umfasst, eine
Datenbank von Patienten und Patienteninformationen zu erzeugen,
ein Kriterium zum Auswählen
eines oder mehrerer Patienten aus der Datenbank bereitzustellen,
eine inhaltsbasierte Ähnlichkeitssuche
in der Datenbank durchzuführen, um
den einen oder die mehreren Patienten zu erhalten, die das Auswahlkriterium
erfüllen,
und den ausgewählten
einen oder die mehreren Patienten einem Anwender zu präsentieren.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung weist das Kriterium zum Auswählen des
einen oder der mehreren Patienten den Schritt auf, einer Suchmaschine
einen Beispielpatienten, der für die
Studie geeignet ist, bereitzustellen, wobei das Kriterium aus charakteristischen
Merkmalswerten des Beispielpatienten bestimmt wird.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung weist das Kriterium zum Auswählen des
einen oder der mehreren Patienten den Schritt auf, einer Suchmaschine
eine Mehrzahl von Beispielpatienten, die für die Studie geeignet sind,
bereitzustellen, wobei das Kriterium aus charakteristischen Merkmalswerten
der Mehrzahl von Beispielspatienten bestimmt wird.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung wird die Datenbank erzeugt,
indem Merkmale extrahiert werden, die abstandsbasierte Vergleiche
von wenigstens finanziellen Daten, demographischen Daten, Bilddaten,
klinischen Daten oder genomischen Daten unterstützen.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung umfassen diese Merkmale numerische
Daten und diskrete Informationen, die durch Worte repräsentiert
werden.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung weist die Ähnlichkeitssuche ein Abstandsmaß auf, das
auf dem Auswahlkriterium ausgeführt wird.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung umfasst das Verfahren die Schritte,
Anwenderrückmeldungen
bezüglich
des einen oder der mehreren ausgewählten Patienten entgegenzunehmen,
wobei die Rückmeldung
die Frage betrifft, ob jeder von dem einen oder den mehreren ausgewählten Patienten,
die dem Anwender präsentiert
werden, für die
klinische Studie geeignet ist, die inhaltsbasierte Ähnlichkeitssuche
auf der Basis der Anwenderrückmeldung
zu verbessern, die verbesserte inhaltsbasierte Ähnlichkeitssuche in der Datenbank
durchzuführen,
um einen oder mehrere zusätzliche
Patienten zu erhalten, die das Auswahlkriterium erfüllen, und die
ausgewählten
zusätzlichen
Patienten einem Anwender zu präsentieren.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung weist das Verbessern der inhaltsbasierten Ähnlichkeitssuche
den Schritt auf, Abstandsmaße der
Merkmale, die in der Datenbank gespeichert sind, auszuwählen und
neu zu gewichten.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung weist das Verbessern der inhaltsbasierten Ähnlichkeitssuche
den Schritt auf, diskriminative Dichteschätzer und Kerngerätetechniken
zu verwenden.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung weist das Verbessern der inhaltsbasierten Ähnlichkeitssuche
eine gesteuerte Diskriminanzanalyse auf.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung umfasst das Verfahren den Schritt,
einen oder mehrere zusätzliche
Patienten auszuwählen, wobei
die inhaltsbasierte Ähnlichkeitssuche
keine Sicherheit darüber
gibt, ob die zusätzlichen
Patienten das Auswahlkriterium erfüllen.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung umfasst das Verfahren den Schritt,
statistische Analyse zu verwenden, um konsistente versteckte Informationen
und Abhängigkeiten
unter Schlüsselwörtern und
Schlüsselmerkmalen
innerhalb der Datenbank zu bestimmen.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung werden die Schritte des Entgegennehmens
von Anwenderrückmeldungen,
des Lernens von den Rückmeldungen,
des Durchführens
einer verbesserten inhaltsbasierten Ähnlichkeitssuche und des Präsentierens
der ausgewählten
zusätzlichen Probanden
wiederholt, bis eine ausreichende Auswahl von Probanden für die klinische
Studie ausgewählt
ist.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung ist eine computerlesbare Programmspeichervorrichtung
vorgesehen, die ein von dem Computer ausführbares Befehlsprogramm verkörpert, um die
Verfahrensschritte zum Identifizieren eines Patienten für eine klinische
Studie durchzuführen.
-
Kurze Beschreibung der
Zeichnungen
-
1 zeigt
ein Diagramm eines Systems, das eine inhaltsbasierte Erlangung zur
Patientenidentifikation für
klinische Untersuchungen gemäß einer
Ausführungsform
der Erfindung darstellt.
-
2 zeigt
Entscheidungsflächen,
die unter Verwendung von drei verschiedenen Kerngeräten gemäß einer
Ausführungsform
der Erfindung berechnet wurden.
-
3 gibt die Ergebnisse eines simulierten Experiments
zum Langzeitlernen aus mehreren Sitzungen von Anwenderrückmeldungen
gemäß einer Ausführungsform
der Erfindung wieder.
-
4 zeigt ein Ablaufdiagramm eines Relevanz-Rückmeldungsverfahrens
gemäß einer
Ausführungsform
der Erfindung.
-
5 ist ein Blockdiagramm eines beispielhaften
Computersystems zum Implementieren eines CBIR-Systems gemäß einer
Ausführungsform
der Erfindung.
-
Detaillierte
Beschreibung der bevorzugten Ausführungsformen
-
Beispielhafte
Ausführungsformen
der Erfindung, wie sie hier beschrieben werden, umfassen im Allgemeinen
Systeme und Verfahren zur Patientenidentifikation für klinische
Untersuchungen unter Verwendung von inhaltsbasiertem Erlangen und
Lernen. Zum Zwecke der Klarheit sind nicht alle Merkmale einer tatsächlichen
Implementierung, die einem Fachmann wohl bekannt sind, hier detailliert
beschrieben.
-
Ein
System zum inhaltsbasierten Erlangen und Lernen gemäß einer
Ausführungsform
der Erfindung kann eine automatische Patientenidentifikation liefern,
die Kenntnis und Intelligenz einbezieht. Mit Intelligenz ist die
Verwendung von Gerätelern-,
Bildverarbeitungs- und Computervisions-Algorithmen für die Merkmalsextraktion aus
genomischen Daten, Bildern oder Bildfolgen gemeint, so dass Bewertungen nicht-numerischer und nicht-kategorischer
Informationsquellen durch Geräte
analysiert werden können. Mit
Kenntnis ist die Anwendung von künstlicher
Intelligenz und Gerätelernwerkzeugen
zum Extrahieren quantitativer Abhängigkeiten unter verschiedenen Datenmodalitäten und
Krankheitskategorien, entweder aus den Daten oder aus Relevanz-Rückmeldungslernprozessen,
gemeint. Diese Abhängigkeiten können eine
neue Kenntnis darstellen, oder eine bekannte Kenntnis, aber in einer
verstärkt
quantitativen Form.
-
Ein
Erlangungssystem für
die Patientenidentifikation gemäß einer
Ausführungsform
der Erfindung kann Module zum Durchführen der folgenden Funktionen
umfassen: (1) Inhaltsextraktion und -darstellung; (2) Patientenauswahl
durch inhaltsbasierte Ähnlichkeitssuche;
(3) Anwenderrückmeldung
und Online-Lernen; und (4) Langzeit-Lernen aus Anwendereingaben und Rückmeldungen.
-
1 stellt
ein Blockdiagramm dar, das ein inhaltsbasiertes Erlangungssystem 100 zur
Patientenidentifikation für
klinische Untersuchungen zeigt, das Informationen von mehreren Modalitäten mit Kurzzeit-
und Langzeit-Lernen von Expertenrückmeldungen gemäß einer
Ausführungsform
der Erfindung zusammenfasst. Bezug nehmend auf die Figur ist ein erster
Schritt in Richtung einer vereinheitlichten Suche unter Verwendung
von heterogenen Informationsquellen gemäß einer Ausführungsform
der Erfindung, Merkmale zu extrahieren, die abstandsbasierte Vergleiche
von allen Quellen unterstützen,
und sie in einen metrischen Raum zu setzen. Diese Informationen
werden in einer Datenbank 103 kompiliert und umfassen finanzielle,
demographische, klinische und genomische Daten sowie Bilddaten.
Im Falle von Bildern können
solche Merkmale Farbe, Textur, Form, Geometrie oder Bewegung von
anatomischen Strukturen und Objekten in medizinischen Bildern oder Folgen
von Bildern umfassen. Ein Beispiel einer Bildgebungsmodalität ist die
Echokardiographie, von der ein Beispiel in 1 dargestellt
ist, wobei die Anforderungen einer potenziellen visuellen Merkmalsextraktion
eine automatische Grenzdetektion sowie Bewegungsverfolgung und Klassifizierung
umfassen. Klinische Daten wie Alter, Geschlecht und Krankengeschichte
können
einen Einfluss auf den Patientenauswahlprozess haben. Um numerische
und diskrete Informationen, die durch Worte repräsentiert werden, einzubinden,
können
Techniken wie Informationsverschmelzung, Zusammenballung und Modellierung
in gemeinsamen Wort- und Merkmalsräumen, das Kombinieren latenter
semantischer Inhalte von Textdokumenten zusammen mit visuellen Statistiken,
das Verknüpfen
von Wörtern
mit Bildern, um ein semantisches Netzwerk von Schlüsselbegriffen
aufzubauen, um eine Erlangung in einem gemeinsamen Raum zu unterstützen, und
das Lernen von Wortassoziationen von Relevanz-Rückmeldungen aus mehreren Sitzungen
mit mehreren Anwendern in ein CBIR-System gemäß einer Ausführungsform
der Erfindung aufgenommen werden.
-
Sobald
eine geeignete Datenbank bereitsteht, würde ein Arzt, der eine klinische
Untersuchung plant, ein Zielpatientenprofil 101 bestimmen, das
für die
geplante Untersuchung geeignet ist, zusammen mit einem oder mehreren
Beispielen von Patienten, die in dieses Profil passen. Die inhaltsbasierten
Such- und Erlangungsalgorithmen von Bildern und Informationen gemäß einer
Ausführungsform
der Erfindung können
eine Suche und ein Erlangen auf der Basis einer Beispielsabfrage
umfassen, oder eine Suche und ein Erlangen auf der Basis einer Abfrage
nach Profil/Maske/Skizze. In einem Szenario einer Beispielsabfrage
gibt ein Anwender einen Beispielpatienten, der die gewünschten
Kriterien erfüllt, in
die Suchmaschine ein, während
bei einem Szenario einer Abfrage nach Profil/Maske/Skizze ein Anwender
eine Mehrzahl geeigneter Patienten in die Suchmaschine eingeben
kann. Ein CBIR-System gemäß einer
Ausführungsform
der Erfindung kann geeignete Auswahlkriterien aus den charakteristischen Merkmalswerten
des Beispiels (oder der Beispiele), die bereitgestellt wurden, entnehmen.
Alternativ kann ein Anwender einen Wert oder einen Bereich von Werten
für eine
oder mehrere Eigenschaften eines oder mehrerer geeigneter Patienten
liefern, beispielsweise einen Durchschnittswert und eine Standardabweichung
für eine
Eigenschaft einer Verteilung von Patienten. Ein anfängliches
Erlangungsergebnis für
die Patientenauswahl basiert auf einer direkten Ähnlichkeitsabbildung zwischen
dem Eingang, d.h. den Eigenschaften der Patienten, die als Beispiele
eingegeben wurden, und diesen Patienten in der Datenbank. Das anfängliche
Abstandsmaß kann
jedes beliebige Abstandsmaß sein,
wie ein Euklidscher Abstand, ein gewichteter Euklidscher Abstand,
ein Mahalanobis-Abstand, oder im Falle einer Abfrage nach Profil/Maske/Skizze,
bei der der Deskriptor eine Verteilung sein kann, kann das anfängliche
Abstandsmaß eine
KL-Divergenz, ein Histogrammschnitt oder eine Earth Movers Distance
etc. sein. Diese Abstandsmaße
sind beispielhaft, und andere Abstandsmaße, die aus dem Stand der Technik bekannt
sind, liegen innerhalb des Bereichs der Ausführungsform der Erfindung. Die
Probanden, die zum Anwender zurückgegeben
werden, werden im Falle einer Beispielsabfrage diejenigen Probanden
sein, die entweder exakt mit dem Beispiel übereinstimmen oder bezüglich einiger
Nähekriterien,
die vom Anwender vorgegeben werden, nahe an das Beispiel herankommen.
Im Falle einer Abfrage nach Profil/Maske/Skizze werden Probanden
innerhalb der vorgegebenen Bereiche zum Anwender zurückgegeben.
-
In 1 führt eine
Beispielsabfrage 102 an die Datenbank 103 eine
Suche und ein inhaltsbasiertes Bild- und Informationserlangen 104 durch,
wie diejenigen, die oben beschrieben wurden, um eine Menge ähnlicher
Patienten 105 zu liefern. Diese Menge von Patienten kann
durch Expertenrückmeldung 106 weiter
verfeinert werden, um eine Auswahl von Patienten 107 für die klinische
Untersuchung zu liefern. Das System kann Lernen mit Relevanzrückmeldung 108, wie
es unten beschrieben ist, verwenden, um die Suche und das inhaltsbasierte
Bild- und Informationserlangen 104 zu verbessern und zu
aktualisieren.
-
Gemäß einer
Ausführungsform
der Erfindung kann die Anwenderinteraktion den Patientenauswahlprozess
verbessern, um eine bessere Abstimmung auf die Absichten und Notwendigkeiten
der Ärzte,
die die Untersuchung durchführen,
herzustellen. Dies kann durch Techniken erreicht werden, die hierin
als Relevanz-Rückmeldung
bezeichnet werden. Relevanz-Rückmeldung
kann jede Aufgabe als unterschiedlich behandeln, da selbst für dieselbe
Untersuchung ein Forscher Patienten unter Verwendung unterschiedlicher
Kriterien auswählen
können sollte.
Obwohl derzeitige CBIR-Systeme Schnittstellen für einen Anwender liefern, um
Gewichtungen auf verschiedene Merkmale per Hand zu regeln, um solche
Anforderungen zu unterstützen,
ist das Ähnlichkeitsmaß im Kopf
des Forschers oft nicht leicht durch exakte Gewichtungen von Systemparametern
auszudrücken.
Zusätzlich
muss die vom Forscher wahrgenommene Ähnlichkeit auch nicht durch
ein lineares Gewichtungsschema auszudrücken sein, das eine Merkmalsunabhängigkeit
voraussetzt, die in der Realität
nicht wahr sein muss.
-
Ein
Ablaufdiagramm eines Relevanz-Rückmeldungsverfahrens
gemäß einer
Ausführungsform der
Erfindung ist in 4 dargestellt. Einem
Anwender wird in Schritt 401 eine Auswahl eines oder mehrerer
Patienten für
eine geplante Untersuchung präsentiert,
und er wird nach einer Rückmeldung
gefragt, welche Patienten geeignet sind und welche nicht. Diese
Patienten könnten
diese sein, die gemäß dem Schritt 104 der
Suche und des inhaltsbasierten Bild- und Informationserlangens aus 1 ausgewählt wurden.
Anstatt den Anwender zu bitten, Gewichtungen im Patientenbeispiel
oder dem Patientenprofil fein abzustimmen, kann ein Anwender gebeten
werden, bei Schritt 402 anzugeben, welche von den derzeitig
empfohlenen Patienten, die gerade präsentiert werden, geeignet sind
und welche nicht. Das CBIR-Verfahren kann die Eingabe des Anwenders bei
Schritt 403 verwenden, um die Techniken der Suche und des
inhaltsbasierten Bild- und Informationserlangens, die zur Auswahl
möglicher
Patienten aus der Datenbank verwendet werden, zu verbessern und
zu aktualisieren. Mögliche
Algorithmen zum Verbessern der Techniken der Suche und des inhaltsbasierten
Bild- und Informationserlangens umfassen jeweils einfache Techniken,
die die Achsen des Merkmalsraums auswählen und neu gewichten, um
positive Rückmeldungen
unter Verwendung der gewichteten Euklidschen Distanz oder anderer
Abstandsmaße
zu maximieren, oder auch fortschrittlichere Techniken, die Kerngeräte und Entscheidungsdichteschätzer, wie
ein Einklassen-Unterstützungsvektor-Gerät und eine
gesteuerte Diskriminanzanalyse, umfassen. Diese fortschrittlicheren
Techniken sind hilfreich bei der Handhabung von Situationen mit
wenigen Anwenderbeispielen, wie unten beschrieben wird.
-
In
Schritt 403 verwendet das System die verbesserte Suche
und das inhaltsbasierte Bild- und Informationserlangen, um eine
neue Probe möglicher Untersuchungspersonen
auszuwählen.
Das System kehrt anschließend
zu Schritt 401 zurück,
um dem Anwender die neue Auswahl zu präsentieren. Diese neuen Probebeispiele
repräsentieren
ein System, das von einer Anwenderrückmeldung lernen kann und geben
mehr Fälle
zurück,
die gemäß der Rückmeldung
eine gute Übereinstimmung
liefern. Dieses Rückmeldeverfahren
kann so oft wie nötig
wiederholt werden, bis eine ausreichende Patientenbeispielsmenge
für die
Untersuchungen ausgewählt
ist.
-
Die
eben dargestellten Relevanz-Rückmeldungstechniken
beinhalten die Anwendung von Online-Anwenderinteraktionen. Solche
Anwenderinteraktionen liefern typischerweise eine relativ geringe Anzahl
von Trainingsbeispielen, gewöhnlich
in der Größenordnung
von Dutzenden im Vergleich zu hunderten oder tausenden für Offline-Training.
Diese geringe Trainingsbeispielprobe kann zwei Schwierigkeiten in
einem statistischen Lernrahmen bewirken: Die Lenkung in den Dichteschätzungen
und die Asymmetrie in der Repräsentationskraft
für unterschiedliche
Klassen. Die Asymmetrie in der Repräsentationskraft bedeutet, dass
eine geringe Anzahl von Beispielen die positive und negative Klasse
nicht gut genug darstellen kann, und in den meisten Fällen ist eine
deutlich schlechter als die andere. Beispielsweise stellen fünf Pferde
die Klasse "Pferd" viel besser dar
als fünf
Beispiele von Tieren außer
Pferden die Klasse "nicht
Pferd" repräsentieren.
Eine Technik zum Behandeln von geringen Beispielsproben ist die gelenkte
Diskriminanzanalyse (BDA), ein Kerngerät auf der Basis eines diskriminativen
Dichteschätzers. 2 zeigt
einen Vergleich zwischen drei Kerngeräten, die im Stand der Technik
des statistischen Lernens bekannt sind, anhand eines einfachen,
künstlichen
Beispiels. Die getesteten Kerngeräte sind BDA, Kerndiskriminanzanalyse
(KDA) und Unterstützungsvektorgerät (SVM),
die jeweils in den Abbildungen (a) und (d), (b) und (e) bzw. (c)
und (f) dargestellt sind. Bezug nehmend auf die Figur sind die Entscheidungsflächen von
BDA, KDA und SVM gezeigt. Die offenen Kreise stellen positive Beispiele
dar und die Kreuze negative Beispiele. Die Graustufe gibt die Nähe zum positiven
Schwerpunkt im nicht-linear transformierten Raum an: je heller,
desto näher.
Bei einer Überanpassungs-skalierung
(σ = 0,01),
die in den Figuren (a)–(c)
dargestellt ist, sind die drei Kerngeräte ähnlich. Überanpassung bedeutet, dass
der Algorithmus für
alle Daten im Trainingssatz gut arbeitet, aber für nicht gesehene Testdaten
schwach arbeitet. Bei einer verbesserten Skalierung (σ = 0,1), die
in den Figuren (d)–(f)
abgebildet ist, trennen SVM und KDA jedoch positiv von negativ,
aber teilen der positiven Klasse große unbekannte Bereiche zu, während BDA
sie um die positiven Punkte herum beschränkt, während immer noch Entscheidungskraft zurückbehalten
wird.
-
Ein
anderer Gesichtspunkt von Relevanz-Rückmeldung gemäß einer
Ausführungsform der
Erfindung sind aktive Lerntechniken. Aktives Lernen bezieht sich
auf eine Strategie für
den Lerner (d.h. das Gerät),
um aktiv Beispielsproben auszuwählen,
um einen Lehrer (d.h. den Anwender) nach Rückmeldungen zu fragen, um Informationsgewinn zu
maximieren oder Entropie/Unsicherheit im Treffen der Entscheidung
zu minimieren. Aktives Lernen kann effizientere und intelligentere
Anwenderinteraktionen liefern. Wieder Bezug nehmend auf 4 ist es eine Implementierung des aktiven
Lernens in einer Relevanz-Rückmeldungstechnik
gemäß einer
Ausführungsform
der Erfindung, dem Anwender bei Schritt 401 nicht nur die
am besten geeigneten Patienten zu präsentieren, sondern auch Patienten, über die
das System in Unsicherheit ist, so dass das System maximal seine
Auswahlkriterien verbessern kann, nachdem es vom Anwender in Schritt 402 über diese
unsicheren Fälle
eine Rückmeldung
erhalten hat. Diese Patienten könnten
diejenigen Patienten sein, deren Merkmalsähnlichkeitsabstandsmaße nicht
ausreichend nahe liegen, um automatisch in einem anfänglichen
Erlangen eingeschlossen zu sein, aber auch nicht ausreichend weit
entfernt sind, um mit vollem Vertrauen ausgeschlossen werden zu können. Diese
unsicheren Fälle
könnten
beispielsweise diejenigen sein, deren Merkmalsähnlichkeitsabstände genau
außerhalb
des Bereichs eines vom Anwender bestimmten Kriteriums oder Ausschnitts liegen.
In anderen Fällen
könnten
diese unsicheren Fälle
Patienten sein, bei denen einige Merkmalswerte innerhalb dieser
Merkmalswerte der Beispiele liegen, die anfänglich durch den Anwender spezifiziert werden,
während
andere Merkmalswerte außerhalb der
vom Anwender gelieferten Beispiele liegen.
-
Während der
Langzeitanwendung eines Erlangungssystems einer Ausführungsform
der Erfindung weist jede Anwendereingabe und -rückmeldung wertvolle Informationen
auf. Gemäß einer
Ausführungsform
der Erfindung kann das Langzeitlernen von mehreren Experten über einen
Zeitraum einbezogen werden, indem statistische Analyse verwendet wird,
um konsistente versteckte Informationen und Abhängigkeiten unter den Schlüsselwörtern und
den Schlüsselmerkmalen
innerhalb der Datenbanken zu identifizieren. Ein solches Langzeitlernen
kann als Nebenprodukt unübliches
oder veränderliches
Verhalten/Vorgehen von Seiten eines Anwenders anzeigen. Unter Anleitung
von Experten können
Langzeit-Relevanz-Rückmeldungswerkzeuge
fortschrittliche Forschungsaktivitäten in Richtung der Entdeckung
neuer Krankheitsmuster/-trends und Wechselwirkungen oder Effekten
von Arzneimitteln erleichtern. Gemäß einer Ausführungsform
der Erfindung umfasst eine Implementierung für das Langzeitlernen einen
oder mehrere Prozesse, die durch die Verbesserung und die Aktualisierung
der Suche und der inhaltsbasierten Bild- und Informationserlangungstechniken
aus Schritt 403 in 4 aufgerufen
werden. Diese Prozesse können
im Hintergrund ablaufen, ohne Eingabe vom Anwender oder ohne dessen Kenntnis.
-
Simulationen
haben die Durchführbarkeit
eines solchen Langzeitlernens gezeigt. Die Ergebnisse eines simulierten
Experiments hinsichtlich des Langzeitlernens aus mehreren Sitzungen
von Anwenderrückmeldungen
sind in 3 dargestellt. Bezug nehmend
auf die Figur ist eine Konzeptähnlichkeitsmatrix
für ein
30-Wort-Wörterverzeichnis
und eine Datenbank mit 5000 Bildern mit bis zu 3 Schlüsselwörtern pro
Bild dargestellt. 3(a) zeigt die Konzeptähnlichkeitsmatrix
nach 5 Trainingsrunden; 3(b) nach
20 Trainingsrunden; 3(c) nach
80 Trainingsrunden; und 3(d) zeigt
die entsprechende ebene Ansicht der Bodenwahrheit. Diese Ergebnisse zeigen,
dass nach lediglich 20 Trainingsrunden die Konzeptabhängigkeitsmatrix
(3b) bereits der simulierten Bodenwahrheit (3d)
sehr ähnelt. Ähnliche
Ergebnisse wurden für
ein Wörterbuch
mit 1000 Wörtern
erhalten.
-
Es
soll klar sein, dass die vorliegende Erfindung in verschiedenen
Formen von Hardware, Software, Firmware, Spezialzweckprozessen oder
einer Kombination hiervon implementiert sein kann. In einer Ausführungsform
kann die vorliegende Erfindung in Software als ein Anwendungsprogramm
implementiert sein, das auf einer computerlesbaren Programmspeichervorrichtung
verkörpert
ist. Das Anwendungsprogramm kann auf ein Gerät geladen und von diesem ausgeführt werden,
das eine beliebige geeignete Architektur aufweist.
-
Bezug
nehmend auf 5 kann gemäß einer
Ausführungsform
der vorliegenden Erfindung ein Computersystem 501 zum Implementieren
der vorliegenden Erfindung unter anderem eine zentrale Prozessoreinheit
(CPU) 502, einen Speicher 503 und eine Eingangs-/Ausgangs(I/O)-Schnittstelle 504 aufweisen.
Das Computersystem 501 ist im Allgemeinen über die
I/O-Schnittstelle 504 mit
einem Display 505 und verschiedenen Eingabevorrichtungen 506,
etwa einer Maus und einer Tastatur verbunden. Das Computersystem 501 ist
auch mit einer Datenbank 508 verbunden. Die Datenbankverbindung
kann über
ein Computernetzwerk, beispielsweise ein lokales Netzwerk einschließlich eines
drahtlosen Netzwerks, oder über
ein globales Netzwerk wie das Internet oder ein aufzurufendes Netz
vorliegen. Die Unterstützungsschaltungen
können
Schaltungen wie Cache, Stromversorgungen, Taktgeberschaltungen und
einen Kommunikationsbus umfassen. Der Speicher 503 kann
einen Schreib-Lese-Speicher (RAM), einen Lesespeicher (ROM), ein
Diskettenlaufwerk, Kaskettenlaufwerk etc. oder eine Kombination
hiervon umfassen. Die vorliegende Erfindung kann als eine Routine 507 implementiert
sein, die im Speicher 503 gespeichert und durch die CPU 502 ausgeführt wird,
um die Informationen von der Datenbank 508 zu verarbeiten.
Als solches ist das Computersystem 501 ein Allzweckcomputersystem,
das zu einem Computersystem für
einen speziellen Zweck wird, wenn die Routine 507 der vorliegenden
Erfindung ausgeführt
wird.
-
Das
Computersystem 501 umfasst auch ein Betriebssystem und
einen Mikrobefehlscode. Die verschiedenen Prozesse und Funktionen,
die hier beschrieben werden, können
entweder Teil des Mikrobefehlscodes oder Teil des Anwendungsprogramms
(oder einer Kombination hiervon), das über das Betriebssystem ausgeführt wird,
sein. Zusätzlich können verschiedene
andere Peripheriegeräte
an die Computerplattform angeschlossen sein, etwa eine zusätzliche
Datenspeichervorrichtung und ein Drucker.
-
Es
soll weiterhin klar sein, dass, weil einige der systembildenden
Komponenten und Verfahrensschritte, die in den begleitenden Zeichnungen
dargestellt sind, in Software implementiert sein können, die tatsächlichen
Verbindungen zwischen den Systemkomponenten (oder die Verfahrensschritte)
sich abhängig
von der Art und Weise unterscheiden können, in der die vorliegende
Erfindung programmiert ist. Bei Kenntnis der Lehre der vorliegenden
Erfindung, wie sie hier geliefert wird, wird ein Fachmann in der
Lage sein, diese und ähnliche
Implementierungen oder Konfigurationen der vorliegenden Erfindung
zu berücksichtigen.
-
Die
oben offenbarten besonderen Ausführungsformen
sind lediglich illustrativ, da die vorliegende Erfindung in verschiedenen,
aber äquivalenten Weisen
modifiziert und ausgeführt
werden kann, die einem Fachmann bei Berücksichtigung der hier beschriebenen
Lehre offensichtlich sind. Außerdem
sollen keine Einschränkungen
hinsichtlich der Details der Konstruktion oder der Ausgestaltung,
wie sie hier beschrieben sind, beabsichtigt sein, außer wie
sie in den beigefügten
Ansprüchen
beschrieben sind. Es ist daher klar, dass die besonderen Ausführungsformen, die
oben beschrieben wurden, verändert
oder modifiziert werden können,
und dass alle diese Veränderungen
im Schutzumfang der Erfindung berücksichtigt sind. Dementsprechend
soll der beanspruchte Schutz durch die beigefügten Ansprüche definiert sein.
-
Zusammenfassung
-
Ein
Verfahren zum Auswählen
eines Probanden für
eine klinische Studie umfasst die Schritte, ein Kriterium (101)
zum Auswählen
eines oder mehrerer Probanden aus einer Datenbank (103)
bereitzustellen, eine inhaltsbasierte Ähnlichkeitssuche (104)
in der Datenbank durchzuführen,
um Probanden zu erhalten, die das Auswahlkriterium erfüllen, die
ausgewählten
Probanden einem Anwender zu präsentieren (105),
und Anwenderrückmeldungen
(106) hinsichtlich der ausgewählten Probanden entgegenzunehmen.
Die Rückmeldung
kann die Frage betreffen, ob jeder der ausgewählten Probanden, die dem Anwender
präsentiert
werden, für
die klinische Studie geeignet ist. Das Verfahren umfasst auch die
Schritte, aus der Rückmeldung
(107) zu lernen, um die inhaltsbasierte Ähnlichkeitssuche
zu verbessern, eine verbesserte inhaltsbasierte Ähnlichkeitssuche (104)
in der Datenbank (103) durchzuführen, um zusätzliche
Probanden zu erhalten, die das Auswahlkriterium erfüllen, und
die zusätzlichen
Probanden dem Anwender zu präsentieren
(105).