-
Gegenstand
der vorliegenden Erfindung ist ein Verfahren zur Entwicklung eines
Biomarkers zur Prognose des Ergebnisses einer therapeutischen Behandlung
anhand von Daten klinischer Studien.
-
Die
Identifizierung von prediktiven Biomarkern aus Patientendaten ist
für die
Weiterentwicklung von medikamentösen
Therapien in Richtung einer personalisierten Medizin eine unerlässliche
Vorbedingung. Der Begriff Biomarker bezeichnet dabei nicht nur direkt
gemessene biologische Parameter aus der klinischen Diagnose, Gendiagnostik
etc., sondern auch Rechenverfahren, die es erlauben, aus geeigneten
Kombinationen einer größeren Anzahl von
gemessenen Werten von unterschiedlichen biologischen Parametern
eine Diagnose zu stellen bzw. eine Prognose für die klinische Response auf
eine Therapie zu berechnen. Das Auffinden solcher komplexer Biomarker
wird in der Praxis oft durch die große Vielfalt an möglichen
biologischen Parametern, die oft die Zahl der Probanden in klinischen
Studien deutlich übertrifft,
mit den gängigen
Verfahren extrem unsicher oder gar unmöglich. Diese Problematik ist
in der Mustererkennung unter dem Stichwort "Fluch der Dimensionalität" wohlbekannt und
lässt sich
nur sehr beschränkt
durch eine Vergrößerung der
Probandenkohorten kurieren.
-
Etablierte
Methoden, um dieses Problem zu umgehen, sind Cross-validation und
Bootstrapping (M. Berthold, D.J. Hand, Intelligent Data Analysis, Springer,
Heidelberg 1999, s. 56–57).
Diese Methoden verhindern in wirksamer Weise eine übertriebene Restriktion
von Parametern, erlauben aber nur geringe Komplexität in den
Kombinationen von Parametern, die zur Identifikation eines potentiellen
Biomarkers geprüft
werden könnten,
und erlauben deswegen nicht das volle Potential einer genomischen, trancriptomischen
und proteomischen Datenmenge zur Diagnose von komplexen Krankheiten
oder Prognose von Reaktionen gegenüber therapeutischen Behandlungen
auszuwerten.
-
Eine
etablierte Methode, um die Bedeutung eines Biomarkers zu beurteilen,
ist die Analyse des unterlegenden Mechanismus und der Struktur des Systems.
Wenn die Strukturparameter des Systems bekannt sind, kann die Prognosezuverlässigkeit
des Models deutlich verbessert werden (A. Schuppert. Extrapolability
of structured hybrid models: A key to optimization of complex processes.
In B. Fiedler et al., editor, International Conference on Differential Equations,
pages 1135–1151.
World Scientific Publ., Singapore, 2000; B. Fiedler, A. Schuppert,
Local Identification of scalar hybrid models with tree structure,
preprint, FU Berlin, 2004). In WO 03/042702 A1 wird eine Methode
beschrieben, die eine Quantifizierung der Interaktion unabhängig ist
aber trotzdem eine große
Datenmenge und die Interaktionen zwischen Parametern in Form eines
Baumes immer noch benötigt.
Weitere Methode erfordern wiederum keine Darstellung der Interaktionen
in Form eines Baumes aber dann eine Quantifizierung der Interaktionen
(J.J. Rice, G. Stolovitzky, Making the most of it: pathway reconstruction
and integrative simulation using the data at hand, DDT: BIOSILICO,
Vol. 2, No. 2, March 2004, 70–77).
-
Diese
Methoden dienen zur Analyse von Interaktionsnetzwerke zwischen gleich
hierarchischen Ebenen, d.h. Gene-Gene Interaktionsnetzwerke oder Protein-Protein
Netwerke, sie sind aber zur Identifikation von Interaktionsnetzwerke
zwischen genomischen Parametern und klinischen Daten nicht geeignet.
In Folge dessen fehlen immer noch Strukturellen Daten über genombasierte
Biomarker für
klinische Anwendungen.
-
J.
Pittmann und al. (J. Pittman et al., Integrated modeling of clinical
and gene expression information for personalized prediction of disease
outcomes, PNAS June 1, 2004, Vol. 101, no.22, 8431–8436) haben
neulich eine deutliche Verbesserung bei der Ermittlung des Wiederholungsrisikos
bei Brustkrebs durch die Kombination von Gene Expression Markers
und klinischen diagnostischen Parametern erreicht. Die Aussagekraft
eines Biomarkers zur Prognose der klinischen Wirkung konnte durch
die Integration von genomischen und klinischen Daten in einem komplexen
Biomarker deutlich verbessert werden. Die Datenstruktur wurde bei
diesem Ansatz aber komplexer und das Risiko bei der Analyse von „overffitting" oder Zuverlässigkeitsverluste
erhöht.
In dem beschriebenen Fall wurden diese Risiken durch die Verbesserung
der Qualität
des Markers deutlich kompensiert, was aber nicht immer der Fall
sein muss.
-
Ein
systematisches Verfahren zur Entwicklung solcher Biomarker aus den
Daten klinischer Studien, das eine deutlich niedrigere Komplexität als die gängigen Verfahren
erlaubt, wäre
daher wünschenswert,
um dem Arzt genauere diagnostische Hilfsmittel für die individuelle Response
der Patienten auf eine medikamentöse Therapie zu geben.
-
Die
Aufgabe wird durch eine systematische, hierarchische Untergruppensuche
mit einer Hierarchisierung der Parametertypen gelöst. Bei
der vorliegenden Erfindung werden komplexe Biomarker durch die sequenzielle
Kombination von klinischen und genomischen Daten bereitgestellt.
Mit der sequenziellen Kombination wird die Erhöhung der Komplexität der Datenstruktur
in Grenze gehalten und überraschenderweise
das „overffitting" Risiko minimiert.
-
Gegenstand
der vorliegenden Erfindung ist daher ein Verfahren zur Entwicklung
eines Biomarkers zur Prognose des Ergebnisses einer therapeutischen
Behandlung anhand von Daten klinischer Studien, wobei die von der
Therapie unveränderten
Daten in diagnostischen und genomischen Parameter geteilt werden,
und der Marker durch eine Kombination von Parametern definiert wird,
dadurch gekennzeichnet dass,
- a. der maximale
Anzahl von Parameter zu Definition des Markers und hiermit die maximale
Komplexität
des Systems von Anfang an festgelegt wird,
- b. die Suche nach definierenden Parametern durch sequenzielle
Kombination von klinischen Parameter (= z-Parameter) und/oder genomischen
Parameter (= x-Parameter) erfolgt.
-
In
einem ersten Schritt wird auf Basis allein der klinisch – diagnostischen
Parameter Untergruppen gesucht, die statistisch signifikant eine
scharfe Bildung von Untergruppen von Probanden mit eindeutigem Phänotyp zulassen.
Diese Probandengruppe wird von der Gesamtkohorte abgetrennt.
-
Für die übrigen Probanden
werden klinische Parameter gesucht, die durch Kombination mit der Genotypisierung
auf einem einzelnen Gen ebenfalls wieder eine eindeutige Prognose
zulassen.
-
Für diejenigen
Probanden, die in den ersten beiden Schritten nicht analysiert werden
konnten, wird ein hybrides Modell erstellt, das durch Kombination
der Genotypisierung von mehreren Genen eine ausreichende Prognose
erlaubt.
-
Zu
Prognosezwecken sind dabei nur solche Parameter einsetzbar, die
in der Screeningphase vor Beginn der Therapie erhoben werden bzw.
die nicht durch die Therapie beeinflussbar sind:
-
Die
klinischen diagnostischen Parameter werden "z" – Parameter
genannt, die genomischen Parameter bilden die „x"-Parametern".
-
Das
erfindungsgemäße Verfahren
fängt mit der
klinischen Datenebene an. Probandengruppen mit einzigartigen klinischen
Reaktionen werden in der Analyse anhand ihrer klinischen z-Parameter
identifiziert und Untergruppe werden gebildet. Das erfindungsgemäße Verfahren
erhöht
Schritt für
Schritt den Ratio Anzahl von x-Parametern/Anzahl von z-Parameter
in dem Parametersatz, wobei die Komplexität c des Parametersatzes, d.h.
der Anzahl von Parameter die zur Definition des Markers identifiziert werden,
während
des gesamten Verfahren gleich bleibt.
-
Eine
Untergruppe ist als prädiktiv
anerkannt, wenn eine vordefinierte Qualität q der klinischen Reaktion
mit der vordefinierten Anforderungen Q0 verglichen
wird, so dass q > Q0 erfüllt
ist. Die Qualität
q ist z.B. der Wert p des z-Parameters für die Untergruppe verglichen
mit dem Wert allen Probanden, kalkuliert anhand einer Testmenge.
-
Die
erfindungsgemäße Methode
fängt mit den
klinischen Daten (= z-Parameter) an und arbeitet sequenziell mit
folgenden Schritten:
- a. Eingabe der Probandengruppe
COH0, deren z-Parameter und x-Parameter
und Eingabe der Qualitätsanforderung
Q0 nach den klinischen Anwendbarkeitsanforderungen.
Außerdem Eingabe der
erlaubten Gesamtkomplexität
c (= Anzahl von Parametern, die im Verfahren maximal miteinander
kombiniert werden dürfen,
und später
zur Definition des Markers dienen). Die Gesamtkomplexität c beträgt üblicherweise
maximal 10 und wird der Größe des Datensatzes
angepasst. Besonders bevorzugt werden als maximale Gesamtkomplexität c Werte
bis 4 gewählt,
da danach erfahrungsgemäß die Gefahr
einer falsch positiven Ergebnisses deutlich ansteigt. Eine Gesamtkomplexität c > 4 wird. bevorzugt,
wenn entweder sehr große
Datensätze
vorhanden sind oder extrem aufwändige
Validierungsverfahren eingesetzt werden.
- b. Suche nach einem oder mehreren Satz von 1 bis c klinischen
Parametern, der eine oder mehrere Untergruppe von Probanden SG1 charakterisiert, deren klinische Reaktion
eine Qualität
q die Qualitätserfordernisse
q > Q0 aufweist.
Bei dem Identifikationsprozess wird die Gesamtkomplexität iterativ
erhöht,
solange das Verfahren Untergruppe findet und bis zum maximalen erlaubten Gesamtkomplexität c. Die
klinische Reaktion von allen Probanden der Untergruppen SG1 kann dann anhand der z-Parameter allein
prognostiziert werden.
- c. Diese Probanten werden aus der Probandengruppe COH0 ausgelassen, so dass das eine neue Probandengruppe
COH1 als COH0 minus SG1 definiert wird.
- d. Suche nach einem oder mehreren Sätzen von (c-1) z-Parameter
und einem x-Parameter, der eine oder mehrere Untergruppe von Probanden SG2 charakterisiert, deren klinische Reaktion
eine Qualität
q die Qualitätserfordernisse
q > Q0 aufweist.
Die klinische Reaktion von allen Probanden der Untergruppe SG2 kann
anhand der klinischen Parameter und eines genomischen Parameters prognostiziert
werden.
- e. Diese Probanten werden aus der Probandengruppe COH1 ausgelassen, so dass das eine neue Probandengruppe
COH2 als COH1 minus SG2definiert wird.
- f. Suche nach einem oder mehreren Sätzen von (c-n) z-Parametern
und n x-Parametern, wobei n = 0 bis c, der eine Untergruppe von
Probanden SGn+1 charakterisiert, deren klinische
Reaktion eine Qualität
q die Qualitätserfordernisse
q > Q0 aufweist.
- g. Definition der Probandengruppe COH n+1 als COHn minus
SGn+1,
- h. Wiederhole Schritte f) bis g) bis keine Untergruppe gefunden
werden oder n = c,
- i. Die Probanden, die am Ende keiner Untergruppe SGx mit einer
Qualität
q wobei q > Q0 zugeteilt werden konnten, bilden eine Restgruppe
COHR.
- j. Ausgabe einer Liste der identifizierten Marker und einer
Liste von Probanden, die zur Restgruppe COHR gehören
-
Die
Identifikation der Untergruppen SGx kann mit verschiedenen Methoden
wie z.B. Entscheidungsbäume
(decision trees), X (support vector machines) oder Assoziationsregeln
(association rules) (M. Berthold, D.J. Hand, Intelligent Data Analysis, Springer,
Heidelberg 1999, S. 195–215)
erreicht werden. Diese etablierten Methoden allein sind aber nicht
in der Lage die kombinatorische Explosion der Anzahl von möglichen
Untergruppen SGx zu verhindern, wenn die Komplexizität c d.h.
der Anzahl von Parameter zur Definition des Markers steigern darf.
-
In
einer besonderen Ausführungsform
des Verfahrens wird die Untergruppe SGx unterteilt (1):
- 1.) Probanden, die die gewünschte klinische Response aufweisen,
bilden eine Controlgruppe (controls), und
- 2.) Probanden, die Nebenwirkungen aufweisen, bilden eine Cases-Gruppe
(cases).
-
Sind
die x-Parameter diskret oder diskretisiert, kann in einer besonderen
Ausführungsform
des Verfahrens die kombinatorische Explosion der Anzahl von Untergruppen
SGx reduziert werden, dadurch dass die x-Parameter mit folgender
Methode komprimiert werden:
Wenn x1...xn Parameter mit diskreten Werten m1 ... mn sind, dann
sind *m1...*mn Untergruppen
SGx möglich, die
auf eine einzigartige Distribution von z-Parameter untersucht werden
müssen.
In vielen Fällen
kann der Beitrag eines Einzelparameters oder einer Parametergruppe
auf die klinische Reaktion auf einer begrenzten Anzahl von wirkenden
Werten v von Zwischenparametern – weiter „Metastates" genannt eingeschränkt werden.
Diese Metastates werden nicht direkt beobachtet, können aber
im Idealfall mit binären
Werte 0 und 1 beschrieben werden (2). Wenn
eine solche Einschränkung
akzeptabel ist, sind nicht alle Untergruppen SGx tatsächlich relevant
für die
klinische Reaktion. Alle Kombination von Werten m, die zu dem gleichen
wirkenden Wert v führen,
können
zu einem „Metastates" zusammengeführt werden,
das nur mit dem Wert v beschrieben wird.
-
Das
Verfahren kann sich dann auf diese „Metastates" und ihre Kombinationen
konzentrieren. Wenn der Anzahl von Metastaten « Anzahl von Parametern x,
kann die Komplexität
c des Markers deutlich reduziert werden und das Verfahren erfolgt
dann mit folgenden Schritten:
- 1) Identifikation
von allen Paramaterwertenkombinationen, die zum dem gleichen wirkenden
Wert v zur Definition von „Metastates" führen,
- 2) Die Untergruppenanalyse nach Schritten 1 bis 4 wird anhand
der Metastatenwerte v geführt.
-
Der
Schritt 1 (= Identifikation von Metastaten) erfolgt mit Standard
kombinatorischen Optimierungsroutinen, wie z.B. genetischen Algorithmen,
X (simulated annealing), monte carlo Suche oder Y (steepest descent).
In jedem Schritt der kombinatorischen Optimierungsroutine findet
eine Untergruppenanalyse mit Bemessung der Qualität q der
klinischen Reaktion statt. Das Ziel der Optimierungsroutine ist
die Korrelation zwischen Werte des x-Parameter und v Werte des Metastates
zu identifizieren, die zu einem Optimum der Qualität q im Schritt
2 führen.
-
Diese
hierarchische Strukturierung der Untergruppenanalyse mit Hilfe der
Projektion auf Metastates erfordert zwar eine größere numerische Leistung, kann
aber zu einer dramatischen Reduzierung der Anzahl von möglichen
Untergruppen durch Kombination der Einzelparameterwerten führen, die
sich durch eine deutliche Verbesserung der Zuverlässigkeit
und Prognosequalität
des Markers führt.
-
In
einer weiteren Ausführungsform
des Verfahrens wird ein Validierungsschritt durchgeführt, bei dem
mit Hilfe des monte Carlo Verfahren, durch Randomisierung geprüft wird,
ob die automatische Suche in einem randomisierten Satz von Probanden
zu den gleichen Untergruppen führt.
Es wird der Untergruppe SGx eine Prognosezuverlässigkeit (= Signifikanz) pr
zugeteilt, die die klinischen Anwendbarkeit des Markers darstellt.
-
Für alle Probanden
der Probandengruppe COHR, kann auch eine
Prognosezuverlässigkeit
pr zugeteilt werden, so dass die klinische Anwendbarkeit des Markers
für die
Restgruppe beurteilt werden kann. Wenn z.B. eine falsche positive
Prognose zu einem untragbaren Risiko für den Probanden führt, kann
bei unzureichender Prognosezuverlässigkeit für die Restgruppe als Ergebnis „nicht
klassifizierbar" ausgegeben
werden.
-
Als
Prognosezuverlässigkeit
pr kann dabei ein beliebiges Qualitätsmaß für die Prognose gewählt werden,
zum Beispiel Sensitivität
und Spezifität in
der Testgruppe. Diese Werte können
auf einem nach Zufallsprinzip ausgewählten Testdatensatz mit Hilfe
von Crossvalidierung gefunden werden.
-
Als
alternatives Maß kann
die Wahrscheinlichkeit dafür
verwendet werden, dass das Qualitätsmaß wie Sensitivität und Spezifität als Zufallsergebnis
interpretiert werden kann (p – Wert).
Letzterer kann z.B. mit Hilfe von Bootstrappingverfahren bestimmt
werden.
-
Es
wurde gezeigt, dass die Hypothese, dass die identifizierten Untergruppen
falsch und aus purer Zufall gebildet wurden, mit einer Prognosegezuverlässigkeit/Signifikanz
p<0,02 ausgeschlossen
werden kann. Die Prognosegezuverlässigkeit/Signifikanz p ist
dabei die geschätzte
Wahrschein lichkeit, dass die Klassifikation auf ein Zufallsereignis
zurückgeführt werden
kann. Sie kann mit Hilfe eines Bootstrapverfahrens geschätzt werden.
Als signifikant werden dabei Ergebnisse einer Datenanalyse bezeichnet
für die
p < 0,05 gilt,
besonders bevorzugt sind p Werte < 0,01.
-
Mit
dem erfindungsgemäßen Verfahren
können
Marker für
klinische Reaktionen, die mit diagnostischen und/oder genomischen
Parametern definiert sind, identifiziert werden, deren Empfindlichkeit
und Prognosezuverlässigkeit
größer 80 %
Sensitivität und
98% Spezifität,
bevorzugt 80% bis 85% Sensitivität
und 97.9–98.5%
Spezifität
liegt. Diese Werte sind Prognosewerte, die auf einem nach Zufallsprinzip
ausgewählten
Testdatensatz mit Hilfe von Crossvalidierung gefunden wurden. Mit
Hilfe von Bootstrappingverfahren können p- Werte von < 2% für die Wahrscheinlichkeit
gemessen werden, dass die gefundenen Ergebnisse auf einem Zufallsereignis beruhen.
-
Vorteile
des Verfahren sind die strukturierte Klassifizierung in mehreren
Schritten, wobei in jedem Schritt systematisch von einer Klassifikation
auf Basis rein klinischer Daten übergegangen
wird zu einer Klassifikation auf rein genombasierten Daten unter strikter
Kontrolle der Komplexität
der verwendeten Klassifikatoren auf einem niedrigen Level. Hierdurch kann
einerseits eine deutlich verbesserte Performance der Klassifikation,
gemessen in Spezifität
und Sensitivität,
und andererseits eine deutliche Verbesserung der statistischen Signifikanz,
gemessen in p-Werten für
die Klassifikationsergebnisse mit Hilfe von Bootstrapverfahren oder
aber Crossvalidation, erreicht werden.
-
Abbildungen:
-
1:
Beispiel des sequentielles Identifizierungsworkflows mit Komplexität c = 2
-
2:
Beispiel der Reduktion der Komplexität, ausgehend von den primären Parametern
(x) hin zum klinischen Ergebnis (z) mit Hilfe eines intermediären Projektionsschritts
mit zwei funktionalen intermediären
Einheiten.
-
Beispiel
-
Das
Verfahren wurde anhand einer Assoziationsstudie zur Verträglichkeit
von Statinen getestet, ohne sich darauf zu begrenzen.
-
Mit
dem erfindungsgemäßen Verfahren
wurde die Prognose von ADR – Phänotypen
aus einer Kombination von a priori gemessenen klinischen Parametern
und einer Genotypisierung ermöglicht
hierbei wurde insgesamt die Messung von 4 klinischen Parametern
und 25 SNP's, verteilt
auf 12 Genen, verwendet. Es konnten weitere kombinierte Marker gefunden
werden, die schwächere,
jedoch noch zulässige
Performance bei nahezu demselben Messaufwand zeigen.
-
Statine
sind die am häufigsten
verschriebenen Arzneimittel und werden zur Absenkung des Cholesterinspiegels
verwendet. Die mit Statinen assozierten Arzneimittelnebenwirkungen
(ADR, Adverse Drug Reactions) betreffen zumeist die Skelettmuskulatur,
wobei es in 0,6 – 3
% der Patienten zu Muskelschmerzen und in seltenen Fällen zur
sog. Rhabdomyolyse und im Nachgang zu akutem Nierenversagen kommen
kann. Bedingt durch 1.), die weite Verbreitung der Stative und 2.),
den Schweregrad der möglichen
Nebenwirkungen wäre
ein diagnostischer Test wünschenswert,
der vor Therapiebeginn Patienten identifizieren kann, bei welchen
eine Statin-Unverträglichkeit
vorliegt. Hierdurch könnten
Statin-induzierte ADR effizient vermieden werden. Weiterhin wäre der Arzt
frühzeitig
in der Lage, eine besser verträgliche
Therapieform auszuwählen.
-
Mit
dem Verfahren wurde eine Probandenstudie, bei der 312 Probanden
genotypisiert wurden, analysiert.
-
Außerdem wurden
(von der Mehrzahl der Probanden) die folgenden klinischen Parameter
erhoben: 'SEX' 'BORN' 'HEIGHT' 'WEIGHT' 'BMI' 'SBP' 'DBP' 'CONC' 'CONSENT' 'CK_SCR' 'CK_SCRLATER' 'CK_TTLATER' 'CK_TT_V20RV3' 'LDL_SCR' 'HDL_SCR' 'TRIGLY_SCR' 'CHOL_SCR' 'SGOT_SCR' 'SGPT_SCR' 'ALKPHOS_SCR' 'LDL_LATER' 'HDL_LATER' 'TRIGLY_LATER' 'CHOL_LATER' 'SGOT_LATER' 'SGPT_LATER' 'ALKPHOS_LATER' 'LDL_RESP'
-
Zu
Prognosezwecken sind dabei nur solche Parameter einsetzbar, die
in der Screeningphase vor Beginn der Statintherapie erhoben wurden
bzw. die nicht durch die Statintherapie beeinflussbar sind:
'SEX' 'HEIGHT' 'WEIGHT' 'BMI' 'CK_SCR' 'LDL_SCR' 'HDL_SCR' 'TRIGLY_SCR' 'CHOL_SCR' 'SGOT_SCR' 'SGPT_SCR' 'ALKPHOS_SCR' Zwei Probandenkohorten wurden gebildet:
- 1.) Patienten mit guter Statinverträglichkeit
(controls), und
- 2.) Patienten, bei welchen nach Statingabe Nebenwirkungen zu
beobachten waren (cases).
-
Um
den Kontrast zwischen Cases- und Controlgruppe zu erhöhen, wurden
in die Analyse nur Case - Patienten mit aufgenommen, die durch ihren 'CK_TT_V20RV3' – Wert höher als 83 charakterisiert wird,
so dass insgesamt ein Ensemble von 144 Cases und 144 Controls zur
Verfügung
stand. Das Ergebnis selbst wird dadurch nicht verändert
-
Die
Patienten wurden während
bzw. nach der Therapie entsprechend des Auftretens von Rhabdomylose
befunden, insbesondere ein erhöhter
CK – Wert,
charakterisiert. Hierzu wurde der Parameter
'CK_TT_V20RV3'
herangezogen
und von DS Phänotypisiert.
-
SNP-Datenkompression – Definition
von Metastates
-
Als
SNP – Genotypisierungsdaten
standen 3632 SNP's
aus 86 Genen zur Verfügung,
wobei die Verteilung der SNP's
auf die Gene stark variierte. Von den bereitgestellten SNP – Daten
wurden nur diejenigen SNP's
berücksichtigt,
die in ausreichender Häufigkeit
gemessen worden waren. Von diesen wurden die SNP – Ausprägungen „AC",... numerisch so
kodiert, dass bei jedem SNP die Ausprägung des 1. Patienten in der
Datei die Nummer 1 erhielt, die nächste auftretende Ausprägung die
Nummer 2 etc. Die Analyseverfahren wurden so angelegt, dass die
dadurch entstehende Pseudo-korrelation (SNP – Ausprägung 3 häuft sich bei Controls) nicht
relevant war.
-
Nachträglich wurden
noch SNP – Daten
zu 8 neuen Genen bereitgestellt, die analog verarbeitet wurden,
so dass zur Durchführung
der Studie insgesammt 94 Kandidatengene ausgewählt wurden, welche aufgrund
ihrer Funktion im menschlichen Stoffwechsel eine Rolle bei der Entstehung
Statininduzierter ADR spielen könnten.
-
Die
Original – SNP
Ausprägungen
wurden nun auf jedem Gen so komprimiert, dass jeder Kombination
von SNP – Ausprägung auf
jedem individuellen Gen ein Nummer zugeteilt wurde. Da durch die hohe
Zahl möglicher
kombinatorischer SNP – Ausprägungen eine
Prädiktion
extrem erschwert worden wäre,
wurden nur solchen SNP – Kombinationen
auf jedem Gen eine direkte Nummer zugeordnet, die mindesten 6 mal
auftraten. Dadurch traten maximal 15 SNP – Kombinationen auf jedem Gen
auf.
-
Alle
seltenere SNP-Kombinationen, d.h. alle Kombinationen, die seltener
als 5 Mal in der Probandenkohorte vorkommen, wurden durch eine SNP-Kombination,
die mindestens 5 Mal vorkam und die kleinste Euklidische Distanz
zu der entsprechenden seltenen SNP-Kombination zeigte, ersetzt,
d.h. sie bekamen die Nummer der SNP – Kombination, die jeweils
die größte Ähnlichkeit
besaßen
(Hamming – Distanz).
Das Ergebnis ist eine Einzelabbildung jeder SNP-Kombination mit
einem diskreten Wert s, was die statistische Relevanz der Kombination
erhöht.
Da durch diese Kompression höchstens
Information vernichtet wurde, kann hieraus kein Bias entstehen.
-
Als
Ergebnis entsteht eine Tabelle, bei der zu jedem Probanden j auf
jedem Gen gk eine Nummer si(gk)
= [1..., Anzahl von SNP Kombinationen auf Gene k] eingetragen ist,
die die SNP – Ausprägung des
Probanden auf dem jeweiligen Gen entspricht und die (bis auf die
Kompression) in Richtung der SNP's
invertiert werden kann.
-
Weitere Selektion der
Probandengruppe
-
In
einem ersten Schritt wurden auf Basis allein der klinisch – diagnostischen
Parameter Untergruppen gesucht, die statistisch signifikant eine scharfe
Bildung von Untergruppen von Probanden mit eindeutigem Phänotyp zulassen.
-
Da
das ck-Niveau einen kritischen Einfluss auf die ADR – Ausprägung hat,
wurden im Vorverarbeitungsschritt alle Patienten aus der Probandenkohorte
aussortiert, bei denen keine Informationen zum ck – Wert vor
Therapie (ck-scr) vorlagen. Zur Weiterverarbeitung blieb eine Kohorte
von 179 Patienten (91 cases, 88 control).
-
Das Combigene Verfahren
-
1) Klassifizierung der
Patienten nur auf Basis klinischer Daten
-
In
dem Verfahrenschritt 1 wurden Untergruppe gesucht, die mit hohem
statistischen Signifikanz p < 0,01
und Komplexität < 3 Parameter einzigartig eine
klinische Reaktion aufweisen. Die Suchmethoden Entscheidungsbäume (decision
trees), X (support vector machines) oder Assoziationsregeln (association
rules) (M. Berthold, D.J. Hand, Intelligent Data Analysis, Springer,
Heidelberg 1999, S. 195–215)
wurden für
diesen Schritt verwendet.
-
Identifiziert
wurde eine einzige aussagekräftige
Untergruppe, die folgendermaßen
beschrieben wird:
-
Regel
1:
alle Patienten mit ck-Niveau > 80 vor therapeutische Behandlung haben
nach Statingabe Nebenwirkungen gezeigt. Diese Regel trifft bei 35
von 179 Probanden und ist sehr aussagekräftig.
-
Die
Prognosegezuverlässigkeit/Signifikanz der
Regel wurde mit dem monte-carlo Verfahren auf p < 0,001 geschätzt.
-
Diese
Probanden wurden aus der Kohorte ausgelassen, die neue Kohorte COH1 bestand aus 56 cases und 88 controls.
-
2) Klassifizierung der
Patienten anhand der Kombination von 1 klinischem Paramter und 1
Gen
-
Im
Verfahrenschritt 2 wurden Untergruppe gesucht, die mit einer Parameterkombination
aus einem klinischen Parameter und einem Gen (Komplexität=2) einzigartig
eine klinische Reaktion aufweisen. Da klinische Parameter kontinuierliche
Werte und genomischen Parameter diskrete Werte aufweisen, wurden
die möglichen
Untergruppen in jeder Kombination folgendermaßen beschrieben:
Daher
wurde eine Charakterisierung der Cases und Controls mit Hilfe einer
Kombination der klinischen Parameter und der Genotypisierung vorgenommen. Ziel
war, mit Hilfe der klinischen Parameter Probandengruppen so zu charakterisieren,
dass in jeder Probandengruppe mit Hilfe der SNP – Daten auf einem einzelnen
Gen eine Charakterisierung von einer Untergruppe der Cases oder
einer Untergruppe der Controls fehlerfrei erfolgt.
-
Der
Satz von klinischen Parametern wurde künstlich in hohen und niedrigen
Werten unterteilt. Für
jeden Bereich wurde geprüft,
ob ein genomischer Wert s zur Beschreibung des entsprechenden Genes vorhanden
war, der die Untergruppe von Probanden mit einer gültigen Zuverlässigkeit
(p < .001) aufweist, d.h.
wie viele von den 144 Probanden der Kohorte COH1 – 56 cases
oder 88 controls – den
bestimmten klinischen Parameter und den genomischen Wert aufweisen.
-
In
dem Validierungsschritt wurde mit Hilfe des monte carlo Verfahren,
durch Randomisierung geprüft,
ob die automatische Suche in einem randomisierten Satz von Probanden
zu den gleichen Untergruppen führt.
Es wurde gezeigt, dass die Hypothese, dass die identifizierten Untergruppen
falsch und aus purer Zufall gebildet wurden, mit einer p<0,02 ausgeschlossen
werden kann. „p" ist dabei die mit Hilfe
eines Bootstrapverfahrens geschätzte
Wahrscheinlichkeit, dass die Klassifikation auf ein Zufallsereignis
zurückgeführt werden
kann.
-
Mit
dieser hohen statistischen Signifikanz wurden als Ergebnis der Untergruppenverfahren
4 Gruppen von Paramatern gefunden, die jede aus einem klinischen
Parameter und der SNP-Ausprägung (eindeutig
charakterisiert aus der Belegung von jeweils 1 oder mehreren SNP's) auf jeweils 1
Gen bestehen, die eine Case/Controltypisierung in jeder Gruppe erlauben.
Diese Gruppen lassen sich durch niedrige LDL_SCR_HDL_SCR, CHOL_SCR
und hohe ALK_Phos Werte auf der klinischen Seite und 9 SNP's auf insgesamt 4
Genen charakterisieren.
-
Die
gesamte Typisierung auf diesen Gruppen verlangt also insgesamt die
Messung von minimal 9 SNP's
um eine eindeutige Charakterisierung der relevanten SNP – Ausprägungen auf
den jeweiligen Genen vorzunehmen.
-
44
Cases und 41 Controls konnten mit diesem Verfahren nicht klassifiziert
werden, die die Kohorte COH2 bilden.
-
3) Klassifizierung der
Probanden mit Hilfe einer Kombination von Sets aus 2 interagierenden
Genen
-
In
dieser neue Kohorte wurde im dem letzen Schritt der Analyse Untergruppe
gekennzeichnet durch einer Kombination von bis zu 2 Genen (Komplexität=2) gesucht.
Es wurde auch keine rein genotypbasierte Untergruppe mit einer Komplexität 1 (ein einziges
Gen zur Kennzeichnung des Markers) gefunden.
-
Bei
dieser Probandengruppe COH2 wurde davon
ausgegangen, dass einzelne dominante Gene unter den gemessenen Genen
nicht existieren, sondern dass die Ausprägung der Phänotypen durch eine Kombination
von „schlechten" SNP – Zuständen auf
unterschiedlichen Genen hervorgerufen wird.
-
Mit
Hilfe von 2-er Kombinationen von Genausprägungen („Gendubletten") konnten eine hinreichende
Zahl von statistisch hoch Signifikanten Gengruppen charakterisiert
werden, die in Kombination mit der Vorselektion eine ausreichende
Prädiktion von
Cases zulassen. Dabei wurde stests nach dem worst-case Prinzip vorgegangen:
Ein Proband wird mit Hilfe einer Gendublette nur dann als „Case" prognostiziert,
wenn er in der Ausprägung
beider Gene einen „schlechten „ SNP – Zustand" aufweist. Die Zahl der
Cases, die maximal pro Gendublette mit hoher Signifikanz charakterisiert
werden konnten, lag zwischen 18 und 25% der Gesamtzahl der Cases.
-
Es
wurde dabei nach möglichst
kleinen Gruppen von „Gendubletten" gesucht, die in
Kombination eine möglichst
große
Zahl von Cases sicher und stabil (d.h. mit 90% Wahrscheinlichkeit
im Testset) charakterisieren, wobei die falsch – Positivenrate insgesamt < 2% bleiben sollte.
Außerdem
wurden die Gengruppen so ausgewählt,
dass die Charakterisierung mit einer minimalen Zahl von Genotypisierungen
erfolgen konnte. Es wurden daher nur Gendubletten in Betracht gezogen,
die mehr als 18% der Cases im Testset charakterisieren konnten.
Die Selektion des Cases verläuft
dabei nach folgendem Algorithmus:
- – berechne
für jede
Gendublette der Gruppe die prognostizierbare Case – Gruppe
- – wenn
ein Proband bei einer Gendublette der Gruppe als Case identifiziert
ist, dann wird er als Case charakterisiert.
-
Es
konnten insgesamt 32 (mit den 8 zusätzlichen Genen 40) Gruppen
a 4 Gendubletten (Tabelle 2) gefunden werden, die eine ausreichende
Charakterisierung (Tabelle 1) zulassen:
Dabei sind jeweils
Absolutwerte angegeben,.83 entspricht so 83%.
-
Besonders
interessant ist die Gengruppe Nummer 31: mit den 4 Gendubletten:
15/21
Zahl der benötigten
SNP's: 2/1
29/84
Zahl der benötigten
SNP's: 2/2
34/76
Zahl der benötigten
SNP's: 2/2
49/59
Zahl der benötigten
SNP's: 2/3
-
Ihre
Performance, gemessen in Sensitivity und Selektivity unter Crossvalidation,
ist unter den bisher gefundenen Gruppen optimal.
-
Es
fällt auf,
dass eine große
Zahl von Gengruppen eine sehr ähnliche
Performance hat, die sich auch nur in wenigen Gendubletten unterscheiden.
-
Auffällig ist,
dass das Gen 74 sehr häufig
vorkommt und sogar mit sich selbst eine „Dublette" bildet. Dies deutet darauf hin, dass
dieses Gen allein eine Typisierung einer weiteren Untergruppe erlaubt. Die
Hinzunahme der zusätzlichen
8 Gene brachten keine neuen Ergebnisse, es konnten weder in der Vorselektion
noch mit dem Combigene- Verfahren signifikant neue Resultate gefunden
werden. Die einzigen neuen Kombinationen enthielten Gendubletten mit
den Genen 74/88 oder 74/90, wobei in den Genen 88 und 90 nur 1 signifikanter,
variabler SNP- Zustand zu finden war. Daher sind diese Dubletten
zur Dublette 74/74 äquivalent
und bringen keine neuen Informationen.
-
Testläufe mit
randomisiert verteilten Phenotypdaten konnten in keinem Fall die
Performance, die mit den Originaldaten erreicht wurde, wiederholen.
-
Durch
Hinzunahme von weiteren Genen zu den Gendubletten zu Gentripletts
bzw. Quadrupletts konnte keine statistisch signifikante Verbesserung der
Performance erreicht werden, wobei allerdings nicht auszuschließen ist,
dass die Signifikanz wegen der grenzwertig niedrigen Zahl an Probanden
deutlich unterschätzt
wird. Tabelle
1
Tabelle
2
-
Ergebnis
-
Mit
dem erfindungsgemäßen Verfahren
wurde daher die Prognose von ADR – Phänotypen aus einer Kombination
von a priori gemessenen klinischen Parametern und einer Genotypisierung
ermöglicht
hierbei wurde insgesamt die Messung von 4 klinischen Parametern
und 25 SNP's, verteilt
auf 12 Genen, verwendet. Es konnten weitere kombinierte Marker gefunden
werden, die schwächere,
jedoch noch zulässige
Performance bei nahezu demselben Messaufwand zeigen.
-
Die
mit dem erfindungsgemäßen Verfahren erzeugten
Marker zeigen eine Performance von 80% Sensitivität und 98%
Spezifität.
Diese Performancedaten wurde im letzten Schritt mit Hilfe von Cross-validation
getestet, zusätzliche
wurden in den Schritten 1 und 2 mit Hilfe von Bootstrapping p – Werte
von < 1% (1. Schritt)
und p < 2% im zweiten
Schritt bestimmt.