DE102005062163A1

DE102005062163A1 - Verfahren zur Identifizierung von prediktiven Biomarken aus Patientendaten

Info

Publication number: DE102005062163A1
Application number: DE102005062163A
Authority: DE
Inventors: Andreas Dr. Schuppert; Rolf Dr. Burghaus; Christian von Dr. Törne; Stephan Dr. Schwers; Udo Dr. Stropp; Harald Dr. Kallabis
Original assignee: Bayer Technology Services GmbH
Current assignee: Bayer AG
Priority date: 2005-12-22
Filing date: 2005-12-22
Publication date: 2007-06-28
Also published as: US20090093689A1; WO2007079875A8; US8355874B2; WO2007079875A2

Abstract

Verfahren zur Entwicklung eines Biomarkers zur Prognose des Ergebnisses einer therapeutischen Behandlung anhand von Daten klinischer Studien, wobei die von der Therapie unveränderten Daten in diagnostische und genomische Parameter geteilt werden und der Marker durch eine Kombination von Parametern definiert wird, dadurch gekennzeichnet, dass die maximale Anzahl von Parametern zur Definition des Markers und hiermit die maximale Komplexität des Systems von Anfang an festgelegt wird und die Suche nach definierenden Parametern durch sequenzielle Kombination von klinischen Parametern (= z-Parameter) und/oder genomischen Parametern (= x-Parameter) erfolgt.

Description

Gegenstand der vorliegenden Erfindung ist ein Verfahren zur Entwicklung eines Biomarkers zur Prognose des Ergebnisses einer therapeutischen Behandlung anhand von Daten klinischer Studien.

Die Identifizierung von prediktiven Biomarkern aus Patientendaten ist für die Weiterentwicklung von medikamentösen Therapien in Richtung einer personalisierten Medizin eine unerlässliche Vorbedingung. Der Begriff Biomarker bezeichnet dabei nicht nur direkt gemessene biologische Parameter aus der klinischen Diagnose, Gendiagnostik etc., sondern auch Rechenverfahren, die es erlauben, aus geeigneten Kombinationen einer größeren Anzahl von gemessenen Werten von unterschiedlichen biologischen Parametern eine Diagnose zu stellen bzw. eine Prognose für die klinische Response auf eine Therapie zu berechnen. Das Auffinden solcher komplexer Biomarker wird in der Praxis oft durch die große Vielfalt an möglichen biologischen Parametern, die oft die Zahl der Probanden in klinischen Studien deutlich übertrifft, mit den gängigen Verfahren extrem unsicher oder gar unmöglich. Diese Problematik ist in der Mustererkennung unter dem Stichwort "Fluch der Dimensionalität" wohlbekannt und lässt sich nur sehr beschränkt durch eine Vergrößerung der Probandenkohorten kurieren.

Etablierte Methoden, um dieses Problem zu umgehen, sind Cross-validation und Bootstrapping (M. Berthold, D.J. Hand, Intelligent Data Analysis, Springer, Heidelberg 1999, s. 56–57). Diese Methoden verhindern in wirksamer Weise eine übertriebene Restriktion von Parametern, erlauben aber nur geringe Komplexität in den Kombinationen von Parametern, die zur Identifikation eines potentiellen Biomarkers geprüft werden könnten, und erlauben deswegen nicht das volle Potential einer genomischen, trancriptomischen und proteomischen Datenmenge zur Diagnose von komplexen Krankheiten oder Prognose von Reaktionen gegenüber therapeutischen Behandlungen auszuwerten.

Eine etablierte Methode, um die Bedeutung eines Biomarkers zu beurteilen, ist die Analyse des unterlegenden Mechanismus und der Struktur des Systems. Wenn die Strukturparameter des Systems bekannt sind, kann die Prognosezuverlässigkeit des Models deutlich verbessert werden (A. Schuppert. Extrapolability of structured hybrid models: A key to optimization of complex processes. In B. Fiedler et al., editor, International Conference on Differential Equations, pages 1135–1151. World Scientific Publ., Singapore, 2000; B. Fiedler, A. Schuppert, Local Identification of scalar hybrid models with tree structure, preprint, FU Berlin, 2004). In WO 03/042702 A1 wird eine Methode beschrieben, die eine Quantifizierung der Interaktion unabhängig ist aber trotzdem eine große Datenmenge und die Interaktionen zwischen Parametern in Form eines Baumes immer noch benötigt. Weitere Methode erfordern wiederum keine Darstellung der Interaktionen in Form eines Baumes aber dann eine Quantifizierung der Interaktionen (J.J. Rice, G. Stolovitzky, Making the most of it: pathway reconstruction and integrative simulation using the data at hand, DDT: BIOSILICO, Vol. 2, No. 2, March 2004, 70–77).

Diese Methoden dienen zur Analyse von Interaktionsnetzwerke zwischen gleich hierarchischen Ebenen, d.h. Gene-Gene Interaktionsnetzwerke oder Protein-Protein Netwerke, sie sind aber zur Identifikation von Interaktionsnetzwerke zwischen genomischen Parametern und klinischen Daten nicht geeignet. In Folge dessen fehlen immer noch Strukturellen Daten über genombasierte Biomarker für klinische Anwendungen.

J. Pittmann und al. (J. Pittman et al., Integrated modeling of clinical and gene expression information for personalized prediction of disease outcomes, PNAS June 1, 2004, Vol. 101, no.22, 8431–8436) haben neulich eine deutliche Verbesserung bei der Ermittlung des Wiederholungsrisikos bei Brustkrebs durch die Kombination von Gene Expression Markers und klinischen diagnostischen Parametern erreicht. Die Aussagekraft eines Biomarkers zur Prognose der klinischen Wirkung konnte durch die Integration von genomischen und klinischen Daten in einem komplexen Biomarker deutlich verbessert werden. Die Datenstruktur wurde bei diesem Ansatz aber komplexer und das Risiko bei der Analyse von „overffitting" oder Zuverlässigkeitsverluste erhöht. In dem beschriebenen Fall wurden diese Risiken durch die Verbesserung der Qualität des Markers deutlich kompensiert, was aber nicht immer der Fall sein muss.

Ein systematisches Verfahren zur Entwicklung solcher Biomarker aus den Daten klinischer Studien, das eine deutlich niedrigere Komplexität als die gängigen Verfahren erlaubt, wäre daher wünschenswert, um dem Arzt genauere diagnostische Hilfsmittel für die individuelle Response der Patienten auf eine medikamentöse Therapie zu geben.

Die Aufgabe wird durch eine systematische, hierarchische Untergruppensuche mit einer Hierarchisierung der Parametertypen gelöst. Bei der vorliegenden Erfindung werden komplexe Biomarker durch die sequenzielle Kombination von klinischen und genomischen Daten bereitgestellt. Mit der sequenziellen Kombination wird die Erhöhung der Komplexität der Datenstruktur in Grenze gehalten und überraschenderweise das „overffitting" Risiko minimiert.

Gegenstand der vorliegenden Erfindung ist daher ein Verfahren zur Entwicklung eines Biomarkers zur Prognose des Ergebnisses einer therapeutischen Behandlung anhand von Daten klinischer Studien, wobei die von der Therapie unveränderten Daten in diagnostischen und genomischen Parameter geteilt werden, und der Marker durch eine Kombination von Parametern definiert wird, dadurch gekennzeichnet dass,

a. der maximale Anzahl von Parameter zu Definition des Markers und hiermit die maximale Komplexität des Systems von Anfang an festgelegt wird,
b. die Suche nach definierenden Parametern durch sequenzielle Kombination von klinischen Parameter (= z-Parameter) und/oder genomischen Parameter (= x-Parameter) erfolgt.

In einem ersten Schritt wird auf Basis allein der klinisch – diagnostischen Parameter Untergruppen gesucht, die statistisch signifikant eine scharfe Bildung von Untergruppen von Probanden mit eindeutigem Phänotyp zulassen. Diese Probandengruppe wird von der Gesamtkohorte abgetrennt.

Für die übrigen Probanden werden klinische Parameter gesucht, die durch Kombination mit der Genotypisierung auf einem einzelnen Gen ebenfalls wieder eine eindeutige Prognose zulassen.

Für diejenigen Probanden, die in den ersten beiden Schritten nicht analysiert werden konnten, wird ein hybrides Modell erstellt, das durch Kombination der Genotypisierung von mehreren Genen eine ausreichende Prognose erlaubt.

Zu Prognosezwecken sind dabei nur solche Parameter einsetzbar, die in der Screeningphase vor Beginn der Therapie erhoben werden bzw. die nicht durch die Therapie beeinflussbar sind:

Die klinischen diagnostischen Parameter werden "z" – Parameter genannt, die genomischen Parameter bilden die „x"-Parametern".

Das erfindungsgemäße Verfahren fängt mit der klinischen Datenebene an. Probandengruppen mit einzigartigen klinischen Reaktionen werden in der Analyse anhand ihrer klinischen z-Parameter identifiziert und Untergruppe werden gebildet. Das erfindungsgemäße Verfahren erhöht Schritt für Schritt den Ratio Anzahl von x-Parametern/Anzahl von z-Parameter in dem Parametersatz, wobei die Komplexität c des Parametersatzes, d.h. der Anzahl von Parameter die zur Definition des Markers identifiziert werden, während des gesamten Verfahren gleich bleibt.

Eine Untergruppe ist als prädiktiv anerkannt, wenn eine vordefinierte Qualität q der klinischen Reaktion mit der vordefinierten Anforderungen Q₀ verglichen wird, so dass q > Q₀ erfüllt ist. Die Qualität q ist z.B. der Wert p des z-Parameters für die Untergruppe verglichen mit dem Wert allen Probanden, kalkuliert anhand einer Testmenge.

Die erfindungsgemäße Methode fängt mit den klinischen Daten (= z-Parameter) an und arbeitet sequenziell mit folgenden Schritten:

a. Eingabe der Probandengruppe COH₀, deren z-Parameter und x-Parameter und Eingabe der Qualitätsanforderung Q₀ nach den klinischen Anwendbarkeitsanforderungen. Außerdem Eingabe der erlaubten Gesamtkomplexität c (= Anzahl von Parametern, die im Verfahren maximal miteinander kombiniert werden dürfen, und später zur Definition des Markers dienen). Die Gesamtkomplexität c beträgt üblicherweise maximal 10 und wird der Größe des Datensatzes angepasst. Besonders bevorzugt werden als maximale Gesamtkomplexität c Werte bis 4 gewählt, da danach erfahrungsgemäß die Gefahr einer falsch positiven Ergebnisses deutlich ansteigt. Eine Gesamtkomplexität c > 4 wird. bevorzugt, wenn entweder sehr große Datensätze vorhanden sind oder extrem aufwändige Validierungsverfahren eingesetzt werden.
b. Suche nach einem oder mehreren Satz von 1 bis c klinischen Parametern, der eine oder mehrere Untergruppe von Probanden SG₁ charakterisiert, deren klinische Reaktion eine Qualität q die Qualitätserfordernisse q > Q₀ aufweist. Bei dem Identifikationsprozess wird die Gesamtkomplexität iterativ erhöht, solange das Verfahren Untergruppe findet und bis zum maximalen erlaubten Gesamtkomplexität c. Die klinische Reaktion von allen Probanden der Untergruppen SG₁ kann dann anhand der z-Parameter allein prognostiziert werden.
c. Diese Probanten werden aus der Probandengruppe COH₀ ausgelassen, so dass das eine neue Probandengruppe COH₁ als COH₀ minus SG₁ definiert wird.
d. Suche nach einem oder mehreren Sätzen von (c-1) z-Parameter und einem x-Parameter, der eine oder mehrere Untergruppe von Probanden SG₂ charakterisiert, deren klinische Reaktion eine Qualität q die Qualitätserfordernisse q > Q₀ aufweist. Die klinische Reaktion von allen Probanden der Untergruppe SG2 kann anhand der klinischen Parameter und eines genomischen Parameters prognostiziert werden.
e. Diese Probanten werden aus der Probandengruppe COH₁ ausgelassen, so dass das eine neue Probandengruppe COH₂ als COH₁ minus SG₂definiert wird.
f. Suche nach einem oder mehreren Sätzen von (c-n) z-Parametern und n x-Parametern, wobei n = 0 bis c, der eine Untergruppe von Probanden SG_n+1 charakterisiert, deren klinische Reaktion eine Qualität q die Qualitätserfordernisse q > Q₀ aufweist.
g. Definition der Probandengruppe COH n+1 als COH_n minus SG_n+1,
h. Wiederhole Schritte f) bis g) bis keine Untergruppe gefunden werden oder n = c,
i. Die Probanden, die am Ende keiner Untergruppe SGx mit einer Qualität q wobei q > Q₀ zugeteilt werden konnten, bilden eine Restgruppe COH_R.
j. Ausgabe einer Liste der identifizierten Marker und einer Liste von Probanden, die zur Restgruppe COH_R gehören

Die Identifikation der Untergruppen SGx kann mit verschiedenen Methoden wie z.B. Entscheidungsbäume (decision trees), X (support vector machines) oder Assoziationsregeln (association rules) (M. Berthold, D.J. Hand, Intelligent Data Analysis, Springer, Heidelberg 1999, S. 195–215) erreicht werden. Diese etablierten Methoden allein sind aber nicht in der Lage die kombinatorische Explosion der Anzahl von möglichen Untergruppen SGx zu verhindern, wenn die Komplexizität c d.h. der Anzahl von Parameter zur Definition des Markers steigern darf.

In einer besonderen Ausführungsform des Verfahrens wird die Untergruppe SGx unterteilt (1):

1.) Probanden, die die gewünschte klinische Response aufweisen, bilden eine Controlgruppe (controls), und
2.) Probanden, die Nebenwirkungen aufweisen, bilden eine Cases-Gruppe (cases).

Sind die x-Parameter diskret oder diskretisiert, kann in einer besonderen Ausführungsform des Verfahrens die kombinatorische Explosion der Anzahl von Untergruppen SGx reduziert werden, dadurch dass die x-Parameter mit folgender Methode komprimiert werden:
Wenn x₁...x_n Parameter mit diskreten Werten m₁ ... m_n sind, dann sind *m₁...*m_n Untergruppen SGx möglich, die auf eine einzigartige Distribution von z-Parameter untersucht werden müssen. In vielen Fällen kann der Beitrag eines Einzelparameters oder einer Parametergruppe auf die klinische Reaktion auf einer begrenzten Anzahl von wirkenden Werten v von Zwischenparametern – weiter „Metastates" genannt eingeschränkt werden. Diese Metastates werden nicht direkt beobachtet, können aber im Idealfall mit binären Werte 0 und 1 beschrieben werden (2). Wenn eine solche Einschränkung akzeptabel ist, sind nicht alle Untergruppen SGx tatsächlich relevant für die klinische Reaktion. Alle Kombination von Werten m, die zu dem gleichen wirkenden Wert v führen, können zu einem „Metastates" zusammengeführt werden, das nur mit dem Wert v beschrieben wird.

Das Verfahren kann sich dann auf diese „Metastates" und ihre Kombinationen konzentrieren. Wenn der Anzahl von Metastaten « Anzahl von Parametern x, kann die Komplexität c des Markers deutlich reduziert werden und das Verfahren erfolgt dann mit folgenden Schritten:

1) Identifikation von allen Paramaterwertenkombinationen, die zum dem gleichen wirkenden Wert v zur Definition von „Metastates" führen,
2) Die Untergruppenanalyse nach Schritten 1 bis 4 wird anhand der Metastatenwerte v geführt.

Der Schritt 1 (= Identifikation von Metastaten) erfolgt mit Standard kombinatorischen Optimierungsroutinen, wie z.B. genetischen Algorithmen, X (simulated annealing), monte carlo Suche oder Y (steepest descent). In jedem Schritt der kombinatorischen Optimierungsroutine findet eine Untergruppenanalyse mit Bemessung der Qualität q der klinischen Reaktion statt. Das Ziel der Optimierungsroutine ist die Korrelation zwischen Werte des x-Parameter und v Werte des Metastates zu identifizieren, die zu einem Optimum der Qualität q im Schritt 2 führen.

Diese hierarchische Strukturierung der Untergruppenanalyse mit Hilfe der Projektion auf Metastates erfordert zwar eine größere numerische Leistung, kann aber zu einer dramatischen Reduzierung der Anzahl von möglichen Untergruppen durch Kombination der Einzelparameterwerten führen, die sich durch eine deutliche Verbesserung der Zuverlässigkeit und Prognosequalität des Markers führt.

In einer weiteren Ausführungsform des Verfahrens wird ein Validierungsschritt durchgeführt, bei dem mit Hilfe des monte Carlo Verfahren, durch Randomisierung geprüft wird, ob die automatische Suche in einem randomisierten Satz von Probanden zu den gleichen Untergruppen führt. Es wird der Untergruppe SGx eine Prognosezuverlässigkeit (= Signifikanz) pr zugeteilt, die die klinischen Anwendbarkeit des Markers darstellt.

Für alle Probanden der Probandengruppe COH_R, kann auch eine Prognosezuverlässigkeit pr zugeteilt werden, so dass die klinische Anwendbarkeit des Markers für die Restgruppe beurteilt werden kann. Wenn z.B. eine falsche positive Prognose zu einem untragbaren Risiko für den Probanden führt, kann bei unzureichender Prognosezuverlässigkeit für die Restgruppe als Ergebnis „nicht klassifizierbar" ausgegeben werden.

Als Prognosezuverlässigkeit pr kann dabei ein beliebiges Qualitätsmaß für die Prognose gewählt werden, zum Beispiel Sensitivität und Spezifität in der Testgruppe. Diese Werte können auf einem nach Zufallsprinzip ausgewählten Testdatensatz mit Hilfe von Crossvalidierung gefunden werden.

Als alternatives Maß kann die Wahrscheinlichkeit dafür verwendet werden, dass das Qualitätsmaß wie Sensitivität und Spezifität als Zufallsergebnis interpretiert werden kann (p – Wert). Letzterer kann z.B. mit Hilfe von Bootstrappingverfahren bestimmt werden.

Es wurde gezeigt, dass die Hypothese, dass die identifizierten Untergruppen falsch und aus purer Zufall gebildet wurden, mit einer Prognosegezuverlässigkeit/Signifikanz p<0,02 ausgeschlossen werden kann. Die Prognosegezuverlässigkeit/Signifikanz p ist dabei die geschätzte Wahrschein lichkeit, dass die Klassifikation auf ein Zufallsereignis zurückgeführt werden kann. Sie kann mit Hilfe eines Bootstrapverfahrens geschätzt werden. Als signifikant werden dabei Ergebnisse einer Datenanalyse bezeichnet für die p < 0,05 gilt, besonders bevorzugt sind p Werte < 0,01.

Mit dem erfindungsgemäßen Verfahren können Marker für klinische Reaktionen, die mit diagnostischen und/oder genomischen Parametern definiert sind, identifiziert werden, deren Empfindlichkeit und Prognosezuverlässigkeit größer 80 % Sensitivität und 98% Spezifität, bevorzugt 80% bis 85% Sensitivität und 97.9–98.5% Spezifität liegt. Diese Werte sind Prognosewerte, die auf einem nach Zufallsprinzip ausgewählten Testdatensatz mit Hilfe von Crossvalidierung gefunden wurden. Mit Hilfe von Bootstrappingverfahren können p- Werte von < 2% für die Wahrscheinlichkeit gemessen werden, dass die gefundenen Ergebnisse auf einem Zufallsereignis beruhen.

Vorteile des Verfahren sind die strukturierte Klassifizierung in mehreren Schritten, wobei in jedem Schritt systematisch von einer Klassifikation auf Basis rein klinischer Daten übergegangen wird zu einer Klassifikation auf rein genombasierten Daten unter strikter Kontrolle der Komplexität der verwendeten Klassifikatoren auf einem niedrigen Level. Hierdurch kann einerseits eine deutlich verbesserte Performance der Klassifikation, gemessen in Spezifität und Sensitivität, und andererseits eine deutliche Verbesserung der statistischen Signifikanz, gemessen in p-Werten für die Klassifikationsergebnisse mit Hilfe von Bootstrapverfahren oder aber Crossvalidation, erreicht werden.

Abbildungen:
1: Beispiel des sequentielles Identifizierungsworkflows mit Komplexität c = 2
2: Beispiel der Reduktion der Komplexität, ausgehend von den primären Parametern (x) hin zum klinischen Ergebnis (z) mit Hilfe eines intermediären Projektionsschritts mit zwei funktionalen intermediären Einheiten.
Beispiel
Das Verfahren wurde anhand einer Assoziationsstudie zur Verträglichkeit von Statinen getestet, ohne sich darauf zu begrenzen.
Mit dem erfindungsgemäßen Verfahren wurde die Prognose von ADR – Phänotypen aus einer Kombination von a priori gemessenen klinischen Parametern und einer Genotypisierung ermöglicht hierbei wurde insgesamt die Messung von 4 klinischen Parametern und 25 SNP's, verteilt auf 12 Genen, verwendet. Es konnten weitere kombinierte Marker gefunden werden, die schwächere, jedoch noch zulässige Performance bei nahezu demselben Messaufwand zeigen.
Statine sind die am häufigsten verschriebenen Arzneimittel und werden zur Absenkung des Cholesterinspiegels verwendet. Die mit Statinen assozierten Arzneimittelnebenwirkungen (ADR, Adverse Drug Reactions) betreffen zumeist die Skelettmuskulatur, wobei es in 0,6 – 3 % der Patienten zu Muskelschmerzen und in seltenen Fällen zur sog. Rhabdomyolyse und im Nachgang zu akutem Nierenversagen kommen kann. Bedingt durch 1.), die weite Verbreitung der Stative und 2.), den Schweregrad der möglichen Nebenwirkungen wäre ein diagnostischer Test wünschenswert, der vor Therapiebeginn Patienten identifizieren kann, bei welchen eine Statin-Unverträglichkeit vorliegt. Hierdurch könnten Statin-induzierte ADR effizient vermieden werden. Weiterhin wäre der Arzt frühzeitig in der Lage, eine besser verträgliche Therapieform auszuwählen.
Mit dem Verfahren wurde eine Probandenstudie, bei der 312 Probanden genotypisiert wurden, analysiert.
Außerdem wurden (von der Mehrzahl der Probanden) die folgenden klinischen Parameter erhoben: 'SEX' 'BORN' 'HEIGHT' 'WEIGHT' 'BMI' 'SBP' 'DBP' 'CONC' 'CONSENT' 'CK_SCR' 'CK_SCRLATER' 'CK_TTLATER' 'CK_TT_V20RV3' 'LDL_SCR' 'HDL_SCR' 'TRIGLY_SCR' 'CHOL_SCR' 'SGOT_SCR' 'SGPT_SCR' 'ALKPHOS_SCR' 'LDL_LATER' 'HDL_LATER' 'TRIGLY_LATER' 'CHOL_LATER' 'SGOT_LATER' 'SGPT_LATER' 'ALKPHOS_LATER' 'LDL_RESP'
Zu Prognosezwecken sind dabei nur solche Parameter einsetzbar, die in der Screeningphase vor Beginn der Statintherapie erhoben wurden bzw. die nicht durch die Statintherapie beeinflussbar sind:
'SEX' 'HEIGHT' 'WEIGHT' 'BMI' 'CK_SCR' 'LDL_SCR' 'HDL_SCR' 'TRIGLY_SCR' 'CHOL_SCR' 'SGOT_SCR' 'SGPT_SCR' 'ALKPHOS_SCR' Zwei Probandenkohorten wurden gebildet:

1.) Patienten mit guter Statinverträglichkeit (controls), und
2.) Patienten, bei welchen nach Statingabe Nebenwirkungen zu beobachten waren (cases).

Um den Kontrast zwischen Cases- und Controlgruppe zu erhöhen, wurden in die Analyse nur Case - Patienten mit aufgenommen, die durch ihren 'CK_TT_V20RV3' – Wert höher als 83 charakterisiert wird, so dass insgesamt ein Ensemble von 144 Cases und 144 Controls zur Verfügung stand. Das Ergebnis selbst wird dadurch nicht verändert
Die Patienten wurden während bzw. nach der Therapie entsprechend des Auftretens von Rhabdomylose befunden, insbesondere ein erhöhter CK – Wert, charakterisiert. Hierzu wurde der Parameter
'CK_TT_V20RV3'
herangezogen und von DS Phänotypisiert.
SNP-Datenkompression – Definition von Metastates
Als SNP – Genotypisierungsdaten standen 3632 SNP's aus 86 Genen zur Verfügung, wobei die Verteilung der SNP's auf die Gene stark variierte. Von den bereitgestellten SNP – Daten wurden nur diejenigen SNP's berücksichtigt, die in ausreichender Häufigkeit gemessen worden waren. Von diesen wurden die SNP – Ausprägungen „AC",... numerisch so kodiert, dass bei jedem SNP die Ausprägung des 1. Patienten in der Datei die Nummer 1 erhielt, die nächste auftretende Ausprägung die Nummer 2 etc. Die Analyseverfahren wurden so angelegt, dass die dadurch entstehende Pseudo-korrelation (SNP – Ausprägung 3 häuft sich bei Controls) nicht relevant war.
Nachträglich wurden noch SNP – Daten zu 8 neuen Genen bereitgestellt, die analog verarbeitet wurden, so dass zur Durchführung der Studie insgesammt 94 Kandidatengene ausgewählt wurden, welche aufgrund ihrer Funktion im menschlichen Stoffwechsel eine Rolle bei der Entstehung Statininduzierter ADR spielen könnten.
Die Original – SNP Ausprägungen wurden nun auf jedem Gen so komprimiert, dass jeder Kombination von SNP – Ausprägung auf jedem individuellen Gen ein Nummer zugeteilt wurde. Da durch die hohe Zahl möglicher kombinatorischer SNP – Ausprägungen eine Prädiktion extrem erschwert worden wäre, wurden nur solchen SNP – Kombinationen auf jedem Gen eine direkte Nummer zugeordnet, die mindesten 6 mal auftraten. Dadurch traten maximal 15 SNP – Kombinationen auf jedem Gen auf.
Alle seltenere SNP-Kombinationen, d.h. alle Kombinationen, die seltener als 5 Mal in der Probandenkohorte vorkommen, wurden durch eine SNP-Kombination, die mindestens 5 Mal vorkam und die kleinste Euklidische Distanz zu der entsprechenden seltenen SNP-Kombination zeigte, ersetzt, d.h. sie bekamen die Nummer der SNP – Kombination, die jeweils die größte Ähnlichkeit besaßen (Hamming – Distanz). Das Ergebnis ist eine Einzelabbildung jeder SNP-Kombination mit einem diskreten Wert s, was die statistische Relevanz der Kombination erhöht. Da durch diese Kompression höchstens Information vernichtet wurde, kann hieraus kein Bias entstehen.
Als Ergebnis entsteht eine Tabelle, bei der zu jedem Probanden j auf jedem Gen gk eine Nummer s_i(g_k) = [1..., Anzahl von SNP Kombinationen auf Gene k] eingetragen ist, die die SNP – Ausprägung des Probanden auf dem jeweiligen Gen entspricht und die (bis auf die Kompression) in Richtung der SNP's invertiert werden kann.
Weitere Selektion der Probandengruppe
In einem ersten Schritt wurden auf Basis allein der klinisch – diagnostischen Parameter Untergruppen gesucht, die statistisch signifikant eine scharfe Bildung von Untergruppen von Probanden mit eindeutigem Phänotyp zulassen.
Da das ck-Niveau einen kritischen Einfluss auf die ADR – Ausprägung hat, wurden im Vorverarbeitungsschritt alle Patienten aus der Probandenkohorte aussortiert, bei denen keine Informationen zum ck – Wert vor Therapie (ck-scr) vorlagen. Zur Weiterverarbeitung blieb eine Kohorte von 179 Patienten (91 cases, 88 control).
Das Combigene Verfahren
1) Klassifizierung der Patienten nur auf Basis klinischer Daten
In dem Verfahrenschritt 1 wurden Untergruppe gesucht, die mit hohem statistischen Signifikanz p < 0,01 und Komplexität < 3 Parameter einzigartig eine klinische Reaktion aufweisen. Die Suchmethoden Entscheidungsbäume (decision trees), X (support vector machines) oder Assoziationsregeln (association rules) (M. Berthold, D.J. Hand, Intelligent Data Analysis, Springer, Heidelberg 1999, S. 195–215) wurden für diesen Schritt verwendet.
Identifiziert wurde eine einzige aussagekräftige Untergruppe, die folgendermaßen beschrieben wird:
Regel 1:
alle Patienten mit ck-Niveau > 80 vor therapeutische Behandlung haben nach Statingabe Nebenwirkungen gezeigt. Diese Regel trifft bei 35 von 179 Probanden und ist sehr aussagekräftig.
Die Prognosegezuverlässigkeit/Signifikanz der Regel wurde mit dem monte-carlo Verfahren auf p < 0,001 geschätzt.
Diese Probanden wurden aus der Kohorte ausgelassen, die neue Kohorte COH₁ bestand aus 56 cases und 88 controls.
2) Klassifizierung der Patienten anhand der Kombination von 1 klinischem Paramter und 1 Gen
Im Verfahrenschritt 2 wurden Untergruppe gesucht, die mit einer Parameterkombination aus einem klinischen Parameter und einem Gen (Komplexität=2) einzigartig eine klinische Reaktion aufweisen. Da klinische Parameter kontinuierliche Werte und genomischen Parameter diskrete Werte aufweisen, wurden die möglichen Untergruppen in jeder Kombination folgendermaßen beschrieben:
Daher wurde eine Charakterisierung der Cases und Controls mit Hilfe einer Kombination der klinischen Parameter und der Genotypisierung vorgenommen. Ziel war, mit Hilfe der klinischen Parameter Probandengruppen so zu charakterisieren, dass in jeder Probandengruppe mit Hilfe der SNP – Daten auf einem einzelnen Gen eine Charakterisierung von einer Untergruppe der Cases oder einer Untergruppe der Controls fehlerfrei erfolgt.
Der Satz von klinischen Parametern wurde künstlich in hohen und niedrigen Werten unterteilt. Für jeden Bereich wurde geprüft, ob ein genomischer Wert s zur Beschreibung des entsprechenden Genes vorhanden war, der die Untergruppe von Probanden mit einer gültigen Zuverlässigkeit (p < .001) aufweist, d.h. wie viele von den 144 Probanden der Kohorte COH₁ – 56 cases oder 88 controls – den bestimmten klinischen Parameter und den genomischen Wert aufweisen.
In dem Validierungsschritt wurde mit Hilfe des monte carlo Verfahren, durch Randomisierung geprüft, ob die automatische Suche in einem randomisierten Satz von Probanden zu den gleichen Untergruppen führt. Es wurde gezeigt, dass die Hypothese, dass die identifizierten Untergruppen falsch und aus purer Zufall gebildet wurden, mit einer p<0,02 ausgeschlossen werden kann. „p" ist dabei die mit Hilfe eines Bootstrapverfahrens geschätzte Wahrscheinlichkeit, dass die Klassifikation auf ein Zufallsereignis zurückgeführt werden kann.
Mit dieser hohen statistischen Signifikanz wurden als Ergebnis der Untergruppenverfahren 4 Gruppen von Paramatern gefunden, die jede aus einem klinischen Parameter und der SNP-Ausprägung (eindeutig charakterisiert aus der Belegung von jeweils 1 oder mehreren SNP's) auf jeweils 1 Gen bestehen, die eine Case/Controltypisierung in jeder Gruppe erlauben. Diese Gruppen lassen sich durch niedrige LDL_SCR_HDL_SCR, CHOL_SCR und hohe ALK_Phos Werte auf der klinischen Seite und 9 SNP's auf insgesamt 4 Genen charakterisieren.
Die gesamte Typisierung auf diesen Gruppen verlangt also insgesamt die Messung von minimal 9 SNP's um eine eindeutige Charakterisierung der relevanten SNP – Ausprägungen auf den jeweiligen Genen vorzunehmen.
44 Cases und 41 Controls konnten mit diesem Verfahren nicht klassifiziert werden, die die Kohorte COH₂ bilden.
3) Klassifizierung der Probanden mit Hilfe einer Kombination von Sets aus 2 interagierenden Genen
In dieser neue Kohorte wurde im dem letzen Schritt der Analyse Untergruppe gekennzeichnet durch einer Kombination von bis zu 2 Genen (Komplexität=2) gesucht. Es wurde auch keine rein genotypbasierte Untergruppe mit einer Komplexität 1 (ein einziges Gen zur Kennzeichnung des Markers) gefunden.
Bei dieser Probandengruppe COH₂ wurde davon ausgegangen, dass einzelne dominante Gene unter den gemessenen Genen nicht existieren, sondern dass die Ausprägung der Phänotypen durch eine Kombination von „schlechten" SNP – Zuständen auf unterschiedlichen Genen hervorgerufen wird.
Mit Hilfe von 2-er Kombinationen von Genausprägungen („Gendubletten") konnten eine hinreichende Zahl von statistisch hoch Signifikanten Gengruppen charakterisiert werden, die in Kombination mit der Vorselektion eine ausreichende Prädiktion von Cases zulassen. Dabei wurde stests nach dem worst-case Prinzip vorgegangen: Ein Proband wird mit Hilfe einer Gendublette nur dann als „Case" prognostiziert, wenn er in der Ausprägung beider Gene einen „schlechten „ SNP – Zustand" aufweist. Die Zahl der Cases, die maximal pro Gendublette mit hoher Signifikanz charakterisiert werden konnten, lag zwischen 18 und 25% der Gesamtzahl der Cases.
Es wurde dabei nach möglichst kleinen Gruppen von „Gendubletten" gesucht, die in Kombination eine möglichst große Zahl von Cases sicher und stabil (d.h. mit 90% Wahrscheinlichkeit im Testset) charakterisieren, wobei die falsch – Positivenrate insgesamt < 2% bleiben sollte. Außerdem wurden die Gengruppen so ausgewählt, dass die Charakterisierung mit einer minimalen Zahl von Genotypisierungen erfolgen konnte. Es wurden daher nur Gendubletten in Betracht gezogen, die mehr als 18% der Cases im Testset charakterisieren konnten. Die Selektion des Cases verläuft dabei nach folgendem Algorithmus:

– berechne für jede Gendublette der Gruppe die prognostizierbare Case – Gruppe
– wenn ein Proband bei einer Gendublette der Gruppe als Case identifiziert ist, dann wird er als Case charakterisiert.

Es konnten insgesamt 32 (mit den 8 zusätzlichen Genen 40) Gruppen a 4 Gendubletten (Tabelle 2) gefunden werden, die eine ausreichende Charakterisierung (Tabelle 1) zulassen:
Dabei sind jeweils Absolutwerte angegeben,.83 entspricht so 83%.
Besonders interessant ist die Gengruppe Nummer 31: mit den 4 Gendubletten:
15/21 Zahl der benötigten SNP's: 2/1
29/84 Zahl der benötigten SNP's: 2/2
34/76 Zahl der benötigten SNP's: 2/2
49/59 Zahl der benötigten SNP's: 2/3
Ihre Performance, gemessen in Sensitivity und Selektivity unter Crossvalidation, ist unter den bisher gefundenen Gruppen optimal.
Es fällt auf, dass eine große Zahl von Gengruppen eine sehr ähnliche Performance hat, die sich auch nur in wenigen Gendubletten unterscheiden.
Auffällig ist, dass das Gen 74 sehr häufig vorkommt und sogar mit sich selbst eine „Dublette" bildet. Dies deutet darauf hin, dass dieses Gen allein eine Typisierung einer weiteren Untergruppe erlaubt. Die Hinzunahme der zusätzlichen 8 Gene brachten keine neuen Ergebnisse, es konnten weder in der Vorselektion noch mit dem Combigene- Verfahren signifikant neue Resultate gefunden werden. Die einzigen neuen Kombinationen enthielten Gendubletten mit den Genen 74/88 oder 74/90, wobei in den Genen 88 und 90 nur 1 signifikanter, variabler SNP- Zustand zu finden war. Daher sind diese Dubletten zur Dublette 74/74 äquivalent und bringen keine neuen Informationen.
Testläufe mit randomisiert verteilten Phenotypdaten konnten in keinem Fall die Performance, die mit den Originaldaten erreicht wurde, wiederholen.
Durch Hinzunahme von weiteren Genen zu den Gendubletten zu Gentripletts bzw. Quadrupletts konnte keine statistisch signifikante Verbesserung der Performance erreicht werden, wobei allerdings nicht auszuschließen ist, dass die Signifikanz wegen der grenzwertig niedrigen Zahl an Probanden deutlich unterschätzt wird. Tabelle 1
Tabelle 2
Ergebnis
Mit dem erfindungsgemäßen Verfahren wurde daher die Prognose von ADR – Phänotypen aus einer Kombination von a priori gemessenen klinischen Parametern und einer Genotypisierung ermöglicht hierbei wurde insgesamt die Messung von 4 klinischen Parametern und 25 SNP's, verteilt auf 12 Genen, verwendet. Es konnten weitere kombinierte Marker gefunden werden, die schwächere, jedoch noch zulässige Performance bei nahezu demselben Messaufwand zeigen.
Die mit dem erfindungsgemäßen Verfahren erzeugten Marker zeigen eine Performance von 80% Sensitivität und 98% Spezifität. Diese Performancedaten wurde im letzten Schritt mit Hilfe von Cross-validation getestet, zusätzliche wurden in den Schritten 1 und 2 mit Hilfe von Bootstrapping p – Werte von < 1% (1. Schritt) und p < 2% im zweiten Schritt bestimmt.

Claims

Verfahren zur Entwicklung eines Biomarkers zur Prognose des Ergebnisses einer therapeutischen Behandlung anhand von Daten klinischer Studien, wobei die von der Therapie unveränderten Daten in diagnostischen und genomischen Parameter geteilt werden, und der Marker durch eine Kombination von Parametern definiert wird, dadurch gekennzeichnet dass, a. die maximale Anzahl von Parameter zu Definition des Markers und hiermit die maximale Komplexität des Systems von Anfang an festgelegt wird, b. die Suche nach definierenden Parametern durch sequenzielle Kombination von klinischen Parametern (= z-Parameter) und/oder genomischen Parameter (= x-Parameter) erfolgt.
Verfahren zur Entwicklung eines Biomarkers nach Anspruch 1, nach folgenden Schritten. a. Eingabe i. der Probandengruppe COH₀, deren z-Parameter und x-Parameter, ii. der Qualitätsanforderung Q₀ nach den klinischen Anwendbarkeitsanforderungen. iii. der erlaubten Gesamtkomplexität c b. Suche nach einem Satz von 1 bis c klinischen Parametern, der eine Untergruppe von Probanden SG₁, charakterisiert, deren klinische Reaktion eine Qualität q die Qualitätserfordernisse q > Q₀ aufweist. c. Definition der Probandengruppe COH₁ als COH₀ minus SG₁, d. Suche nach einem oder mehreren Sätzen von (c-1) z-Parametern und einem x-Parameter, der eine Untergruppe von Probanden SG₂ charakterisiert, deren klinische Reaktion eine Qualität q die Qualitätserfordernisse q > Q₀ aufweist. e. Definition der Probandengruppe COH₂ als COH, minus SG₂, f. Suche nach einem oder mehreren Sätzen von (c-n) z-Parametern und n x-Parametern, wobei n = 0 bis c, der eine Untergruppe von Probanden SG_n+1 charakterisiert, deren klinische Reaktion eine Qualität q die Qualitätserfordernisse q > Q₀ aufweist. g. Definition der Probandengruppe COH _n+1 als COH_n minus SG_n+1, h. Wiederhole Schritte f) bis g) bis keine Untergruppe gefunden werden oder n = c, i. Bilde eine Restgruppe COH_R. j. Ausgabe einer Liste der identifizierten Marker und einer Liste von Probanden der RestgruppeCOH_R
Verfahren zur Entwicklung eines Biomarkers nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Untergruppe SGx einer Controlgruppe (controls) und einer Cases-Gruppe (cases) unterteilt wird.
Verfahren zur Entwicklung eines Biomarkers nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die x-Parameterwerte diskret oder diskretisiert sind, und der Anzahl von x-Parameter auf einem begrenzten Anzahl von wirkenden Werten v (= Metastates) reduziert wird.
Verfahren zur Entwicklung eines Biomarkers nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der Untergruppe SGx eine Prognosezuverlässigkeit zugeteilt wird.
Verfahren zur Entwicklung eines Biomarkers nach Anspruch 5, dadurch gekennzeichnet, dass als Prognosezuverlässigkeit Sensitivität und Spezifität in der Testgruppe gewählt werden.
Verfahren zur Entwicklung eines Biomarkers nach Anspruch 6, dadurch gekennzeichnet, dass die Prognosezuverlässigkeit des Markers größer 80 % Sensitivität und 98 % Spezifität, bevorzugt 80 % bis 85 % Sensitivität und 97.9–98.5 % Spezifität beträgt.