EP4025713A1 - Verfahren und mittel zur diagnose von lungenkrebs - Google Patents

Verfahren und mittel zur diagnose von lungenkrebs

Info

Publication number
EP4025713A1
EP4025713A1 EP20764417.0A EP20764417A EP4025713A1 EP 4025713 A1 EP4025713 A1 EP 4025713A1 EP 20764417 A EP20764417 A EP 20764417A EP 4025713 A1 EP4025713 A1 EP 4025713A1
Authority
EP
European Patent Office
Prior art keywords
regions
tumor
methylation
methylation markers
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP20764417.0A
Other languages
English (en)
French (fr)
Inventor
Torsten GOLDMANN
Sebastian MARWITZ
Ole Ammerpohl
Swetlana SCHEUFELE
Martin Reck
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lungenclinic Grosshansdorf
Christian Albrechts Universitaet Kiel
Forschungszentrum Borstel Leibniz Lungenzentrum FZB
Original Assignee
Lungenclinic Grosshansdorf
Christian Albrechts Universitaet Kiel
Forschungszentrum Borstel Leibniz Lungenzentrum FZB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lungenclinic Grosshansdorf, Christian Albrechts Universitaet Kiel, Forschungszentrum Borstel Leibniz Lungenzentrum FZB filed Critical Lungenclinic Grosshansdorf
Publication of EP4025713A1 publication Critical patent/EP4025713A1/de
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Definitions

  • the present invention relates to the diagnosis of lung tumors. It provides methods that are suitable for diagnosing lung tumors on the basis of surgical samples as well as lung biopsies (here e.g. with the help of DNA microarrays) and liquid biopsies.
  • Cell-free DNA zfDNA is used for liquid biopsies. Both particularly suitable analytical methods and particularly suitable sets of methylation markers are described.
  • the invention also relates to agents suitable for diagnosing lung cancer by examining the methylation of a set of methylation markers, for example in cell-free DNA (zfDNA) from liquid biopsy samples from patients, the agent comprising oligonucleotides which can hybridize with DNA which includes methylation markers, as well as the use of these methods and means for diagnosis, for example determination, subtyping and prognostic characterization of lung tumors.
  • a set of methylation markers for example in cell-free DNA (zfDNA) from liquid biopsy samples from patients
  • the agent comprising oligonucleotides which can hybridize with DNA which includes methylation markers
  • Lung cancer is the second most common cancer in men and women worldwide. Around 52,500 new cases are registered in Germany every year. The mean age of onset is 70 for men and 69 for women. A distinction is made between small cell lung cancer (SCLC) and non-small cell lung cancer (NSCLC) lung cancer. NSCLC are much more common and occur in 85% of affected patients. In addition, several sub-entities are distinguished in NSCLC, the most common of which are adenocarcinomas and squamous cell carcinomas. The fact that the symptoms of the disease usually appear very late is reflected in a poor prognosis. The 5-year survival rate is 15%.
  • SCLC small cell lung cancer
  • NSCLC non-small cell lung cancer
  • Lung carcinomas like most other tumors, have a high degree of genomic heterogeneity.
  • mutations within KRAS, EGFR, BRAF, MEK1, MET, HER2, ALK, ROS1, RET, FGFR1, DDR2, PTEN, LKB1, RB1, CDKN2A or TP53 genes can induce the development of primary lung cancer.
  • passenger mutations which can lead to various subclones, accumulate in the course of tumor evolution. This fact makes the development of a reliable early detection test based only on molecular genetic mutation analyzes very difficult, which is evident from the many examples in the literature. For example, Uchida et al. performed a lung cancer screen / ng based on typical EGFR gene mutations.
  • promoters within certain tumor suppressor genes are hypermethylated, which in turn results in their transcriptional repression. This phenomenon is accompanied by the overexpression of DNA methyltransferases. Promoter hypermethylation has been described particularly frequently in the literature within the P16INK4A, RASSF1A, APC, RARB, CDH1, CDH13, DAPK, FHIT and MGMT genes (Langevin et al. [2015] Transl. Res. 165: 74-90).
  • H4K20me3 is also lower in NSCLC than in healthy lung tissue (Newman et al. [2014] Nat. Methods 20: 548- 554).
  • aberrant ncRNA expression can occur, such as MIR196A, MIR200B, MALAT1 and HOTAIR.
  • the affected patients are first subjected to a comprehensive physical examination.
  • the chest is then examined using imaging methods such as X-rays or computed tomography (CT).
  • CT computed tomography
  • tumors are detected, bronchoscopies are recommended, in which the lungs are thoroughly endoscopically analyzed and biopsies of the tumors are taken.
  • biopsies are then subjected to histological, immunohistochemical and molecular genetic analyzes. During the histological examinations, it is determined whether the tumors are malignant. If this is the case, its entity is determined.
  • molecular genetic and imaging methods are also used. In particular, the imaging and endoscopic procedures can be stressful for the affected patients due to the radiation exposure and invasiveness.
  • the detection limit of the radiological procedure is a tumor size of 7 to 10 mm, which corresponds to cell clusters consisting of around one billion tumor cells.
  • An alternative, less invasive method is based on liquid biopsies, by means of which tumors can be detected much earlier, from a size of approx. 50 million cells.
  • Circulating cell-free DNA can then be isolated from the blood plasma or blood serum.
  • the zfDNA arises in the course of apoptotic and necrotic processes.
  • Cellular, genomic DNA gDNA is split into fragments approx. 167 bp in length by DNAsen and released into the bloodstream.
  • the total amount of zfDNA also contains tumor DNA.
  • the amount of zfDNA can vary greatly depending on the entity or stage of the disease. However, it does contain diagnostically, therapeutically and prognostically relevant information.
  • DNA methylation is of particular interest in this context.
  • the DNA methylation pattern is tissue-specific and changes in the early phases of tumor evolution.
  • zfDNA methylation in the blood remains stable. It is neither modified nor falsified and is therefore suitable as a biomarker in clinical diagnostics (Puszyk et al. [2009] Clin. Chim. Acta 400: 107-110).
  • the diagnostic potential of DNA methylation is also evident from the example of the “Epi proLung” assay (“Epigenomics AG”, Germany).
  • the zfDNA methylation pattern of the SHOX2 and PTGER4 genes is analyzed. With a specificity of 90%, the sensitivity is 67% (Weiss et al. [2017] J. Thorac. Oncol. 12: 77-84).
  • the sensitivity of the "Epi proLung” test is therefore not sufficient for reliable lung cancer screening. So far there are no other methods based on liquid biopsies that enable reliable, preventive early detection of lung cancer.
  • One object of the invention is a method of diagnosing lung cancer which comprises determining the methylation of a set of methylation markers in a sample from a patient, for example, by examining zfDNA from a liquid biopsy.
  • the sample can also be a tissue sample, e.g. a solid tissue sample from a tumor or from a tissue in which a tumor may be present.
  • the tissue sample can come from a biopsy or surgical material from lung tissue.
  • Pleural fluid can also be examined.
  • the method according to the invention is characterized by the fact that, due to the selection of the markers, it is particularly well suited for both an examination of tissue samples taken during an operation and an examination of lung biopsy tissue as well as an examination of zfDNA from a liquid biopsy to be used.
  • the invention provides a method for diagnosing lung cancer in which the methylation of a set of methylation markers, for example in zfDNA from a liquid biopsy Sample of a patient, is determined, optionally an alignment is carried out against a reference genome with the Segemehl algorithm.
  • the invention also provides a method for diagnosing lung cancer in which the methylation of a set of methylation markers, for example in zfDNA from a liquid biopsy sample of a patient, is determined, with the methylation of methylation markers in the genes SERPINB5, DOCK10, PCDHB2, HIF3A, FGD5, RCAN2, HOXD12, O-CA2, SLC22A20, FADL-1, NRXN1, ACOXL, FAM53A, UBE3D and AUTS2.
  • the circulating cell-free DNA (zfDNA) from liquid biopsies e.g. from plasma, blood, or serum, preferably from plasma
  • the total amount of circulating DNA also contains the tumor DNA, which contains all therapeutically and prognostically relevant information about the genetic and epigenetic characteristics of the tumor.
  • the invention provides both preferred methods for diagnosing lung cancer on this basis and also preferred sets of methylation markers.
  • the present invention clearly shows (see Section 2.1.3) that the DNA methylation pattern between the zfDNA from the plasma and the gDNA from a primary tumor correlate only to a limited extent. In fact, the total amount of zfDNA does not only contain DNA from the lungs or a tumor, but also DNA from other tissues and organs.
  • the aim was therefore - in contrast to the approaches known in the prior art, the de- Termination of universal methylation signatures, by means of which the most diverse (also complex) patient samples (also with strongly varying tumor cell content) can be robustly and reliably examined.
  • This has been achieved with the present invention. It is advantageous according to the invention that the identified markers deliver good results both with tissue samples, for example solid tissue samples from tumor tissue, and with liquid biopsies, and are thus suitable for diagnosing lung cancer from different types of samples.
  • DNA methylation signatures in 40 malignant lung tumors and their corresponding controls were examined.
  • An analysis of DNA methylation signatures in the blood plasma of nine patients was then carried out. Five of them suffered from adenocarcinoma and four from squamous cell carcinoma of the lung. The other patients, on the other hand, were free from malignancies and formed the control cohort.
  • additional data sets from several studies made available were evaluated, which made it possible to identify further tumor-specific and prognostic CpG loci.
  • the set of methylation markers synthesized on this basis also known as the plasma panel (see Table 1), was then validated in a pilot study.
  • This set of methylation markers comprises a large number of regions that are differentially methylated in zfDNA, for example, and surprisingly allow a specific statement about the presence of a tumor, the tumor entity, the tumor stage and / or the prognosis.
  • the invention therefore relates to a method for diagnosing lung cancer in which the methylation of a set of methylation markers is determined in a sample from the patient, the set of methylation markers from the group consisting of those listed in Tables 1a, 1b and 1c Regions is selected and comprises at least 60 regions, preferably at least 64 regions, more preferably at least 340 or at least 350 regions, most preferably at least 630 regions.
  • methylation markers can be determined to determine the presence of a tumor.
  • the invention also relates to a method for diagnosing lung cancer in which the methylation of a set of methylation markers is determined in a sample from the patient where the set of methylation markers is selected from the group consisting of the regions listed in Tables 1a, 1b and 1c and comprises at least 134 regions, preferably 138 regions, more preferably at least 240 regions, most preferably at least at least 247 regions.
  • methylation markers can be determined to determine the entity of a tumor.
  • the set of methylation markers can comprise at least 194 regions, preferably at least 600 regions, optionally all 630 regions.
  • at least 60, preferably at least 64, methylation markers can be determined in order to determine the presence of a tumor, e.g. methylation markers from Table 1a, and at least 134, preferably 138 regions, methylation markers can be determined in order to determine the entity of the tumor, e.g. Methylation markers from Table 1b.
  • the more methylation markers that are determined the more accurate the analysis. Therefore, at least 150, preferably at least 340 or even 350 methylation markers can be determined to determine the presence of a tumor, e.g.
  • methylation markers from Table 1a and at least 240 or even 247 methylation markers can be determined to identify the tumor entity determine, e.g. methylation markers from Table 1b.
  • at least 15, preferably at least 30 or even 33 methylation markers from Table 1c can also be determined in order to determine the prognosis.
  • the invention therefore relates to a method for diagnosing lung cancer in which the methylation of a set of methylation markers in a sample of a patient, for example in zfDNA from a liquid biopsy sample of a patient, is determined, the set of methylation markers being at least 60 Includes regions selected from the group consisting of:
  • the aforementioned methylation markers are the markers listed in Table 1a, which were only identified in the case of zfDNA. In this analysis, the presence of a tumor is preferably checked, the set of methylation markers optionally including all regions of the group.
  • the set of methylation markers can include at least 340 regions, selected from the group consisting of the regions listed in table 1a, the set of methylation markers preferably including all regions listed in table 1a.
  • the set of methylation markers comprises at least 134 regions selected from the group consisting of
  • the aforementioned methylation markers are the markers mentioned in Table 1b, which were only identified in the case of zfDNA.
  • the entity of a tumor is preferably checked, it being possible in particular to differentiate between adenocarcinoma and squamous cell carcinoma.
  • the set of methylation markers can include all regions of the group.
  • the set of methylation markers can also include at least 240 regions, the group consisting of the regions listed in Table 1b.
  • the set of methylation markers preferably comprises all regions of the group listed in Table 1b.
  • the significance of the analysis is greatest when the set of methylation markers comprises at least 620 regions from a group which consists of all regions listed in Table 1, in particular when determining the prognosis, preferably when the set of methylation markers includes all regions of the Group includes.
  • differentially methylated regions for example the regions defined in Table 1a, 1b and / or 1c, can serve as methylation markers, or differentially methylated positions.
  • the analysis of entire regions leads to more reliable results, since specific positions do not necessarily have to have the same informative value for individual patients. For this, an analysis of specific positions is possible with less effort, for example using an array, and is therefore beneficial if an inexpensive diagnosis is to be made. The selection is therefore based on a balance between the reliability required in each case and the possible effort.
  • both types of methylation markers can be used for diagnosis at the same time.
  • the amount of sample present also plays a role, since primarily tissue samples from operations contain sufficient amounts of DNA to determine an analysis of individual methylated positions via an array.
  • methylation markers identified in this context are partly in the genes SERPINB5, DOCK10, PCDHB2, HIF3A, FGD5, RCAN2, HOXD12, OCA2, SLC22A20, FADL-1, NRXN1, ACOXL, FAM53A, UBE3D and AUTS2BE3D. These genes have never been specifically described in relation to lung cancer or certain NSCLC entities.
  • SERPIN5 is, for example, a known oncogene (Lei et al. [2011] Oncol. Rep. 26: 1115-1120).
  • HOX genes are expressed aberrantly in many types of cancer (Bhatlekar et al. [2014] J. Mol. Med. 92: 811-823).
  • Dysregulation of RCAN2 leads to proliferation of tumor cells (Niitsu et al. [2016] Oncogenesis 5: e253).
  • Altered expression of DOCK10 resulted in the migration of melanoma cells in some studies (Gadea et al. [2008] Curr. Biol. 18: 1456-1465).
  • HIF3A and FGD5 are important angiogenesis regulators and thus play a decisive role during tumor evolution (Jackson et al. [2010] Expert Opin. Therap. Targets 14: 1047-1057); and Kurogane et al. [2012] Arterioscler. Thrombus Vase. Biol. 32: 988-996).
  • the DNA methylation of some PCDHB2-CpG loci is associated with a poor prognosis in neuroblastoma patients (Abe et al. [2005] Cancer Res. 65: 828-834).
  • Altered metabolism for example, is a characteristic of malignant tumors, in which the FADL-1 fatty acid transporter as well as some SLC transporters can play an important role (Lin et al. [2015] Nat. Rev. Drug Discov. 14: 543-560; and Black [1991] J. Bacteriol. 173: 435-442).
  • UBE3D codes for a ubiquitin protein ligase.
  • Several studies have shown that some ubiquitin protein ligases can play an important role during tumor evolution (including Lisztwan et al. [1999] Genes Dev. 13: 1822-1833).
  • AUTS2 and NRXN1 are neuronal genes.
  • AUTS2 overexpression was detected in liver metastases (Oksenberg & Ahituv [2013] Trends Genet. 29: 600-608).
  • NRXN1 could be responsible for nicotine addiction (Ching et al. [2010] Am. J. Med. Genet. B. Neuropsychiatr. Genet. 153B: 937-947).
  • Increased expression of ACOXL has already been described in prostate carcinomas (O'Hurley et al. [2015] PLoS One 10: e0133449).
  • the invention thus provides for the first time a method for diagnosing lung cancer in which the methylation of a set of methylation markers, for example in zfDNA from a liquid biopsy sample of a patient, is determined, the methylation of methylation markers in the SERPINB5 genes , DOCK10, PCDHB2, HIF3A, FGD5, RCAN2, HOXD12, OCA2, SLC22A20, FADL-1, NRXN1, ACOXL, FAM53A, UBE3D and AUTS2.
  • methylation markers preferably include the methylation markers mentioned in Table 2, in particular if the presence of a lung carcinoma is to be determined.
  • the methylation markers include the methylation markers listed in Table 3. Both the methylation markers mentioned in Table 2 and in Table 3 are preferably determined in order to answer both questions.
  • the methylation markers mentioned in Table 4 can also be analyzed, which also allows conclusions to be drawn about the stage of the tumor.
  • the invention thus also provides a method for diagnosing lung cancer in which the methylation of a set of methylation markers, for example in zfDNA from a liquid biopsy sample of a patient, is determined, the set of methylation markers having the 10 following positions (see also table 2) includes:
  • the set of methylation markers can include the following 10 positions (see also Table 3):
  • markers are particularly meaningful when the RT algorithm is used for analysis.
  • the entity of a tumor can be identified with these markers.
  • the set of methylation markers can also include all Po sitions include.
  • the SVM algorithm can be used for analysis. For example, regions that could not be validated using samples from early stages of lung cancer could be metastasis-specific signatures. These regions were therefore used for the calculation of the Sfag / ng parameter, i.e. for the calculation of the stage. So far, the staging parameter described in this work can differentiate the late stages of lung cancer from early stages with 80% accuracy. In general, the staging parameter should only be used as a reference.
  • the lung cancer can be NSCLC or SCLC, preferably NSCLC.
  • the NSCLC is preferably an adenocarcinoma or squamous cell carcinoma. It has been shown that markers according to the invention can differentiate between these entities and are thus suitable for differential diagnosis.
  • the diagnosis according to the invention allows a statement to be made about the presence of a tumor, about the entity of a tumor (in particular the differentiation between adenocarcinoma and squamous cell carcinoma), about the tumor stage and / or about the prognosis. Most important is the statement about the presence and entity of the tumor. Further statements can optionally also be made by means of supplementary methods if the presence of a tumor has been determined according to the invention.
  • the method according to the invention also allows a statement to be made about the presence of a tumor, about the entity of a tumor (in particular the distinction between adenocarcinoma and squamous cell carcinoma) and about the tumor stage, and preferably about the prognosis.
  • diagnosis therefore includes a differential diagnosis.
  • the method according to the invention is also suitable for early detection of lung cancer, that is to say also for diagnosis in stage I or II.
  • this diagnosis is also possible on the basis of a liquid biopsy sample, e.g. a blood sample, so that different tissue does not necessarily have to be removed from the patient.
  • a liquid biopsy sample from a patient is analyzed.
  • the method according to the invention can advantageously also be carried out reliably on the basis of lung biopsy tissue.
  • paired biopsy tissue from lung biopsies of the presumably diseased and the presumably healthy lung of a patient in parallel.
  • usually only the tumor or the suspicious tissue is biopsied, whereby previously collected data records of healthy tissue can serve as a reference.
  • the patient is a human.
  • the word patient is generally used synonymously with subject. It may be a patient with symptoms that suggest the patient may have a lung tumor. However, it can also be a subject without symptoms.
  • the subject or patient can be a risk patient for a lung tumor. This includes subjects who, due to certain risk factors and / or their lifestyle (e.g. smoking, use of e-cigarettes or other increased exposure to carcinogenic agents, symptoms) have an increased risk of lung cancer and / or have radiological abnormalities.
  • the patient can also be a patient with a lung tumor that has already been treated, for example an operated one, it being possible to investigate the recurrence of a tumor and / or a metastasis.
  • the zfDNA can be extracted from a variety of body fluids.
  • the liquid biopsy sample can be blood, plasma, serum, sputum, bronchial fluid and pleural effusion. It is preferably derived from blood, for example serum or plasma, preferably plasma. Since pleural effusion only occurs in the course of the disease, this material is particularly suitable for the detection of later stages.
  • the zfDNA extraction from plasma or serum is significantly faster and cheaper than from urine, which makes these materials more interesting for screening.
  • the zfDNA stability is relevant, because zfDNA is more stable in plasma than in serum.
  • the invention provides means which are suitable for diagnosing lung cancer with a method according to the invention by examining the methylation of a set of methylation markers, for example in zfDNA from a liquid biopsy sample of a patient.
  • the agents are preferably also used for diagnosing lung cancer with a method according to the invention by examining the methylation of a set of methylation markers in another sample of a patient, in particular a solid tissue sample from a tumor or a tissue in which a tumor is suspected or from a lung biopsy.
  • the agent comprises oligonucleotides which can hybridize with DNA (e.g. zfDNA or DNA derived therefrom, e.g. by bisulfite conversion), which methylation markers according to the invention comprise or consist of them. Methylation markers from the subgroups mentioned in the claims are preferred here. “Can hybridize” is to be understood as a specific hybridization, in particular under stringent conditions, such as those described in the experimental section.
  • Suitable oligonucleotides are, for example, oligonucleotides which can hybridize with the regions mentioned in Table 1a, 1b and / or 1c, preferably in Table 1a, because they are complementary to these regions or a fragment thereof which contains at least 20 nucleotides, for example when coupled to a solid support preferably comprises 60-352, optionally 100-190 or 135-157 nucleotides.
  • the length depends, among other things, on the base composition or sequence and the hybridization temperature as well as the technology selected. Since it is double-stranded DNA, the oligonucleotides can be complementary to the strand in the 5'-3 'direction or to the strand in the 3'-5' direction, or both.
  • oligonucleotides cannot hybridize with regions other than those mentioned in the tables, which is also a prerequisite for specific hybridization.
  • suitable oligonucleotides which can hybridize with the regions on chromosome 1 mentioned in Table 1a, 1b and 1c are listed in Table 5.
  • the person skilled in the art is able to select suitable oligonucleotides for other markers on the basis of the information disclosed herein about the markers.
  • Such oligonucleotides can optionally comprise further components, for example spacer or linker regions.
  • the oligonucleotides according to the invention can, for example, be coupled to a solid support, or are oligonucleotides which are coupled to a solid support. Such a coupling is possible e.g. via adapters or tags. One option for this is coupling to biotin, which can bind (or is already bound) to streptavidin or avidin, which is coupled to the solid support.
  • the solid support can be, for example, a gene chip, a bead or a bead, for example a magnetic bead or a matrix of columns.
  • the carrier thus allows simple separation of the hybridized DNA.
  • magnetic beads are described which are coupled to oligonucleotides via a streptavidin-biotin bond, which specifically hybridize with the regions mentioned in Table 1 and can be used as capture probes.
  • the agents according to the invention optionally comprise 638 oligonucleotides, e.g. capture probes, which can hybridize with all of the methylation markers mentioned in Table 1.
  • the oligonucleotides according to the invention can also be a kit comprising PCR primers for amplifying regions which comprise the methylation markers or (in particular in the case of regions from Table 1) consist of them.
  • PCR primers are preferably about 12-40, optionally 15-25, nucleotides in length, which can hybridize with the regions mentioned.
  • Such a kit can also comprise blocking oligonucleotides or detection probes which, after bisulfite conversion, can specifically bind to previously methylated or unmethylated DNA.
  • Such oligonucleotides can be used, for example, in PCR-based methods according to the invention.
  • An analysis by PCR is particularly useful if only a limited number of markers is to be analyzed, e.g. the markers in the genes mentioned above.
  • the markers defined in Table 2 are preferably analyzed with this method, alternatively or additionally also the markers defined in Table 3, so that correspondingly suitable oligonucleotides can be selected.
  • One or more primers suitable for multiplex PCR can optionally be selected.
  • Probes for detection are preferably marked with suitable dyes.
  • the invention also provides a method in which the agents according to the invention are used for a diagnosis of lung cancer in a sample from a patient, optionally zfDNA from a liquid biopsy sample from a patient (also: subject) being examined. Due to the selection of markers, however, other samples, e.g. from biopsies and Bronchoscopies or from tissue samples taken during an operation are examined with the agents according to the invention, in particular with those that include markers from Table 1 a, b and / or c, preferably all markers from Table 1a and 1b, optionally also from Table 1c . Biopsies can also be taken from the outside, possibly with imaging.
  • the bioinformatic evaluation pipeline poses a further problem.
  • the conventional gDNA-WGBS libraries are usually aligned with the “Bismarck” algorithm after processing. The results of the alignment can then be analyzed by numerous evaluation pipelines, with genome-wide DNA methylation signatures being extracted.
  • the WGBS experiment of circulating DNA carried out in the exemplary embodiments was the first of its kind. It turned out that the zfDNA-L / brar / es have a different complexity and fragment distribution than conventional gDNA-L / brar / es (see Section 1.1 .2.5). This could be the reason why the “Bismarck” algorithm most frequently used in the prior art delivered an unsatisfactory mapping efficiency of only 70%. For this reason, further algorithms were tested. The best results, with a mapping efficiency of at least 98%, were provided by the “Segemehl” algorithm (see Section 1.1.2.5).
  • the Segemehl algorithm is used in particular for aligning (that is, for arranging) the sequencing information of the zfDNA with respect to a reference genome.
  • the Segemehl algorithm can be found at https://www.bioinf.uni-leipziq.de/Software/seqemehl/. and is e.g. in Otto et al. described in more detail (Otto et al. [2012] Bioinformatics 28: 1698-1704). As in the example below, version 0.2.0 can be used, but also another version, such as 0.3.4.
  • the invention also relates to a method according to the invention for diagnosing a lung tumor, which comprises the following steps: a. Extraction of zfDNA from a liquid biopsy sample or genomic DNA from a lung biopsy tissue sample or a solid tissue sample, which is taken, for example, during an operation, optionally from zfDNA from a liquid biopsy sample, b. Carrying out a bisulfite conversion, c. Creation of a Whole Genome Bisulfite Sequencing Library, d. Enrichment of the DNA regions comprising the defined metabolism markers, these being preferably brought into contact with an agent according to the invention for diagnosis, e. Sequencing the enriched DNA regions, f. alignment of the sequencing data against a reference genome using the Segemehl algorithm, g. Calculation of the methylation rates.
  • the converted DNA e.g. zfDNA
  • Library preparation takes place in two steps.
  • a WGBS library is created from each sample, which contains information about the entire methyloma or the zfDNA methyloma of the corresponding patient.
  • these can be enriched from the entire methylome. This can be done as a second step based on the Whole Genome Bisulfite Sequencing Library.
  • methylation markers can be used for the enrichment, e.g. the markers from Table 1a identified for the first time in the context of the present work in zfDNA, all markers from Table 1a, alternatively or additionally the markers from Table 1b and / or 1c .
  • Capture probes for example, can be used for enrichment. These capture probes can cover the entire plasma panel or parts of it (see section 1.2.1).
  • the enriched library can be QC and quantified (see Section 1.1.2.2). It is preferably sequenced, e.g. on the "MiSeq" ("Illumina", USA) (see section 1.2.2).
  • the sequencing data can, for example, be saved in the "FastQ” format and then analyzed (see e.g. Section 1.2.3). It is preferable not to analyze the entire methylome, but rather only defined methylation markers.
  • Preferred methylation markers are, for example, the 638 regions determined in Table 1 (plasma panel).
  • the Segemehl algorithm in particular is used for the analysis against a reference genome.
  • the methylation patterns are then calculated.
  • the format of the "Segeiolo-OufpL / f-files" is different from the typical "Bismarck” format. Therefore, if necessary, a suitable analysis pipeline compatible with “Segemehl” can be used.
  • the “Bisulfite Analysis Toolkit” can be mentioned as an example in this context. These modular software can be used on numerous computing clusters and expanded with additional software and your own scripts. To identify the differentially methylated markers suitable for lung cancer diagnosis, the analysis pipeline can be supplemented with your own bio-informatics scripts, for example those disclosed herein.
  • telomere sequence As an alternative to the diagnostic method using sequencing, it is also possible to carry out an analysis using PCR on the basis of the results according to the invention. This is particularly relevant for smaller subgroups of the specific markers, e.g. if initially a sample from a patient is only to be examined for the presence of a tumor and / or the determination of the tumor entity.
  • suitable primers can be used to amplify regions of the zfDNA, for example, and to detect the positions mentioned in Table 2 and / or 3. This can be done from purified, bisulfite-converted DNA, e.g. using real-time PCR.
  • multiplex PCRs or parallel approaches can also be used.
  • beta-actin can be analyzed to check whether the amount of total DNA in the sample is sufficient.
  • e.g. zfDNA from a liquid biopsy, preferably from plasma can be purified, bisulfite-converted and then purified again.
  • Blockers and detection probes can also be used for the PCR, which specifically recognize the bisulfite-converted, unmethylated sequences within the regions and block their amplification, so that the methylated sequences are amplified preferentially. Methylation-specific probes then only defective methylated sequences that were amplified during the PCR.
  • the methylation patterns determined in the sample of a patient can be correlated with the patterns known herein for tumors, optionally for a specific entity and / or a specific stage as specified in the tables, for example. According to the invention, this allows statements to be made about the presence, the entity, the stage and / or the prognosis of a lung tumor and thus allows a reliable, extended diagnosis. According to the invention, this diagnosis can be used to select a therapy in the presence of a tumor or to decide on the initiation of a therapy.
  • the invention thus also relates to a method for treating a lung tumor, which comprises a diagnostic method according to the invention, this tumor being treated if a tumor is present.
  • the entity of the tumor can also be determined, whereby a therapy suitable, for example, for an adenocarcinoma or a squamous cell carcinoma can be selected.
  • Suitable therapy may include, for example, administration of suitable drugs or combinations of drugs and / or radiation.
  • the diagnostic method can be used to carry out further diagnostic steps if a tumor is detected, such as taking a solid biopsy and / or imaging methods.
  • the invention also relates to a use of a method according to the invention or an agent according to the invention for diagnosing lung cancer, the diagnosis allowing a statement to be made about the presence of a tumor, about the entity of a tumor, about the tumor stage and / or about the prognosis, preferably about the presence and entity of the tumor, optionally about everything at the same time.
  • an NGS panel that is based, among other things, on genome-wide zfDNA methylation signatures from plasma.
  • the method according to the invention is explicitly characterized by the fact that, due to the selection of the markers, it is particularly suitable for examining zfDNA from a liquid biopsy, for example, for examining tissue samples taken during an operation or lung biopsy tissue.
  • the plasma panel differentiated malignant lung tumors from stage I with 100% accuracy, identified the most common NSCLC subtypes and provided further information regarding the determination of the stage of the lung tumors (staging).
  • Fig. 1 The WGBS sequencing data were evaluated in several steps. A. First of all, the data was subjected to a QC (e.g. with FastQC) and then processed.
  • a QC e.g. with FastQC
  • Fig. 2 Processed sequencing data were aligned against the “HG19” reference genome using the “Bisulfite Analysis Toolkit” using the Segemehl algorithm. In addition, DNA methylation rates and differentially methylated regions were detected and overview graphics were created.
  • Fig. 4 The functional principle of a classifier.
  • an annotation file is generated from the data of the validation cohort (12 patients), which is also loaded into the "Qlucore Omics Explorer” software with the determined DNA methylation rates of the regions contained in the plasma panel (see Table 1).
  • the DNA methylation data (variables) and the annotation file are used by implemented algorithms ("k-Nearest Neighbors Algorithm” (kNN), "Support Vector Machines” (SVM) and “Random Trees” (RT)) to create an optimal model to create. This process is known as predictive modeling.
  • kNN k-Nearest Neighbors Algorithm
  • SVM Simple Vector Machines
  • RT Random Trees
  • Fig. 6 The DNA methylation rates determined with the “BAT_calling” and “BAT_filter_vcf” modules were loaded into the “BAT_summarize” module of the “Bisulfite Analysis Toolkit”.
  • A. The scatter plot clearly shows that the lung cancer group can be differentiated from the control group (tumor-free patient cohort) based on the DNA methylation pattern.
  • B. The middle and C. the staggered displays of the DNA methylation rates per group illustrate the genome-wide hypermethylation of the lung carcinoma group compared to the control group.
  • the zfDNA methylation patterns determined were normalized and subjected to a hierarchical cluster analysis. Thereby A. 18,000 for the lung carcinoma and B. 44,000 for the respective entity specific differentially methylated CpG loci were identified (adenocarcinoma (A.K.), squamous cell carcinoma (P.K.)).
  • Fig. 8 “Pearson” correlation analysis of the DNA methylation values detected with both methods (HM 450K and WGBS) (adenocarcinoma (A.K.), squamous cell carcinoma (P.K.)).
  • Fig. 9 The zfDNA methylation rates determined were loaded into the “Qlucore Omics Explorer” software and analyzed using the following classification algorithms: “k-Nearest Neighbors Algorithm” (kNN), “Support Vector Machines” (SVM) and “Random Trees” “(RT). A high z value indicates strong methylation. A. By analyzing 10 differentially methylated positions (markers), the kNN algorithm was able to distinguish healthy (control) patients from malignant lung cancer patients. Both the early (I, II) and the late (III, IV) stages of lung cancer were classified with 100% accuracy (light bar on top of the figure: malignant lung tumor, dark bar (3 columns left): control).
  • the late tumor stages (III, IV) could be identified with 80% accuracy with the SVM algorithm, 523 positions were analyzed ((light bars on top of the figure (4 columns left): early stage (I, II ), dark bars at the top of the figure (5 columns on the right): late stage (III, IV))
  • the evaluated positions are partly more methylated in the early and partly in the late stages.
  • a suitable panel that is to say a set of methylation markers, for DNA methylation analysis in blood plasma was developed within the scope of the invention.
  • the set of methylation markers is therefore also referred to as a plasma panel.
  • the plasma panel was developed in three independent approaches. The first approach examined whether DNA methylation is generally suitable as a biomarker for lung cancer diagnosis (see Section 1.1.1). For this purpose, 40 lung carcinomas and their corresponding controls were analyzed using the "Illumina Infinium Human Methylation450K BeadChip" (HM 450K). The method identified clear, tumor-specific DNA methylation signatures. Next up were as in the section
  • the method detected several thousand aberrantly methylated CpG loci that were not only tumor-specific but also entity-specific. From these, the most suitable regions for the differentiation for the plasma panel were selected (see Section 1.1.2.5.5). Since the diagnosis according to the invention should preferably be made on the basis of liquid biopsies, the methylation markers identified here are of particular importance. In the third approach, the plasma panel was supplemented with 59 tumor-specific and prognostically relevant CpG loci from further studies (see Section 1.1.3).
  • the HM 450K data set contained information on the methylation status of 40 lung carcinomas (adenocarcinomas and squamous cell carcinomas) and their corresponding controls.
  • the data set was evaluated with the "Qlucore Omics Explorer” software (version 3.2, “Qlucore”, Sweden) and resulted in:
  • the circulating cell-free DNA is used according to the invention for the non-invasive diagnosis of solid tumors. If a patient suffers from a malignant tumor disease, the total amount of circulating DNA also contains the tumor DNA, which contains all therapeutically and prognostically relevant information about the genetic and epigenetic characteristics of the tumor. Therefore, the zfDNA has to be isolated from the blood or blood plasma. Since zfDNA can only be extracted from the blood plasma in a very small amount, a method was chosen that enriches the zfDNA very specifically and efficiently without isolating further components of the plasma.
  • the “PME free-circulating DNA Extraction Kit” (“Analytik Jena”, Germany, see Section 1.1.2.1) can be used. It contains a polymer which complexes only very specific short-stranded dsDNA fragments. The polymer-zfDNA complex is then precipitated and purified. After the purification, the complex compound can be dissolved. The DNA released in the process is purified from the polymer and concentrated in further steps, for example by binding to a silica column. Other methods based, for example, on the same or similar active principles can also be used. The resulting Product is very clean and can also be used for sensitive NGS-based analysis methods such as WGBS.
  • Blood plasma was prepared and shipped on dry ice. For this purpose, the whole blood was centrifuged for 10 minutes at 1,500 g within 30 minutes after it was taken. After centrifugation, the plasma supernatant was carefully pipetted off, distributed to “CryoPure” vessels (“Sarstedt AG & Co”, Germany) and immediately frozen at -80 ° C.
  • the frozen plasma samples were slowly thawed under lukewarm water and then centrifuged at 4,500 g for 10 minutes. The pellet was discarded, the clear supernatant transferred to a 10 ml tube and processed with the “PME free-circulating DNA extraction kit” according to the manufacturer's instructions.
  • the zfDNA was quantified fluorometrically using the “Qubit dsDNA High Sensitivity Assay Kit” (“Thermo Fisher Scientific”, USA). For this purpose, 1 pl_ of the sample was mixed with the 198 ml_ “Qubit dsDNA HS Buffer” and 1 ml_ “Qubit dsDNA HS Reagent”, incubated for 2 minutes and then ver measure up.
  • the “Qubit dsDNA HS Reagent” is a dye that generates a very weak fluorescence signal under normal conditions. In the presence of double-stranded DNA (dsDNA), however, it intercalates into the dsDNA, changes its structure and generates a strong fluorescence signal. Neither single-stranded DNA (ssDNA) nor RNA is bound. The signal intensity thus correlates exclusively with the amount of dsDNA present in the sample.
  • the quality of the extracted zfDNA was analyzed using the “Agilent 2100 High Sensitivity DNA Kit” (“Agilent”, USA).
  • the method was capillary gel electrophoresis.
  • the “Gel-Dye Mix” had to be prepared. 300 ml of the gel matrix were mixed with 15 pL of the dye concentrate, mixed and placed on a "spin filter”. Centrifugation was carried out for 10 minutes at 2240 g.
  • the DNA chip was placed in the “priming station” and equilibrated. For this purpose, 9 ml of the “Gel-Dye Mix” were pipetted into the well provided for the equilibration process.
  • the stamp of the "Priming Station” was adjusted to one milliliter. After the priming station was firmly closed, the plunger was pressed down for one minute. Finally, the remaining wells of the chip were loaded according to the manufacturer's instructions. The chip was incubated for 1 min and measured immediately afterwards. During the incubation period, a fluorescent dye contained in the “Gel-Dye Mix” intercalated between the bases of the dsDNA. The dsDNA fragments were then plugged drawn through the microscopic capillaries of the "Agilent 2100 Bionalyzer"("Agilent", USA) and separated according to fragment size and detected.
  • DNA is subjected to genome-wide PCR-based amplification.
  • the DNA polymerases cannot differentiate between cytosines and 5-methylcytosines, so that all 5-methylcytosines are replaced by cytosines during the reaction. The newly synthesized strands are not re-methylated.
  • the sample is subjected to a treatment with sodium bisulfite before the PCR.
  • This process is known as bisulfite conversion, during which all unmethylated cytosines are converted into uracils.
  • the methylated cytosines remain unchanged under the selected reaction conditions.
  • the bisulfite conversion reaction is described in NEB, N.E.B. Bisulfite conversion (available at: http://www.neb-online.de/wp-content/uploads/2015/04/NEB epigenetik bisulfit3.jpg) and in Clark et al. (Clark et al. [1994] Nucl. Acids Res 22: 2990-2997).
  • the bisulfite conversion of the zfDNA can be done e.g. with the "EZ DNA Methylation-Gold TM Kit” ("Zymo Research", USA). For this, 10 ng of the previously extracted zfDNA was dissolved in 20 ⁇ l of water, mixed with 130 ml of "CT” conversion reagent and processed in the thermal cycler with the following program: 10 min 98 ° C, 2.5 h 64 ° C, up to 20 h at 4 ° C. In the next step, the bisulfite-converted samples were desulfonated and purified.
  • WGBS is an NGS-based method (next generation sequencing).
  • NGS next generation sequencing
  • the underlying sequencing reaction is based on fluorescence and takes place on a glass slide, also called a flow cell.
  • Illumina special “Illumina” adapters (short oligonucleotides) are first ligated. The sample is then subjected to a denaturation reaction.
  • the ssDNA fragment to be sequenced is "twisted".
  • the DNA strands are replicated. This process is known as bridge amplification.
  • the so-called sequencing clusters which subsequently dissociate, arise from the progressive amplification at limited positions. After the cluster formation, the actual sequencing reaction takes place, in which DNA bases are incorporated which, depending on the incorporated base, generate fluorescence signals of different wavelengths. After each completed installation cycle, these fluorescence signals are detected and thus provide information about the base sequence within a read.
  • the “Accel-NGS ® Methyl-Seq DNA Library Kit” (“Swift Biosciences”, USA) was established for the following experiments.
  • the kit was specially developed for WGBS of the zfDNA.
  • Complex WGBS libraries can be generated with zfDNA quantities of less than 10 ng.
  • the central role is played by the enzyme “adaptase”, which adds a 10 nt long overhang to the 3 'end of the bisulfite-converted ssDNA. This overhang enables better ligating of the sequencing adapters and thus more efficient library production. Therefore, according to the invention, a method for producing the WBGS libraries is preferably used which, by means of the enzyme adaptase, inserts a 10 nt overhand at the 3 'end of the bisulfite-converted ssDNA.
  • Extension Reaction Mix 44 ml “Extension Reaction Mix” was added to the sample, carefully mixed and incubated in the animal cycler (program 2: 98 ° C 1 min; 62 ° C 2 min; 65 ° C 5 min; 4 ° C).
  • the product has been purified.
  • "SPRI Beads” (Beckman Coulter”, USA) can be used for this.
  • the finished product was purified using “SPRI Beads” (“Beckman Coulter”, USA).
  • the PCR was carried out. 5 pL of the respective index and 25 pL of the “Indexing PCR Reaction Mix” were added to each sample.
  • the finished PCR reaction was incubated in the thermal cycler (program 4: 98 ° C 30 s; PCR cycles: 98 ° C 10 s; 60 ° C 30 s; 68 ° C 1 min (7-9 cycles); 4 ° C ) and purified using the “SPRI Beads” (“Beckman Coulter”, USA) according to the manufacturer's instructions.
  • the finished WGBS libraries were quantified as described in Section 1.1.2.2 and checked for quality.
  • the samples were transferred to 1.5 mL Eppendorf reaction vessels and “SPRI Beads” (“Beckman Coulter”, USA) were added in the prescribed ratio (Tab. A). The samples were then mixed and incubated for 5 minutes at room temperature. Since the beads were magnetic, the principle of magnetic separation could be used for pelletizing. For this purpose, the reaction vessels were placed on a magnetic stand and then incubated for 2 min at room temperature. After the incubation, the supernatant was removed, the beads were washed twice with 500 ⁇ l of 80% ethanol each time (“Merck Millipore”, USA) and then air-dried. Once the ethanol had evaporated, the samples were removed from the magnetic stand.
  • the “SPRI Beads” were resuspended in the prescribed amount of “Low EDTA TE” buffer (Tab. A) and incubated for 2 min at room temperature. Finally, the samples were placed back on the magnetic stand. After approx. 2 min, the supernatant and the “SPRI beads” were completely separated. The supernatant contained the purified product, was pipetted off and used for the next step.
  • the WGBS libraries were sequenced on the “NextSeq 500” platform (“Illumina”, USA) in the “TATAA Biocenter” (Gothenburg, Sweden). Four 76 pair end (PE) runs were carried out in high throughput mode.
  • the WGBS libraries could not be created with conventional protocols due to the high level of fragmentation and small amounts of zfDNA.
  • the zfDNA libraries produced with the “Accel-NGS ® Methyl-Seq DNA Library Kit” (“Swift Biosciences”, USA) thus had a different complexity and fragment distribution than the conventional WGBS libraries. Therefore, a suitable bioinformatic evaluation pipeline had to be established in order to be able to analyze the data optimally.
  • WGBS data In general, several steps have to be established in order to be able to evaluate WGBS data (Fig. 1). First, the quality of the raw data is checked. The “FastQC” software (version 0.11.15, “Babraham Bioinformatics”, England) is most frequently used for this purpose (see Section 1.1.2.5.1). The software visualizes the quality of the sequencing, length distribution and composition of the reads. In addition, information is provided about possible adapter contamination and the number of kmeres and PCR duplicates. Sequences with a minimum length of two nucleotides, which are repeated over and over again in the raw data, are called Kmers.
  • the reads can be arranged against a reference genome of your choice; this process is also known as alignment (see Section 1.1.2.5.3). Many algorithms are available for the alignment. Depending on the nature of the WGBS library, the appropriate one must be selected and optimized. The mapping efficiency can be analyzed for this. The percentage of analyzed reads that can be assigned to the reference genome is calculated.
  • the "bis- marck “algorithm Karl & Andrews [2011] Bioinformatics 27: 1571-1572.
  • “Bismarck” version 0.15.0, “Babraham Institu te”, England
  • did not deliver satisfactory results (mapping efficiency of approx. 70%). Therefore, further algorithms were tested.
  • the data are filtered according to the CpG context and the desired coverage (at least fourfold), e.g. with the "Bisulfite Analysis Toolkit” (Version 0.1, “Interdisciplinary Center for Bioinformatics, Leipzig University”, Germany) and only then used for peak calling (see section 1.1.2.5.3).
  • the coverage also known as the sequencing depth, indicates how often a position was read during sequencing. E.g. an average coverage of 100 times says that each sequenced base was read an average of 100 times. Peak calling is the actual step in which the methylation status of the respective CpG is calculated.
  • the conventional libraries have an average coverage of 30 to 40 times, which is what the conventional methods for peak calling are designed for.
  • the zfDNA libraries had an average coverage of 8 to 10 times due to their lower complexity. Accordingly, the filtering and peak calling, e.g. with the "Bisulfite Analysis Toolkit", had to be optimized.
  • the raw data was delivered in the "FastO" format. This is a text-based one
  • the libraries generated with the "Accel-NGS ® Methyl-Seq DNA Library Kit” contained DNA fragments of different lengths. This means that if a DNA fragment was shorter than 152 bp, the “Illumina adapter” or the flow cell were also sequenced. This resulted in the presence of "NNNNNNNNN” sequences. As the alignment of the associated and otherwise good quality reads would be prevented in the further course of the data analysis, the over-presented sequences had to be removed.
  • the command used for this was: cutadapt -q 20 -o 5 -minimum-length 30 -a GATCGGAAGAG -A AGATCGGAAGAG -o ⁇ Name_Read_1> .clipped.fastq.gz -p ⁇ Name_Read_2> .ciipped.fastq.gz ⁇ Na- me_Read_1 > .fastq.gz ⁇ Name_Read_2> .fastq.gz &> ⁇ Name> .clipping.stats
  • the enzyme “adaptase” was used, which produced an overhang of low complexity at the 3‘ end of the second read. This area, like the over-presented sequences, would interfere with the later alignment and therefore had to be removed.
  • the command was: cutadapt -minimum-length 25 -u 11 -o ⁇ Name_Read_2> .clipped.trimmed.fastq.gz -p ⁇ Name_Read_ 1>. ciipped. trimmed. fastq. gz ⁇ Name_Read_2>. clipped. fastq. gz ⁇ Name_Read_ 1>. clipped. fastq. gz ⁇ Name_Read_ 1>. clipped. fastq. gz
  • the alignment was carried out against the “HG19” reference genome.
  • Several algorithms were tested, and surprisingly the “Segemehl” algorithm delivered the best results (see Section 1.1.2.5).
  • the algorithm is based on the search for an op- maximum hit in the reference genome (Hoffmann et al. [2009] PLoS Comput. Biol. 5: e1000502).
  • the maximum number of inaccuracies allowed per read was 10%. All hits that fell below this threshold were admitted to the semi-global alignment.
  • only the reads were listed in a final file with an accuracy of at least 90% and used for further analyzes.
  • the preferred “BAM” format is a compressed version of the “SAM” file, a text-based format that is generated by the algorithm to save the results of the alignment.
  • the statistical evaluation of the mapping efficiency was done e.g. with the "BAT_mapping_stat" module (Kretzmer et al. [2017] F1000Res. 6: 1490).
  • the DNA methylation was detected with the help of "BAT_calling".
  • the module creates a "VCF” file. This is a text file that only contains information about the detected DNA methylation rates, coverage, number of covered nucleotides and the sequence context. In the further course of the analyzes, this file was filtered according to the CpG context and a coverage of at least eight times. Images were generated and additional “VCF” and “BedGraph” files were created.
  • the “BAT_summarize” module was used, which determined the mean values of the detected DNA methylation rates in two groups.
  • the calculated DNA methylation rates as well as the genomic coordinates of the cytosines were written into a text-based “BedGraph” file, which was then used to identify differentially methylated regions.
  • the visualization of the DNA methylation per group was carried out using the "BAT_overview” module [201] The commands were:
  • the “Bedtools” software was used for the correlation analysis.
  • the “Bedtools Inter- sect” module reads in both the WGBS and HM 450K results, checks them for overlapping and writes the overlapping CpG loci to a new “BED” file.
  • the "BED” format is a text file. Each line of the file contains genomic coordinates of a CpG. The columns are separated by a tab.
  • the “BED” file was then loaded directly into “R” and subjected to the “Pearson” correlation analysis (p-value ⁇ 0.01). The results were also visualized in R.
  • the WGBS data were evaluated as described.
  • the “BedGraph” file generated with the “BAT_summarize” module contained three groups (control, adenocarcinoma, squamous cell carcinoma) with 11,289,424 items per group.
  • the "BedGraph” file has been divided into two lists. The first list contained 29,877 loci that showed differences in DNA methylation between the tumor and control groups. The second list contained 76,374 CpG loci, each methylated differently in adeno and squamous cell carcinoma groups. The regions which showed a DNA methylation difference of at least 15% were designated as differentially methylated.
  • the remaining CpG loci had to meet one of three criteria in order to be included in the plasma panel:
  • Differentially methylated CpG lies within a cluster consisting of at least two further differentially methylated CpG loci, all CpG loci of the cluster are either hypo- or hypermethylated, the distance between the CpG loci is 2 to 20 nucleotides,
  • the panel should also contain prognostic information. That is why it was expanded to include 33 CpG loci that were recorded in a clinical study.
  • the title of the study was: “Comprehensive characterization of non-small cell lung cancer (NSCLC) by integrated clinical and molecular analysis”.
  • the HM 450K data set made available contained information on the DNA methylation status of a total of 41 lung carcinomas.
  • the patients were classified according to their survival. 28 patients were counted in the prognostically favorable group (survival time longer than 15 months) and 13 in the unfavorable group (survival time shorter than 13 months).
  • the 33 CpG loci included in the panel were able to separate the two groups based on the DNA methylation pattern and thus contained information relevant to the prognosis.
  • the inventive set of methylation markers, the plasma panel contained 630 differentially methylated regions (Tab. 1). It was synthesized by the company “Roche” (Switzerland) and sent on dry ice. This was a “SeqCap Epi Enrichment Kit” (“Roche”, Switzerland) that was synthesized according to customer requirements and not commercially available. According to the manufacturer, the panel was suitable for the analysis of tissue samples as well as circulating, cell-free DNA.
  • the DZL provided blood plasma from 12 patients. Of these, three patients were healthy or tumor-free (control group) and nine suffered from non-small-cell lung carcinoma of various stages (tumor group).
  • the validation took place in several steps. First, the validation material, the circulating, cell-free DNA, was prepared. The extraction from the plasma, quantification, quality control (QC) and bisulfite conversion took place as already described in Sections 1.1.2.1-1.1.2.3.
  • the finished library was subjected to a QC and quantified (see Section 1.1.2.2) and then sequenced on the “MiSeq” (“Illumina”, USA) (see Section 1.2.2).
  • the sequencing data were saved in the “FastQ” format and then had to be analyzed (see Section 1.2.3).
  • the bioinformatics pipeline from Section 1.1.2.5 was adapted for this, as this time not the entire methylome but only the 638 specific regions of the plasma panel should be analyzed.
  • the results were then used to develop a classifier that subsequently interpreted the DNA methylation pattern and provided diagnostically and clinically relevant information about the patient's state of health (see Section 1.2.3.3).
  • Samples from a patient who is to be diagnosed with lung tumors can also be analyzed according to the same principle. Here, however, the samples are not pooled for analysis.
  • the “SeqCap Epi Enrichment Kit” was used to extract and enrich 630 differentially methylated regions from the entire zfDNA methylome.
  • One of the components of the kit was the designed plasma panel (see Tab. 1).
  • the 12 WGBS libraries produced were pooled equimolar within the various groups and initially prepared for a hybridization reaction. In the case of diagnostic samples, either individual samples are hybridized or pools of samples, each provided with a "bar code", are used. For this purpose, 1 pg of the WGBS L / bra / y pool with 10 pL “Bisulfite Capture Enhancer”, 1 pL “SeqCap HE Universal Oligo” and 1 pL “SeqCap HE Index Oligo” were placed in a 1.5 mL reaction vessel with a small hole pipetted in the lid. The sample was evaporated in a vacuum concentrator until a clear whitish pellet could be seen.
  • Hybridization Buffer 3 pL “Hybridization Component A” were added directly to the pellet, mixed for 10 s, briefly centrifuged and incubated at 95 ° C for 10 min. The sample was then transferred to a 0.2 pL reaction vessel, 4.5 pL capture probes were added, mixed well and incubated in a thermal cycler at 47 ° C for 72 hours. The lid of the thermal cycler was preheated to 57 ° C.
  • the “capture probes” were specially synthesized for this project. They contained 638 different oligonucleotides which were complementary to the differentially methylated regions investigated (see Table 1) and which specifically bound them in the course of the hybridization reaction. Enrichment and washing of the hybridized "capture probes"
  • the bound “capture probes” were enriched and washed several times. Several washing buffers and the “capture beads” were prepared for this according to the manufacturer's instructions.
  • the hybridized sample was mixed with 100 ml of “capture beads”, mixed briefly and incubated for 45 min at 47 ° C in the thermal cycler.
  • the lid of the thermal cycler was preheated to 57 ° C. To prevent the beads from settling, the samples were briefly removed from the thermal cycler every 15 minutes and mixed.
  • the “capture beads” used here were streptavidin beads that interacted with the biotinylated “capture probes”.
  • the samples were removed from the thermal cycler and the “capture beads” were subjected to several washing steps.
  • the beads were separated from the buffer each time at room temperature using the “DynaMag TM -PCR” magnet (“Thermo Fisher Scientific”, USA).
  • the second part of the washing protocol was carried out completely at room temperature, so the buffers used for this had to be preheated to room temperature.
  • the “Capture Beads” previously washed at 47 ° C were dissolved in 200 ml of simple “Wash Buffer I”, mixed for 2 min and pelleted with the aid of a magnet.
  • the supernatant was discarded, 200 ml of simple “Wash Buffer II” were added to the beads, mixed for 1 min and pelleted again using a magnet.
  • the supernatant was discarded, the beads dissolved in 200 ml "Wash Buffer III", briefly mixed and finally separated from the supernatant on the magnet.
  • Amplification of the enriched differentially methylated regions After washing, the enriched, differentially methylated regions were amplified.
  • 25 ml of double “KAPA HiFi HotStart Ready Mix” (“Roche”, Switzerland) and 5 ml of “Post LM PCR oligonucleotides” (“Roche”, Switzerland) were added to the 20 pl_ of the eluate, mixed well and using amplified using the following PCR program in a thermal cycler with a preheated lid:
  • Step 1 45 s 98 ° C
  • Step 2 15 s 98 ° C
  • Step 3 30 s 60 ° C
  • Step 4 30 s 72 ° C
  • Step 5 Repeat steps 1-4 for 15 more times
  • Step 6 60 s 72 ° C
  • Step 7 Pause at 4 ° C
  • the amplified regions were subsequently purified, e.g. using the "AmpureXP" beads ("Beckman Coulter”, USA).
  • the beads were first preheated to room temperature.
  • the sample was transferred to a 1.5 ml reaction vessel.
  • 50 ml of dH Ü and 180 ml of “AmpureXP” beads were added to 50 ml of sample.
  • the sample was mixed briefly, incubated for 15 min at room temperature, briefly centrifuged and placed on the “DynaMag TM -2” magnet (“Thermo Fisher Scientific”, USA). The supernatant was discarded and the beads were washed twice with 200 ml of freshly prepared 80% ethanol each time. The beads were then dried for 15 minutes at room temperature.
  • the NGS library was sequenced from enriched, differentially methylated regions on the “MiSeg”.
  • the library produced was first diluted to 4 nM and denatured. Then the 5 ml of the 4 nM library was transferred to a 1.5 ml reaction vessel, mixed with 5 ⁇ L of 0.2 N NaOH, briefly mixed, centrifuged for 1 min at 280 g and incubated for 5 min at room temperature. The denatured library was then spiked with 990 pL “Buffer HT1” (“Illumina”, USA) and re- mixed well. This resulted in a 20 pM library, which was then diluted to 4 pM with “Buffer HT1” and added 10% “PhiX” (“Illumina”, USA).
  • the DNA methylation rates within the sequenced regions were calculated with the "BAT_calling” module and filtered with the "BAT_filter_vcf” module according to the CpG context and a coverage of at least eight times (see Section 1.1.2.5.3). Finally, the data was annotated against the regions of the plasma panel. The calls were: gzip tmp. vcf perl BAT_filter_vcf -vcf tmp.vcf. gz -out $ o -context CG -MDP_min 8 ⁇ MDP_max 200 rm tmp. vcf.gz done bedtools unionbedg -filier NA -header -names ⁇ sample_1> ...
  • the DNA methylation pattern of a patient should be analyzed with the help of the plasma panel. From this it should be concluded whether a patient has a malignant lung tumor. If so, information about the entity of the tumor and the prognosis of the affected patient should be derived from the DNA methylation profile. This can be done on the basis of the correlation between the methylation pattern present in the patient and the methylation markers important according to the invention.
  • a classifier can be created that is able to quickly and reliably interpret the results of the pipeline described in Sections 1.2.3.1 and 1.2.3.2.
  • a classifier also known as predictive modeling, is an example of supervised learning.
  • the aim of a classifier is to first create a model after obtaining variables (e.g. DNA methylation patterns) and an annotation, which is later able to classify the variables of independent samples correctly (Fig. 4).
  • the “Qlucore Omics Explorer” software offers several options for using DNA methylation data to create an optimal classifier for the respective question.
  • kNN a class is assigned based on the consideration of k nearest neighbors.
  • SVM describes each object by a vector in a vector space. Within the vector space, a hyperplane is set in such a way that it acts as a separating surface between the groups and divides them into two classes.
  • RT consists of several uncorrelated decision trees that were generated during the learning process. Each tree makes a decision, the class with the most votes ultimately decides on the final classification.
  • the CpG loci that enabled a reliable classification of lung tumors based on malignancy and entity were then selected.
  • the bioinformatic analyzes described in Section 1.1.1 were carried out, which resulted in 287 CpG loci. These loci were included in a set of methylation markers preferred according to the invention, the plasma panel (Tab. 1).
  • Every single cell-free, circulating DNA sample was quantified after extraction and subjected to strict quality control.
  • the total amount of extracted DNA was 10 to 30 ng per sample, of which 1 ng was analyzed with the "Agilent 2100 Bioanalyzer".
  • the samples showed a clear peak at approx. 167 bp.
  • the peaks at 35 and 10,380 bp corresponded to the lower and upper markers (not shown).
  • the zfDNA samples were used to produce WGBS libraries.
  • the finished libraries were again quantified and then subjected to a quality control using the "Agilent 2100 Bioanalyzer". All samples showed a clear peak at approx. 300 bp and thus met the sequencing requirements.
  • the WGBS libraries produced were sent on dry ice to “TATAA Biocenter”, pooled there and, depending on the sample, sequenced with an average coverage of eight to ten times on a “Next-Seq 500” platform.
  • the raw data was delivered in the "FastQ" format.
  • the quality of the raw data was checked using the "FastQC" software. Since the 76 PE samples were sequenced, the read length was 76 bp, as expected. Within a read, the content of adapters and unidentifiable signals was 0%. The accuracy of the sequencing was given in “Ph red” values. Each “Phred” value describes how precisely the reading of nucleotides was carried out in the course of the sequencing. The raw data showed a "phred” score of over 30, which corresponds to an accuracy of more than 99.9%. spoke. Furthermore, only a very small amount of kmeren could be detected. Sequences with a minimum length of two nucleotides, which are repeated over and over again in the raw data, are called Kmers. The number of PCR duplicates was almost 0%. The amount of PCR duplicates is determined by calculating the percentage number of deduplicated sequences and comparing it with the number of all sequences. A small amount of codes and PCR duplicates indicate good library and sequencing quality.
  • a base composition typical for WGBS was analyzed.
  • most of the unmethylated cytosines were replaced by thymines.
  • the thymine content of the raw data was therefore approx. 50% and the cytosine content almost 0%.
  • the adenine and guanine composition was not influenced during the bisulfite conversion and was 25% each.
  • the WGBS raw data were then processed using the "Cutadapt" software (see Section 1.1.2.5.2). The processing removed both over-presented sequences and the 10 nt long overhang at the beginning of Read 2.
  • mapping efficiency This determines what percentage of reads can be assigned to the reference genome. In this case, the mapping efficiency of the “Segemehl” algorithm was 98% to 99% and was therefore suitable for all further analyzes.
  • the AHgnments of the control, adenocarcinoma and squamous cell carcinoma groups were next loaded into the "BAT_calling" module.
  • the module determined DNA methylation rates of the respective cytosines.
  • the cytosines that were within a CpG region and had a coverage of at least eightfold were then identified using the "BAT_f i Iteri ng" module and used for all further analyzes.
  • the filtering was carried out according to a DNA methylation difference of at least 15%.
  • the number of differentially methylated CpG loci in the plasma of lung cancer patients was at 18,000 ( Figure 7A). Furthermore, 44,000 CpG loci were identified which, depending on the entity, were differentially methylated in adeno and squamous cell carcinoma patients (FIG. 7B). These loci were subjected to further analyzes as described in Section 1.1.2.5.5 and used for the creation of the plasma panel.
  • the finished set of methylation markers, ie the finished plasma panel contained 630 differentially methylated regions (Tab. 1). Oligonucleotides hybridizing with these differentially methylated regions were synthesized as "capture probes" and thus represent a means of diagnosing lung tumors.
  • the extracted zfDNA samples were quantified as described in Section 1.1.2.2 and subjected to quality control. For this purpose, 1 ng of each sample was analyzed with the "Agilent 2100 Bioanalyzer". All zfDNA samples used showed a clear peak at approx. 167 bp. The samples were then converted to bisulfite and used to produce NGS libraries. As described in section 1.2.1, the libraries were created in two steps.
  • WGBS libraries were created that contained information about the entire zfDNA methylome. All 12 WGBS libraries produced showed a clear, large peak at approx. 300 bp. The larger 300 to 1,000 bp peaks were the so-called daisy chains, i.e. ssDNA fragments hybridized to one another. According to the manufacturer, they neither affect the subsequent hybridization reaction nor the actual sequencing and therefore do not have to be eliminated.
  • the WGBS libraries produced were quantified, pooled in equimolar amounts and processed with the "SeqCap Epi Enrichment Kit".
  • the kit used here contained the so-called “capture probes”, which were specially synthesized for this purpose.
  • the “Capture Probes” hybrid target specifically to the 638 regions of the plasma panel (see Tab. 1).
  • the “capture probes” including the bound differentially methylated regions were enriched, washed and amplified.
  • the amplified library was then quantified and subjected to a quality control (eg "Agilent 2100 High Sensitivity DNA Kit”).
  • the finished library had a high peak at approx. 300 bp and thus met the sequencing requirements of the “MiSeq”.
  • the sequencing on the "MiSeq” was optimized. Sequencing was carried out in a 76 PE mode. The first 76 bp of the sequenced DNA fragments were thus read from both ends.
  • the library was diluted to 4 pM.
  • the libraries described here were unbalanced. Libraries whose AT or GC concentration is less than 40% or more than 60% are referred to as unbalanced. Due to their composition, such libraries usually have an unsatisfactory sequencing quality.
  • the library can be moved with "PhiX Control V3". The concentration of "PhiX” has to be adjusted individually depending on the library. The optimal concentration of “PhiX Control V3” was 10% in the present case.
  • the read length was 76 bp.
  • the content of adapters and unidentifiable signals within a read was 0%.
  • the raw data showed a “phred” score of over 30, which corresponds to a sequencing accuracy of more than 99.9%.
  • the base composition (thymine content at approx. 50%, cytosine content at almost 0%, adenine and guanine content at 25%) indicated successful bisulfite conversion.
  • the first 10 nt of the second read was an overhang created by the enzyme “adaptase”. The deviation of the experimentally determined from the theoretically calculated GC content was also due to the bisulfite conversion.
  • PCR duplicates The number of PCR duplicates was approx. 15%. The number of deduplicated sequences differed greatly from the total. However, this is not uncommon for a panel. In contrast to genome-wide sequencing, only a small area of the genome is sequenced in a panel. This leads to a very low complexity of the library and accordingly to the creation of PCR duplicates. The number of kmeres is very small and does not interfere with further evaluation.
  • the processed sequencing data were then loaded into the "Bisulfite Analysis Toolkit".
  • the alignment was carried out with “Segemehl” against the “HG19” reference genome.
  • the mapping efficiency was at least 90%. This means that at least 90% of the raw data could be assigned to the reference genome.
  • the mean coverage, i.e. the sequencing depth, was 10 to 30 times depending on the sample.
  • DNA methylation should be detected.
  • the 12 alignments were loaded into the “BAT_calling” module.
  • the positions determined were then initially annotated against the “HG 19” reference genome using the “Bedtools”.
  • the methylated positions were filtered with the "BAT_filtering” module after a coverage of at least eightfold.
  • the module for creating a classifier only those positions were selected that were on the one hand in a CpG region and on the other hand were listed in the plasma panel (Tab. 1).
  • the determined zfDNA methylation rates were used to create a classifier. As described in Section 1.2.3.3, the "Qlucore Omics Explorer” software was used for this, which contained the following classification algorithms: “k-Nearest Neighbors Algorithm” (kNN), “Support Vector Machines” (SVM) and “Random Trees” ( RT).
  • kNN k-Nearest Neighbors Algorithm
  • SVM Small Vector Machines
  • RT Random Trees
  • the plasma panel was designed in such a way that it should be optimally able to provide the information relating to the malignancy, the entity and the stage of a tumor. These questions could be answered reliably by choosing a suitable classifier. Information about the prognosis should also be available.
  • the correctness of a classifier was given in values between 0 and 1, where 0 corresponded to an accuracy of 0% and 1 to an accuracy of 100%.
  • the complexity indicated how many differentially methylated positions or markers had to be analyzed for the classifier to achieve this accuracy. The fewer markers that had to be evaluated, the more suitable the classifier was for the clinic. Because with the number of positions to be analyzed, the error rate, time and costs of the method increase.
  • the first question was whether a patient generally suffered from a malignant lung tumor.
  • both the kNN and the RT algorithm delivered an accuracy of 100%.
  • the RT algorithm required 237 differentially methylated positions included in the panel for the classification.
  • the kNN on the other hand, only has 10 positions, which qualifies it as optimal for this question (FIG. 9A). In 9 of the 10 positions there is a stronger methylation in the tumor tissue, in one a weaker one.
  • the SVM algorithm managed to differentiate the late tumor stages with 80% accuracy using 523 positions (FIG. 9C). The positions evaluated are partly more methylated in the early and partly in the late stages.
  • CpG loci were selected that were within a cluster consisting of at least two further differentially methylated CpG loci. All CpG loci in the cluster were either hypo- or hypermethylated. The distance between the CpG loci was two to 20 nt.
  • Tab. 1 Set of methylation markers (plasma panel, 630 differentially methylated regions). The "Tumor” column indicates whether increased (hypermethylated) or decreased (hypomethylated) methylation was identified in tumor tissue.
  • A. 350 regions that detect a malignant tumor of the lung.
  • B. 247 regions that distinguish the most common lung carcinomas (adeno- and squamous cell carcinoma) from one another.
  • Tab. 2 The kNN algorithm used ten positions in order to be able to differentiate the lung cancer patients from the healthy subjects.
  • the "Tumor” column indicates whether increased (+) or decreased (-) methylation was identified in tumor tissue. A.
  • Tab. 3 The RT algorithm analyzed ten positions to determine the entity of a tumor. All positions in adenocarcinoma were hypermethylated compared to squamous cell carcinoma.
  • Tab. 4 For staging (determining the tumor stage), the SVM algorithm analyzed 523 positions. Some positions are more methylated in the late stage
  • Tab. 5 Exemplary oligonucleotides (capture targets) for markers on chromosome 1 that can be used in the method according to the invention.

Abstract

Die vorliegende Erfindung betrifft die Diagnose von Lungentumoren. Sie stellt Verfahren zur Verfügung, die sowohl zur Diagnose von Lungentumoren auf Basis von OP-Proben als auch Lungenbiopsien (hier z.B. mit Hilfe von DNA-Mikroarrays) und von Flüssigbiopsien (Liquid Biopsies) geeignet sind. Bei Flüssigbiopsien wird zellfreie DNA (zfDNA) eingesetzt. Dabei werden sowohl besonders geeignete Analyseverfahren als auch besonders geeignete Sätze an Methylierungsmarkern beschrieben. Gegenstand der Erfindung sind auch Mittel, geeignet zur Diagnose von Lungenkrebs durch Untersuchung der Methylierung eines Satzes von Methylierungsmarkern, z.B. in zellfreier DNA (zfDNA) aus Flüssigbiopsie-Proben von Patienten, wobei das Mittel Oligonukleotide umfasst, welche mit DNA hybridisieren können, welche die Methylierungsmarker umfasst, sowie die Verwendung dieser Verfahren und Mittel zur Diagnose, also z.B. Bestimmung, Subtypisierung und prognostischen Charakterisierung von Lungentumoren.

Description

Verfahren und Mittel zur Diagnose von Lungenkrebs
Die vorliegende Erfindung betrifft die Diagnose von Lungentumoren. Sie stellt Verfahren zur Verfügung, die sowohl zur Diagnose von Lungentumoren auf Basis von OP-Proben als auch Lungenbiopsien (hier z.B. mit Hilfe von DNA-Mikroarrays) und von Flüssigbiopsien (Liquid Biop- sies) geeignet sind. Bei Flüssigbiopsien wird zellfreie DNA (zfDNA) eingesetzt. Dabei werden sowohl besonders geeignete Analyseverfahren als auch besonders geeignete Sätze an Methyl ierungsmarkern beschrieben. Gegenstand der Erfindung sind auch Mittel, geeignet zur Diagno se von Lungenkrebs durch Untersuchung der Methylierung eines Satzes von Methylierungs markern, z.B. in zellfreier DNA (zfDNA) aus Flüssigbiopsie-Proben von Patienten, wobei das Mittel Oligonukleotide umfasst, welche mit DNA hybridisieren können, welche die Methylie rungsmarker umfasst, sowie die Verwendung dieser Verfahren und Mittel zur Diagnose, also z.B. Bestimmung, Subtypisierung und prognostischen Charakterisierung von Lungentumoren.
Lungenkrebs ist weltweit die zweithäufigste Krebsart bei Männern und Frauen. In Deutschland werden jährlich ca. 52.500 Neuerkrankungen registriert. Das mittlere Erkrankungsalter liegt für Männer bei 70 und für Frauen bei 69 Jahren. Dabei wird zwischen dem kleinzelligen (engl. small cell lung cancer, SCLC) und nicht-kleinzelligen (engl non-small cell lung cancer, NSCLC) Lungenkarzinom unterschieden. NSCLC sind deutlich häufiger und treten bei 85% der betroffe nen Patienten auf. Des Weiteren werden bei NSCLC mehrere Subentitäten unterschieden, da von sind die häufigsten Adeno- und Plattenepithelkarzinome. Dass die Symptome der Erkrankung meistens sehr spät auftreten, spiegelt sich in einer schlechten Prognose wieder. Die 5-Jahres-Überlebensrate liegt bei 15%.
Lungenkarzinome weisen, wie die meisten anderen Tumore, eine hohe genomische Heteroge nität auf. So können z.B. Mutationen innerhalb von KRAS, EGFR, BRAF, MEK1, MET, HER2, ALK, ROS1, RET, FGFR1, DDR2, PTEN, LKB1, RB1, CDKN2A oder TP53 Genen die Entste- hung eines primären Lungenkarzinoms induzieren. Zusätzlich akkumulieren im Laufe der Tu mor-Evolution die sogenannten Passenger- Mutationen, die zu verschiedenen Subklonen führen können. Diese Tatsache macht die Entwicklung eines zuverlässigen, nur auf molekulargeneti schen Mutationsanalysen basierten Früherkennungstests sehr schwierig, was an vielen Bei spielen in der Literatur sichtbar wird. So haben z.B. Uchida et al. ein Lungenkarzinom-Screen/ng basierend auf typischen Mutationen des EGFR-Gens durchgeführt. Die durchschnittliche Sensitivität dieses Tests betrug nur 54,4% und fiel bei frühen Stadien IA-IIIA auf 22,2% (Uchida et al. [2015] Clin. Chem. 61: 1191-1196). Couraud et al. entwickelten einen NGS-basierten Test, bei dem die bekanntesten Mutationen innerhalb der EGFR, BRAF, KRAS, HER2 und PIK3CA Gene im Plasma analysiert wurden. Die Sensitivität dieses Tests betrug 58%. Auch hier stellte die Erkennung von Tumoren in frühen Stadien ein Problem dar (Couraud et al. [2014] Clin. Cancer Res. 20: 4613-4624). Newmann et al. entwickelten 2014 das CAPP-Seq. Hierbei handelte es sich um ein optimiertes NGS- Protokoll mit einer dazugehörigen bioinformatischen Auswertepipeline. Beim CAPP-Seq. wer den die bekanntesten NSCLC-Mutationen im Plasma sequenziert und analysiert, wodurch 100% der Lungenkrebspatienten Stadien II bis IV identifiziert werden konnten. Die Identifikation von Tumoren im Stadium I stellte aber auch hier wieder ein Problem dar, und die entsprechen de Sensitivität betrug nur 50% (Newman et al. [2014] Nat. Methods 20: 548-554). Diese Bei spiele zeigen deutlich die Problematik bei der Entwicklung eines zuverlässigen, nur auf genomi- schen Analysen basierten Lungenkarzinomfrüherkennungstests.
Zusätzlich zu Mutationen spielen während der Tumor-Evolution auch Epimutationen eine ent scheidende Rolle. So werden z.B. Promotoren innerhalb bestimmter Tumor-Suppressorgene hypermethyliert, was wiederum deren transkriptioneile Repression zur Folge hat. Dieses Phä nomen ist durch die Überexpression von DNA-Methyltransferasen begleitet. Besonders häufig wurde eine Promotor-Hypermethylierung in der Literatur innerhalb der P16INK4A, RASSF1A, APC, RARB, CDH1, CDH13, DAPK, FHIT und MGMT Gene beschrieben (Langevin et al. [2015] Transl. Res. 165: 74-90).
Die genomweite Hypomethylierung von NSCLC ist mit einer genomischen Instabilität assoziiert. Eine gezielte Hypomethylierung der Gene konnte bisher nur bei MAGEA3/6, TKTL1, BORIS, DDR1, YWHAZ sowie TMSB10 identifiziert werden (u.a. Newman et al. [2014] Nat. Methods 20: 548-554).
Des Weiteren weisen maligne Lungentumore häufig eine veränderte Histon-Acetylierung an den Positionen H4K5, H4K8, H4K12 und H4K16 auf. Auch der globale Anteil an H4K20me3 ist in NSCLC geringer als in gesundem Lungengewebe (Newman et al. [2014] Nat. Methods 20: 548- 554). Zusätzlich kann es zu aberranten ncRNA-Expression kommen, wie z.B. MIR196A, MIR200B, MALAT1 sowie HOTAIR.
Laut nationalen und internationalen Empfehlungen werden die betroffenenen Patienten im Mo ment bei einer Verdachtsdiagnose zunächst einer umfassenden körperlichen Untersuchung un terzogen. Nachfolgend wird der Brustkorb durch bildgebende Verfahren wie z.B. Röntgen oder Computertomographie (CT) untersucht. Falls dabei Tumore detektiert werden, sind nachfolgend Bronchoskopien empfohlen, bei der die Lungen endoskopisch gründlich analysiert sowie Biop sien der Tumore entnommen werden. Diese Biopsien werden nun histologischen, immunhisto- chemischen und molekulargenetischen Analysen unterzogen. Während der histologischen Untersuchungen wird festgestellt, ob die Tumoren bösartig sind. Falls dies der Fall ist, wird deren Entität ermittelt. Um die optimale Therapie zu identifizieren, werden zusätzlich molekulargenetische sowie bildgebende Verfahren herangezogen. Vor allem die bildgebenden sowie endoskopischen Verfahren können hierbei aufgrund der Strahlenbelas tung und Invasivität für die betroffenen Patienten belastend sein.
Das Detektionslimit der radiologischen Verfahren liegt bei einer Tumor-Größe von 7 bis 10 mm, was Zellhaufen bestehend aus bereits rund einer Milliarde Tumor-Zellen entspricht. Eine alter native, weniger invasive Methode beruht auf Flüssigbiopsien ( Liquid Biopsies), mittels derer Tumore viel früher, ab einer Größe von ca. 50 Millionen Zellen, detektiert werden können.
Bei Liquid Biopsies werden dem Patienten einige Milliliter Blut entnommen. Aus dem Blutplas ma oder Blutserum kann anschließend zirkulierende zellfreie DNA (zfDNA) isoliert werden. Im menschlichen Körper entsteht die zfDNA im Laufe apoptotischer sowie nekrotischer Prozesse. Dabei wird zelluläre, genomische DNA (gDNA) durch DNAsen in ca. 167 bp lange Fragmente gespalten und im Blutkreislauf freigesetzt.
Bei Patienten, die an malignen Erkrankungen leiden, ist in der Gesamtmenge an zfDNA zusätz lich Tumor-DNA enthalten. Je nach Entität bzw. Stadium der Erkrankung kann die zfDNA- Menge stark variieren. Sie enthält jedoch diagnostisch, therapeutisch und prognostisch relevan te Informationen.
Zusätzlich zu genetischen Mutationen eines Tumors können auch Epimutationen analysiert werden. Besonders interessant ist in diesem Zusammenhang die DNA-Methylierung. Das DNA- Methylierungsmuster ist gewebespezifisch und ändert sich bereits in frühen Phasen der Tumor- Evolution. Des Weiteren machte eine Studie des G/VASf-Locus deutlich, dass die zfDNA- Methylierung im Blut stabil bleibt. Sie wird weder modifiziert noch verfälscht und eignet sich so mit als Biomarker in der klinischen Diagnostik (Puszyk et al. [2009] Clin. Chim. Acta 400: 107- 110).
Mehrere Studien haben das diagnostische Potential der DNA-Methylierung bereits deutlich ge macht. So zeigte eine SOX17- Studie beim Magenkarzinom, dass das Gesamtüberleben der Patientenkohorte mit der nachgewiesenen Menge an methylierter SOX17- zfDNA korrelierte (Balgkouranidou et al. [2013] Clin. Chem. Lab. Med. 51: 1505-1510). Eine Studie mit Patientin nen, die an Mammakarzinom litten, zeigte eine signifikante Hypermethylierung des CST6- Gens (Chimonidou et al. [2013] Clin. Biochem. 46: 235-240). Liggett et al. ist es gelungen, anhand des DNA-Methylierungsmusters das Pankreaskarzinom von seiner Vorstufe, der chronischen Pankreatitis, zu unterscheiden (Liggett et al. [2010] Cancer 116: 1674-1680). Auch beim NSCLC wurden von mehreren Arbeitsgruppen Veränderungen des DNA- Methylierungsmusters beschrieben. So konnten z.B. Balgkouranidou et al. eine signifikante Hy permethylierung des BRMS1- Gens bei Patienten mit Bronchialkarzinom nachweisen (Balg kouranidou et al. [2014] Brit. J. Cancer 110: 2054-2062). 2016 detektierten Marwitz et al. DNA- Hypomethylierung innerhalb der CTLA4- sowie PDCDf-Gene. Auf Transkriptom-Ebene waren diese Gene überexprimiert. Da es sich hier um therapeutisch wichtige Checkpoint-Regulatoren handelt, hat diese Arbeit starke therapeutische Relevanz (Marwitz et al. [2017] Clin. Epigenet. 9: 51).
Das diagnostische Potential der DNA-Methylierung wird auch am Beispiel des „Epi proLung“ Assays („Epigenomics AG“, Deutschland) deutlich. Dabei wird das zfDNA-Methylierungsmuster der SHOX2 und PTGER4 Gene analysiert. Bei einer Spezifität von 90% beträgt die Sensitivität 67% (Weiss et al. [2017] J. Thorac. Oncol. 12: 77-84). Für ein zuverlässiges Lungenkrebs- Screening reicht die Empfindlichkeit des „Epi proLung“ Tests daher nicht aus. Bisher gibt es keine weiteren auf Liquid Biopsies basierende Verfahren, die eine zuverlässige, präventive Lungenkrebs-Früherkennung ermöglichen.
Dem gegenüber stellten sich die Erfinder die Aufgabe, ein zuverlässigeres Verfahren zur Diag nose von Lungenkrebs zur Verfügung zu stellen. Diese Aufgabe wird durch die Erfindung, ins besondere durch den Gegenstand der Ansprüche, gelöst.
Ein Gegenstand der Erfindung ist ein Verfahren zur Diagnose von Lungenkrebs, bei dem man die Methylierung eines Satzes von Methylierungsmarkern in einer Probe eines Patienten be stimmt, wobei man z.B. zfDNA aus einer Flüssigbiopsie untersuchen kann. Alternativ kann die Probe auch eine Gewebeproben sein, z.B. eine solide Gewebeprobe aus einem Tumor oder aus einem Gewebe, in dem möglicherweise ein Tumor vorliegt. Insbesondere kann die Gewe beprobe aus einer Biopsien oder OP-Material von Lungengewebe stammen. Auch Pleuraflüs sigkeit kann untersucht werden. Es zeichnet das erfindungsgemäße Verfahren aus, dass es aufgrund der Auswahl der Marker besonders gut dafür geeignet ist, sowohl für eine Untersu chung von Gewebeproben, die bei einer Operation genommen werden, als auch für eine Unter suchung von Lungenbiopsie-Gewebe als auch für eine Untersuchung von zfDNA aus einer Flüssigbiopsie verwendet zu werden. Operationen, bei denen Gewebe als Probe entnommen wird, werden im Rahmen der Erfindung üblicherweise Operationen zur Entfernung eines diag nostizierten Lungentumors sein. Auch dann treten aber noch Fragen auf, die das erfindungs gemäße Verfahren beantworten kann, etwa nach der Entität und/oder Prognose des Tumors oder zur Abgrenzung zwischen Tumorgewebe und angrenzendem normalen Gewebe.
Die Erfindung stellt ein Verfahren zur Diagnose von Lungenkrebs zur Verfügung, bei dem die Methylierung eines Satzes von Methylierungsmarkern, z.B. in zfDNA aus einer Flüssigbiopsie- Probe eines Patienten, bestimmt wird, wobei optional ein Alignment gegen ein Referenzgenom mit dem Segemehl-Algorithmus durchführt wird.
Die Erfindung stellt ferner ein Verfahren zur Diagnose von Lungenkrebs zur Verfügung, bei dem die Methylierung eines Satzes von Methylierungsmarkern, z.B. in zfDNA aus einer Flüssigbiop- sie-Probe eines Patienten, bestimmt wird, wobei optional die Methylierung von Methylierungs markern in den Genen SERPINB5, DOCK10, PCDHB2, HIF3A, FGD5, RCAN2, HOXD12, O- CA2, SLC22A20, FADL-1, NRXN1, ACOXL, FAM53A, UBE3D und AUTS2 bestimmt wird.
Zur minimalinvasiven Diagnostik von Lungentumoren (Lungenkarzinomen) wird erfindungsge mäß z.B. die zirkulierende zellfreie DNA (zfDNA) aus Flüssigbiopsien, z.B. aus Plasma, Blut, oder Serum , bevorzugt aus Plasma, genutzt. Falls ein Patient an einer malignen Tumorerkran kung leidet, ist in der Gesamtmenge der zirkulierenden DNA auch die Tumor-DNA enthalten, welche alle therapeutisch und prognostisch relevanten Informationen über die genetischen und epigenetischen Charakteristika des Tumors enthält. Die Erfindung stellt sowohl bevorzugte Ver fahren zur Diagnose von Lungenkrebs auf dieser Basis also auch bevorzugte Sätze von Methyl ierungsmarkern bereit.
Im Rahmen der Erfindung wurde gezeigt, dass die Methylierungssignaturen in festen Tumoren, z.B. in Proben aus Operationen oder Biopsien sich z.T. von den Signaturen aus zfDNA aus Flüssigbiopsien unterschieden. Dies kann erklären, warum die bereits erwähnte „Epi proLung“- Studie, bei der das zfDNA-Methylierungsprofil innerhalb der SHOX2 und PTGER4 Gene analy siert wurde, bei einer Spezifität von 90% nur eine Sensitivität von 67% aufwies (Weiss et al. [2017] J. Thorac. Oncol. 12: 77-84). Die verwendeten SHOX2 und PTGER4 Biomarker stam men aus Analysen primärer Tumorgewebe (Murn et al. [2008] J. Exp. Med. 205: 3091-3103; und Schneider et al. [2011] BMC Cancer 11: 102). Die vorliegende Erfindung zeigt jedoch deut lich (siehe Abschnitt 2.1.3), dass die DNA-Methylierungsmuster zwischen der zfDNA aus dem Plasma und der gDNA aus einem primären Tumor nur bedingt korrelieren. In der Tat enthält die Gesamtmenge der zfDNA nicht nur aus der Lunge bzw. einem Tumor stammende DNA, son dern auch DNA aus weiteren Geweben und Organen.
Das bedeutet, dass die im primären Tumorgewebe stark aberrant methylierten DNA-Regionen im Plasma nicht unbedingt eine differentielle Methylierung aufweisen. Daher reicht es für die Entwicklung eines nicht-invasiven, zfDNA-basierten Früherkennungstests nicht aus, bekannte Biomarker aus den primären Tumoren zu nutzen. Vielmehr ist es notwendig, neue zfDNA- spezifische, starke und eindeutige Methylierungssignaturen im Plasma der betroffenen Patien ten zu identifizieren. zfDNA-spezifische Methylierungssignaturen sind jedoch im Gegenzug auch nicht zwingend für eine Diagnose und Untersuchung von Gewebeproben geeignet. Ziel war daher - in Abgrenzung gegenüber den im Stand-der-Technik bekannten Ansätzen, die De- terminierung universeller Methylierungssignaturen, mittels derer unterschiedlichste (auch kom plexe) Patientenproben (auch mit stark variierendem Gehalt an Tumorzellen) robust und zuver lässig untersucht werden können. Dies wurde mit der vorliegenden Erfindung erreicht. Erfin dungsgemäß vorteilhaft ist es, dass die identifizierten Marker sowohl mit Gewebeproben z.B. soliden Gewebeproben aus Tumorgewebe als auch mit Flüssigbiopsien gute Ergebnisse liefern und somit zur Diagnose von Lungenkrebs aus verschiedenen Arten von Proben geeignet sind.
Um einen erfindungsgemäßen Satz an Methylierungsmarkern, der besonders aussagekräftige differentiell methylierte Regionen umfasst, zu identifizieren, wurden im Rahmen der Erfindung mehrere Schritte durchgeführt, die im Detail im Beispielteil beschrieben sind. Zuerst wurden DNA-Methylierungssignaturen in 40 malignen Lungentumoren sowie deren korrespondierenden Kontrollen untersucht. Dann erfolgte eine Analyse von DNA-Methylierungssignaturen im Blut plasma von neun Patienten. Davon litten fünf Patienten an einem Adeno- und vier an Plat tenepithelkarzinom der Lunge. Die übrigen Patienten waren dagegen frei von malignen Erkran kungen und bildeten die Kontrollkohorte. Schließlich wurden zusätzliche Datensätze mehrerer zur Verfügung gestellter Studien ausgewertet, was das Identifizieren weiterer tumorspezifischer und prognostischer CpG Loci ermöglichte. Der auf dieser Basis synthetisierte Satz an Methylie rungsmarkern, auch als Plasma Panel (siehe Tabelle 1) bezeichnet, wurde anschließend im Rahmen einer Pilotstudie validiert. Dieser Satz an Methylierungsmarkern umfasst eine Vielzahl von Regionen, die z.B. in zfDNA differenziell methyliert sind und überraschenderweise eine spezifische Aussage über das Vorhandensein eines Tumors, die Tumorentität, das Tumorstadi um und/oder die Prognose gestatten.
In einer Ausführungsform betrifft die Erfindung daher ein Verfahren zur Diagnose von Lungen krebs, bei dem die Methylierung eines Satzes von Methylierungsmarkern in einer Probe des Patienten bestimmt wird, wobei der Satz an Methylierungsmarkern aus der Gruppe bestehend aus den in Tabelle 1a, 1b und 1c aufgelisteten Regionen ausgewählt ist und mindestens 60 Re gionen umfasst, bevorzugt mindestens 64 Regionen, mehr bevorzugt mindestens 340 oder mindestens 350 Regionen, am meisten bevorzugt mindestens 630 Regionen. Z.B. können Me thylierungsmarker bestimmt werden, um das Vorhandensein eines Tumors zu bestimmen.
Die Erfindung betrifft auch ein Verfahren zur Diagnose von Lungenkrebs, bei dem die Methylie rung eines Satzes von Methylierungsmarkern in einer Probe des Patienten bestimmt wird, wo bei der Satz an Methylierungsmarkern aus der Gruppe bestehend aus den in Tabelle 1a, 1b und 1c aufgelisteten Regionen ausgewählt ist und mindestens 134 Regionen umfasst, bevor zugt 138 Regionen, mehr bevorzugt mindestens 240 Regionen, am meisten bevorzugt mindes- tens 247 Regionen. Z.B. können Methylierungsmarker bestimmt werden, um die Entität eines Tumors zu bestimmen.
Erfindungsgemäß kann der Satz von Methylierungsmarkern mindestens 194 Regionen umfas sen, bevorzugt mindestens 600 Regionen, optional alle 630 Regionen. Z.B. können mindestens 60, bevorzugt mindestens 64 Methylierungsmarker bestimmt werden, um das Vorhandensein eines Tumors zu bestimmen, z.B. Methylierungsmarker aus Tabelle 1a, und es können mindes tens 134, bevorzugt 138 Regionen, Methylierungsmarker bestimmt werden, um die Entität des Tumors zu bestimmen, z.B. Methylierungsmarker aus Tabelle 1b. Je mehr Methylierungsmarker bestimmt werden, umso genauer wird die Analyse. Daher können auch mindestens 150 bevor zugt mindestens 340 oder sogar 350 Methylierungsmarker bestimmt werden, um das Vorhan densein eines Tumors zu bestimmen, z.B. Methylierungsmarker aus Tabelle 1a, und es können mindestens 240 oder sogar 247 Methylierungsmarker bestimmt werden, um die Entität des Tu mors zu bestimmen, z.B. Methylierungsmarker aus Tabelle 1b. Optional können zusätzlich min destens 15, bevorzugt mindestens 30 oder sogar 33 Methylierungsmarker aus Tabelle 1c be stimmtwerden, um die Prognose zu bestimmen.
In einer Ausführungsform betrifft die Erfindung daher ein Verfahren zur Diagnose von Lungen krebs, bei dem die Methylierung eines Satzes von Methylierungsmarkern in einer Probe eines Patienten, z.B. in zfDNA aus einer Flüssigbiopsie-Probe eines Patienten, bestimmt wird, wobei der Satz von Methylierungsmarkern mindestens 60 Regionen umfasst, ausgewählt aus der Gruppe bestehend aus:
Die vorgenannten Methylierungsmarker sind die in Tabelle 1a genannten Marker, die nur bei zfDNA identifiziert wurden. Bei dieser Analyse wird bevorzugt das Vorhandensein eines Tumors geprüft, wobei der Satz von Methylierungsmarkern optional alle Regionen der Gruppe umfasst.
Dabei kann der Satz von Methylierungsmarkern mindestens 340 Regionen umfassen, ausge- wählt aus der Gruppe bestehend aus den in Tabelle 1a aufgelisteten Regionen, wobei der Satz von Methylierungsmarkern bevorzugt alle in Tabelle 1a aufgelisteten Regionen umfasst.
In einer Ausführungsform der oben genannten Verfahren umfasst der Satz von Methylierungs markern mindestens 134 Regionen, ausgewählt aus der Gruppe bestehend aus
Die vorgenannten Methylierungsmarker sind die in Tabelle 1b genannten Marker, die nur bei zfDNA identifiziert wurden. Bei dieser Analyse wird bevorzugt die Entität eines Tumors geprüft, wobei insbesondere zwischen Adenokarzinom und Plattenepithelkarzinom unterschieden werden kann. Dabei kann der Satz von Methylierungsmarkern alle Regionen der Gruppe umfassen.
Bei dieser Analyse kann der Satz von Methylierungsmarkern auch mindestens 240 Regionen umfassen, wobei die Gruppe aus den in Tabelle 1b aufgelisteten Regionen besteht. Bevorzugt umfasst der Satz von Methylierungsmarkern alle in Tabelle 1b aufgelisteten Regionen der Gruppe.
Da gezeigt wurde, dass alle in Tabelle 1a und 1b definierten Regionen in den untersuchten Proben differentiell methyliert sind, ist es vorteilhaft alle in Tabelle 1a und 1b definierten Regio nen zu analysieren, insbesondere wenn sowohl das Vorhandensein als auch die Entität eines potentiellen Tumors analysiert werden sollen.
Am größten ist die Aussagekraft der Analyse, wenn der Satz von Methylierungsmarkern min destens 620 Regionen aus einer Gruppe umfasst, welche aus allen in Tabelle 1 aufgelisteten Regionen besteht, insbesondere wenn man ferner die Prognose bestimmt, bevorzugt, wenn der Satz von Methylierungsmarkern alle Regionen der Gruppe umfasst.
Bei der weiteren Analyse der Daten und der Überprüfung anhand von zfDNA von Patienten wurde im Rahmen der Erfindung ein zweiter Satz an Methylierungsmarkern mit verschiedenen Untergruppen identifiziert, mit deren Hilfe unterschiedliche Fragestellungen beantwortet werden können (siehe Tabellen 2-4). Die entsprechenden Methylierungsmarker stellen definierte diffe rentiell methylierte Positionen dar, die in den in Tabelle 1 genannten Regionen liegen. Damit repräsentieren die in Tabellen 2-4 genannten Methylierungsmarker geeignete Untergruppen zur Untersuchung der im Plasma-Panel enthaltenen Methylierungsmarker.
Im Rahmen der Erfindung können also entweder differentiell methylierte Regionen, z.B. die in Tabelle 1a, 1b und/oder 1c definierten Regionen, als Methylierungsmarker dienen, oder diffe rentiell methylierte Positionen. Dabei führt die Analyse ganzer Regionen zu zuverlässigeren Er gebnissen, da bei einzelnen Patienten spezifische Positionen nicht unbedingt die gleiche Aus sagekraft haben müssen. Dafür ist eine Analyse spezifischer Positionen mit geringerem Auf wand, z.B. über einen Array, möglich und ist daher günstig, wenn eine kostengünstige Diagno se gestellt werden soll. Die Auswahl richtet sich also nach einer Abwägung zwischen der im je weiligen Fall nötigen Zuverlässigkeit und dem möglichen Aufwand. Selbstverständlich können auch beide Typen von Methylierungsmarkern gleichzeitig zur Diagnose herangezogen werden. Ferner spielt auch die Menge an vorliegender Probe eine Rolle, da vor allem Gewebeproben aus Operationen ausreichende Mengen DNA enthalten, um eine Analyse von einzelnen methyl- ierten Positionen über ein Array zu bestimmen.
In diesem Rahmen identifizierte, besonders aussagekräftige Methylierungsmarker liegen z.T. in den Genen SERPINB5, DOCK10, PCDHB2, HIF3A, FGD5, RCAN2, HOXD12, OCA2, SLC22A20, FADL-1, NRXN1, ACOXL, FAM53A, UBE3D und AUTS2. Diese Gene wurden bis her noch nie speziell im Zusammenhang mit Lungenkarzinomen oder bestimmten NSCLC- Entitäten beschrieben.
Die Rolle einiger dieser Gene bei der Tumor-Evolution und Prognose ist bei anderen Krebsar ten bekannt. Bei SERPIN5 handelt es sich z.B. um ein bekanntes Onkogen (Lei et al. [2011] Oncol. Rep. 26: 1115-1120). HOX-Gene werden in vielen Krebsarten aberrant exprimiert (Bhat- lekar et al. [2014] J. Mol. Med. 92: 811-823). Fehlregulation von RCAN2 führt zu Proliferation der Tumorzellen (Niitsu et al. [2016] Oncogenesis 5: e253). Veränderte Expression von DOCK10 hatte bei einigen Studien die Migration von Melanomzellen zur Folge (Gadea et al. [2008] Curr. Biol. 18: 1456-1465). Auch einige OCA2-Mutationen sind mit erhöhtem Melanom- Risiko assoziiert (Hawkes et al. [2013] J. Dermatol. Sei. 69: 30-37). Des Weiteren sind HIF3A und FGD5 wichtige Angiogenese-Regulatoren und spielen somit eine entscheidende Rolle wäh rend der Tumor-Evolution (Jackson et al. [2010] Expert Opin. Therap. Targets 14: 1047-1057); und Kurogane et al. [2012] Arterioscler. Thromb. Vase. Biol. 32: 988-996). Die DNA- Methylierung einiger PCDHB2- CpG Loci ist mit einer schlechten Prognose der Neuroblastom- Patienten assoziiert (Abe et al. [2005] Cancer Res. 65: 828-834). Veränderter Metabolismus ist z.B. ein Kennzeichen maligner Tumore, dabei können der FADL-1 Fettsäuren-Transporter so wie einige SLC-Transporter eine wichtige Rolle spielen (Lin et al. [2015] Nat. Rev. Drug Discov. 14: 543-560; und Black [1991] J. Bacteriol. 173: 435-442). UBE3D kodiert für eine Ubiquitin- Protein-Ligase. Mehrere Studien haben gezeigt, dass einige Ubiquitin-Protein-Ligasen während der Tumor-Evolution eine wichtige Rolle spielen können (u.a. Lisztwan et al. [1999] Genes Dev. 13: 1822-1833). Bei AUTS2 und NRXN1 handelt es sich um neuronale Gene. Eine AUTS2- Überexpression wurde in Lebermetastasen nachgewiesen (Oksenberg & Ahituv [2013] Trends Genet. 29: 600-608). NRXN1 könnte für die Nikotinsucht verantwortlich sein (Ching et al. [2010] Am. J. Med. Genet. B. Neuropsychiatr. Genet. 153B: 937-947). Erhöhte Expression von ACOXL wurde bereits bei Prostatakarzinomen beschrieben (O'Hurley et al. [2015] PLoS One 10: e0133449). Einige Studien beschreiben FAM53A als einen prognostischen und therapeutischen Mammakarzinom-Marker (Fagerholm et al. [2017] Oncotarget 8: 18381-18398). Die vorgenann ten Studien gestatten jedoch keinerlei Rückschlüsse darauf, dass eine Methylierung in diesen Genen, geschweige denn in den in Tabelle 2-4 genannten Positionen, mit einer Lungenkrebs- Erkrankung korreliert und entsprechend als diagnostischer Marker für das Vorliegen von Lun- gentumoren oder die Feststellung der Entität oder die Ermittlung des Tumorstadiums herange zogen werden kann.
Damit stellt die Erfindung erstmalig ein Verfahren zur Diagnose von Lungenkrebs zur Verfü gung, bei dem die Methylierung eines Satzes von Methylierungsmarkern, z.B. in zfDNA aus ei- ner Flüssigbiopsie-Probe eines Patienten, bestimmt wird, wobei die Methylierung von Methylie rungsmarkern in den Genen SERPINB5, DOCK10, PCDHB2, HIF3A, FGD5, RCAN2, HOXD12, OCA2, SLC22A20, FADL-1, NRXN1, ACOXL, FAM53A, UBE3D und AUTS2 bestimmt wird.
Bevorzugt umfassen diese Methylierungsmarker die in Tabelle 2 genannten Methylierungsmar ker, insbesondere, wenn das Vorliegen eines Lungenkarzinoms bestimmt werden soll. Alterna- tiv, insbesondere wenn die Entität eines Lungenkarzinoms bestimmt werden soll, und insbe sondere wenn zwischen NSCLC-Typen Adenokarzinom und Plattenepithelkarzinom differen ziert werden soll, umfassen die Methylierungsmarker die in Tabelle 3 genannten Methylie rungsmarker. Bevorzugt werden sowohl die in Tabelle 2 als auch in Tabelle 3 genannten Methy lierungsmarker bestimmt, um beide Fragestellungen zu beantworten. Optional können ferner auch die in Tabelle 4 genannten Methylierungsmarker analysiert werden, was ferner Rück schlüsse auf das Stadium des Tumors gestattet.
Die Erfindung stellt damit ferner ein Verfahren zur Diagnose von Lungenkrebs zur Verfügung, bei dem die Methylierung eines Satzes von Methylierungsmarkern, z.B. in zfDNA aus einer Flüssigbiopsie-Probe eines Patienten, bestimmt wird, wobei der Satz von Methylierungsmarkern die 10 folgenden Positionen (siehe auch Tabelle 2) umfasst:
Es wurde gezeigt, dass diese Marker besonders aussagekräftig sind, wenn der kNN- Algorithmus zur Analyse verwendet wird. Mit diesen Markern kann insbesondere das Vorhan densein eines Tumors analysiert werden. Alternativ oder zusätzlich kann der Satz von Methylierungsmarkern die 10 folgenden Positionen umfassen (siehe auch Tabelle 3):
Es wurde gezeigt, dass diese Marker besonders aussagekräftig sind, wenn der RT-Algorithmus zur Analyse verwendet wird. Mit diesen Markern kann insbesondere die Entität eines Tumors identifiziert werden.
Optional, insbesondere, wenn ferner das Stadium eines Tumors identifiziert werden soll (also z.B. zwischen frühem (l+ll) und spätem (lll+IV) Stadium eines Lungenkarzinoms differenziert werden soll), kann der Satz von Methylierungsmarkern ferner alle in Tabelle 4 aufgelisteten Po sitionen umfassen. In diesem Fall kann der SVM-Algorithmus zur Analyse verwendet werden. Bei Regionen, die sich unter Verwendung von Proben aus frühen Lungenkarzinom-Stadien nicht validieren ließen, könnte es sich z.B. um für Metastasen spezifische Signaturen handeln. Diese Regionen wurden daher für die Berechnung des Sfag/ng-Parameters genutzt, also für die Berechnung des Stadiums. Bisher kann der in dieser Arbeit beschriebene Staging- Parameter die späten Lungenkarzinomstadien mit 80%iger Richtigkeit von frühen Stadien unterscheiden. Generell sollte der Staging- Parameter nur als Hinweis genutzt werden. Falls das entwickelte Panel ein Lungenkarzinom detektiert, wäre es weiterhin ratsam, therapeutisch relevante Infor mationen z.B. bezüglich der Größe oder Lage des Tumors durch bildgebende Verfahren, wie z.B. wie MRT, CT oder PET CT zu generieren. Damit ist es auch nicht essentiell, die auf das Stadium bezogenen Methylierungsmarker in jedem Fall mit zu analysieren. Im Rahmen der Erfindung kann der Lungenkrebs NSCLC oder SCLC sein, bevorzugt NSCLC. Der NSCLC ist bevorzugt ein Adenokarzinom oder Plattenepithelkarzinom. Es wurde gezeigt, dass erfindungsgemäße Marker zwischen diesen Entitäten differenzieren können und somit zur Differentialdiagnose geeignet sind. Die erfindungsgemäße Diagnose erlaubt eine Aussage über das Vorhandensein eines Tumors, über die Entität eines Tumors (insbesondere die Unterscheidung zwischen Adenokarzinom und Plattenepithelkarzinom), über das Tumor-Stadium und/oder über die Prognose. Am wichtigsten ist die Aussage über Vorhandensein und Entität des Tumors. Weitere Aussagen können optio nal auch mittels ergänzender Verfahren getroffen werden, wenn das Vorhandensein eines Tu mors erfindungsgemäß festgestellt wurde. Optional erlaubt das erfindungsgemäße Verfahren aber auch bereits eine Aussage über das Vorhandensein eines Tumors, über die Entität eines Tumors (insbesondere die Unterscheidung zwischen Adenokarzinom und Plattenepithelkarzi nom) und über das Tumorstadium, sowie bevorzugt über die Prognose. Der Begriff der Diagno se schließt also eine Differentialdiagnose ein.
Im Unterschied zu bisher bekannten Verfahren ist das erfindungsgemäße Verfahren auch zur Lungenkrebsfrüherkennung, also auch zur Diagnose in Stadium I oder II, geeignet. Vorteilhaf terweise ist diese Diagnose ferner auch auf Basis einer Flüssigbiopsie-Probe, also z.B. einer Blutprobe, möglich, so dass dem Patienten nicht zwingend anderes Gewebe entnommen wer den muss. Erfindungsgemäß wird daher z.B. eine Flüssigbiopsie-Probe eines Patienten analy siert.
Außerdem kann das erfindungsgemäße Verfahren vorteilhafterweise auch auf Basis von Lun- genbiopsie-Gewebe zuverlässig durchgeführt werden. In diesem Fall ist es auch möglich, eine "paired biopsy" durchzuführen und somit Gewebe aus Lungenbiopsien des vermutlich erkrank ten und des vermutlich gesunden Lungenflügels eines Patienten parallel zu untersuchen und zu vergleichen. In der Klinik wird in der Regel nur der tumor bzw. das verdächtige Gewebe biop- siert, wobei als Referenz ggf. zuvor erhobene Datensätze gesunder Gewebe dienen können.
Bevorzugt ist der Patient ein Mensch. Das Wort Patient wird im Allgemeinen synonym mit Sub jekt verwendet. Es kann sich um einen Patienten mit Symptomen handeln, die den Verdacht nahelegen, dass der Patient einen Lungentumor aufweist. Es kann sich aber auch um ein Sub jekt ohne Symptome handeln. Das Subjekt bzw. der Patient kann ein Risikopatient für einen Lungentumor sein. Dazu zählen Subjekte, die aufgrund bestimmter Risikofaktoren und/oder ih res Lebensstils (z.B. Rauchen, Verwendung von E-Zigaretten oder anderweitige erhöhte Expo sition gegenüber kanzerogenen Agentien, Symptome) ein erhöhtes Risiko für eine Lungen krebserkrankung besitzen und/oder radiologische Auffälligkeiten aufweisen. Der Patient kann auch ein Patient mit einem bereits behandelten, z.B. einem operierten Lungentumor sein, wobei das Wiederauftreten eines Tumors und/oder eine Metastasierung untersucht werden kann.
Generell kann die zfDNA aus einer Vielzahl von Körperflüssigkeiten extrahiert werden. So wur de z.B. bereits eine erfolgreiche Extraktion aus Blutplasma und -serum, Pleuraerguss oder Urin in der Literatur beschrieben. Erfindungsgemäß kann die Flüssigbiopsie-Probe Blut, Plasma, Se rum, Sputum, Bronchialflüssigkeit und Pleuraerguss sein. Bevorzugt ist sie von Blut abgeleitet, z.B. Serum oder Plasma, bevorzugt Plasma. Da Pleuraerguss erst im Laufe der Erkrankung auftritt, ist dieses Material vor allem für die Erkennung späterer Stadien geeignet. Die zfDNA- Extraktion aus dem Plasma oder Serum ist deutlich schneller und kostengünstiger als aus dem Urin, was diese Materialien für ein Screening interessanter macht. Schließlich ist die zfDNA- Stabilität relevant, denn zfDNA ist in Plasma stabiler als in Serum.
In einer Ausführungsform stellt die Erfindung Mittel zur Verfügung, welche zur Diagnose von Lungenkrebs mit einem erfindungsgemäßen Verfahren durch Untersuchung der Methylierung eines Satzes von Methylierungsmarkern, z.B. in zfDNA aus einer Flüssigbiopsie-Probe eines Patienten, geeignet sind. Die Mittel sind bevorzugt auch zur Diagnose von Lungenkrebs mit ei nem erfindungsgemäßen Verfahren durch Untersuchung der Methylierung eines Satzes von Methylierungsmarkern in einer anderen Probe eines Patienten, insbesondere einer soliden Ge webeprobe aus einem Tumor oder einem Gewebe, in dem ein Tumor vermutet wird, oder aus einer Lungenbiopsie, geeignet.
Dabei umfasst das Mittel Oligonukleotide, welche mit DNA (z.B. zfDNA oder davon z.B. durch Bisulfitkonvertierung abgeleiteter DNA) hybridisieren können, welche erfindungsgemäße Me thylierungsmarker umfasst bzw. daraus besteht. Bevorzugt sind hierbei Methylierungsmarker aus den in den Ansprüchen genannten Untergruppen. Unter "hybridisieren können" ist eine spezifische Hybridisierung zu verstehen, insbesondere unter stringenten Bedingungen, wie sie etwa im experimentellen Teil geschildert sind.
Geeignete Oligonukleotide sind z.B. Oligonukleotide, welche mit den in Tabelle 1a, 1b und/oder 1c, bevorzugt in Tabelle 1a, genannten Regionen hybridisieren können, weil sie komplementär zu diesen Regionen oder einem Fragment daraus sind, welches mindestens 20 Nukleotide, z.B. bei Kopplung an einen festen Träger bevorzugt 60-352, optional 100-190 oder 135-157 Nukleo tide umfasst. Die Länge hängt dabei u.a. von der Basenzusammensetzung bzw. Sequenz und der Hybridisierungstemperatur sowie der ausgewählten Technik ab. Da es sich um doppel- strängige DNA handelt, können die Oligonukleotide zu dem Strang in 5'-3' Richtung oder zu dem Strang in 3'-5' Richtung komplementär sein, oder zu beiden. Wichtig ist, dass die ausge wählten Oligonukleotide nicht mit anderen als den in den Tabellen genannten Regionen hybridi sieren können, was ebenfalls eine Voraussetzung für eine spezifische Hybridisierung ist. Bei spielhafte geeignete Oligonukleotide, die mit den in Tabelle 1a, 1b und 1c genannten Regionen auf Chromosom 1 hybridisieren können, sind in Tabelle 5 aufgeführt. Der Fachmann ist in der Lage, auf Basis der hierin offenbarten Informationen über die Marker auch für andere Marker geeignete Oligonukleotide auszuwählen. Solche Oligonukleotide können optional weitere Bestandteile umfassen, z.B. spacer oder linker- Regionen.
Die erfindungsgemäßen Oligonukleotide können z.B. an einen festen Träger gekoppelt werden, oder sind Oligonukleotide, die an einen festen Träger gekoppelt sind. Eine solche Kopplung ist z.B. über Adaptoren oder Tags möglich. Eine Option dafür ist die Kopplung an Biotin, welches an Streptavidin oder Avidin binden kann (oder bereits gebunden ist), das an den festen Träger gekoppelt ist.
Der feste Träger kann z.B. ein Genchip, ein Kügelchen oder Bead, z.B. ein magnetischer Bead oder eine Säulenmatrix sein. Der T räger erlaubt damit eine einfache Abtrennung der hybridisier ten DNA. Im Beispielteil sind an magnetische Beads beschrieben, die über eine Streptavidin- Biotin-Bindung an Oligonukleotide gekoppelt sind, welche spezifisch mit den in Tabelle 1 ge nannten Regionen hybridisieren und als Capture Probes eingesetzt werden können. Optional umfassen die erfindungsgemäßen Mittel 638 Oligonukleotide, z.B. Capture Probes, die mit allen in Tabelle 1 genannten Methylierungsmarkern hybridisieren können.
Es kann sich alternativ oder zusätzlich bei den erfindungsgemäßen Oligonukleotiden auch um ein Kit umfassend PCR-Primern zur Amplifikation von Regionen handeln, welche die Methylie rungsmarker umfassen oder (insbesondere im Fall von Regionen aus Tabelle 1) daraus beste hen. PCR-Primer weisen bevorzugt eine Länge von ca. 12-40, optional 15-25 Nukleotiden auf, welche mit den genannten Regionen hybridisieren können. Ein solches Kit kann auch Blockie- rungs-Oligonukleotide oder Detektionssonden umfassen, welche nach Bisulfitkonvertierung spezifisch an vorher methylierte oder unmethylierte DNA binden können. Solche Oligonukleoti de können z.B. in PCR-basierten erfindungsgemäßen Verfahren eingesetzt werden.
Eine Analyse per PCR ist vor allem zweckmäßig, wenn nur eine begrenzte Anzahl an Markern analysiert werden soll, also z.B. die Marker in den oben genannten Genen. Bevorzugt werden mit diesem Verfahren die in Tabelle 2 definierten Marker analysiert, alternativ oder zusätzlich auch die in Tabelle 3 definierten Marker, so dass entsprechend geeignete Oligonukleotide aus gewählt werden können.
Optional können ein oder mehrere für Multiplex-PCR geeignete Primer ausgewählt werden. Sonden zur Detektion sind bevorzugt mit geeigneten Farbstoffen markiert.
Die Erfindung stellt auch ein Verfahren zur Verfügung, bei dem die erfindungsgemäßen Mittel für eine Diagnose von Lungenkrebs in einer Probe eines Patienten einsetzt werden, wobei opti onal zfDNA aus einer Flüssigbiopsie-Probe eines Patienten (auch: Subjekts) untersucht wird. Aufgrund der Auswahl der Marker können aber auch andere Proben, z.B. aus Biopsien und- Bronchoskopien oder aus bei einer Operation entnommenen Gewebeproben, mit den erfin dungsgemäßen Mitteln untersucht werden, insbesondere mit solchen, die Marker aus Tabelle 1 a, b und/oder c umfassen, bevorzugt alle Marker aus Tabelle 1a und 1b, optional auch aus Ta belle 1c. Biopsien können auch von außen entnommen sein, ggf. unter Bildgebung.
Sollen Sequenzierungsdaten verwendet werden, so stellt die bioinformatische Auswertepipeline ein weiteres Problem dar. Die herkömmlichen gDNA-WGBS-Libraries werden nach dem Pro zessieren meist mit dem „Bismarck“ Algorithmus aligned. Die Ergebnisse des Alignments kön nen dann anschließend von zahlreichen Auswertepipelines analysiert werden, wobei genom weite DNA-Methylierungssignaturen extrahiert werden. Das in den Ausführungsbeispielen durchgeführte WGBS-Experiment der zirkulierenden DNA war das erste seiner Art. Dabei stellte sich heraus, dass die zfDNA-L/brar/es eine andere Komplexität sowie Fragmentverteilung als herkömmliche gDNA-L/brar/es besitzen (siehe Abschnitt 1.1.2.5). Dies könnte der Grund dafür sein, dass der im Stand der Technik am häufigsten verwendete „Bismarck“ Algorithmus eine nicht-zufriedenstellende Mapping Effizienz von nur 70% lieferte. Aus diesem Grund wurden wei tere Algorithmen ausgetestet. Die besten Ergebnisse, mit einer Mapping Effizienz von mindes tens 98%, lieferte hierbei der „Segemehl“ Algorithmus (siehe Abschnitt 1.1.2.5).
Daher wird in der Ausführungsform der Erfindung, die auf Sequenzierung bisulfit-konvertierter zfDNA beruht, besonders der Segemehl-Algorithmus zum Alignment (also zur Anordnung) der Sequenzierungsinformationen der zfDNA gegenüber einem Referenzgenom verwendet. Der Segemehl-Algorithmus findet sich unter https://www.bioinf.uni-leipziq.de/Software/seqemehl/. und wird z.B. in Otto et al. genauer beschrieben (Otto et al. [2012] Bioinformatics 28: 1698- 1704). Es kann, wie im unten geschilderten Beispiel, Version 0.2.0 verwendet werden, aber auch eine andere Version, wie z.B. 0.3.4.
Gegenstand der Erfindung ist auch ein erfindungsgemäßes Verfahren zur Diagnose eines Lun gentumors, welches folgende Schritte umfasst: a. Extraktion von zfDNA aus einer Flüssigbiopsie-Probe oder genomischer DNA aus einer Lungenbiopsie-Gewebeprobe oder einer soliden Gewebeprobe, die z.B. bei einer Ope ration entnommen wird, optional von zfDNA aus einer Flüssigbiopsie-Probe, b. Durchführung einer Bisulfitkonvertierung, c. Herstellung einer Whole Genome Bisulfite Sequencing Library, d. Anreicherung der die definierten Methlierungsmarker umfassenden DNA-Regionen, wobei diese bevorzugt mit einem erfindungsgemäßen Mittel zur Diagnose in Kontakt gebracht werden, e. Sequenzierung der angereicherten DNA-Regionen, f. Alignment der Sequenzierungsdaten gegen ein Referenzgenom unter Verwendung des Segemehl Algorithmus, g. Berechnung der Methylierungsraten.
Mittel und Verfahren zur Extraktion von genomischer DNA, zur Extraktion von zfDNA aus dem Plasma, Quantifizierung, Qualitätskontrolle (QC) sowie Bisulfitkonvertierung sind dem Fach mann aus dem Stand der Technik bekannt und/oder hierin beschrieben.
Die konvertierte DNA, z.B. zfDNA, kann für die Herstellung der Libraries verwendet werden. Die Library Präparation erfolgt in zwei Schritten. Im ersten Schritt wird, z.B. wie im Abschnitt 1.1.2.4 beschrieben, von jeder Probe eine WGBS Library hergestellt, welche Informationen über das gesamte Methylom bzw. das zfDNA-Methylom des entsprechenden Patienten enthält. Da im weiteren Verlauf jedoch nur die bestimmten, differentiell methylierten Regionen sequenziert und analysiert werden, können diese aus dem gesamten Methylom angereichert werden. Dies kann als zweiter Schritt auf Basis der Whole Genome Bisulfite Sequencing Library erfolgen.
Es können für die Anreicherung verschiedene erfindungsgemäße Sätze von Methylierungsmar kern eingesetzt werden, z.B. die erstmalig im Rahmen der vorliegenden Arbeit in zfDNA identifi zierten Marker aus Tab. 1a, alle Marker aus Tabelle 1a, alternativ oder zusätzlich die Marker aus Tabelle 1b und/oder 1c. Es ist aber auch möglich, nur Methylierungsmarker einzusetzen, bei denen im Rahmen der Klassifikation, insbesondere für das Vorhandensein eines Tumors (Tabelle 2) oder die Bestimmung der Entität des Tumors (Tabelle 3), aber optional auch für die Bestimmung des Tumorstadiums (Tabelle 4), eine besondere Bedeutung gefunden wurde.
Zur Anreichung können z.B. Capture Probes eingesetzt werden. Diese Capture Probes können das gesamte Plasma-Panel oder Teile davon abdecken (siehe Abschnitt 1.2.1).
Die angereicherte Library kann einer QC unterzogen sowie quantifiziert werden (siehe Abschnitt 1.1.2.2). Sie wird bevorzugt sequenziert, z.B. auf dem „MiSeq“ („Illumina“, USA) (siehe Ab schnitt 1.2.2). Die Sequenzierdaten können z.B. im „FastQ“-Format gespeichert und anschlie ßend analysiert werden (siehe z.B. Abschnitt 1.2.3). Bevorzugt soll nicht das gesamte Methylom analysiert werden, sondern nur definierte Methylierungsmarker. Bevorzugte Methylierungsmar ker sind z.B. die in Tabelle 1 bestimmten 638 Regionen (Plasma-Panel).
Für die Analyse wird, wie erwähnt, insbesondere der Segemehl-Algorithmus zum Alignment ge gen ein Referenzgenom eingesetzt. Danach werden die Methylierungsmuster berechnet.
Das Format des „Segemehr-OufpL/f-Files ist ein anders als das typische „Bismarck“-Format. Daher kann ggf. eine geeignete, mit „Segemehl“ kompatible Analysepipeline eingesetzt werden. Beispielhaft kann in diesem Kontext z.B. das „Bisulfite Analysis Toolkit“ genannt werden. Diese modular aufgebaute Software kann auf zahlreichen Rechenclustern verwendet und durch weite re Software sowie eigene Skripte erweitert werden. Für die Identifikation der für Lungenkrebsdi agnose geeigneten, differentiell methylierten Marker kann die Analysepipeline mit eigenen bio- informatischen Skripten ergänzt werden, z.B. den hierin offenbarten.
Alternativ zu dem Diagnoseverfahren mittels Sequenzierung ist es auf Basis der erfindungsge mäßen Ergebnisse auch möglich, eine Analyse über PCR durchzuführen. Dies ist vor allem für kleinere Untergruppen der bestimmten Marker relevant, z.B. wenn zunächst eine Probe eines Patienten nur auf das Vorhandensein eines Tumors und/oder die Bestimmung der Tumorentität untersucht werden soll. In diesem Fall können z.B. geeignete Primer eingesetzt werden, um Regionen der z.B. zfDNA zu amplifizieren und die in Tabelle 2 und/oder 3 genannten Positionen nachzuweisen. Dies kann aus aufgereinigter, bisulfit-konvertierter DNA z.B. mittels Realtime- PCR erfolgen. Es können aber auch Multiplex-PCRs oder parallele Ansätze eingesetzt werden.
Als interne Kontrolle kann z.B. beta-Aktin analysiert werden, um zu prüfen, ob die Menge an Gesamt-DNA in der Probe ausreichend ist. Dafür kann z.B. zfDNA aus einer Flüssigbiopsie, be vorzugt aus Plasma, z.B. wie in den Ausführungsbeispielen beschrieben, aufgereinigt, bisulfit- konvertiert und wiederum aufgereinigt werden. Es können für die PCR ferner Blocker und De tektionssonden eingesetzt werden, die spezifisch die bisulfit-konvertierten, unmethylierten Se quenzen innerhalb der Regionen erkennen und deren Amplifikation blockieren, so dass die me thylierten Sequenzen bevorzugt amplifiziert werden. Methylierungsspezifische Sonden defekte ren dann ausschließlich methylierte Sequenzen, die während der PCR amplifiziert wurden.
Vergleichbare Verfahren sind bereits beschrieben, z.B. für das Epi proLung Kit (Epigenomics AG, Berlin) und können für die erfindungsgemäß relevanten Methylierungsmarker z.B. aus Ta belle 2 und 3 adaptiert werden. Selbstverständlich ist es auch möglich, weitere Methylierungs marker z.B. aus dem Plasma-Panel, zusätzlich mit diesem Verfahren zu untersuchen, z.B. mehr als 25 differentiell methylierte Positionen oder mehr als 30 differentiell methylierte Positionen, wobei diese bevorzugt die in Tabellen 2 und 3 genannten Methylierungsmarker umfassen und/oder in den in Tabelle 1 genannten Regionen liegen, bevorzugt beides.
Die in der Probe eines Patienten (über Sequenzierungs-basierte Verfahren oder PCR-basierte Verfahren) festgestellten Methylierungsmuster, d.h. die Ergebnisse der Methylierungsmarker- Analyse, können mit den hierin bekannten Mustern für Tumore, optional einer bestimmten Enti tät und/oder eines bestimmten Stadiums korreliert werden, wie z.B. in den Tabellen angegeben. Dies lässt erfindungsgemäß Aussagen über das Vorhandensein, die Entität, das Stadium und/oder die Prognose eines Lungentumors zu und gestattet so eine zuverlässige erweiterte Diagnose. Erfindungsgemäß kann diese Diagnostik eingesetzt werden, um bei Vorhandensein eines Tu mors eine Therapie auszuwählen bzw. über die Einleitung einer Therapie zu entscheiden.
In einer Ausführungsform betrifft die Erfindung damit auch ein Verfahren zur Behandlung eines Lungentumors, welches ein erfindungsgemäßes Diagnoseverfahren umfasst, wobei bei Vorlie gen eines Tumors dieser Tumor behandelt wird. Vorteilhafterweise kann auch die Entität des Tumors festgestellt werden, wodurch eine z.B. für ein Adenokarzinom oder ein Plattenepithel karzinom geeignete Therapie ausgewählt werden kann. Eine geeignete Therapie kann z.B. die Verabreichung von geeigneten Medikamenten oder Kombinationen von Medikamenten und/oder eine Bestrahlung umfassen.
Alternativ kann das Diagnoseverfahren eingesetzt werden, um bei Nachweis eines Tumors wei tere Diagnoseschritte, wie die Entnahme einer festen Biopsie und oder bildgebende Verfahren durchzuführen.
Gegenstand der Erfindung ist auch eine Verwendung eines erfindungsgemäßen Verfahrens o- der eines erfindungsgemäßen Mittels zur Diagnose von Lungenkrebs, wobei die Diagnose eine Aussage über das Vorhandenseins eines Tumors, über die Entität eines Tumors, über das Tu morstadium und/oder über die Prognose erlaubt, bevorzugt über Vorhandensein und Entität des Tumors, optional über alles gleichzeitig.
Zusammenfassend lässt sich sagen, dass es im Rahmen der vorliegenden Erfindung erstmalig gelungen ist, ein NGS -Panel zu entwickeln, das u.a. auf genomweiten zfDNA- Methylierungssignaturen aus Plasma basiert. Dieses Plasma-Panel konnte unter Verwendung von Liquid Biopsies einer Patientenkohorte (n=12) erfolgreich validiert werden. Es zeichnet das erfindungsgemäße Verfahren jedoch explizit aus, dass es aufgrund der Auswahl der Marker neben der Untersuchung von zfDNA aus einer Flüssigbiopsie auch besonders gut für eine Un tersuchung z.B. Gewebeproben, die bei einer Operation genommen werden, oder Lungenbiop- sie-Gewebe geeignet ist. Während der Pilot-Studie differenzierte das Plasma Panel mit 100%iger Richtigkeit maligne Lungentumore bereits ab Stadium I, identifizierte die häufigsten NSCLC-Subtypen und lieferte weitere Informationen bezüglich der Bestimmung des Stadiums der Lungentumore (Staging).
Die Erfindung wird im Folgenden durch Beispiele erläutert, die die Erfindung illustrieren, aber nicht einschränken sollen. Alle in dieser Anmeldung zitierten Referenzen werden durch die Be zugnahme vollumfänglich hierin aufgenommen. Legende
Fig. 1: Die Auswertung der WGBS Sequenzierdaten erfolgte in mehreren Schritten. A. Zu nächst wurden die Daten einer QC (z.B. mit FastQC) unterzogen und anschließend prozessiert.
B. Dann wurden die prozessierten Daten gegen ein Referenzgenom (z.B. „HG19“) aligned und anschließend C. zum Berechnen der DNA-Methylierungsraten verwendet. Die Positionen, an denen eine Methylierungsrate ermittelt wurde, wurden dann nach bestimmten Kriterien gefiltert (z.B. Coverage und CpG Kontext) und schließlich D. weiteren Analysen unter Verwendung ei gener Skripte unterzogen.
Fig. 2: Prozessierte Sequenzierdaten wurden gegen das „HG19“ Referenzgenom aligned, wo bei das „Bisulfite Analysis Toolkit“ unter Verwendung des Segemehl-Algorithmus eingesetzt wurde. Des Weiteren erfolgten die Detektion von DNA-Methylierungsraten und differentiell me- thylierter Regionen sowie das Erstellen von Übersichtsgraphiken.
Fig. 3: Die Anreicherung von erfindungsgemäß wichtigen, differentiell methylierten Regionen des Satzes von Methylierungsmarkern war in mehrere Schritte unterteilt. A. zunächst wurden, z.B. wie im Abschnitt 1.1.2.4 beschrieben, WGBS Libraries hergestellt. Zur Validierung können diese äquimolar gepoolt werden; wenn dies zur Diagnose von Patienten durchgeführt wird, was vom Sequencer und dessen Kapazität sowie dem Probenaufkommen abhängt, dann können Einzelproben durch ein "Barcoding" individuell markiert und gemeinsam squenziert werden, um die Proben dann wieder bioinformatisch zu trennen. B. Die 638 differentiell methylierten Regio nen wurden dann, hier mit dem „SeqCap Epi Enrichment Kit“, an „Capture Probes“ hybridisiert,
C. unter Verwendung von „Capture Beads“ angereichert und schließlich D. in einer PCR- Reaktion amplifiziert. E. Die fertigen NGS Libraries wurden dann quantifiziert, einer QC unter zogen und auf dem „MiSeq“ sequenziert.
Fig. 4: Das Funktionsprinzip eines Klassifikators. Aus den Daten der Validierungskohorte (12 Patienten) wird zunächst ein Annotationsfile generiert, welcher zusätzlich mit den ermittelten DNA-Methylierungsraten der im Plasma-Panel enthaltenen Regionen (siehe Tabelle 1) in die „Qlucore Omics Explorer“ Software geladen wird. Die DNA-Methylierungsdaten (Variablen) und der Annotationsfile werden von implementierten Algorithmen („k-Nearest Neighbors Algorithm“ (kNN), „Support Vector Machines“ (SVM) und „Random Trees“ (RT)) dazu verwendet, ein opti males Model zu erstellen. Dieser Vorgang wird als Predictive Modelling bezeichnet. Nachdem der optimale Klassifikator generiert ist, ist dieser in der Lage, das zfDNA-Methylierungsmuster eines unbekannten Patienten zu analysieren und somit eine Diagnose zu stellen (Adenokarzi nom (A.K.), Plattenepithelkarzinom (P.K.)). Fig. 5: Ergebnisse der differentiellen Methylierungsanalyse mit HM 450K. Die hierarchische Clusteranalyse von 40 OP-Präparaten und deren korrespondierenden Kontrollen identifizierte A. 898 differentiell methylierte CpG Loci in Tumorproben (q< 1 c1023, o/omax> 0,4) (linke Hälfte: ganz links drei Tumorproben, dann benignes Gewebe, rechte Hälfte Tumorgewebe) und B. 1.167 differentiell methylierte CpG Loci in unterschiedlichen Lungenkarzinomentitäten (FDR < 1 x 104) (heller oberer Rand: Adenokarzinom, grauer oberer Rand: Plattenepithelkarzinom, dunk ler oberer Rand: Adenosquamöses Karzinom. Ergebnisse: dunkel: wenig Methylierung, hell: viel Methylierung).
Fig. 6: Die mit den „BAT_calling“ und „BAT_filter_vcf“ Modulen ermittelten DNA- Methylierungsraten wurden in das „BAT_summarize“ Modul des „Bisulfite Analysis Toolkit“ ge laden. A. Das Streudiagramm zeigt deutlich, dass die Lungenkarzinomgruppe anhand des DNA-Methylierungsmusters von der Kontrollgruppe (tumorfreie Patientenkohorte) unterschieden werden kann. B. Die mittlere sowie C. die gestaffelte Darstellungen der DNA- Methylierungsraten pro Gruppe verdeutlichen die genomweite Hypermethylierung der Lungen karzinomgruppe im Vergleich zur Kontrollgruppe.
Fig. 7: Die ermittelten zfDNA-Methylierungsmuster wurden normalisiert und einer hierarchi schen Clusteranalyse unterzogen. Dabei wurden A. 18.000 für das Lungenkarzinom und B. 44.000 für die jeweilige Entität spezifische differentiell methylierte CpG Loci identifiziert (Adeno karzinom (A.K.), Plattenepithelkarzinom (P.K.)).
Fig. 8: „Pearson“-Korrelationsanalyse der mit beiden Methoden (HM 450K und WGBS) detek- tierten DNA-Methylierungswerte (Adenokarzinom (A.K.), Plattenepithelkarzinom (P.K.)).
Fig. 9: Die ermittelten zfDNA-Methylierungsraten wurden in die „Qlucore Omics Explorer“ Soft ware geladen und unter Verwendung folgender Klassifikationsalgorithmen analysiert: „k-Nearest Neighbors Algorithm“ (kNN), „Support Vector Machines“ (SVM) und „Random Trees“ (RT). Ein hoher z-Wert steht für eine starke Methylierung. A. Der kNN Algorithmus konnte unter Analyse von 10 differentiell methylierten Positionen (Markern) die gesunden (Kontrolle) von den an ei nem malignen Lungenkarzinom erkrankten Patienten unterscheiden. Sowohl die frühen (I, II) als auch die späten (III, IV) Lungenkarzinomstadien wurden mit 100%iger Richtigkeit klassifiziert (helle Balken an Oberseite der Abbildung: maligner Lungentumor, dunkler Balken (3 Spalten links): Kontrolle). Bei 9 der 10 Positionen findet sich im Tumorgewebe eine stärkere Methylie rung, bei einer eine schwächere. B. Der RT Algorithmus analysierte 10 Positionen, um mit einer 100%igen Richtigkeit die Entität des Tumors zu ermitteln (helle Balken an Oberseite der Abbil dung (6 Spalten rechts): Plattenepithelkarzinom, dunkle Balken (4 Spalten links): Adenokarzi nom). Bei allen gezeigten Markern findet sich beim Adenokarzinom eine stärkere Metylierung als beim Plattenepithekarzinom. C. Die späten Tumorstadien (III, IV) konnten mit einer 80%igen Richtigkeit mit dem SVM Algorithmus identifiziert werden, dabei wurden 523 Positionen analy siert ((helle Balken an Oberseite der Abbildung (4 Spalten links): frühes Stadium (I, II), dunkle Balken an der Oberseite der Abbildung (5 Spalten rechts): spätes Stadium (III, IV)). Dabei sind die ausgewerteten Positionen z.T. in den frühen, z.T. in den späten Stadien stärker methyliert.
Beispiele
1.1 Methoden: „Entwicklung des Plasma-Panels“
Um eine nichtinvasive Lungenkrebsdiagnostik zu ermöglichen, wurde im Rahmen der Erfindung ein geeignetes Panel, also ein Satz von Methylierungsmarkern, zur DNA-Methylierungsanalyse im Blutplasma entwickelt. Der Satz von Methylierungsmarkern wird daher auch als Plasma Pa nel bezeichnet. Die Entwicklung des Plasma Panels erfolgte in drei voneinander unabhängigen Ansätzen. Im ersten Ansatz wurde geprüft, ob die DNA-Methylierung sich generell als Biomar ker für die Lungenkrebsdiagnostik eignet (siehe Abschnitt 1.1.1). Hierfür wurden 40 Lungenkar zinome sowie deren korrespondierenden Kontrollen unter Verwendung des „Illumina Infinium Human Methylation450K BeadChips“ (HM 450K) analysiert. Die Methode identifizierte deutli che, tumorspezifische DNA-Methylierungssignaturen. Als nächstes wurden, wie im Abschnitt
1.1.1 beschrieben, die Regionen mit den stärksten DNA-Methylierungsunterschiede ermittelt und in das Panel aufgenommen.
Im zweiten Ansatz wurde untersucht, ob tumorspezifische DNA-Methylierungssignaturen auch im Blutplasma der betroffenen Patienten detektiert werden können (siehe Abschnitt 1.1.2). Da für wurde zirkulierende, zellfreie DNA aus dem Plasma von Adeno- (n=5) und Plattenepithelkar zinompatienten (n=4) extrahiert und anschließend zu 3 Pools vereinigt. Als Kontrolle diente Plasma einer tumorfreien Patientenkohorte (n=19). Die detaillierten Informationen zu den Pati enten sind im Abschnitt 1.1.2 zusammengestellt. Durch das Poolen wurden individuelle DNA- Methylierungsmuster weitgehend eliminiert, und die allgemeinen tumor- bzw. lungenspezifi schen Signaturen dagegen hervorgehoben. Dann wurden die zfDNA -Pools einer genomweiten Bisulfitsequenzierung unterzogen (engl whole genome bisulfite sequencing (WGBS), siehe Ab schnitt 1.1.2.4). Die Methode detektierte mehrere tausend aberrant methylierte CpG Loci, die nicht nur tumor- sondern auch entitätsspezifisch waren. Davon wurden die am besten geeigne ten Regionen für die Differenzierung für das Plasma Panel ausgewählt (siehe Abschnitt 1.1.2.5.5). Da die Diagnose erfindungsgemäß bevorzugt anhand von Flüssigbiopsien vorge nommen werden soll, sind die hier identifizierten Methylierungsmarker von besonderer Bedeu tung. Im dritten Ansatz wurde das Plasma Panel mit 59 tumorspezifischen sowie prognostisch rele vanten CpG Loci aus weiteren Studien ergänzt (siehe Abschnitt 1.1.3).
1.1.1 Nachweis der aberranten DNA-Methylierung in primärem Tumorgewebe
Der HM 450K Datensatz enthielt Informationen über den Methylierungsstatus von 40 Lungen karzinomen (Adeno- und Plattenepithelkarzinome) und deren korrespondierenden Kontrollen. Der Datensatz wurde mit der „Qlucore Omics Explorer“ Software (Version 3.2, „Qlucore“, Schweden) ausgewertet und ergab:
1.) 897 CpG Loci (T-Test: FDR < 1 c 1023, o/om ax> 0,4), die zwischen dem Tumor- und ge sundem Lungengewebe differenziert methyliert waren.
2.) 1.167 CpG Loci (T-Test: FDR < 1 c 10-4), die zwischen dem Adeno- und Plattenepithel karzinomgewebe differenzierten.
Um die CpG Loci mit den stärksten DNA-Methylierungsunterschieden zu ermitteln, wurden die beiden Listen zunächst nach differentieller Methylierung größer 35% (avg.beta > 0,35) gefiltert und unter Verwendung von „Bedtools“ (Version 2.2.6, „The University of Utah“, USA) gegen das „HG19“ Referenzgenom annotiert. Alle CpG Loci , die innerhalb von häufigen SNPs (>1% der Bevölkerung) lokalisiert waren und nicht proteinkodierend waren, wurden verworfen. Die übrig gebliebenen Loci wurden in das finale Plasma Panel aufgenommen (Tab. 1).
1.1.2 Nachweis der aberranten DNA-Methylierung in Blutplasma
Die zirkulierende zellfreie DNA wird erfindungsgemäß zur nichtinvasiven Diagnostik von soliden Tumoren genutzt. Falls ein Patient an einer malignen Tumorerkrankung leidet, ist in der Ge samtmenge der zirkulierenden DNA auch die Tumor-DNA enthalten, welche alle therapeutisch und prognostisch relevanten Informationen über die genetischen und epigenetischen Charakte ristika des Tumors enthält. Daher muss die zfDNA aus dem Blut bzw. Blutplasma isoliert wer den. Da zfDNA nur in einer sehr geringen Menge aus dem Blutplasma extrahiert werden kann, wurde hierfür eine Methode gewählt, die sehr spezifisch und effizient die zfDNA anreichert, oh ne dabei weitere Bestandteile des Plasmas zu isolieren.
Dafür kann z.B. das „PME free-circulating DNA Extraction Kit“ („Analytik Jena“, Deutschland, siehe Abschnitt 1.1.2.1) eingesetzt werden. Es enthält ein Polymer, welches nur sehr spezifisch kurzsträngige dsDNA-Fragmente komplexiert. Der Polymer-zfDNA-Komplex wird anschließend ausgefällt und aufgereinigt. Nach der Aufreinigung kann die Komplexverbindung gelöst werden. Die dabei freigegebene DNA wird in weiteren Schritten, z.B. über Bindung an eine Silica-Säule, vom Polymer gereinigt und aufkonzentriert. Auch andere Methoden, die z.B. auf dem gleichen oder ähnlichen Wirkprinzipien beruhen, können eingesetzt werden. Das dabei entstehende Produkt ist sehr sauber und kann auch für empfindliche NGS-basierte Analysemethoden wie z.B. WGBS verwendet werden.
1.1.2.1 Extraktion der zirkulierenden, zellfreien DNA (zfDNA) aus Blutplasma
Blutplasma wurde präpariert und auf Trockeneis verschickt. Hierfür wurde das Vollblut innerhalb von 30 min nach der Entnahme bei 1.500g 10 min lang zentrifugiert. Nach der Zentrifugation wurde der Plasmaüberstand vorsichtig abpipettiert, auf „CryoPure“ Gefäße („Sarstedt AG&Co“, Deutschland) verteilt und sofort bei -80°C eingefroren.
Die eingefrorenen Plasmaproben wurden langsam unter lauwarmem Wasser aufgetaut und an schließend bei 4.500g 10 min lang zentrifugiert. Das Pellet wurde verworfen, der klare Über stand in ein 10 ml_ Röhrchen überführt und mit dem „PME free-circulating DNA Extraction Kit“ gemäß den Weisungen des Herstellers prozessiert.
1.1.2.2 Quantifizierung und Qualitätskontrolle (QC) der extrahierten zfDNA
Die zfDNA wurde fluorometrisch unter Verwendung des „Qubit dsDNA High Sensitivity Assay Kit“ („Thermo Fisher Scientific“, USA) quantifiziert. Hierfür wurde jeweils 1 pl_ der Probe mit den 198 mI_ „Qubit dsDNA HS Buffer“ sowie 1 mI_ „Qubit dsDNA HS Reagent“ vermischt, 2 min lang inkubiert und anschließend im „Qubit 2.0“ Fluorometer („Thermo Fisher Scientific“, USA) ver messen. Bei dem „Qubit dsDNA HS Reagent“ handelte es sich um einen Farbstoff, der unter normalen Bedingungen ein sehr schwaches Fluoreszenzsignal erzeugt. Bei Vorhandensein von doppelsträngiger DNA (dsDNA) interkaliert es jedoch in die dsDNA, verändert seine Struktur und erzeugt ein starkes Fluoreszenzsignal. Dabei wird weder einzelsträngige DNA (ssDNA) noch RNA gebunden. Somit korreliert die Signalintensität ausschließlich mit der in der Probe vorhandenen Menge an dsDNA.
Die Qualität der extrahierten zfDNA wurde mit Hilfe des „Agilent 2100 High Sensitivity DNA Kit“ („Agilent“, USA) analysiert. Bei der Methode handelte es sich um eine Kapillar- Gelelektrophorese. Zunächst musste das „Gel-Dye Mix“ vorbereitet werden. Dabei wurden 300 mI_ der Gelmatrix mit 15 pL des Farbstoffkonzentrats versetzt, gemischt und auf einen „Spin Fil ter“ gegeben. Die Zentrifugation erfolgte 10 min lang bei 2.240g. Als nächstes wurde der DNA- Chip in der „Priming Station“ platziert und äquilibriert. Dafür wurden 9 mI_ des „Gel-Dye Mix“ in das für den Äquilibriervorgang vorgesehene Well pipettiert. Der Stempel der „Priming Station“ wurde auf einen Milliliter justiert. Nachdem die „Priming Station“ fest verschlossen war, wurde der Stempel eine Minute lang heruntergedrückt. Schließlich wurden die restlichen Wells des Chips nach Angabe des Herstellers beladen. Der Chip wurde 1 min inkubiert und direkt danach gemessen. Während der Inkubationszeit interkalierte ein im „Gel-Dye Mix“ enthaltener fluores zierender Farbstoff zwischen den Basen der dsDNA. Die dsDNA Fragmente wurden anschlie- ßend durch die mikroskopisch kleinen Kapillaren des „Agilent 2100 Bionalyzer“ („Agilent“, USA) gezogen und dabei nach Fragmentgröße aufgetrennt und detektiert.
1.1.2.3 Bisulfitkonvertierung der zfDNA
Für die genomweite Analyse des DNA-Methylierungsmusters z.B. durch den HM 450K oder die WGBS, wird DNA einer genomweiten PCR-basierten Amplifikation unterzogen. Die DNA- Polymerasen können nicht zwischen Cytosinen und 5-Methylcytosinen unterscheiden, so dass während der Reaktion alle 5-Methylcytosine durch Cytosine ersetzt werden. Die neu syntheti sierten Stränge werden nicht erneut methyliert.
Um Cytosine von 5-Methylcytosinen unterscheiden zu können, wird die Probe vor der PCR ei ner Behandlung mit Natriumbisulfit unterzogen. Dieser Prozess wird als Bisulfitkonvertierung bezeichnet, dabei werden alle unmethylierten Cytosine in Uracile umgewandelt. Die methylier- ten Cytosine bleiben dagegen unter den gewählten Reaktionsbedingungen unverändert. Die Reaktion der Bisulfitkonvertierung ist in NEB, N.E.B. Bisulfitkonvertierung (verfügbar unter: http://www.neb-online.de/wp-content/uploads/2015/04/NEB epigenetik bisulfit3.jpg) sowie in Clark et al. (Clark et al. [1994] Nucl. Acids Res 22: 2990-2997) dargestellt.
Die Bisulfitkonvertierung der zfDNA kann z.B. mit dem „EZ DNA Methylation-Gold™ Kit“ („Zymo Research“, USA) erfolgen. Dafür wurden 10 ng der zuvor extrahierten zfDNA in 20 pl_ Wasser gelöst, mit 130 mI_ „CT“-Konvertierungsreagenz versetzt und im Thermocycler bei folgendem Programm prozessiert: 10 min 98°C, 2,5 h 64°C, bis zu 20 h bei 4°C. Im nächsten Schritt wur den die bisulfitkonvertierten Proben desulfoniert und aufgereinigt. Hierfür wurden sie mit 600 mI_ „M-Binding Buffer“ versetzt, auf die „Zymo-Spin™ IC“ Säulen pipettiert und bei 10.000g 30 s lang zentrifugiert. Dann wurden 100 mI_ „M-Wash Buffer“ auf die Säulen gegeben. Die Säulen wurden 30 s lang bei 10.000g zentrifugiert und für 20 min mit 200 mI „M-Desulphonation Buffer“ behandelt. Nach anschließender 30 s langen Zentrifugation bei 10.000g wurden die „Zymo- SpinTM IC“ Säulen mit 200 mI_ „M-Wash Buffer“ gewaschen, zur Entfernung verbliebener Flüs sigkeiten für 30 s bei 10.000g zentrifugiert und die DNA mit 15 pL „Elution Buffer“ bei 10.000g 30 s lang eluiert.
1.1.2.4 Whole Genome Bisulfite Sequencing (WGBS)
Um das zfDNA-Methylierungsprofil genomweit analysieren zu können, wurden die zuvor bisul fitkonvertierten Proben einer WGBS unterzogen. WGBS ist eine NGS-basierte Methode (engl. next generation sequencing). Heutzutage existieren zahlreiche Technologien, die NGS ermögli chen. Die am meisten verbreitete und auch hier verwendete NGS Technologie bietet die Firma „Illumina“ (USA) an. Die zugrunde liegende Sequenzierreaktion ist fluoreszenzbasiert und er folgt auf einem Glasträger, auch Flowcell genannt. Um die DNA-Fragmente an der Flowcell zu immobilisieren, werden zunächst spezielle „Illumina“ Adapter (kurze Oligonukleotide) ligiert. Nachfolgend wird die Probe einer Denaturierungsreaktion unterzogen. Da sich auf der Flowcell nicht nur die Adapterbindestellen, sondern auch Primer befinden, kommt es zum "Umknicken" des zu sequenzierenden ssDNA-Fragments. Während der nachfolgenden PCR-Reaktion wer den die DNA-Stränge vervielfältigt. Dieser Vorgang wird als Bridge Amplification bezeichnet. Dabei entstehen durch die fortschreitende Amplifikation an begrenzten Positionen die soge nannten Sequenziercluster, die nachfolgend dissoziieren. Nach der Clusterbildung erfolgt die eigentliche Sequenzierreaktion, bei der DNA-Basen eingebaut werden, die je nach eingebauter Base Fluoreszenzsignale unterschiedlicher Wellenlängen erzeugen. Nach jedem abgeschlos senem Einbauzyklus werden diese Fluoreszenzsignale detektiert und liefern somit die Informa tionen über die Basenabfolge innerhalb eines Reads.
Je nach gewünschtem Durchsatz, können unterschiedliche „Illumina“ Plattformen genutzt wer den. Für die Sequenzierung gezielter Regionen, sogenannten Panels, wie dem erfindungsge mäß identifizierten Panel oder Satz an Methylierungsmarkern, ist im allgemeinen die schnellere und preisgünstigere „MiSeq“ Plattform ausreichend. Die die Sequenzierung kann aber z.B. auch auf den „NextSeq 500“ oder „HiSeq“ oder anderen geeigneten Sequenzier-Plattformen erfolgen.
1.1.2.4.1 Erstellen der WGBS Libraries (WGBS Bibliotheken)
Während der Bisulfitkonvertierung wird DNA durch die verwendeten Reagenzien sehr stark be ansprucht und somit zu einem hohen Anteil degradiert. Deswegen verwenden die herkömmli chen WGBS Protokolle sehr hohe Mengen an DNA, mindestens 500 ng. Da die zellfreie, zirku lierende DNA zum einen von Anfang an schon sehr stark fragmentiert ist und zum anderen nur in einer sehr geringen Menge gewonnen werden kann, ist die Herstellung von WGBS Libraries mit herkömmlichen Kits zurzeit schwierig.
Deshalb wurde für folgende Experimente das „Accel-NGS® Methyl-Seq DNA Library Kit“ („Swift Biosciences“, USA) etabliert. Das Kit wurde speziell für WGBS der zfDNA entwickelt. Bereits bei zfDNA-Mengen von weniger als 10 ng können damit komplexe WGBS Libraries generiert wer den. Die zentrale Rolle spielt dabei das Enzym „Adaptase“, welches einen 10 nt langen Über hang am 3‘-Ende der bisulfitkonvertierten ssDNA anfügt. Dieser Überhang ermöglicht ein bes seres Ligieren der Sequenzieradapter und somit eine effizientere Library Herstellung. Daher wird erfindungsgemäß bevorzugt ein Verfahren zur Herstellung der WBGS Libraries eingesetzt, welches mittels des Enzyms Adaptase einen 10 nt langen Überhand am 3'-Ende der bisulfit konvertierten ssDNA einfügt.
Die Library Herstellung wurde mit dem „Accel-NGS® Methyl-Seq DNA Library Kit“ („Swift Biosciences“, USA) in vier Schritten durchgeführt: Behandlung mit dem Enzym „Adaptase“, Ex- tension, Ligation, PCR. Für die Behandlung mit dem Enzym „Adaptase“ wurden 10 ng bisulfit- konvertierter zfDNA in 15 pL Wasser aufgenommen und bei 95°C für 2 min denaturiert. Dann wurden zu der Probe 25 pl_ des „Adaptase Reaction Mix“ gegeben, vorsichtig gemischt und im Thermocycler prozessiert (Programm 1: 37°C 15 min; 95°C 2 min; 4°C; bei allen Programmen war der Deckel des Thermocyclers vorgeheizt). Als nächstes erfolgte die Extension. Hierfür wurde die Probe mit 44 mI_ „Extension Reaction Mix“ versetzt, vorsichtig gemischt und im TI ier- mocycler inkubiert (Programm 2: 98°C 1 min; 62°C 2 min; 65°C 5 min; 4°C).
Das Produkt wurde aufgereinigt. Dafür können z.B. „SPRI Beads“ („Beckman Coulter“, USA) eingesetzt werden. Danach erfolgte die Ligation, für die 15 pL des Produkts mit 15 pL „Ligation I Reaction Mix“ versetzt und im Thermocycler prozessiert wurden (Programm 3: 25°C 1 min; 4°C). Auch bei diesem Schritt wurde das fertige Produkt unter Verwendung von „SPRI Beads“ („Beckman Coulter“, USA) aufgereinigt. Schließlich wurde die PCR durchgeführt. Dabei wurden pro Probe 5 pL des jeweiligen Index sowie 25 pL des „Indexing PCR Reaction Mix“ hinzugege ben. Die fertige PCR-Reaktion wurde im Thermocycler inkubiert (Programm 4: 98°C 30 s; PCR- Zyklen: 98°C 10 s; 60°C 30 s; 68°C 1 min (7-9 Zyklen); 4°C) und über die „SPRI Beads“ („Beckman Coulter“, USA) nach den Instruktionen des Herstellers aufgereinigt.
Die fertigen WGBS Libraries wurden wie im Abschnitt 1.1.2.2 beschrieben quantifiziert und auf ihre Qualität überprüft.
„SPRI Beads“ Aufreinigung
Die Proben wurden in 1,5 mL Eppendorf Reaktionsgefäße überführt und im vorgeschriebenen Verhältnis mit „SPRI Beads“ („Beckman Coulter“, USA) versetzt (Tab. A). Dann wurden die Pro ben gemischt und 5 min bei Raumtemperatur inkubiert. Da die Beads magnetisch waren, konn te zum Pelletieren das Prinzip der magnetischen Separation genutzt werden. Hierfür wurden die Reaktionsgefäße auf einem magnetischen Ständer platziert und dann 2 min lang bei Raumtem peratur inkubiert. Nach der Inkubation wurde der Überstand entfernt, die Beads mit je 500 pL 80%igen Ethanol („Merck Millipore“, USA) zwei Mal gewaschen und anschließend an der Luft getrocknet. Sobald das Ethanol verdampft war, wurden die Proben vom magnetischen Ständer entnommen. Die „SPRI Beads“ wurden in der vorgeschriebenen Menge „Low EDTA TE“ Puffer resuspendiert (Tab. A) und 2 min lang bei Raumtemperatur inkubiert. Schließlich wurden die Proben wieder auf den magnetischen Ständer platziert. Nach ca. 2 min erfolgte eine vollständi ge Trennung des Überstands und der „SPRI Beads“. Der Überstand enthielt das aufgereinigte Produkt, wurde abpipettiert und für den nächsten Schritt verwendet.
Tab. A: Proben- und Reagenzvolumina für die Aufreinigungsschritte mit den „SPRI Beads“. Schritt Probe „SPRI Beads“ „Low EDTA TE“ Puffer
1.1.2.4.2 Sequenzierung der WGBS Libraries
Die Sequenzierung der WGBS Libraries erfolgte auf der „NextSeq 500“ Plattform („Illumina“, USA) im „TATAA- Biocenter“ (Göteborg, Schweden). Dabei wurden vier 76 pair end (PE) Läufe im Hochdurchsatzmodus durchgeführt.
1.1.2.5 Bioinformatische Auswertung der WGBS Ergebnisse
Die WGBS Libraries konnten aufgrund der starken Fragmentierung und geringen Mengen an zfDNA nicht mit herkömmlichen Protokollen angefertigt werden. Die mit dem „Accel-NGS® Me- thyl-Seq DNA Library Kit“ („Swift Biosciences“, USA) hergestellten zfDNA Libraries wiesen somit eine andere Komplexität und Fragmentverteilung auf, als die herkömmlichen WGBS Libraries. Deswegen musste auch eine geeignete bioinformatische Auswertepipeline etabliert werden, um die Daten optimal analysieren zu können.
Generell müssen mehrere Schritte etabliert werden, um WGBS Daten auswerten zu können (Fig. 1). Zunächst wird die Qualität der Rohdaten überprüft. Hierfür wird am häufigsten die „FastQC“ Software (Version 0.11.15, „Babraham Bioinformatics“, England) verwendet (siehe Abschnitt 1.1.2.5.1). Die Software visualisiert die Qualität der Sequenzierung, Längenverteilung und Zusammensetzung der Reads. Des Weiteren werden Informationen über mögliche Adap terkontaminationen sowie Anzahl an Kmeren und PCR-Duplikaten geliefert. Als Kmere werden Sequenzen mit einer Mindestlänge von zwei Nukleotiden bezeichnet, die sich in den Rohdaten immer wieder wiederholen.
Falls die Qualitätskontrolle zufriedenstellende Ergebnisse liefert, erfolgt das Trimmen der Adap tersequenzen. Bei den zfDNA Libraries musste außerdem der von der „Adaptase“ erzeugte 10 nt lange Überhang aus den Rohdaten eliminiert werden (siehe Abschnitt 1.1.2.5.2).
Nach dem Trimmen können die Reads gegen ein Referenzgenom der Wahl angeordnet wer- den, dieser Vorgang wird auch als Alignment bezeichnet (siehe Abschnitt 1.1.2.5.3). Für das Alignment sind viele Algorithmen verfügbar. Je nach Beschaffenheit der WGBS Library muss der passende ausgewählt und optimiert werden. Hierfür kann die Mapping Effizienz analysiert werden. Dabei wird berechnet wie viel Prozent an analysierten Reads dem Referenzgenom zu geordnet werden können. Für die herkömmlichen WGBS Libraries wird am häufigsten der „Bis- marck“ Algorithmus verwendet (Krueger & Andrews [2011] Bioinformatics 27: 1571-1572). Bei den hier beschriebenen zfDNA Libraries lieferte „Bismarck“ (Version 0.15.0, „Babraham Institu te“, England) jedoch keine zufriedenstellende Ergebnisse ( Mapping Effizienz von ca. 70%). Deshalb wurden weitere Algorithmen ausgetestet.
Die besten Ergebnisse mit einer Mapping Effizienz von mindestens 98% lieferte der „Segemehl“ Algorithmus (Version 0.2.0, „Interdisziplinäres Zentrum für Bioinformatik, Universität Leipzig“, Deutschland) (Otto et al. [2012] Bioinformatics 28: 1698-1704).
Nach dem Alignment werden die Daten nach CpG Kontext sowie der gewünschten Coverage (mindestens vierfach) z.B. mit dem „Bisulfite Analysis Toolkit“ (Version 0.1, „Interdisziplinäres Zentrum für Bioinformatik, Universität Leipzig“, Deutschland) gefiltert und erst dann für das Peak Calling verwendet (siehe Abschnitt 1.1.2.5.3). Die Coverage, auch Sequenziertiefe ge nannt, gibt an, wie häufig eine Position beim Sequenzieren abgelesen wurde. Z.B. sagt eine mittlere Coverage von 100fach aus, dass jede sequenzierte Base im Durchschnitt 100 Mal ab gelesen wurde. Das Peak Calling ist der eigentliche Schritt, in dem der Methylierungsstatus des jeweiligen CpG berechnet wird. Dabei werden alle Reads angeschaut, die ein bestimmtes CpG enthalten, das Cytosin zu Uracil Verhältnis wird berechnet und das Ergebnis als eine Zahl zwi schen 0 und 1 ausgegeben, wobei 0 einer Methylierung von 0% und 1 einer Methylierung von 100% entspricht. Die herkömmlichen Libraries haben eine durchschnittliche Coverage von 30 bis 40fach, worauf auch die herkömmlichen Methoden für das Peak Calling ausgelegt sind. Die zfDNA Libraries hatten aufgrund der geringeren Komplexität eine durchschnittliche Coverage von 8 bis 10fach. Dementsprechend musste auch das Filtern und Peak Calling z.B. mit dem „Bisulfite Analysis Toolkit“ optimiert werden.
Sobald die DNA-Methylierungsraten feststehen, können weitere, spezifische Analysen je nach Fragenstellung in einer Programmiersprache der Wahl erfolgen. Für die hier beschriebenen Analysen wurden „R“ (Version 3.2.0, „R Foundation for Statistical Computing“, Österreich), „Perl“ (Version 5.26.0, „The Perl Foundation“, USA) und „Python“ (Version 3.3.6, „Python Soft ware Foundation“, USA) verwendet (siehe Abschnitt 1.1.2.5.3).
Da die hier beschriebenen Analysen eine sehr hohe Rechenkapazität benötigten, erfolgten sie auf einem „NEC-HPC-Linux-Cluster“. Zugang zum Vorrechner erfolgte über eine SSH- Verbindung unter Verwendung der „MobaXterm Personal Edition“ Software („Mobatek“, Frank reich).
1.1.2.5.1 Oualitätskontrolle der Rohdaten
Die Rohdaten wurden im „FastO“- Format geliefert. Hierbei handelt es sich um ein text-basiertes
Format, das zum Speichern der Reads sowie dazugehöriger Oualitätsparameter verwendet wird. Um die Qualität der Sequenzierung zu überprüfen, wurde die „FastQC“ Software verwen det.
1.1.2.5.2 Datenprozessierung ( Trimmen )
Die Rohdaten wurden unter Verwendung der „Cutadapt“ Software (Version 1.9.1, „TU Dort mund”, Deutschland) (Martin EMBnet.journal 17) prozessiert. Dabei wurden zwei Schritte durchgeführt.
1.) Eliminierung der überrepräsentierten Sequenzen
Während der Sequenzierung wurden die ersten 76 Basen jedes DNA-Fragments von beiden Enden abgelesen (76 PE Sequenzierung). Die mit dem „Accel-NGS® Methyl-Seq DNA Library Kit“ generierten Libraries, enthielten DNA-Fragmente unterschiedlicher Länge. Das bedeutet, wenn ein DNA-Fragment kürzer als 152 bp war, wurden auch die „Illumina Adapter“ bzw. die Flowcell sequenziert. Das resultierte im Vorhandensein von „NNNNNNNNNNN“-Sequenzen. Da im weiteren Verlauf der Datenanalyse das Align- ment der dazugehörigen und sonst qualitativ guten Reads aus diesem Grund verhindert werden würde, mussten die überpräsentierten Sequenzen entfernt werden. Der hierfür verwendete Befehl lautete: cutadapt -q 20 -o 5 -minimum-length 30 -a GATCGGAAGAG -A AGATCGGAAGAG -o <Name_Read_1>.clipped.fastq.gz -p <Name_Read_2> .ciipped.fastq.gz <Na- me_Read_1>.fastq.gz <Name_Read_2>.fastq.gz &><Name>.clipping.stats
2.) Beseitigung des von der „Adaptase“ erzeugten Überhangs
Während der Herstellung der WGBS Library wurde das Enzym „Adaptase“ verwendet, welches am 3‘-Ende des zweiten Reads einen Überhang mit niedriger Komplexität er zeugte. Dieser Bereich würde genauso wie die überpräsentierte Sequenzen beim späte ren Alignment stören und musste somit entfernt werden. Der Befehl lautete: cutadapt -minimum-length 25 -u 11 -o <Name_Read_2>.clipped.trimmed.fastq.gz -p <Name_Read_ 1>. ciipped. trimmed. fastq. gz <Name_Read_2>. clipped. fastq. gz <Na- me_Read_ 1 >. clipped. fastq. gz
1.1.2.5.3 Auswertung der prozessierten Daten
Die anschließende Datenanalyse erfolgte mit dem „Bisulfite Analysis Toolkit“ [201] Die Funktion der modular aufgebauten Software ist in Fig. 2 dargestellt.
Das Alignment wurde gegen das „HG19“ Referenzgenom durchgeführt. Dabei wurden mehrere Algorithmen getestet, wobei überraschenderweise der„Segemehl“-Algorithmus die besten Er gebnisse lieferte (vgl. Abschnitt 1.1.2.5). Der Algorithmus beruht auf der Suche nach einem op- timalen Treffer im Referenzgenom (Hoffmann et al. [2009] PLoS Comput. Biol. 5: e1000502). Die maximal erlaubte Anzahl an Ungenauigkeiten pro Read (z.B. Insertionen, Deletionen, Punktmutationen) betrug 10%. Alle Treffer, die diesen Schwellenwert unterschritten, wurden zu dem semi-globalen Alignment zugelassen. Letztendlich wurden nur die Reads mit einer Genau igkeit von mindestens 90% in einer finalen Datei aufgelistet und für die weiteren Analysen ver wendet.
Das dabei bevorzugt eingesetzte „BAM“-Format ist eine komprimierte Version der „SAM“-Datei, ein text-basiertes Format, das zum Speichern von Ergebnissen des Alignments vom Algorith mus generiert wird. Die statistische Auswertung der Mapping Effizienz erfolgte z.B. mit dem „BAT_mapping_stat“ Modul (Kretzmer et al. [2017] F1000Res. 6: 1490).
Schließlich wurden alle Reads, die zu einer Probe gehörten, in ein „BAM“-File mit dem „BAT_merging“ Modul zusammengeführt. Die überlappenden Sequenzen wurden mit dem „Cli- pOverlap“ (BamUtil Version 1.0.13) Modul eliminiert. Die Befehle lauteten: perl BAT_mapping.pl -g hg19.fa -i hg19 -p <Name_Read_1>.dipped.trimmed.fastq.gz -q <Name_Read_2>.dipped.trimmed.fastq.gz -t 16 -tmp <Folder> -segemehl segemehl.x -o <Folder>/<Name> perl BAT_mapping_stat.pl -bam <Name>.bam -fastq <Name>.dipped.trimmed.fastq.gz -b > <Name>.stat perl BAT_merging.pl -o <Name>.bam -bam <fiel_1>.bam,<file_2>.bam, <file_n>.bam bamUtil_1.0.13/bamUtil/bin/bam ClipOverlap -in <Name>.bam -out <Name>.nooverlap.bam
Im nächsten Schritt wurde die DNA-Methylierung mit Hilfe von „BAT_calling“ detektiert. Das Modul erzeugt eine „VCF“-Datei. Hierbei handelt es sich um eine Textdatei, die nur Informatio nen über die detektierten DNA-Methylierungsraten, Coverage, Anzahl an abgedeckten Nukleo tiden und den Sequenzkontext enthält. Im weiteren Verlauf der Analysen wurde diese Datei nach CpG Kontext und einer Coverage von mindestens achtfach gefiltert. Dabei wurden Abbil dungen generiert und weitere „VCF“- sowie „BedGraph“-Dateien erzeugt.
Als nächstes wurde das „BAT_summarize“ Modul verwendet, welches die Mittelwerte detektier- ter DNA-Methylierungsraten zweier Gruppen ermittelte. Die berechneten DNA- Methylierungsraten sowie die genomischen Koordinaten der Cytosine wurden in eine text basierte „BedGraph“-Datei geschrieben, die im weiteren Verlauf für die Identifikation differentiell methylierter Regionen verwendet wurde. Die Visualisierung der DNA-Methylierung pro Gruppe erfolgte unter Verwendung des „BAT_overview“ Moduls [201] Die Befehle lauteten:
BAT_calling.pl -d hg19.fa -q <Name> .nooverlap.bam -haarz segemehl_0_2_0/segemehl/ haarz.x -o <Folder>
BAT_filter_vcf.pl -vcf <Name> .nooveriap.vcf.gz -out <Name>_CG_cov_final -context CG - MDP_min 8 -MDP_max 50
BAT_summarize.pl -in1 Adeno_CG_cov.bedgraph,PEKA_CG_cov.bedgraph -in2 Con- trol_CG_cov.bedgraph -I cancer, control ~h1 Adeno,PEKA ~h2 Control -out pilot -cs hg19.chrom.sizes -bgbw bedGraphToBigWig
Rscript BAT_overview.R -i pilot_cancer_control.txt -o pilot_overview.pdf -p cancer -q control
1.1.2.5.4 Korrelationsanalysen
Im Rahmen dieser Arbeit wurden Daten von zwei Methoden zur genomweiten Untersuchung von DNA-Methylierungsmustern verwendet: WGBS und Methylation Array (HM 450K).
Für die Korrelationsanalysen wurde die „Bedtools“ Software verwendet. Das „Bedtools Inter- sect“ Modul liest sowohl die WGBS als auch HM 450K Ergebnisse ein, prüft sie auf Überlap pung und schreibt die überlappenden CpG Loci in eine neue „BED“-Datei. Bei dem „BED“- Format handelt es sich um eine Textdatei. Jede Zeile der Datei enthält genomische Koordinaten eines CpG. Die Spalten sind durch ein Tabulatorzeichen getrennt. Die „BED“-Datei wurde nach folgend direkt in „R“ geladen und der „Pearson“ Korrelationsanalyse unterzogen (p-Wert < 0,01). Die Visualisierung der Ergebnisse erfolgte ebenfalls in R.
1.1.2.5.5 Auswählen der CpG Loci für das Plasma Panel
Die WGBS Daten wurden wie beschrieben ausgewertet. Die mit dem „BAT_summarize“ Modul generierte „BedGraph“-Datei enthielt drei Gruppen (Kontrolle, Adenokarzinom, Plattenepithel karzinom) mit jeweils 11.289.424 Positionen pro Gruppe. Die „BedGraph“-Datei wurde in zwei Listen unterteilt. Die erste Liste enthielt 29.877 Loci , die DNA-Methylierungsunterschiede zwi schen der Tumor- und Kontrollgruppen zeigten. Die zweite Liste enthielt 76.374 CpG Loci , die unterschiedlich jeweils in Adeno- und Plattenepithelkarzinomgruppen methyliert waren. Als dif ferentiell methyliert wurden die Regionen bezeichnet, welche einen DNA-Methylierungsunter- schied von mindestens 15% aufwiesen.
Als nächstes wurden die beiden Listen nach Chromosomen sortiert und mit dem „HG19“ Refe renzgenom annotiert. Die CpG Loci , die auf Chromosomen X, Y und M (mitochondriales Chro- mosom) sowie innerhalb von häufigen SNPs (>1% der Bevölkerung) lokalisiert waren und nicht proteinkodierend waren, wurden verworfen.
Die verbliebenen CpG Loci mussten eines der drei Kriterien erfüllen, um in das Plasma Panel aufgenommen zu werden:
1.) differentiell methyliertes CpG wurde von beiden Methoden detektiert (WGBS und HM
450K),
2.) differentiell methyliertes CpG liegt innerhalb eines Clusters bestehend aus mindestens zwei weiteren differentiell methylierten CpG Loci , alle CpG Loci des Clusters sind ent weder hypo- oder hypermethyliert, der Abstand zwischen den CpG Loci beträgt 2 bis 20 Nukleotide,
3.) es handelt sich um ein CpG mit der höchsten differentiellen DNA-Methylierungsrate
(>0.8).
Die DNA-Regionen, die eines der drei Kriterien erfüllten, wurden in das Plasma Panel aufge nommen (siehe Tab. 1). Alle verwendeten Aufrufe sind unten detailliert beschrieben.
1.1.3 Weitere Komponenten des Plasma Panels (in silico Datenanalysen)
1.1.3.1 Die prognostische Studie
Zusätzlich zu den diagnostisch bzw. therapeutisch relevanten Informationen (z.B. Stadium und Tumorentität) sollte das Panel auch prognostische Informationen beinhalten. Deswegen wurde es um 33 CpG Loci erweitert, die im Rahmen einer klinischen Studie erhoben wurden. Der Titel der Studie lautete: „Comprehensive characterization of non-small cell lung cancer (NSCLC) by integrated clinical and molecular analysis”.
Der zur Verfügung gestellte HM 450K-Datensatz enthielt Informationen über den DNA- Methylierungsstatus von insgesamt 41 Lungenkarzinomen. Die Patienten wurden je nach Über lebensdauer klassifiziert. Dabei wurden 28 Patienten zu der prognostisch günstigen (Überle bensdauer länger als 15 Monate) und 13 zu der ungünstigen Gruppe (Überlebensdauer kürzer als 13 Monate) gezählt. Die 33 in das Panel aufgenommene CpG Loci konnten beide Gruppen anhand des DNA-Methylierungsmusters voneinander trennen und enthielten somit für die Prog nose relevanten Informationen.
1.1.3.2 Die bivalente Chromatin Studie
Zusätzlich zu den WGBS und HM 450K Ergebnissen wurden 26 differentiell methylierte Regio nen aus der Studie zu bivalentem Chromatin in Tumoren in das Plasma Panel aufgenommen. Die bivalenten Promotoren tragen sowohl aktivierende als auch reprimierende Histonmodifikati- onen, die vor allem während der Zelldifferenzierungsprozesse eine wichtige Rolle spielen. In Tumorzellen sind sie häufig fehlerhaft reguliert. Während der Studie wurden WGBS- und HM 450K-Datensätze verschiedener Tumorproben und -zelllinien (n=7000) analysiert.
1.2 Methoden: „Validierung des Plasma Panels/ Untersuchung von Patientenproben"
Der erfindungsmäßige Satz an Methylierungsmarkern, das Plasma Panel, enthielt 630 differen tiell methylierte Regionen (Tab. 1). Es wurde von der Firma „Roche“ (Schweiz) synthetisiert und auf Trockeneis verschickt. Hierbei handelte es sich um ein nach Kundenwunsch synthetisiertes, nicht kommerziell erhältliches „SeqCap Epi Enrichment Kit“ („Roche“, Schweiz). Laut Hersteller war das Panel sowohl für die Analyse von Gewebeproben als auch zirkulierender, zellfreier DNA geeignet.
Es wurde im Rahmen einer Pilotstudie validiert. Hierfür wurde vom DZL Blutplasma von 12 Pa tienten zur Verfügung gestellt. Davon waren drei Patienten zum Zeitpunkt der Untersuchung gesund bzw. tumorfrei (Kontrollgruppe) und neun litten an nicht-kleinzelligem Lungenkarzino men unterschiedlicher Stadien (Tumorgruppe).
Die Validierung erfolgte in mehreren Schritten. Zunächst wurde das Validierungsmaterial, die zirkulierende, zellfreie DNA, vorbereitet. Die Extraktion aus dem Plasma, Quantifizierung, Quali tätskontrolle (QC) sowie Bisulfitkonvertierung erfolgten wie bereits in Abschnitten 1.1.2.1-1.1.2.3 beschrieben.
Je 10 ng der konvertierten zfDNA wurden dann für die Herstellung der Libraries verwendet. Die Library Präparation erfolgte in zwei Schritten. Im ersten Schritt wurde wie im Abschnitt 1.1.2.4 beschrieben von jeder Probe eine WGBS Library hergestellt, die Informationen über das ge samte zfDNA-Methylom des entsprechenden Patienten enthielt. Da jedoch im weiteren Verlauf nur die 638 differentiell methylierten Regionen sequenziert und analysiert werden sollten, wur den sie im zweiten Schritt aus dem gesamten Methylom extrahiert und angereichert. Das ge schah unter Verwendung des „SeqCap Epi Enrichment Kit“, dessen Bestandteil das von „Ro che“ synthetisierte Plasma Panel war (siehe Abschnitt 1.2.1).
Die fertige Library wurde einer QC unterzogen sowie quantifiziert (siehe Abschnitt 1.1.2.2) und anschließend auf dem „MiSeq“ („Illumina“, USA) sequenziert (siehe Abschnitt 1.2.2). Die Se quenzierdaten wurden im „FastQ“- Format gespeichert und mussten anschließend analysiert werden (siehe Abschnitt 1.2.3). Hierfür wurde die bioinformatische Pipeline aus dem Abschnitt 1.1.2.5 angepasst, da diesmal nicht das gesamte Methylom, sondern nur die 638 bestimmten Regionen des Plasma Panels analysiert werden sollten. Die Ergebnisse wurden schließlich für die Entwicklung eines Klassifikators verwendet, der nach folgend die DNA-Methylierungsmuster interpretierte und diagnostisch sowie klinisch relevante Informationen über den gesundheitlichen Zustand eines Patienten lieferte (siehe Abschnitt 1.2.3.3).
Nach dem gleichen Prinzip können auch Proben eines Patienten analysiert werden, bei dem eine Diagnose von Lungentumoren erfolgen soll. Hier werden die Proben jedoch zur Analyse nicht gepoolt.
2.2.1 Anreicherung von differentiell methylierten Regionen
Für die Extraktion und Anreicherung von 630 differentiell methylierten Regionen aus dem ge samten zfDNA-Methylom wurde das „SeqCap Epi Enrichment Kit“ verwendet. Einer der Be standteile des Kits war das designte Plasma Panel (siehe Tab. 1). Die dort enthaltenen Oligo- nukleotide, auch „Capture Probes“ genannt, hybridisierten an die differentiell methylierte Regio nen und konnten im weiteren Verlauf angereichert und amplifiziert werden (Fig. 3).
Hybridisierungsreaktion
Die 12 hergestellten WGBS Libraries wurden innerhalb der verschiedenen Gruppen äquimolar gepoolt und zunächst für eine Hybridisierungsreaktion vorbereitet. Bei diagnostischen Proben werden entweder Einzelproben hybridisiert oder Pools von Proben, die jeweils mit einem "Bar code" versehen sind, zum Einsatz kommen. Hierfür wurden 1 pg des WGBS L/bra/y-Pools mit 10 pL „Bisulfite Capture Enhancer“, 1 pL „SeqCap HE Universal Oligo“ und 1 pL „SeqCap HE Index Oligo“ in ein 1,5 mL Reaktionsgefäß mit einem kleinen Loch im Deckel pipettiert. Die Pro be wurde in einem Vakuumkonzentrator solange eingedampft, bis ein klares weißliches Pellet zu sehen war. Die „SeqCap HE Universal“ und „SeqCap HE Index“ Oligonukleotide wurden in einem Überschuss hinzugegeben (1 pL entsprach 1.000 pmol) und dienten dazu, die freiliegen den WGBS Universal- und Indexadapter zu binden. Somit sollte verhindert werden, dass die WGBS Adapter die nachfolgende Hybridisierungsreaktion stören.
Für die eigentliche Hybridisierungsreaktion wurden 7,5 pL zweifacher „Hybridisation Buffer“ so wie 3 pL „Hybridisation Component A“ direkt auf das Pellet gegeben, 10 s gemischt, kurz zentri fugiert und 10 min bei 95°C inkubiert. Dann wurde die Probe in ein 0,2 pL Reaktionsgefäß über führt, mit 4,5 pL „Capture Probes“ versetzt, gut gemischt und bei 47°C 72 h lang in einem Thermocycler inkubiert. Der Deckel des Thermocyclers war auf 57°C vorgeheizt. Die „Capture Probes“ wurden speziell für dieses Projekt synthetisiert. Sie enthielten 638 unterschiedliche Oli gonukleotide, die komplementär zu den untersuchten differentiell methylierten Regionen (siehe Tab. 1) waren und im Laufe der Hybridisierungsreaktion diese gezielt banden. Anreicherung und Waschen der hybridisierten „Capture Probes“
Im nächsten Schritt wurden die gebundenen „Capture Probes“ angereichert und mehrfach ge waschen. Hierfür wurden mehrere Waschpuffer sowie die „Capture Beads“ nach Angaben des Herstellers vorbereitet.
Die hybridisierte Probe wurde mit 100 mI_ „Capture Beads“ versetzt, kurz gemischt und 45 min bei 47°C im Thermocycler inkubiert. Der Deckel des Thermocyclers war auf 57°C vorgeheizt. Um das Absetzen der Beads zu verhindern, wurden die Proben alle 15 min kurz aus dem Thermocycler entnommen und gemischt. Bei den hier verwendeten „Capture Beads“ handelte es sich um Streptavidin -Beads, die mit den bioti nylierten „Capture Probes“ interagierten.
Nach der Inkubation wurden die Proben aus dem Thermocycler entnommen und die „Capture Beads“ mehreren Waschschritten unterzogen. Das Trennen der Beads vom Puffer erfolgte je des Mal bei Raumtemperatur unter Verwendung des „DynaMag™-PCR“ Magnets („Thermo Fis her Scientific“, USA).
Im ersten Teil des Waschprotokolls wurden nur Puffer verwendet, die zuvor auf 47°C vorge wärmt wurden. Dabei wurde die Probe mit 100 mI_ einfachem „Wash Buffer I“ versetzt, kurz ge mischt und mit Hilfe eines Magneten pelletiert. Der Überstand wurde verworfen, die Beads in 200 mI_ einfachem „Stringent Wash Buffer“ gelöst, 5 min lang im Thermocycler bei 47°C inku biert und wieder mit Hilfe eines Magneten pelletiert. Der Überstand wurde wieder verworfen und die Beads zwei weitere Male mit 200 mI_ einfachem „Stringent Wash Buffer“ gewaschen.
Der zweite Teil des Waschprotokolls erfolgte komplett bei Raumtemperatur, dementsprechend mussten die hierfür verwendeten Puffer auf Raumtemperatur vorgewärmt werden. Zunächst wurden die zuvor bei 47°C gewaschene „Capture Beads“ in 200 mI einfachen „Wash Buffer I“ gelöst, 2 min lang gemischt und mit Hilfe eines Magneten pelletiert. Der Überstand wurde ver worfen, die Beads mit 200 ml_ einfachem „Wash Buffer II“ versetzt, 1 min lang gemischt und wieder mit Hilfe eines Magneten pelletiert. Auch hier wurde der Überstand verworfen, die Beads in 200 ml_ „Wasch Buffer III“ gelöst, kurz gemischt und schließlich auf dem Magneten vom Überstand getrennt.
Für die darauffolgende Elution wurden 50 mI_ dH2Ü direkt auf die Beads gegeben, 2 min lang bei Raumtemperatur inkubiert und mit Hilfe eines Magneten pelletiert. Der Überstand wurde aus dem Reaktionsgefäß vorsichtig abpipettiert und für alle weiteren Schritte verwendet.
Amplifikation der angereicherten differentiell methylierten Regionen Nach dem Waschen erfolgte die Amplifikation der angereicherten, differentiell methylierten Re gionen. Hierfür wurden z.B. zu den 20 pl_ des Eluats 25 mI_ zweifacher „KAPA HiFi HotStart Ready Mix“ („Roche“, Schweiz) sowie 5 mI_ „Post LM PCR Oligonukleotide“ („Roche“, Schweiz) gegeben, gut gemischt und unter Verwendung von folgendem PCR-Programm im Thermocycler mit vorgeheiztem Deckel amplifiziert:
Schritt 1 : 45 s 98°C Schritt 2: 15 s 98°C Schritt 3: 30 s 60°C Schritt 4: 30 s 72°C
Schritt 5: Wiederholung der Schritte 1-4 für 15 weitere Male Schritt 6: 60 s 72°C Schritt 7: Pause bei 4°C
Aufreinigung der angereicherten und amplifizierten differentiell methylierten Regionen
Die amplifizierten Regionen wurden nachfolgend aufgereinigt, z.B. unter Verwendung der „Am- pureXP“ Beads („Beckman Coulter“, USA). Hierfür wurden die Beads zunächst auf Raumtem peratur vorgewärmt. Die Probe wurde in ein 1,5 ml_ Reaktionsgefäß überführt. Zu 50 mI_ Probe wurden 50 mI_ dH Ü und 180 mI_ „AmpureXP“ Beads gegeben. Die Probe wurde kurz gemischt, 15 min lang bei Raumtemperatur inkubiert, kurz zentrifugiert und auf den „DynaMag™-2“ Mag neten („Thermo Fisher Scientific“, USA) gestellt. Der Überstand wurde verworfen und die Beads zwei Mal mit jeweils 200 mI_ frisch zubereitetem 80%igem Ethanol gewaschen. Dann wurden die Beads 15 min lang bei Raumtemperatur getrocknet. Um die Libraries zu eluieren, wurden 52 pL dH Ü auf die trockenen Beads pipettiert. Die Beads wurden gut gemischt, 2 min lang bei Raum temperatur inkubiert und wieder auf „DynaMag™-2“ gestellt. Der Überstand wurde vorsichtig abpipettiert und für die Quantifizierung, QC (siehe Abschnitt 1.1.2.2) sowie Seguenzierung auf dem „MiSeg“ verwendet.
1.2.2 Seguenzierung des Plasma Panels
Die Seguenzierung der NGS Library aus angereicherten, differentiell methylierten Regionen er folgte auf dem „MiSeg“.
Hierfür wurde die hergestellte Library zunächst auf 4 nM verdünnt und denaturiert. Dann wur den 5 mI der 4 nM Library in ein 1,5 mL Reaktionsgefäß überführt, mit 5 pL 0,2 N NaOH ver setzt, kurz gemischt, 1 min lang bei 280g zentrifugiert und 5 min bei Raumtemperatur inkubiert. Die denaturierte Library wurde dann mit 990 pL „Buffer HT1“ („Illumina“, USA) versetzt und wie- der gut gemischt. Das ergab eine 20 pM Library , die anschließend mit „Buffer HT1“ auf 4 pM verdünnt und mit 10% „PhiX“ („Illumina“, USA) versetzt wurde.
Schließlich wurde eine „MiSeq 150 V3“ Kassette („Illumina“, USA) mit der fertigen Probe bela den und in einem 76 PE Lauf sequenziert.
1.2.3 Bioinformatische Auswertung der Sequenzierdaten
1.2.3.1 Qualitätskontrolle und Prozessieren der Rohdaten
Die Daten wurden wie in Abschnitten 1.1.2.5.1 und 1.1.2.5.2 beschrieben einer „FastQC“ Ana lyse unterzogen und anschließend prozessiert.
1.2.3.2 Auswertung der prozessierten Daten
Die prozessierten Daten wurden wie in Abschnitt 1.1.2.5.3 beschrieben gegen das „HG19“ Re ferenzgenom mit dem „Segemehl“ Algorithmus aligned. Die PCR-Duplikate wurden unter Ver wendung von „Samtools“ (Version 1.3.1, „Wellcome Trust Sänger Institute“, England, „Broad Institute of MIT and Harvard“, USA) entfernt. Der Befehl lautete: samtools rmdup -S <Name>.bam <Name>_wo_dup.bam
Die DNA-Methylierungsraten innerhalb der sequenzierten Regionen wurden mit dem „BAT_calling“ Modul berechnet und mit dem „BAT_filter_vcf“ Modul nach dem CpG Kontext und einer Coverage von mindestens achtfach gefiltert (siehe Abschnitt 1.1.2.5.3). Schließlich wur den die Daten gegen die Regionen des Plasma Panels annotiert. Die Aufrufe lauteten: gzip tmp. vcf perl BAT_filter_vcf -vcf tmp.vcf. gz -out $o -context CG -MDP_min 8 ~MDP_max 200 rm tmp. vcf.gz done bedtools unionbedg -filier NA -header -names <sample_1> ... <sample_n> -i <name_sample_1>_wo_dup_CG.cov.region.bedgraph ... <na- me_sample_n>_wo_dup_CG. cov. region. bedgraph > <name>.bed
1.2.3.3 Erstellen eines Klassifikators
Mit Hilfe des Plasma Panels sollte das DNA-Methylierungsmuster eines Patienten analysiert werden. Daraus sollte geschlossen werden, ob ein Patient an einem malignen Lungentumor erkrankt ist. Falls ja, sollten aus dem DNA-Methylierungsprofil Informationen über die Entität des Tumors und die Prognose des betroffenen Patienten abgeleitet werden. Dies kann anhand der Korrelation zwischen den bei dem Patienten vorliegenden Methylierungsmuster und den erfindungsgemäß wichtigen Methylierungsmarkern erfolgen.
Hierfür kann ein Klassifikator erstellt werden, der in der Lage ist, die Ergebnisse der in den Ab schnitten 1.2.3.1 und 1.2.3.2 beschriebenen Pipeline, schnell und zuverlässig zu interpretieren. Ein Klassifikator, auch Predictive Modelling genannt, ist ein Beispiel für das supervidierte Ler nen. Das Ziel eines Klassifikators ist es, nach dem Erhalt von Variablen (z.B. DNA- Methylierungsmustern) und einer Annotation, zunächst ein Modell zu erstellen, das später in der Lage ist, die Variablen von unabhängigen Proben richtig zu klassifizieren (Fig. 4).
Die Software „Qlucore Omics Explorer“ z.B. bietet mehrere Möglichkeiten an, unter Verwen dung von DNA-Methylierungsdaten einen für die jeweilige Fragestellung optimalen Klassifikator zu erstellen. Dabei kann aus drei Algorithmen gewählt werden: „k-Nearest Neighbors Algorithm“ (kNN), „Support Vector Machines“ (SVM) und „Random Trees“ (RT). Bei kNN wird eine Klas senzuordnung anhand der Berücksichtigung von k nächsten Nachbarn vorgenommen. SVM be schreibt jedes Objekt durch einen Vektor in einem Vektorraum. Innerhalb des Vektorraums wird eine Hyperebene so gesetzt, dass sie als Trennfläche zwischen den Gruppen agiert und sie in zwei Klassen unterteilt. RT besteht aus mehreren unkorrelierten Entscheidungsbäumen, die während des Lernprozesses generiert wurden. Jeder Baum fällt eine Entscheidung, die Klasse mit den meisten Stimmen entscheidet letztendlich über die endgültige Klassifikation.
Generell ist es schwierig für eine neue Fragestellung im Voraus die Aussage treffen zu können, welcher Algorithmus die optimalen Ergebnisse liefern wird. Daher wurden alle drei verfügbaren Algorithmen getestet, um den jeweils besten für die jeweilige Kategorie zu finden.
2. Ergebnisse
2.1 Ergebnisse: „Entwicklung des Plasma Panels“
2.1.1 Detektion der tumor- und entitätsspezifischen DNA-Methylierung in primärem Tumorge webe 40 OP-Präparate und korrespondierende Kontrollen wurden unter Verwendung des „Illumina Infinium HumanMethylation450K BeadChips“ auf ihre genomweite DNA-Methylierung unter sucht.
Im Vergleich zum gesunden Lungengewebe wurden im malignen Tumorgewebe 898 aberrant methylierte CpG Loci identifiziert (q< 1c10-23, o/omax> 0,4; Abb. 5A). Adeno- und Plattenepithel karzinome stellen die zwei häufigsten Entitäten des nicht-kleinzelligen Lungenkarzinoms dar. Eine Analyse ergab 1.167 zwischen den Tumorentitäten differentiell methylierte CpG Loci (FDR < 1 104; Abb. 5B).
Nachfolgend wurden die CpG Loci ausgewählt, die eine zuverlässige Klassifikation von Lungen tumoren aufgrund von Malignität und Entität ermöglichten. Hierfür wurden die im Abschnitt 1.1.1 beschriebenen bioinformatische Analysen durchgeführt, welche 287 CpG Loci ergaben. Diese Loci wurden in einen erfindungsgemäß bevorzugten Satz an Methylierungsmarkern, das Plama Panel, aufgenommen (Tab. 1).
2.1.2 Detektion der tumor- und entitätsspezifischen DNA-Methylierung in Blutplasma
Wie in Abschnitt 1.1.2.2 beschrieben, wurde jede einzelne zellfreie, zirkulierende DNA Probe nach der Extraktion quantifiziert und einer strikten Qualitätskontrolle unterzogen. Die Gesamt menge der extrahierten DNA betrug pro Probe 10 bis 30 ng, davon wurden 1 ng mit dem „Agilent 2100 Bioanalyzer“ analysiert. Dabei zeigten die Proben einen klaren Peak bei ca. 167 bp. Die Peaks bei 35 und 10.380 bp entsprachen den unteren bzw. oberen Markern (nicht ge zeigt).
Nach der Bisulfitkonvertierung wurden die zfDNA Proben zur Herstellung von WGBS Libraries verwendet. Die fertigen Libraries wurden wiederum quantifiziert und nachfolgend einer Quali tätskontrolle unter Verwendung des „Agilent 2100 Bioanalyzers“ unterzogen. Alle Proben zeig ten einen klaren Peak be ca. 300 bp und entsprachen somit den Sequenzieranforderungen.
Die hergestellten WGBS Libraries wurden auf Trockeneis zu „TATAA Biocenter“ geschickt, dort gepoolt und je nach Probe mit einer mittleren Coverage von acht- bis zehnfach auf einer „Next- Seq 500“ Plattform sequenziert. Die Rohdaten wurden im „FastQ“-Format geliefert.
Die Qualität der Rohdaten wurde unter Verwendung der „FastQC“ Software überprüft. Da die Proben 76 PE sequenziert wurden, lag die Read Länge wie erwartet bei 76 bp. Innerhalb eines Reads betrug der Gehalt an Adaptern sowie nicht identifizierbaren Signalen 0%. Die Genauig keit der Sequenzierung wurde in „Ph red“- Werten angegeben. Jeder „Phred“-Wert beschreibt, wie genau das Ablesen von Nukleotiden im Verlauf der Sequenzierung erfolgte. Die Rohdaten wiesen einen „Phred“-Score von über 30 auf, was einer Genauigkeit von mehr als 99,9% ent- sprach. Des Weiteren konnte nur eine sehr geringe Menge an Kmeren detektiert werden. Als Kmere werden Sequenzen mit einer Mindestlänge von zwei Nukleotiden bezeichnet, die sich in den Rohdaten immer wieder wiederholen. Die Anzahl an PCR-Duplikaten lag bei nahezu 0%. Die Menge an PCR-Duplikaten wird ermittelt, indem die Prozentanzahl deduplizierter Sequen zen berechnet und mit der Anzahl aller Sequenzen verglichen wird. Eine geringe Menge an Kmeren sowie PCR-Duplikaten weist auf eine gute Library- und Sequenzierqualität hin.
Des Weiteren wurde eine für WGBS typische Basenzusammensetzung analysiert. Im Laufe der Bisulfitkonvertierung wurden die meisten unmethylierten Cytosine durch Thymine ersetzt. Des halb lag derThymingehalt der Rohdaten bei ca. 50% und der Cytosingehalt bei nahezu 0%. Die Adenin- und Guaninzusammensetzung wurde während der Bisulfitkonvertierung nicht beein flusst und lag bei jeweils 25%.
Nachfolgend wurden die WGBS Rohdaten unter Verwendung der „Cutadapt“ Software prozes siert (siehe Abschnitt 1.1.2.5.2). Durch das Prozessieren wurden sowohl überpräsentierte Se quenzen, als auch der 10 nt lange Überhang am Anfang von Read 2 entfernt.
Die prozessierten Sequenzierdaten wurden dann in das „Bisulfite Analysis Toolkit“ geladen und mit dem dort implementierten „Segemehl“ Algorithmus gegen das „HG 19“ Referenzgenom alig- ned. Die Effizienz des AHgnments wird als Mapping Effizienz angegeben. Dabei wird ermittelt, wie viel Prozent an Reads dem Referenzgenom zugeordnet werden können. In diesem Fall be trug die Mapping Effizienz des „Segemehl“ Algorithmus 98% bis 99% und war somit für alle wei teren Analysen geeignet.
Die AHgnments der Kontroll-, Adenokarzinom- und Plattenepithelkarzinomgruppen wurden als nächstes in das „BAT_calling“ Modul geladen. Das Modul ermittelte DNA-Methylierungsraten jeweiliger Cytosine. Die Cytosine, die innerhalb einer CpG-Region lagen und eine Coverage von mindestens achtfach aufwiesen, wurden dann unter Verwendung des „ BAT_f i Iteri ng “ Mo duls identifiziert und für alle weiteren Analysen verwendet.
Mehr als 4 Millionen CpG Loci pro Gruppe erfüllten die Kriterien und wurden im weiteren Verlauf mit dem „BAT_overview“ Modul analysiert. Die Ergebnisse zeigten deutlich, dass sowohl Lun genkarzinom- als auch Kontrollgruppe anhand der DNA-Methylierungsmuster voneinander un terschieden werden können (Fig. 6A). Des Weiteren wird eine genomweite Hypermethylierung der Lungenkarzinomgruppen im Vergleich zur Kontrollgruppe sichtbar (Fig. 6A).
Um die für die jeweilige Gruppe spezifische, differentiell methylierte Regionen zu detektieren, erfolgte das Filtern nach einem DNA-Methylierungsunterschied von mindestens 15%. Die An zahl an differentiell methylierten CpG Loci im Plasma von Lungenkarzinompatienten betrug da- bei 18.000 (Fig. 7A). Des Weiteren wurden 44.000 CpG Loci identifiziert, die je nach Entität in Adeno- und Plattenepithelkarzinompatienten differentiell methyliert waren (Fig. 7B). Diese Loci wurden wie im Abschnitt 1.1.2.5.5 beschrieben weiteren Analysen unterzogen und für das Er stellen des Plasma Panels verwendet. Der fertige Satz an Methylierungsmarkern, d.h. das ferti ge Plasma Panel, enthielt 630 differenziell methylierte Regionen (Tab. 1). Mit diesen differentiell methylierten Regionen hybridisierende Oligonukleotide wurden als "Capture Probes" syntheti siert und stellen damit Mittel zur Diagnose von Lungentumoren dar.
2.1.3 Korrelationsanalysen der verwendeten Methoden zur genomweiten Detektion von DNA- Methylierungsmustern
Um die detektierten DNA-Methylierungsmuster in den OP-Präparaten mit denen im Blutplasma der Lungenkarzinompatienten zu vergleichen, wurde unter Verwendung von „R“ und „Bedtools“ eine „Pearson“ Korrelationsanalyse durchgeführt (siehe Abschnitt 1.1.2.5.4), welche je nach Probe eine Übereinstimmung von 71 bis 77% ergab (p-Wert < 2,2 c 1016, Fig. 8).
Dies zeigt, dass Ergebnisse auf Basis von OP-Präparaten oder festen Biopsien nicht ohne wei teres auf Flüssigbiopsien übertragen werden können, so dass die vorliegend erfolgte Validie rung mit Flüssigbiopsien entscheidend für die Aussagekraft des Diagnoseverfahrens ist.
2.2 Ergebnisse zur „Validierung des Plasma Panels“
2.2.1 Erstellen der NGS Libraries
Zunächst wurden die extrahierten zfDNA-Proben wie im Abschnitt 1.1.2.2 beschrieben quantifi ziert und einer Qualitätskontrolle unterzogen. Hierfür wurden jeweils 1 ng der Proben mit dem „Agilent 2100 Bioanalyzer“ untersucht. Alle verwendeten zfDNA-Proben zeigten einen klaren Peak bei ca. 167 bp. Nachfolgend wurden die Proben bisulfitkonvertiert und zur Herstellung von NGS Libraries verwendet. Wie im Abschnitt 1.2.1 beschrieben, erfolgte die Herstellung der Libraries in zwei Schritten.
Im ersten Schritt wurden WGBS Libraries hergestellt, welche die Informationen über das ge samte zfDNA-Methylom umfassten. Alle 12 hergestellten WGBS Libraries zeigten einen klaren, großen Peak bei ca. 300 bp. Bei den größeren 300 bis 1.000 bp Peaks handelte es sich um die sogenannte Daisy Chains, d.h. aneinander hybridisierte ssDNA-Fragmente. Nach Angaben des Herstellers beeinflussen sie weder die darauffolgende Hybridisierungsreaktion noch die eigent liche Sequenzierung und müssen somit nicht eliminiert werden.
Im zweiten Schritt wurden die hergestellten WGBS Libraries quantifiziert, äquimolar gepoolt und mit dem „SeqCap Epi Enrichment Kit“ prozessiert. Das hier verwendete Kit enthielt die soge nannten „Capture Probes“, die speziell hierfür synthetisiert wurden. Die „Capture Probes“ hybri- disieren gezielt an die 638 Regionen des Plasma Panels (siehe Tab. 1). Nach der Hybridisie rung wurden die „Capture Probes“ samt den gebundenen differentiell methylierten Regionen angereichert, gewaschen und amplifiziert. Die amplifizierte Library wurde dann quantifiziert und einer Qualitätskontrolle unterzogen (z.B. „Agilent 2100 High Sensitivity DNA Kit“). Die fertige Library wies einen hohen Peak bei ca. 300 bp auf und entsprach somit den Sequenzieranforde rungen des „MiSeq“.
2.2.2 Sequenzierung und Datenanalyse
Zunächst wurde die Sequenzierung auf dem „MiSeq“ optimiert. Die Sequenzierung erfolgte in einem 76 PE Modus. Es wurden also von beiden Enden die ersten 76 bp der sequenzierten DNA-Fragmente abgelesen. Um die optimale Clusterdichte zu erzielen, wurde die Library auf 4 pM verdünnt. Die hier beschriebene Libraries waren unbalanciert. Als unbalanciert werden Libraries bezeichnet, deren AT- bzw. GC-Konzentration weniger als 40% oder mehr als 60% beträgt. Solche Libraries weisen aufgrund ihrer Zusammensetzung meist eine nicht zufrieden stellende Sequenzierqualität auf. Um diese zu verbessern, kann die Library mit „PhiX Control V3“ versetzt werden. Die Konzentration an „PhiX“ muss je nach Library individuell angepasst werden. Die optimale Konzentration an „PhiX Control V3“ betrug im vorliegenden Fall 10%.
Nach der Sequenzierung wurden die Daten im „FastQ“-Format gespeichert. Die Qualität der Rohdaten wurde unter Verwendung der „FastQC“ Software überprüft.
Aufgrund der 76 PE Sequenzierung, lag die Read Länge bei 76 bp. Der Gehalt an Adaptern sowie nicht identifizierbaren Signalen innerhalb eines Reads betrug 0%. Die Rohdaten wiesen einen „Phred“-Score von über 30, was einer Sequenziergenauigkeit von mehr als 99,9% ent sprach. Die Basenzusammensetzung (Thymin-Gehalt bei ca. 50%, Cytosin-Gehalt bei nahezu 0%, Adenin- und Guanin-Gehalt bei 25%) wies auf eine erfolgreiche Bisulfitkonvertierung hin. Bei den ersten 10 nt des zweiten Reads handelte es sich um einen durch das Enzym „Adapta- se“ erzeugten Überhang. Das Abweichen des experimentell ermittelten vom theoretisch be rechneten GC-Gehalt lag auch an der Bisulfitkonvertierung.
Die Anzahl an PCR-Duplikaten lag bei ca. 15%. Die Anzahl an deduplizierten Sequenzen wich stark von der Gesamtmenge ab. Das ist jedoch für ein Panel nicht ungewöhnlich. Im Gegensatz zu einer genomweiten Sequenzierung, wird bei einem Panel nur ein kleiner Bereich des Ge noms sequenziert. Das führt zu einer sehr geringen Komplexität der Library und dementspre chend zur Entstehung von PCR-Duplikaten. Die Anzahl an Kmeren ist sehr gering und für die weitere Auswertung nicht störend.
Zusammenfassend lässt sich sagen, dass die Panel Sequenzierdaten eine sehr gute Qualität aufwiesen. Um die Daten zu prozessieren, wurden zwei Schritte durchgeführt. Zunächst wurde unter Verwendung der „Cutadapt“ Software der 10 nt lange Überhang am Anfang von Read 2 sowie Adapter entfernt. Dann wurden die PCR-Duplikate mit der „Samtools“-Software vollstän dig eliminiert.
Die prozessierten Sequenzierdaten wurden dann in das „Bisulfite Analysis Toolkit“ geladen. Das Alignment erfolgte mit „Segemehl“ gegen das „HG19“ Referenzgenom. Die Mapping Effizienz betrug mindestens 90%. D.h., mindestens 90% der Rohdaten konnten dem Referenzgenom zugeordnet werden. Die mittlere Coverage, also die Sequenziertiefe, betrug je nach Probe 10 bis 30fach.
Im nächsten Schritt sollte die DNA-Methylierung detektiert werden. Hierfür wurden die 12 A- lignments in das „BAT_calling“ Modul geladen. Die ermittelten Positionen wurden dann zu nächst unter Verwendung der „Bedtools“ gegen das „HG 19“ Referenzgenom annotiert. Dann wurden die methylierten Positionen mit dem „BAT_filtering“ Modul nach einer Coverage von mindestens achtfach gefiltert. Des Weiteren wurden mit dem Modul für das Erstellen eines Klassifikators nur solche Positionen ausgewählt, die sich zum einen in einer CpG Region be fanden und zum anderen im Plasma Panel (Tab. 1) aufgelistet waren.
2.2.3 Erstellen eines Klassifikators
Die ermittelten zfDNA-Methylierungsraten wurden zum Erstellen eines Klassifikators verwendet. Wie in Abschnitt 1.2.3.3 beschrieben, wurde hierfür die „Qlucore Omics Explorer“ Software ver wendet, die folgende Klassifikationsalgorithmen enthielt: „k-Nearest Neighbors Algorithm“ (kNN), „Support Vector Machines“ (SVM) und „Random Trees“ (RT).
Das Plasma Panel wurde so entworfen, dass es optimal in der Lage sein sollte, die Informatio nen bezüglich der Malignität, der Entität und des Stadiums eines Tumors und zu liefern. Diese Fragestellungen konnten durch die Wahl eines geeigneten Klassifikators zuverlässig beantwor tet werden. Ferner sollten sich auch Informationen zur Prognose entnehmen lassen.
Um einen Klassifikator zu bewerten, wurden zwei Parameter betrachtet: die Richtigkeit (engl. accuracy) und die Komplexität. Die Richtigkeit eines Klassifikators wurde in Werten zwischen 0 und 1 angegeben, wobei 0 einer Richtigkeit von 0% und 1 einer Richtigkeit von 100% ent sprach. Die Komplexität gab an, wie viele differentiell methylierte Positionen oder Marker analy siert werden mussten, damit der Klassifikator diese Richtigkeit erzielte. Je weniger Marker aus gewertet werden mussten, desto geeigneter war der Klassifikator für die Klinik. Denn mit der Anzahl an zu analysierenden Positionen steigen die Fehlerrate, Zeit und Kosten der Methode.
Die erste Fragestellung lautete, ob ein Patient generell an einem malignen Lungentumor litt. Hierfür lieferten sowohl der kNN als auch der RT Algorithmus eine Richtigkeit von 100%. Der RT Algorithmus benötigte für die Klassifikation 237 differentiell methylierte, im Panel enthaltene Positionen. Der kNN dagegen nur 10 Positionen, was ihn damit für diese Fragestellung als op timal qualifizierte (Fig. 9A). Bei 9 der 10 Positionen findet sich im Tumorgewebe eine stärkere Methylierung, bei einer eine schwächere.
Die Fragestellung bezüglich der Entität konnten alle drei Algorithmen mit einer Richtigkeit von 100% beantworten. Für die Berechnungen benötigte kNN 22 Positionen, SVM 22 Positionen und RT 10 Positionen. Somit war der RT Algorithmus für diese Fragestellung am besten geeig net (Fig. 9B), aber auch die anderen Algorithmen können verwendet werden. Bei allen ausge werteten Markern findet sich beim Adenokarzinom eine stärkere Methylierung als beim Plat- tenepithekarzinom.
Für die letzte Fragestellung des Tumorstadiums war es am schwierigsten, einen geeigneten Klassifikator zu wählen. Der SVM Algorithmus schaffte es, unter Verwendung von 523 Positio nen die späten Tumorstadien mit einer 80%igen Richtigkeit zu differenzieren (Fig. 9C). Dabei sind die ausgewerteten Positionen z.T. in den frühen, z.T. in den späten Stadien stärker methyl- iert.
Alle Positionen und Klassifikationsparameter sind im Anhang detailliert beschrieben (siehe Tab. 2-4). Die beschriebenen Ergebnisse machen es somit möglich, eine Diagnose von Lungenkrebs aus einer Flüssigbiopsie eines Patienten mit Hilfe von Sequenzierung von aufgereinigter, bisul- fit-konvertierter und über an die Methylierungsmarker hybridisierende Oligonukleotide angerei cherte DNA durchzuführen. Dabei wenden die Sequenzierungsdaten bevorzugt mit dem Sege- mehl-Algorithmus gegen ein Referenzgenom aligned und dann anhand der Korrelation der Me thylierung, optional anhand der Klassifikation wie oben beschrieben, ausgewertet.
3.1 Weitere Informationen zu Entwicklung und Validierung des Plasma Panels
Auswahlen der CpG Loci für das Plasma Panel a. Filtern nach Chromosom
Die Chromosome M, X und Y wurden verworfen, die Befehle lauteten: grep -v "chrM" <Name>.bedgraph \ grep -v "chrX" \ grep -v "chrY" > <Na- me>. ohneMXY. bedgraph cut -f1 <Name>ohneMXY. bedgraph \ sort \ uniq b. Annotation mit dem „HG19“ Referenzqenom less gencode.v19.only.genes.bed \ perl -ane 'if($F[5] eq "+ ") {$F[ 1 ]=$F[ 1]-1500}else{$F[2] =$F[2]+ 1500}; print "$F[0]\t$F[1 ]\t$F[2]\t$F[3]\t$F[4]\t$F[5]\n > gen- code. v19. only. genes. TSS_ 1500nt.bed bedtools intersect -wa -wb -a <Name>ohneMXY.bedgraph -b gencode.v19.only.genes.TSS_ 1500nt.bed c. Auswählen der CPG Loci , die von WGBS und HM 450K detektiert wurden bedtools intersect -wa -wb -a <WGBS_data>.bedgraph -b <450K_BeadChip_data>.bed \ perl -ane 'if(($F[3]>0 && $F[7]>0) || ($F[3]<0 && $F[7]<0)){print $ J' > over- lap_WGBS_450K_BeadChip.bed bedtools intersect -wa -wb -a overlap_WGBS_450K_BeadChip.bed -b gen- code.v19.only.genes. TSS_1500nt.bed \ cut -f1-4,8,9, 13 > over- lap_WGBS_450K_BeadChip_gencode.v19.bed d. Auswählen der differentiell methylierten CPG Cluster
Hierbei wurden CpG Loci ausgewählt, die innerhalb eines Clusters bestehend aus mindestens zwei weiteren differentiell methylierten CpG Loci lagen. Alle CpG Loci des Clusters waren ent weder hypo- oder hypermethyliert. Der Abstand zwischen den CpG Loci betrug zwei bis 20 nt. less <Name>ohneMXY.bedgraph \ sort -k10, 10 \ bedtools groupby -g 7,8,9, 10, 11, 12 -c 1,2, 3, 1 -o collapse,collapse,collapse, count \ perl -ane 'if($F[-1]>=3){print $ _}' \ perl -ane '@chr=split(/,/,$F[6]); @start=split(//,$F[7]); @end=split(/ ,$F[8]); for($i=0; $i<$F[-1J; $i++){print "$chr[$i]\t$start[$i]\t$end[$i]\ t$F[0]\t$F[1]\t$F[2]\t$F[3]\t$F[4]\t$F[5]\n"}' > < Name>ohneMXY _mind3CpG_annotation.bedgraph perl CpG_cluster_Swetlana -min 2 -max 20 -in <Na- me>ohneMXY_mind3CpG_annotation.bedgraph \ grep protein > <Na- me>ohneMXY_mind3CpG_3diffCpG.bedgraph less <Name>ohneMXY _mind3CpG_3diff CpG. bedgraph \ bedtools groupby -g 7, 11 -c 3, 1,2, 3 -o collapse,distinct,min,max \ perl -ane 'print "$F[3]\t$F[4]\t$F[5]\t$F[2];$F[0]\n"' > <Na- me>ohneMXY _mind3CpG_3diffCpG_sortiert. bedgraph e. Auswählen der Positionen mit der höchsten differentiellen DNA-Methylierunq bedtools intersect -v -a <Name>ohneMXY.bedgraph -b <Na- me>ohneMXY_mind3CpG_3diffCpG_ sortiert_beste_150_regionen.bedgraph \ bedtools intersect -wa -wb -a stdin -b gencode.v19.only .genes.TSS_1500nt_ohnechrM.bed \ grep protein \ perl -ane ’$a=abs($F[5]); chomp $_; print "$_\t$a\n"' \ sort -V -k13, 13n \ cut -f1, 2, 3, 10, 13 \ tail -100 > <Name>ohneMXY_die_besten_einzel_ cpg.bedgraph
Tab. 1: Satz von Methylierungsmarkern ( Plasma Panel, 630 differentiell methylierte Regionen). In der Spalte "Tumor" ist angegeben, ob in Tumorgewebe eine verstärkte (hypermethyliert) oder verminderte (hypomethyliert) Methylierung identifiziert wurde. A. 350 Regionen, die einen ma lignen Tumor der Lunge detektieren. B. 247 Regionen, welche die häufigsten Lungenkarzino- mentitäten (Adeno- und Plattenepithelkarzinom) voneinander unterscheiden. C. 33 prognostisch relevante CpG Loci. Methode: zfDNA (WBGS): zfDNA oder OP-Präparate (HM 450 K): OP, Die bivalente Chromatin Studie: bChrSt.
Tab. 2: Der kNN Algorithmus verwendete zehn Positionen, um die Lungenkarzinompatienten von den gesunden Probanden unterscheiden zu können. In der Spalte "Tumor" ist angegeben, ob in Tumorgewebe eine verstärkte (+) oder verminderte (-) Methylierung identifiziert wurde. A
Tab. 3: Der RT Algorithmus analysierte zehn Positionen um die Entität eines Tumors zu ermit teln. Alle Positionen waren beim Adenokarzinom im Vergleich zum Plattenepithelkarzinom hy- permethyliert.
Tab. 4: Für das Staging (Feststellen des Tumorstadiums) wurden vom SVM Algorithmus 523 Positionen analysiert. Einige Positionen sind im späten Stadium verstärkt methyliert
(+), andere Positionen hingegen vermindert methyliert (-).
Rangordnung Vergleich zweier Gruppen Filtern nach Gruppe Bedingung ungleich, != Normalisierung Mittelwert = 0, Varianz = 1 Fehlende Mi l Wert
Tab. 5: Beispielhafte, in dem erfindungsgemäßen Verfahren einsetzbare Oligonukleotide (Capture Targets ) für Marker auf Chromosom 1.
Start Stop Länge [bp]
2198804 2198961 chr1:2198830-2198930 157
3289010 3289139 chr1 : 3289034-3289134 129
3607047 3607181 chr1:3607067-3607167 134
6130197 6130338 chr1:6130273-6130274 141
6165201 6165361 chr1:6165229-6165329 160
6515521 6515702 chr1 :6515548-6515648;chr1 :6515574-6515674 181
6520115 6520257 chr1:6520145-6520245 142
8787128 8787253 chr1 : 8787221 -8787321.upstream 125
15426262 15426418 chr1 : 15426289-15426389 156
15670403 15670539 chr1 : 15670433-15670533 136 chr1 : 17567922-17568022;chr1 : 17568066-
17567892 17568189 17568166 297
18063027 18063184 chr1: 18063106-18063107 157
19177630 19177804 chr1: 19177728-19177729 174
19764609 19764757 chr1 : 19764637-19764737 148
23284417 23284507 chr1 :23284374-23284474 90
24277975 24278154 chr1 :24278024-24278124 179
26699371 26699517 chr1 : 26699448-26699449 146
27234664 27234812 chr1 :27234575-27234675,downstream 148
34642324 34642455 chr1 : 34642347-34642447 131
36194564 36194662 chr1 :36194581 -36194582 98
38591827 38591977 chr1 :38591903-38591904 150
47694840 47694995 chr1 :47694870-47694970 155
47738990 47739142 chr1 :47739010-47739110 152
50883315 50883461 chr1 : 50883345-50883445 146
50886707 50886857 chr1 : 50886733-50886833 150
50886870 50887021 chr1 :50886900-50887000 151
52158087 52158220 chr1 :52158112-52158212 133
57955028 57955174 chr1 : 57955057-57955157 146
61668739 61668922 chr1 :61668786-61668886 183 63489039 63489179 chr1 :63489116-63489117 140
64578151 64578293 chr1 :64578178-64578278 142
77533495 77533671 chr1 : 77533543-77533643 176
79467955 79468081 chr1 : 79467974-79468074 126
79472375 79472516 chr1 : 79472403-79472503 141
85449266 85449364 chr1 :85449395-85449495,upstream 98
108975333 108975476 chr1 : 108975362- 108975462 143
109383819 109383912 chr1 :109383701-109383801.downstream 93
110610821 110610964 chr1 :110610850-110610950 143
110611386 110611542 chr1 :110611416-110611516 156
110611971 110612108 chr1 :110611995-110612095 137
115677141 115677297 chr1 :115677211-115677212 156
119522559 119522707 chr1 :119522588-119522688 148
150595130 150595282 chr1 : 150595157- 150595257 152
153896523 153896648 chr1 :153896541-153896641 125
154379671 154379808 chr1 : 154379748- 154379749 137
155162673 155162808 chr1 : 155162703- 155162803 135
158079244 158079395 chr1 :158079311-158079312 151
158324396 158324540 chr1 : 158324422- 158324522 144
158549201 158549351 chr1 : 158549228- 158549328 150
158575697 158575854 chr1 : 158575724- 158575824 157
158736216 158736378 chr1 : 158736263- 158736363 162
159284004 159284160 chr1 : 159284033- 159284133 156
159284209 159284363 chr1 : 159284249- 159284349 154
159682419 159682564 chr1 : 159682448- 159682548 145
160782978 160783141 chr1 : 160783005-160783105 163 ch r 1 : 161008656- 161008756 ; chr1 : 161008701 - 161008634 161008907 161008801;chr1:161008777-161008877 273
161284882 161285026 chr1 :161284950-161284951 144
161306252 161306382 chr1 : 161306151 - 161306251.downstream 130
166039366 166039510 chr1 : 166039395-166039495 144
169138792 169138934 chr1 : 169138868-169138869 142
170464175 170464329 chr1 : 170464254- 170464255 154
171868017 171868187 chr1 :171868066-171868166 170
175050401 175050549 chr1 : 175050430- 175050530 148
180202441 180202578 chr1 : 180202463- 180202563 137
182025968 182026117 chr1 : 182025995- 182026095 149
193191311 193191476 chr1 :193191356-193191456 165
196682870 196683025 chr1 : 196682896- 196682996 155
214646125 214646279 chr1 :214646154-214646254 154
217310510 217310654 chr1 :217310537-217310637 144
220101648 220101795 chr1 :220101678-220101778 147
220101867 220102015 chr1 :220101896-220101996 148
223948836 223948969 chr1 :223948861-223948961 133 chr1 :226187853-226187854;chr1 :226187877- 226187776 226188068 226187878;chr1:226188006-226188007 292 236557105 236557253 chr1 :236557182-236557183 148
236849398 236849548 chr1 :236849424-236849524 150
236849891 236850048 chr1 :236849917-236850017 157
237765796 237765947 chr1 :237765826-237765926 151 chr1 : 240656502-240656602 ; chr1 :240656537- 240656480 240656649 240656637 169
240746545 240746706 chr1 :240746575-240746675 161
246241918 246242056 chr1 :246241939-246242039 138
248903024 248903175 chr1 :248903051-248903151 151

Claims

Ansprüche
1. Verfahren zur Diagnose von Lungenkrebs, bei dem man die Methylierung eines Satzes von Methylierungsmarkern in einer Probe eines Patienten bestimmt.
2. Verfahren nach Anspruch 1 , wobei der Satz von Methylierungsmarkern ausgewählt ist aus der Gruppe bestehend aus den in Tabelle 1a, 1b und 1c aufgelisteten Regionen und min destens 60 Regionen umfasst, bevorzugt mindestens 64 Regionen, mehr bevorzugt min destens 340 Regionen, z.B. mindestens 350 Regionen.
3. Verfahren nach einem der Ansprüche 1 oder 2, wobei der Satz von Methylierungsmarkern ausgewählt ist aus der Gruppe bestehend aus den in Tabelle 1a, 1b und 1c aufgelisteten Regionen und mindestens 134 Regionen umfasst, bevorzugt 138 Regionen, mehr bevor zugt mindestens 240 Regionen, z.B. bevorzugt mindestens 247 Regionen.
4. Verfahren nach einem der Ansprüche 2 oder 3, wobei der Satz von Methylierungsmarkern ausgewählt ist aus der Gruppe bestehend aus den in Tabelle 1a, 1b und 1c aufgelisteten Regionen und mindestens 600 Regionen umfasst, optional alle 630 Regionen.
5. Verfahren nach einem der Ansprüche 1-4, wobei der Satz von Methylierungsmarkern mindestens 60 Regionen umfasst, ausgewählt aus der Gruppe bestehend aus: wobei man das bevorzugt Vorhandensein eines Tumors analysiert, wobei der Satz von Methylierungsmarkern optional alle Regionen der Gruppe umfasst.
6. Verfahren nach Anspruch 5, wobei der Satz von Methylierungsmarkern mindestens 340 Regionen umfasst, ausgewählt aus der Gruppe bestehend aus den in Tabelle 1a aufgelis teten Regionen, wobei der Satz von Methylierungsmarkern bevorzugt alle in Tabelle 1a aufgelisteten Regionen umfasst.
7. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Satz von Methylie rungsmarkern mindestens 134 Regionen umfasst, ausgewählt aus der Gruppe bestehend aus: wobei man die bevorzugt Entität eines Tumors identifiziert, wobei der Satz von Methylierungsmarkern optional alle Regionen der Gruppe umfasst.
8. Verfahren nach Anspruch 7, wobei der Satz von Methylierungsmarkern mindestens 240
Regionen umfasst, wobei die Gruppe aus den in Tabelle 1b aufgelisteten Regionen be steht, wobei der Satz von Methylierungsmarkern optional alle in Tabelle 1b aufgelisteten Regionen der Gruppe umfasst.
9. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Satz von Methylie rungsmarkern mindestens 620 Regionen umfasst, wobei die Gruppe aus den in Ansprü chen 3 und 5 definierten Methylierungsmarkern und ferner den in Tabelle 1c aufgelisteten Regionen besteht, wobei man bevorzugt ferner die Prognose bestimmt, wobei der Satz von Methylierungsmarkern optional alle Regionen der Gruppe umfasst.
10. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Satz von Methylie rungsmarkern die 10 folgenden Positionen umfasst: und man optional den kNN-Algorithmus zur Analyse verwendet, wobei man das Vorhan densein eines Tumors analysiert.
11. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Satz von Methylie rungsmarkern die 10 folgenden Positionen umfasst: und man optional den RT-Algorithmus zur Analyse verwendet, wobei man die Entität ei nes Tumors identifiziert.
12. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Satz von Methylie rungsmarkern alle in Tabelle 4 aufgelisteten Positionen umfasst und man optional den SVM-Algorithmus zur Analyse verwendet, wobei man das Stadium eines Tumors identifi ziert.
13. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Lungenkrebs NSCLC, ausgewählt aus der Gruppe umfassend Adenokarzinom und Plattenepithelkarzinom, oder SCLC ist, bevorzugt NSCLC, ausgewählt aus der Gruppe umfassend Adenokarzinom und Plattenepithelkarzinom.
14. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass es eine Aussage über das Vorhandenseins eines Tumors, über die Entität eines Tumors, über das Tumorstadium und/oder über die Prognose erlaubt, bevorzugt über Vorhanden sein und Entität des Tumors, optional über alles gleichzeitig.
15. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren sowohl dazu geeignet ist, eine Probe zu untersuchen, die eine Flüssigbiopsie-Probe ist, als auch eine Probe aus einer Lungenbiopsie und eine solide Gewebeprobe, die bei einer Operation entnommen wird.
16. Verfahren nach einem der vorhergehenden Ansprüche, wobei man zfDNA aus einer Flüs sigbiopsie untersucht.
17. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Flüssigbiopsie-Probe ausgewählt ist aus der Gruppe umfassend Blut, Plasma, Serum, Sputum, Bronchialflüs sigkeit und Pleuraerguss, bevorzugt Plasma.
18. Verfahren nach einem der Ansprüche 1-15, wobei die Probe eine Lungenbiopsie-Probe ist.
19. Verfahren nach einem der Ansprüche 1-15, wobei die Probe eine Gewebeprobe ist, die bei einer Operation entnommen wird.
20. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren zur Diagno se von Lungenkrebs in Stadium I eingesetzt wird.
21. Mittel, geeignet zur Diagnose von Lungenkrebs mit einem Verfahren nach einem der An sprüche 2-20 durch Untersuchung der Methylierung eines Satzes von Methylierungsmar kern in zfDNA aus einer Flüssigbiopsie-Probe eines Patienten, wobei das Mittel Oligonukleotide umfasst, welche mit DNA hybridisieren können, welche die genannten Methylierungsmarker umfasst, ausgewählt aus der Gruppe umfassend Oli gonukleotide, die an einen festen Träger gekoppelt werden können, Oligonukleotide, die an einen festen Träger gekoppelt sind und/oder ein Kit umfassend PCR-Primer zur Ampli fikation von Regionen, welche die Methylierungsmarker umfassen.
22. Verfahren nach einem der Ansprüche 1-20, wobei man Sequenzierungsdaten von bisulfit- konvertierter DNA, z.B. zfDNA, gegen ein Referenzgenom mit dem Segemehl Algorithmus aligned, wobei man bevorzugt: a. zfDNA aus der Flüssigbiopsie-Probe oder genomische DNA aus einer soliden Gewe beprobe oder Lungenbiopsie-Probe extrahiert, b. eine Bisulfitkonvertierung durchführt, c. eine Whole Genome Bisulfite Sequencing Library hergestellt, d. DNA-Regionen umfassend die definierten Methlierungsmarker anreichert, wobei man sie bevorzugt mit dem Mittel nach Anspruch 21 in Kontakt bringt, e. die angereicherten DNA-Regionen sequenziert, f. die Sequenzierungsdaten gegen ein Referenzgenom mit dem Segemehl Algorithmus aligned, g. die Methylierungsraten berechnet.
23. Verwendung eines Verfahrens nach einem der Ansprüche 1-20 oder 22 oder eines Mittels nach Anspruch 21 zur Diagnose von Lungenkrebs, wobei die Diagnose eine Aussage über das Vorhandenseins eines Tumors, über die Entität eines Tumors, über das Tu morstadium und/oder über die Prognose erlaubt, bevorzugt über Vorhandensein und Enti tät des Tumors, optional über alles gleichzeitig.
EP20764417.0A 2019-09-05 2020-09-04 Verfahren und mittel zur diagnose von lungenkrebs Pending EP4025713A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP19195688.7A EP3789505A1 (de) 2019-09-05 2019-09-05 Verfahren und mittel zur diagnose von lungenkrebs
PCT/EP2020/074775 WO2021043986A1 (de) 2019-09-05 2020-09-04 Verfahren und mittel zur diagnose von lungenkrebs

Publications (1)

Publication Number Publication Date
EP4025713A1 true EP4025713A1 (de) 2022-07-13

Family

ID=67874380

Family Applications (2)

Application Number Title Priority Date Filing Date
EP19195688.7A Withdrawn EP3789505A1 (de) 2019-09-05 2019-09-05 Verfahren und mittel zur diagnose von lungenkrebs
EP20764417.0A Pending EP4025713A1 (de) 2019-09-05 2020-09-04 Verfahren und mittel zur diagnose von lungenkrebs

Family Applications Before (1)

Application Number Title Priority Date Filing Date
EP19195688.7A Withdrawn EP3789505A1 (de) 2019-09-05 2019-09-05 Verfahren und mittel zur diagnose von lungenkrebs

Country Status (3)

Country Link
US (1) US20230203590A1 (de)
EP (2) EP3789505A1 (de)
WO (1) WO2021043986A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113106151A (zh) * 2021-03-25 2021-07-13 杭州瑞普基因科技有限公司 基于qPCR检测肺小结节甲基化的核酸组合物、试剂盒
CN114277154B (zh) * 2022-01-27 2022-11-29 武汉康录生物技术股份有限公司 一种用于肺癌诊断和早期肺癌无创筛查的检测试剂盒
CN115274124B (zh) * 2022-07-22 2023-11-14 江苏先声医学诊断有限公司 一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019068082A1 (en) * 2017-09-29 2019-04-04 Arizona Board Of Regents On Behalf Of The University Of Arizona DNA METHYLATION BIOMARKERS FOR THE DIAGNOSIS OF CANCER

Also Published As

Publication number Publication date
EP3789505A1 (de) 2021-03-10
WO2021043986A1 (de) 2021-03-11
US20230203590A1 (en) 2023-06-29

Similar Documents

Publication Publication Date Title
CN107475375B (zh) 一种用于与微卫星不稳定性相关微卫星位点进行杂交的dna探针库、检测方法和试剂盒
EP4025713A1 (de) Verfahren und mittel zur diagnose von lungenkrebs
CN105861710B (zh) 测序接头、其制备方法及其在超低频变异检测中的应用
CN109906276A (zh) 用于检测早期癌症中体细胞突变特征的识别方法
DE60029092T2 (de) Verfahren zur detektion von nukleinsäuren, welche auf krebs hinweisen
WO2018090298A2 (en) Systems and methods for monitoring lifelong tumor evolution
CN106650312B (zh) 一种用于循环肿瘤dna拷贝数变异检测的装置
CN107475370A (zh) 用于肺癌诊断的基因群和试剂盒及诊断方法
CN106834515B (zh) 一种检测met基因14外显子突变的探针库、检测方法和试剂盒
CN107847515A (zh) 实体瘤甲基化标志物及其用途
CN108603232A (zh) 监测骨髓瘤的治疗或进展
Wang et al. Circulating tumor DNA analysis for tumor diagnosis
DE69632252T2 (de) Verfahren zur erkennung von klonalen populationen von transformierten zellen in einer genomisch heterogenen zellulären probe
DE602004004988T2 (de) Methylierungsstatus-Detektionsassays mittels methylierungsspezifischer Primerextension (MSPE)
CN106399304B (zh) 一种与乳腺癌相关的snp标记
CN107881232A (zh) 探针组合物及基于ngs方法检测肺癌和结直肠癌基因的应用
EP4243023A1 (de) Verfahren zur bestimmung der empfindlichkeit gegenüber parp-inhibitor oder dna-schädigendem mittel unter verwendung eines nichtfunktionellen transkriptoms
CN109439741B (zh) 检测特发性癫痫病基因探针组合物、试剂盒及应用
CN107974504A (zh) 基于ngs方法的肺癌和结直肠癌基因检测的方法
CN114196740A (zh) 用于同时识别多种基因类型的数字扩增检测方法、检测产品和检测试剂盒
EP2935621B1 (de) Verfahren zur bestiummung des dna-methylierungsgrads
CN106834476A (zh) 一种乳腺癌检测试剂盒
CN116042820B (zh) 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用
CN106636351A (zh) 一种与乳腺癌相关的snp标记及其应用
CN115772564B (zh) 用于辅助检测肺癌体细胞atm基因融合突变的甲基化生物标记物及其应用

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20220214

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20231109