BE1023266B1 - System and methodology for the analysis of genomic data obtained from a subject - Google Patents

System and methodology for the analysis of genomic data obtained from a subject Download PDF

Info

Publication number
BE1023266B1
BE1023266B1 BE2015/5443A BE201505443A BE1023266B1 BE 1023266 B1 BE1023266 B1 BE 1023266B1 BE 2015/5443 A BE2015/5443 A BE 2015/5443A BE 201505443 A BE201505443 A BE 201505443A BE 1023266 B1 BE1023266 B1 BE 1023266B1
Authority
BE
Belgium
Prior art keywords
chromosome
readings
sample
sequences
scores
Prior art date
Application number
BE2015/5443A
Other languages
Dutch (nl)
Other versions
BE1023266A1 (en
Inventor
Benoit Devogelaere
Joke Allemeersch
Original Assignee
Cartagenia N.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cartagenia N.V. filed Critical Cartagenia N.V.
Priority to BE2015/5443A priority Critical patent/BE1023266B1/en
Application granted granted Critical
Publication of BE1023266A1 publication Critical patent/BE1023266A1/en
Publication of BE1023266B1 publication Critical patent/BE1023266B1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/16Assays for determining copy number or wherein the copy number is of special importance

Abstract

De onderhavige uitvinding beschrijft een werkwijze voor het bepalen van de aanwezigheid of afwezigheid van een foetale chromosomale aneuploïdie bij een zwangere vrouw, waarbij de werkwijze de berekening omvat van een parameter p van sequenties verkregen van een biologisch monster van de genoemde zwangere vrouw. De onderhavige uitvinding biedt eveneens een werkwijze voor het bepalen van de foetale fractie van het genoemde monster.The present invention describes a method for determining the presence or absence of a fetal chromosomal aneuploidy in a pregnant woman, the method comprising calculating a parameter p from sequences obtained from a biological sample from said pregnant woman. The present invention also provides a method for determining the fetal fraction of said sample.

Description

SYSTEEM EN METHODOLOGIE VOOR DE ANALYSE VAN GENOMISCHE GEGEVENS DIE ZIJN VERKREGEN VAN EEN ONDERWERPSYSTEM AND METHODOLOGY FOR THE ANALYSIS OF GENOMIC DATA OBTAINED FROM A SUBJECT

TECHNISCH GEBIEDTECHNICAL FIELD

De uitvinding heeft betrekking op een werkwijze en systeem voor de analyse van genomische gegevens van een patiënt. De huidige uitvinding heeft in het bijzonder betrekking op een werkwijze die de bepaling van de aanwezigheid van een foetale aneuploïdie toelaat in een monster op een in hoofdzaak niet-invasieve manier.The invention relates to a method and system for the analysis of genomic data of a patient. The present invention particularly relates to a method that permits the determination of the presence of a fetal aneuploidy in a sample in a substantially non-invasive manner.

INLEIDINGPREFACE

De beschikbaarheid van DNA-sequencingtechnologieën met een hoge verwerkingscapaciteit heeft bijna-allesomvattende onderzoeken toegelaten naar het aantal en type van sequentievarianten bij individuen in verschillende populaties en met verschillende ziektes. Sequencing van het volledig genoom kan een relatief routinematige procedure worden in de nabije toekomst aangezien de kosten en efficiëntie van sequencing met een hoge verwerkingscapaciteit blijven verbeteren. Aangezien de kosten blijven zakken, wordt namelijk verwacht dat sequencing met een hoge verwerkingscapaciteit een vaak gebruikt instrument zal worden, niet enkel in humane op fenotype gebaseerde sequencingprojecten, maar ook als een doeltreffend instrument in vooruitstrevende genetische toepassingen in modelorganismen, en voor de diagnose van ziektes die eerder als idiopathisch werden beschouwd.The availability of DNA processing technologies with a high processing capacity has allowed almost comprehensive investigations into the number and type of sequence variants in individuals in different populations and with different diseases. Sequencing of the entire genome can become a relatively routine procedure in the near future as the costs and efficiency of sequencing with a high processing capacity continue to improve. Indeed, as costs continue to fall, high-processing sequencing is expected to become a commonly used tool, not only in human phenotype-based sequencing projects, but also as an effective tool in advanced genetic applications in model organisms, and for disease diagnosis previously considered to be idiopathic.

Zodra een sequentie is verkregen, wordt een inspanning gedaan om de locatie en het karakter van deze delen van een sequentie te identificeren die verschillen van een of meerdere "standaard" referentiesequenties, waarbij elk verschil gewoonlijk een variant wordt genoemd. Dit kan helpen de delen van het genoom van een individu te identificeren die mogelijk zouden kunnen bijdragen tot een klinische aandoening of ander kenmerk van het individu. Het is bijvoorbeeld gebruikelijk de sequentie van een bepaald individu te vergelijken met humane referentiegenoomsequenties die worden bewaard door de University of California, Santa Cruz, en een lijst te maken van de varianten die bestaan tussen de sequentie van een individu en een referentiesequentie.Once a sequence is obtained, an effort is made to identify the location and character of these parts of a sequence that differ from one or more "standard" reference sequences, each of which is commonly referred to as a variant. This can help identify the parts of an individual's genome that could potentially contribute to a clinical condition or other characteristic of the individual. For example, it is common to compare the sequence of a particular individual with human reference genome sequences stored by the University of California, Santa Cruz, and to list the variants that exist between the sequence of an individual and a reference sequence.

Deze lijst met varianten kan miljoenen varianten bevatten, maar geeft weinig of geen informatie over de impact die een bepaalde variant op de genfunctie kan hebben. Onderzoeksprogramma's wereldwijd verzamelen continu informatie over bepaalde varianten van een genfunctie, ziektestadia, en dergelijke. Bovendien zijn verscheidene computerwerkwijzen ontwikkeld voor het afleiden van mogelijke fysiologische effecten van bepaalde types varianten op basis van de locatie ervan op het genoom en de aard van de variant, zelfs als er geen biochemische of klinische laboratoriumstudies zijn uitgevoerd op die bepaalde va riant.This list of variants can contain millions of variants, but gives little or no information about the impact that a particular variant can have on gene function. Research programs worldwide continuously collect information about certain variants of a gene function, disease stages, and the like. In addition, various computer methods have been developed to derive potential physiological effects of certain types of variants based on their location on the genome and the nature of the variant, even if no biochemical or clinical laboratory studies have been performed on that particular variant.

Prenatale analyse van een foetus is vandaag steeds meer verschoven naar een genomische analyse van de foetus en het DNA van de ouders.Prenatal analysis of a fetus has today increasingly shifted to a genomic analysis of the fetus and the DNA of the parents.

De aanwezigheid van circulerend extracellulair DNA in het perifere bloed is een fenomeen dat goed gekend is. Er is aangetoond dat in het geval van een zwangere vrouw extracellulair foetaal DNA aanwezig is in de bloedsomloop van de moeder en kan worden gedetecteerd in het plasma of serum van de moeder. Hoewel de meeste mensen in het vakgebied dit type DNA als foetaal DNA beschrijven, is het in feite placentair DNA, en kunnen er kleine verschillen voorkomen tussen foetaal en placentair DNA omwille van mozaïscisme dat afkomstig is tijdens embryogenese. In dit document zal de term "foetaal DNA" echter worden gebruikt aangezien dit de vaakst gebruikte terminologie is om dit type DNA te beschrijven. Studies hebben aangetoond dat dit circulerende foetale genetische materiaal kan worden gebruikt voor de erg betrouwbare bepaling, bijv. door PCR (polymerasekettingreactie) -technologie, van foetale genetische loci die volledig afwezig zijn uit het genoom van de moeder. Voorbeelden van dergelijke foetale genetische loei zijn het foetale RhD-gen tijdens risicozwangerschappen voor HDN (hemolytische ziekte van de foetus en pasgeborene) of foetaal Y-chromosoomspecifieke sequenties in risicozwangerschappen voor een X-chromosoomgebonden aandoening, bijv. hemofilie of fragiel X-syndroom.The presence of circulating extracellular DNA in the peripheral blood is a well-known phenomenon. In the case of a pregnant woman, it has been demonstrated that extracellular fetal DNA is present in the mother's bloodstream and can be detected in the mother's plasma or serum. Although most people in the art describe this type of DNA as fetal DNA, it is in fact placental DNA, and small differences can occur between fetal and placental DNA because of mosaicism that originates during embryogenesis. However, the term "fetal DNA" will be used throughout this document as this is the most commonly used terminology to describe this type of DNA. Studies have shown that this circulating fetal genetic material can be used for the highly reliable determination, e.g. by PCR (polymerase chain reaction) technology, of fetal genetic loci completely absent from the mother's genome. Examples of such fetal genetic loci are the fetal RhD gene during risk pregnancies for HDN (hemolytic disease of the fetus and newborn) or fetal Y chromosome specific sequences in risk pregnancies for an X chromosome-related disorder, e.g. hemophilia or fragile X syndrome.

Foetale aneuploïdie en andere chromosomale afwijkingen treffen 9 van de 1000 levende geboortes. De gouden standaard voor het diagnosticeren van chromosomale afwijkingen is karyotypering van foetale cellen die zijn verkregen via invasieve procedures zoals chorionische villusbemonstering en amniocentese. Deze procedures houden kleine, maar mogelijk significante risico's in voor zowel de foetus als de moeder. In de laatste jaren is er vooruitgang geboekt in de ontwikkeling van niet-invasieve screeningmethodes voor foetale chromosomale afwijkingen.Fetal aneuploidy and other chromosomal abnormalities affect 9 out of 1,000 live births. The gold standard for diagnosing chromosomal aberrations is karyotyping of fetal cells obtained through invasive procedures such as chorionic villus sampling and amniocentesis. These procedures involve small but potentially significant risks to both the fetus and the mother. In recent years, progress has been made in the development of non-invasive screening methods for fetal chromosomal abnormalities.

Sinds de ontdekking van intacte foetuscellen in het bloed van de moeder is er sterke interesse in het proberen gebruiken ervan als een diagnostisch venster voor foetale genetica. EP 2183693 en familieleden beschrijven een methodologie voor het uitvoeren van een prenatale diagnose van een foetale chromosomale aneuploïdie in een biologisch monster dat is verkregen van de zwangere moeder. Het monster wordt willekeurig gesequencet en de verkregen sequenties worden gebruikt voor het bepalen van een parameter die wordt gebruikt voor het evalueren van de aanwezigheid of afwezigheid van een foetale aneuploïdie. US8195415 beschrijft een werkwijze voor het evalueren of een chromosoom een abnormale verdeling heeft in een monster dat is verkregen van een patiënt. De werkwijze omvat shotgun-sequencing van het DNA dat aanwezig is in het monster, en vervolgens het aligneren van de verkregen sequentietags met chromosoomdelen. Waarden worden bepaald op basis van het aantal uitlijningen die dan worden gebruikt voor het berekenen van een verschil dat bepalend is voor het feit of er al dan niet een abnormale verdeling bestaat.Since the discovery of intact fetal cells in the mother's blood, there has been a strong interest in trying to use them as a diagnostic window for fetal genetics. EP 2183693 and family members describe a methodology for performing a prenatal diagnosis of a fetal chromosomal aneuploidy in a biological sample obtained from the pregnant mother. The sample is randomly sequenced and the sequences obtained are used to determine a parameter used to evaluate the presence or absence of fetal aneuploidy. US8195415 describes a method for evaluating whether a chromosome has an abnormal distribution in a sample obtained from a patient. The method includes shotgun sequencing of the DNA present in the sample, and then aligning the resulting sequence tags with chromosome portions. Values are determined based on the number of alignments that are then used to calculate a difference that determines whether or not an abnormal distribution exists.

Bayindir et al., 2015 beschrijft een niet-invasieve prenatale testmethodologie op basis van de Z- en ZZ-score, waarbij de genoemde Z-score een chromosomaal-brede-Z-score is en de ZZ-score wordt berekend als de standaardscore van de Z-score van een bepaald autosoom vergeleken met de Z-scores van resterende autosomen.Bayindir et al., 2015 describes a non-invasive prenatal test methodology based on the Z and ZZ score, where said Z score is a chromosomal broad Z score and the ZZ score is calculated as the standard score of the Z-score of a certain autosome compared to the Z-scores of remaining autosomes.

Hoewel de bovengenoemde methodologieën waardevol zijn, blijft de verhouding van valse positieven en negatieven hoog in het veld. Daarom wordt er constant gestreefd naar het bieden van methodologieën die het percentage valse positieven en in het bijzonder valse negatieven kunnen verlagen, om een meer nauwkeurige en robuuste screening te bieden.Although the above methodologies are valuable, the ratio of false positives and negatives remains high in the field. Therefore, there is a constant effort to provide methodologies that can reduce the percentage of false positives, and in particular false negatives, to provide more accurate and robust screening.

De onderhavige uitvinding wil een nauwkeurigere niet-invasieve methodologie bieden voor het bepalen of er een aneuploïdie bestaat in een foetus, samen met de bepaling van de foetale fractie aangezien dit als een belangrijke kwaliteitsmetriek wordt beschouwd voor het beoordelen van het risico op valse negatieven in een monster.The present invention aims to provide a more accurate non-invasive methodology for determining whether there is aneuploidy in a fetus, together with the determination of the fetal fraction as this is considered an important quality metric for assessing the risk of false negatives in a sample.

Vanuit een breder perspectief wil de onderhavige uitvinding ook een methodologie en instrumenten bieden voor het analyseren van genomische gegevens, bijv. voor genomische variantannotatie.From a broader perspective, the present invention also aims to provide a methodology and tools for analyzing genomic data, e.g. for genomic variant annotation.

SAMENVATTING VAN DE UITVINDINGSUMMARY OF THE INVENTION

De uitvinding heeft betrekking op een werkwijze voor het bepalen van de aanwezigheid of afwezigheid van een aneuploïdie volgens conclusie 1 of een van de afhankelijke conclusies. De methodologie volgens de conclusies laat toe de aanwezigheid of afwezigheid van dergelijke aneuploïdie te evalueren op basis van een reeks referentiemonsters. De onderhavige methodologie biedt een betrouwbare en robuuste parameter voor het bepalen van de aanwezigheid van een aneuploïdie. De methodologie is gevoelig en minimaliseert valse positieven en valse negatieven.The invention relates to a method for determining the presence or absence of an aneuploidy according to claim 1 or one of the dependent claims. The methodology according to the claims makes it possible to evaluate the presence or absence of such aneuploidy on the basis of a series of reference samples. The present methodology offers a reliable and robust parameter for determining the presence of aneuploidy. The methodology is sensitive and minimizes false positives and false negatives.

De onderhavige uitvinding biedt ook een werkwijze voor het bepalen van de foetale fractie volgens conclusie 27 en afhankelijke conclusies. De werkwijze biedt een duidelijke en gemakkelijke schatting van de foetale fractie in een monster gebaseerd op de beschikbare willekeurige sequencinggegevens met een lage dekking. Deze laatste dient ook als een aanvullende kwaliteitscontrole voor de detectie van aneuploïdie, in het bijzonder voor de gevallen waar er geen aneuploïdie gedetecteerd werd (aangezien sommige daarvan valse positieven zouden kunnen zijn, omdat de foetale fractie te laag was om de detectie van een aneuploïdie toe te laten met behulp van sequencing met een lage dekking).The present invention also provides a method for determining the fetal fraction according to claim 27 and dependent claims. The method provides a clear and easy estimate of the fetal fraction in a sample based on the available random sequencing data with low coverage. The latter also serves as an additional quality control for the detection of aneuploidy, in particular for cases where no aneuploidy has been detected (since some of these could be false positives because the fetal fraction was too low to allow the detection of aneuploidy using sequencing with low coverage).

Tot slot biedt de onderhavige methodologie ook een computerprogrammaproduct volgens conclusie 19 of 30, dat een of meerdere bewerkingen kan uitvoeren volgens de onderhavige uitvinding en een rapport gegenereerd daardoor volgens conclusie 25.Finally, the present methodology also provides a computer program product according to claim 19 or 30, which can perform one or more operations according to the present invention and a report generated thereby according to claim 25.

FIGURENFIGURES

Figuur 1 toont een rapport volgens een uitvoeringsvorm van de onderhavige uitvinding, dat berekende parameters en een visuele voorstelling toont voor chromosoom 21 in een monster A, waarbij het genoemde chromosoom 21 werd geïdentificeerd als abnormaal door de werkwijze volgens de onderhavige uitvinding.Figure 1 shows a report according to an embodiment of the present invention, showing calculated parameters and a visual representation for chromosome 21 in a sample A, said chromosome 21 being identified as abnormal by the method of the present invention.

Figuur 2 toont een grafische voorstelling van de parameters die zijn verkregen voor alle chromosomen binnen één monster A. Enkel chromosoom 21 vertoonde een afwijking.Figure 2 shows a graphical representation of the parameters obtained for all chromosomes within one sample A. Only chromosome 21 showed a deviation.

Figuur 3 toont een rapport volgens een uitvoeringsvorm van de onderhavige uitvinding, dat berekende parameters en een visuele voorstelling toont voor chromosoom 11 in monster A. Er zijn geen afwijkingen geobserveerd.Figure 3 shows a report according to an embodiment of the present invention, showing calculated parameters and a visual representation for chromosome 11 in sample A. No abnormalities have been observed.

Figuur 4 toont een grafische voorstelling van de berekende secundaire parameters volgens een uitvoeringsvorm van de onderhavige uitvinding, berekend voor alle chromosomen van monster A. Er werd een trisomie geobserveerd.Figure 4 shows a graphical representation of the calculated secondary parameters according to an embodiment of the present invention, calculated for all chromosomes of sample A. A trisomy was observed.

Figuur 5 toont een rapport volgens een uitvoeringsvorm van de onderhavige uitvinding, dat berekende parameters en een visuele voorstelling toont voor chromosoom 16 in monster B. Er werd een trisomie geobserveerd.Figure 5 shows a report according to an embodiment of the present invention, showing calculated parameters and a visual representation for chromosome 16 in sample B. A trisomy was observed.

Figuur 6 toont een grafische voorstelling van de parameters die zijn verkregen voor alle chromosomen binnen monster B. Slechts één chromosoom, chromosoom 16, vertoonde een afwijking.Figure 6 shows a graphical representation of the parameters obtained for all chromosomes within sample B. Only one chromosome, chromosome 16, showed a deviation.

Figuur 7 toont een rapport volgens een uitvoeringsvorm van de onderhavige uitvinding, dat berekende parameters en een visuele voorstelling toont voor chromosoom 1 in monster B. Er werd geen trisomie geobserveerd.Figure 7 shows a report according to an embodiment of the present invention, showing calculated parameters and a visual representation for chromosome 1 in sample B. No trisomy was observed.

Figuur 8 toont een grafische voorstelling van de berekende secundaire parameters volgens een uitvoeringsvorm van de onderhavige uitvinding, berekend voor alle chromosomen van monster B. Er werd een trisomie geobserveerd.Figure 8 shows a graphical representation of the calculated secondary parameters according to an embodiment of the present invention, calculated for all chromosomes of sample B. A trisomy was observed.

Figuur 9 toont een rapport volgens een uitvoeringsvorm van de onderhavige uitvinding, dat berekende parameters en een visuele voorstelling toont voor chromosoom 21 in een monster A, waarbij het genoemde chromosoom 21 werd geïdentificeerd als abnormaal door de werkwijze volgens de onderhavige uitvinding.Figure 9 shows a report according to an embodiment of the present invention, showing calculated parameters and a visual representation for chromosome 21 in a sample A, said chromosome 21 being identified as abnormal by the method of the present invention.

Figuur 10 toont een grafische voorstelling van de parameters die zijn verkregen voor alle chromosomen binnen één monster A. Slechts één chromosoom vertoonde een afwijking.Figure 10 shows a graphical representation of the parameters obtained for all chromosomes within one sample A. Only one chromosome showed a deviation.

Figuur 11 toont een rapport volgens een uitvoeringsvorm van de onderhavige uitvinding, dat berekende parameters en een visuele voorstelling toont voor chromosoom 11 in monster A. Er zijn geen afwijkingen geobserveerd.Figure 11 shows a report according to an embodiment of the present invention, showing calculated parameters and a visual representation for chromosome 11 in sample A. No abnormalities have been observed.

Figuur 12 toont een rapport volgens een uitvoeringsvorm van de onderhavige uitvinding, dat berekende parameters en een visuele voorstelling toont voor chromosoom 16 in monster B. Er werd een aneuploïdie geobserveerd.Figure 12 shows a report according to an embodiment of the present invention, showing calculated parameters and a visual representation for chromosome 16 in sample B. An aneuploidy was observed.

Figuur 13 toont een grafische voorstelling van de parameters die zijn verkregen voor alle chromosomen binnen monster B. Slechts één chromosoom 16 vertoonde een afwijking.Figure 13 shows a graphical representation of the parameters obtained for all chromosomes within sample B. Only one chromosome 16 showed a deviation.

Figuur 14 toont een rapport volgens een uitvoeringsvorm van de onderhavige uitvinding, dat berekende parameters en een visuele voorstelling toont voor chromosoom 1 in monster B. Er werd geen trisomie geobserveerd.Figure 14 shows a report according to an embodiment of the present invention, showing calculated parameters and a visual representation for chromosome 1 in sample B. No trisomy was observed.

Figuur 15 toont een grafische voorstelling van een secundaire parameter die indicatief is voor het slaagpercentage van het experiment verkregen voor alle chromosomen in monster A volgens een uitvoeringsvorm van het onderhavige voorbeeld. Het experiment was geslaagd.Figure 15 shows a graphical representation of a secondary parameter indicative of the success rate of the experiment obtained for all chromosomes in sample A according to an embodiment of the present example. The experiment was successful.

Figuur 16 toont een grafische voorstelling van een secundaire parameter die indicatief is voor het slaagpercentage van het experiment verkregen voor alle chromosomen in monster B volgens een uitvoeringsvorm van het onderhavige voorbeeld. Het experiment was geslaagd.Figure 16 shows a graphical representation of a secondary parameter indicative of the success rate of the experiment obtained for all chromosomes in sample B according to an embodiment of the present example. The experiment was successful.

Figuur 17 toont een grafische voorstelling in een monster, dat is verkregen door een uitvoeringsvorm van de onderhavige uitvinding, die de aanwezigheid aangeeft van een polymorfe plaats, meer in het bijzonder een kopieaantalvariatie die aanwezig zou kunnen zijn in het genoom van de moeder in plaats van het genoom van de foetus.Figure 17 shows a graphical representation in a sample obtained by an embodiment of the present invention indicating the presence of a polymorphic site, more particularly a copy number variation that may be present in the mother's genome instead of the genome of the fetus.

Figuren 18 tot 24 tonen grafische voorstellingen voor een chromosoom in een monster dat is verkregen door een uitvoeringsvorm van de onderhavige uitvinding. Er is bewezen dat de methodologie van de onderhavige uitvinding een hogere gevoeligheid heeft ten opzichte van de werkwijzen uit de stand der techniek.Figures 18 to 24 show graphical representations for a chromosome in a sample obtained by an embodiment of the present invention. The methodology of the present invention has been proven to have a higher sensitivity than the methods of the prior art.

Figuur 25 toont een grafische voorstelling met het aantal aflezingen met betrekking tot het Y-chromosoom voor monsters die waren ingedeeld als mannelijk, vrouwelijk of van onbepaald geslacht.Figure 25 shows a graphic representation of the number of readings with respect to the Y chromosome for samples classified as male, female, or indeterminate.

Figuur 26 toont een grafische voorstelling met de X- en Y-gebaseerde foetale fractieschattingen voor een reeks mannelijke zwangerschappen.Figure 26 shows a graphical representation of the X and Y-based fetal fraction estimates for a series of male pregnancies.

Figuur 27 toont de spreidingsdiagrammen van de genormaliseerde tellingen voor een bepaalde polymorfe plaats binnen een reeks testmonsters.Figure 27 shows the scatter diagrams of the normalized counts for a particular polymorphic site within a series of test samples.

Figuur 28 en 29 tonen een grafische voorstelling van de geschatte foetale fractie voor een reeks mannelijke zwangerschappen op basis van een bepaalde informatieve polymorfe plaats, zoals berekend met behulp van een uitvoeringsvorm van de onderhavige uitvinding (X-as) versus op basis van de aflezingstellingen van chromosoom X of Y (Y-as).Figures 28 and 29 show a graphical representation of the estimated fetal fraction for a series of male pregnancies based on a particular informative polymorphic site, as calculated using an embodiment of the present invention (X-axis) versus based on the reading counts of chromosome X or Y (Y-axis).

Figuur 30 toont een grafische voorstelling die de geschatte foetale fractie visualiseert voor een reeks mannelijke zwangerschappen op basis van de informatieve polymorfe plaats, zoals geïdentificeerd in het monster zoals berekend met behulp van een uitvoeringsvorm van de onderhavige uitvinding (X-as) versus de geschatte foetale fractie op basis van de aflezingstellingen van chromosoom X of Y (Y-as).Figure 30 shows a graphic representation of the estimated fetal fraction for a series of male pregnancies based on the informative polymorphic site as identified in the sample as calculated using an embodiment of the present invention (X-axis) versus the estimated fetal fraction based on the reading counts of chromosome X or Y (Y-axis).

DEFINITIESDEFINITIONS

De term "biologisch monster" zoals hierin gebruikt, verwijst naar elk monster dat is afgenomen van een patiënt (bijv. een mens, zoals een zwangere vrouw) en een of meerdere interessante nucleïnezuurmolecule(n) bevat.The term "biological sample" as used herein refers to any sample taken from a patient (e.g., a human, such as a pregnant woman) and containing one or more interesting nucleic acid molecule (s).

De term "nucleïnezuur" of "polynucleotide" verwijst naar een deoxyribonucleïnezuur (DNA) of ribonucleïnezuur (RNA) en een polymeer daarvan in hetzij enkel- hetzij dubbelstrengige vorm. Tenzij specifiek beperkt, omvat de term nucleïnezuren bevattende welbekende analogen van natuurlijke nucleotiden die gelijkaardige bindingseigenschappen hebben als het referentienucleïnezuur en op gelijkaardige manier gemetaboliseerd zijn als natuurlijke voorkomende nucleotiden. Tenzij anders aangegeven, omvat een bepaalde nucleïnezuursequentie ook impliciet conversatief gewijzigde varianten daarvan (bijv. degeneercodonsubstituties), allellen, orthologen, enkel-nucleotide polymorfismen (SNP's) en complementaire sequenties evenals de expliciet aangegeven sequentie. Degenereercodonsubstituties kunnen in het bijzonder worden verkregen door het genereren van sequenties waarin de derde positie van een of meerdere geselecteerde (of alle) codons is gesubstitueerd met gemengde-basis en/of deoxyinosine-residuen. De term nucleïnezuur wordt verwisselbaar gebruikt met gen, DNA, cDNA, mRNA, klein niet-coderend RNA, micro-RNA (miRNA), Piwi-interagerend RNA, en korte haarspeld RNA (shRNA) gecodeerd door een gen of locus.The term "nucleic acid" or "polynucleotide" refers to a deoxyribonucleic acid (DNA) or ribonucleic acid (RNA) and a polymer thereof in either single or double-stranded form. Unless specifically limited, the term includes nucleic acids containing well-known analogs of natural nucleotides that have similar binding properties to the reference nucleic acid and are similarly metabolized as naturally occurring nucleotides. Unless otherwise stated, a particular nucleic acid sequence also includes implicitly conversatively modified variants thereof (e.g., degenerator codon substitutions), alleles, orthologs, single-nucleotide polymorphisms (SNPs) and complementary sequences as well as the explicitly indicated sequence. Degeneration codon substitutions can in particular be obtained by generating sequences in which the third position of one or more selected (or all) codons is substituted with mixed-base and / or deoxyinosine residues. The term nucleic acid is used interchangeably with gene, DNA, cDNA, mRNA, small non-coding RNA, micro-RNA (miRNA), Piwi-interacting RNA, and short hairpin RNA (shRNA) encoded by a gene or locus.

De term "gen" betekent het segment van DNA dat betrokken is bij de productie van een polypeptideketen. Het kan gebieden omvatten voorafgaand of volgend op het coderingsgebied (kop en staart) evenals interveniërende sequenties (intronen) tussen individuele coderingssegmenten (exonen).The term "gene" means the segment of DNA that is involved in the production of a polypeptide chain. It may include regions preceding or following the coding region (head and tail) as well as intervening sequences (introns) between individual coding segments (exons).

De term "reactie" zoals hierin gebruikt, verwijst naar elk proces omvattende een chemische, enzymatische of fysieke actie die indicatief is voor de aanwezigheid of afwezigheid van een bepaalde interessante polynucleotidesequentie. Een voorbeeld van een "reactie" is een amplificatiereactie zoals een polymerasekettingreactie (PCR). Een ander voorbeeld van een "reactie" is een sequencingreactie, hetzij door synthese, ligatie, hybridisatie hetzij door het brengen van DNA door een porie en het meten van signalen die indicatief zijn voor een bepaalde nucleotide. Een "informatieve reactie" is een reactie die wijst op de aanwezigheid van een of meerdere bepaalde interessante polynucleotidesequenties, en in een geval waar slechts één interessante sequentie aanwezig is. De term "putje" zoals hier gebruikt, verwijst naar een reactie op een vooraf bepaalde locatie binnen een beperkte structuur, bijv. een putjesvormig flesje, cel, of kamer in een PCR-array of bijv. de individuele reactievolumes waarin sequencingreacties plaatsvinden (inclusief zogenaamde patroonstroomcellen van Illumina).The term "reaction" as used herein refers to any process comprising a chemical, enzymatic or physical action indicative of the presence or absence of a particular interesting polynucleotide sequence. An example of a "reaction" is an amplification reaction such as a polymerase chain reaction (PCR). Another example of a "reaction" is a sequencing reaction, either by synthesis, ligation, hybridization or by passing DNA through a pore and measuring signals indicative of a particular nucleotide. An "informative response" is a response that indicates the presence of one or more particular interesting polynucleotide sequences, and in a case where only one interesting sequence is present. The term "well" as used herein refers to a response at a predetermined location within a limited structure, e.g., a well-shaped vial, cell, or chamber in a PCR array or e.g. the individual reaction volumes in which sequencing reactions take place (including so-called cartridge flow cells from Illumina).

De term "klinisch relevante nucleïnezuursequentie" of "doelchromosoom of chromosomaal segment" zoals hierin gebruikt, kan verwijzen naar een polynucleotidesequentie overeenkomstig een segment van een grotere genomische sequentie waarvan het potentiële onevenwicht is getest of naar de grotere genomische sequentie zelf. Een voorbeeld is de sequentie van chromosoom 21. Andere voorbeelden omvatten chromosoom 18, 13 X en Y. Nog andere voorbeelden omvatten gemuteerde genetische sequenties of genetische polymorfismen of kopieaantalvariaties (CNV's) die een foetus kan overerven van een of beide van de ouders. Nog andere voorbeelden omvatten sequenties die zijn gemuteerd, gewist of geamplificeerd in een kwaadaardige tumor, bijv. sequenties waarin verlies van heterozygositeit of genduplicatie voorkomt. In sommige uitvoeringsvormen kunnen meerdere klinisch relevante nucleïnezuursequenties, of equivalente meerdere makers van de klinisch relevante nucleïnezuursequenties worden gebruikt voor het bieden van gegevens voor het detecteren van het onevenwicht. Gegevens van vijf niet-opeenvolgende sequenties over chromosoom 21 kunnen bijvoorbeeld op een aanvullende manier worden gebruikt voor de bepaling van mogelijk onevenwicht in chromosoom 21, waardoor de nood aan monstervolume effectief wordt gereduceerd tot 1/5.The term "clinically relevant nucleic acid sequence" or "target chromosome or chromosomal segment" as used herein may refer to a polynucleotide sequence corresponding to a segment of a larger genomic sequence whose potential imbalance has been tested or to the larger genomic sequence itself. An example is the sequence of chromosome 21. Other examples include chromosome 18, 13 X and Y. Still other examples include mutated genetic sequences or genetic polymorphisms or copy number variations (CNVs) that a fetus can inherit from one or both of the parents. Still other examples include sequences that have been mutated, deleted, or amplified in a malignant tumor, e.g., sequences in which loss of heterozygosity or gene duplication occurs. In some embodiments, multiple clinically relevant nucleic acid sequences, or equivalent multiple makers of the clinically relevant nucleic acid sequences, may be used to provide data for detecting the imbalance. For example, data from five non-consecutive sequences on chromosome 21 can be used in an additional way to determine possible imbalance in chromosome 21, effectively reducing the need for sample volume to 1/5.

De term "oververtegenwoordigde nucleïnezuursequentie" zoals hierin gebruikt, verwijst naar de nucleïnezuursequentie van twee interessante sequenties (bijv. een klinisch relevante sequentie en een achtergrondsequentie) die in meer overvloed aanwezig is dan de andere sequentie in een biologisch monster.The term "over-represented nucleic acid sequence" as used herein refers to the nucleic acid sequence of two interesting sequences (e.g., a clinically relevant sequence and a background sequence) that is present in more abundance than the other sequence in a biological sample.

De term "gebaseerd op" zoals hierin gebruikt, betekent "ten minste gedeeltelijk gebaseerd op" en verwijst naar één waarde (of resultaat) die wordt gebruikt bij de bepaling van een andere waarde, zoals plaatsvindt in verband met een ingang van een werkwijze en de uitgang van die werkwijze. De term "afleiden" zoals hierin gebruikt, verwijst naar de relatie van een ingang van een werkwijze en de uitgang van die werkwijze, zoals plaatsvindt wanneer de afleiding de berekening van een formule is.The term "based on" as used herein means "based at least in part" and refers to one value (or result) that is used in determining another value, such as occurs in connection with an input to a method and the output of that method. The term "derivation" as used herein refers to the relationship of an input of a method and the output of that method, as occurs when the derivation is the calculation of a formula.

De term "parameter" verwijst hierin naar een numerieke waarde die een kwantitatieve gegevensreeks en/of een numerieke relatie tussen kwantitatieve gegevensreeksen kenmerkt.The term "parameter" herein refers to a numerical value that characterizes a quantitative data series and / or a numerical relationship between quantitative data series.

De term "score" zoals hierin gebruikt, verwijst naar een numerieke waarde die is verbonden met of is gebaseerd op een specifiek kenmerk, bijv. het aantal aflezingen of aflezingstellingen voor een bepaalde sequentie die aanwezig is in een monster. De term "eerste score" wordt hierin gebruikt om te verwijzen naar een numerieke waarde die is verbonden met het doelchromosoom of chromosomaal segment. Een ander voorbeeld van een score is bijv. een Z-score die kwantificeert hoeveel het aantal aflezingen van een bepaalde sequentie verschilt van het aantal aflezingen die werden verkregen van dezelfde sequentie in een reeks referentiemonsters. Het is welbekend bij een vakman hoe een dergelijke Z-score kan worden berekend.The term "score" as used herein refers to a numerical value associated with or based on a specific characteristic, e.g., the number of readings or reading counts for a particular sequence present in a sample. The term "first score" is used herein to refer to a numerical value associated with the target chromosome or chromosomal segment. Another example of a score is, for example, a Z score that quantifies how much the number of readings of a particular sequence differs from the number of readings obtained from the same sequence in a series of reference samples. It is well known to a person skilled in the art how such a Z-score can be calculated.

De term "drempelwaarde" of "drempel" zoals hierin gebruikt, betekent een numerieke waarde waarvan de waarde wordt gebruikt voor het onderscheiden tussen twee of meer statussen (bijv. zieke en niet-ziekte) van classificatie voor een biologisch monster. Als een parameter bijvoorbeeld groter is dan de drempelwaarde, wordt een eerste classificatie van de kwantitatieve gegevens gemaakt (bijv. ziekte status); of als de parameter lager is dan de drempelwaarde, wordt een andere classificatie van de kwantitatieve gegevens gemaakt (bijv. niet-ziekte status).The term "threshold" or "threshold" as used herein means a numerical value whose value is used to distinguish between two or more statuses (e.g., sick and non-disease) of classification for a biological sample. For example, if a parameter is greater than the threshold value, a first classification of the quantitative data is made (e.g., disease status); or if the parameter is lower than the threshold value, a different classification of the quantitative data is made (e.g., non-disease status).

De term "onevenwicht" zoals hierin gebruikt, betekent elke significante afwijking zoals gedefinieerd door ten minste één drempelwaarde in een hoeveelheid van de klinisch relevante nucleïnezuursequentie van een referentiehoeveelheid. De referentiehoeveelheid zou bijvoorbeeld een verhouding kunnen zijn van 3/5, en een onevenwicht zou dan kunnen plaatsvinden als de gemeten verhouding 1:1 is.The term "imbalance" as used herein means any significant deviation as defined by at least one threshold in an amount of the clinically relevant nucleic acid sequence of a reference amount. For example, the reference amount could be a ratio of 3/5, and an imbalance could then occur if the measured ratio is 1: 1.

De term "willekeurige sequencing" zoals hierin gebruikt, verwijst naar sequencing, waarbij de gesequencete nucleïnezuurfragmenten niet specifiek zijn geïdentificeerd of beoogd vóór de sequencingprocedure. Sequentiespecifieke primers om te richten op specifieke genloci zijn niet vereist. De groepen gesequencete nucleïnezuren variëren van monster tot monster en zelfs van analyse tot analyse voor hetzelfde monster. De identiteiten van de gesequencete nucleïnezuren worden enkel bekendgemaakt van de gegenereerde sequencinguitgang. In sommige uitvoeringsvormen van de onderhavige uitvinding kan de willekeurige sequencing voorafgegaan worden door procedures voor het verrijken van een biologisch monster met bepaalde populaties nucleïnezuurmoleculen die bepaalde gemeenschappelijke kenmerken delen. In een uitvoeringsvorm hebben elk van de DNA-fragmenten in het biologische monster een gelijke kans om gesequencet te worden.The term "random sequencing" as used herein refers to sequencing, wherein the sequenced nucleic acid fragments are not specifically identified or intended before the sequencing procedure. Sequence-specific primers to target specific gene loci are not required. The groups of sequenced nucleic acids vary from sample to sample and even from analysis to analysis for the same sample. The identities of the sequenced nucleic acids are only disclosed from the generated sequencing output. In some embodiments of the present invention, random sequencing can be preceded by procedures for enriching a biological sample with certain populations of nucleic acid molecules that share certain common features. In one embodiment, each of the DNA fragments in the biological sample have an equal chance of being sequenced.

De term "fractie van het humane genoom" of "deel van het humane genoom" zoals hierin gebruikt, verwijst naar minder dan 100% van de nucleotidesequenties in het humane genoom dat zo'n 3 miljard baseparen van nucleotiden omvat. In de context van sequencing verwijst het naar minder dan 1-voudige dekking van de nucleotidesequenties in het humane genoom. De term kan uitgedrukt worden als een percentage of absoluut aantal nucleotiden/baseparen. Als een gebruikersvoorbeeld kan de term worden gebruikt om te verwijzen naar de werkelijke hoeveelheid sequencing dat is uitgevoerd. Uitvoeringsvormen kunnen de vereiste minimale waarde voor de gesequencete fractie van het humane genoom bepalen om een nauwkeurige diagnose te verkrijgen. Als een ander gebruiksvoorbeeld kan de term verwijzen naar de hoeveelheid gesequencete gegevens die zijn gebruikt voor het afleiden van een parameter of hoeveelheid voor de classificatie van ziektes.The term "fraction of the human genome" or "portion of the human genome" as used herein refers to less than 100% of the nucleotide sequences in the human genome comprising about 3 billion base pairs of nucleotides. In the context of sequencing, it refers to less than 1-fold coverage of the nucleotide sequences in the human genome. The term can be expressed as a percentage or absolute number of nucleotides / base pairs. As a user example, the term can be used to refer to the actual amount of sequencing that has been performed. Embodiments can determine the required minimum value for the sequenced fraction of the human genome to obtain an accurate diagnosis. As another use example, the term may refer to the amount of sequenced data used to derive a parameter or amount for the classification of diseases.

De term "samenvattende statistieken" zoals hierin gebruikt, wordt gebruikt als een statistische term, en verwijst naar een indicatie van de omvang van een verdeling van waarden of scores, of een indicatie van de score/waarde aanwezig in het midden van de verdeling. Dit kan bijv. een gemiddelde of mediaan of standaardafwijking (StDev) of mediane absolute afwijking (mad) of gemiddelde absolute afwijking van een verzameling scores zijn.The term "summary statistics" as used herein is used as a statistical term, and refers to an indication of the extent of a distribution of values or scores, or an indication of the score / value present at the center of the distribution. This can be, for example, an average or median or standard deviation (StDev) or median absolute deviation (mad) or average absolute deviation of a set of scores.

De term "foetale fractie" zoals hierin gebruikt, verwijst naar de fractie van foetale nucleïnezuren die aanwezig zijn in een monster omvattende nucleïnezuur van de foetus en van de moeder.The term "fetal fraction" as used herein refers to the fraction of fetal nucleic acids present in a sample comprising fetal and maternal nucleic acid.

De term "kopieaantalvariatie" of "CNV" (copy number variation) verwijst hierin naar variatie in het aantal kopieën van een nucleïnezuursequentie die enkele bp of groter is aanwezig in een testmonster in vergelijking met het kopieaantal van de nucleïnezuursequentie die aanwezig is in een gekwalificeerd monster. Een "kopieaantalvariant" verwijst naar de enkele bp grote of grotere sequentie van nucleïnezuur waarin verschillen in kopieaantallen worden gevonden door vergelijking van een interessante sequentie in het testmonster met deze aanwezig in een gekwalificeerd monster. Kopieaantalvarianten/-variaties omvatten deleties, waaronder microdeleties, inserties, waaronder micro-inserties, duplicaties, multiplicaties. CNV's omvatten chromosomale aneuploïdieën en gedeeltelijke aneuploïdieën.The term "copy number variation" or "CNV" (copy number variation) herein refers to variation in the number of copies of a nucleic acid sequence that is a few bp or larger present in a test sample compared to the copy number of the nucleic acid sequence present in a qualified sample . A "copy number variant" refers to the single bp large or larger nucleic acid sequence in which differences in copy numbers are found by comparing an interesting sequence in the test sample with those present in a qualified sample. Copy number variants / variations include deletions, including microdeletions, insertions, including micro-insertions, duplications, multiplications. CNVs include chromosomal aneuploidies and partial aneuploidies.

De term "aneuploïdie" verwijst hierin naar een onevenwicht van genetisch materiaal veroorzaakt door een verlies of versterking van een volledig chromosoom, of deel van een chromosoom. Aneuploïdie verwijst zowel naar chromosomale als subchromosomale onevenwichten, zoals, maar niet beperkt tot, deleties, microdeleties, inserties, micro-inserties, kopieaantalvariaties, duplicaties. Kopieaantalvariaties kunnen variëren in grootte in het bereik van enkele bp tot meerdere Mb, of in bijzondere gevallen van 1 kb tot meerdere Mb. Grote subchromosomale afwijkingen die zich uitstrekken over tientallen MB's en/of overeenkomen met een significant deel van een chromosoomarm, kunnen ook segmentele aneuploïdieën worden genoemd.The term "aneuploidy" herein refers to an imbalance of genetic material caused by the loss or enhancement of a complete chromosome, or part of a chromosome. Aneuploidy refers to both chromosomal and subchromosomal imbalances, such as, but not limited to, deletions, microdeletions, insertions, micro-insertions, copy number variations, duplications. Copy number variations can vary in size in the range from a few bp to several Mb, or in special cases from 1 kb to several Mb. Large subchromosomal aberrations that extend over dozens of MBs and / or correspond to a significant portion of a chromosome arm can also be called segmental aneuploidies.

De term "chromosomale aneuploïdie" verwijst hierin naar een onevenwicht van genetisch materiaal veroorzaakt door een verlies of versterking van een volledig chromosoom, en omvat kiemlijnaneuploïdie en mozaiëkaneuploïdie.The term "chromosomal aneuploidy" herein refers to an imbalance of genetic material caused by the loss or enhancement of a complete chromosome, and includes germline anuploidy and mosaic anuploidy.

De term "gedeeltelijke aneuploïdie" verwijst hierin naar een onevenwicht van genetisch materiaal veroorzaakt door een verlies of versterking van een deel van een chromosoom bijv. gedeeltelijke monosomie en gedeeltelijke trisomie, en omvat onevenwichten die het resultaat zijn van translocaties, deleties en inserties.The term "partial aneuploidy" herein refers to an imbalance of genetic material caused by a loss or enhancement of a portion of a chromosome, e.g., partial monosomy and partial trisomy, and includes imbalances resulting from translocations, deletions, and insertions.

De term "polymorfisme, polymorf doelnucleïnezuur", "polymorfe sequentie", "polymorfe doelnucleïnezuursequentie" en "polymorf nucleïnezuur" worden onderling verwisselbaar gebruikt om te verwijzen naar een nucleïnezuursequentie die een of meerdere polymorfe plaatsen bevat.The term "polymorphism, polymorphic target nucleic acid", "polymorphic sequence", "polymorphic target nucleic acid sequence" and "polymorphic nucleic acid" are used interchangeably to refer to a nucleic acid sequence containing one or more polymorphic sites.

De term "polymorfe plaats" verwijst hierin naar een enkel-nucleotidepolymorfisme (SNP, single nucleotide polymorfismen), een kleinschalige multi-basis deletie of insertie, een Multi-Nucleotide Polymorfisme (MNP) of een Korte Tandemherhaling (STR, short tandem repeats) of een CNV (kopieaantalvariatie).The term "polymorphic site" herein refers to a single nucleotide polymorphism (SNP, a single nucleotide polymorphism), a small-scale multi-base deletion or insertion, a Multi-Nucleotide Polymorphism (MNP) or a Short Tandem Repeat (STR, short tandem repeats) or a CNV (copy number variation).

De term "meerdere" wordt hierin gebruikt met verwijzing naar een aantal nucleïnezuurmoleculen of sequentietags of aflezingen dat voldoende is voor het identificeren van significante verschillen in kopieaantalvariaties (bijv. chromosoomdoses) in testmonster en gekwalificeerde monsters met behulp van de werkwijzen volgens de uitvinding. In sommige uitvoeringsvormen worden ten minste ongeveer 3xlOE6 sequentietags, ten minste ongeveer 5xlOE6 sequentietags, ten minste ongeveer 8xlOE6 sequentietags, ten minste ongeveer 10xl0E6 sequentietags, ten minste ongeveer 15xlOE6 sequentietags, ten minste ongeveer 20xl0E6 sequentietags, ten minste ongeveer 30xl0E6 sequentietags, ten minste ongeveer 40xl0E6 sequentietags, of ten minste ongeveer 50xl0E6 sequentietags verkregen voor elk testmonster. Elke sequentietag kan een enkele-sequentie aflezing zijn van 20 tot 400 bp, of een koppel van 2 sequentieaflezingen met gepaard uiteinde van elk 20 tot 400 bp.The term "multiple" is used herein with reference to a number of nucleic acid molecules or sequence tags or readings sufficient to identify significant differences in copy number variations (e.g., chromosome doses) in test sample and qualified samples using the methods of the invention. In some embodiments, at least about 3x106 sequence tags, at least about 5x10E6 sequence tags, at least about 8x10E6 sequence tags, at least about 10x10E6 sequence tags, at least about 15x10E6 sequence tags, at least about 20x10E6 sequence tags, at least about 30x100E6 at least 6x10E0E6 sequence tags sequence tags, or at least about 50x10E6 sequence tags obtained for each test sample. Each sequence tag can be a single sequence reading from 20 to 400 bp, or a pair of 2 sequence readings with a paired end of each 20 to 400 bp.

De termen "polynucleotide", "nucleïnezuur" en "nucleïnezuurmoleculen" worden onderling verwisselbaar gebruikt en verwijzen naar een covalente-gebonden sequentie van nucleotiden (d.w.z. ribonucleotiden voor RNA en deoxyribonucleotiden voor DNA) waarin de 3'-positie van de pentose van één nucleotide wordt gebonden door een fosfodi-estergroep aan de 5'-positie van de pentose van de volgende, sequenties omvatten in eender welke vorm van nucleïnezuur, maar niet beperkt tot RNA- en DNA-moleculen. De term "polynucleotide" omvat, maar is niet beperkt tot, enkel- en dubbelstrengige polynucleotide.The terms "polynucleotide", "nucleic acid" and "nucleic acid molecules" are used interchangeably and refer to a covalent-linked sequence of nucleotides (ie ribonucleotides for RNA and deoxyribonucleotides for DNA) in which the 3 'position of the pentose of one nucleotide is bound by a phosphodiester group to the 5 'position of the pentose of the following, include sequences in any form of nucleic acid, but not limited to RNA and DNA molecules. The term "polynucleotide" includes, but is not limited to, single and double stranded polynucleotide.

De term "deel", wanneer gebruikt met verwijzing naar de hoeveelheid sequentie-informatie van nucleïnezuurmoleculen van de foetus en de moeder in een biologisch monster, verwijst hierin naar de hoeveelheid sequentie-informatie van nucleïnezuurmoleculen van de foetus of de moeder in een biologisch monster die samen in aantal lager zijn dan de sequentie-informatie van <1 humaan genoom.The term "portion," when used with reference to the amount of sequence information of fetal and parent nucleic acid molecules in a biological sample, herein refers to the amount of sequence information of fetal or parent nucleic acid molecules in a biological sample that together are lower in number than the sequence information of <1 human genome.

De term "testmonster" verwijst hierin naar een monster omvattende een mengsel van nucleïnezuren omvattende ten minste één nucleïnezuursequentie waarvan vermoed wordt dat het kopieaantal variatie ondergaan heeft of ten minste één nucleïnezuursequentie waarvoor het wenselijk is te bepalen of er een kopieaantalvariatie bestaat. Nucleïnezuren die aanwezig zijn in een testmonster worden testnucleïnezuren genoemd, of doelnucleïnezuren of doelchromosomen of chromosomale doelsegmenten.The term "test sample" herein refers to a sample comprising a mixture of nucleic acids comprising at least one nucleic acid sequence suspected of having undergone copy number variation or at least one nucleic acid sequence for which it is desirable to determine whether a copy number variation exists. Nucleic acids present in a test sample are called test nucleic acids, or target nucleic acids or target chromosomes or target chromosomal segments.

De term "referentiemonster" verwijst hierin naar een monster omvattende een mengsel van nucleïnezuren waarvoor de sequencinggegevens worden gebruikt samen met de sequencinggegevens van het testmonster voor het berekenen van scores en parameters zoals beschreven in conclusie 1. Hoewel het niet noodzakelijk is, is een referentiemonster bij voorkeur normaal (d.w.z. niet aneuploïde) voor de interessante sequentie. Een referentiemonster is dus bij voorkeur een gekwalificeerd monster dat geen trisomie 21 draagt en dat kan worden gebruikt voor het identificeren van de aanwezigheid van een trisomie 21 in een testmonster.The term "reference sample" herein refers to a sample comprising a mixture of nucleic acids for which the sequencing data is used together with the sequencing data of the test sample for calculating scores and parameters as described in claim 1. Although it is not necessary, a reference sample is at preferably normal (ie not aneuploid) for the sequence of interest. Thus, a reference sample is preferably a qualified sample that does not carry a trisomy 21 and that can be used to identify the presence of a trisomy 21 in a test sample.

De term "referentiereeks" omvat meerdere "referentiemonsters".The term "reference set" includes several "reference samples".

De term "verrijken" verwijst hierin naar het proces van het in het bijzonder amplificeren van bepaalde doelnucleïnezuren die zijn opgenomen in een deel van een monster van de moeder. Het geamplificeerde product wordt dan vaak gecombineerd met de rest van het monster van de moeder waaruit het deel verwijderd was.The term "enrichment" herein refers to the process of specifically amplifying certain target nucleic acids contained in a portion of a sample from the mother. The amplified product is then often combined with the remainder of the sample from the mother from which the portion was removed.

De term "interessante sequentie" verwijst hierin naar een nucleïnezuursequentie die is geassocieerd met een verschil in sequentievoorstelling in gezonde versus zieke personen. Een interessante sequentie kan een sequentie op een chromosoom zijn dat verkeerd is voorgesteld d.w.z. over- of ondervertegenwoordigd, in een ziekte of genetische aandoening. Een interessante sequentie kan ook een deel van een chromosoom, of een chromosoom zijn. Een interessante sequentie kan bijvoorbeeld een chromosoom zijn dat oververtegenwoordigd is in een aneuploïdie-aandoening. Interessante sequenties omvatten sequenties die over- of ondervertegenwoordigd zijn in de totale populatie, of een subpopulatie van cellen van een patiënt.The term "interesting sequence" herein refers to a nucleic acid sequence that is associated with a difference in sequence representation in healthy versus diseased individuals. An interesting sequence may be a sequence on a chromosome that is misrepresented, i.e., over- or under-represented, in a disease or genetic disorder. An interesting sequence can also be a part of a chromosome, or a chromosome. For example, an interesting sequence may be a chromosome that is overrepresented in an aneuploidy disorder. Interesting sequences include sequences that are over- or under-represented in the total population, or a sub-population of cells from a patient.

De term "groep chromosomen" verwijst hierin naar twee of meer chromosomen. De term "verzameling" verwijst naar een reeks chromosomen of chromosomale segmenten, maar kan ook verwijzen naar een reeks waarden of scores die zijn afgeleid van een overeenkomstige reeks chromosomen of chromosomale segmenten.The term "group of chromosomes" herein refers to two or more chromosomes. The term "set" refers to a set of chromosomes or chromosomal segments, but can also refer to a set of values or scores derived from a corresponding set of chromosomes or chromosomal segments.

De term "aflezing" verwijst naar een experimenteel verkregen DNA-sequentie die voldoende lang is (bijv. ten minste ongeveer 20 bp) die kan worden gebruikt voor het identificeren van een grotere sequentie of gebied, bijv. die kan worden uitgelijnd en in het bijzonder toegewezen aan een chromosoomlocatie of genomisch gebied of gen. De termen "aflezing" en "sequenties" kunnen onderling verwisselbaar worden gebruikt in de kladversie.The term "reading" refers to an experimentally obtained DNA sequence that is sufficiently long (e.g., at least about 20 bp) that can be used to identify a larger sequence or region, e.g., that can be aligned and in particular assigned to a chromosome location or genomic region or gene. The terms "reading" and "sequences" can be used interchangeably in the draft version.

De term "aflezingstelling" verwijst naar het aantal aflezingen die zijn opgehaald uit een monster die zijn toegewezen aan een referentiegenoom of een deel van het genoemde referentiegenoom (bin).The term "reading theorem" refers to the number of readings retrieved from a sample assigned to a reference genome or part of said reference genome (bin).

De term "stuk" (bin) van een genoom moet worden begrepen als een segment van het genoom. Een genoom kan in verschillende stukken worden onderverdeeld, met hetzij een vaste hetzij een vooraf bepaalde grootte of een variabele grootte. Een mogelijke vaste stukgrootte kan bijv. 10 kB, 20 kB, 30 kB, 40 kB, 50 kB, 60 kB, 70 kB, enz. zijn, waarbij kB staat voor kilobaseparen, een eenheid die overeenkomt met 1000 baseparen.The term "piece" (bin) of a genome is to be understood as a segment of the genome. A genome can be subdivided into different pieces, with either a fixed or a predetermined size or a variable size. A possible fixed piece size can be, for example, 10 kB, 20 kB, 30 kB, 40 kB, 50 kB, 60 kB, 70 kB, etc., where kB stands for kilobase pairs, a unit corresponding to 1000 base pairs.

De term "venster" moet worden begrepen als meerdere stukken.The term "window" is to be understood as multiple pieces.

De termen "uitgelijnd", "uitlijning", "toegewezen" of "uitlijning", "toewijzing" verwijst naar een of meerdere sequenties die zijn geïdentificeerd als een match in termen van de volgorde van hun nucleïnezuurmoleculen met een gekende sequentie van een referentiegenoom. Een dergelijke uitlijning kan manueel of door een computeralgoritme worden gedaan, waarvoor voorbeelden onder andere het Efficient Local Alignment of Nucleotide Data (ELAND) computerprogramma zijn verdeeld als deel van de Illumina Genomics Analysts-pijpleiding. De overeenstemming van een sequentieaflezing bij de uitlijning kan een sequentiematch van 100% of minder dan 100% zijn (niet-perfecte match).The terms "aligned", "alignment", "assigned" or "alignment", "assignment" refers to one or more sequences identified as a match in terms of the order of their nucleic acid molecules with a known sequence of a reference genome. Such alignment can be done manually or by a computer algorithm, examples of which include the Efficient Local Alignment or Nucleotide Data (ELAND) computer program as part of the Illumina Genomics Analysts pipeline. The correspondence of a sequence reading in the alignment may be a sequence match of 100% or less than 100% (non-perfect match).

De term "referentiegenoom" zoals hierin gebruikt, verwijst naar een digitale nucleïnezuursequentiegegevensbank, samengesteld als een representatief voorbeeld van een soort' DNA. Aangezien het wordt samengesteld uit de sequencing van DNA van meerdere, stelt een referentiegenoom niet nauwkeurig het DNA van een enkele persoon voor. Het wordt gebruikt om de toewijzing van sequencingaflezingen van een monster aan specifieke chromosomale posities toe te laten.The term "reference genome" as used herein refers to a digital nucleic acid sequence database, assembled as a representative example of a kind of DNA. Since it is assembled from the sequencing of multiple DNA, a reference genome does not accurately represent the DNA of a single person. It is used to allow the assignment of sequencing readings from a sample to specific chromosomal positions.

De term "klinisch relevante sequentie" verwijst hierin naar een nucleïnezuursequentie die welbekend is en waarvan vermoed wordt dat deze is geassocieerd of betrokken met een genetische of ziekteaandoening. Het bepalen van de afwezigheid of aanwezigheid van een klinisch relevante sequentie kan nuttig zijn bij de bepaling van een diagnose of het bevestigen van een diagnose van een medische aandoening, of het stellen van een prognose voor de ontwikkeling van een ziekte.The term "clinically relevant sequence" herein refers to a nucleic acid sequence that is well known and suspected of being associated or associated with a genetic or disease condition. Determining the absence or presence of a clinically relevant sequence may be useful in determining a diagnosis or confirming a diagnosis of a medical condition, or making a prognosis for the development of a disease.

De term "afgeleid" wanneer gebruikt in de context van een nucleïnezuur of een mengsel van nucleïnezuren, verwijst hierin naar de middelen waardoor het of de nucleïnezuren worden verkregen uit de bron waaruit ze afkomstig zijn. In één uitvoeringsvorm betekent een mengsel van nucleïnezuren dat is afgeleid van twee verschillende genomen bijvoorbeeld dat de nucleïnezuren, bijv. celvrij DNA, natuurlijk werden afgegeven door cellen door natuurlijk voorkomende processen zoals nécrosé of apoptose, of door lyse van de cellen omwille van onjuiste opslag- of transportomstandigheden.The term "derived" when used in the context of a nucleic acid or a mixture of nucleic acids, refers herein to the means by which it or the nucleic acids are obtained from the source from which they originate. In one embodiment, a mixture of nucleic acids derived from two different genomes means, for example, that the nucleic acids, e.g., cell-free DNA, were naturally released by cells by naturally occurring processes such as necrosis or apoptosis, or by lysis of the cells due to improper storage. or transportation conditions.

De term "monster van de moeder" verwijst hierin naar een biologisch monster dat is verkregen uit een zwangere patiënte, bijv. een vrouw.The term "mother sample" herein refers to a biological sample obtained from a pregnant patient, e.g., a woman.

De term "biologisch fluïdum" verwijst hierin naar een vloeistof die is genomen uit een biologische bron en omvat, bijvoorbeeld, bloed, serum, plasma, sputum, wasfluïdum, cerebrospinaal fluïdum, urine, sperma, zweet, tranen, speeksel, blastocoelfluïdum en dergelijke. Het verwijst ook naar het medium waarin biologische monsters kunnen worden gekweekt, zoals in vitro kweekmedium waarin cellen, weefsel of embryo kunnen worden gekweekt. Zoals hierin gebruikt, omvatten de termen "bloed", "plasma" en "serum" fracties of verwerkte delen daarvan. Wanneer een monster uit een biopsie, uitstrijkje, smeer, enz. wordt genomen, omvat het "monster" zo ook uitdrukkelijk een verwerkte fractie of deel afgeleid van de biopsie, het uitstrijkje, smeer, enz.The term "biological fluid" herein refers to a fluid taken from a biological source and includes, for example, blood, serum, plasma, sputum, wash fluid, cerebrospinal fluid, urine, sperm, sweat, tears, saliva, blastocoel fluid, and the like. It also refers to the medium in which biological samples can be grown, such as in vitro culture medium in which cells, tissue or embryo can be grown. As used herein, the terms "blood", "plasma" and "serum" include fractions or processed portions thereof. Similarly, when a sample is taken from a biopsy, smear, smear, etc., the "sample" explicitly includes a processed fraction or portion derived from the biopsy, smear, smear, etc.

De termen "nucleïnezuren van de moeder" en "nucleïnezuren van de foetus" verwijzen hierin naar respectievelijk de nucleïnezuren van een zwangere vrouwelijke patiënt en de nucleïnezuren van de foetus die wordt gedragen door de zwangere vrouw. Zoals hiervoor uitgelegd, worden "nucleïnezuren van de foetus" en "nucleïnezuren van de placenta" vaak gebruikt om te verwijzen naar hetzelfde type nucleïnezuren, hoewel er biologische verschillen kunnen bestaan tussen de twee types nucleïnezuren.The terms "mother nucleic acids" and "fetus nucleic acids" herein refer to the nucleic acids of a pregnant female patient and the nucleic acids of the fetus carried by the pregnant woman, respectively. As explained above, "fetal nucleic acids" and "placenta nucleic acids" are often used to refer to the same type of nucleic acids, although there may be biological differences between the two types of nucleic acids.

De term "overeenkomstig" verwijst hierin naar een nucleïnezuursequentie, bijv. een gen of een chromosoom, dat aanwezig is in het genoom van verschillende patiënten, en dat niet noodzakelijk dezelfde sequentie heeft in alle genomen, maar dient voor het bieden van de identiteit eerder dan de genetische informatie van een interessante sequentie, bijv. een gen of chromosoom.The term "corresponding" herein refers to a nucleic acid sequence, e.g., a gene or a chromosome, that is present in the genome of different patients, and that does not necessarily have the same sequence in all genomes, but serves to provide identity rather than the genetic information of an interesting sequence, e.g. a gene or chromosome.

De term "in hoofdzaak celvrij" verwijst hierin naar bereidingen van het gewenste monster waaruit componenten die normaal daarmee zijn geassocieerd, zijn verwijderd. Een plasmamonster kan bijvoorbeeld in hoofdzaak celvrij gemaakt worden door het verwijderen van bloedcellen bijv. witte bloedcellen, die normaal daarmee zijn geassocieerd. In sommige uitvoeringsvormen worden in hoofdzaak vrije monsters verwerkt voor het verwijderen van cellen die anders zouden bijdragen tot het genetische materiaal dat moet worden getest op een aneuploïdie.The term "substantially cell-free" herein refers to preparations of the desired sample from which components that are normally associated with them have been removed. For example, a plasma sample can be made substantially cell-free by removing blood cells, e.g., white blood cells, which are normally associated with it. In some embodiments, essentially free samples are processed to remove cells that would otherwise contribute to the genetic material to be tested for aneuploidy.

Zoals hierin gebruikt, verwijst de term "chromosoom" naar de erfelijke gendrager van een levende cel die is afgeleid van chromatine en die DNA en proteïnecom pon enten (in het bijzonder histonen) omvat. Het conventioneel internationaal erkende individuele humane genoomchromosoomnummeringssysteem wordt hierin gebruikt. De term "chromosomale segmenten" moet worden begrepen als een deel van een chromosoom. De genoemde segmenten kunnen naar een stuk, venster of specifiek gebied binnen een chromosoom verwijzen, bijv. waarvan gekend is dat het bijvoorbeeld deleties of inserties of kopieaantalvariaties omvat.As used herein, the term "chromosome" refers to the hereditary gene carrier of a living cell derived from chromatin and comprising DNA and protein components (in particular histones). The conventionally internationally recognized individual human genome chromosome numbering system is used herein. The term "chromosomal segments" is to be understood as a part of a chromosome. Said segments may refer to a part, window, or specific region within a chromosome, e.g., known to include, for example, deletions or insertions or copy number variations.

Zoals hierin gebruikt, verwijst de term "polynucleotidelengte" naar het absolute aantal nucleïnezuurmoleculen (nucleotiden) in een sequentie of in een gebied van een referentiegenoom. De term "chromosoomlengte" verwijst naar de gekende lengte van het chromosoom gegeven in baseparen.As used herein, the term "polynucleotide length" refers to the absolute number of nucleic acid molecules (nucleotides) in a sequence or in a region of a reference genome. The term "chromosome length" refers to the known length of the chromosome given in base pairs.

De term "patiënt" verwijst hierin naar een humane patiënt evenals een niet-humane patiënt zoals een zoogdier, een ongewerveld dier, een schimmel, een gist, een bacterie en een virus. Hoewel de voorbeelden hier betrekking hebben op humane genomen en de beschrijving hoofdzakelijk is gericht op mensen, is het concept van de onderhavige uitvinding van toepassing op genomen van eender welke plant of dier, en kan het worden gebruikt in het gebied van de dierengeneeskunde, dierenwetenschappen, onderzoekslaboratoria en dergelijke.The term "patient" herein refers to a human patient as well as a non-human patient such as a mammal, an invertebrate animal, a fungus, a yeast, a bacterium and a virus. Although the examples herein refer to human genomes and the description is primarily directed to humans, the concept of the present invention applies to genomes of any plant or animal, and can be used in the field of veterinary medicine, animal sciences, research laboratories and the like.

De term "conditie" verwijst hier naar "medische conditie" als een brede term die alle ziektes en aandoeningen omvat, maar die letsels en normale gezonde situaties kan omvatten, zoals zwangerschap, die een invloed kunnen hebben op de gezondheid van een persoon, voordeel uit medische hulp of implicaties hebben voor medische behandelingen.The term "condition" here refers to "medical condition" as a broad term that covers all diseases and conditions, but which may include injuries and normal healthy situations, such as pregnancy, which may affect a person's health, benefit from have medical assistance or implications for medical treatments.

De term "attribuut" moet worden begrepen als een eigenschap of waarde van een object of element. Dit kan bijv. een bepaalde correctiefactor zijn die wordt gebruikt voor het corrigeren van de aflezingstelling voor een bepaald polymorfisme. Een attribuut kan experimenteel worden gedefinieerd met behulp van een reeks monsters.The term "attribute" is to be understood as a property or value of an object or element. This can be, for example, a certain correction factor that is used to correct the reading theorem for a particular polymorphism. An attribute can be defined experimentally using a series of samples.

GEDETAILLEERDE BESCHRIJVINGDETAILED DESCRIPTION

De uitvinding heeft betrekking op een werkwijze voor het bepalen van de aan-of afwezigheid van een foetale chromosomale aneuploïdie bij een zwangere vrouw. Deze bepaling kan worden uitgevoerd door de berekening van een parameter die is verbonden met chromosomale gegevens die zijn verkregen uit een biologisch monster. Ook wordt een door de computer leesbaar medium voorzien dat is gecodeerd met meerdere instructies voor het sturen van een computersysteem voor het uitvoeren van de werkwijzen.The invention relates to a method for determining the presence or absence of a fetal chromosomal aneuploidy in a pregnant woman. This determination can be performed by calculating a parameter associated with chromosomal data obtained from a biological sample. A computer-readable medium is also provided which is coded with multiple instructions for controlling a computer system for performing the methods.

In een tweede aspect beschrijft de onderhavige uitvinding een methodologie voor de bepaling van de foetale fractie in een monster. De werkwijze laat in het bijzonder de bepaling van de fractie celvrij DNA (cfDNA) toe die wordt bijdragen door een foetus aan het mengsel van foetaal en moederlijk cfDNA in een monster van de moeder, bijv. een plasmamonster. In een voorkeur dragende uitvoeringsvorm laat de onderhavige uitvinding zowel de bepaling van de aan-of afwezigheid van een foetale chromosomale aneuploïdie bij een zwangere vrouw als de bepaling van de foetale fractie toe, onafhankelijk van het geslacht van de foetus.In a second aspect, the present invention describes a methodology for determining the fetal fraction in a sample. In particular, the method allows the determination of the fraction of cell-free DNA (cfDNA) that is contributed by a fetus to the mixture of fetal and maternal cfDNA in a sample from the mother, e.g., a plasma sample. In a preferred embodiment, the present invention permits both the determination of the presence or absence of a fetal chromosomal aneuploidy in a pregnant woman and the determination of the fetal fraction independently of the gender of the fetus.

In één aspect worden aflezingstellingen bepaald op basis van de sequencing van nucleïnezuurmoleculen in een monster van de moeder, zoals urine, plasma, serum, blastocoel fluïdum en andere geschikte biologische monsters. Nucleïnezuurmoleculen van het biologische monster zijn willekeurig gesequencet, zodat een fractie van het genoom wordt gesequencet. Eén of meerdere drempelwaarden worden gekozen voor het bepalen of er een verandering is vergeleken met een referentiehoeveelheid (d.w.z. onevenwicht), bijvoorbeeld met betrekking tot de verhouding van hoeveelheden van twee chromosomale gebieden (of reeksen van gebieden).In one aspect, reading counts are determined based on the sequencing of nucleic acid molecules in a sample from the mother, such as urine, plasma, serum, blastocoel fluid, and other suitable biological samples. Nucleic acid molecules from the biological sample are randomly sequenced so that a fraction of the genome is sequenced. One or more threshold values are selected to determine whether there is a change compared to a reference amount (i.e., imbalance), for example, with respect to the ratio of amounts of two chromosomal regions (or arrays of regions).

De gedetecteerde verandering in de referentiehoeveelheid kan eender welke afwijking (op- of neerwaarts) zijn met betrekking tot de klinisch relevante nucleïnezuursequentie of het doelchromosoom of chromosomaal segment ten opzichte van de andere niet-klinisch relevante sequenties. De referentiestatus kan dus een verhouding of andere hoeveelheid (bijv. ander dan een 1-1-overeenkomst) zijn, en de gemeten status die wijst op een verandering kan een verhouding of andere hoeveelheid zijn die verschilt van de referentiehoeveelheid zoals bepaald door een of meerdere drempelwaarden.The detected change in the reference amount can be any deviation (up or down) with respect to the clinically relevant nucleic acid sequence or the target chromosome or chromosomal segment relative to the other non-clinically relevant sequences. Thus, the reference status can be a ratio or other amount (e.g., other than a 1-1 match), and the measured status indicating a change can be a ratio or other amount that differs from the reference amount as determined by one or more thresholds.

Het klinisch relevante chromosomale gebied (ook een klinisch relevante nucleïnezuursequentie of doelchromosoom of chromosomaal segment genoemd) en de achtergrondnucleïnezuursequentie kunnen van een eerste type cellen of van een of meerdere tweede types cellen afkomstig zijn. Foetale nucleïnezuursequenties die afkomstig zijn van cellen van de foetus/placenta kunnen bijvoorbeeld aanwezig zijn in een biologisch monster, zoals plasma van de moeder, die een achtergrond van nucleïnezuursequenties van de moeder bevat die afkomstig zijn van cellen van de moeder. Merk op dat het percentage van de foetale sequenties in een monster kan worden bepaald door enige van de foetus afgeleide loei en niet beperkt is tot het meten van de klinisch relevante nucleïnezuursequenties. 1. Algemene methode voor het evalueren van een aneuploïdie De onderhavige uitvinding beschrijft een methodologie voor het detecteren van de aan- of afwezigheid van een foetale chromosomale aneuploïdie en/of de bepaling van de foetale fractie die aanwezig is in een biologisch monster.The clinically relevant chromosomal region (also referred to as a clinically relevant nucleic acid sequence or target chromosome or chromosomal segment) and the background nucleic acid sequence may be from a first type of cells or from one or more second types of cells. For example, fetal nucleic acid sequences from cells of the fetus / placenta may be present in a biological sample, such as maternal plasma, which contains a background of maternal nucleic acid sequences from maternal cells. Note that the percentage of fetal sequences in a sample can be determined by any fetus derived loci and is not limited to measuring the clinically relevant nucleic acid sequences. 1. General method for evaluating an aneuploidy The present invention describes a methodology for detecting the presence or absence of a fetal chromosomal aneuploidy and / or the determination of the fetal fraction present in a biological sample.

In een eerste aspect is de werkwijze voor het detecteren van de aan- of afwezigheid van een foetale chromosomale aneuploïdie gebaseerd op de bepaling van een parameter uit de nucleïnezuurinhoud van een biologisch monster. Het biologische monster kan plasma, urine, serum, blastocoel fluïdum of enig ander geschikt monster zijn. Het monster bevat nucleïnezuurmoleculen van de foetus en de zwangere vrouw. De nucleïnezuurmoleculen kunnen bijvoorbeeld fragmenten van chromosomen zijn.In a first aspect, the method for detecting the presence or absence of a fetal chromosomal aneuploidy is based on the determination of a parameter from the nucleic acid content of a biological sample. The biological sample can be plasma, urine, serum, blastocoel fluid or any other suitable sample. The sample contains nucleic acid molecules from the fetus and the pregnant woman. The nucleic acid molecules can be, for example, fragments of chromosomes.

Ten minste een deel van meerdere van de nucleïnezuurmoleculen opgenomen in het biologische monster wordt willekeurig gesequencet voor het verkrijgen van een aantal sequenties. Het gesequencete deel stelt een fractie van het humane genoom voor en kan worden geïsoleerd uit het monster door middel van conventionele middelen (bijv. celvrije DNA-extractie en bereiding van een NGS-bibliotheek). In één uitvoeringsvorm zijn de nucleïnezuurmoleculen fragmenten van respectievelijke chromosomen. Eén uiteinde (bijv. 50 baseparen (bp)), beide uiteinden, of het volledige fragment kunnen gesequencet zijn. Een subreeks van de nucleïnezuurmoleculen in het monster kan gesequencet zijn, en deze subreeks wordt willekeurig gekozen, zoals hieronder meer in detail zal worden beschreven.At least a portion of a plurality of the nucleic acid molecules included in the biological sample is randomly sequenced to obtain a plurality of sequences. The sequenced portion represents a fraction of the human genome and can be isolated from the sample by conventional means (e.g., cell-free DNA extraction and preparation of an NGS library). In one embodiment, the nucleic acid molecules are fragments of respective chromosomes. One end (e.g., 50 base pairs (bp)), both ends, or the entire fragment can be sequenced. A subset of the nucleic acid molecules in the sample can be sequenced, and this subset is randomly selected, as will be described in more detail below.

In één uitvoeringsvorm gebeurt de willekeurige sequencing met behulp van massief parallelle sequencing. Massief parallelle sequencing, zoals deze bereikt op de HiSeq2000, HiSeq2500, HiSeq3000, HiSeq4000, HiSeq X, MiSeq, MiSeqDx, NextSeq500, NextSeq550 flowcell, het 454 platform (Roche), Illumina Genome Analyzer (or Solexa platform) of SOLiD System (Applied Biosystems) of PGM of Proton platform (IonTorrent) of GeneRead (Qiagen) of de Helicos True Single Molecule DNA-sequencingtechnologie, de enkele molecule, real-time (SMRT™) technologie van Pacific Biosciences, en nanopore sequencing zoals in MinlON, PromethION, GridlON (Oxford Nanopore technologies), laten de sequencing toe van veel nucleïnezuurmoleculen die op een parallelle manier zijn geïsoleerd uit een specimen bij hogere ordes van multiplexing. Elk van deze platforms sequencet klonaal geëxpandeerd of zelfs niet-geamplificeerde enkele moleculen van nucleïnezuurfragmenten. Klonale expansie kan worden verkregen door brugamplificatie, emulsie-PCR of Wildfire-technologie.In one embodiment, the random sequencing is done using solid parallel sequencing. Solid parallel sequencing, such as this achieved on the HiSeq2000, HiSeq2500, HiSeq3000, HiSeq4000, HiSeq X, MiSeq, MiSeqDx, NextSeq500, NextSeq550 flowcell, the 454 platform (Roche), Illumina Genome Analyzer (or SoleiDysystem) (App SoleiDysystem) ) or PGM or Proton platform (IonTorrent) or GeneRead (Qiagen) or the Helicos True Single Molecule DNA sequencing technology, the single molecule, real-time (SMRT ™) technology from Pacific Biosciences, and nanopore sequencing as in MinlON, PromethION, GridlON (Oxford Nanopore technologies), allow the sequencing of many nucleic acid molecules isolated in parallel from a specimen at higher orders of multiplexing. Each of these platforms sequencially clonally expanded or even non-amplified single molecules of nucleic acid fragments. Clonal expansion can be achieved by bridge amplification, emulsion PCR or Wildfire technology.

Aangezien een groot aantal sequencingaflezingen, in de grootorde van honderdduizenden tot miljoenen of zelfs mogelijk honderd miljoen of miljarden, worden gegenereerd uit elk monster in elke run, vormen de resulterende gesequencete aflezingen een representatief profiel van de mix van nucleïnezuurspecies in het originele specimen. Het (De?) halotype, transcriptoom en methylatieprofielen van de gesequencete aflezingen lijken bijvoorbeeld op deze van het originele specimen. Omwille van de grote bemonstering van sequenties uit elk specimen, is het aantal identieke sequenties, zoals deze gegenereerd uit de sequencing van een nucleïnezuurgroep op verschillende veelvouden van dekking of hoge redundantie, ook een goede kwantitatieve voorstelling van de telling van een bepaalde nucleïnezuurspecies of locus in het oorspronkelijke monster.Since a large number of sequencing readings, in the order of hundreds of thousands to millions or even possibly one hundred million or billions, are generated from each sample in each run, the resulting sequenced readings form a representative profile of the mix of nucleic acid species in the original specimen. For example, the (De?) Halotype, transcriptome and methylation profiles of the sequenced readings resemble those of the original specimen. Because of the large sampling of sequences from each specimen, the number of identical sequences, such as those generated from the sequencing of a nucleic acid group at different multiples of coverage or high redundancy, is also a good quantitative representation of the count of a particular nucleic acid species or locus in the original sample.

Op basis van de sequencing (bijv. gegevens uit de sequencing) wordt een eerste score van een doelchromosoom of chromosomaal segment (bijv. het klinisch relevante chromosoom) bepaald. De eerst score wordt bepaald op basis van sequenties die zijn geïdentificeerd als afkomstig uit (d.w.z. alignerend met) het doelchromosoom of chromosomaal segment. Een bio-informatieprocedure kan dan bijvoorbeeld worden gebruikt om elk van deze DNA-sequenties voor het humaan genoom of een referentiegenoom te lokaliseren. Het is mogelijk dat een deel van dergelijke sequenties zal worden verwijderd uit latere analyse omdat ze aanwezig zijn in de herhalingsgebieden van het humane genoom, of in gebieden die worden onderworpen aan interindividuele variaties, bijv. kopienummervariaties. Een score van het doelchromosoom of chromosomaal segment en van een of meerdere andere chromosomen kan aldus worden bepaald.Based on the sequencing (e.g., data from the sequencing), a first score of a target chromosome or chromosomal segment (e.g., the clinically relevant chromosome) is determined. The first score is determined based on sequences identified as coming from (i.e., aligning with) the target chromosome or chromosomal segment. A bio-information procedure can then be used, for example, to locate any of these DNA sequences for the human genome or a reference genome. It is possible that some of such sequences will be removed from later analysis because they are present in the repeat regions of the human genome, or in regions that are subjected to inter-individual variations, e.g., copy number variations. A score of the target chromosome or chromosomal segment and of one or more other chromosomes can thus be determined.

Op basis van de sequencing wordt een verzameling van scores van een of meerdere chromosomen of chromosomale segmenten bepaald van sequenties die zijn geïdentificeerd als afkomstig uit (d.w.z. alignerend met) een reeks van een of meerdere chromosomen. In één uitvoeringsvorm bevat de genoemde reeks alle andere chromosomen naast de eerste (d.w.z. de eerste die is getest). In een andere uitvoeringsvorm bevat de genoemde reeks een enkel ander chromosoom. In een meest voorkeurdragende uitvoeringsvorm bevat de genoemde reeks chromosomen of chromosomale segmenten en omvat het het doelchromosoom of chromosomaal segment.Based on the sequencing, a set of scores from one or more chromosomes or chromosomal segments is determined from sequences identified as coming from (i.e., aligning with) a series of one or more chromosomes. In one embodiment, said set contains all other chromosomes in addition to the first (i.e., the first tested). In another embodiment, said set contains a single different chromosome. In a most preferred embodiment, said set contains chromosomes or chromosomal segments and comprises the target chromosome or chromosomal segment.

Er zijn een aantal manieren om een score te bepalen. De genoemde score is bij voorkeur gebaseerd op de aflezingstellingen die zijn verkregen uit sequencing. De genoemde aflezingstellingen kunnen het tellen omvatten van het aantal gesequencete aflezingen, het aantal gesequencete nucleotiden (baseparen) of de geaccumuleerde lengtes van gesequencete nucleotiden (baseparen) afkomstig uit een bepaald chromoso(o)m(en) of chromosomale segmenten zoals stukken of vensters of klinisch relevante chromosoomdelen.There are a number of ways to determine a score. Said score is preferably based on the reading counts obtained from sequencing. Said reading counts may include counting the number of sequenced readings, the number of sequenced nucleotides (base pairs) or the accumulated lengths of sequenced nucleotides (base pairs) originating from a particular chromosome (s) or chromosomal segments such as pieces or windows or clinically relevant chromosome parts.

Regels kunnen worden opgelegd op de resultaten van de sequencing om te bepalen wat wordt geteld. In één aspect kan een aflezingstelling worden verkregen op basis van een deel van de gesequencete output. Sequencingoutput overeenkomstig nucleïnezuurfragmenten met een gespecificeerd groottebereik zou bijvoorbeeld kunnen worden geselecteerd.Rules can be imposed on the results of the sequencing to determine what is counted. In one aspect, a reading theorem can be obtained based on a part of the sequenced output. For example, sequencing output corresponding to nucleic acid fragments with a specified size range could be selected.

In één uitvoeringsvorm is de genoemde score de onbewerkte aflezingstelling vooreen bepaald chromosoom of chromosomaal segment.In one embodiment, said score is the raw reading count for a particular chromosome or chromosomal segment.

In een voorkeurdragende uitvoeringsvorm worden de genoemde aflezingstellingen onderworpen aan wiskundige functies of bewerkingen om de genoemde score van de genoemde aflezingstelling af te leiden. Dergelijke bewerkingen zijn, onder andere, maar zijn niet beperkt tot, statistische bewerkingen, regressiemodellen, standaard berekeningen (optellen, aftrekken, vermenigvuldigen en delen), waarbij de genoemde standaardberekeningen bij voorkeur zijn gebaseerd op een of meerdere verkregen aflezingstellingen.In a preferred embodiment, said reading counts are subjected to mathematical functions or operations to derive said score from said reading count. Such operations include, but are not limited to, statistical operations, regression models, standard calculations (addition, subtraction, multiplication, and division), said standard calculations preferably being based on one or more reading counts obtained.

In een voorkeurdragende uitvoeringsvorm is de genoemde eerste score een genormaliseerde waarde die is afgeleid van de aflezingstellingen of wiskundig gewijzigde aflezingstellingen. In een andere voorkeurdragende uitvoeringsvorm is de genoemde score een Z-score of standaard score met betrekking tot de aflezingstellingen van een bepaald chromosoom, chromosomaal segment of de wiskundig gewijzigde tellingen daarvan, waarbij de Z-score kwantificeert hoeveel het aantal aflezingen van een bepaalde sequentie verschilt van het aantal aflezingen die zijn verkregen uit dezelfde sequentie in een reeks referentiemonsters. Het is welbekend bij een vakman hoe een dergelijke Z-score kan worden berekend.In a preferred embodiment, said first score is a normalized value derived from the reading counts or mathematically modified reading counts. In another preferred embodiment, said score is a Z score or standard score with respect to the reading counts of a particular chromosome, chromosomal segment or the mathematically modified counts thereof, the Z score quantifying how much the number of readings of a given sequence differs of the number of readings obtained from the same sequence in a series of reference samples. It is well known to a person skilled in the art how such a Z-score can be calculated.

In een voorkeurdragende uitvoeringsvorm wordt een parameter bepaald op basis van een eerste score (overeenkomstig het doelchromosoom of chromosomaal segment) en een verzameling van scores. De parameter stelt bij voorkeur een relatieve score voor tussen de eerste score en een samenvattende statistieke van de verzameling van scores. De parameter kan, bijvoorbeeld, een eenvoudige verhouding voorstellen van de eerste score ten opzichte van een samenvattende statistiek van de verzameling van scores. In één aspect zou elke score een argument van een functie of afzonderlijke functies kunnen zijn, waarbij een verhouding dan kan worden genomen van deze afzonderlijke functies.In a preferred embodiment, a parameter is determined based on a first score (corresponding to the target chromosome or chromosomal segment) and a set of scores. The parameter preferably represents a relative score between the first score and a summary statistical of the set of scores. The parameter may, for example, represent a simple ratio of the first score to a summary statistic of the set of scores. In one aspect, each score could be an argument of a function or individual functions, whereby a ratio can then be taken of these individual functions.

In een voorkeurdragende uitvoeringsvorm kan de parameter worden verkregen door een verhouding tussen: - een eerste functie waarbij de eerste score en de verzameling van scores de argumenten zijn; - een tweede functie waarbij de verzameling van scores het argument is.In a preferred embodiment, the parameter can be obtained by a ratio between: - a first function where the first score and the set of scores are the arguments; - a second function where the set of scores is the argument.

In een voorkeurdragende uitvoeringsvorm is de genoemde eerste functie gedefinieerd als een verschil, bij voorkeur het verschil tussen de eerste score en een samenvattende statistiek van de verzameling van scores, waarbij de genoemde samenvattende statistiek bij voorkeur is geselecteerd uit het gemiddelde, de mediaan, de standaardafwijking of mediane absolute afwijking (mad) of gemiddelde absolute afwijking.In a preferred embodiment, said first function is defined as a difference, preferably the difference between the first score and a summary statistic of the set of scores, said summary statistic preferably being selected from the mean, the median, the standard deviation or median absolute deviation (mad) or average absolute deviation.

In een andere voorkeurdragende uitvoeringsvorm is de genoemde tweede functie gedefinieerd als een variabiliteitsamenvattende statistiek van de verzameling van scores, waarbij de genoemde samenvattende statistiek bij voorkeur is geselecteerd uit het gemiddelde, de mediaan, de standaardafwijking of mediane absolute afwijking (mad) of gemiddelde absolute afwijking.In another preferred embodiment, said second function is defined as a variability summary statistic of the set of scores, said summary statistic preferably being selected from the mean, median, standard deviation or median absolute deviation (mad) or average absolute deviation .

Een geschikte uitvoeringsvorm volgens de onderhavige uitvinding omvat gewoonlijk de volgende stappen (na DNA-sequenties uit een willekeurige, lage-dekking sequencingproces op een biologisch monster te hebben verkregen). - het aligneren van sequenties met een referentiegenoom; - het verkrijgen van de aflezingstellingen per chromosoom of chromosomaal segment; - het normaliseren van het aantal aflezingen of een afgeleide daarvan naar een genormaliseerd aantal aflezingen; - het verkrijgen van een eerste score die is afgeleid van het genoemde genormaliseerde aantal aflezingen en een verzameling van scores afgeleid van de genoemde genormaliseerde aflezingstellingen voor een doelchromosoom of chromosomaal segment, en waarbij de genoemde verzameling van scores een reeks scores is die zijn afgeleid van het genormaliseerde aantal aflezingen die waren verkregen uit een reeks chromosomen of chromosoomsegmenten die het chromosomaal doelsegment of chromosoom omvatten; - het berekenen van een parameter van de genoemde scores, waarbij de genoemde parameter een verhouding voorstelt tussen de genoemde eerste score en een samenvattende statistiek van de genoemde verzameling scores, waarbij de eerste functie van de genoemde verhouding wordt gedefinieerd als een verschil tussen de eerste score en een samenvattende statistiek van de genoemde verzameling scores; en waarbij de tweede functie van de genoemde verhouding wordt gedefinieerd als een samenvattende statistiek van de genoemde verzameling scores.A suitable embodiment of the present invention usually comprises the following steps (after obtaining DNA sequences from a random, low-coverage sequencing process on a biological sample). - aligning sequences with a reference genome; - obtaining the reading counts per chromosome or chromosomal segment; - normalizing the number of readings or a derivative thereof to a normalized number of readings; - obtaining a first score derived from said normalized number of readings and a set of scores derived from said normalized reading counts for a target chromosome or chromosomal segment, and wherein said set of scores is a set of scores derived from the normalized number of readings obtained from a series of chromosomes or chromosome segments comprising the chromosomal target segment or chromosome; - calculating a parameter of said scores, wherein said parameter represents a ratio between said first score and a summary statistic of said set of scores, the first function of said ratio being defined as a difference between the first score and a summary statistic of said set of scores; and wherein the second function of said ratio is defined as a summary statistic of said set of scores.

De genoemde sequenties worden bij voorkeur verkregen door lage-dekking sequencing.Said sequences are preferably obtained by low-coverage sequencing.

De genoemde normalisatie vindt bij voorkeur plaats op basis van een reeks referentiemonsters, waarbij de genoemde referentiemonsters bij voorkeur, maar niet noodzakelijk, euploïde of in hoofdzaak euploïde zijn voor het chromosoom of chromosomaal segment dat overeenkomt met het doelchromosoom of chromosomaal segment (d.w.z. het grootste deel van het chromosoom of chromosomaal segment in de referentiemonsters die overeenkomen met het doelchromosoom of chromosomaal segment in het testmonster zijn euploïde). Dergelijke referentiereeks heeft verschillende monstergroottes. Een mogelijke monstergrootte kan bijv. 100 monsters zijn, zoals 50 mannelijke en 50 vrouwelijke monsters. Het zal duidelijk zijn voor een vakman dat de referentiereeks vrij kan worden gekozen door de gebruiker.Said normalization preferably takes place on the basis of a series of reference samples, said reference samples preferably being, but not necessarily, euploid or substantially euploid for the chromosome or chromosomal segment corresponding to the target chromosome or chromosomal segment (ie, the major part of the chromosome or chromosomal segment in the reference samples corresponding to the target chromosome or chromosomal segment in the test sample are euploid). Such a reference series has different sample sizes. A possible sample size can be, for example, 100 samples, such as 50 male and 50 female samples. It will be clear to a person skilled in the art that the reference series can be freely chosen by the user.

Het genoemde aantal aflezingen is bij voorkeur opnieuw gekalibreerd om te corrigeren voor GC-inhoud en/of totaal aantal aflezingen verkregen uit het genoemde monster.Said number of readings is preferably recalibrated to correct for GC content and / or total number of readings obtained from said sample.

Door rekening te houden met een reeks scores afgeleid van aflezingen van chromosomen of chromosomale segmenten die het doelchromosoom of chromosomale segment bevatten, kan een gevoeligere en betrouwbaardere parameter worden verkregen in vergelijking met werkwijzen volgens de stand der techniek. Anders dan in de werkwijzen die bekend zijn in de stand der techniek moet er geen veronderstelling worden gedaan over de ploïdiestatus van enige van de chromosomen in het testmonster. Door een parameter volgens de onderhavige uitvinding te definiëren is de parameter voor het chromosoom of gebied dat moet worden geanalyseerd namelijk duidelijk (d.w.z. is het sterk toegenomen/afgenomen) en verdwijnt het niet in de ruis (d.w.z. slechts matig of niet toegenomen/afgenomen). Voor de screening is gevoeligheid bovendien essentieel, aangezien het belangrijk is een betrouwbaar en te vertrouwen resultaat te hebben, waarbij het aantal valse negatieven wordt geminimaliseerd. Voor de screening kan het namelijk belangrijker zijn hoge superioriteit te hebben vergeleken met specificiteit.By taking into account a series of scores derived from readings from chromosomes or chromosomal segments that contain the target chromosome or chromosomal segment, a more sensitive and reliable parameter can be obtained in comparison with prior art methods. Unlike the methods known in the art, no assumption has to be made about the ploidy status of any of the chromosomes in the test sample. Namely, by defining a parameter according to the present invention, the parameter for the chromosome or region to be analyzed is clear (i.e., it is greatly increased / decreased) and does not disappear in the noise (i.e., only moderately or not increased / decreased). Sensitivity is also essential for screening, since it is important to have a reliable and reliable result, minimizing the number of false negatives. For screening it can be more important to have high superiority compared to specificity.

De parameter volgens de onderhavige uitvinding laat robuuste detectie en automatische classificatie van chromosomen toe, zelfs in gegevens met ruis. Door rekening te houden met een verzameling van chromosomen of segmenten, inclusief het doelchromosoom of segment, d.w.z. het merendeel van informatie die aanwezig is in de gegevensreeks, wordt het merendeel van de beschikbare informatie gebruikt, waardoor een adequatere analyse wordt verkregen. Als men bijv. chromosoom 1 (het grootse chromosoom, 7,9% van het genoom) zou verwijderen, zou een grote hoeveelheid gegevens worden verwijderd waarmee geen rekening wordt gehouden, hetgeen een verstoring in de analyse zou veroorzaken.The parameter according to the present invention allows robust detection and automatic classification of chromosomes, even in data with noise. By taking into account a set of chromosomes or segments, including the target chromosome or segment, i.e., the majority of information present in the data set, the majority of the available information is used, resulting in a more adequate analysis. If, for example, chromosome 1 (the largest chromosome, 7.9% of the genome) were to be deleted, a large amount of data would be deleted which would not be taken into account, which would cause a disruption in the analysis.

De onderhavige uitvinding is in het bijzonder erg nuttig in situaties waarin een laag aantal aflezingen of gegevens met ruis wordt verkregen. De uitvinders hebben gevonden dat de parameter volgens de onderhavige uitvinding, in de laatste situaties, superieur was vergeleken met andere methodologieën.The present invention is particularly useful in situations where a low number of readings or data with noise is obtained. The inventors have found that, in the latter situations, the parameter of the present invention was superior to other methodologies.

In een voorkeurdragende uitvoeringsvorm worden de genoemde scores verkregen op basis van de genomische voorstelling van het doelchromosoom of chromosomaal segment (of een gebied daarvan) en de genomische voorstelling van alle autosomen of chromosomen, waardoor het doelchromosoom of chromosomaal segment opgenomen is.In a preferred embodiment, said scores are obtained based on the genomic representation of the target chromosome or chromosomal segment (or a region thereof) and the genomic representation of all autosomes or chromosomes, thereby recording the target chromosome or chromosomal segment.

De parameter wordt vergeleken met een of meerdere drempelwaarden. De drempelwaarden kunnen worden bepaald op enig aantal geschikte manieren. Dergelijke manieren zijn onder andere waarschijnlijkheidsmethode van het Bayesiaanse type, sequentiële waarschijnlijkheidstest (SPRT, sequential proability ratio testing), ontdekking van valse resultaten, betrouwbaarheidsinterval, door de ontvanger bediend kenmerk (ROC, receiver operating characteristic). In een meer voorkeur dragende uitvoeringsvorm is de genoemde drempelwaarde gebaseerd op statistische overwegingen of wordt het empirisch bepaald door het testen van biologische monsters. De drempelwaarde kan worden gevalideerd door middel van testgegevens of een validatiereeks en kan, indien nodig, worden gewijzigd telkens meer gegevens beschikbaar zijn.The parameter is compared with one or more threshold values. The threshold values can be determined in any number of suitable ways. Such ways include Bayesian-type probability method, sequential probability test (SPRT), discovery of false results, confidence interval, receiver-operated characteristic (ROC, receiver operating characteristic). In a more preferred embodiment, said threshold value is based on statistical considerations or is determined empirically by testing biological samples. The threshold value can be validated by means of test data or a validation series and, if necessary, can be changed whenever more data is available.

Het is mogelijk dat in sommige varianten van de procedure, de drempelwaarde zou worden aangepast in overeenstemming met informatie over de fractie van het celvrije foetale DNA in het monster van het plasma van de moeder (ook foetale fractie genoemd of afgekort ff of f). In een andere uitvoeringsvorm kan de genoemde foetale fractie dienen als een interne controle van de kwaliteit van het monster. De waarde van f kan op verschillende manieren worden bepaald op basis van de sequencinggegevensreeks (afhankelijk van het geslacht van de foetus, of onafhankelijk van het geslacht van de foetus), zoals hieronder verder zal worden uitgelegd.It is possible that in some variants of the procedure, the threshold value would be adjusted in accordance with information on the cell-free fetal DNA fraction in the mother's plasma sample (also called fetal fraction or abbreviated ff or f). In another embodiment, said fetal fraction can serve as an internal control of the quality of the sample. The value of f can be determined in various ways based on the sequencing data set (depending on the gender of the fetus, or independently of the gender of the fetus), as will be further explained below.

Op basis van de vergelijking wordt een classificatie bepaald of er een foetale chromosomale aneuploïdie bestaat voor het doelchromosoom of chromosomaal deel. In een uitvoeringsvorm is de classificatie een definitieve ja of nee. In een andere uitvoeringsvorm kan de classificatie niet classificeerbaar zijn of onzeker. In nog een andere uitvoeringsvorm kan de classificatie een risicoscore zijn die moet worden geïnterpreteerd op een latere datum, bijvoorbeeld, door een arts.Based on the comparison, a classification is determined as to whether there is a fetal chromosomal aneuploidy for the target chromosome or chromosomal part. In one embodiment, the classification is a definitive yes or no. In another embodiment, the classification may not be classifiable or uncertain. In yet another embodiment, the classification may be a risk score to be interpreted at a later date, for example, by a physician.

In een verder voorkeurdragende uitvoeringsvorm worden secundaire parameters van de aflezingstellingen berekend, die dienen als een aanvullende interne controle voor de bruikbaarheid van de parameter, de omvang van de aneuploïdie (indien geïdentificeerd) en/of een indicatie voor de betrouwbaarheid van de parameter, het biologische monster of de sequenties die zijn verkregen daarvan en bijgevolg de uiteindelijke beoordeling. De waarde voor de genoemde secundaire parameters kan bijv. een maatstaf of vereiste zijn van de aanwezigheid van de genoemde aneuploïdie en/of een meting van de kwaliteit van het monster.In a further preferred embodiment, secondary parameters of the reading counts are calculated, which serve as an additional internal check for the usability of the parameter, the extent of the aneuploidy (if identified) and / or an indication for the reliability of the parameter, the biological sample or the sequences obtained therefrom and therefore the final assessment. The value for said secondary parameters can be, for example, a measure or requirement of the presence of said aneuploidy and / or a measurement of the quality of the sample.

In één uitvoeringsvorm wordt de genoemde secundaire parameter berekend als de mediaan van de Z-verdeling van de aflezingstellingen of een afgeleide daarvan, voor een doelchromosoom of chromosomaal doelsegment gemeten per stuk of een verzameling stukken (d.w.z. vensters). De laatste secundaire parameters laten beoordeling toe als het merendeel (meer dan 50%) van de vensters in een chromosoom is toegenomen of afgenomen. Het laatste laat de detectie van chromosomale en grote subchromosomale aneuploïdeën toe. Wanneer minder dan 50% van de vensters getroffen wordt, zullen de secundaire parameters niet beïnvloed worden (bijv. kleinere CNV's).In one embodiment, said secondary parameter is calculated as the median of the Z distribution of the reading counts or a derivative thereof, for a target chromosome or chromosomal target segment measured per piece or a set of pieces (i.e., windows). The last secondary parameters allow assessment if the majority (more than 50%) of the windows in a chromosome have increased or decreased. The latter allows the detection of chromosomal and large subchromosomal aneuploids. If less than 50% of the windows are affected, the secondary parameters will not be affected (eg smaller CNVs).

In een andere uitvoeringsvorm kunnen de genoemde secundaire parameters worden berekend als de mediaan van de absolute waarde van de Z-scores voor de aflezingstellingen of een afgeleide daarvan, van de resterende chromosomen (dat is een verzameling van chromosomen of segmenten die het doelchromosoom of chromosomaal segment uitsluiten).In another embodiment, said secondary parameters can be calculated as the median of the absolute value of the Z-scores for the reading counts or a derivative thereof, of the remaining chromosomes (that is a collection of chromosomes or segments representing the target chromosome or chromosomal segment exclude).

De laatste secundaire parameters laten de detectie toe van o.a. de aanwezigheid van technische of biologische instabiliteiten en het onderscheiden daarvan van CNV's van de moeder. Als minder dan de vensters van de andere van alle chromosomen getroffen worden, zal deze secundaire parameters niet beïnvloed worden. Als meer dan 50% van de vensters getroffen wordt, zal dit kunnen worden afgeleid van de genoemde secundaire parameters.The latter secondary parameters allow the detection of, inter alia, the presence of technical or biological instabilities and the distinguishing thereof from CNVs of the mother. If fewer than the windows of the other of all chromosomes are affected, these secondary parameters will not be affected. If more than 50% of the windows are affected, this can be deduced from the aforementioned secondary parameters.

In een andere uitvoeringsvorm biedt de onderhavige uitvinding ook een kwaliteitsscore (QS). QS laat toe de algemene variatie binnen het genoom te beoordelen. Een lage QS is een indicatie van een goede monsterverwerking en een laag niveau van technische en biologische ruis. Een stijging in de QS kan twee mogelijke redenen hebben. Hetzij een fout die is opgetreden tijdens de verwerking van het monster. In het algemeen zal aan de gebruiker worden gevraagd een nieuw biologisch staal af te nemen en te testen. Dit is typisch voor matig gestegen QS-scores. Een sterk gestegen QS zou een indicatie kunnen zijn van een sterk aneuploïde monster en de gebruiker zal worden aangemoedigd een bevestigende test te doen. De genoemde QS wordt bij voorkeur bepaald door het berekenen van de standaardafwijkingen van alle Z-scores voor chromosomen of chromosomale segmenten en optioneel door het verwijderen van de uitschieters daarvan (d.w.z. de hoogste en laagste Z-scores in deze verzameling).In another embodiment, the present invention also provides a quality score (QS). QS makes it possible to assess the general variation within the genome. A low QS is an indication of good sample processing and a low level of technical and biological noise. An increase in the QS can have two possible reasons. Either an error occurred during the processing of the sample. In general, the user will be asked to take and test a new biological sample. This is typical of moderately increased QS scores. A greatly increased QS could be an indication of a strong aneuploid sample and the user will be encouraged to do a confirmatory test. Said QS is preferably determined by calculating the standard deviations of all Z scores for chromosomes or chromosomal segments and optionally by removing the outliers thereof (i.e. the highest and lowest Z scores in this set).

Als een alternatieve of aanvullende uitvoeringsvorm dient de bepaling van de foetale fractie (zie hieronder) ook als een interne kwaliteitscontrole van het monster en de daarvan verkregen sequenties. De kwaliteit van een monster kan verstoord worden na ophaling, bijv. door ongeschikte omstandigheden tijdens de verzameling, het transport of de opslag. Dit laatste kan een effect hebben op het celvrije DNA in het monster, bijvoorbeeld omwille van breuk van (moederlijke) witte bloedcellen. Bijgevolg zal de hoofdgroep van vrijzwevend DNA meer verrijkt worden voor moederlijk DNA, waardoor het percentage van de foetale fractie in vergelijking met het totale celvrije DNA-gehalte in het monster zal dalen. De genoemde foetale fractie zal bij voorkeur worden bepaald door ten minste een van de hieronder beschreven werkwijzen.As an alternative or additional embodiment, the determination of the fetal fraction (see below) also serves as an internal quality check of the sample and the sequences obtained therefrom. The quality of a sample can be disturbed after collection, for example due to unsuitable circumstances during collection, transport or storage. The latter can have an effect on the cell-free DNA in the sample, for example due to rupture of (maternal) white blood cells. Consequently, the main group of free-floating DNA will be more enriched for maternal DNA, thereby reducing the percentage of the fetal fraction compared to the total cell-free DNA content in the sample. Said fetal fraction will preferably be determined by at least one of the methods described below.

In een uitvoeringsvorm van de onderhavige uitvinding zal de parameter voldoende zijn om een onderscheid te maken tussen de aanwezigheid en/of afwezigheid van een aneuploïdie. In een meer voorkeurdragende uitvoeringsvorm van de onderhavige uitvinding zullen zowel de parameter als de secundaire parameters worden gebruikt om een beslissing te nemen met betrekking tot de aanwezigheid of afwezigheid van een aneuploïdie. Ook de genoemde secundaire parameters zullen bij voorkeur vergeleken worden met vooraf gedefinieerde drempelwaarden.In an embodiment of the present invention, the parameter will be sufficient to distinguish between the presence and / or absence of an aneuploidy. In a more preferred embodiment of the present invention, both the parameter and the secondary parameters will be used to make a decision regarding the presence or absence of an aneuploidy. The said secondary parameters will also preferably be compared with predefined threshold values.

De methodologie volgens de onderhavige uitvinding is bij voorkeur in het bijzonder geschikt voor het analyseren van aneuploïdieën verbonden met segmenten of deleties gegeven in Tabel 1 die een niet-limitatieve lijst van chromosoomafwijkingen bevat die mogelijk kunnen worden geïdentificeerd door de werkwijzen en kits die hier beschreven zijn. In een andere of verdere uitvoeringsvorm is het genoemde chromosomale doelsegment geselecteerd uit een stuk of een venster afgeleid van chromosoom X, Y, 6, 7, 8, 13, 14, 15, 16, 18, 21 en/of 22.The methodology of the present invention is preferably particularly suitable for analyzing aneuploidies associated with segments or deletions given in Table 1 that contains a non-exhaustive list of chromosome aberrations that may be identified by the methods and kits described herein . In another or further embodiment, said chromosomal target segment is selected from a piece or window derived from chromosome X, Y, 6, 7, 8, 13, 14, 15, 16, 18, 21 and / or 22.

In een verdere of andere uitvoeringsvorm is het genoemde chromosoom geselecteerd uit chromosoom X, Y, 6, 7, 8, 13, 14, 15, 16, 18, 21 en/of 22.In a further or different embodiment, said chromosome is selected from chromosome X, Y, 6, 7, 8, 13, 14, 15, 16, 18, 21 and / or 22.

Tabel 1Table 1

II Seauencina. uitliinina en correctieII Seauencina. uitliinina and correction

Zoals hierboven vermeld, wordt slechts een fractie van het genoom gesequencet. In één aspect, zelfs wanneer een groep nucleïnezuren in een specimen gesequencet is bij <100% genomische dekking in plaats van met verscheidende veelvouden van dekking, en uit de verhouding van gesequencete nucleïnezuurmoleculen, wordt het meeste van elk nucleïnezuurspecies niet gesequencet of slechts éénmaal gesequencet.As mentioned above, only a fraction of the genome is sequenced. In one aspect, even when a group of nucleic acids in a specimen is sequenced at <100% genomic coverage rather than with multiple multiples of coverage, and from the ratio of sequenced nucleic acid molecules, most of each nucleic acid species is not sequenced or only sequenced once.

Dit staat in contrast met situaties waarin gerichte verrijking wordt uitgevoerd van een subreeks van het genoom voorafgaand aan de sequencingreactie, gevolgd door hoge-dekking sequencing van die subreeks.This contrasts with situations where targeted enrichment is performed on a subset of the genome prior to the sequencing reaction, followed by high-coverage sequencing of that subset.

In één uitvoeringsvorm worden de genoemde sequenties verkregen door sequencing van de volgende generatie. In een andere voorkeurdragende uitvoeringsvorm is de genoemde sequencingwerkwijze een lage-dekking, willekeurige sequencingwerkwijze.In one embodiment, said sequences are obtained by next generation sequencing. In another preferred embodiment, said sequencing method is a low-coverage, random sequencing method.

In één uitvoeringsvorm wordt massieve parallelle korte-aflezing sequencing gebruikt. Korte sequentietags of aflezingen worden gegenereerd, bijv. uit een bepaalde lengte tussen 20 bp en 400 bp. Sequencing met gepaard uiteinde zou ook kunnen worden uitgevoerd.In one embodiment, massive parallel short reading sequencing is used. Short sequence tags or readings are generated, e.g. from a certain length between 20 bp and 400 bp. Paired end sequencing could also be performed.

In één uitvoeringsvorm is een voorverwerkingsstap beschikbaar voor het vooraf verwerken van de verkregen aflezingen. Dergelijke voorafgaande verwerkingsoptie laat filtering toe van aflezingen met een lage kwaliteit, waardoor voorkomen wordt dat ze worden toegewezen. Toewijzing van aflezingen met een lage kwaliteit kan langdurige computerverwerkingscapaciteit vereisen, kan onjuist zijn en 'heeft als risiko dat de technische ruis in de gegevens verhoogt, waardoor een minder nauwkeurige parameter wordt verkregen. Dergelijke voorafgaande verwerking is in het bijzonder waardvol wanneer sequencinggegevens van de volgende generatie worden gebruikt, die een algemene lagere kwaliteit of enige andere omstandigheid hebben die is gekoppeld met een algemene lagere kwaliteit van de aflezingen.In one embodiment, a pre-processing step is available for pre-processing the obtained readings. Such prior processing option allows filtering of low quality readings, thereby preventing them from being assigned. Assignment of low-quality readings may require lengthy computer processing capacity, may be incorrect, and has the risk of increasing the technical noise in the data, resulting in a less accurate parameter. Such prior processing is particularly valuable when next-generation sequencing data is used that has a generally lower quality or any other condition associated with a generally lower quality of the readings.

De gegenereerde aflezingen kunnen later worden uitgelijnd met een of meerdere humane referentiegenoomsequenties. Het aantal uitgelijnde aflezingen worden bij voorkeur geteld en/of gesorteerd volgens de chromosomale locatie ervan.The generated readings can be later aligned with one or more human reference genome sequences. The number of aligned readings are preferably counted and / or sorted according to their chromosomal location.

Een aanvullende reinigingsprotocol kan worden uitgevoerd, waarbij deduplicatie wordt uitgevoerd, bijv. met Picard-instrumenten, waarbij enkel uniek toegewezen aflezingen worden weerhouden. Aflezingen met mismatches en leemtes kunnen worden verwijderd. Aflezingen die de gebieden op de zwarte lijst indelen, kunnen worden uitgesloten. Dergelijke gebieden op de zwarte lijst kunnen worden genomen uit een vooraf gedefinieerde lijst van bijv. gewone CNV's, collapsed repeats, DAC zwarte-lijst gebieden zoals geïdentificeerd in het ENCODE-project (d.w.z. een reeks gebieden in het humane genoom dat afwijkende, ongestructureerde, hoog-signaal/aflezingstellingen heeft in NGS-experimenten onafhankelijk van cellijn en type experiment) en de ongedefinieerde delen van het referentiegenoom. In één uitvoeringsvorm zijn gebieden op de zwarte lijst gegeven aan de gebruiker. In een andere uitvoeringsvorm kan de gebruiker zijn of haar eigen reeks gebieden op de zwarte lijst gebruiken of definiëren.An additional cleaning protocol can be performed, whereby deduplication is performed, e.g. with Picard instruments, where only uniquely assigned readings are retained. Readings with mismatches and gaps can be removed. Readings that divide the blacklisted areas can be excluded. Such blacklisted areas can be taken from a predefined list of, for example, common CNVs, collapsed repeats, DAC blacklisted areas as identified in the ENCODE project (ie a set of areas in the human genome that have abnormal, unstructured, high has signal / reading counts in NGS experiments independent of cell line and type of experiment) and the undefined parts of the reference genome. In one embodiment, areas on the blacklist are given to the user. In another embodiment, the user can use or define his or her own set of areas on the blacklist.

In een andere uitvoeringsvorm zijn chromosomen onderverdeeld in gebieden met een vooraf gedefinieerde lengte, in het algemeen stukken genoemd. In een uitvoeringsvorm is de stukgrootte een vooraf gedefinieerde grootte die is gegeven aan de gebruiker. In een andere uitvoeringsvorm kan de genoemde stukgrootte gedefinieerd zijn door een gebruiker, kan het uniform zijn voor alle chromosomen, kan het een specifieke stukgrootte per chromosoom zijn of kan het variëren volgens de verkregen sequentiegegevens. Verandering van de stukgrootte kan een effect hebben op de uiteindelijke parameter die moet worden gedefinieerd, hetzij door het verbeteren van de gevoeligheid (gewoonlijk verkregen door het verlagen van de stukgrootte, vaak ten koste van de specificiteit) hetzij door het verbeteren van de specificiteit (in het algemeen door het verhogen van de stukgrootte, vaak ten koste van de gevoeligheid). Een mogelijke stukgrootte die een aanvaardbare specificiteit en gevoeligheid oplevert, is 50 kb.In another embodiment, chromosomes are subdivided into regions with a predefined length, generally referred to as pieces. In one embodiment, the piece size is a predefined size given to the user. In another embodiment, said piece size may be defined by a user, it may be uniform for all chromosomes, it may be a specific piece size per chromosome, or it may vary according to the obtained sequence data. Changing the piece size can have an effect on the final parameter to be defined, either by improving the sensitivity (usually obtained by reducing the piece size, often at the expense of specificity) or by improving specificity (in generally by increasing the piece size, often at the expense of sensitivity). A possible piece size that provides acceptable specificity and sensitivity is 50 kb.

In een verdere stap worden de uitgelijnde en gefilterde aflezingen binnen een stuk geteld, om aflezingstellingen te verkrijgen.In a further step, the aligned and filtered readings are counted within one piece to obtain reading counts.

De verkregen aflezingstellingen kunnen worden gecorrigeerd voor de GC-telling voor het stuk. Van GC-voorspanning is gekend dat het genoomassemblage verergert. Verscheidende GC-correcties zijn welbekend in de stand der techniek (bijv. Benjamini et al., Nucleic Acid Research 2012). In een voorkeurdragende uitvoeringsvorm zal de genoemde GC-correctie een LOESS-regressie zijn. In een uitvoeringsvorm kan een gebruiker van de methodologie volgens de onderhavige uitvinding voorzien zijn van de keuze van verscheidene mogelijke GC-correcties.The obtained reading counts can be corrected for the GC count for the piece. GC bias is known to exacerbate genome assembly. Various GC corrections are well known in the art (e.g., Benjamini et al., Nucleic Acid Research 2012). In a preferred embodiment, said GC correction will be a LOESS regression. In one embodiment, a user of the methodology of the present invention may be provided with the choice of various possible GC corrections.

In een latere stap wordt de genomische voorstelling (GR, genomic représentation) van aflezingstellingen berekend. Dergelijke voorstelling wordt bij voorkeur gedefinieerd als een verhouding tussen de GC-gecorrigeerde aflezingstellingen voor een specifiek stuk en de som van alle GC-gecorrigeerde aflezingstellingen.In a later step, the genomic representation (GR, genomic reproduction) of reading counts is calculated. Such representation is preferably defined as a ratio between the GC-corrected reading counts for a specific piece and the sum of all GC-corrected reading counts.

In een uitvoeringsvorm wordt de genoemde GR als volgt gedefinieerd:In one embodiment, said GR is defined as follows:

met k over alle chromosomale stukken.with k over all chromosomal pieces.

De factor 107 (of 10E7) in de bovenstaande formule is willekeurig gedefinieerd, en kan eender welke constante waarde zijn.The factor 107 (or 10E7) in the above formula is arbitrarily defined, and can be any constant value.

In een uiteindelijke stap worden de verkregen GC per stuk samengevoegd over een gebied, waarbij het genoemde gebied een subgebied (venster) van een chromosoom of het volledige chromosoom kan zijn. Het genoemde venster kan een vooraf gedefinieerd of variabele grootte hebben, die optioneel kan zijn gekozen door de gebruiker. Een mogelijk venster zou een grootte kunnen hebben van 5 MB of 100 aangrenzende stukken met een grootte van 50 kb.In a final step, the obtained GC are joined piece by piece over an area, said area being a sub-area (window) of a chromosome or the entire chromosome. Said window may have a predefined or variable size, which may be optionally selected by the user. A possible window could have a size of 5 MB or 100 adjacent pieces with a size of 50 kb.

De GR samengevoegd voor een chromosoom kan worden gedefinieerd doorThe GR pooled for a chromosome can be defined by

In een andere uitvoeringsvorm moet de genomische voorstelling van een reeks referentiemonsters berekend worden. De genoemde reeks referentiemonsters (of ook referentiereeks genoemd) kan vooraf gedefinieerd of gekozen zijn door een gebruiker (bijv. geselecteerd uit zijn/haar eigen referentiemonsters). Door de gebruiker toe te laten een eigen referentiereeks te gebruiken, zal een gebruiker de terugkerende technische variatie van zijn/haar omgeving en de variabelen ervan (bijv. verschillende natte labreagentia of protocol, verschillend NGS-instrument of platform, enz.) beter kunnen vastleggen. In een voorkeurdragende uitvoeringsvorm omvat de genoemde referentiereeks genomische informatie van 'gezonde' monsters waarvan verwacht wordt of waarvan bekend is dat ze (relevante) aneuploïdieën bevatten. De genomische voorstelling (GR) van de referentiereeks kan worden gedefinieerd, hetzij op het niveau van het genoom en/of op een subgebied (chromosoom, chromosomaal segment, venster of bin).In another embodiment, the genomic representation of a series of reference samples must be calculated. Said set of reference samples (or also referred to as reference series) can be predefined or selected by a user (e.g. selected from his / her own reference samples). By allowing the user to use his own reference set, a user will be able to better capture the recurring technical variation of his / her environment and its variables (eg different wet lab reagents or protocol, different NGS instrument or platform, etc.) . In a preferred embodiment, said reference set comprises genomic information of 'healthy' samples that are expected or known to contain (relevant) aneuploidies. The genomic representation (GR) of the reference series can be defined either at the level of the genome and / or at a sub-area (chromosome, chromosomal segment, window or bin).

Andere sequencingstrategieën met een enkele molecule zoals die door het Roche 454 platform, het Applied Biosystems SOLiD-platform, de Hélicos True Single Molecule DNA-sequencingtechnologie, de enkele molecule, real-time (SMRT™)-technologie van Pacific Biosciences, en nanoporie sequencing technologieën zoals MinlON, GridlON of PromethION van Oxford Nanopore Technologies zouden ook kunnen worden gebruikt in deze toepassing. III Bepaling van scores, parameter en secundaire parametersOther single molecule sequencing strategies such as the Roche 454 platform, the Applied Biosystems SOLiD platform, the Hélicos True Single Molecule DNA sequencing technology, the single molecule, real-time (SMRT ™) technology from Pacific Biosciences, and nanopore sequencing technologies such as MinlON, GridlON or PromethION from Oxford Nanopore Technologies could also be used in this application. III Determination of scores, parameter and secondary parameters

Op basis van de uitlijningen en de verkregen aflezingstellingen of een afgeleide daarvan, optioneel gecorrigeerd voor GC-gehalte en/of totaal aantal aflezingen verkregen van het genoemde monsters, worden scores berekend die uiteindelijk leiden tot een parameter die toelaat de aanwezigheid van een aneuploïdie in een monster te bepalen. De genoemde scores zijn genormaliseerde waarden die zijn afgeleid van de tellingen van de aflezingen of wiskundig gewijzigde tellingen van de aflezingen, waarbij normalisatie plaatsvindt met het oog op de referentie reeks. Bijgevolg wordt elke score verkregen door middel van een vergelijking met de referentiereeks. De term eerste score wordt gebruikt om te verwijzen naar de score die is gekoppeld met de telling van de aflezingen voor een doelchromosoom of een chromosomaal segment. Een verzameling van scores is een reeks scores die zijn afgeleid van een reeks genormaliseerde aantal aflezingen die het genormaliseerde aantal aflezingen van het genoemde chromosomale doelsegment of doelchromosoom kan omvatten.Based on the alignments and the obtained reading counts or a derivative thereof, optionally corrected for GC content and / or total number of readings obtained from said samples, scores are calculated that ultimately lead to a parameter that allows the presence of an aneuploidy in a determine the sample. The scores mentioned are normalized values derived from the counts of the readings or mathematically modified counts of the readings, with normalization taking place for the reference set. Consequently, each score is obtained by comparison with the reference series. The term first score is used to refer to the score associated with the count of the readings for a target chromosome or a chromosomal segment. A set of scores is a set of scores derived from a set of normalized number of readings that may include the normalized number of readings from said chromosomal target segment or target chromosome.

De genoemde eerste score stelt bij voorkeur een Z-score of standaardscore voor een doelchromosoom of chromosomaal segment voor. De genoemde verzameling is bij voorkeur afgeleid van een reeks van Z-scores die zijn verkregen uit een overeenkomstige reeks chromosomen of chromosomale segmenten die het genoemde chromosomale doelsegment of doelchromosoom omvatten.Said first score preferably represents a Z score or standard score for a target chromosome or chromosomal segment. Said set is preferably derived from a set of Z scores obtained from a corresponding set of chromosomes or chromosomal segments comprising said chromosomal target segment or target chromosome.

In een meest voorkeurdragende uitvoeringsvorm worden de eerste score en de verzameling van scores berekend op basis van de genomische voorstelling van hetzij een doelchromosoom hetzij een chromosomaal doelsegment, of alle autosomen (of gebieden daarvan) daarbij omvattende het doelchromosoom of chromosoomsegment.In a most preferred embodiment, the first score and the set of scores are calculated based on the genomic representation of either a target chromosome or a chromosomal target segment, or all autosomes (or regions thereof) including the target chromosome or chromosome segment.

Dergelijke scores kunnen als volgt worden berekend:Such scores can be calculated as follows:

Met i een venster of een chromosoom of een chromosoomsegment.With i a window or a chromosome or a chromosome segment.

Een samenvattende statistiek van de genoemde verzameling scores kan bijv. worden berekend als het gemiddelde of de mediane waarde van de individuele scores. Een andere samenvattende statistiek van de genoemde verzameling scores kan worden berekend als de standaardafwijking of mediane absolute afwijking of gemiddelde absolute afwijking van de individuele scores.A summary statistic of the said set of scores can be calculated, for example, as the average or median value of the individual scores. Another summary statistic of the said set of scores can be calculated as the standard deviation or median absolute deviation or average absolute deviation of the individual scores.

De genoemde parameter p zal worden berekend als een functie van de eerste score en een afgeleide (bijv. samenvattende statistiek) van de verzameling van scores. In een voorkeurdragende uitvoeringsvorm zal de genoemde parameter een verhouding zijn tussen de eerste score gecorrigeerd door de verzameling scores (of een afgeleide daarvan) en een afgeleide van de genoemde verzameling scores.The said parameter p will be calculated as a function of the first score and a derivative (e.g. summary statistics) of the set of scores. In a preferred embodiment, said parameter will be a ratio between the first score corrected by the set of scores (or a derivative thereof) and a derivative of the said set of scores.

In een andere uitvoeringsvorm zal de genoemde parameter een verhouding zijn tussen de eerste score gecorrigeerd door een samenvattende statistiek van een eerste verzameling scores en een samenvattende statistiek van een andere, tweede verzameling scores, waarbij beide verzamelingen van scores de eerste score omvatten.In another embodiment, said parameter will be a ratio between the first score corrected by a summary statistic of a first set of scores and a summary statistic of another, second set of scores, both sets of scores comprising the first score.

In een specifieke voorkeurdragende uitvoeringsvorm is de genoemde parameter p een verhouding tussen de eerste score, gecorrigeerd door een samenvattende statistiek van de genoemde verzameling scores, en een samenvattende statistiek van de genoemde verzameling scores. De samenvattende statistiek is bij voorkeur geselecteerd uit het gemiddelde, de mediaan, de standaardafwijking, de mediane absolute afwijking of de gemiddelde absolute afwijking. In één uitvoeringsvorm zijn de genoemde beide gebruikte samenvattende statistieken in de functie dezelfde. In een andere, meer voorkeurdragende uitvoeringsvorm verschillen de genoemde samenvattende statistieken van de verzameling scores in de teller en noemer.In a specific preferred embodiment, said parameter p is a ratio between the first score corrected by a summary statistic of said set of scores, and a summary statistic of said set of scores. The summary statistic is preferably selected from the mean, the median, the standard deviation, the median absolute deviation or the average absolute deviation. In one embodiment, the said two used summary statistics in the function are the same. In another more preferred embodiment, said summary statistics differ from the set of scores in the numerator and denominator.

Een geschikte uitvoeringsvorm volgens de onderhavige uitvinding omvat gewoonlijk de volgende stappen (na DNA-sequenties uit een willekeurig sequencingproces op een biologisch monster te hebben verkregen). - het aligneren van de genoemde verkregen sequenties met een referentiegenoom; - het tellen van het aantal aflezingen op een reeks chromosomale segmenten en/of chromosomen waardoor tellingen van aflezingen worden verkregen; - het normaliseren van de genoemde tellingen van aflezingen of een afgeleide daarvan naar een genormaliseerd aantal aflezingen; - het verkrijgen van een eerste score en een verzameling van scores afgeleid van de genoemde genormaliseerde aflezingstellingen voor een doelchromosoom of chromosomaal segment, en waarbij de genoemde verzameling van scores een reeks scores is die zijn afgeleid van een overeenkomstige reeks chromosomen of chromosoomsegmenten die het chromosomaal doelsegment of chromosoom omvatten; - het berekenen van een parameter p op basis van de genoemde eerste score en de genoemde verzameling scores, waarbij de genoemde parameter een verhouding voorstelt tussen * de genoemde eerste score, gecorrigeerd door een samenvattende statistiek van de genoemde verzameling scores, en * een samenvattende statistiek van de genoemde verzameling scores.A suitable embodiment of the present invention usually comprises the following steps (after obtaining DNA sequences from a random sequencing process on a biological sample). - aligning said obtained sequences with a reference genome; - counting the number of readings on a series of chromosomal segments and / or chromosomes, whereby counts of readings are obtained; - normalizing said counts of readings or a derivative thereof to a normalized number of readings; - obtaining a first score and a set of scores derived from said normalized reading counts for a target chromosome or chromosomal segment, and wherein said set of scores is a set of scores derived from a corresponding set of chromosomes or chromosome segments that comprise the chromosomal target segment or chromosome; - calculating a parameter p on the basis of said first score and said set of scores, wherein said parameter represents a ratio between * said first score, corrected by a summary statistic of said set of scores, and * a summary statistic of the aforementioned set of scores.

Een mogelijke parameter p kan als volgt worden berekend:A possible parameter p can be calculated as follows:

waarbij Zi de eerste score voorstelt en Z j de verzameling van scores en waarbij i het doelchromosoom of chromosomale sectie voorstelt, en waarbij j een verzameling chromosomen of chromosomale segmenten i, a, b, ... voorstelt die het genoemde chromosomale segment of chromosoom i bevatten.wherein Zi represents the first score and Z j represents the set of scores and where i represents the target chromosome or chromosomal section, and where j represents a set of chromosomes or chromosomal segments i, a, b, ... representing said chromosomal segment or chromosome i contain.

In een andere uitvoeringsvorm wordt de genoemde parameter p berekend alsIn another embodiment, the said parameter p is calculated as

Waarbij Z, de eerste score voorstelt en Z j de verzameling van scores en waarbij i het doelchromosoom of chromosomale sectie voorstelt, en waarbij j een verzameling chromosomen of chromosomale segmenten i, a, b, ... voorstelt, die het genoemde chromosomale segment of chromosoom i bevatten.Where Z represents the first score and Z j represents the set of scores and where i represents the target chromosome or chromosomal section, and where j represents a set of chromosomes or chromosomal segments i, a, b, ... representing said chromosomal segment or chromosome i.

In een nog andere, meest voorkeurdragende uitvoeringsvorm wordt de genoemde parameter p berekend alsIn yet another most preferred embodiment, said parameter p is calculated as

waarbij Zi de eerste score voorstelt en Z j de verzameling van tweede scores en waarbij i het doelchromosoom of chromosomale sectie voorstelt, en waarbij j een verzameling chromosomen of chromosomale segmenten i, a, b, ... voorstelt die het genoemde chromosomale segment of chromosoom i voorstellen.wherein Z i represents the first score and Z j represents the set of second scores and where i represents the target chromosome or chromosomal section, and wherein j represents a set of chromosomes or chromosomal segments i, a, b, ... representing said chromosomal segment or chromosome i propose.

Naast de parameter p die de identificatie van de aanwezigheid van een aneuploïdie toelaat, kunnen secundaire parameters worden berekend die kunnen dienen als kwaliteitscontrole of extra informatie bieden met betrekking tot een of meerdere aneuploïdieën die aanwezig zijn in het monsters.In addition to the parameter p that allows identification of the presence of an aneuploidy, secondary parameters can be calculated that can serve as a quality check or provide additional information regarding one or more aneuploidies present in the samples.

Een eerste secundaire parameter die kan worden berekend, laat toe te definiëren of chromosomale en grote subchromosomale aneuploïdieën aanwezig zijn in het monster (vergeleken met bijv. kleinere aneuploïdieën). In een voorkeurdragende uitvoeringsvorm wordt een dergelijke parameter gedefinieerd door een mediaan van Z scores gemeten per subgebied (bijv. vensters van 5 Mb) in een doelchromosoom of chromosomale doelsectie. Als meer dan 50% van deze subgebieden getroffen wordt, zal dit merkbaar zijn in de secundaire parameter.A first secondary parameter that can be calculated allows defining whether chromosomal and large subchromosomal aneuploidies are present in the sample (compared to, for example, smaller aneuploidies). In a preferred embodiment, such a parameter is defined by a median of Z scores measured per sub-area (e.g., 5 Mb windows) in a target chromosome or chromosomal target section. If more than 50% of these subareas are affected, this will be noticeable in the secondary parameter.

In een andere uitvoeringsvorm kan een secundaire parameter worden berekend als de mediaan van de absolute waarde van de Z-scores berekend over de resterende chromosomen (dat is alle chromosomen behalve het doelchromosoom of chromosomaal segment) per subgebied (bijv. vensters van 5 Mb).In another embodiment, a secondary parameter can be calculated as the median of the absolute value of the Z scores calculated over the remaining chromosomes (that is, all chromosomes except the target chromosome or chromosomal segment) per sub-area (e.g., 5 Mb windows).

De laatste secundaire parameter laat de detectie toe van de aanwezigheid van technische of biologische instabiliteiten. Als minder dan de helft van de vensters van de andere of alle chromosomen getroffen worden, zal deze secundaire parameter niet beïnvloed worden. Als meer dan 50% van de vensters getroffen wordt, zal dit kunnen worden afgeleid van de genoemde secundaire parameter.The last secondary parameter allows the detection of the presence of technical or biological instabilities. If less than half the windows of the other or all chromosomes are affected, this secondary parameter will not be affected. If more than 50% of the windows are affected, this can be derived from the aforementioned secondary parameter.

In een andere uitvoeringsvorm biedt de onderhavige uitvinding ook een kwaliteitsscore (QS). QS laat toe de algemene variatie binnen het genoom te beoordelen. Een lage QS is een indicatie van een goede monsterverwerking en een laag niveau van technische en biologische ruis. Een stijging in de QS kan twee mogelijke redenen hebben. Hetzij een fout die is opgetreden tijdens de verwerking van het monster. In het algemeen zal aan de gebruiker worden gevraagd een nieuw biologisch staal af te nemen en te sequencen. Dit is typisch voor matig gestegen QS-scores. Een sterk gestegen QS zou een indicatie kunnen zijn van een sterk aneuploïde monster en de gebruiker zal worden aangemoedigd een bevestigende test te doen. De genoemde QS wordt bij voorkeur bepaald door het berekenen van de standaardafwijkingen van alle Z-scores voor de autosomen of chromosomen en door het verwijderen van het hoogst en laagst scorende chromosoom.In another embodiment, the present invention also provides a quality score (QS). QS makes it possible to assess the general variation within the genome. A low QS is an indication of good sample processing and a low level of technical and biological noise. An increase in the QS can have two possible reasons. Either an error occurred during the processing of the sample. In general, the user will be asked to take a new biological sample and to sequence it. This is typical of moderately increased QS scores. A greatly increased QS could be an indication of a strong aneuploid sample and the user will be encouraged to do a confirmatory test. Said QS is preferably determined by calculating the standard deviations of all Z-scores for the autosomes or chromosomes and by removing the highest and lowest scoring chromosome.

Monsters met een QS hoger dan 2 worden bijvoorbeeld beschouwd als zijnde van een slechte kwaliteit, en een QS tussen 1,5 en 2 is van een tussenliggende kwaliteit. IV. Vergelijking van drempelwaardeFor example, samples with a QS higher than 2 are considered to be of poor quality, and a QS between 1.5 and 2 is of an intermediate quality. IV. Comparison of threshold value

De parameter p zoals berekend in de bovenstaande uitvoeringsvormen zal vervolgens worden vergeleken met een drempelwaarde om te bepalen of er een verandering is vergeleken met een referentiehoeveelheid (d.w.z. onevenwicht), bijvoorbeeld met betrekking tot de verhouding van hoeveelheden van twee chromosomale gebieden (of reeksen van gebieden). In één uitvoeringsvorm zal de gebruiker zijn/haar eigen drempelwaarde kunnen definiëren, hetzij empirisch op basis van ervaring of eerdere experimenten, hetzij bijvoorbeeld op basis van standaard statistische overwegingen. Als een gebruiker de gevoeligheid van de test zou willen verhogen, kan de gebruiker de drempels verlagen (d.w.z. ze dichter naar 0 brengen). Als een gebruiker de specificiteit van de test zou willen verhogen, kan de gebruiker de drempels verhogen (d.w.z. ze verder van 0 brengen). Een gebruiker zal vaak een evenwicht moeten vinden tussen gevoeligheid en specificiteit, en dit evenwicht is vaak lab- en toepassingsspecifiek, daarom is het gemakkelijk als een gebruiker de drempelwaarden zelf kan veranderen.The parameter p as calculated in the above embodiments will then be compared to a threshold value to determine if there is a change compared to a reference amount (ie imbalance), for example with regard to the ratio of amounts of two chromosomal regions (or series of regions) ). In one embodiment, the user will be able to define his / her own threshold value, either empirically based on experience or previous experiments, or for example based on standard statistical considerations. If a user wants to increase the sensitivity of the test, the user can lower the thresholds (i.e., bring them closer to 0). If a user would like to increase the specificity of the test, the user can raise the thresholds (i.e., move them further from 0). A user will often have to find a balance between sensitivity and specificity, and this balance is often lab and application specific, so it is easy if a user can change the threshold values themselves.

Op basis van de vergelijking met de drempelwaarde kan een aneuploïdie aan-of afwezig worden gevonden.Aneuploidy can be found present or absent based on the comparison with the threshold value.

In een uitvoeringsvorm van de onderhavige uitvinding is vergelijking van parameter p met een drempelwaarde voldoende voor het bepalen van de aan-of afwezigheid van een aneuploïdie. In een andere uitvoeringsvorm wordt de genoemde aneuploïdie bepaald op basis van een vergelijking van parameter p met een drempelwaarde en een vergelijking van ten minste een van de secundaire parameters, kwaliteitsscore en/of eerste score met een drempelwaarde, waarbij voor elke score een overeenkomstige drempelwaarde wordt gedefinieerd of ingesteld.In an embodiment of the present invention, comparison of parameter p with a threshold value is sufficient to determine the presence or absence of an aneuploidy. In another embodiment, the said aneuploidy is determined on the basis of a comparison of parameter p with a threshold value and a comparison of at least one of the secondary parameters, quality score and / or first score with a threshold value, with a corresponding threshold value for each score. defined or set.

In een voorkeurdragende uitvoeringsvorm wordt de genoemde aanwezigheid/afwezigheid van een aneuploïdie gedefinieerd door een vergelijking van een parameter p met een vooraf gedefinieerde drempelwaarde, evenals door vergelijking van alle secundaire parameters en eerste scores zoals hierboven beschreven met de overeenkomstige drempelwaarden ervan.In a preferred embodiment, the said presence / absence of an aneuploidy is defined by comparing a parameter p with a predefined threshold value, as well as comparing all secondary parameters and first scores as described above with their corresponding threshold values.

De uiteindelijke beslissingsboom kan dus afhankelijk zijn van parameter p alleen, of gecombineerd met een van de secundaire parameters en/of kwaliteitsscore of eerste score zoals hierboven is beschreven.The final decision tree can thus depend on parameter p alone, or combined with one of the secondary parameters and / or quality score or first score as described above.

In een voorkeurdragende uitvoeringsvorm omvat de genoemde methodologie volgens de onderhavige uitvinding de volgende stappen: - multiplex sequencing van 50 bp enkel-uiteinde aflezingen (uitgevoerd door eindgebruiker) - uploaden van sequentieaflezingen - toewijzing van aflezingen aan een referentiegenoom - tellingaantal van aflezingen per stuk (een stuk heeft een grootte van 50 kb) - berekenen van GC-gehalte per stuk en corrigeren voor GC-gehalte - berekenen van genomische voorstelling (GR)-score per stuk. Voor stuk i is dit gelijk aanIn a preferred embodiment, said methodology according to the present invention comprises the following steps: - multiplex sequencing of 50 bp single-end readings (performed by end user) - uploading of sequence readings - assignment of readings to a reference genome - count number of readings per piece (a piece has a size of 50 kb) - calculate GC content per piece and correct for GC content - calculate genomic representation (GR) score per item. For item i this is equal to

waarbij GCi het GC-gecorrigeerde aantal aflezingen voor stuk i voorstelt, en GCk het GC-gecorrigeerde aantal aflezingen per stuk k voorstelt. het samenvoegen van de GR-waarden per venster (een venster bestaat uit 100 opeenvolgende vensters) berekenen van een Z-score per venster of per chromosoom, waarbij de Z-score is gebaseerd op de GR-score per chromosoom, vergeleken met de GR-scores in een reeks referentiemonsters.wherein GC 1 represents the GC-corrected number of readings for piece i, and GC k represents the GC-corrected number of readings per piece k. combining the GR values per window (a window consists of 100 consecutive windows) calculating a Z score per window or per chromosome, the Z score being based on the GR score per chromosome, compared to the GR score scores in a series of reference samples.

met i een chromosoom of een venster, μ Ref,j de gemiddelde of mediane GR-score voor de overeenkomstige stukken in de reeks referentiemonsters en σ Ref,i de standaardafwijking van de GR-scores voor de overeenkomstige stukken in de reeks referentiemonsters - berekenen van een ZofZ-score, waarbij de ZofZ-score is gebaseerd op de Z-score, gecorrigeerd door de mediaan (of het gemiddelde) van de Z-scores van een verzameling chromosomen of chromosoomseg menten omvattende doelchromosoom i en gedeeld door een factor die de variabiliteit van de Z-scores meet van een verzameling chromosomen die het doelchromosoom i omvat (standaardafwijking van een meer robuuste versie daarvan, zoals bijv. de mediane absolute afwijking of mad). - vergelijking van de Z-score met een drempelwaarde, en de ZofZ-score met een drempelwaarde, voor het voorspellen van de aanwezigheid of afwezigheid van een aneuploïdie.with i a chromosome or a window, μ Ref, j the mean or median GR score for the corresponding pieces in the set of reference samples and σ Ref, i the standard deviation of the GR scores for the corresponding pieces in the set of reference samples - calculation of a ZofZ score, where the ZofZ score is based on the Z score, corrected by the median (or average) of the Z scores of a set of chromosomes or chromosome segments comprising target chromosome i and divided by a factor that determines variability measures the Z-scores of a set of chromosomes comprising the target chromosome i (standard deviation of a more robust version thereof, such as, for example, the median absolute deviation or mad). - comparison of the Z score with a threshold value, and the ZofZ score with a threshold value, for predicting the presence or absence of aneuploidy.

In een andere voorkeurdragende uitvoeringsvorm vindt de genoemde voorspelling van de aanwezigheid of afwezigheid van een aneuploïdie plaats via een beslissingsboom die is gebaseerd op een parameter p en secundaire parameters. V. Bepaling van foetale fractieIn another preferred embodiment, said prediction of the presence or absence of an aneuploidy takes place via a decision tree based on a parameter p and secondary parameters. V. Determination of fetal fraction

Afzonderlijk van of naast de bepaling van de aanwezigheid van een aneuploïdie biedt de onderhavige uitvinding ook een of meerdere methodologieën voor het bepalen van de foetale fractie van foetale nucleïnezuren in een monster dat een mengsel van nucleïnezuren van de foetus en van de moeder is. De foetale fractie binnen het monster zal in het algemeen zo laag zijn dat het niet gemakkelijk kan worden bepaald. De foetale fractie in monsters varieert in het algemeen van 4 tot 20% tussen verschillende monsters, met een gemiddelde van ongeveer 10% van de totale genoomfractie.Separately from or in addition to determining the presence of aneuploidy, the present invention also provides one or more methodologies for determining the fetal fraction of fetal nucleic acids in a sample that is a mixture of fetal and maternal nucleic acids. The fetal fraction within the sample will generally be so low that it cannot be easily determined. The fetal fraction in samples generally ranges from 4 to 20% between different samples, with an average of about 10% of the total genomic fraction.

De onderhavige uitvinding biedt twee verschillende methodologieën voor het definiëren van de foetale fractie in een monster, afhankelijk van de aard van de zwangerschap.The present invention offers two different methodologies for defining the fetal fraction in a sample, depending on the nature of the pregnancy.

Een eerste methodologie is onafhankelijk van het type zwangerschap of geslacht van de foetus. Dergelijke methodologie is gebaseerd op de aanwezigheid van polymorfismen in het DNA van de moeder (en van de foetus) van het monster. Het is meer in het bijzonder gebaseerd op vooraf gedefinieerde stukken DNA die aanwezig kunnen zijn in het foetaal DNA en afwezig in het DNA van de moeder. Polymorfe plaatsen die zijn opgenomen in de doelnucleïnezuren omvatten, maar zijn niet beperkt tot, enkel-nucleotide polymorfismen (SNP's), tandem SNP's, kleinschalige multi-basis deleties of inserties, genoemde IN-DELs (ook deletie insertie polymorfismen of DIP's genoemd), multi-nucleotide polymorfismen (MNP's), kopienummervariaties (CNV's) en korte tandemherhalingen (STR's). In een meest voorkeurdragende uitvoeringsvorm zijn de polymorfismen CNV's. In een eerste stap is het monster gesequencet zoals hierboven beschreven en worden aflezingen in kaart gebracht tegenover een referentiegenoom.A first methodology is independent of the type of pregnancy or gender of the fetus. Such methodology is based on the presence of polymorphisms in the DNA of the mother (and of the fetus) of the sample. More specifically, it is based on predefined pieces of DNA that may be present in the fetal DNA and absent in the mother's DNA. Polymorphic sites included in the target nucleic acids include, but are not limited to, single-nucleotide polymorphisms (SNPs), tandem SNPs, small-scale multi-base deletions or insertions, said IN-DELs (also called deletion insertion polymorphisms or DIPs), multi -nucleotide polymorphisms (MNPs), copy number variations (CNVs) and short tandem repeats (STRs). In a most preferred embodiment, the polymorphisms are CNVs. In a first step, the sample is sequenced as described above and readings are mapped against a reference genome.

In een latere stap wordt het aantal sequenties die aligneren met elk van een vooraf bepaalde reeks polymorfismen geteld. Optioneel kan dit worden verkregen door toewijzing van de verkregen sequentieaflezingen aan elk van de genoemde vooraf gedefinieerde polymorfismen. De genoemde vooraf gedefinieerde reeks polymorfismen worden begrepen als een verzameling van polymorfismen die zijn geïdentificeerd en waarvan wordt aangenomen dat ze relevant zijn voor de bepaling van de foetale fractie.In a later step, the number of sequences that align with each of a predetermined set of polymorphisms is counted. Optionally, this can be achieved by assigning the obtained sequence readings to each of said predefined polymorphisms. Said predefined set of polymorphisms are understood as a set of polymorphisms that have been identified and are believed to be relevant for the determination of the fetal fraction.

De genoemde reeks polymorfismen zijn bij voorkeur goedaardige polymorfismen die vaak voorkomen in de populatie. In een voorkeurdragende uitvoeringsvorm omvat de genoemde reeks CNV's. Dergelijke CNV's kunnen variabel zijn in grootte, in een voorkeurdragende uitvoeringsvorm hebben de genoemde CNV's een lengte tussen 10 kb en 1 Nb, meer bij voorkeur tussen 10 kb en 100 kb. Alternatief zijn genoemde CNV's ook 2 bp en 10 Mb lang. Hierin verwijst kb naar kilobaseparen (d.w.z. 1000 baseparen) en verwijst Mb naar megabasisparen (d.w.z. 1000000 baseparen).The said set of polymorphisms are preferably benign polymorphisms that often occur in the population. In a preferred embodiment, said set of CNVs comprises. Such CNVs can be variable in size, in a preferred embodiment, said CNVs have a length between 10 kb and 1 Nb, more preferably between 10 kb and 100 kb. Alternatively, said CNVs are also 2 bp and 10 Mb long. Herein, kb refers to kilobase pairs (i.e., 1000 base pairs) and Mb refers to megabase pairs (i.e., 1000000 base pairs).

In een andere voorkeurdragende uitvoeringsvorm omvat de genoemde reeks polymorfismen aanvullende gegevens die zijn verbonden met de polymorfismen binnen de genoemde reeks. In een voorkeurdragende uitvoeringsvorm omvatten de genoemde gegevens een of meerdere attributen van elk polymorfisme. De genoemde attributen kunnen een correctiefactor voor elk polymorfismen omvatten, maar zijn daar niet toe beperkt, waarbij de genoemde correctiefactor een link biedt tussen tellingen van aflezingen voor het genoemde polymorfisme en de werkelijke foetale fractie. Dit laatste laat een eenvoudige correctie toe van de verkregen aflezingen overeenkomstig een polymorfisme binnen een monster waardoor een schatting wordt verkregen van de foetale fractie of de werkelijke foetale fractie.In another preferred embodiment, said set of polymorphisms comprises additional data associated with the polymorphisms within said set. In a preferred embodiment, said data includes one or more attributes of each polymorphism. Said attributes may include, but are not limited to, a correction factor for any polymorphisms, said correction factor providing a link between counts of readings for said polymorphism and the actual fetal fraction. The latter allows a simple correction of the readings obtained according to a polymorphism within a sample, thereby obtaining an estimate of the fetal fraction or the actual fetal fraction.

De genoemde attributen kunnen een drempelwaarde per polymorfisme omvatten dat toelaat te identificeren of het genoemde polymorfisme, indien het aanwezig is in een monster, in aanmerking komt als informatief polymorfisme.Said attributes may include a threshold value per polymorphism that allows to identify whether said polymorphism, if present in a sample, qualifies as informative polymorphism.

In een voorkeurdragende uitvoeringsvorm zijn de genoemde attributen bepaald met behulp van een reeks waarden waarvoor de foetale fractie gekend is. Deze monsters zouden bijv. zwangerschappen van jongens (waarvoor de foetale fractie kan worden bepaald met behulp van aflezingen afkomstig van het X- of Y-chromosoom, zoals hieronder wordt beschreven), of anders monsters kunnen zijn waarvoor de foetale fractie was bepaald met behulp van orthogonale methodes (gebaseerd op epigenetiek of gerichte sequencing of digitale PCR).In a preferred embodiment, the said attributes are determined using a series of values for which the fetal fraction is known. These samples could be, for example, pregnancies of boys (for which the fetal fraction can be determined using readings from the X or Y chromosome, as described below), or else could be samples for which the fetal fraction was determined using orthogonal methods (based on epigenetics or targeted sequencing or digital PCR).

In een uitvoeringsvorm zijn de genoemde reeks polymorfismen en attributen vooraf gedefinieerd. In een andere uitvoeringsvorm kunnen de genoemde reeks polymorfismen en attributen door de gebruiker gedefinieerd zijn.In one embodiment, said set of polymorphisms and attributes are predefined. In another embodiment, said set of polymorphisms and attributes may be defined by the user.

In een latere stap wordt de verkregen telling van aflezingen - of een afgeleide daarvan - voor elk polymorfisme gebruikt voor het identificeren of het bepaalde polymorfisme informatief is in het monster. Dergelijke informatieve polymorfismen zijn in het algemeen de polymorfismen die een lager aantal aflezingen hebben dan een bepaalde drempelwaarde, waarbij de drempelwaarde overeenkomt met een theoretisch verwacht aantal aflezingen gezien het totale aantal aflezingen voor het monster, of een afgeleide daarvan. Er wordt aangenomen dat het lagere aantal geobserveerde aantal aflezingen voor dergelijke informatieve polymorfismen te wijten is aan de aanwezigheid ervan in het foetale genoom en niet in het genoom van de moeder. Het aantal aflezingen - of een afgeleide daarvan - moet bij voorkeur lager zijn dan de helft van het theoretisch verwachte aantal aflezingen, aangezien dit zou betekenen dat het polymorfisme niet aanwezig is in 1, 2 of meerdere kopieën in het genoom van de moeder en bijgevolg enkel aanwezig is in het foetale genoom. Op basis van deze informatieve polymorfismen kan een schatting van de foetale fractie worden gemaakt door aan te nemen dat de verkregen telling van aflezingen rechtstreeks is gecorreleerd met de foetale fractie. In een voorkeurdragende uitvoeringsvorm wordt de foetale fractie berekend door eerst het corrigeren van de verkregen telling van aflezingen voor elk informatief polymorfisme met behulp van de polymorfisme attributen ervan, en vervolgens het nemen van de mediaan of het gemiddelde van de gecorrigeerde tellingen van aflezingen over alle informatieve polymorfismen. Een monster moet ten minste één informatief polymorfisme hebben om de foetale fractie te kunnen schatten. De foetale fractie van monsters waarvoor geen informatief polymorfisme was geïdentificeerd, kan worden geschat met behulp van alternatieve methoden, op voorwaarde dat het monster was afgenomen van een mannelijke foetus (zie hieronder).In a later step, the obtained count of readings - or a derivative thereof - is used for each polymorphism to identify whether the particular polymorphism is informative in the sample. Such informative polymorphisms are generally the polymorphisms that have a lower number of readings than a certain threshold value, the threshold value corresponding to a theoretically expected number of readings given the total number of readings for the sample, or a derivative thereof. The lower number of readings observed for such informative polymorphisms is believed to be due to their presence in the fetal genome and not in the mother's genome. The number of readings - or a derivative thereof - should preferably be less than half the theoretically expected number of readings, since this would mean that the polymorphism is not present in 1, 2 or more copies in the mother's genome and therefore only is present in the fetal genome. Based on these informative polymorphisms, an estimate of the fetal fraction can be made by assuming that the obtained count of readings is directly correlated with the fetal fraction. In a preferred embodiment, the fetal fraction is calculated by first correcting the obtained count of readings for each informative polymorphism using its polymorphism attributes, and then taking the median or average of the corrected counts of readings across all informational polymorphisms. A sample must have at least one informative polymorphism to estimate the fetal fraction. The fetal fraction of samples for which no informative polymorphism had been identified can be estimated using alternative methods, provided that the sample was taken from a male fetus (see below).

In een uitvoeringsvorm wordt de fractie van foetale nucleïnezuren in het mengsel van nucleïnezuren van de foetus en van de moeder berekend voor elk van de informatieve polymorfismen. In een eerste stap wordt het verwachte aantal voor het informatieve polymorfisme bepaald op basis van de genormaliseerde tellingen (genormaliseerd naar bijv. 10 000 000) verkregen van het genoemde monster. Op basis van de verwachte tellingen (d.w.z. het aantal aflezingen dat men zou verwachten voor het polymorfisme, gezien het totale aantal aflezingen verkregen voor het monster, en optioneel gecorrigeerd met een polymorfismespecifieke attribuut), wordt vervolgens een schatting van de foetale fractie van het testmonster afgeleid.In one embodiment, the fetal nucleic acid fraction in the fetal and parent nucleic acid mixture is calculated for each of the informative polymorphisms. In a first step, the expected number for the informative polymorphism is determined on the basis of the normalized counts (normalized to e.g. 10,000,000) obtained from said sample. Based on the expected counts (ie the number of readings that would be expected for the polymorphism, given the total number of readings obtained for the sample, and optionally corrected with a polymorphism-specific attribute), an estimate of the fetal fraction of the test sample is then derived .

In een uitvoeringsvorm kan deze schatting worden bepaald voor elk informatief polymorfisme, met behulp van de formule 2 x 100 x geobserveerde tellingen voor het informatieve polymorfisme / verwachte tellingen voor het informatieve polymorfisme.In one embodiment, this estimate can be determined for each informative polymorphism, using the formula 2 x 100 x observed counts for the informative polymorphism / expected counts for the informative polymorphism.

De verwachte telling is het aantal aflezingen dat men zou verwachten voor het polymorfisme, gezien het totale aantal aflezingen verkregen voor het monster, en optioneel gecorrigeerd met een polymorfismespecifieke attribuut. Dit polymorfismespecifieke attribuut of deze factor kan worden afgeleid voor elk polymorfisme in de genoemde reeks polymorfismen met behulp van een reeks monsters waarvoor de foetale fractie gekend is met behulp van alternatieve methodes (bijv. voor mannelijke foetussen met behulp van tellingen van aflezingen op chromosoom X of Y).The expected count is the number of readings that would be expected for the polymorphism, given the total number of readings obtained for the sample, and optionally corrected with a polymorphism-specific attribute. This polymorphism-specific attribute or factor can be derived for any polymorphism in the said set of polymorphisms using a set of samples for which the fetal fraction is known using alternative methods (e.g. for male fetuses using counts of readings on chromosome X or Y).

In een uitvoeringsvorm kan de werkelijke foetale fractie als volgt worden berekend:In one embodiment, the actual fetal fraction can be calculated as follows:

Werkelijke foetale fractie = geschatte foetale fractie x factor.Actual fetal fraction = estimated fetal fraction x factor.

Het percentage foetale fractie wordt berekend voor ten minste 1, ten minste 2, ten minste 3, ten minste 4, ten minste 5, ten minste 6, ten minste 7, ten minste 8, ten minste 9, ten minste 10, ten minste 11, ten minste 12, ten minste 13, ten minste 14, ten minste 15, ten minste 16, ten minste 37, ten minste 18, ten minste 19, ten minste 20, ten minste 25, ten minste 30, ten minste 35, ten minste 40 of meer informatieve polymorfismen. In een uitvoeringsvorm zal de foetale fractie worden bepaald door het gemiddelde of de mediane foetale fractie zoals bepaald door elke individuele informatieve polymorfismen. In een uitvoeringsvorm is de foetale fractie de gemiddelde of mediane foetale fractie bepaald voor ten minste 1, 2 of 3 informatieve polymorfismen.The percentage of fetal fraction is calculated for at least 1, at least 2, at least 3, at least 4, at least 5, at least 6, at least 7, at least 8, at least 9, at least 10, at least 11 , at least 12, at least 13, at least 14, at least 15, at least 16, at least 37, at least 18, at least 19, at least 20, at least 25, at least 30, at least 35, at least at least 40 or more informative polymorphisms. In one embodiment, the fetal fraction will be determined by the average or median fetal fraction as determined by each individual informative polymorphism. In one embodiment, the fetal fraction is the mean or median fetal fraction determined for at least 1, 2 or 3 informational polymorphisms.

De bepaling van de foetale fractie in een monster van een zwangere vrouw wordt in het algemeen verkregen door het verkrijgen van tellingen van aflezingen van een of meerdere polymorfismen in een monster, en het bepalen of een polymorfisme informatief is op basis van deze tellingen van aflezingen en polymorfismespecifieke attributen, waarbij de telling van aflezingen van elk informatief polymorfisme is gerelateerd met de geschatte foetale fractie.The determination of the fetal fraction in a sample from a pregnant woman is generally obtained by obtaining counts of readings from one or more polymorphisms in a sample, and determining whether a polymorphism is informative based on these counts of readings and polymorphism-specific attributes, wherein the count of readings of each informative polymorphism is related to the estimated fetal fraction.

In een uitvoeringsvorm van de onderhavige uitvinding wordt de genoemde foetale fractie in een monster als volgt bepaald: - het ontvangen van de sequenties van ten minste een deel van de nucleïnezuurmoleculen die zijn opgenomen in een biologisch monster dat is verkregen van de genoemde zwangere vrouw; - het tellen van het aantal sequenties die aligneren met een vooraf gedefinieerde reeks polymorfismen - het vergelijken van het verkregen aantal sequenties met het verwachte aantal sequenties voor elke polymorfe plaats voor het identificeren van de informatieve polymorfe plaats(en) voor het monster; - het berekenen op basis van het verkregen aantal sequenties voor de genoemde informatieve polymorfe plaats(en) van een hoeveelheid, waarbij de genoemde hoeveelheid een indicatie is voor de foetale fractie.In an embodiment of the present invention, said fetal fraction in a sample is determined as follows: - receiving the sequences of at least a portion of the nucleic acid molecules contained in a biological sample obtained from said pregnant woman; - counting the number of sequences that align with a predefined set of polymorphisms - comparing the obtained number of sequences with the expected number of sequences for each polymorphic site to identify the informative polymorphic site (s) for the sample; - calculating on the basis of the obtained number of sequences for said informative polymorphic site (s) an amount, said amount being an indication of the fetal fraction.

De genoemde hoeveelheid wordt berekend met behulp van lineaire schaling op basis van informatieve polymorfismespecifieke attributen.The stated amount is calculated using linear scaling based on informative polymorphism-specific attributes.

In één uitvoeringsvorm worden de genoemde sequenties verkregen door sequencing van de volgende generatie. In een andere voorkeurdragende uitvoeringsvorm is de genoemde sequencingwerkwijze een willekeurige lage-dekking, willekeurige sequencingwerkwijze.In one embodiment, said sequences are obtained by next generation sequencing. In another preferred embodiment, said sequencing method is a random low-coverage, random sequencing method.

De genoemde polymorfismen zijn bij voorkeur kopieaantalvariaties met een grootte tussen 100 bp en 1 Mb, of tussen 1 kb en 1 Mb, of tussen 2 bp en 10 Mb.The polymorphisms mentioned are preferably copy number variations with a size between 100 bp and 1 Mb, or between 1 kb and 1 Mb, or between 2 bp and 10 Mb.

De genoemde foetale fractie kan dienen als een interne kwaliteitscontrole van het monster en bijgevolg een andere secundaire parameter opleveren die wordt verkregen uit het genoemde monster.Said fetal fraction can serve as an internal quality control of the sample and therefore yield another secondary parameter obtained from said sample.

In een andere uitvoeringsvorm van de onderhavige uitvinding is een werkwijze voor het bepalen van de foetale fractie gebaseerd op gevallen waarin een mannelijke zwangerschap (d.w.z. de zwangere vrouw draagt een mannelijke foetus) was geïdentificeerd. Als een mannelijke zwangerschap is gedetecteerd, kan de foetale fractie worden bepaald op basis van aflezingen die zijn uitgelijnd met het Y-chromosoom. Het X- en Y-chromosoom hebben gewoonlijk gebieden die gelijkaardig zijn tussen het X- en Y-chromosoom, Pseudo-Autosomale-Gebieden (PAR, pseudo-autosomal-regions) genoemd. Aangezien het Y-chromosoom klein is, is de invloed van deze PAR-gebieden sterk, aangezien slechts een kleine hoeveelheid van de aflezingen zal worden toegewezen aan specifieke gebieden binnen het Y-chromosoom. De invloed van PAR op het X-chromosoom is minder belangrijk omwille van de grootte van het X-chromosoom.In another embodiment of the present invention, a method for determining the fetal fraction is based on cases where a male pregnancy (i.e., the pregnant woman carries a male fetus) was identified. If a male pregnancy is detected, the fetal fraction can be determined based on readings aligned with the Y chromosome. The X and Y chromosomes usually have regions that are similar between the X and Y chromosomes, called Pseudo-Autosomal Regions (PAR, pseudo-autosomal regions). Since the Y chromosome is small, the influence of these PAR regions is strong, since only a small amount of the readings will be assigned to specific regions within the Y chromosome. The influence of PAR on the X chromosome is less important because of the size of the X chromosome.

In een eerst stap worden deze gebieden die uniek zijn voor het X- of Y-chromosoom (buiten de PAR-gebieden) gedefinieerd. Aflezingen gericht tegen deze unieke X- en/of Y-chromosoomgebieden worden geteld en de foetale fractie wordt bepaald op basis van de unieke X- en/of Y-chromosoomgebieden (of een afgeleide van deze aflezingen, zoals genormaliseerde aflezingen).In a first step, these regions that are unique to the X or Y chromosome (outside of the PAR regions) are defined. Readings directed against these unique X and / or Y chromosome regions are counted and the fetal fraction is determined based on the unique X and / or Y chromosome regions (or a derivative of these readings, such as normalized readings).

Op basis van de X-chromosomen kan de foetale fractie worden bepaald als tweemaal het verschil op het 50 kb-stukniveau tussen het mediane aantal aflezingen toegewezen aan de autosomen en het mediane aantal aflezingen toegewezen aan chromosoom X, gedeeld door het mediane aantal aflezingen toegewezen aan de autosomen. Dit kan als de volgende formule worden geschreven:Based on the X chromosomes, the fetal fraction can be determined as twice the difference at the 50 kb piece level between the median number of readings assigned to the autosomes and the median number of readings assigned to chromosome X, divided by the median number of readings assigned to the autosomes. This can be written as the following formula:

Als tweede kan de foetale fractie ook worden geschat op basis van het Y-chromosoom aangezien alle aflezingen die betrekking hebben op het chromosoom Y in theorie afkomstig moeten zijn van het foetale DNA. De foetale fractie op basis van chromosoom Y wordt gedefinieerd als tweemaal het mediane aantal GC-gecorrigeerde aflezingen toegewezen aan Y over het mediane aantal GC-gecorrigeerde aflezingen toegewezen aan de autosomen, of in een formule:Secondly, the fetal fraction can also be estimated based on the Y chromosome since all readings relating to chromosome Y must in theory come from the fetal DNA. The fetal fraction based on chromosome Y is defined as twice the median number of GC-corrected readings assigned to Y over the median number of GC-corrected readings assigned to the autosomes, or in a formula:

De onderhavige uitvinding biedt eveneens een computerprogrammaproduct omvattende een door de computer leesbaar medium dat is gecodeerd met meerdere instructies voor het controleren van een computersysteem voor het uitvoeren van een bewerking van het bepalen of schatten van de foetale fractie in een biologisch monster dat is verkregen uit een zwangere vrouw volgens de onderhavige uitvinding. De bewerking omvat meer in het bijzonder de volgende stappen: - het ontvangen van de sequenties van ten minste een deel van de nucleïnezuurmoleculen die zijn opgenomen in een biologisch monster dat is verkregen van de genoemde zwangere vrouw; - het tellen van het aantal sequenties die aligneren met een vooraf gedefinieerde reeks polymorfismen - het vergelijken van het verkregen aantal sequenties met het verwachte aantal sequenties voor het identificeren van de informatieve polymorfe plaats(en) voor het monster; en - het berekenen op basis van het verkregen aantal sequenties voor de genoemde informatieve polymorfe plaats(en) van een hoeveelheid, waarbij de genoemde hoeveelheid een indicatie is voor de foetale fractie. VI GeslachtsbepalingThe present invention also provides a computer program product comprising a computer-readable medium encoded with a plurality of instructions for controlling a computer system to perform an operation of determining or estimating the fetal fraction in a biological sample obtained from a sample pregnant woman according to the present invention. The processing comprises in particular the following steps: - receiving the sequences of at least a part of the nucleic acid molecules included in a biological sample obtained from said pregnant woman; - counting the number of sequences that align with a predefined set of polymorphisms - comparing the obtained number of sequences with the expected number of sequences to identify the informative polymorphic site (s) for the sample; and - calculating on the basis of the obtained number of sequences for said informative polymorphic site (s) an amount, said amount being an indication of the fetal fraction. VI Gender determination

Geslachtsbepaling kan gebeuren door het bepalen van gebieden die informatief of indicatief zijn voor mannelijke zwangerschappen. Deze gebieden kunnen worden gedefinieerd door te kijken in een gegevensreeks omvattende sequencinggegevens van mannelijke gegevensreeksen. Gebieden die statistisch indicatief zijn voor mannelijke zwangerschappen worden later weerhouden.Sex determination can be done by determining areas that are informative or indicative of male pregnancies. These regions can be defined by looking into a data set comprising sequencing data from male data sets. Areas that are statistically indicative of male pregnancies are retained later.

De aflezingen voor een of meerdere informatieve gebieden - die gewoonlijk op het Y-chromosoom liggen - worden verkregen uit het geanalyseerde monster en vergeleken met een vooraf gedefinieerde drempelwaarde. Als het totaal aantal aflezingen over alle geselecteerde gebieden in een testmonster hoger is dan een eerste drempelwaarde, is het hoogstwaarschijnlijk een mannelijke zwangerschap. Anderzijds, als het totaal aantal aflezingen over alle geselecteerde gebieden in een testmonster lager is dan een tweede drempelwaarde, is het hoogstwaarschijnlijk een vrouwelijke zwangerschap. Als het totaal aantal aflezingen over alle geselecteerde gebieden in een testmonster ligt tussen de eerste en de tweede drempelwaarde, kan het geslacht niet worden bepaald (dit zou het geval kunnen zijn van "vanishing twins"). Door de juiste selectie van de gebieden, de eerste en de tweede drempelwaarden, zou de werkwijze minder gevoelig zijn voor afwijkingen die het resultaat zijn van vanishing twins (in het bijzonder in het geval van jongens). VII Toolbox en kitThe readings for one or more informational regions - which usually lie on the Y chromosome - are obtained from the analyzed sample and compared with a predefined threshold value. If the total number of readings across all selected areas in a test sample is higher than a first threshold, it is most likely a male pregnancy. On the other hand, if the total number of readings across all selected areas in a test sample is lower than a second threshold, it is most likely a female pregnancy. If the total number of readings across all selected areas in a test sample is between the first and the second threshold value, the gender cannot be determined (this could be the case of "vanishing twins"). By properly selecting the areas, the first and the second thresholds, the method would be less sensitive to deviations resulting from vanishing twins (especially in the case of boys). VII Toolbox and kit

De methodologieën zoals hierboven beschreven worden bij voorkeur allemaal door een computer geïmplementeerd. Daarom heeft de onderhavige uitvinding eveneens betrekking op een computerprogrammaproduct omvattende een door de computer leesbaar medium dat is gecodeerd met meerdere instructies voor het sturen van een computersysteem voor het uitvoeren van een bewerking voor het uitvoeren van prenatale diagnose van een foetale aneuploïdie en/of het screenen voor foetale aneuploïdieën en/of de bepaling van de foetale fractie in een biologisch monster dat is verkregen van een zwangere vrouw, waarbij het biologische monster nucleïnezuurmoleculen omvat.The methodologies as described above are preferably all implemented by a computer. Therefore, the present invention also relates to a computer program product comprising a computer readable medium encoded with a plurality of instructions for controlling a computer system for performing an operation for performing prenatal diagnosis of fetal aneuploidy and / or screening for fetal aneuploidies and / or the determination of the fetal fraction in a biological sample obtained from a pregnant woman, wherein the biological sample comprises nucleic acid molecules.

Met betrekking tot de bepaling van de aan- of afwezigheid van een aneuploïdie in een monster omvat de bewerking de stappen van: - het ontvangen van de sequenties van ten minste een deel van de nucleïnezuurmoleculen die zijn opgenomen in een biologisch monster dat is verkregen van de genoemde zwangere vrouw; - het aligneren van de genoemde verkregen sequenties met een referentiegenoom; - het tellen van het aantal aflezingen op een reeks chromosomale segmenten en/of chromosomen waardoor tellingen van aflezingen worden verkregen; - het normaliseren van de genoemde tellingen van aflezingen of een afgeleide daarvan naar een genormaliseerd aantal aflezingen; - het verkrijgen van een eerste score van de genoemde genormaliseerde aflezingen en een verzameling van scores afgeleid van de genoemde genormaliseerde aflezingstellingen voor een doelchromosoom of chromosomaal segment, en waarbij de genoemde verzameling van scores een reeks scores is die zijn afgeleid van het genormaliseerde aantal aflezingen voor een reeks chromosomen of chromosoomsegmenten die het chromosomaal doelsegment of chromosoom omvatten; - het berekenen van een parameter p op basis van de genoemde eerste score en de genoemde verzameling scores.With regard to determining the presence or absence of an aneuploidy in a sample, the processing comprises the steps of: - receiving the sequences of at least a portion of the nucleic acid molecules contained in a biological sample obtained from the said pregnant woman; - aligning said obtained sequences with a reference genome; - counting the number of readings on a series of chromosomal segments and / or chromosomes, whereby counts of readings are obtained; - normalizing said counts of readings or a derivative thereof to a normalized number of readings; - obtaining a first score of said normalized readings and a set of scores derived from said normalized readings for a target chromosome or chromosomal segment, and wherein said set of scores is a set of scores derived from the normalized number of readings for a series of chromosomes or chromosome segments comprising the chromosomal target segment or chromosome; - calculating a parameter p based on the said first score and the said set of scores.

In een voorkeurdragende uitvoeringsvorm stelt de genoemde parameter een verhouding voor tussen: * een eerste score, gecorrigeerd door een samenvattende statistiek van de genoemde verzameling scores, en * een samenvattende statistiek van de verzameling scores.In a preferred embodiment, said parameter represents a ratio between: * a first score, corrected by a summary statistic of said set of scores, and * a summary statistic of the set of scores.

Met betrekking tot de bepaling van de foetale fractie in een biologisch monster omvat de bewerking de stappen van: - het ontvangen van de sequenties van ten minste een deel van de nucleïnezuurmoleculen die zijn opgenomen in een biologisch monster dat is verkregen van de genoemde zwangere vrouw; - het tellen van het aantal sequenties die aligneren met een vooraf gedefinieerde reeks polymorfismen - het vergelijken van het verkregen aantal sequenties met het verwachte aantal sequenties voor het identificeren van de informatieve polymorfe plaats(en) voor het monster; en - het berekenen op basis van het verkregen aantal sequenties voor de genoemde informatieve polymorfe plaats(en) van een hoeveelheid, waarbij de genoemde hoeveelheid een indicatie is voor de foetale fractie.With respect to the determination of the fetal fraction in a biological sample, the processing comprises the steps of: - receiving the sequences of at least a portion of the nucleic acid molecules contained in a biological sample obtained from said pregnant woman; - counting the number of sequences that align with a predefined set of polymorphisms - comparing the obtained number of sequences with the expected number of sequences to identify the informative polymorphic site (s) for the sample; and - calculating on the basis of the obtained number of sequences for said informative polymorphic site (s) an amount, said amount being an indication of the fetal fraction.

In een andere uitvoeringsvorm kan de genoemde foetale fractie worden bepaald in geval van een mannelijke zwangerschap op basis het Y-chromosoom.In another embodiment, said fetal fraction can be determined in the case of a male pregnancy based on the Y chromosome.

De genoemde bewerkingen omvatten de stappen van - het ontvangen van de sequenties van ten minste een deel van de nucleïnezuurmoleculen die zijn opgenomen in een biologisch monster dat is verkregen van de genoemde zwangere vrouw; - het bepalen van het geslacht van de genoemde foetus; waarbij als de genoemde foetus mannelijk is: * het aligneren van de genoemde verkregen sequenties met een referentiegegevensbank; * het identificeren en tellen van aflezingen die zich specifiek in niet-PAR-gebieden van het X- en/of Y-chromosoom bevinden; * het berekenen op basis van de genoemde tellingen van aflezingen van een hoeveelheid, waarbij de genoemde hoeveelheid een indicatie is voor de foetale fractie.Said operations include the steps of - receiving the sequences of at least a portion of the nucleic acid molecules contained in a biological sample obtained from said pregnant woman; - determining the gender of said fetus; wherein if said fetus is male: * aligning said obtained sequences with a reference database; * identifying and counting readings that are specifically in non-PAR regions of the X and / or Y chromosome; * calculating on the basis of said counts of quantity readings, said amount being an indication of the fetal fraction.

De genoemde bewerkingen kunnen worden uitgevoerd door een gebruiker of beroepskracht in een omgeving weg van de locatie waar het monster is afgenomen en/of de natte labprocedure, die de extractie is van de nucleïnezuren uit het biologische monster en de sequencing.Said operations can be performed by a user or professional in an environment away from the location where the sample was taken and / or the wet lab procedure, which is the extraction of the nucleic acids from the biological sample and the sequencing.

De genoemde bewerkingen kunnen worden geleverd aan de gebruiker door middel van aangepaste software die moet worden geïnstalleerd op een computer, en kan worden opgeslagen in de cloud.The aforementioned operations can be delivered to the user through custom software that must be installed on a computer, and can be stored in the cloud.

Na de vereiste of gewenste bewerking uitgevoerd te hebben, zal de beoefenaar of gebruiker een rapport of score krijgen, waarbij het genoemde rapport of de genoemde score informatie geeft over het kenmerk dat is geanalyseerd. Een rapport omvat bij voorkeur een link naar een patiënt of monster-ID dat is geanalyseerd. Het genoemde rapport of de genoemde score geeft informatie over de aan- of afwezigheid van een aneuploïdie in een monster, waarbij de genoemde informatie is verkregen op basis van een parameter die is berekend door de bovengenoemde methodologie. Het rapport kan ook informatie geven over de aard van de aneuploïdie (indien gedetecteerd, bijv. grote of kleine chromosomale afwijkingen) en/of de kwaliteit van het monster dat is geanalyseerd.After having performed the required or desired operation, the practitioner or user will receive a report or score, the said report or score giving information about the characteristic being analyzed. A report preferably includes a link to a patient or sample ID that has been analyzed. Said report or score provides information about the presence or absence of aneuploidy in a sample, said information being obtained based on a parameter calculated by the above methodology. The report can also provide information about the nature of the aneuploidy (if detected, eg major or minor chromosomal abnormalities) and / or the quality of the sample that has been analyzed.

De genoemde beoefenaar of gebruiker kan ook informatie krijgen over de foetale fractie, waarbij de genoemde foetale fractie is bepaald door een van methodologieën van de onderhavige uitvinding.Said practitioner or user may also receive information about the fetal fraction, said fetal fraction being determined by one of the methodologies of the present invention.

In een andere uitvoeringsvorm kan de genoemde beoefenaar of gebruiker, op basis van het rapport, informatie krijgen over het geslacht van de foetus.In another embodiment, said practitioner or user may receive information about the sex of the fetus based on the report.

Het zal duidelijk zijn voor een vakman dat de bovengenoemde informatie in één rapport kan worden voorgesteld aan een beoefenaar.It will be clear to a person skilled in the art that the above information can be presented to a practitioner in one report.

De bovengenoemde bewerkingen zijn bij voorkeur deel van een digitaal platform dat de moleculaire analyse van een monster toelaat door middel van verscheidene door de computer geïmplementeerde bewerkingen.The above operations are preferably part of a digital platform that permits the molecular analysis of a sample through various computer-implemented operations.

De onderhavige uitvinding omvat in het bijzonder ook een visualisatie-instrument, dat aan de gebruiker of beoefenaar toelaat de verkregen resultaten evenals de onbewerkte gegevens te visualiseren die in het systeem zijn ingegeven. In een uitvoeringsvorm omvatten de genoemde visualisaties een venster per chromosoom, dat het chromosoom toont dat is geanalyseerd, dat aflezingen per gebied of een score toont die daarvan is afgeleid en de scores en/of parameters die zijn berekend. Door aan de beoefenaar of gebruiker de berekende scores of parameter te tonen samen met de visuele voorstelling van de tellingen van aflezingen, kan een gebruiker een aanvullende controle of beoordeling van de verkregen resultaten uitvoeren. Door aan de gebruiker toe te laten de gegevens in te kijken, zullen gebruikers verbeterde beslissingsregels en drempels kunnen definiëren.In particular, the present invention also includes a visualization tool that allows the user or practitioner to visualize the results obtained as well as the raw data entered into the system. In one embodiment, said visualizations include a window per chromosome, showing the chromosome that has been analyzed, showing readings per area or a score derived therefrom, and the scores and / or parameters calculated. By showing the calculated scores or parameter to the practitioner or user together with the visual representation of the counts of readings, a user can perform an additional check or assessment of the results obtained. By allowing the user to view the data, users will be able to define improved decision rules and thresholds.

Bovendien wordt een aanvullende controle toegevoegd, aangezien de visuele gegevens per chromosoom aan de gebruiker toelaten voor elke chromosoom te evalueren of de geautomatiseerde classificatie juist is. Dit voegt een aanvullende veiligheidsparameter toe.In addition, an additional check is added, since the visual data per chromosome allows the user to evaluate for each chromosome whether the automated classification is correct. This adds an additional safety parameter.

In een voorkeurdragende uitvoeringsvorm wordt het genoemde platform en het genoemde visualisatie-instrument voorzien met algoritmen die rekening houden met het feit dat bepaalde gebieden meer aflezingen opleveren (omwille van een terugkerende technische afwijking die sommige gebieden van het genoom altijd over- of ondervertegenwoordigd maakt). Correctiemetingen kunnen worden gegeven voor deze oververtegenwoordiging door een vergelijking te maken met een referentiereeks (die idealiter wordt verwerkt met behulp van hetzelfde of een gelijkaardige protocol) en plotting van bijv. Z-scores of alternatieve scores die de kans op bepaalde observaties onder de veronderstelling van aneuploïdie voorstellen. Standaard visualisatie-instrumenten tonen enkel tellingen van aflezingen, en laten niet toe de terugkerende technische afwijking te corrigeren.In a preferred embodiment, said platform and said visualization instrument are provided with algorithms that take into account the fact that certain areas yield more readings (due to a recurring technical deviation that always makes some areas of the genome over- or under-represented). Correction measurements can be given for this overrepresentation by making a comparison with a reference series (which is ideally processed using the same or a similar protocol) and plotting of, for example, Z-scores or alternative scores that reduce the probability of certain observations under the assumption of propose aneuploidy. Standard visualization tools only show counts of readings, and do not allow to correct the recurring technical deviation.

Tot slot, op basis van de link tussen de verkregen sores en/of parameters en de visuele gegevens per chromosoom, kan een gebruiker of beoefenaar beslissen de drempelwaarde te veranderen die is gebruikt voor het definiëren van de aanwezigheid van een aneuploïdie. De gebruiker kan bijgevolg beslissen te streven naar een hogere gevoeligheid (bijv. minder stringent te zijn inzake de stijging/daling van de parameter of scores) of hogere specificiteit (bijv. door meer stringent te zijn inzake de stijging/daling van parameter of scores).Finally, based on the link between the obtained scores and / or parameters and the visual data per chromosome, a user or practitioner may decide to change the threshold value used to define the presence of aneuploidy. The user may therefore decide to aim for a higher sensitivity (e.g., to be less stringent about the rise / fall of the parameter or scores) or higher specificity (e.g., to be more stringent about the rise / fall of the parameter or scores) .

Het platform kan voorzien zijn van andere kenmerken, die een nauwkeurigere analyse bieden van de moleculaire gegevens die zijn verkregen van het biologische monster.The platform may be provided with other features that provide a more accurate analysis of the molecular data obtained from the biological sample.

Zoals eerder vermeld, laat de methodologie en het platform een bepaalde vrijheidsgraad aan de gebruiker toe. Naast het definiëren van eigen drempelwaarden en drempels, kan de gebruiker ook eigen referentiereeksen van genomen definiëren, om te worden gebruikt voor het berekenen van de scores en/of andere informatie zoals de foetale fractie, de bepaling van het geslacht, enz. Door zijn/haar eigen referentie reeks te gebruiken kan een gebruiker beter de terugkerende technische variatie van het lab detecteren (verschillende natte labreagentia en protocol, verschillend NGS-instrument en platform, verschillende operator, verschillende ...) en bijgevolg een beter geschikte referentiegegevensreeks hebben voor het bepaalde lab. Om te zorgen voor de robuustheid van een nieuwe referentiereeks, worden methodologieën voorzien voor het verwijderen van uitschieters uit de referentiereeks. Bijv. als 100 referentiemonsters worden gebruikt in een referentiereeks, zullen er 100 referentiereeksen zijn voor elke 50 kb bin. Als een bepaald vooraf gedefinieerd percentage van uitschieters verwijderd wordt (bijv. 5% van de resultaten) kan de referentiereeks robuuster worden gemaakt voor variatie in de referentiereeks.As mentioned earlier, the methodology and the platform allow a certain degree of freedom to the user. In addition to defining own thresholds and thresholds, the user can also define own reference sets of genomes to be used to calculate the scores and / or other information such as the fetal fraction, gender determination, etc. using its own reference set, a user can better detect the recurring technical variation of the lab (different wet lab reagents and protocol, different NGS instrument and platform, different operator, different ...) and therefore have a better suitable reference data set for the determined lab. In order to ensure the robustness of a new reference series, methodologies are provided for the removal of outliers from the reference series. E.g. if 100 reference samples are used in a reference set, there will be 100 reference sets for every 50 kb bin. If a predetermined percentage of outliers is removed (e.g., 5% of the results), the reference set can be made more robust for variation in the reference set.

In een uitvoeringsvorm wordt een werkwijze voorzien voor het uitvoeren van CNV-calling. Met de term 'CNV calling' wordt een methodologie bedoeld die de grenzen van een CNV of een segmentale aneuploïdie bepaalt. De genoemde grenzen moeten worden geïnterpreteerd als de benaderende chromosomale coördinaten.In one embodiment, a method is provided for performing CNV calling. The term "CNV calling" means a methodology that determines the limits of a CNV or segmental aneuploidy. The mentioned limits must be interpreted as the approximate chromosomal coordinates.

Deze grenzen worden later gebruikt voor kruisreferentie met CNV-referentiegenoomgegevensbanken die eerder geobserveerde CNV's bevatten (optioneel geannoteerd, bijv. goedaardig of pathogeen). CNV calling kan worden uitgevoerd door verscheidene methodologieën. Sommige daarvan werden ontwikkeld in het array-CGH veld (waar één of aangrenzende reeks van eCGH sonde(s) kan worden overwogen als het equivalent van een bin), andere zijn specifieker voor NGS-gegevens.These limits are later used for cross-reference with CNV reference genomic databases containing previously observed CNVs (optionally annotated, e.g., benign or pathogenic). CNV calling can be performed by various methodologies. Some of them were developed in the array CGH field (where one or adjacent series of eCGH probe (s) can be considered as the equivalent of a bin), others are more specific to NGS data.

In een andere uitvoeringsvorm laat het genoemde platform CNV-kwantificering toe. Met de term CNV-kwantificering wordt bedoeld de bepaling van het absolute aantal kopieën (of het verwachte bereik) van de geobserveerde CNV. Dit laatste laat de bepaling toe of een CNV eerder van de moeder komt (erg hoge waarde) of eerder van de foetus (erg lage waarde). De genoemde CNV-kwantificering gebeurt bij voorkeur na CNV calling. In een andere, meer voorkeurdragende uitvoeringsvorm houdt de genoemde CNV calling rekening met kennis op de celvrije fractie.In another embodiment, the said platform allows CNV quantification. By the term CNV quantification is meant the determination of the absolute number of copies (or the expected range) of the observed CNV. The latter allows the determination of whether a CNV comes from the mother (very high value) or rather from the fetus (very low value). The aforementioned CNV quantification is preferably done after CNV calling. In another, more preferred embodiment, said CNV calling takes into account knowledge on the cell-free fraction.

In een uitvoeringsvorm laat het genoemde platform CNV- handtekeningherkenning toe. Met de term 'CNV handtekeningherkenning' wordt een methodologie bedoeld voor het bepalen of een specifieke combinatie van CNV's (en de hoeveelheid ervan) aanwezig is in een monster. CNV handtekeningherkenning wordt bij voorkeur uitgevoerd na CNV calling en CNV kwantificering.In one embodiment, the said platform allows CNV signature recognition. The term "CNV signature recognition" refers to a methodology for determining whether a specific combination of CNVs (and the amount thereof) is present in a sample. CNV signature recognition is preferably performed after CNV calling and CNV quantification.

Alle bovengenoemde methodologieën maken gebruik van een of meerdere CNV-referentiegenoomgegevensbanken die gekende CNV's bevatten. De bovengenoemde methodologieën kunnen gebaseerd zijn op de uitlijning van sequenties die zijn verkregen uit een biologisch monster tegenover de genoemde een of meerdere CNV-referentiegegevensbanken, of anders het aligneren van de sequenties die zijn verkregen van een biologisch monster tegenover een referentiegenoom en later het identificeren van de aflezingen die zijn uitgelijnd tegenover specifieke interessante gebieden (d.w.z. de gebieden die zijn geïdentificeerd als CNV's in de CNV-referentiegegevensbanken). Koppeling met dergelijke referentiegegevensbanken laat de identificatie toe van CNV's die (waarschijnlijk) pathogeen zijn en bijgevolg wordt de (klinische) nauwkeurigheid verhoogd: als een CNV wordt geobserveerd, en het bevat een (waarschijnlijk) pathogeen gebied, zou het zeer relevant kunnen zijn en verdere opvolging van de patiënt kunnen vereisen.All of the above methodologies use one or more CNV reference genome databases that contain known CNVs. The above methodologies may be based on the alignment of sequences obtained from a biological sample against said one or more CNV reference databases, or else aligning the sequences obtained from a biological sample against a reference genome and later identifying the readings aligned with specific areas of interest (ie the areas identified as CNVs in the CNV reference databases). Linking with such reference databases allows the identification of CNVs that are (probably) pathogenic and therefore the (clinical) accuracy is increased: if a CNV is observed, and it contains a (likely) pathogenic area, it could be very relevant and further require patient follow-up.

Het platform volgens de onderhavige uitvinding laat een hoge vrijheidsgraad voor de gebruiker of beroepskracht toe. Het genoemde platform zal bij voorkeur compatibel zijn met verschillende gegevensformaten zoals fastq-, fastq.gz-, bel- en bam-bestanden. In een verdere uitvoeringsvorm kan het genoemde platform gegevensformaten omvatten die rechtstreeks gestreamd zijn van het sequencingplatform dat wordt gebruikt (bijv. NGS-instrument). Dit laatste vermindert de wachttijd sterk voor gegevensupload aangezien de upload gelijktijdig met de sequencingreactie plaatsvindt. De totale tijd-tot-resultaat zal bijgevolg worden geoptimaliseerd, hetgeen voordelig is voor de gebruiker.The platform according to the present invention allows a high degree of freedom for the user or professional. Said platform will preferably be compatible with various data formats such as fastq, fastq.gz, call and bam files. In a further embodiment, said platform may comprise data formats that are directly streamed from the sequencing platform being used (e.g., NGS instrument). The latter greatly reduces the waiting time for data upload since the upload takes place simultaneously with the sequencing reaction. The total time-to-result will therefore be optimized, which is advantageous for the user.

In een uitvoeringsvorm is het genoemde platform compatibel met sequencinggegevens van verschillende bronnen, waaronder SNRT (enkel-molecule real-time) sequencinggegevens. Algoritmen kunnen aanwezig zijn die de verwerking toelaten van SMRT-gegevens (zoals bijv. PacBio) en epigenetische informatie afleiden (bijv. methylatie of andere modificaties) van de genoemde SMRT-gegevens. Dit laatste laat opnieuw identificatie toe van parameters die de detectie van aneuploïdie aangeven of zouden kunnen helpen bij de bepaling van de foetale fractie, of het bepalen van kwaliteitsmetriek.In one embodiment, said platform is compatible with sequencing data from various sources, including SNRT (single-molecule real-time) sequencing data. Algorithms may be present that allow processing of SMRT data (such as, for example, PacBio) and derive epigenetic information (e.g., methylation or other modifications) from said SMRT data. The latter allows re-identification of parameters that indicate the detection of aneuploidy or could assist in determining the fetal fraction, or determining quality metrics.

Het platform volgens de onderhavige uitvinding is inherent compatibel met veel verschillende types NGS-bibliotheekbereidingskits en protocollen en NGS-sequencingplatform. Dit is een voordeel aangezien een gebruiker niet zal moeten investeren in speciaal NGS-sequencingplatform of NGS-bibliotheekbereidingskits die specifiek zijn voor een specifieke toepassing, maar de gebruiker kan in plaats daarvan het voorkeurdragende platform en de voorkeurdragende kit gebruiken. Bovendien biedt het aan een gebruiker een bepaalde graad van flexibiliteit met betrekking tot het materiaal dat moet worden gebruikt. Als nieuwere of goedkopere instrumenten of kits beschikbaar worden, zal een gebruiker gemakkelijk kunnen veranderen.The platform of the present invention is inherently compatible with many different types of NGS library preparation kits and protocols and NGS sequencing platform. This is an advantage since a user will not have to invest in special NGS sequencing platform or NGS library preparation kits specific to a specific application, but the user can use the preferred platform and the preferred kit instead. Moreover, it offers a user a certain degree of flexibility with regard to the material to be used. If newer or cheaper instruments or kits become available, a user can easily change.

Zoals hierboven vermeld, is de onderhavige methodologie compatibel met celvrij DNA dat is geëxtraheerd uit verschillende soorten biologische monsters, waaronder bloed, speeksel, blastocoel fluïdum en urine. Het gebruik van urine of speeksel in plaats van bloed zou een echt niet-invasief monstertype bieden en laat bijv. testen thuis en verzending van het monster naar het testlabo toe. Dit is duidelijk een extra voordeel vergeleken met andere werkwijzen voor het verkrijgen van monsters zoals het afnemen van bloed.As mentioned above, the present methodology is compatible with cell-free DNA extracted from various types of biological samples, including blood, saliva, blastocoel fluid, and urine. The use of urine or saliva instead of blood would provide a truly non-invasive sample type and allow, for example, testing at home and dispatch of the sample to the test lab. This is clearly an additional benefit compared to other methods of obtaining samples such as blood collection.

VoorbeeldenExamples

Bereiding en seauencina van het monsterPreparation and seauencina of the sample

1. Bloedafname, scheiding van plasma en extractie van celvrij DNA Eén proefbuisje (10 ml) van bloed van de moeder wordt verzameld in Streck-proefbuisjes en bewaard bij 4°C. Het bloed wordt afgenomen via een standaard flebotomieprocedure.1. Blood collection, plasma separation and cell-free DNA extraction One test tube (10 ml) of maternal blood is collected in Streck test tubes and stored at 4 ° C. The blood is collected via a standard phlebotomy procedure.

Het plasma (+/- 5 ml) wordt maximum 72 uur gescheiden na de afname van het bloed door de standaard dubbele centrifugatiemethode: • Het bloedmonster wordt gecentrifugeerd bij 2000xg gedurende 20 minuten (dit kan plaatsvinden bij kamertemperatuur), zonder het gebruik van de rem. • Het plasma wordt dan overgebracht naar hetzij drie 1,5 ml lage bindingsproefbuisjes, hetzij één enkel 5 ml lage bindingsproefbuisje. Een tweede centrifugatie bij 13000xg gebeurt gedurende 2 minuten (dit kan plaatsvinden bij kamertemperatuur). • Het plasma wordt overgebracht naar steriele 1,5 ml of 5 ml lage bindingsproefbuisjes voor opslag bij -20°C voorafgaand aan de extractie van celvrij DNA (cfDNA).The plasma (+/- 5 ml) is separated for a maximum of 72 hours after the blood has been collected by the standard double centrifugation method: • The blood sample is centrifuged at 2000xg for 20 minutes (this can take place at room temperature), without the use of the brake . The plasma is then transferred to either three 1.5 ml low binding test tubes or a single 5 ml low binding test tube. A second centrifugation at 13000xg takes place for 2 minutes (this can take place at room temperature). • The plasma is transferred to sterile 1.5 ml or 5 ml low binding test tubes for storage at -20 ° C prior to cell-free DNA (cfDNA) extraction.

De vaalgele coatingslaag kan optioneel worden bewaard voor latere tests. Genomisch DNA van de moeder van de vaalgele coatinglaag kan onderzocht worden om afwijkingen van de moeder te bevestigen of uit te sluiten.The pale yellow coating can optionally be saved for later testing. Genomic DNA from the mother of the pale yellow coating can be examined to confirm or rule out abnormalities of the mother.

Het celvrije DNA wordt geëxtraheerd uit het plasma met behulp van de QIAamp Circulating Nucleic Acid Kit (Qiagen) volgens de aanbevelingen van de fabrikant, met een uiteindelijk elutievolume van 60 pi. De DNA-monsters worden bewaard bij -20°C wanneer ze niet onmiddellijk worden gebruikt voor bibliotheekbereiding. 2. cfDNA-kwantificerinaThe cell-free DNA is extracted from the plasma using the QIAamp Circulating Nucleic Acid Kit (Qiagen) according to the manufacturer's recommendations, with a final elution volume of 60 pi. The DNA samples are stored at -20 ° C if they are not immediately used for library preparation. 2. cfDNA quantifiers

Het geëxtraheerde cfDNA wordt gekwantificeerd met behulp van een Qubit-fluorometer. De concentratie van het celvrije DNA bedraagt gewoonlijk 0,1-1 ng/pl. 3. Bibliotheekbereidina 25 μΙ van het geëxtraheerd cfDNA wordt gebruikt als startmateriaal voor bibliotheekbereiding.The extracted cfDNA is quantified using a Qubit fluorometer. The concentration of the cell-free DNA is usually 0.1-1 ng / µl. 3. Library preparation 25 μΙ of the extracted cfDNA is used as starting material for library preparation.

Tijdens de bibliotheekbereiding worden de DNA-monsters aangepast voor volgende-generatie sequencing. Adaptors worden toegevoegd aan de uiteinden van de DNA-fragmenten.During library preparation, the DNA samples are adapted for next-generation sequencing. Adapters are added to the ends of the DNA fragments.

De sequencingbibliotheken worden bereid met behulp van de TruSeq ChlP-bibliotheekbereidingskit (Illumina) met bepaalde aanpassingen van het protocol van de fabrikant door het verlagen van de reagensvolumes om de generatie van sequencingbibliotheken toe te laten met behulp van lage starthoeveelheden van DNA.The sequencing libraries are prepared using the TruSeq ChlP library preparation kit (Illumina) with certain modifications to the manufacturer's protocol by lowering the reagent volumes to allow the generation of sequencing libraries using low starting amounts of DNA.

Het protocol voor bibliotheekbereiding kan als volgt worden samengevat: (Opmerking: De korrelgebaseerde grootteselectie voor het verwijderen van grote DNA-fragmenten en het verwijderen van kleine DNA-fragmenten beschreven in het protocol wordt NIET gebruikt.)The library preparation protocol can be summarized as follows: (Note: The grain-based size selection for removing large DNA fragments and removing small DNA fragments described in the protocol is NOT used.)

Eindherstellina van de DNA-fraamenten: 1. Voeg 5 μΙ Hersuspensiebuffer en 20 μΙ eindherstellingsmix toe aan het 25 μΙ startmateriaal (totaal = 50 μΙ)Final repair of the DNA fractions: 1. Add 5 μΙ Resuspension buffer and 20 μΙ final repair mix to the 25 μΙ starting material (total = 50 μΙ)

De korrelgebaseerde grootteselectie voor het verwijderen van grote DNA-fragmenten en het verwijderen van kleine DNA-fragmenten beschreven in het protocol wordt NIET gebruikt.The grain-based size selection for removing large DNA fragments and removing small DNA fragments described in the protocol is NOT used.

2. Incubeer gedurende 30 minuten op 30°C 3. Voeg 80 μΙ onverdunde AMPure-korrels toe aan het 50 μΙ monstermengsel na eindherstelling. 4. Was de korrels tweemaal met 190 μΙ 80% EtOH. 5. Suspendeer de gedroogde pellet opnieuw met 10 μΙ hersuspensiebuffer.2. Incubate for 30 minutes at 30 ° C. 3. Add 80 μΙ undiluted AMPure beads to the 50 μΙ sample mixture after final repair. 4. Wash the pellets twice with 190 μΙ 80% EtOH. 5. Re-suspend the dried pellet with 10 μΙ resuspension buffer.

Breng 9 μΙ van de bovendrijvende laag over naar een nieuw proefbuisje.Transfer 9 μΙ of the supernatant layer to a new test tube.

Adenvlatie van de 3'-uiteinden 1. Voeg 6,25 μΙ A-staart mix toeAdenvlation of the 3 'ends 1. Add 6.25 μΙ A-tail mix

2. Verwarm gedurende 30 minuten bij 37°C + 5 minuten bij 70°C2. Heat for 30 minutes at 37 ° C + 5 minutes at 70 ° C

Liaatie van de geïndexeerde aepaard-uiteinde adaptors met het DNA 1. Adaptors worden l/2e verdund met hersuspensiebuffer => voeg 2,5 μΙ toe aan het monsterLiaation of the indexed horse-tail end adapters with the DNA 1. Adapters are diluted 1 / 2nd with resuspension buffer => add 2.5 μΙ to the sample

2. Voeg 1,25 μΙ ligatiemix toe (geen hersuspensiebuffer). Incubeer gedurende 30 minuten op 30°C 3. Voeg 2,5 μΙ stopligatiebuffer toe 4. Voeg 21 μΙ AMPure toe voor reiniging 5. Was de korrels tweemaal met 190 μΙ 80% EtOH. 6. Suspendeer de gedroogde pellet opnieuw in 27 μΙ hersuspensiebuffer. Breng 25 μΙ van de bovendrijvende laag over naar een nieuw proefbuisje. 7. Voeg 25 μΙ AMPure toe voor reiniging 8. Was de korrels tweemaal met 190 μΙ 80% EtOH. 9. Suspendeer de gedroogde pellet opnieuw in 12,5 μΙ hersuspensiebuffer. Breng 10 μΙ van de bovendrijvende laag over naar een nieuw proefbuisje.2. Add 1.25 μΙ ligation mix (no resuspension buffer). Incubate for 30 minutes at 30 ° C 3. Add 2.5 μΙ stop ligation buffer 4. Add 21 μΙ AMPure for cleaning 5. Wash the beads twice with 190 μΙ 80% EtOH. 6. Re-suspend the dried pellet in 27 μΙ resuspension buffer. Transfer 25 μΙ of the supernatant layer to a new test tube. 7. Add 25 μΙ AMPure for cleaning. 8. Wash the pellets twice with 190 μΙ 80% EtOH. 9. Re-suspend the dried pellet in 12.5 μΙ resuspension buffer. Transfer 10 μΙ of the supernatant layer to a new test tube.

Verrijken van DNA-fraamenten 1. Bereid de PCR-mix voor door 2,5 μΙ PCR Primer Cocktail en 12,5 μΙ PCR Master Mix te mengen voor elk monster. 2. PCR-condities: 98°C gedurende 30 seconden 15 cycli van:Enriching DNA fractions 1. Prepare the PCR mix by mixing 2.5 μΙ PCR Primer Cocktail and 12.5 μΙ PCR Master Mix for each sample. 2. PCR conditions: 98 ° C for 30 seconds 15 cycles of:

98°C gedurende 10 seconden 60°C gedurende 30 seconden 72°C gedurende 30 seconden 72°C gedurende 5 seconden houden op 4°C 3. Voeg 25 μΙ AMPure toe voor reiniging 4. Was de korrels tweemaal met 190 μΙ 80% EtOH. 5. Suspendeer de gedroogde pellet opnieuw in 32,5 μΙ hersuspensiebuffer. Breng 30 μΙ van de bovendrijvende laag over naar een nieuw proefbuisje. 6. Gebruik 2 μΙ van het monster voor Qubit-kwantificering en 2 μΙ voor fragmenta na lyse (zie volgende deel). 4. Kwaliteitscontrole van bibliotheek98 ° C for 10 seconds 60 ° C for 30 seconds 72 ° C for 30 seconds Keep 72 ° C for 5 seconds at 4 ° C 3. Add 25 μΙ AMPure for cleaning 4. Wash the pellets twice with 190 μΙ 80% EtOH . 5. Re-suspend the dried pellet in 32.5 μΙ resuspension buffer. Transfer 30 μΙ of the supernatant layer to a new test tube. 6. Use 2 μΙ of the sample for Qubit quantification and 2 μΙ for fragmenta after lysis (see next section). 4. Quality control of library

Goede celvrije DNA-isolatie en NGS-bibliotheekbereiding worden getest door het analyseren van elke bibliotheek op de fragmentanalyser (Advanced Analytical Technologies Ine., Duitsland) voorafgaand aan sequencing, voor de beoordeling van: • de grootteverdeling (geschikte grootteprofiel bevestigen met behulp van concentratie, piekverhouding, piekhoogte, ...), • de kwaliteit van de bibliotheek. Monsters bevattende fragmenten met een hoog moleculair gewicht zullen worden ingedeeld als monsters die in aanmerking komen voor sequencing (geeft contaminatie aan met genomisch DNA van de moeder).Good cell-free DNA isolation and NGS library preparation are tested by analyzing each library on the fragment analyzer (Advanced Analytical Technologies Ine., Germany) prior to sequencing, to assess: • size distribution (confirm appropriate size profile using concentration, peak ratio, peak height, ...), • the quality of the library. High molecular weight fragments containing samples will be classified as samples that are eligible for sequencing (indicates contamination with genomic DNA from the mother).

Typische bibliotheken vertonen een smalle grootteverdeling met een piek op ongeveer 300-350 bp.Typical libraries exhibit a narrow size distribution with a peak at about 300-350 bp.

Daarnaast wordt een Qubit-kwantificeringsstap uitgevoerd zodat de verrijkingsreactie zal plaatsvinden met de geschikte hoeveelheid van ingebracht DNA-materiaal. De concentratie van DNA bedraagt gewoonlijk 15-30 ng/pl. 5. Bibliotheken normaliseren en groeperenIn addition, a Qubit quantization step is performed so that the enrichment reaction will take place with the appropriate amount of inserted DNA material. The concentration of DNA is usually 15-30 ng / µl. 5. Normalize and group libraries

Monsters worden geïndexeerd tijdens bibliotheekbereiding en tot 24 monsters worden genormaliseerd en gegroepeerd in gelijke volumes voor multiplex sequencing over beide banen van een Illumina HiSeq2500 stroomcel. 6. NGS-runSamples are indexed during library preparation and up to 24 samples are normalized and grouped in equal volumes for multiplex sequencing across both lanes of an Illumina HiSeq2500 flow cell. 6. NGS run

Sequencing wordt uitgevoerd op de HiSeq 2500 (Illumina) in Snelle Runmodus waarbij 50 bp enkel-uiteinde aflezingen worden geproduceerd.Sequencing is performed on the HiSeq 2500 (Illumina) in Fast Run mode where 50 bp single-end readings are produced.

Detectie van een aneuploïdie in een biologisch monster: validatie van de methodologie • Mapping en filtering van de toegekende aflezingenDetection of aneuploidy in a biological sample: validation of the methodology • Mapping and filtering of the assigned readings

De 50 bp enkel-uiteinde sequentieaflezingen van een testmonster worden toegewezen aan het referentiegenoom GRCh37.75 met BWA-backtrack. Met Picard tools worden gedupliceerde aflezingen verwijderd en gebaseerd op de mappingkwaliteit worden aflezingen die verwijzen naar meerdere locaties genegeerd. Ook aflezingen die suboptimaal verwijzen naar meerdere locaties worden verwijderd. Om de variabiliteit van monsters te reduceren weerhouden we enkel de aflezingen die perfect overeenkomen met het referentiegenoom (d.w.z. er zijn geen mismatches en geen openingen toegelaten). Tot slot worden ook aflezingen die in een intern opgestelde lijst van gebieden op de zwarte lijst vallen, verwijderd. Deze gebieden op de zwarte lijst omvatten gewone polymorfe CNV's, collapsed repeats, DAC zwarte-lijst gebieden gegenereerd voor het ENCODE-project en het ongedefinieerde deel van het referentiegenoom (d.w.z. d eNs). * Berekenen van genomische voorstellingThe 50 bp single-end sequence readings from a test sample are assigned to the reference genome GRCh37.75 with BWA backtrack. With Picard tools, duplicated readings are removed and based on mapping quality, readings that refer to multiple locations are ignored. Readings that refer sub-optimally to multiple locations are also deleted. To reduce the variability of samples, we only use the readings that perfectly match the reference genome (i.e. no mismatches and no openings are allowed). Finally, readings that are blacklisted in an internally compiled list of areas are also deleted. These blacklisted areas include common polymorphic CNVs, collapsed repeats, DAC blacklisted areas generated for the ENCODE project, and the undefined part of the reference genome (i.e., the eNs). * Calculation of genomic representation

Het referentiegenoom is onderverdeeld in stukken van 50 kb en het aantal aflezingen van het testmonster wordt geteld per stuk. Deze tellingen van aflezingen worden gecorrigeerd volgens de GC-gehaltes van de stukken met lokaal gewogen spreidingsdiagramafvlakking (Loess-regressie). Deze GC-gecorrigeerde aflezingstellingen worden dan gedeeld door de totale som van alle autosomale GC-gecorrigeerde aflezingstellingen en vermenigvuldigd met 107. Dit wordt gedefinieerd als de genomische voorstellingen (GR) per stuk. Op deze per-stuk GR-waarden wordt een schuifvenster toegepast en de som van deze GR-waarden wordt bepaald voor alle opeenvolgende 100 stukken. De vensters worden elk in de tijd verschoven met 1 stuk (d.w.z. 50 kb). Op deze manier wordt een GR-waarde verkregen per venster van 5 Mb. Zo ook wordt voor elke autosoom de som van de per-stuk GR-waarden berekend, om een GR-waarde te verkrijgen voor elke autosoom in het testmonster. * Vergelijking met een referentiereeksThe reference genome is subdivided into 50 kb pieces and the number of readings from the test sample is counted per piece. These counts of readings are corrected according to the GC levels of the pieces with locally weighted scatter plot smoothing (Loess regression). These GC-corrected reading counts are then divided by the total sum of all autosomal GC-corrected reading counts and multiplied by 107. This is defined as the genomic representations (GR) per piece. A sliding window is applied to these per-piece GR values and the sum of these GR values is determined for all consecutive 100 pieces. The windows are each shifted in time by 1 piece (i.e., 50 kb). In this way a GR value is obtained per window of 5 Mb. Similarly, for each autosome, the sum of the piece GR values is calculated to obtain a GR value for each autosome in the test sample. * Comparison with a reference series

In een referentiereeks van 100 normale monsters (50 mannelijke en 50 vrouwelijke zwangerschappen) worden de GR-waarden berekend voor alle autosomen en voor alle vensters van 50 Mb zoals hierboven is beschreven. Voor elk autosoom en venster van 5 Mb worden het gemiddelde μ en de standaardafwijking σ van de GR-scores berekend over alle 100 referentiemonsters. Op deze manier kan een Z-score worden berekend voor elk venster en elk autosoom i in een testmonster, gedefinieerd alsIn a reference set of 100 normal samples (50 male and 50 female pregnancies), the GR values are calculated for all autosomes and for all 50 Mb windows as described above. For each autosome and window of 5 Mb, the mean μ and the standard deviation σ of the GR scores are calculated over all 100 reference samples. In this way, a Z score can be calculated for each window and every autosome i in a test sample, defined as

waarbij GRt de GR-waarde in het testmonster is voor venster of autosoom i en μ£, σ; het gemiddelde en de standaardafwijking, respectievelijk, van de GR-scores gemeten in de 100 referentiemonsters voor venster of autosoom i.where GRt is the GR value in the test sample for window or autosome i and μ £, σ; the average and standard deviation, respectively, of the GR scores measured in the 100 window or autosome i reference samples.

Op basis van de 22 Z-scores van de autostomen in een testmonster is een ZZ2 score berekend voor elk autosoom alsBased on the 22 Z-scores of the car steams in a test sample, a ZZ2 score was calculated for each autosome as

waarbij de Z-score Zt van autosoom i in het testmonster wordt vergeleken met de mediaan en de standaardafwijking (sd) van de 22 Z-scores verkregen voor alle 22 autosomen in het testmonster.wherein the Z-score Zt of autosome i in the test sample is compared with the median and the standard deviation (sd) of the 22 Z-scores obtained for all 22 autosomes in the test sample.

Als alternatief, wordt een ZofZ-score berekend alsAlternatively, a ZofZ score is calculated as

waarbij de Z-score Z{ van chromosoom i in het testmonster wordt vergeleken met de mediaan en de mediane absolute afwijking (mad) van de 22 Z-scores verkregen voor alle 22 autosomen in het testmonster. De ZZ2- en ZofZ-scores kwantificeren de afwijking van de Z-score van het doelautosoom van? alle Z-scores die zijn geobserveerd in het testmonster. Deze robuuste versie van de Z-of-Z-scores maakt geen vooronderstellingen over de aneuploïdie-status van het desbetreffende autosoom en de andere autosomen.wherein the Z score Z {of chromosome i in the test sample is compared with the median and median absolute deviation (mad) of the 22 Z scores obtained for all 22 autosomes in the test sample. The ZZ2 and ZofZ scores quantify the deviation of the Z score of the target autosome from? all Z scores observed in the test sample. This robust version of the Z-or-Z scores makes no assumptions about the aneuploidy status of the autosome and the other autosomes.

Op basis van de Z-scores berekend voor alle 5 Mb-vensters in het testmonster, wordt de BM-score van elk autostoom / berekend als de mediaan van de Z-scores over alle vensters in het doelautosoom:Based on the Z scores calculated for all 5 Mb windows in the test sample, the BM score of each car steam / is calculated as the median of the Z scores for all windows in the target autosome:

waar de mediaan van de Z-scores wordt berekend over alle vensters j op autosoom /'.where the median of the Z-scores is calculated over all windows j on autosome / '.

Deze BM-score geeft de grootte van de afwijking weer: aneuploïdieën zullen resulteren in hogere BM-waarden, terwijl kleinere, segmentele CNV's minder invloed zullen hebben op de mediaan van de Z-scores en resulteren in lagere BM-scores.This BM score reflects the magnitude of the deviation: aneuploidies will result in higher BM values, while smaller, segmental CNVs will have less influence on the median of the Z scores and result in lower BM scores.

Om een onderscheid te maken tussen afwijkingsgerelateerde BM-scores en verhoogde BM-waarden omwille van ruis in de gegevensreeks, wordt de OM-score voor een autosoom /' berekend als de mediaan van de Z-scores van alle vensters van de andere autosomen:To distinguish between deviation-related BM scores and increased BM values due to noise in the data series, the OM score for an autosome is calculated as the median of the Z scores of all windows of the other autosomes:

waarbij de mediaan wordt berekend over alle, absolute Z-scores voor 5 Mb vensters j die zich niet op autosoom /' bevinden.the median being calculated over all, absolute Z-scores for 5 Mb windows j that are not on autosome / '.

Tot slot wordt voor elk testmonster een kwaliteitsscore (QS) berekend alsFinally, a quality score (QS) is calculated for each test sample

met; over alle autosomen behalve voor de 2 autosomen met de hoogste en de laagste Z-score. Deze score zal testmonsters identificeren met een slechte kwaliteit die resulteren in onbetrouwbare aneuploïdie calling. Een sterk verhoogde QS-score kan ook verwijzen naar DNA-monsters bevattende ten minste een fractie van DNA dat afkomstig is van een tumor.with; over all autosomes except for the 2 autosomes with the highest and lowest Z score. This score will identify test samples with poor quality that result in unreliable aneuploidy calling. A greatly increased QS score can also refer to DNA samples containing at least a fraction of DNA from a tumor.

Voor elk van de hierboven berekende parameters kan een drempelwaarde worden gedefinieerd. Op basis van standaard statistische overwegingen kan men een drempelwaarde van 2, 2,5 of 3 kiezen. In de context van de Z-score betekent dit dat de kans dat het testresultaat normaal is (d.w.z. de verkregen GR-score is gelijkaardig aan de GR-scores voor hetzelfde gebied in de referentiereeks) erg klein is. Om een test specifieker te maken, zou men de drempelwaarde kunnen verhogen. Om een test gevoeliger te maken, zou men de drempelwaarde kunnen verlagen. Deze drempelwaarden kunnen voor elk van de parameters worden bepaald, en kunnen voor elk van de parameters verschillen. Het is bijvoorbeeld denkbaar dat drempelwaarden voor BM en OM worden ingesteld op 1 terwijl ze voor de Z-score en ZZ-score op 3 worden ingesteld. Ook negatieve drempelwaarden kunnen worden gebruikt.A threshold value can be defined for each of the parameters calculated above. A threshold value of 2, 2.5 or 3 can be chosen based on standard statistical considerations. In the context of the Z score, this means that the probability that the test result is normal (i.e. the obtained GR score is similar to the GR scores for the same area in the reference series) is very small. To make a test more specific, the threshold value could be increased. To make a test more sensitive, the threshold value could be lowered. These threshold values can be determined for each of the parameters, and can differ for each of the parameters. For example, it is conceivable that threshold values for BM and OM are set to 1 while they are set to 3 for the Z score and ZZ score. Negative thresholds can also be used.

Voorbeeld 1Example 1

1.1 ZZ2-berekening voor chromosoom 21 voor monster A1.1 ZZ2 calculation for chromosome 21 for sample A

Voor monster A is de mediaan van de Z-scores voor alle chromosomen gelijk aan -0,1641 en is de standaardafwijking gelijk aan 2,494. Voor chromosoom 21 hebben wij een Z-score van 11,147 en dit resulteert in een ZZ2-score van 4,5347, boven de drempel van 3. (Figuur 1)For sample A, the median of the Z scores for all chromosomes is -0.1641 and the standard deviation is 2.494. For chromosome 21 we have a Z score of 11,147 and this results in a ZZ2 score of 4,5347, above the threshold of 3. (Figure 1)

Deze geautomatiseerde indeling als een abnormaal chromosoom op basis van ZZ2>3 is ook bevestigd door visuele inspectie van de grafiek. Dit monster werd getest met een invasieve test en de trisomie werd bevestigd.This automated classification as an abnormal chromosome based on ZZ2> 3 has also been confirmed by visual inspection of the graph. This sample was tested with an invasive test and the trisomy was confirmed.

Geen van de andere chromosomen in monster A hebben verhoogde ZZ2-scores (figuur 2).None of the other chromosomes in sample A have elevated ZZ2 scores (Figure 2).

De grafieken van de Z-scores van deze andere chromosomen zijn ook niet indicatief voor aneuploïdie. Op chromosoom 11 bijvoorbeeld hebben we een ZZ2-score van 0,319 en dit resulteert in de grafiek zoals getoond op figuur 3.The graphs of the Z scores of these other chromosomes are also not indicative of aneuploidy. On chromosome 11, for example, we have a ZZ2 score of 0.319 and this results in the graph as shown in Figure 3.

De grafiek op figuur 3 toont de BM-scores van alle autosomen. Dit laatste bevestigt dat het chromosoom 21 sterk afwijkend is, terwijl andere potentiële autosomale afwijkingen minder dan de helft van het chromosoom zullen dekken.The graph in Figure 3 shows the BM scores of all autosomes. The latter confirms that chromosome 21 is highly abnormal, while other potential autosomal abnormalities will cover less than half the chromosome.

1.2 ZofZ-berekening voor chromosoom 21 voor monster A1.2 ZofZ calculation for chromosome 21 for sample A

Voor monster A is de mediaan van de Z-scores voor alle chromosomen gelijk aan -0,164 en is de mediane absolute afwijking gelijk aan 0,819. Voor chromosoom 21 hebben wij een Z-score van 11,147 en dit resulteert in een ZofZ-score van 13,817, ver boven de drempel van 3. Als we de Z-scores in een grafiek uitzetten, wijst dit duidelijk op trisomie 21 (figuur 9). Dit monster werd getest met een invasieve test en de trisomie werd bevestigd.For sample A, the median of the Z scores for all chromosomes is -0.164 and the median absolute deviation is 0.819. For chromosome 21 we have a Z score of 11,147 and this results in a ZofZ score of 13.817, far above the threshold of 3. If we plot the Z scores in a graph, this clearly indicates trisomy 21 (Figure 9) . This sample was tested with an invasive test and the trisomy was confirmed.

Op basis van deze ZofZ-scores en een drempel van 3 zou geen van de andere chromosomen aneuploïdie genoemd worden (figuur 10).Based on these ZofZ scores and a threshold of 3, none of the other chromosomes would be called aneuploidy (Figure 10).

De grafieken van de Z-scores van deze andere chromosomen zijn ook niet indicatief voor aneuploïdie. Op chromosoom 11 bijvoorbeeld hebben we een ZofZ-score van 0,973 en dit resulteert in de grafiek zoals getoond op figuur 11.The graphs of the Z scores of these other chromosomes are also not indicative of aneuploidy. For example, on chromosome 11 we have a ZofZ score of 0.973 and this results in the graph as shown in Figure 11.

1.3 ZZ2-berekenina voor chromosoom 16 voor monster B1.3 ZZ2 calculation for chromosome 16 for sample B

In monster B is de mediaan van de Z-scores voor alle chromosomen gelijk aan -0,2651 en is de standaardafwijking gelijk aan 1,464. Voor chromosoom 16 hebben wij een Z-score van 5,754 hetgeen resulteert in een ZZ2-score van 4,111, dat hoger is dan de drempel van 3.In sample B, the median of the Z scores for all chromosomes is -0.2651 and the standard deviation is 1.464. For chromosome 16 we have a Z score of 5.754 which results in a ZZ2 score of 4.111, which is higher than the threshold of 3.

Als de Z-scores in een grafiek worden uitgezet (figuur 5), wijst dit namelijk duidelijk op een trisomie 16. Dit monster werd getest met een invasieve test en de trisomie werd bevestigd.Namely, if the Z scores are plotted in a graph (Figure 5), this clearly indicates a trisomy 16. This sample was tested with an invasive test and the trisomy was confirmed.

Geen van de andere chromosomen in monster B hebben verhoogde ZZ2-scores (figuur 6).None of the other chromosomes in sample B have elevated ZZ2 scores (Figure 6).

De grafieken van de Z-scores van deze andere chromosomen zijn ook niet indicatief voor aneuploïdie. Op chromosoom 1 bijvoorbeeld hebben we een ZZ2-score van -0,459 hetgeen resulteert in de grafiek zoals getoond op figuur 7.The graphs of the Z scores of these other chromosomes are also not indicative of aneuploidy. For example, on chromosome 1 we have a ZZ2 score of -0.459 which results in the graph as shown in Figure 7.

De grafiek van de BM-scores van alle autosomen zoals getoond op figuur 8 bevestigt dat chromosoom 16 sterk afwijkend is, terwijl andere, mogelijk afwijkende autosomale afwijkingen minder dan de helft van het chromosoom zullen dekken.The graph of BM scores of all autosomes as shown in Figure 8 confirms that chromosome 16 is highly abnormal, while other, possibly abnormal autosomal abnormalities will cover less than half of the chromosome.

1.4 ZofZ-berekening voor chromosoom 16 voor monster B1.4 ZofZ calculation for chromosome 16 for sample B

Voor monster B is de mediaan van de Z-scores voor alle chromosomen gelijk aan -0,265 en is de mediane absolute afwijking gelijk aan 0,685. Voor chromosoom 16 hebben wij een Z-score van 5,754 hetgeen resulteert in een ZofZ-score van 8,782, boven de drempel van 3. Als we de Z-scores in een grafiek uitzetten, wijst dit namelijk duidelijk op trisomie 16 (figuur 12). Dit monster werd getest met een invasieve test en de trisomie werd bevestigd.For sample B, the median of the Z scores for all chromosomes is -0.265 and the median absolute deviation is 0.685. For chromosome 16 we have a Z score of 5.754, which results in a ZofZ score of 8.772, above the threshold of 3. If we plot the Z scores in a graph, this clearly indicates trisomy 16 (Figure 12). This sample was tested with an invasive test and the trisomy was confirmed.

Op basis van deze ZofZ-scores en een drempel van 3 zou geen van de andere chromosomen aneuploïdie genoemd worden (figuur 13).Based on these ZofZ scores and a threshold of 3, none of the other chromosomes would be called aneuploidy (Figure 13).

De grafieken van deze andere chromosomen zijn ook niet indicatief voor aneuploïdie. Op chromosoom 1 hebben we bijvoorbeeld een ZofZ-score van -0,980 (figuur 14).The graphs of these other chromosomes are also not indicative of aneuploidy. For example, on chromosome 1 we have a ZofZ score of -0.980 (Figure 14).

1.5 Beoordeling van de monsterkwaliteit via ON en QS1.5 Assessment of sample quality via ON and QS

Monsters A en B waren twee duidelijke gevallen waarin één chromosoom trisoom is, terwijl alle andere autosomen zich diploïde gedragen. De volgende grafieken tonen de OM-waarden van de autosomen in monsters A en B en alle OM-waarden bevestigen dat dit een geslaagd experiment was. Dit is ook bevestigd door lage QS-scores (d.w.z. 0,576 voor monster A en 0,652 voor monster B, zie figuur 15 en 16).Samples A and B were two clear cases in which one chromosome is trisome, while all other autosomes behave diploid. The following graphs show the OM values of the autosomes in samples A and B and all OM values confirm that this was a successful experiment. This is also confirmed by low QS scores (i.e., 0.576 for sample A and 0.652 for sample B, see Figures 15 and 16).

Voorbeeld 2Example 2

In monster C observeren we een ZofZ-score van 4,141 voor chromosoom 7, terwijl de BM-score laag blijft. Figuur 17 toont een grafiek van chromosoom 7, waar een deel van het chromosoom dat waarschijnlijk een hoger kopienummer heeft, wordt geobserveerd. Dit kan wijzen op CNV van de moeder.In sample C we observe a ZofZ score of 4.141 for chromosome 7, while the BM score remains low. Figure 17 shows a graph of chromosome 7, where a portion of the chromosome that is likely to have a higher copy number is observed. This may indicate the mother's CNV.

ZofZ-scores kunnen bijgevolg ook indicatief zijn voor segmentele CNV's.ZofZ scores can therefore also be indicative of segmental CNVs.

Geautomatiseerde classificatie van het chromosoom met behulp van ZofZ>3 is erg gevoelig voor opname van CNV's (zie voorbeeld C) of grotere aneuploidieën (zie monster A en B). ZofZ kan bijgevolg worden gebruikt voor het identificeren van abnormale chromosomen, en visuele inspectie van de grafiek kan de aanwezigheid van dergelijke afwijkingen bevestigen.Automated classification of the chromosome using ZofZ> 3 is very sensitive to inclusion of CNVs (see example C) or larger aneuploidies (see samples A and B). ZofZ can therefore be used to identify abnormal chromosomes, and visual inspection of the graph can confirm the presence of such abnormalities.

Geautomatiseerde classificatie van het chromosoom met behulp van een combinatie van ZofZ>3 met een andere parameter, kan verder de specificiteit van de geautomatiseerde classificatie verbeteren, en meer granulariteit toevoegen aan de resultaten. Als bijv. ZofZ>3 en BM<1, kan dit wijzen op de aanwezigheid van een CNV (zie monster C), terwijl als bijv. ZofZ>3 en BM>1, kan dit wijzen op de aanwezigheid van grotere aneuploïdie (zie monsters A en B).Automated classification of the chromosome using a combination of ZofZ> 3 with another parameter, can further improve the specificity of the automated classification, and add more granularity to the results. If, for example, ZofZ> 3 and BM <1, this may indicate the presence of a CNV (see sample C), while if, for example, ZofZ> 3 and BM> 1, this may indicate the presence of greater aneuploidy (see samples A and B).

Voorbeeld 3: ZofZ gevoeliger dan ZZExample 3: ZofZ more sensitive than ZZ

De ZofZ-score kan gevoeliger zijn in vergelijking met ZZ voor de identificatie van CNV's. ZofZ-score kan ook gevoeliger zijn in vergelijking met ZZ voor de identificatie van CNV's of grotere aneuploïdieën in monsters met ruis. 3.1 Segmentele afwijking op chromosoom 21The ZofZ score can be more sensitive compared to ZZ for the identification of CNVs. ZofZ score can also be more sensitive compared to ZZ for the identification of CNVs or larger aneuploidies in noise samples. 3.1 Segmental abnormality on chromosome 21

In monster D werd een ZofZ-score van -6,873 voor chromosoom 21 geobserveerd, terwijl de ZZ-score zoals beschreven in Bayindir et al. 2015 (die werd gebruikt als referentiemethode) resulteerde in een ZZ-score van -2,341 (d.w.z. niet significant). In de grafiek van dat chromosoom zoals getoond op figuur 18 observeren we een deel van het chromosoom dat ondervertegenwoordigd blijkt te zijn. Dit kan wijzen op CNV van de moeder of de foetus. 3.2Segmentele afwijking op chromosoom 15In Sample D, a ZofZ score of -6.873 for chromosome 21 was observed, while the ZZ score as described in Bayindir et al. 2015 (which was used as a reference method) resulted in a ZZ score of -2.341 (ie not significant) . In the graph of that chromosome as shown in Figure 18, we observe a part of the chromosome that appears to be underrepresented. This may indicate CNV from the mother or fetus. 3.2 Segmental abnormality on chromosome 15

Op basis van de ZZ-score en de beslissingsboom beschreven in Bayindir et al. 2015, zou dit chromosoom 15 worden ingedeeld als een normaal profiel (ZZ =-2.730). De ZofZ-score van -4,51 trekt echter de aandacht naar dit chromosoom (zie figuur 19). De BM-score is gelijk aan -0,6, hetgeen erop wijst dat de afwijking gedeeltelijk is, zoals ook zou kunnen worden afgeleid uit de visuele inspectie van de grafiek. 3.3Segmentele afwijking op chromosoom 22Based on the ZZ score and the decision tree described in Bayindir et al. 2015, this chromosome would be classified as a normal profile (ZZ = -2.730). However, the ZofZ score of -4.51 draws attention to this chromosome (see Figure 19). The BM score is -0.6, indicating that the deviation is partial, as could also be deduced from the visual inspection of the graph. 3.3 Segmental abnormality on chromosome 22

In monster E werd een ZofZ-score van 3,029 voor chromosoom 22 geobserveerd (zie figuur 20), terwijl de ZZ-score zoals beschreven in Bayindir et al. 2015 resulteerde in een ZZ-score van -0,629 (d.w.z. niet significant).In sample E, a ZofZ score of 3.029 for chromosome 22 was observed (see Figure 20), while the ZZ score as described in Bayindir et al. 2015 resulted in a ZZ score of -0.629 (i.e., not significant).

Op basis van de ZZ-score en de beslissingsboom beschreven in Bayindir et al. 2015, zou dit chromosoom niet worden aangeduid en ingedeeld als normaal. Dit zou te wijten zijn aan het feit dat dit monster ook een trisomie 18 heeft (zie figuur 21). 3.4Segmentele afwijking op chromosoom 20Based on the ZZ score and the decision tree described in Bayindir et al. 2015, this chromosome would not be designated and classified as normal. This would be due to the fact that this sample also has a trisomy 18 (see Figure 21). 3.4 Segmental abnormality on chromosome 20

In monster I zou de ZZ-score zoals beschreven in Bayindir et al. 2015 lager zijn dan 3 (d.w.z. ZZ=2,195), terwijl de ZofZ-score gelijk is aan 3,31. De BM-score is ook gelijk aan 1,51, hetgeen aangeeft dat meer dan de helft van de Z-scores is gestegen. De OM-score van 1,05 toont dat deze gegevensreeks eerder ruis bevat (zie figuur 22). 3.5 Indicatie van monosomie van chromosoom 22In sample I, the ZZ score as described in Bayindir et al. 2015 would be lower than 3 (i.e., ZZ = 2,195), while the ZofZ score is equal to 3.31. The BM score is also equal to 1.51, which indicates that more than half of the Z scores have risen. The OM score of 1.05 shows that this data set contains noise earlier (see Figure 22). 3.5 Indication of chromosome monosomy 22

In monster F zien we een ZofZ-score van -3,094 voor chromosoom 22, terwijl de ZZ-score berekend zoals beschreven in Bayindir et al. 2015 gelijk is aan -1,771 (d.w.z. niet significant) (figuur 23). De ZZ-score zou resulteren in een normale waarde. Monster F heeft een trisomie 21 dat misschien dit monosome gedrag van chromosoom 22 maskeert. Merk op dat de trisomie 21 werd bevestigd via invasieve opvolging. Er waren geen opvolgingsgegevens voor chromosoom 22.In sample F we see a ZofZ score of -3.094 for chromosome 22, while the ZZ score calculated as described in Bayindir et al. 2015 equals -1.771 (i.e. not significant) (Figure 23). The ZZ score would result in a normal value. Sample F has a trisomy 21 that may mask this monosome behavior of chromosome 22. Note that the trisomy 21 was confirmed via invasive follow-up. There were no follow-up data for chromosome 22.

De laatste resultaten tonen allemaal aan dat de werkwijze volgens de onderhavige uitvinding gevoeliger is dan de methodologieën die welbekend zijn in de stand der techniek. Deze visuele voorstelling van de gegevens zoals getoond op de figuren laat geautomatiseerde classificatie en interpretatie toe. Bovendien laat de visualisatie volgens de onderhavige uitvinding toe een onderscheid te maken tussen technische ruis en ruis die te wijten is aan aneuploïdieën.The latest results all show that the method of the present invention is more sensitive than the methodologies well known in the art. This visual representation of the data as shown in the figures allows automated classification and interpretation. Moreover, the visualization according to the present invention allows a distinction to be made between technical noise and noise due to aneuploidies.

Als de gegevens ruis bevatten, en variëren langs de Z=0 as (d.w.z. zowel hoger als lager dan 0), dan is de kans groter op technische ruis. Terwijl als de gegevens niet variëren langs de Z=0 as voor een groot chromosomaal segment, is de kans groter op een renale aneuploïdie. Uit de grafiek op figuur 24 blijkt duidelijk dat het zicht niet te wijten is aan technische ruis, maar aan een afwijkende situatie.If the data contains noise, and varies along the Z = 0 axis (i.e., both higher and lower than 0), the chance of technical noise is greater. While if the data does not vary along the Z = 0 axis for a large chromosomal segment, the chance of renal aneuploidy is greater. The graph on figure 24 clearly shows that the view is not due to technical noise, but to a different situation.

Voorbeeld 4: GeslachtsbepalingExample 4: Gender determination

Het geslacht van de monsters kan worden bepaald door het beoordelen van het aantal aflezingen die verwijzen naar twintig 50kb stukken op chromosoom Y die empirisch werden geselecteerd om specifiek te zijn voor mannelijke zwangerschappen (zie Bayindi 2015 voor meer details). In geval ten minste 3 of meer Y-specifieke stukken meer dan 1 aflezing bevatten, werd bepaald dat het geslacht mannelijk was. In geval maximum 1 stuk 1 aflezing bevatte of geen van de 20 stukken een aflezing bevatte, werd bepaald dat het geslacht vrouwelijk was. In alle andere gevallen werd geen geslachtsbepaling gedaan en werd gezegd dat het geslacht onbepaald was. Dit kon bijvoorbeeld te wijten zijn aan een vanishing twin wanneer het bloedmonster foetaal DNA van twee foetussen in plaats van één bevat.The gender of the samples can be determined by judging the number of readings referring to twenty 50 kb pieces on chromosome Y that were empirically selected to be specific for male pregnancies (see Bayindi 2015 for more details). In case at least 3 or more Y-specific pieces contained more than 1 reading, the gender was determined to be male. In case a maximum of 1 piece contained 1 reading or none of the 20 pieces contained a reading, it was determined that the gender was female. In all other cases, no gender determination was made and the gender was said to be undetermined. For example, this could be due to a vanishing twin when the blood sample contains fetal DNA from two fetuses instead of one.

In een reeks van 249 geslaagde experimenten (d.w.z. QS-score was lager dan 1,5 en het aantal aflezingen dat overbleef na alle filteringstappen was hoger dan 7.000.000), werd het geslacht bepaald en dit resulteerde in een reeks van 116 (46,59%) vrouwelijke zwangerschappen, 131 (52,61%) mannelijke zwangerschappen en 2 (0,80%) onbepaalde zwangerschappen. De grafieken zoals getoond op figuur 24 en 25 voor deze 249 monsters tonen het aantal aflezingen dat is toegewezen aan het Y-chromosoom (na filtering van het BAM-bestand). 4.1 Foetale fractiebepaling voor mannelijke zwangerschappenIn a series of 249 successful experiments (ie QS score was lower than 1.5 and the number of readings remaining after all filtering steps was higher than 7,000,000), gender was determined and this resulted in a series of 116 (46, 59%) female pregnancies, 131 (52.61%) male pregnancies and 2 (0.80%) indefinite pregnancies. The graphs as shown in Figures 24 and 25 for these 249 samples show the number of readings assigned to the Y chromosome (after filtering the BAM file). 4.1 Fetal fraction determination for male pregnancies

Zodra het geslacht bepaald is, kan de foetale fractie worden bepaald voor de mannelijke zwangerschappen. Voor mannelijke zwangerschappen kan men voordeel halen uit het feit dat het foetale DNA slechts 1 kopie van X en een kopie van Y zal hebben, in plaats van de 2 kopieën van X die aanwezig zijn in het DNA van de moeder. Dit laat toe de foetale fractie op twee manieren te bepalen. Op basis van de X-chromosomen kan de foetale fractie worden bepaald als tweemaal het verschil op het 50kb-stuk niveau tussen het mediane aantal aflezingen in kaart gebracht tegenover de autosomen en het mediane aantal aflezingen in kaart gebracht tegenover chromosoom X, gedeeld door het mediane aantal aflezingen in kaart gebracht tegenover de autosomen. Dit kan als de volgende formule worden geschreven:Once the gender has been determined, the fetal fraction can be determined for male pregnancies. For male pregnancies one can take advantage of the fact that the fetal DNA will only have 1 copy of X and a copy of Y, instead of the 2 copies of X that are present in the DNA of the mother. This makes it possible to determine the fetal fraction in two ways. On the basis of the X chromosomes, the fetal fraction can be determined as twice the difference at the 50 kb piece level between the median number of readings mapped against the autosomes and the median number of readings mapped against chromosome X, divided by the median number of readings mapped against the autosomes. This can be written as the following formula:

Als tweede kan de foetale fractie ook worden geschat op basis van het Y-chromosoom aangezien alle aflezingen die betrekking hebben op het chromosoom Y in theorie afkomstig moeten zijn van het foetale DNA. De foetale fractie op basis van chromosoom Y wordt gedefinieerd als tweemaal het mediane aantal GC-gecorrigeerde aflezingen in kaart gebracht ten opzichte van Y over het mediane aantal GC-gecorrigeerde aflezingen in kaart gebracht tegenover de autosomen, of in een formule:Secondly, the fetal fraction can also be estimated based on the Y chromosome since all readings relating to chromosome Y must in theory come from the fetal DNA. The fetal fraction based on chromosome Y is defined as twice the median number of GC-corrected readings mapped compared to Y over the median number of GC-corrected readings mapped to the autosomes, or in a formula:

Nadeel van deze benadering is dat de foetale fractie enkel kan worden bepaald voor ongeveer de helft van de monsters (d.w.z. enkel voor de mannelijke zwangerschappen). In onze vorige voorbeelden werden foetale fracties berekend. De resultaten zijn getoond in tabel I.A disadvantage of this approach is that the fetal fraction can only be determined for about half of the samples (i.e. only for male pregnancies). In our previous examples, fetal fractions were calculated. The results are shown in Table I.

Figuur 25 toont voor de 131 mannelijke zwangerschappen, geïdentificeerd in voorbeeld 4.1, de X- en Y-gebaseerde foetale fracties.Figure 25 shows the X and Y-based fetal fractions for the 131 male pregnancies identified in Example 4.1.

Voorbeeld 6: CNV-aebaseerde benadering voor het bepalen van een minderheidsfractie fbiiv. foetale fractie!Example 6: CNV-based approach for determining a minority fraction fbiiv. fetal fraction!

De methodologie van de onderhavige uitvinding kan worden geïllustreerd als men uitgaat van een monster met een foetale fractie van 10%, die werd gesequencet met een dekking van 0,1X om 50 bp aflezingen op te leveren. Verder moet worden uitgegaan van een CNV van 10 Mb.The methodology of the present invention can be illustrated by starting from a sample with a fetal fraction of 10%, which was sequenced with a coverage of 0.1X to give 50 bp readings. Furthermore, a CNV of 10 Mb must be assumed.

In geval van een normaal monster (d.w.z. 2 kopieën van de CNV) bestaande uit 100% DNA van de patiënt, worden 20 000 aflezingen die verwijzen naar dat CNV-gebied verwacht. In geval de patiënt slechts 1 kopie van de bepaalde CNV heeft, worden 10 000 aflezingen verwacht in dat gebied; in geval van 0 kopieën, worden er geen aflezingen verwacht.In the case of a normal sample (i.e., 2 copies of the CNV) consisting of 100% DNA from the patient, 20,000 readings referring to that CNV region are expected. In case the patient has only 1 copy of the particular CNV, 10,000 readings are expected in that area; in the case of 0 copies, no readings are expected.

In geval van een minderheidsfractie van 10% kunnen de volgende gevallen worden verwacht (Tabel II): # kopieën # kopieën foetus Verwacht # aflezingen vrouwIn the case of a minority fraction of 10%, the following cases can be expected (Table II): # copies # copies fetus Expected # female readings

Tabel IITable II

In geval wordt gevonden dat de CNV een veel te lage dekking heeft die niet nul is, kan worden besloten dat de moeder dit gebied (0 kopieën) niet heeft en dat de aflezingen die geobserveerd werden, afkomstig zijn van het minderheids-DNA. Bijgevolg kan de CNV als informatief worden beschouwd voor de bepaling van de foetale fractie.If it is found that the CNV has a coverage that is far too low and is not zero, it can be concluded that the mother does not have this area (0 copies) and that the readings observed are from the minority DNA. Consequently, the CNV can be considered as informative for the determination of the fetal fraction.

Daarom kan de minderheidsfractie als volgt worden bepaald: 2*geobserveerde aflezingen/verwachte aflezingen = 2*1.000/20.000=10%Therefore, the minority fraction can be determined as follows: 2 * observed readings / expected readings = 2 * 1,000 / 20,000 = 10%

Als een schatting voor het verwachte aantal fragmenten, kan de globale dekking van het monster worden gebruikt evenals de lengte van de CNV. Een correctie van de algemene aflezingsdiepte kan plaatsvinden en de verwachte dekking op basis van alle monsters kan worden bepaald, bijv. door het gemiddelde te nemen na de bovenste en onderste 10% van de monsters uit te sluiten of de mediane dekking te gebruiken.As an estimate for the expected number of fragments, the global coverage of the sample can be used as well as the length of the CNV. A correction of the general reading depth can be made and the expected coverage based on all samples can be determined, eg by taking the average after excluding the upper and lower 10% of the samples or using the median coverage.

Om te corrigeren voor terugkerende technische ruis, kan een CNV-specifiek attribuut worden berekend met behulp van monsters met gekende foetale fractie, waarbij het attribuut de verkregen aflezingstellingen kan corrigeren voor terugkerende technische ruis op die bepaalde CNV.To correct for recurring technical noise, a CNV-specific attribute can be calculated using samples with known fetal fraction, whereby the attribute can correct the obtained reading counts for recurring technical noise on that particular CNV.

De sequenties kunnen worden verkregen zoals hierboven beschreven, behalve dat filtering van aflezingen die in de gebieden op de zwarte lijst liggen, niet werd toegepast.The sequences can be obtained as described above, except that filtering of readings in the areas on the blacklist was not used.

Berekening van dekking per CNVCalculation of coverage per CNV

Een CNV-referentiegenoomgegevensbank werd gebruikt, bevattende 581774 CNV's. Merk op dat de CNV's in deze reeks niet allemaal unieke CNV's waren aangezien de gegevensbank overlappingen bevat.A CNV reference genome database was used, containing 581774 CNVs. Note that the CNVs in this series were not all unique CNVs since the database contains overlaps.

De aflezingen werden uitgelijnd tegen het referentiegenoom. Voor elke CNV werd het aantal aflezingen geteld die overlapping vertoonde van ten minste X bases met de CNV-gebieden, waarbij X eender welke waarde tussen 1 en 50 kan zijn. In het huidige voorbeeld werd X op 1 ingesteld. Dit resulteert in een matrix met de onbewerkte tellingen. Onbewerkte tellingen gelijk aan of lager dan X worden gedefinieerd als zijnde gelijk aan 0 aangezien ze minimale overlapping vertonen met de CNV.The readings were aligned against the reference genome. For each CNV, the number of readings that overlapped at least X bases with the CNV regions was counted, where X can be any value between 1 and 50. In the current example, X was set to 1. This results in a matrix with the raw counts. Unprocessed counts equal to or lower than X are defined as being equal to 0 since they have minimal overlap with the CNV.

Omdat de onbewerkte tellingen niet gecorrigeerd werden voor het totale aantal lezingen, werd het aantal gefilterde aflezingen geëxtraheerd voor elk monster en werd het gecorrigeerd door de volgende vergelijking: genormaliseerde telling = 10.000.000 * onbewerkte telling/totaal aantal aflezingen; waarbij 10.000.000 willekeurig gekozen was en zou kunnen worden vervangen door eender welke andere waarde.Because the raw counts were not corrected for the total number of readings, the number of filtered readings was extracted for each sample and it was corrected by the following equation: normalized count = 10,000,000 * raw count / total number of readings; 10,000,000 was chosen at random and could be replaced by any other value.

Eerder bepaalde foetale fracties verkregen voor een reeks mannelijke zwangerschappen werden geïmporteerd. Deze foetale fracties zijn gebaseerd op de tellingen op het X- en Y-chromosoom en gebruiken het feit dat het foetale DNA, in mannelijke zwangerschappen, slechts 1 kopie van chromosoom X en één kopie van chromosoom Y heeft; terwijl het DNA van de moeder twee kopieën van chromosoom X heeft. Bijgevolg kan de X- en Y-gebaseerde methode van de foetale fractie enkel een schatting geven over de foetale fractie voor de mannelijke zwangerschappen (in tegenstelling tot op CNV-gebaseerde methode van de foetale fractie die hier is voorgesteld).Previously determined fetal fractions obtained for a series of male pregnancies were imported. These fetal fractions are based on the counts on the X and Y chromosome and use the fact that, in male pregnancies, the fetal DNA has only 1 copy of chromosome X and one copy of chromosome Y; while the DNA of the mother has two copies of chromosome X. Consequently, the X- and Y-based method of the fetal fraction can only provide an estimate of the fetal fraction for male pregnancies (as opposed to CNV-based method of the fetal fraction presented here).

De eerder verkregen foetale fracties werden gefilterd om monsters met een foetale fractie kleiner dan Y te verwijderen, Y kan eender welke waarde aannemen tussen 0,05 en 1. In het huidige voorbeeld werd genoemde Y ingesteld op 0,3, aangezien dit werd beschouwd als de maximale foetale fractie die men routinematig zou kunnen tegenkomen.The previously obtained fetal fractions were filtered to remove samples with a fetal fraction smaller than Y, Y can assume any value between 0.05 and 1. In the present example, said Y was set to 0.3, since this was considered to be the maximum fetal fraction that one could routinely encounter.

Bepalen van informatieve CNV's in een reeks CNV'sDetermining informative CNVs in a series of CNVs

In een volgende stap werden informatie CNV's bepaald. Voor elke CNV werden monsters geïdentificeerd waarvoor enkel de foetus 1 of 2 kopieën had en waarbij de moeder geen kopieën had. Alle tellingen zijn dus afgeleid van de foetus. Vervolgens werd gecontroleerd of deze foetale tellingen voor de mannelijke zwangerschappen correleren met de X/Y-gebaseerde foetale fracties, waardoor ze resulteren in een X-gebaseerde en Y-gebaseerde correlatie. Dit gaf inzicht in het feit of de CNV's informatief waren voor foetale fracties.Information CNVs were determined in a next step. For each CNV, samples were identified for which only the fetus had 1 or 2 copies and where the mother had no copies. All counts are therefore derived from the fetus. It was then checked whether these fetal counts for male pregnancies correlate with the X / Y-based fetal fractions, resulting in an X-based and Y-based correlation. This provided insight into whether the CNVs were informative for fetal fractions.

Als een voorbeeld werden de volgende 3 willekeurige CNV's beschouwd, die verschillende lengtes dekken: 1. Chr 1: 72,773,259-72,798,581; dit is een gebied van 25kb (25,323bp) 2. Chr 1: 148,539,255-149,765,886; dit is een gebied van 1Mb (1.226,632bp) 3. Chr 9: 38,725,590-71,025,693; dit is een gebied van 32Mb (32.300,104bp)As an example, the following 3 random CNVs were considered, covering different lengths: 1. Chr 1: 72,773,259-72,798,581; this is an area of 25kb (25.323bp) 2. Chr 1: 148.539.255-149.765.886; this is an area of 1 Mb (1,226.632bp) 3. Chr 9: 38.725.590-71.025.693; this is an area of 32Mb (32,300,104bp)

In een spreidingsdiagram (niet getoond) van de genormaliseerde tellingen (genormaliseerd ten opzichte van het totale aantal aflezingen) voor CNV 1, worden 3 pieken geobserveerd (die waarschijnlijk zullen overeenkomen met 0, 1 en 2 kopieën van de moeder). Voor CNV 2 werden 4 grote pieken geobserveerd (die waarschijnlijk overeenkomen met 0, 1, 2 en 3 kopieën van de moeder). In de derde en grootste CNV konden er geen pieken worden waargenomen. Daarom werd de analyse verdergezet met CNV 1 en 2.In a scatter diagram (not shown) of the normalized counts (normalized with respect to the total number of readings) for CNV 1, 3 peaks are observed (which are likely to correspond to 0, 1 and 2 copies of the mother). For CNV 2, 4 large peaks were observed (which probably correspond to 0, 1, 2 and 3 copies of the mother). No peaks could be observed in the third and largest CNV. The analysis was therefore continued with CNV 1 and 2.

Om lokale minima te vinden, werd een densiteitsfunctie toegepast en werden de tekens van de afgeleide van de densiteitsfuncties gecontroleerd.To find local minima, a density function was applied and the signs of the derivative of the density functions were checked.

De twee lokale minima waren op: 1. CNV 1: 18.39 en 67.96 2. CNV 2:The two local minimums were at: 1. CNV 1: 18.39 and 67.96 2. CNV 2:

766.69; 1160.26; 1538.69; 1568.97; 1705.20 en 1856.57 (zie figuur 29).766.69; 1160.26; 1538.69; 1568.97; 1705.20 and 1856.57 (see figure 29).

De genormaliseerde tellingen werden geëxtraheerd voor deze monsters die genormaliseerde tellingen hadden die kleiner waren dan het kleinste lokale minimum en groter dan 0. Er werd aangenomen dat de tellingen voor deze monsters hoofdzakelijk afgeleid zijn van het foetale DNA en minimale tot lage bijdrage leveren van het DNA van de moeder.The normalized counts were extracted for those samples that had normalized counts that were smaller than the smallest local minimum and greater than 0. It was assumed that the counts for these samples were derived primarily from the fetal DNA and made minimal to low DNA contribution from the mother.

Op basis van de genormaliseerde tellingen werd de verwachte telling berekend voor elke CNV. De genormaliseerde tellingen werden genormaliseerd naar een willekeurig gekozen waarde van 10.000.000 aflezingen.Based on the normalized counts, the expected count was calculated for each CNV. The normalized counts were normalized to a randomly chosen value of 10,000,000 readings.

Met deze verwachte telling werd een schatting van de foetale fracties berekend als: 2 x 100 x geobserveerde tellingen/verwachte tellingen.With this expected count, an estimate of the fetal fractions was calculated as: 2 x 100 x observed counts / expected counts.

Deze schatting van de foetale fractie is gecorreleerd met de werkelijke foetale fractie. Er werd echter gevonden dat het niet identiek is. De geschatte foetale fractie kan in feite als volgt worden gezien: geschatte foetale fractie = factor * werkelijke foetale fractie.This estimate of the fetal fraction is correlated with the actual fetal fraction. However, it was found that it is not identical. The estimated fetal fraction can in fact be seen as follows: estimated fetal fraction = factor * actual fetal fraction.

Deze factor is een constante factor die kan worden beschouwd als een attribuut van elke CNV in de gegevensreeks, en die empirisch moet worden bepaald (zie verder).This factor is a constant factor that can be considered as an attribute of each CNV in the data series, and which must be determined empirically (see below).

Voorbeeld van het bepalen van de foetale fractie: a) voor CNV 1:Example of determining the fetal fraction: a) for CNV 1:

Foetale fractie kan worden geschat als 2*100*genormaliseerde telling/verwachte tellingen=2*100*genormaliseerde telling/88,58Fetal fraction can be estimated as 2 * 100 * normalized count / expected counts = 2 * 100 * normalized count / 88.58

Figuur 28 toont de berekende foetale fracties voor alle mannelijke zwangerschappen met minder dan 18,54 tellingen voor CNV 1 (d.w.z. 142 monsters) versus de in-house foetale fractie berekend via chromosoom X (links) of chromosoom Y (rechts). Correlaties zijn gelijk aan 0,54 en 0,56 met respectievelijk de X- en Y-gebaseerde foetale fracties. b) voor CNV 2Figure 28 shows the calculated fetal fractions for all male pregnancies with fewer than 18.54 counts for CNV 1 (i.e., 142 samples) versus the in-house fetal fraction calculated via chromosome X (left) or chromosome Y (right). Correlations are equal to 0.54 and 0.56 with the X and Y-based fetal fractions, respectively. b) for CNV 2

Foetale fractie kan worden geschat als: 2*100*genormaliseerde telling/verwachte tellingen=2*100*genormaliseerde tellingen/4.290Fetal fraction can be estimated as: 2 * 100 * normalized count / expected counts = 2 * 100 * normalized counts / 4,290

Figuur 29 toont de berekende foetale fracties voor alle mannelijke zwangerschappen met minder dan 359,20 tellingen voor CNV 2 (d.w.z. 17 monsters) versus de foetale fractie berekend via chromosoom X (links) of chromosoom Y (rechts). Correlaties zijn gelijk aan 0,601 en 0,963.Figure 29 shows the calculated fetal fractions for all male pregnancies with fewer than 359.20 counts for CNV 2 (i.e., 17 samples) versus the fetal fraction calculated via chromosome X (left) or chromosome Y (right). Correlations are equal to 0.601 and 0.963.

Voor alle CNV's werd het lokale minimum, het lokale maximum, aantal pieken, aantal mannelijke zwangerschappen met een telling lager dan het kleinste lokale minimum en de correlaties met de X/Y-gebaseerde foetale fracties berekend.For all CNVs, the local minimum, the local maximum, the number of peaks, the number of male pregnancies with a count lower than the smallest local minimum and the correlations with the X / Y-based fetal fractions were calculated.

Op basis van deze informatie werden autosomale "pseudo-informatieve" CNV's geselecteerd. • X- of Y-gebaseerde correlatie groter dan A (tussen 0,01 en 1, A was ingesteld als 0,5 in dit voorbeeld) • gebaseerd op ten minste B (tussen 1 en 100 of meer, B was ingesteld op 8 in dit voorbeeld) mannelijke zwangerschappen • met meer dan C pieken (tussen 0 en 5, C was ingesteld op 2). • de CNV's uitsluiten op het X- en Y-chromosoom. • het eerste lokale minimum vergelijken met het derde lokale maximum. De verhouding tussen het derde lokale maximum en het eerste lokale minimum moet groter zijn dan D (tussen 0,1 en 100 is D ingesteld op 3).Autosomal "pseudo-informative" CNVs were selected based on this information. • X or Y-based correlation greater than A (between 0.01 and 1, A was set as 0.5 in this example) • based on at least B (between 1 and 100 or more, B was set to 8 in this example) male pregnancies • with more than C peaks (between 0 and 5, C was set to 2). • exclude the CNVs on the X and Y chromosome. • compare the first local minimum with the third local maximum. The ratio between the third local maximum and the first local minimum must be greater than D (between 0.1 and 100, D is set to 3).

Dit kan het aantal CNV's sterk reduceren tot ergens tussen 1 en 100.000 of meer "pseudo-informatieve" CNV's. In dit voorbeeld werden ongeveer 5.000 "pseudo-informatieve" CNV's geïdentificeerd.This can greatly reduce the number of CNVs to anywhere between 1 and 100,000 or more "pseudo-informative" CNVs. In this example, approximately 5,000 "pseudo-informative" CNVs were identified.

Binnen de lijst verkregen pseudo-informatieve CNV's werden veel overlappende CNV's geïdentificeerd. De lijst werd daarom opgeschoond door een of meer van de volgende methodologieën: • Per set overlappende CIW's, enkel A weerhouden (A = tussen 1 en 100 of meer, waarbij A was ingesteld als 1 in dit voorbeeld) daarvan, d.w.z. de ene met de hoogste gemiddelde correlatie (d.w.z. gemiddelde van de X- en Y-gebaseerde correlaties. • Verwijderen van duplicaten • Voor elk gelijkaardige CNV's werd enkel de langste CNV weerhouden.Many overlapping CNVs were identified within the pseudo-informative CNVs list. The list was therefore cleaned up by one or more of the following methodologies: • Per set of overlapping CIWs, only A (A = between 1 and 100 or more, where A was set as 1 in this example), ie the one with the highest average correlation (ie average of the X and Y based correlations. • Removing duplicates • For each similar CNV, only the longest CNV was used.

Merk op dat het opschonen optioneel is, maar het aantal CNV's sterk kan reduceren tot ergens tussen 1 en 100.000 of meer "informatieve" CNV's. In dit voorbeeld was het aantal gereduceerd tot ongeveer 100 "informatieve" CNV's.Note that cleaning is optional, but can greatly reduce the number of CNVs to anywhere between 1 and 100,000 or more "informative" CNVs. In this example, the number was reduced to around 100 "informative" CNVs.

In een latere stap en voor elk van de informatieve CNV's werden de genormaliseerde tellingen geschaald naar de X/Y-gebaseerde foetale fracties. Voor elke CNV werd bijgevolg geëvalueerd hoe de aflezingstellingen de foetale fractie voorspellen. De methode is beperkt tot CNV's met een correlatie hoger dan D (waarbij D ligt tussen 0,01 en 1 en is ingesteld als 0,5 in dit voorbeeld). In geval de X-gebaseerde correlatie hoger was dan D, terwijl de Y-gebaseerde correlatie lager was dan D, werd enkel rekening gehouden met de X-gebaseerde foetale fracties. Merk op dat het omgekeerde ook mogelijk is.In a later step and for each of the informative CNVs, the normalized counts were scaled to the X / Y-based fetal fractions. Therefore, for each CNV, it was evaluated how the reading counts predict the fetal fraction. The method is limited to CNVs with a correlation higher than D (where D is between 0.01 and 1 and is set as 0.5 in this example). In case the X-based correlation was higher than D, while the Y-based correlation was lower than D, only the X-based fetal fractions were taken into account. Note that the reverse is also possible.

Als voorbeeld werd CNV 1: 1.541.063-1.541.536 overwogen. Een regressielijn van de X(Y)-gebaseerde foetale fracties versus de genormaliseerde tellingen werd geplaatst voor de kleine tellingen gezien in mannelijke zwangerschappen van geslaagde experimenten. Dit resulteerde in 2 regressielijnen, elk met een afgesneden stuk en richtingscoëfficiënt, voor alle CNV's of alle pseudo-informatieve CNV's, of alle informatieve CNV's.CNV 1: 1,541,063-1,541,536 was considered as an example. A regression line of the X (Y) -based fetal fractions versus the normalized counts was placed before the small counts seen in male pregnancies from successful experiments. This resulted in 2 regression lines, each with a cut-off section and direction coefficient, for all CNVs or all pseudo-informative CNVs, or all informative CNVs.

Met de richtingscoëfficiënt en het afgesneden stuk van deze regressielijnen, werden voor elke CNV de overeenkomstige, klein genormaliseerde tellingen geschaald. Merk op dat deze schaling kan gebeuren voor alle monsters (d.w.z. mannelijke en vrouwelijke monsters). De volgende grafieken tonen de geschaalde tellingen versus de X/Y-gebaseerde foetale fracties voor de mannelijke zwangerschappen die kleine tellingen hadden voor CNV 1: 1.541.063-1.541.536.With the direction coefficient and the cut-off part of these regression lines, the corresponding, small normalized counts were scaled for each CNV. Note that this scaling can occur for all samples (i.e., male and female samples). The following graphs show the scaled counts versus the X / Y-based fetal fractions for male pregnancies who had small counts for CNV 1: 1,541,063-1,541,536.

Voor elke CNV en voor alle monsters met kleine tellingen voor die bepaalde CNV zijn twee schattingen van de foetale fractie verkregen, de X- en Y-gebaseerde foetale fractie. Als derde schatting werd het gemiddelde van de X-en Y-gebaseerde geschaalde tellingen genomen.For each CNV and for all samples with small counts for that particular CNV, two estimates of the fetal fraction were obtained, the X and Y-based fetal fraction. The third estimate was the average of the X and Y-based scaled counts.

In geval een van de 2 correlaties, bijv. de X-gebaseerde correlatie, lager is dan E (waarbij E ligt tussen 0,01 en 1, en ingesteld als 0,5 in dit voorbeeld E = 0,5 in dit voorbeeld), dan is het gemiddelde gelijk aan de Y-gebaseerde geschaalde tellingen.In case one of the 2 correlations, e.g. the X-based correlation, is lower than E (where E is between 0.01 and 1, and set as 0.5 in this example, E = 0.5 in this example), then the average is equal to the Y-based scaled counts.

Voor elk monster zijn drie schattingen voor de foetale fractie voor alle CNV's die een klein aantal aflezingen tonen binnen het monster, verkregen: - X-gebaseerde schatting - Y-gebaseerde schatting - gemiddeld-geschaalde schattingFor each sample, three estimates for the fetal fraction for all CNVs showing a small number of readings within the sample were obtained: - X-based estimate - Y-based estimate - average-scaled estimate

In een laatste stap werd het gemiddelde van de CNV-gebaseerde foetale fractie over alle CNV's verkregen. Om te controleren of dit gemiddelde de chromosoom X- en Y-gebaseerde foetale fracties voor de mannelijke zwangerschappen weergeeft, worden ze in een grafiek uitgezet versus elkaar voor de geslaagde experimenten.In a final step, the average of the CNV-based fetal fraction over all CNVs was obtained. To check whether this average represents the chromosome X and Y-based fetal fractions for male pregnancies, they are plotted versus each other for the successful experiments.

Op figuur 31 is duidelijk dat er een duidelijke correlatie is tussen de CNV-gebaseerde bepaling van de foetale fractie en de X- en Y-gebaseerde bepaling van de foetale fractie. Om de CNV-gebaseerde methode van de foetale fractie te gebruiken om de werkelijke foetale fractie te bepalen, kan de schaling empirisch worden aangepast (d.w.z. de regressielijn kan worden aangepast om een richtingscoëfficiënt van 1 te hebben).It is clear from Figure 31 that there is a clear correlation between the CNV-based determination of the fetal fraction and the X and Y-based determination of the fetal fraction. To use the CNV-based method of the fetal fraction to determine the actual fetal fraction, the scaling can be empirically adjusted (i.e., the regression line can be adjusted to have a direction coefficient of 1).

Claims (30)

CONCLUSIESCONCLUSIONS 1. Een werkwijze voor het bepalen van de aan- of afwezigheid van een foetale chromosomale aneuploïdie bij een zwangere vrouw, de werkwijze omvattend: - het voorzien van de sequenties van ten minste een deel van de nucleïnezuurmoleculen die zijn opgenomen in een biologisch monster dat is verkregen van de genoemde zwangere vrouw, waarbij het genoemde biologische monster celvrij DNA van zowel de moeder als van de foetus bevat; - het aligneren van de genoemde verkregen sequenties met een referentiegenoom; - het tellen van het aantal aflezingen op een reeks chromosomale segmenten en/of chromosomen waardoor leestellingen worden verkregen; - het normaliseren van de genoemde leestellingen of een afgeleide daarvan naar een genormaliseerd aantal aflezingen; - het verkrijgen van een eerste score van de genoemde genormaliseerde aflezingen en het verkrijgen van een verzameling van scores van de genoemde genormaliseerde aflezingen, waarbij de genoemde eerste score is afgeleid van de genoemde genormaliseerde aflezingen voor een doelchromosoom of chromosomaal segment, en waarbij de genoemde verzameling van scores een reeks scores is die zijn afgeleid van het genormaliseerde aantal aflezingen voor een reeks chromosomen of chromosoomsegmenten die het chromosomaal doelsegment of chromosoom bevatten; - het berekenen van een parameter p op basis van de genoemde eerste score en de genoemde verzameling scores, waarbij de genoemde parameter een verhouding voorstelt tussen * de genoemde eerste score, gecorrigeerd door een samenvattende statistiek van de genoemde verzameling scores, en * een samenvattende statistiek van de genoemde verzameling scores; en - het vergelijken van de genoemde parameter p met een drempelwaarde, waarbij de genoemde drempelwaarde een vereiste is voor de aanwezigheid of afwezigheid van een aneuploïdie van het doelchromosoom of chromosomaal segment.A method for determining the presence or absence of a fetal chromosomal aneuploidy in a pregnant woman, the method comprising: - providing the sequences of at least a portion of the nucleic acid molecules contained in a biological sample that is obtained from said pregnant woman, wherein said biological sample contains cell-free DNA from both the mother and the fetus; - aligning said obtained sequences with a reference genome; - counting the number of readings on a series of chromosomal segments and / or chromosomes whereby reading counts are obtained; - normalizing said reading counts or a derivative thereof to a normalized number of readings; - obtaining a first score of said normalized readings and obtaining a set of scores of said normalized readings, wherein said first score is derived from said normalized readings for a target chromosome or chromosomal segment, and wherein said set of scores is a set of scores derived from the normalized number of readings for a set of chromosomes or chromosome segments containing the chromosomal target segment or chromosome; - calculating a parameter p on the basis of said first score and said set of scores, wherein said parameter represents a ratio between * said first score, corrected by a summary statistic of said set of scores, and * a summary statistic of the said set of scores; and - comparing said parameter p with a threshold value, said threshold value being a requirement for the presence or absence of aneuploidy of the target chromosome or chromosomal segment. 2. De werkwijze volgens conclusie 1, met het kenmerk dat het genoemde aantal aflezingen opnieuw wordt gekalibreerd om te corrigeren voor GC-inhoud en/of totaal aantal aflezingen verkregen uit het genoemde monster.The method according to claim 1, characterized in that said number of readings is recalibrated to correct for GC content and / or total number of readings obtained from said sample. 3. De werkwijze volgens conclusie 1 of 2, met het kenmerk dat de genoemde normalisatie gebeurt via vergelijking met gegevens die zijn verkregen van overeenkomstige chromosomale segmenten of chromosomen uit een referentiereeks.The method according to claim 1 or 2, characterized in that said normalization occurs via comparison with data obtained from corresponding chromosomal segments or chromosomes from a reference series. 4. De werkwijze volgens één der conclusies 1 tot 3, met het kenmerk dat de genoemde samenvattende statistiek het gemiddelde, de mediaan, de standaardafwijking, de gemiddelde absolute afwijking of de mediane absolute afwijking is.The method according to any one of claims 1 to 3, characterized in that said summary statistic is the average, the median, the standard deviation, the average absolute deviation or the median absolute deviation. 5. De werkwijze volgens één der conclusies 1 tot 4, waarbij de sequenering willekeurig wordt uitgevoerd op een deel van de nucleïnezuurmoleculen die in het biologische monster zitten.The method of any one of claims 1 to 4, wherein the sequencing is randomly performed on a portion of the nucleic acid molecules contained in the biological sample. 6. De werkwijze volgens één der voorgaande conclusies, waarbij het biologische monster bloed, plasma, serum, urine, blastocoel fluïdum, transcervicaal fluïdum of speeksel van de moeder is.The method of any one of the preceding claims, wherein the biological sample is maternal blood, plasma, serum, urine, blastocoel fluid, transcervical fluid, or saliva. 7. De werkwijze volgens één der voorgaande conclusies, waarbij het chromosomale doelsegment is geselecteerd uit Tabel 1, en/of uit een stuk of een venster afgeleid van chromosoom X, Y, 6, 7, 8, 13, 14, 15, 16, 18, 21 en/of 22.The method according to any of the preceding claims, wherein the chromosomal target segment is selected from Table 1, and / or from a part or a window derived from chromosome X, Y, 6, 7, 8, 13, 14, 15, 16, 18, 21 and / or 22. 8. De werkwijze volgens één der voorgaande conclusies 1 tot 6, met het kenmerk dat het genoemde doelchromosoom is geselecteerd uit chromosoom X, Y, 6, 7, 8, 13, 14, 15, 16, 18, 21 en/of 22.The method according to any of the preceding claims 1 to 6, characterized in that said target chromosome is selected from chromosome X, Y, 6, 7, 8, 13, 14, 15, 16, 18, 21 and / or 22. 9. De werkwijze volgens één der voorgaande conclusies, waarbij de genoemde drempelwaarde is bepaald met behulp van standaard statistische overwegingen, of empirisch bepaald met behulp van biologische monsters.The method of any one of the preceding claims, wherein said threshold value is determined using standard statistical considerations, or empirically determined using biological samples. 10. De werkwijze volgens één der voorgaande conclusies, waarbij de genoemde score wordt berekend als:The method of any one of the preceding claims, wherein said score is calculated as: waarbij i een chromosoom of chromosomaal segment of het doelchromosoom of chromosomaal doelsegment is.wherein i is a chromosome or chromosomal segment or the target chromosome or chromosomal target segment. 11. De werkwijze volgens conclusie 10, met het kenmerk dat de genoemde parameter p is berekend als:The method according to claim 10, characterized in that said parameter p is calculated as: waarbij (Zj) een verzameling scores voorstelt die zijn afgeleid van chromosomen of chromosomale segmenten i, a, b, ... waarbij i overeenkomt met het chromosomale doelsegment of chromosoom.wherein (Zj) represents a set of scores derived from chromosomes or chromosomal segments i, a, b, ... where i corresponds to the chromosomal target segment or chromosome. 12. De werkwijze volgens één der voorgaande conclusies, omvattende de berekening van secundaire parameters, waarbij de genoemde secundaire parameters een vereiste zijn voor de aanwezigheid van de genoemde aneuploïdie en/of een maatstaf van de kwaliteit van het monster.The method according to any of the preceding claims, comprising the calculation of secondary parameters, wherein said secondary parameters are a requirement for the presence of said aneuploidy and / or a measure of the quality of the sample. 13. De werkwijze volgens conclusie 10, waarbij de genoemde secundaire parameters worden vergeleken met een drempelwaarde.The method of claim 10, wherein said secondary parameters are compared to a threshold value. 14. De werkwijze volgens één der conclusies 12 of 13, waarbij de genoemde aanwezigheid of afwezigheid van een aneuploïdie wordt bepaald door de vergelijking van de genoemde parameter met een drempelwaarde en de vergelijking van en of meerdere secundaire parameters met overeenkomstige drempelwaarden.The method according to any of claims 12 or 13, wherein said presence or absence of an aneuploidy is determined by comparing said parameter with a threshold value and comparing one or more secondary parameters with corresponding threshold values. 15. De werkwijze volgens één der voorgaande conclusies, waarbij de foetale fractie van het monster wordt bepaald.The method of any one of the preceding claims, wherein the fetal fraction of the sample is determined. 16. De werkwijze volgens conclusie 15, waarbij de genoemde bepaling van de foetale fractie de stappen omvat van: - het tellen van het aantal sequenties die aligneren met een vooraf gedefinieerde reeks polymorfismen; - het vergelijken van het verkregen aantal sequenties met het verwachte aantal sequenties voor het identificeren van de informatieve polymorfe plaats(en) voor het monster; - het berekenen op basis van het verkregen aantal sequenties voor de genoemde informatieve polymorfe plaats(en) van een hoeveelheid, waarbij de genoemde hoeveelheid een indicatie is voor de foetale fractie.The method of claim 15, wherein said determining the fetal fraction comprises the steps of: - counting the number of sequences that align with a predefined set of polymorphisms; - comparing the obtained number of sequences with the expected number of sequences to identify the informative polymorphic site (s) for the sample; - calculating on the basis of the obtained number of sequences for said informative polymorphic site (s) an amount, said amount being an indication of the fetal fraction. 17. De werkwijze volgens conclusie 16, waarbij de genoemde hoeveelheid wordt berekend met behulp van lineaire schaling op basis van informatieve polymorfismespecifieke attributen.The method of claim 16, wherein said amount is calculated using linear scaling based on informational polymorphism-specific attributes. 18. De werkwijze volgens één der conclusies 15 tot 17, waarbij de genoemde hoeveelheid die indicatief is voor de foetale fractie dient als een kwaliteitscontrole van het genoemde monster.The method of any one of claims 15 to 17, wherein said amount indicative of the fetal fraction serves as a quality check of said sample. 19. Een computerprogrammaproduct omvattende een door de computer leesbaar medium gecodeerd met meerdere instructies voor het sturen van een computersysteem voor het uitvoeren van een bewerking voor het uitvoeren van prenatale diagnose van een foetale chromosomale aneuploïdie in een biologisch monster dat is verkregen van een zwangere vrouwelijke patiënt, waarbij het biologische monster nucleïnezuurmoleculen bevat, waarbij de bewerking de stappen omvat van - het ontvangen van de sequenties van ten minste een deel van de nucleïnezuurmoleculen die zijn opgenomen in een biologisch monster dat is verkregen van de genoemde zwangere vrouw, waarbij het genoemde biologische monster celvrij DNA van zowel de moeder als van de foetus omvat; - het aligneren van de genoemde verkregen sequenties met een referentiegenoom; - het tellen van het aantal aflezingen op een reeks chromosomale segmenten en/of chromosomen waardoor tellingen van aflezingen worden verkregen; - het normaliseren van het genoemde aantal aflezingen of een afgeleide daarvan naar een genormaliseerd aantal aflezingen; - het verkrijgen van een eerste score van de genoemde genormaliseerde aflezingen en een verzameling van scores van de genoemde genormaliseerde aflezingen, waarbij de genoemde eerste score is afgeleid van de genormaliseerde aflezingen voor een doelchromosoom of chromosomaal segment, en waarbij de genoemde verzameling van scores een reeks scores is die zijn afgeleid van de genormaliseerde aflezingen voor een reeks chromosomen of chromosomale segmenten die het chromosomaal doelsegment of chromosoom bevatten; - het berekenen van een parameter p op basis van de genoemde eerste score en de genoemde verzameling scores, waarbij de genoemde parameter een verhouding voorstelt tussen * de genoemde eerste score, gecorrigeerd door een samenvattende statistiek van de genoemde verzameling scores, en * een samenvattende statistiek van de genoemde verzameling scores; en - het vergelijken van de genoemde parameter p met een drempelwaarde, waarbij de genoemde drempelwaarde een vereiste is voor de aanwezigheid of afwezigheid van een aneuploïdie van het doelchromosoom of chromosomaal segment.A computer program product comprising a computer-readable medium encoded with multiple instructions for controlling a computer system for performing an operation for performing prenatal diagnosis of a fetal chromosomal aneuploidy in a biological sample obtained from a pregnant female patient wherein the biological sample contains nucleic acid molecules, the processing comprising the steps of - receiving the sequences of at least a portion of the nucleic acid molecules contained in a biological sample obtained from said pregnant woman, said biological sample comprises cell-free DNA from both the mother and the fetus; - aligning said obtained sequences with a reference genome; - counting the number of readings on a series of chromosomal segments and / or chromosomes, whereby counts of readings are obtained; - normalizing said number of readings or a derivative thereof to a normalized number of readings; - obtaining a first score of said normalized readings and a set of scores of said normalized readings, wherein said first score is derived from the normalized readings for a target chromosome or chromosomal segment, and wherein said set of scores is a set is scores derived from the normalized readings for a series of chromosomes or chromosomal segments containing the target chromosomal segment or chromosome; - calculating a parameter p on the basis of said first score and said set of scores, wherein said parameter represents a ratio between * said first score, corrected by a summary statistic of said set of scores, and * a summary statistic of the said set of scores; and - comparing said parameter p with a threshold value, said threshold value being a requirement for the presence or absence of aneuploidy of the target chromosome or chromosomal segment. 20. Computerprogrammaproduct volgens conclusie 19, verder omvattende bewerkingen voor het berekenen van een of meerdere secundaire parameters, waarbij de genoemde secundaire parameters een vereiste zijn voor de aanwezigheid van de genoemde aneuploïdie en/of een maatstaf van de kwaliteit van het monster.The computer program product of claim 19, further comprising operations for calculating one or more secondary parameters, said secondary parameters being a requirement for the presence of said aneuploidy and / or a measure of the quality of the sample. 21. Computerprogrammaproduct volgens één der voorgaande conclusies, omvattende bewerkingen voor het bepalen van de foetale fractie.A computer program product according to any one of the preceding claims, comprising operations for determining the fetal fraction. 22. Computerprogrammaproduct volgens één der voorgaande conclusies, verder omvattende bewerkingen voor het uitvoeren van CNV calling, CNV kwantificering en/of CNV handtekeningherkenning.A computer program product according to any one of the preceding claims, further comprising operations for performing CNV calling, CNV quantification and / or CNV signature recognition. 23. Een kit omvattende een computerprogrammaproduct volgens één der conclusies 19 tot 22 en een protocol voor het verkrijgen van de sequenties van ten minste een deel van de nucleïnezuurmoleculen opgenomen in een biologisch monster dat is verkregen van een zwangere vrouw, waarbij het genoemde biologische monster celvrij DNA van zowel de moeder als de foetus omvat.A kit comprising a computer program product according to any of claims 19 to 22 and a protocol for obtaining the sequences of at least a portion of the nucleic acid molecules contained in a biological sample obtained from a pregnant woman, said biological sample being cell-free DNA from both the mother and the fetus. 24. Kit volgens conclusie 23, verder omvattend reagentia en middelen voor het verkrijgen van de genoemde sequenties.The kit of claim 23, further comprising reagents and means for obtaining said sequences. 25. Een rapport, omvattende een schatting van de aanwezigheid of afwezigheid van een foetale chromosomale aneuploïdie bij een zwangere vrouw, waarbij het genoemde rapport de parameter, een of meerdere secundaire parameters en een vergelijking met een drempelwaarde omvat zoals gedefinieerd in één der conclusies 1 tot 18 en een visualisatie van de genoemde aflezingen per chromosoom.A report comprising an estimate of the presence or absence of a fetal chromosomal aneuploidy in a pregnant woman, said report comprising the parameter, one or more secondary parameters and a comparison with a threshold value as defined in any one of claims 1 to 18 and a visualization of the aforementioned readings per chromosome. 26. Rapport volgens conclusie 25, met het kenmerk dat de genoemde visualisatie de genoemde eerste score per venster van een doelchromosoom en/of parameter p toont.A report according to claim 25, characterized in that said visualization shows said first score per window of a target chromosome and / or parameter p. 27. Een werkwijze voor het bepalen van een foetale fractie in een biologisch monster verkregen van een zwangere vrouw, waarbij de genoemde werkwijze omvat: - het ontvangen van de sequenties van ten minste een deel van de nucleïnezuurmoleculen die zijn opgenomen in een biologisch monster dat is verkregen van de genoemde zwangere vrouw; - het tellen van het aantal sequenties die aligneren met een vooraf gedefinieerde reeks polymorfismen; - het vergelijken van het verkregen aantal sequenties met het verwachte aantal sequenties voor het identificeren van de informatieve polymorfe plaats(en) voor het monster; - het berekenen op basis van het verkregen aantal sequenties voor de genoemde informatieve polymorfe plaats(en) van een hoeveelheid, waarbij de genoemde hoeveelheid een indicatie is voor de foetale fractie.A method for determining a fetal fraction in a biological sample obtained from a pregnant woman, said method comprising: - receiving the sequences of at least a portion of the nucleic acid molecules contained in a biological sample that is obtained from said pregnant woman; - counting the number of sequences that align with a predefined set of polymorphisms; - comparing the obtained number of sequences with the expected number of sequences to identify the informative polymorphic site (s) for the sample; - calculating on the basis of the obtained number of sequences for said informative polymorphic site (s) an amount, said amount being an indication of the fetal fraction. 28. De werkwijze volgens conclusie 27, waarbij de genoemde hoeveelheid wordt berekend met behulp van lineaire schaling op basis van informatieve polymorfismespecifieke attributen.The method of claim 27, wherein said amount is calculated using linear scaling based on informational polymorphism-specific attributes. 29. Werkwijze volgens conclusie 27 of 28, met het kenmerk dat de genoemde polymorfismen kopieaantalvariaties zijn met een grootte tussen 100 bp en 1 Mb, of tussen 1 kb en 1 Mb, of tussen 2 bp en 250 Mb.A method according to claim 27 or 28, characterized in that said polymorphisms are copy number variations with a size between 100 bp and 1 Mb, or between 1 kb and 1 Mb, or between 2 bp and 250 Mb. 30. Computerprogrammaproduct omvattende een door de computer leesbaar medium gecodeerd met meerdere instructies voor het sturen van een computersysteem voor het uitvoeren van een bewerking voor het bepalen of schatten van de foetale fractie in een biologisch monster dat is verkregen van een zwangere vrouwelijke patiënt, waarbij het biologische monster nucleïnezuurmoleculen bevat, waarbij de bewerking de stappen omvat van: - het ontvangen van de sequenties van ten minste een deel van de nucleïnezuurmoleculen die zijn opgenomen in een biologisch monster dat is verkregen van de genoemde zwangere vrouw; - het tellen van het aantal sequenties die aligneren met een vooraf gedefinieerde reeks polymorfismen - het vergelijken van het verkregen aantal sequenties met het verwachte aantal sequenties voor het identificeren van de informatieve polymorfe plaats(en) voor het monster; en - het berekenen op basis van het verkregen aantal sequenties voor de genoemde informatieve polymorfe plaats(en) van een hoeveelheid, waarbij de genoemde hoeveelheid een indicatie is voor de foetale fractie.A computer program product comprising a computer-readable medium encoded with a plurality of instructions for controlling a computer system to perform an operation for determining or estimating the fetal fraction in a biological sample obtained from a pregnant female patient, the biological sample contains nucleic acid molecules, the processing comprising the steps of: - receiving the sequences of at least a portion of the nucleic acid molecules contained in a biological sample obtained from said pregnant woman; - counting the number of sequences that align with a predefined set of polymorphisms - comparing the obtained number of sequences with the expected number of sequences to identify the informative polymorphic site (s) for the sample; and - calculating on the basis of the obtained number of sequences for said informative polymorphic site (s) an amount, said amount being an indication of the fetal fraction.
BE2015/5443A 2015-07-13 2015-07-13 System and methodology for the analysis of genomic data obtained from a subject BE1023266B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
BE2015/5443A BE1023266B1 (en) 2015-07-13 2015-07-13 System and methodology for the analysis of genomic data obtained from a subject

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BE2015/5443A BE1023266B1 (en) 2015-07-13 2015-07-13 System and methodology for the analysis of genomic data obtained from a subject

Publications (2)

Publication Number Publication Date
BE1023266A1 BE1023266A1 (en) 2017-01-17
BE1023266B1 true BE1023266B1 (en) 2017-01-17

Family

ID=54360821

Family Applications (1)

Application Number Title Priority Date Filing Date
BE2015/5443A BE1023266B1 (en) 2015-07-13 2015-07-13 System and methodology for the analysis of genomic data obtained from a subject

Country Status (1)

Country Link
BE (1) BE1023266B1 (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011102998A2 (en) * 2010-02-19 2011-08-25 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
WO2013109981A1 (en) * 2012-01-20 2013-07-25 Sequenom, Inc. Diagnostic processes that factor experimental conditions
WO2014015319A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. System for determining a copy number variation
WO2014014497A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
WO2014190286A2 (en) * 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014209597A2 (en) * 2013-06-28 2014-12-31 Ariosa Diagnostics, Inc. Massively parallel sequencing of random dna fragments for determination of fetal fraction
WO2015061359A1 (en) * 2013-10-21 2015-04-30 Verinata Health, Inc. Method for improving the sensitivity of detection in determining copy number variations
WO2015184404A1 (en) * 2014-05-30 2015-12-03 Verinata Health, Inc. Detecting fetal sub-chromosomal aneuploidies and copy number variations

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011102998A2 (en) * 2010-02-19 2011-08-25 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
WO2013109981A1 (en) * 2012-01-20 2013-07-25 Sequenom, Inc. Diagnostic processes that factor experimental conditions
WO2014015319A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. System for determining a copy number variation
WO2014014497A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
WO2014190286A2 (en) * 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014209597A2 (en) * 2013-06-28 2014-12-31 Ariosa Diagnostics, Inc. Massively parallel sequencing of random dna fragments for determination of fetal fraction
WO2015061359A1 (en) * 2013-10-21 2015-04-30 Verinata Health, Inc. Method for improving the sensitivity of detection in determining copy number variations
WO2015184404A1 (en) * 2014-05-30 2015-12-03 Verinata Health, Inc. Detecting fetal sub-chromosomal aneuploidies and copy number variations

Also Published As

Publication number Publication date
BE1023266A1 (en) 2017-01-17

Similar Documents

Publication Publication Date Title
US11168370B2 (en) Detecting mutations for cancer screening
US9051616B2 (en) Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
DK2823062T3 (en) SIZE-BASED ANALYSIS OF Fetal DNA FRACTION IN MOTHER PLASMA
US20120003636A1 (en) Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
EP3662479A1 (en) A method for non-invasive prenatal detection of fetal sex chromosomal abnormalities and fetal sex determination for singleton and twin pregnancies
EP3118323A1 (en) System and methodology for the analysis of genomic data obtained from a subject
BE1023266B1 (en) System and methodology for the analysis of genomic data obtained from a subject
AU2013200581B2 (en) Diagnosing cancer using genomic sequencing
AU2008278843B2 (en) Diagnosing fetal chromosomal aneuploidy using genomic sequencing
AU2013203077A1 (en) Diagnosing fetal chromosomal aneuploidy using genomic sequencing

Legal Events

Date Code Title Description
MM Lapsed because of non-payment of the annual fee

Effective date: 20200731