EA040939B1 - ANALYSIS OF THE FETUS GENOME FROM A MATERNAL BIOLOGICAL SAMPLE - Google Patents

ANALYSIS OF THE FETUS GENOME FROM A MATERNAL BIOLOGICAL SAMPLE Download PDF

Info

Publication number
EA040939B1
EA040939B1 EA201991550 EA040939B1 EA 040939 B1 EA040939 B1 EA 040939B1 EA 201991550 EA201991550 EA 201991550 EA 040939 B1 EA040939 B1 EA 040939B1
Authority
EA
Eurasian Patent Office
Prior art keywords
maternal
genome
sequence
fetal
fetus
Prior art date
Application number
EA201991550
Other languages
Russian (ru)
Inventor
Юйк Мин Дэннис Ло
Квань Чэ Чань
Вай Квунь Росса Чиу
Чарльз Кантор
Original Assignee
Те Чайниз Юниверсити Ов Гонконг
Секеном, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Те Чайниз Юниверсити Ов Гонконг, Секеном, Инк. filed Critical Те Чайниз Юниверсити Ов Гонконг
Publication of EA040939B1 publication Critical patent/EA040939B1/en

Links

Description

Перекрестные ссылки на родственные заявкиCross-references to related applications

Настоящая заявка претендует на приоритет от и является непредварительным вариантом предварительной заявки на патент США No. 61/258567, озаглавленной Анализ генома плода и поданной 5 ноября 2009 г., предварительной заявки на патент США No. 61/259075, озаглавленной Анализ генома плода из материнского биологического образца и поданной 6 ноября 2009 г., и предварительной заявки на патент США No. 61/381854, озаглавленной Анализ генома плода из материнского биологического образца и поданной 10 сентября 2010 г., все содержание которых включено путем ссылки на все случаи.This application claims priority from and is a non-provisional application for U.S. Patent No. 61/258567, entitled Fetal Genome Analysis and filed Nov. 5, 2009, U.S. Provisional Application No. 61/259075 entitled Analysis of the Fetal Genome from a Maternal Biological Sample and filed Nov. 6, 2009, and U.S. Provisional Application No. 61/381854 entitled Analysis of the Fetal Genome from Maternal Biological Sample and filed September 10, 2010, the entire contents of which are incorporated by reference to all cases.

Настоящая заявка также связана с заявкой на патент США No. 12/178181, озаглавленной Диагностика хромосомной анеуплоидии у плода при помощи массированного параллельного секвенирования генома и поданной 5 ноября 2009 г. (Attorney Docket No. 016285-005220 US); заявкой на патент США No. 12/614350, озаглавленной Диагностика хромосомной анеуплоидии у плода при помощи секвенирования генома с обогащением (Attorney Docket No. 016285-005221 US), и поданной одновременно с ней заявкой США, озаглавленной Анализ генома на основе размера (Attorney Docket No. 016285-006610 US), все содержание которых включено путем ссылки на все случаи.The present application is also related to U.S. Patent Application No. 12/178181 entitled Diagnosis of Fetal Chromosomal Aneuploidy by Massive Parallel Genome Sequencing and filed November 5, 2009 (Attorney Docket No. 016285-005220 US); US Patent Application No. 12/614350, entitled Diagnosis of fetal chromosomal aneuploidy by enriched genome sequencing (Attorney Docket No. 016285-005221 US), and co-pending US application entitled Size Based Genome Analysis (Attorney Docket No. 016285-006610 US ), all contents of which are incorporated by reference to all occurrences.

Уровень техникиState of the art

Настоящее изобретение в общем касается анализа генома плода на основе материнского образца, в частности определения всего или части генома плода на основе анализа генетических фрагментов в материнском образце.The present invention relates generally to the analysis of a fetal genome based on a maternal sample, in particular the determination of all or part of the fetal genome based on the analysis of genetic fragments in a maternal sample.

Открытие бесклеточных нуклеиновых кислот зародыша в материнской плазме в 1997 г. открыло новые возможности для неинвазивной пренатальной диагностики (Lo YMD et al., 1997, 350: 485-487; и US Patent 6285540). Эта технология быстро воплотилась в клинические применения с детектированием полученных плодом по отцовской линии генов или последовательностей, например, для определения пола у плода, определения статуса RhD у плода и установления того, унаследовал ли он передающуюся по отцовской линии мутацию (Amicucci P et al., Clin Chem 2000, 46: 301-302; Saito H et al., Lancet 2000, 356: 1170; и Chiu RWK et al., Lancet 2002, 360: 998-1000). Недавний прогресс в этой области сделал возможной пренатальную диагностику хромосомной анеуплоидии у плода типа трисомии 21 из анализа нуклеиновых кислот в материнской плазме (Lo YMD et al., Nat Med 2007, 13: 218-223; Tong YK et al., Clin Chem 2006, 52: 2194-2202; US Patent Publication 2006/0252071; Lo YMD et al., Proc Natl Acad Sci USA 2007, 104: 13116-13121; Chiu RWK et al., Proc Natl Acad Sci USA 2008, 105: 20458-20463; Fan HC et al., Proc Natl Acad Sci 2008, 105: 16266-16271; US Patent Publication 2007/0202525; и US Patent Publication 2009/0029377).The discovery of cell-free fetal nucleic acids in maternal plasma in 1997 opened up new possibilities for non-invasive prenatal diagnosis (Lo YMD et al., 1997, 350: 485-487; and US Patent 6285540). This technology quickly translated into clinical applications with the detection of paternally derived genes or sequences, for example, to determine the sex of the fetus, determine the RhD status of the fetus, and determine whether it inherited a paternally transmitted mutation (Amicucci P et al., Clin Chem 2000, 46: 301-302; Saito H et al., Lancet 2000, 356: 1170; and Chiu RWK et al., Lancet 2002, 360: 998-1000). Recent advances in this field have made it possible to prenatally diagnose chromosomal aneuploidy in trisomy 21 type fetuses from maternal plasma nucleic acid analysis (Lo YMD et al., Nat Med 2007, 13: 218-223; Tong YK et al., Clin Chem 2006, 52:2194-2202; US Patent Publication 2006/0252071; Lo YMD et al., Proc Natl Acad Sci USA 2007, 104: 13116-13121; Chiu RWK et al., Proc Natl Acad Sci USA 2008, 105: 20458-20463 ; Fan HC et al., Proc Natl Acad Sci 2008, 105: 16266-16271; US Patent Publication 2007/0202525; and US Patent Publication 2009/0029377).

Другая область значительного прогресса последнего времени - это применение способов подсчета отдельных молекул типа цифровой ПЦР для неинвазивной пренатальной диагностики моногенных болезней, при которых и мать, и отец несут одну и ту же мутацию. Это достигается анализом относительной дозы мутации (RMD) в материнской плазме (US Patent Application 2009/0087847; Lun FMF et al., Proc Natl Acad Sci USA 2008, 105: 19920-19925; и Chiu RWK et al., Trends Genet 2009, 25: 324-331).Another area of significant recent progress is the use of single molecule enumeration techniques such as digital PCR for non-invasive prenatal diagnosis of monogenic diseases in which both mother and father carry the same mutation. This is achieved by analysis of relative mutation dose (RMD) in maternal plasma (US Patent Application 2009/0087847; Lun FMF et al., Proc Natl Acad Sci USA 2008, 105: 19920-19925; and Chiu RWK et al., Trends Genet 2009, 25: 324-331).

Однако в таких методах используются уже существующие знания о возможных мутациях для анализа конкретных частей генома, поэтому ими нельзя идентифицировать латентные или редкие мутации или генетические заболевания. Следовательно, нужно предоставить новые методы, системы и приборы, которыми можно идентифицировать весь или часть генома у плода при помощи неинвазивных методов.However, such methods use existing knowledge about possible mutations to analyze specific parts of the genome, so they cannot identify latent or rare mutations or genetic diseases. Therefore, it is necessary to provide new methods, systems and devices that can identify all or part of the genome in the fetus using non-invasive methods.

Сущность изобретенияThe essence of the invention

В некоторых воплощениях настоящего изобретения предусмотрены способы, системы и приборы для определения по меньшей мере части генома еще не рожденного плода у беременной матери. Можно составить генетическую карту всего генома или отдельных участков генома плода до рождения, используя образцы, содержащие генетический материал плода и матери (например, образец крови беременной матери). Генетическая карта может содержать последовательности, которые плод унаследовал от обоих родителей, или же только последовательности от одного из родителей. Исходя из одной или нескольких таких генетических карт, можно определить риск возникновения у плода генетического заболевания или предрасположенности к генетическому или другому заболеванию или генетической особенности. Также описаны и другие применения воплощений.In some embodiments of the present invention, methods, systems, and devices are provided for determining at least a portion of the genome of an unborn fetus in a pregnant mother. It is possible to make a genetic map of the entire genome or specific regions of the fetal genome before birth using samples containing fetal and maternal genetic material (for example, a blood sample from a pregnant mother). The genetic map may contain sequences that the fetus has inherited from both parents, or only sequences from one of the parents. Based on one or more of these genetic maps, it is possible to determine the risk of a fetus developing a genetic disease or predisposition to a genetic or other disease or genetic trait. Other uses of the embodiments are also described.

В одном воплощении можно подвергнуть анализу фрагменты ДНК из материнского образца (содержащего ДНК матери и плода) для идентификации аллелей по некоторым заданным локусам (ориентирам). Затем можно проанализировать общее количество фрагментов ДНК соответствующих аллелей в этих локусах для определения относительного количества гаплотипов по этим локусам и тем самым определить, какие гаплотипы унаследованы плодом из материнского и/или отцовского генома. Идентифицируя гаплотипы плода, можно определить генотип плода по индивидуальным локусам в соответствующем участке генома, включая заданные локусы. В различных воплощениях локусы, по которым родители представлены определенными комбинациями гомозиготных и гетерозиготных, можно подвергнуть анализу таким образом, чтобы определить участки генома плода. В одном воплощении для определения материнского и отцовского геномов используются контрольные гаплотипы, представляющие распространенные в популяции гаплотипы, вместе с анализом фрагментов ДНК материнского образца. Также предусмотрены и другие воплощения, как-то определение мутаций, определение доли плода в образце матеIn one embodiment, DNA fragments from a maternal sample (comprising maternal and fetal DNA) can be analyzed to identify alleles at certain predetermined loci (landmarks). You can then analyze the total number of DNA fragments of the corresponding alleles at these loci to determine the relative number of haplotypes at these loci and thereby determine which haplotypes are inherited by the fetus from the maternal and/or paternal genome. By identifying fetal haplotypes, the fetal genotype can be determined from individual loci in the appropriate genomic region, including target loci. In various embodiments, loci for which parents are represented by certain combinations of homozygous and heterozygous can be analyzed in such a way as to determine regions of the fetal genome. In one embodiment, control haplotypes representing common haplotypes in a population are used to determine maternal and paternal genomes, along with analysis of DNA fragments from a maternal sample. Other embodiments are also envisaged, such as the determination of mutations, the determination of the proportion of the fetus in the sample

- 1 040939 ри и определение охвата секвенированием материнского образца.- 1 040939 ri and determination of maternal sample sequencing coverage.

Другие воплощения изобретения касаются систем, приборов и считываемых компьютером носителей, связанных с описанными здесь способами. В одном воплощении считываемый компьютером носитель содержит инструкции для получения данных и анализа данных, но не инструкции для направления машины на создание данных (например, секвенирование молекул нуклеиновых кислот). А в другом воплощении считываемый компьютером носитель содержит инструкции для направления машины на создание данных. В одном воплощении компьютерный программный продукт включает считываемый компьютером носитель, хранящий множество инструкций для управления процессором при выполнении операций для описанных здесь способов. Воплощения также касаются компьютерных систем, конфигурированных на выполнение стадий любого из описанных здесь способов, необязательно с различными компонентами, выполняющими соответствующую стадию или соответствующую группу стадий.Other embodiments of the invention relate to systems, devices and computer-readable media associated with the methods described here. In one embodiment, the computer-readable medium contains instructions for acquiring data and analyzing data, but not instructions for directing a machine to generate data (eg, sequencing nucleic acid molecules). And in another embodiment, the computer-readable medium contains instructions for directing a machine to create data. In one embodiment, the computer program product includes a computer-readable medium storing a plurality of instructions for controlling a processor in performing operations for the methods described herein. Embodiments also relate to computer systems configured to perform the steps of any of the methods described herein, optionally with different components performing the respective step or respective group of steps.

При обращении к остальным частям описания, включая рисунки и формулу изобретения, будут реализованы другие особенности и преимущества воплощений настоящего изобретения. Дополнительные особенности и преимущества, а также структура и действие различных воплощений настоящего изобретения подробно описаны ниже с привлечением сопроводительных рисунков. На рисунках одинаковые номера обозначений могут означать идентичные или функционально близкие элементы.Referring to the rest of the description, including the drawings and the claims, other features and advantages of embodiments of the present invention will be realized. Additional features and advantages, as well as the structure and operation of various embodiments of the present invention are described in detail below with the help of the accompanying drawings. In the figures, the same designation numbers may mean identical or functionally similar elements.

Краткое описание фигурBrief description of the figures

На фиг. 1 представлена блок-схема способа определения 100 по меньшей мере части генома еще не рожденного плода беременной женщины согласно воплощениям настоящего изобретения.In FIG. 1 is a flow diagram of a method for determining 100 at least a portion of the genome of an unborn fetus of a pregnant woman in accordance with embodiments of the present invention.

На фиг. 2 представлены два гаплотипа у отца и два гаплотипа у матери для определенного сегмента соответствующего им геномного кода согласно воплощениям настоящего изобретения.In FIG. 2 shows two paternal and two maternal haplotypes for a specific segment of their respective genomic code, according to embodiments of the present invention.

На фиг. 3 представлены два типа SNP у родительских гаплотипов из фиг. 2 согласно воплощениям настоящего изобретения.In FIG. 3 shows two types of SNPs in the parental haplotypes from FIG. 2 according to embodiments of the present invention.

На фиг. 4A и B представлен анализ для определения гаплотипов плода для двух типов SNP согласно воплощениям настоящего изобретения.In FIG. 4A and B are assays to determine fetal haplotypes for two types of SNPs according to embodiments of the present invention.

На фиг. 5A и B представлен сравнительный анализ относительного количества (например, встречаемости) фрагментов по каждому локусу и того, что результат сравнения классифицирует определенный генотип как наследуемый или нет, согласно воплощениям настоящего изобретения.In FIG. 5A and B are comparisons of the relative abundance (eg, occurrence) of fragments at each locus and whether the result of the comparison classifies a particular genotype as heritable or not, according to embodiments of the present invention.

На фиг. 6 представлен эффект изменения отношения вероятностей при классификации по SPRT согласно воплощениям настоящего изобретения.In FIG. 6 shows the effect of changing the probability ratio in SPRT classification according to embodiments of the present invention.

На фиг. 7 представлена блок-схема способа определения 700 по меньшей мере части генома, унаследованной от отца, у еще не рожденного плода беременной женщины согласно воплощениям настоящего изобретения.In FIG. 7 is a flow diagram of a method for determining 700 at least the paternally inherited portion of the genome in an unborn fetus of a pregnant woman, in accordance with embodiments of the present invention.

На фиг. 8 представлена блок-схема способа определения 800 по меньшей мере части генома у еще не рожденного плода беременной женщины на участке, в котором отец и мать гетерозиготны, согласно воплощениям настоящего изобретения.In FIG. 8 is a flow diagram of a method for determining 800 at least a portion of the genome in an unborn fetus of a pregnant woman at a site in which the father and mother are heterozygous, according to embodiments of the present invention.

На фиг. 9 представлены гаплотипы отца и матери, которые оба гетерозиготны на определенном участке генома согласно воплощениям настоящего изобретения.In FIG. 9 shows haplotypes of a father and mother that are both heterozygous at a particular genomic site according to embodiments of the present invention.

На фиг. 10 представлена блок-схема способа определения 1000 фракционной концентрации материала плода в материнском образце согласно воплощениям настоящего изобретения.In FIG. 10 is a flow diagram of a method for determining the 1000 fractional concentration of fetal material in a maternal sample, in accordance with embodiments of the present invention.

На фиг. 11 представлена блок-схема способа определения того, что локус является информативным согласно воплощениям настоящего изобретения.In FIG. 11 is a flow diagram of a method for determining that a locus is informative in accordance with embodiments of the present invention.

На фиг. 12A и B представлено прогнозируемое распределение встречаемости для аллеля T (наименее распространенный аллель в сценариях (a) и (c)) по трем сценариям в предположении, что фракционная концентрация ДНК плода составляет 20% и 5% соответственно, согласно воплощениям настоящего изобретения.In FIG. 12A and B show the predicted distribution of occurrence for the T allele (the least common allele in scenarios (a) and (c)) over the three scenarios, assuming a fractional concentration of fetal DNA of 20% and 5%, respectively, according to embodiments of the present invention.

На фиг. 13A, B и 14 представлено прогнозируемое распределение встречаемости для наименее распространенного аллеля при фракционной концентрации ДНК плода в 20% при различном общем числе молекул, соответствующих SNP, согласно воплощениям настоящего изобретения.In FIG. 13A, B and 14 show the predicted distribution of occurrence for the least common allele at a fractional concentration of fetal DNA of 20% at various total number of molecules corresponding to SNPs, according to embodiments of the present invention.

На фиг. 15A и B представлены примеры контрольных гаплотипов, родительских гаплотипов, полученных от контрольных гаплотипов, и возникающие при этом гаплотипы плода согласно воплощениям настоящего изобретения.In FIG. 15A and B are examples of control haplotypes, parental haplotypes derived from control haplotypes, and resulting fetal haplotypes according to embodiments of the present invention.

На фиг. 16 представлена блок-схема способа определения 1600 по меньшей мере части генома плода, когда известен набор контрольных гаплотипов, но не известны родительские гаплотипы, согласно воплощениям настоящего изобретения.In FIG. 16 is a flow diagram of a method for determining 1600 at least a portion of the fetal genome when a set of control haplotypes is known but parental haplotypes are not known, in accordance with embodiments of the present invention.

На фиг. 17 представлен пример определения информативных локусов при анализе фрагментов ДНК из материнского образца согласно воплощениям настоящего изобретения.In FIG. 17 shows an example of determining informative loci when analyzing DNA fragments from a maternal sample according to embodiments of the present invention.

На фиг. 18 представлены три контрольных гаплотипа (Hap A, Hap B и Hap C) и отцовские аллели.In FIG. 18 shows the three control haplotypes (Hap A, Hap B and Hap C) and paternal alleles.

На фиг. 19 представлено определение родительского гаплотипа по отцовским аллелям согласно воплощениям настоящего изобретения.In FIG. 19 shows the determination of the parental haplotype from paternal alleles according to embodiments of the present invention.

На фиг. 20 представлено вычисление материнских генотипов при анализе материнского образца согласно воплощениям настоящего изобретения.In FIG. 20 shows the calculation of maternal genotypes from analysis of a maternal sample according to embodiments of the present invention.

- 2 040939- 2 040939

На фиг. 21 представлено воплощение для определения материнских гаплотипов из материнских генотипов и контрольных гаплотипов согласно воплощениям настоящего изобретения.In FIG. 21 depicts an embodiment for determining maternal haplotypes from maternal genotypes and control haplotypes according to embodiments of the present invention.

На фиг. 22 представлены материнские гаплотипы и наследуемые по отцовской линии гаплотипы, определенные согласно воплощениям настоящего изобретения.In FIG. 22 shows maternal haplotypes and paternally inherited haplotypes determined in accordance with embodiments of the present invention.

На фиг. 23 представлены различные типы локусов (альфа (A) и бета (B)) для материнских гаплотипов относительно отцовского гаплотипа согласно воплощениям настоящего изобретения.In FIG. 23 shows different types of loci (alpha (A) and beta (B)) for maternal haplotypes relative to paternal haplotype according to embodiments of the present invention.

На фиг. 24 представлена блок-схема, иллюстрирующая способ идентификации 2400 мутаций de novo в геноме еще не рожденного плода у беременной женщины.In FIG. 24 is a flowchart illustrating a method for identifying 2400 de novo mutations in the genome of an unborn fetus in a pregnant woman.

На фиг. 25A представлено абсолютное количество и процентное содержание SNP, представляющих различные комбинации генотипов для отца, матери и плода (CVS) согласно воплощениям настоящего изобретения.In FIG. 25A shows the absolute number and percentage of SNPs representing various combinations of paternal, maternal, and fetal (CVS) genotypes according to embodiments of the present invention.

На фиг. 25B представлена таблица, в которой приведена статистика совмещения по первым 20 проточным кюветам.In FIG. 25B is a table showing alignment statistics for the first 20 flow cells.

На фиг. 26 представлена таблица, в которой приведены фракционные концентрации ДНК плода, рассчитанные по SNP двумя способами согласно воплощениям настоящего изобретения.In FIG. 26 is a table showing fractional concentrations of fetal DNA calculated from SNPs by two methods according to embodiments of the present invention.

На фиг. 27A представлен график, иллюстрирующий наблюдаемый процент SNP в той подгруппе, в которой аллель плода наблюдается по данным секвенирования при анализе первых 20 проточных кювет, а на фиг. 27B представлен график охвата от количества прочитанных отрезков согласно воплощениям настоящего изобретения.In FIG. 27A is a graph illustrating the observed percentage of SNPs in the subgroup in which the fetal allele is observed on the sequencing of the first 20 flow cells, and FIG. 27B is a plot of coverage vs. number of spans read according to embodiments of the present invention.

На фиг. 28A и B представлены графики корреляции между охватом наследуемых по отцовской линии аллелей и числом картируемых прочтений последовательности и количеством секвенируемых проточных кювет, соответственно, согласно воплощениям настоящего изобретения.In FIG. 28A and B are graphs of the correlation between paternally inherited allele coverage and the number of mapped sequence reads and the number of sequenced flow cells, respectively, according to embodiments of the present invention.

На фиг. 29A представлена корреляция между долей ложно-положительных и количеством секвенируемых проточных кювет, а на фиг. 29B представлена корреляция между долей ложно-положительных и количеством секвенируемых проточных кювет согласно воплощениям настоящего изобретения.In FIG. 29A shows the correlation between the false positive rate and the number of flow cells sequenced, and FIG. 29B shows the correlation between the false positive rate and the number of flow cells sequenced according to embodiments of the present invention.

На фиг. 30 представлен охват специфичных для плода SNP при различном числе анализируемых проточных кювет согласно воплощениям настоящего изобретения.In FIG. 30 shows the coverage of fetal-specific SNPs for different numbers of flow cells analyzed according to embodiments of the present invention.

На фиг. 31 представлена точность анализа типа A при использовании данных от 10 проточных кювет согласно воплощениям настоящего изобретения.In FIG. 31 shows the accuracy of Type A analysis using data from 10 flow cells according to embodiments of the present invention.

На фиг. 32 представлена точность анализа типа B при использовании данных от 10 проточных кювет согласно воплощениям настоящего изобретения.In FIG. 32 shows the accuracy of Type B analysis using data from 10 flow cells according to embodiments of the present invention.

На фиг. 33 представлена точность анализа типа A при использовании данных от 20 проточных кювет согласно воплощениям настоящего изобретения.In FIG. 33 shows the accuracy of Type A analysis using data from 20 flow cells according to embodiments of the present invention.

На фиг. 34 представлена точность анализа типа B при использовании данных от 20 проточных кювет согласно воплощениям настоящего изобретения.In FIG. 34 shows the accuracy of Type B analysis using data from 20 flow cells according to embodiments of the present invention.

На фиг. 35A и B представлены отрезки последовательностей с мутациями и отрезки дикого типа по кодонам 41/42 согласно воплощениям настоящего изобретения.In FIG. 35A and B show mutated and wild-type sequence stretches at codons 41/42 according to embodiments of the present invention.

На фиг. 36 представлена таблица анализа RHDO типа A, а на фиг. 37 представлен анализ RHDO типа B согласно воплощениям настоящего изобретения.In FIG. 36 is a type A RHDO analysis table, and FIG. 37 shows an analysis of RHDO type B according to embodiments of the present invention.

На фиг. 38A и B представлены результаты классификации по SPRT для случая PW226 в качестве примера.In FIG. 38A and B show the SPRT classification results for PW226 as an example.

На фиг. 39 представлена таблица, суммирующая результаты анализа RHDO для пяти случаев согласно воплощениям настоящего изобретения.In FIG. 39 is a table summarizing the RHDO analysis results for five cases according to embodiments of the present invention.

На фиг. 40 представлен график полноты секвенирования от числа секвенируемых проточных кювет согласно воплощениям настоящего изобретения.In FIG. 40 is a plot of sequencing completeness versus number of flow cells sequenced according to embodiments of the present invention.

На фиг. 41 представлен график размера последовательностей плода и общих последовательностей для всего генома, а на фиг. 42A-C представлены аналогичные графики индивидуально для каждой хромосомы согласно воплощениям настоящего изобретения.In FIG. 41 is a graph of the size of fetal and total sequences for the entire genome, and FIG. 42A-C are similar plots for each chromosome individually according to embodiments of the present invention.

На фиг. 43 представлена блок-схема примера компьютерной системы 4300, применяемой с системой и способами согласно воплощениям настоящего изобретения.In FIG. 43 is a block diagram of an example computer system 4300 used with the system and methods according to embodiments of the present invention.

ОпределенияDefinitions

Термин биологический образец в настоящем изобретении относится к любым образцам, взятым у субъекта (например, человека, как-то беременной женщины) и содержащим одну или несколько представляющих интерес молекул нуклеиновой кислоты.The term biological sample in the present invention refers to any sample taken from a subject (eg, a human, such as a pregnant woman) and containing one or more nucleic acid molecules of interest.

Термин нуклеиновая кислота или полинуклеотид относится к дезоксирибо-нуклеиновой кислоте (ДНК) или рибонуклеиновой кислоте (РНК) и их полимерам как в одноцепочечном, так и двухцепочечном виде. Если не оговорено особо, термин охватывает нуклеиновые кислоты, содержащие известные аналоги природных нуклеотидов, обладающие такими же свойствами связывания, как и стандартная нуклеиновая кислота, и подвергающиеся метаболизму таким же образом, как и природные нуклеотиды. Если не указано иначе, конкретная последовательность нуклеиновой кислоты также косвенным образом охватывает ее консервативно модифицированные варианты (например, замены на вырожденные кодоны), аллели, ортологи, SNPs и комплементарные последовательности, а также последовательности, ука- 3 040939 занные в явном виде. В частности, замены на вырожденные кодоны могут осуществляться путем создания последовательностей, в которых у одного или несколько отдельных (либо всех) кодонов в третьем положении произведены замены на смешанные основания и/или остатки дезоксинозина (Batzer et al., Nucleic Acid Res. 19:5081 (1991); Ohtsuka et al., J. Biol. Chem. 260:2605-2608 (1985); и Rossolini et al., Mol. Cell. Probes 8:91-98 (1994)). Термин нуклеиновая кислота применяется взаимозаменяемо с геном, кДНК, мРНК, небольшими некодирующими РНК, микроРНК (miRNA), взаимодействующими с Piwi-PHK и короткими шпилечными РНК (shRNA), кодируемыми геном или локусом.The term nucleic acid or polynucleotide refers to deoxyribonucleic acid (DNA) or ribonucleic acid (RNA) and their polymers in both single and double stranded form. Unless otherwise stated, the term encompasses nucleic acids containing known analogs of naturally occurring nucleotides that have the same binding properties as a standard nucleic acid and are metabolized in the same manner as naturally occurring nucleotides. Unless otherwise stated, a particular nucleic acid sequence also includes, by implication, its conservatively modified variants (eg, degenerate codon substitutions), alleles, orthologs, SNPs, and complementary sequences, as well as sequences explicitly stated. In particular, substitutions for degenerate codons can be achieved by creating sequences in which one or more individual (or all) codons in the third position have been replaced with mixed bases and/or deoxynosine residues (Batzer et al., Nucleic Acid Res. 19: 5081 (1991); Ohtsuka et al., J. Biol. Chem. 260:2605-2608 (1985); and Rossolini et al., Mol. Cell. Probes 8:91-98 (1994)). The term nucleic acid is used interchangeably with gene, cDNA, mRNA, small non-coding RNA, microRNA (miRNA) interacting with Piwi-RNA, and short hairpin RNA (shRNA) encoded by a gene or locus.

Термин ген обозначает сегмент ДНК, участвующий в вырабатывании полипептидной цепи или транкрибируемого продукта РНК. Он может включать участки, предшествующие или последующие за кодирующим участком (лидерные или трейлерные), а также промежуточные последовательности (интроны) между отдельными кодирующими сегментами (экзонами).The term gene refers to a segment of DNA involved in the production of a polypeptide chain or a transcribed RNA product. It may include regions preceding or following the coding region (leader or trailer), as well as intermediate sequences (introns) between individual coding segments (exons).

Термин клинически значимая последовательность нуклеиновой кислоты (также именуется последовательностью мишени или хромосомой) в настоящем изобретении может обозначать полинуклеотидную последовательность, соответствующую сегменту большей геномной последовательности, возможный дисбаланс которой проверяется, или самой этой большей геномной последовательности. Одним из примеров является последовательность хромосомы 21. Другие примеры включают хромосомы 18, 13, X и Y. Еще другие примеры включают мутированные генетические последовательности или генетические полиморфизмы или вариации числа копий, которые плод может унаследовать от одного или от обоих родителей или в качестве мутации de novo у плода. В некоторых воплощениях для получения данных для выявления дисбаланса может использоваться множество клинически значимых последовательностей нуклеиновых кислот или же множество маркеров клинически значимой последовательности нуклеиновой кислоты. Например, для определения возможного нарушения в хромосоме 21 можно аддитивно использовать данные из пяти несмежных последовательностей на хромосоме 21, при этом требуемый объем образца эффективно снижается до 1/5.The term clinically relevant nucleic acid sequence (also referred to as target sequence or chromosome) in the present invention may refer to a polynucleotide sequence corresponding to a segment of a larger genomic sequence whose possible imbalance is being tested, or the larger genomic sequence itself. One example is the sequence of chromosome 21. Other examples include chromosomes 18, 13, X, and Y. Still other examples include mutated genetic sequences or genetic polymorphisms or copy number variations that a fetus can inherit from one or both parents or as a mutation de novo in the fetus. In some embodiments, a plurality of clinically relevant nucleic acid sequences or a plurality of markers of a clinically significant nucleic acid sequence may be used to provide data to detect an imbalance. For example, data from five non-contiguous sequences on chromosome 21 can be additively used to determine a possible disorder on chromosome 21, effectively reducing the sample volume required to 1/5.

Термин на основе в настоящем изобретении означает по крайней мере частично на основе и относится к одной величине (или результату), которая используется для определения другой величины, как это происходит на входе способа и на выходе этого способа. Термин выводить в настоящем изобретении также относится к взаимоотношению между входными данными способа и результатом этого способа, как это происходит тогда, когда выведение означает вычисление по формуле.The term based in the present invention means at least partially based on and refers to one value (or result) that is used to determine another value, as it occurs at the input of the method and at the output of the method. The term inference in the present invention also refers to the relationship between the input of a method and the result of that method, as occurs when inference means calculation by a formula.

Термин параметр в настоящем изобретении обозначает численное значение, характеризующее набор количественных данных и/или количественное взаимоотношение между наборами числовых данных. Например, параметром является соотношение (или функция отношения) между первым количеством первой последовательности нуклеиновой кислоты и вторым количеством второй последовательности нуклеиновой кислоты.The term parameter in the present invention denotes a numerical value characterizing a set of quantitative data and/or a quantitative relationship between sets of numerical data. For example, the parameter is the ratio (or ratio function) between the first amount of the first nucleic acid sequence and the second amount of the second nucleic acid sequence.

В настоящем изобретении термин локус или его множественная форма локусы обозначает расположение или адрес любого отрезка нуклеотидов (или пар оснований), имеющего вариации между геномами.In the present invention, the term locus, or its plural form loci, refers to the location or address of any stretch of nucleotides (or base pairs) having variation between genomes.

Термин дисбаланс последовательности в настоящем изобретении означает любое значительное отклонение, определяемое по меньшей мере одним значением отсечения, по количеству клинически значимой последовательности нуклеиновой кислоты от стандартного количества. Дисбаланс последовательности может включать хромосомный дисбаланс, аллельный дисбаланс, мутационный дисбаланс, дисбаланс по гаплотипу и другие аналогичные дисбалансы. В качестве примера: аллельный или мутационный дисбаланс происходит тогда, когда генотип плода отличается от материнского, при этом возникает дисбаланс по определенному локусу в образце.The term sequence imbalance in the present invention means any significant deviation, defined by at least one cutoff value, in the amount of a clinically significant nucleic acid sequence from a standard amount. Sequence imbalances can include chromosomal imbalances, allelic imbalances, mutational imbalances, haplotype imbalances, and other similar imbalances. As an example, an allelic or mutational imbalance occurs when the genotype of the fetus differs from the maternal genotype, resulting in an imbalance at a particular locus in the sample.

Термин хромосомная анеуплоидия в настоящем изобретении означает изменение числа хромосом от диплоидного набора в геноме. Изменение может быть приобретением или потерей. Оно может включать целую хромосому или участок хромосомы.The term chromosomal aneuploidy in the present invention means a change in the number of chromosomes from the diploid set in the genome. Change can be gain or loss. It may include an entire chromosome or a portion of a chromosome.

Термин гаплотип в настоящем изобретении относится к комбинации аллелей по множественным локусам, которые передаются вместе на одной и той же хромосоме или участке хромосомы. Гаплотип может относиться всего лишь к одной паре локусов или к участку хромосомы либо ко всей хромосоме. Термин аллели относится к альтернативным последовательностям ДНК в одном и том же физическом локусе генома, которые могут или не могут приводить к различным фенотипическим признакам. В каком-либо определенном диплоидном организме с двумя копиями каждой хромосомы (за исключением половых хромосом у мужчин) генотип для каждого гена содержит пару аллелей, присутствующих в таком локусе, которые являются одинаковыми у гомозигот и разными у гетерозигот. Популяция организмов или вид обычно содержит несколько аллелей в каждом локусе у различных индивидов. Геномный локус, по которому в популяции обнаруживается более одного аллеля, называется полиморфным сайтом. Аллельные вариации в локусе измеряются числом аллелей (т.е. степенью полиморфизма) или пропорцией гетерозигот (т.е. гетерозиготностью) в популяции. В настоящем изобретении термин полиморфизм относится к любым вариациям между особями в геноме человека, независимо от их частоты. Примеры таких вариаций включают, без ограничения, полиморфизм по одному нуклеотиду, полиморфизмы типа простых тандемных повторов, полиморфизмы типа вставки-делеции, мутации (которые могут вызывать болезни) и вариации по числу копий.The term haplotype in the present invention refers to the combination of alleles at multiple loci that are passed together on the same chromosome or region of the chromosome. A haplotype can refer to just one pair of loci, or to a portion of a chromosome, or to an entire chromosome. The term alleles refers to alternative DNA sequences at the same physical locus of the genome, which may or may not result in different phenotypic traits. In any particular diploid organism with two copies of each chromosome (except for the sex chromosomes in males), the genotype for each gene contains a pair of alleles present at that locus that are the same in homozygotes and different in heterozygotes. A population of organisms or a species usually contains several alleles at each locus in different individuals. A genomic locus at which more than one allele is found in a population is called a polymorphic site. Allelic variation at a locus is measured by the number of alleles (i.e., the degree of polymorphism) or the proportion of heterozygotes (i.e., heterozygosity) in a population. In the present invention, the term polymorphism refers to any variation between individuals in the human genome, regardless of their frequency. Examples of such variations include, without limitation, single nucleotide polymorphisms, simple tandem repeat type polymorphisms, insertion-deletion type polymorphisms, mutations (which can cause disease), and copy number variations.

- 4 040939- 4 040939

Раскрытие сущности изобретенияDisclosure of the essence of the invention

Составление частичной генетической карты или полной геномной последовательности еще не рожденного плода может осуществляться на основе гаплотипов полиморфных последовательностей его родителей. Термин гаплотип в настоящем изобретении обозначает комбинацию аллелей по множественным локусам, которые переносятся вместе на одну и ту же хромосому или участок хромосомы. Например, в воплощениях можно подвергнуть анализу фрагменты ДНК из материнского образца (содержащие ДНК матери и плода) для идентификации аллелей по некоторым заданным локусам (маркерам). Затем можно проанализировать общее количество фрагментов ДНК соответствующих аллелей в этих локусах для определения относительного количества гаплотипов по этим локусам и тем самым определить, какие гаплотипы унаследованы плодом из материнского и/или отцовского генома. Идентифицируя гаплотипы плода, можно определить генотип плода по индивидуальным локусам в соответствующем участке генома, включая заданные локусы. В различных воплощениях локусы, по которым родители представлены определенными комбинациями гомозигот и гетерозигот, можно подвергнуть анализу таким образом, чтобы определить участки генома плода. В одном воплощении для определения материнского и отцовского геномов используются контрольные гаплотипы, представляющие распространенные в популяции гаплотипы, вместе с анализом фрагментов ДНК материнского образца.Compilation of a partial genetic map or a complete genomic sequence of an unborn fetus can be carried out on the basis of haplotypes of polymorphic sequences of its parents. The term haplotype in the present invention refers to a combination of alleles at multiple loci that are transferred together on the same chromosome or chromosome region. For example, in embodiments, DNA fragments from a maternal sample (containing both maternal and fetal DNA) can be analyzed to identify alleles at certain predetermined loci (markers). You can then analyze the total number of DNA fragments of the corresponding alleles at these loci to determine the relative number of haplotypes at these loci and thereby determine which haplotypes are inherited by the fetus from the maternal and/or paternal genome. By identifying fetal haplotypes, the fetal genotype can be determined from individual loci in the appropriate genomic region, including target loci. In various embodiments, loci at which parents are represented by certain combinations of homozygotes and heterozygotes can be analyzed in such a way as to determine regions of the fetal genome. In one embodiment, control haplotypes representing common haplotypes in a population are used to determine maternal and paternal genomes, along with analysis of DNA fragments from a maternal sample.

Примером применения одного воплощения для определения по меньшей мере части генома плода может служить определение отцовства путем сравнения выведенного генотипа или гаплотипа плода с генотипом или гаплотипом предполагаемого отца. Другим примером является выявление одной или нескольких приобретенных зародышем мутаций de novo или выявление случаев мейотической рекомбинации, произошедших во время образования гамет у его родителей. Это те гаметы, которые подверглись оплодотворению, а из полученной зиготы развился плод.An example of using one embodiment to determine at least a portion of the fetal genome would be to determine paternity by comparing the inferred genotype or haplotype of the fetus with the genotype or haplotype of the putative father. Another example is the detection of one or more de novo mutations acquired by the embryo, or the detection of cases of meiotic recombination that occurred during the formation of gametes from its parents. These are the gametes that have undergone fertilization, and a fetus has developed from the resulting zygote.

Кроме того, некоторые воплощения также дают возможность определить геномную последовательность еще не рожденного плода с требуемым разрешением. Например, в некоторых применениях воплощения можно определить полную или близкую к полной геномную последовательность еще не рожденного плода. В одном воплощении разрешение определяемой геномной последовательности плода зависит от знания геномов отца и матери вместе с информацией по секвенированию материнского биологического образца, содержащего нуклеиновые кислоты плода. В том случае, когда известны полные или почти полные геномные последовательности отца и матери, можно вывести полную или почти полную геномную последовательность еще не рожденного плода.In addition, some embodiments also make it possible to determine the genomic sequence of an unborn fetus with the required resolution. For example, in some embodiments, the complete or near-complete genomic sequence of an unborn fetus can be determined. In one embodiment, the resolution of the fetal genomic sequence to be determined depends on knowledge of the genomes of the father and mother along with sequencing information of the maternal biological sample containing the fetal nucleic acids. In the case where the complete or nearly complete genomic sequences of the father and mother are known, it is possible to deduce the complete or almost complete genomic sequence of the unborn fetus.

В других воплощениях выясняются только геномные последовательности отдельных участков генома, например, для пренатальной диагностики выбранных генетических, эпигенетических (таких как нарушения импринтинга) или хромосомных нарушений. Примеры генетических нарушений, к которым может применяться воплощение, включают гемоглобинопатии (как-то бета-талассемия, альфаталассемия, серповидно-клеточная анемия, болезнь гемоглобина E), кистозный фиброз и связанные с полом заболевания (как-то гемофилия и мышечная дистрофия Дюшенна). Дополнительные примеры мутаций, которые можно определить при помощи воплощения, можно найти в Online Mendelian Inheritance in Man (www.ncbi.nlm.nih.gov/omim/getmorbid.cgi).In other embodiments, only the genomic sequences of selected regions of the genome are elucidated, for example, for prenatal diagnosis of selected genetic, epigenetic (such as imprinting disorders), or chromosomal disorders. Examples of genetic disorders to which an embodiment may apply include hemoglobinopathies (such as beta thalassemia, alpha thalassemia, sickle cell anemia, hemoglobin E disease), cystic fibrosis, and sex-related diseases (such as hemophilia and Duchenne muscular dystrophy). Additional examples of mutations that can be determined by embodiment can be found in Online Mendelian Inheritance in Man (www.ncbi.nlm.nih.gov/omim/getmorbid.cgi).

Некоторые воплощения также могут применяться для определения фракционной концентрации ДНК плода, которое может выполняться без предварительного знания конкретных геномов родителей. Аналогичный анализ также может примениться для определения полноты охвата, необходимой для точного определения генома плода. Так определение охвата может применяться для оценки того, сколько нужно проанализировать данных, чтобы получить точные результаты.Some embodiments can also be used to determine the fractional concentration of fetal DNA, which can be performed without prior knowledge of the specific genomes of the parents. A similar analysis can also be applied to determine the completeness needed to accurately determine the fetal genome. So coverage can be used to estimate how much data needs to be analyzed to get accurate results.

I. ВведениеI Introduction

Когда в качестве материала для выяснения гаплотипа плода используется материнский образец (например, плазма или сыворотка), могут возникнуть две основные проблемы. Первая проблема состоит в том, что материнская плазма или сыворотка состоит из смеси ДНК плода и матери, причем ДНК плода составляет незначительную популяцию. Установлено, что средняя/медианная доля ДНК плода составляет от 5% до 10% от общей ДНК в материнской плазме в первые два триместра беременности (Lo YMD et al., Am J Hum Genet 1998, 62: 768-775; Lun FMF et al., Clin Chem 2008, 54: 1664-1672). Поскольку ДНК высвобождается материнскими клетками крови в процессе свертывания крови, фракционная концентрация ДНК плода в материнской сыворотки может быть даже меньше, чем в материнской плазме. Поэтому в некоторых воплощениях материнская плазма предпочтительнее, чем материнская сыворотка.When a maternal sample (such as plasma or serum) is used as a material for elucidating the haplotype of a fetus, two main problems can arise. The first problem is that maternal plasma or serum consists of a mixture of fetal and maternal DNA, with fetal DNA constituting a small population. The mean/median proportion of fetal DNA has been found to be between 5% and 10% of total maternal plasma DNA in the first two trimesters of pregnancy (Lo YMD et al., Am J Hum Genet 1998, 62: 768-775; Lun FMF et al ., Clin Chem 2008, 54: 1664-1672). Because DNA is released by maternal blood cells during blood clotting, the fractional concentration of fetal DNA in maternal serum may be even less than that in maternal plasma. Therefore, in some embodiments, maternal plasma is preferred over maternal serum.

Вторая проблема заключается в том, что ДНК плода и ДНК матери в материнской плазме состоят из коротких фрагментов (Chan KCA et al., Clin Chem 2004, 50: 88-92). Так, в материнской плазме ДНК, происходящая от плода, обычно короче, чем ДНК, происходящая от матери. Большая часть ДНК плода в материнской плазме имеет длину менее 200 п.о. При использовании таких коротких фрагментов ДНК в плазме самих по себе будет трудно составить гаплотип генетических полиморфизмов на длинных отрезках генома. Вышеуказанные проблемы в отношении материнской плазмы и сыворотки также применимы и к выявлению ДНК плода в моче матери (Botezatu I et al., Clin Chem 2000, 46: 1078-1084). ДНК плода составляет лишь небольшую долю ДНК в моче беременной женщины, и ДНК плода в моче матери тоже состоит из коротких фрагментов ДНК.The second problem is that fetal and maternal DNA in maternal plasma consist of short fragments (Chan KCA et al., Clin Chem 2004, 50: 88-92). Thus, in maternal plasma, fetal-derived DNA is usually shorter than maternal-derived DNA. Most fetal DNA in maternal plasma is less than 200 bp in length. Using such short DNA fragments in plasma alone would make it difficult to haplotype genetic polymorphisms over long stretches of the genome. The above concerns regarding maternal plasma and serum also apply to the detection of fetal DNA in maternal urine (Botezatu I et al., Clin Chem 2000, 46: 1078-1084). Fetal DNA makes up only a small fraction of the DNA in a pregnant woman's urine, and fetal DNA in a mother's urine also consists of short pieces of DNA.

- 5 040939- 5 040939

A. Секвенирование и анализ материнского образцаA. Sequencing and analysis of the maternal sample

Подход, предпринятый в некоторых воплощениях для того, чтобы справиться с первой проблемой, состоит в применении способа, позволяющего с высокой точностью количественно генотипировать нуклеиновые кислоты, полученные из материнского биологического образца. В одном воплощении такого подхода точность достигается путем анализа большого числа (к примеру, миллионов или миллиардов) молекул нуклеиновой кислоты. Более того, точность можно повысить путем анализа отдельных молекул нуклеиновой кислоты или клональной амплификации отдельных молекул нуклеиновой кислоты. В одном воплощении применяется массированное параллельное секвенирование ДНК типа того, что выполняется на платформе Illumina Genome Analyzer (Bentley DR et al., Nature 2008, 456: 53-59), платформе Roche 454 (Margulies M et al., Nature 2005, 437: 376-380), платформе ABI SOLiD (McKernan KJ et al., Genome Res 2009, 19: 1527-1541), платформе секвенирования отдельных молекул Helicos (Harris TD et al., Science 2008, 320: 106-109), секвенирования в реальном времени с использованием отдельных молекул полимеразы (Science 2009, 323: 133-138) и нанопорового секвенирования (Clarke J et al., Nat Nanotechnol. 2009, 4: 265-70). В одном воплощении массированное параллельное секвенирование выполняется на случайном подмножестве молекул нуклеиновой кислоты в биологическом образце.An approach taken in some embodiments to deal with the first problem is to use a method that allows high precision quantitative genotyping of nucleic acids derived from a maternal biological sample. In one embodiment of this approach, accuracy is achieved by analyzing a large number (eg, millions or billions) of nucleic acid molecules. Moreover, accuracy can be improved by analyzing single nucleic acid molecules or by clonal amplification of single nucleic acid molecules. In one embodiment, massive parallel DNA sequencing is used, such as that performed on the Illumina Genome Analyzer platform (Bentley DR et al., Nature 2008, 456: 53-59), Roche 454 platform (Margulies M et al., Nature 2005, 437: 376-380), ABI SOLiD platform (McKernan KJ et al., Genome Res 2009, 19: 1527-1541), Helicos single molecule sequencing platform (Harris TD et al., Science 2008, 320: 106-109), sequencing in real time using single polymerase molecules (Science 2009, 323: 133-138) and nanopore sequencing (Clarke J et al., Nat Nanotechnol. 2009, 4: 265-70). In one embodiment, massive parallel sequencing is performed on a random subset of nucleic acid molecules in a biological sample.

В некоторых воплощениях может оказаться выгодным считывание как можно более длинной последовательности с каждой молекулы. Одним из ограничений длины считывания последовательности может быть природа молекул нуклеиновой кислоты в материнском биологическом образце. Например, известно, что большинство молекул ДНК в материнской плазме состоят из коротких фрагментов (Chan CA et al., Clin Chem 2004, 50: 88-92). Более того, длина считывания должна уравновешиваться надежностью системы секвенирования при большой длине считывания. Для некоторых из вышеприведенных систем может оказаться предпочтительным секвенирование с обоих концов молекулы, так называемое секвенирование по спаренным концам. В качестве примера: один из подходов состоит в том, чтобы просеквенировать по 50 п.о. с каждого конца молекулы ДНК, получая в итоге последовательность из 100 п.о. на молекулу. В другом воплощении секвенируют по 75 п.о. с каждого конца молекулы ДНК, получая в итоге последовательность из 150 п.о. на молекулу.In some embodiments, it may be advantageous to read as long a sequence as possible from each molecule. One limitation on the length of the sequence read may be the nature of the nucleic acid molecules in the maternal biological sample. For example, it is known that most DNA molecules in maternal plasma consist of short fragments (Chan CA et al., Clin Chem 2004, 50: 88-92). Moreover, the read length must be balanced by the robustness of the sequencing system for long read lengths. For some of the above systems, sequencing from both ends of the molecule, so-called paired-end sequencing, may be preferred. As an example, one approach is to sequence 50 bp. from each end of the DNA molecule, resulting in a sequence of 100 bp. per molecule. In another embodiment, sequenced at 75 bp. from each end of the DNA molecule, resulting in a sequence of 150 bp. per molecule.

После выполнения секвенирования полученные последовательности выравниваются с контрольным геномом человека. Поскольку воплощения выявляют геномные вариации, унаследованные еще не рожденным плодом от родителей, то алгоритм выравнивания должен учитывать вариации последовательностей. Одним из примеров такого пакета программного обеспечения является программа Efficient LargeScale Alignment of Nucleotide Databases (ELAND) фирмы Illumina. Другим примером такого пакета программного обеспечения являются программы SOAP (short oligonucleotide alignment program, т.е. программа выравнивания коротких олигонуклеотидов) и SOAP2 (Li R et al., Bioinformatics 2008, 24:713-714; Li R et al., Bioinformatics 2009, 25:1966-1967).After sequencing, the resulting sequences are aligned with the control human genome. Since embodiments detect genomic variations inherited from parents by the unborn fetus, the alignment algorithm must account for sequence variations. One example of such a software package is Illumina's Efficient LargeScale Alignment of Nucleotide Databases (ELAND). Another example of such a software package is SOAP (short oligonucleotide alignment program) and SOAP2 (Li R et al., Bioinformatics 2008, 24:713-714; Li R et al., Bioinformatics 2009 , 25:1966-1967).

Степень секвенирования ДНК, которая может потребоваться для этого, может зависеть от разрешения, с которым нужно составить генетическую карту плода или геномную последовательность плода. В общем, чем больше молекул подвергается секвенированию, тем выше разрешение. Другим определяющим фактором разрешения генетической карты плода или геномной последовательности плода при данном уровне или полноте секвенирования ДНК является фракционная концентрация ДНК плода в материнском биологическом образце. В общем, чем больше фракционная концентрация ДНК плода, тем выше разрешение генетической карты плода или геномной последовательности плода, которое может быть получено при данном уровне секвенирования ДНК. Поскольку фракционная концентрация ДНК плода в материнской плазме выше, чем в материнской сыворотке, то для некоторых воплощений материнская плазма является более предпочтительным типом материнского биологического образца, чем материнская сыворотка.The extent of DNA sequencing that may be required for this may depend on the resolution with which the fetal genetic map or fetal genomic sequencing is to be compiled. In general, the more molecules that are sequenced, the higher the resolution. Another determining factor in the resolution of the fetal genetic map or fetal genomic sequence at a given level or completeness of DNA sequencing is the fractional concentration of fetal DNA in the maternal biological sample. In general, the greater the fractional concentration of fetal DNA, the higher the resolution of the fetal genetic map or fetal genomic sequence that can be obtained at a given level of DNA sequencing. Since the fractional concentration of fetal DNA in maternal plasma is higher than in maternal serum, for some embodiments, maternal plasma is a more preferred type of maternal biological sample than maternal serum.

Производительность вышеуказанных методов на основе секвенирования может быть повышена при помощи индексирования или штрих-кодирования. Так, к фрагментам нуклеиновых кислот в определенной библиотеке нуклеиновых кислот для секвенирования можно добавить специфичный для образца или пациента индекс или штрих-код. Затем можно смешать и просеквенировать вместе несколько таких библиотек, каждая со своим специфичным для образца или пациента индексом или штрих-кодом. После реакции секвенирования можно извлечь данные по секвенированию от каждого образца или пациента на основании штрих-кода или индекса. Такая стратегия может повысить производительность и тем самым рентабельность воплощений настоящего изобретения.The performance of the above sequencing-based methods can be improved by indexing or barcoding. Thus, a sample- or patient-specific suffix or barcode can be added to the nucleic acid fragments in a particular sequencing nucleic acid library. Several of these libraries can then be mixed and sequenced together, each with its own sample or patient-specific index or barcode. After a sequencing reaction, sequencing data can be extracted from each sample or patient based on a barcode or index. Such a strategy can increase the productivity and thus the cost-effectiveness of embodiments of the present invention.

В одном воплощении молекулы нуклеиновой кислоты в биологическом образце можно подвергнуть отбору или фракционировать еще до количественного генотипи-рования (например, секвенирования). В одном варианте молекулы нуклеиновой кислоты обрабатываются с помощью устройства (например, микроматрицы), которое может предпочтительно связывать молекулы нуклеиновой кислоты из выбранных локусов в геноме (например, участка на хромосоме 7, содержащего ген CFTR). После этого секвенирование может выполняться предпочтительно на молекулах нуклеиновой кислоты, захваченных устройством. Такая схема позволяет нацелить секвенирование на представляющий интерес участок генома. В одном воплощении такой схемы можно использовать систему захвата последовательности Nimblegen (www.nimblegen.com/products/seqcap/index.html) либо систему обогащения мишени Agilent SureSelectIn one embodiment, nucleic acid molecules in a biological sample may be selected or fractionated prior to quantitative genotyping (eg, sequencing). In one embodiment, nucleic acid molecules are processed with a device (eg, microarray) that can preferentially bind nucleic acid molecules from selected loci in the genome (eg, a region on chromosome 7 containing the CFTR gene). Thereafter, sequencing can preferably be performed on the nucleic acid molecules captured by the device. This scheme allows you to target sequencing to a region of interest in the genome. One embodiment of such a scheme can use the Nimblegen Sequence Capture System (www.nimblegen.com/products/seqcap/index.html) or the Agilent SureSelect Target Enrichment System

- 6 040939- 6 040939

Target Enrichment System (www.opengenomics.com/SureSelect_Target_Enrichment_System) или похожие платформы. В некоторых воплощениях молекулы нуклеиновой кислоты из выбранных участков генома подвергаются рандомизированному секвенированию.Target Enrichment System (www.opengenomics.com/SureSelect_Target_Enrichment_System) or similar platforms. In some embodiments, nucleic acid molecules from selected regions of the genome are subjected to randomized sequencing.

В другом воплощении представляющий интерес участок генома в биологическом образце сначала может подвергаться амплификации при помощи одного набора или нескольких наборов амплификационных праймеров. После этого может проводиться количественное генотипирование, к примеру, секвенирование продуктов амплификации. В одном исполнении такой схемы может использоваться система RainDance (www.raindancetech.com/technology/pcr-genomics-research.asp). В некоторых воплощениях амплифицированные молекулы нуклеиновой кислоты подвергаются рандомизированному секвенированию.In another embodiment, a genomic region of interest in a biological sample may first be amplified with one or more sets of amplification primers. After that, quantitative genotyping can be carried out, for example, sequencing of the amplification products. One implementation of such a scheme may use the RainDance system (www.raindancetech.com/technology/pcr-genomics-research.asp). In some embodiments, the amplified nucleic acid molecules are subjected to randomized sequencing.

Молекулы нуклеиновой кислоты в биологическом образце также могут подвергаться фракционированию по размерам. Поскольку известно, что ДНК плода короче ДНК матери в материнском образце (Li et al., Clin Chem 2004, 50: 1002-1011; US Patent Application 20050164241; US Patent Application 20070202525), можно отобрать и затем использовать для количественного генотипирования, например, секвенирования, фракцию более мелких по размерам молекул. Такая фракция будет содержать большую долю ДНК плода по сравнению с исходным биологическим образцом. Так секвенирование фракции, обогащенной ДНК плода, дает возможность составить генетическую карту плода или вывести геномную последовательность с более высоким разрешением при заданном уровне анализа (например, полноте секвенирования), чем при использовании не обогащенного образца. При этом технология станет более рентабельной. В качестве примера способов фракционирования по размерам можно использовать: (i) гельэлектрофорез с последующим экстрагированием молекул нуклеиновой кислоты из определенных частей геля; (ii) связывающие нуклеиновые кислоты матрицы с дифференциальным сродством к молекулам нуклеиновых кислот разного размера; или (iii) системы фильтрации с дифференциальным удержанием молекул нуклеиновых кислот разных размеров.Nucleic acid molecules in a biological sample can also be size fractionated. Since fetal DNA is known to be shorter than maternal DNA in a maternal sample (Li et al., Clin Chem 2004, 50: 1002-1011; US Patent Application 20050164241; US Patent Application 20070202525), can be selected and then used for quantitative genotyping, for example, sequencing, the fraction of smaller molecules. This fraction will contain a higher proportion of fetal DNA compared to the original biological sample. Thus, sequencing a fraction enriched in fetal DNA makes it possible to map the fetus or derive a genomic sequence at a higher resolution at a given level of analysis (eg, sequencing completeness) than when using an unenriched sample. This will make the technology more cost-effective. As an example of size fractionation methods, one can use: (i) gel electrophoresis followed by extraction of nucleic acid molecules from certain parts of the gel; (ii) nucleic acid binding matrices with differential affinity for nucleic acid molecules of different sizes; or (iii) filtration systems with differential retention of nucleic acid molecules of different sizes.

А в другом воплощении предпочтительно подвергаются анализу молекулы нуклеиновой кислоты определенного размера или диапазона размеров после секвенирования нуклеиновой кислоты. Например, можно проводить секвенирование по спаренным концам, при котором секвенирование происходит с обоих концов молекулы ДНК. Затем можно картировать геномные координаты обоих этих концов по контрольному геному человека. После этого можно вычислить размер молекулы вычитанием геномных координат двух концов. Один из способов проведения такого секвенирования по спаренным концам состоит в применении протокола секвенирования по спаренным концам Illumina Genome Analyzer. Другой способ выведения размера молекулы ДНК заключается в секвенировании всей молекулы ДНК. Проще всего это делается при помощи секвенирующих платформ с относительно большой протяженностью считывания типа платформы Roche 454 (Marguelis et al., Nature 2005, 437:376-380) и технологии отдельных молекул в реальном времени (SMRT™) фирмы Pacific Biosciences (Eid et al., Science 2009, 323: 133138). После вычисления размера молекул нуклеиновой кислоты можно сосредоточиться на последующем анализе молекул меньше определенного предела отсечения, при этом увеличивается фракционная концентрация ДНК плода. Анализ этого подмножества молекул позволяет составить генетическую карту плода или геномные последовательности плода с меньшим количеством анализируемых молекул после отбора по размерам, чем без такой процедуры. В одном воплощении используется предел отсечения в 300 п.о. В других воплощениях может использоваться предел отсечения в 250 п.о., 200 п.о., 180 п.о., 150 п.о., 125 п.о., 100 п.о. или 75 п.о.And in another embodiment, nucleic acid molecules of a certain size or range of sizes are preferably subjected to analysis after nucleic acid sequencing. For example, you can perform sequencing at paired ends, in which sequencing occurs from both ends of the DNA molecule. The genomic coordinates of both of these ends can then be mapped to the reference human genome. The size of the molecule can then be calculated by subtracting the genomic coordinates of the two ends. One way to perform this paired-end sequencing is to use the Illumina Genome Analyzer's paired-end sequencing protocol. Another way to derive the size of a DNA molecule is to sequence the entire DNA molecule. This is most easily done with relatively long read span sequencing platforms such as the Roche 454 platform (Marguelis et al., Nature 2005, 437:376-380) and Pacific Biosciences Real-Time Single Molecule Technology (SMRT™) technology (Eid et al. ., Science 2009, 323: 133138). After calculating the size of the nucleic acid molecules, one can focus on the subsequent analysis of molecules below a certain cut-off, while increasing the fractional concentration of fetal DNA. Analysis of this subset of molecules makes it possible to generate a genetic map of the fetus or genomic sequences of the fetus with fewer analyzed molecules after size selection than without such a procedure. In one embodiment, a 300 bp cutoff is used. In other embodiments, a cutoff of 250 bp, 200 bp, 180 bp, 150 bp, 125 bp, 100 bp may be used. or 75 bp

B. Использование родительских геномов в качестве каркасаB. Using parental genomes as a scaffold

Для решения второй проблемы в некоторых воплощениях гаплотипы хромосом матери могут использоваться в качестве каркаса. А гаплотипы хромосом отца могут использоваться в качестве другого каркаса. Этот каркас можно сравнить с генетической информацией плода, полученной из материнского образца, содержащего ДНК плода. Такая генетическая информация плода может использоваться для определения того, как каркас матери и/или отца был развернут в геноме плода, используя при этом составные части каркаса для определения возникающего генома плода.To address the second problem, in some embodiments, maternal chromosome haplotypes may be used as a scaffold. And paternal chromosome haplotypes can be used as another scaffold. This scaffold can be compared to the fetal genetic information obtained from a maternal sample containing the fetal DNA. Such fetal genetic information can be used to determine how the mother's and/or father's scaffold was unfolded in the fetal genome, while using the constituent parts of the scaffold to determine the nascent fetal genome.

Родительские гаплотипы могут быть составлены из геномной ДНК отца и матери и других членов семьи, например, брата или сестры плода в текущей беременности. Возможно, что доступность родительских гаплотипов станет все более обычным явлением ввиду снижения стоимости секвенирования генома. В одном сценарии, если геномы одного или обоих родителей уже просеквенированы и их гаплотипы на одном или нескольких участках хромосом определены, то эта информация может использоваться в качестве вышеуказанного каркаса.Parental haplotypes can be composed of the genomic DNA of the father and mother and other family members, such as the brother or sister of the fetus in the current pregnancy. It is possible that the availability of parental haplotypes will become increasingly common due to the declining cost of genome sequencing. In one scenario, if the genomes of one or both parents have already been sequenced and their haplotypes in one or more regions of the chromosomes have been determined, then this information can be used as the above framework.

Можно использовать любые платформы генотипирования, известные в данной области, которые способны выявлять вариации последовательностей в геноме, включая секвенирование ДНК, микроматрицы, гибридизационные зонды, флуоресцентные методы, оптические методы, молекулярные штрихкоды и формирование изображений отдельных молекул (Geiss GK et al., Nat Biotechnol 2008, 26: 317325), анализ отдельных молекул, ПЦР, цифровую ПЦР, масс-спектрометрию (типа платформы Sequenom MassARRAY) и др. В качестве экстремального примера: можно определить последовательность ДНК отца и матери путем секвенирования всего генома методом массированного параллельного секвенирования (например, Bentley DR et al., Nature 2008, 456: 53-59; McKernan KJ et al., Genome Res 2009, 19: 1527- 7 040939Any genotyping platforms known in the art that are capable of detecting sequence variation in the genome can be used, including DNA sequencing, microarrays, hybridization probes, fluorescence methods, optical methods, molecular barcodes, and single molecule imaging (Geiss GK et al., Nat Biotechnol 2008, 26: 317325), single molecule analysis, PCR, digital PCR, mass spectrometry (such as the Sequenom MassARRAY platform), etc. As an extreme example, it is possible to determine the DNA sequence of the father and mother by sequencing the entire genome using a massively parallel sequencing method (for example , Bentley DR et al., Nature 2008, 456: 53-59 McKernan KJ et al., Genome Res 2009, 19: 1527-7 040939

1541) . Примером вариаций последовательности, которые могут представлять интерес, являются полиморфизмы по отдельным нуклеотидам (SNP). Особенно предпочтительным способом определения родительских генотипов является анализ SNP на микроматрицах по всему геному или по отдельным участкам генома, например, содержащим гены, мутации которых могут вызывать генетические заболевания (както гены в бета-глобиновом кластере или вызывающий кистозный фиброз ген регулятора трансмембранной проводимости (CFTR)). Помимо вариаций последовательности, могут использоваться и вариации числа копий. Вариации последовательности и вариации числа копий именуются полиморфными генетическими признаками (PMF).1541) . An example of sequence variations that may be of interest are single nucleotide polymorphisms (SNPs). A particularly preferred way to determine parental genotypes is by analysis of SNPs on microarrays throughout the genome or at specific regions of the genome, for example, those containing genes whose mutations can cause genetic diseases (such as genes in the beta-globin cluster or the cystic fibrosis-causing transmembrane conductance regulator (CFTR) gene) ). In addition to sequence variations, copy number variations can also be used. Sequence variations and copy number variations are referred to as polymorphic genetic traits (PMFs).

В одном аспекте материнские генотипы на представляющих интерес хромосомах или участках хромосом могут быть составлены в гаплотипы. Это может осуществляться путем анализа других членов семейства, родственных матери, например сына или дочери матери, родителей, братьев и сестер и т.п. Гаплотипы можно составить и другими методами, которые хорошо известны в данной области и приведены выше.In one aspect, maternal genotypes on chromosomes or regions of chromosomes of interest can be compiled into haplotypes. This can be done by analyzing other family members related to the mother, such as the mother's son or daughter, parents, siblings, and the like. Haplotypes can also be compiled by other methods, which are well known in this field and are listed above.

Затем информацию по генотипам можно распространить на информацию по гаплотипам родителей путем сравнения информации по генотипам с другими членами семьи, к примеру, братьями и сестрами плода текущей беременности или по генотипам дедушек и бабушек и т.д. Гаплотипы родителей можно составить и другими методами, хорошо известными специалистам. Примеры таких методов включают методы на основе анализа отдельных молекул, как-то метод цифровой ПЦР (Ding C and Cantor CR, Proc Natl Acad Sci USA 2003, 100: 7449-7453; Ruano G et al., Proc Natl Acad Sci USA 1990, 87: 6296-6300), гаплотипирование спермы (Lien S et al., Curr Protoc Hum Genet 2002, Chapter 1 :Unit 1.6) и методы формирования изображений (Xiao M et al., Hum Mutat 2007, 28: 913-921). Другие методы включают методы на основе аллеле-специфичной ПЦР (Michalatos-Beloin S et al., Nucleic Acids Res 1996, 24: 4841-4843; Lo YMD et al., Nucleic Acids Res 1991, 19:3561-3567), клонирования и расщепления рестрикционными ферментами (Smirnova AS et al., Immunogenetics 2007, 59: 93-8) и др. Еще другие методы основываются на распределении и структуре неравновесного сцепления блоков гаплотипов в популяции, что позволяет составить материнский гаплотип по статистическим оценкам (Clark AG, Mol Biol Evol 1990, 7: 111-22; 10:13-9; Salem RM et al., Hum Genomics 2005; 2:39-66).The genotype information can then be extended to parental haplotype information by comparing the genotype information with other family members, such as siblings of the current pregnancy's fetus or grandparents' genotypes, etc. Parental haplotypes can also be compiled by other methods well known to those skilled in the art. Examples of such methods include single molecule based methods such as digital PCR (Ding C and Cantor CR, Proc Natl Acad Sci USA 2003, 100: 7449-7453; Ruano G et al., Proc Natl Acad Sci USA 1990, 87: 6296-6300), sperm haplotyping (Lien S et al., Curr Protoc Hum Genet 2002, Chapter 1 :Unit 1.6) and imaging techniques (Xiao M et al., Hum Mutat 2007, 28: 913-921). Other methods include allele-specific PCR based methods (Michalatos-Beloin S et al., Nucleic Acids Res 1996, 24: 4841-4843; Lo YMD et al., Nucleic Acids Res 1991, 19:3561-3567), cloning, and cleavage by restriction enzymes (Smirnova AS et al., Immunogenetics 2007, 59: 93-8), etc. Still other methods are based on the distribution and structure of the non-equilibrium linkage of haplotype blocks in the population, which makes it possible to compile the maternal haplotype according to statistical estimates (Clark AG, Mol Biol Evol 1990, 7:111-22; 10:13-9; Salem RM et al., Hum Genomics 2005; 2:39-66).

C. Использование информации по геному из материнского образца для составления каркасаC. Use of genome information from a maternal sample to construct a scaffold

В одном воплощении для того, чтобы узнать, какая из материнских хромосом была передана плоду, применяется метод относительной дозы гаплотипа (RHDO). Основной принцип этого метода следует из примера, когда мать гетерозиготна по каждому из генетических полиморфизмов. Итак, имеется два гаплотипа и относительная доза этих гаплотипов должна быть 1:1. Однако присутствие в материнском образце небольшой доли ДНК плода может изменить относительную дозу гаплотипа. Это происходит потому, что плод наследует половину своего комплекта гаплотипов от матери, а другую половину от отца. Более того, по каждой хромосоме плод мог унаследовать мозаику гаплотипов, происходящих из той или другой гомологичной хромосомы от каждого родителя, в зависимости от наличия мейотической рекомбинации. Все эти факторы могут вызвать отклонение относительной дозы гаплотипов от соотношения 1:1 в составе материнской ДНК. Таким образом, для данной хромосомы или участка хромосомы составляющие аллели этих гаплотипов можно отыскать из аналитических данных (например, данных по секвенированию), полученных из материнского образца.In one embodiment, the Haplotype Relative Dose (RHDO) method is used to find out which maternal chromosome has been transferred to the fetus. The basic principle of this method follows from the example when the mother is heterozygous for each of the genetic polymorphisms. So, there are two haplotypes and the relative dose of these haplotypes should be 1:1. However, the presence of a small proportion of fetal DNA in the maternal sample can change the relative dose of the haplotype. This is because the fetus inherits half of its haplotype set from the mother and the other half from the father. Moreover, for each chromosome, the fetus could inherit a mosaic of haplotypes derived from one or another homologous chromosome from each parent, depending on the presence of meiotic recombination. All these factors can cause the relative dose of haplotypes to deviate from the 1:1 ratio in maternal DNA. Thus, for a given chromosome or region of a chromosome, the constituent alleles of these haplotypes can be retrieved from analytical data (eg, sequencing data) obtained from a maternal sample.

Затем можно выполнить статистическую процедуру для определения относительной дозы гаплотипов или того, что один из гаплотипов представлен сильнее, чем другой.A statistical procedure can then be performed to determine the relative dose of haplotypes, or whether one of the haplotypes is more strongly represented than the other.

Классификационный порог для этой статистической процедуры может быть установлен в зависимости от фракционной концентрации ДНК плода. В общем случае более высокая фракционная концентрация ДНК плода способствует достижению порога при меньшем количестве молекул. Классификационный порог также может быть установлен в зависимости от количества успешно классифицированных фрагментов, которое нужно получить по всему геному или по искомым участкам генома. В одном воплощении может применяться последовательный критерий отношения вероятностей (SPRT).The classification threshold for this statistical procedure can be set depending on the fractional concentration of fetal DNA. In general, a higher fractional concentration of fetal DNA contributes to reaching the threshold with fewer molecules. The classification threshold can also be set depending on the number of successfully classified fragments that need to be obtained for the entire genome or for the desired genome regions. In one embodiment, a sequential probability ratio test (SPRT) may be applied.

В одном воплощении для определения относительной дозы аллеля по определенным полиморфизмам матери можно использовать относительную дозу мутаций (RMD), как описано в US Patent Application 2009/0087847. Эти относительные количества могут использоваться при определении гаплотипа у плода (например, когда полиморфизмы приходятся на следующие друг за другом или связанные локусы). В одном исполнении этого прицельного подхода применяется полимеразная цепная реакция (ПЦР) для амплификации специфических последовательностей из отдельных частей генома для анализа RMD. Для того, чтобы этот подход к определению наследования плодом по RMD распространялся на большую область генома или целый геном, требуется большой объем материнского образца.In one embodiment, Relative Mutation Dose (RMD) can be used to determine the relative allele dose for certain maternal polymorphisms, as described in US Patent Application 2009/0087847. These relative numbers can be used to determine the haplotype in a fetus (eg, when polymorphisms occur at successive or related loci). One implementation of this targeted approach uses polymerase chain reaction (PCR) to amplify specific sequences from distinct portions of the genome for RMD analysis. In order for this approach to determine fetal inheritance by RMD to be extended to a large region of the genome or the entire genome, a large amount of maternal sample is required.

В одном воплощении с использованием рандомизированного секвенирования представляющие интерес участки генома не выбираются прицельно. Таким образом, количество последовательностей, полученных в интересующих участках генома, может быть не столь большим, как при прицельном подходе (если только не проводится очень глубокое секвенирование). Однако при этом можно объединить итоги по нескольким сцепленным полиморфизмам для достижения необходимой статистической значимости для диагностических целей. Практическое значение этого воплощения секвенирования состоит в том, чтоIn one embodiment, using randomized sequencing, regions of the genome of interest are not targeted. Thus, the number of sequences obtained in the regions of interest in the genome may not be as large as with a targeted approach (unless very deep sequencing is carried out). However, it is possible to combine outcomes for multiple linked polymorphisms to achieve the necessary statistical significance for diagnostic purposes. The practical significance of this embodiment of sequencing is that

- 8 040939 можно сэкономить расходы, так как отпадает необходимость в слишком глубоком секвенировании. К тому же нужно вносить меньшее количество материнского образца, чем при подходах на основе цифровой ПЦР.- 8 040939 can save costs by eliminating the need for too deep sequencing. In addition, less maternal sample needs to be applied than with digital PCR approaches.

Кроме того, может быть желательно проведение такого анализ RHDO блоками. Иными словами, каждую хромосому можно анализировать в одном или предпочтительно больше чем одном блоке. В одном аспекте последнее дает возможность наблюдать мейотическую рекомбинацию. Например, может оказаться, что гаплотип одного сегмента определенной хромосомы плода происходит из одной из материнских гомологичных хромосом, тогда как другой сегмент той же самой хромосомы плода имеет гаплотип из другой гомологичной хромосомы. Анализ по SPRT может способствовать проведению такого сегментирования.In addition, it may be desirable to perform such RHDO analysis in blocks. In other words, each chromosome can be analyzed in one or preferably more than one block. In one aspect, the latter makes it possible to observe meiotic recombination. For example, it may be that the haplotype of one segment of a particular fetal chromosome comes from one of the maternal homologous chromosomes, while another segment of the same fetal chromosome has a haplotype from another homologous chromosome. An SPRT analysis can facilitate this segmentation.

Например, анализ по SPRT можно провести на соседствующих SNP, проявляющих требуемую конфигурацию родительского генотипа (т.е. гомозиготного отца и гетерозиготной матери), начиная с одного конца хромосомы. Это должно продолжаться до тех пор, пока анализ SPRT не покажет, что в аналитических данных материнской плазмы (например, данных по секвенированию) преобладает один из материнских гаплотипов. Затем анализ SPRT можно перенастроить и начать заново со следующего соседнего SNP, проявляющего требуемую конфигурацию родительского генотипа. Это можно опять продолжать до тех пор, пока анализ SPRT не покажет еще раз, что в аналитических данных материнской плазмы (например, данных по секвенированию) преобладает один из материнских гаплотипов. Этот процесс может продолжаться до последнего выбранного SNP на данной хромосоме. Затем эти разнообразные установленные по SPRT сегменты гаплотипов на хромосоме можно сравнить с гаплотипами двух гомологичных хромосом в геноме матери. Мейотическая рекомбинация отмечается тогда, когда окажется, что сегменты гаплотипов у плода переключились с одной материнской гомологичной хромосомы на другую. Эта система срабатывает, даже если имеется больше чем одна гомологичная рекомбинация на хромосому.For example, SPRT analysis can be performed on adjacent SNPs exhibiting the desired parental genotype configuration (ie homozygous father and heterozygous mother) starting at one end of the chromosome. This should continue until the SPRT analysis shows that one of the maternal haplotypes dominates the maternal plasma analysis (eg, sequencing data). The SPRT analysis can then be readjusted and restarted from the next adjacent SNP showing the desired parental genotype configuration. This can be continued again until the SPRT analysis shows once again that one of the maternal haplotypes predominates in maternal plasma analyzes (eg, sequencing data). This process may continue until the last selected SNP on a given chromosome. These diverse SPRT haplotype segments on a chromosome can then be compared to the haplotypes of two homologous chromosomes in the mother's genome. Meiotic recombination is noted when it turns out that haplotype segments in the fetus have switched from one maternal homologous chromosome to another. This system works even if there is more than one homologous recombination per chromosome.

Как будет описано позже, анализ RHDO может проводиться и по тем участкам генома, в которых и отец, и мать оба гетерозиготны по входящим в их состав генетическим полиморфизмам. Этот сценарий особенно полезен в тех случаях, когда отец и мать содержат мутантную копию вызывающего заболевание гена от одного и того же предка, как-то когда они близкородственны или когда вызывающая заболевание мутация преобладает вследствие сильного эффекта основателя (т.е. большинство индивидов с этой мутацией унаследовали один и тот же гаплотип от общего предка-основателя популяции). Таким образом, для вычисления гаплотипа плода можно использовать гаплотипы отца и матери на этом участке.As will be described later, RHDO analysis can also be carried out in those regions of the genome in which both the father and mother are both heterozygous for their genetic polymorphisms. This scenario is particularly useful in cases where the father and mother both contain a mutated copy of the disease-causing gene from the same ancestor, such as when they are closely related or when the disease-causing mutation is predominant due to a strong founder effect (i.e. most individuals with this mutation inherited the same haplotype from a common founding ancestor of the population). Thus, the paternal and maternal haplotypes at this site can be used to calculate the fetal haplotype.

II. Составление генома плода из генома материII. Compilation of the fetal genome from the mother's genome

Далее описано составление генетической карты плода или выяснение геномной последовательности плода при явном знании родительских геномов.The following describes the compilation of a genetic map of the fetus or the elucidation of the genomic sequence of the fetus with explicit knowledge of the parental genomes.

A. СпособA. Method

На фиг. 1 представлена блок-схема способа определения 100 по меньшей мере части генома еще не рожденного плода беременной женщины. У плода есть отец и беременная женщина-мать. Отец обладает отцовским геномом с двумя гаплотипами, а мать обладает материнским геномом с двумя гаплотипами. Способом 100 проводится анализ молекул (фрагментов) нуклеиновой кислоты из биологического образца, взятого у беременной женщины, для определения генома плода. Способ 100 описан в основном на примере, когда отец гомозиготен, а мать гетерозиготна по нескольким локусам, тогда как в других примерах описаны другие воплощения.In FIG. 1 is a flow diagram of a method for determining 100 at least a portion of the genome of an unborn fetus of a pregnant woman. The fetus has a father and a pregnant mother. The father has a paternal genome with two haplotypes, and the mother has a maternal genome with two haplotypes. Method 100 analyzes nucleic acid molecules (fragments) from a biological sample taken from a pregnant woman to determine the fetal genome. Method 100 is described primarily with the father homozygous and the mother heterozygous at multiple loci, while other examples describe other embodiments.

Способ 100 и любой из описанных здесь способов может целиком или частично выполняться с помощью компьютерной системы, включающей процессор, который может быть настроен на выполнение стадий. Таким образом, воплощения направлены на компьютерные системы, настроенные на выполнение стадий любых из описанных здесь способов, потенциально с различными компонентами, выполняющими соответствующую стадию или соответствующую группу стадий. Хотя они и представлены в виде пронумерованных стадий, стадии способов могут выполняться одновременно или в другом порядке. Кроме того, части этих стадий можно использовать вместе с частями других стадий из других способов. К тому же все стадии или части стадий могут быть необязательными. Кроме того, любые стадии любых способов могут выполняться с помощью модулей, контуров или других средств для выполнения этих стадий.Method 100, and any of the methods described herein, may be performed in whole or in part by a computer system including a processor that can be configured to perform the steps. Thus, embodiments are directed to computer systems configured to perform the steps of any of the methods described herein, potentially with different components performing the respective step or respective group of steps. Although they are presented as numbered steps, the steps of the methods may be performed simultaneously or in a different order. Moreover, parts of these steps can be used in conjunction with parts of other steps from other methods. In addition, all steps or parts of the steps may be optional. In addition, any steps of any of the methods may be performed using modules, loops, or other means to perform these steps.

На стадии 110 определяется первое множество локусов, по которым материнский геном гетерозиготен. В одном воплощении это определение может выполняться как часть генотипирования отца и матери на уровне генома или по выбранным геномным локусам. В других воплощениях определение первого множества локусов может проводиться во время анализа материнского образца, что описано в дальнейших разделах.At step 110, a first set of loci is determined for which the maternal genome is heterozygous. In one embodiment, this determination may be performed as part of genotyping of the father and mother at the genome level or at selected genomic loci. In other embodiments, the determination of the first set of loci may be carried out during the analysis of the maternal sample, which is described in the following sections.

На стадии 120 определяется каждый из двух материнских гаплотипов, охватывающих первое множество локусов. Как указано выше, материнский геном может быть получен при прямом секвенировании. В других воплощениях генотипирование может проводиться по множеству локусов с последующим использованием картированного генома лица, у которого должен быть похожий геном, например, члена семьи, или же контрольного генома, общего для той же или сходной популяции. В одном воплощении стадия 120 может выполняться сначала для всего или части материнского генома, а затем материнскийAt step 120, each of the two maternal haplotypes spanning the first set of loci is determined. As stated above, the maternal genome can be obtained by direct sequencing. In other embodiments, genotyping can be performed at multiple loci, followed by a mapped genome of an individual who should have a similar genome, such as a family member, or a control genome common to the same or similar population. In one embodiment, step 120 may be performed on all or part of the maternal genome first, and then the maternal

- 9 040939 геном может быть исследован для выявления локусов, по которым мать гетерозиготна.- 9 040939 the genome can be examined to identify loci for which the mother is heterozygous.

В одном аспекте составление гаплотипа хромосом отца не является обязательным. Однако, если можно составить отцовские гаплотипы, то из результатов секвенирования можно получить дополнительную информацию. Такая дополнительная информация включает возможность проведения анализа относительной дозы гаплотипа для участков, по которым оба родителя гетерозиготны. Другая дополнительная информация, которая может быть получена, если доступен отцовский гаплотип, это информация касательно мейотической рекомбинации с участием одной или нескольких отцовских хромосом, чтобы установить, переданы ли плоду вызывающие заболевания аллели, связанные с такими полиморфизмами.In one aspect, compiling a paternal chromosome haplotype is optional. However, if paternal haplotypes can be compiled, additional information can be obtained from the sequencing results. Such additional information includes the possibility of performing haplotype relative dose analysis for regions for which both parents are heterozygous. Other additional information that can be obtained if a paternal haplotype is available is information regarding meiotic recombination involving one or more paternal chromosomes to establish whether disease-causing alleles associated with such polymorphisms are passed on to the fetus.

На стадии 130 определяется аллель, унаследованный плодом от отца по каждому из первого множества локусов. В некоторых воплощениях используются геномные локусы, по которым отец гомозиготен, а мать гетерозиготна (как указано на стадии 110). Таким образом, если отец гомозиготен по этим локусам, то будут известны аллели, унаследованные от отца. Генотипирование отца для определения локусов, по которым отец гомозиготен, может осуществляться любым из описанных здесь способов. В одном воплощении определение первого множества локусов может осуществляться, исходя из генотипирования отца и матери, чтобы обнаружить локусы, по которым отец гомозиготен, а мать гетерозиготна.At step 130, the allele inherited by the fetus from the father is determined at each of the first set of loci. In some embodiments, genomic loci are used for which the father is homozygous and the mother is heterozygous (as indicated in step 110). Thus, if the father is homozygous for these loci, then the alleles inherited from the father will be known. Genotyping of the father to determine the loci for which the father is homozygous may be performed by any of the methods described herein. In one embodiment, the determination of the first set of loci may be based on the genotyping of the father and mother to find the loci for which the father is homozygous and the mother is heterozygous.

В другом воплощении можно использовать второе множество локусов генома отца, по которым он гетерозиготен, для определения отцовского гаплотипа, унаследованного плодом по первому множеству локусов, по которым отец гомозиготен. Например, если материнский геном гомозиготен по второму множеству локусов, то можно идентифицировать аллели, присутствующие в отцовском геноме в соответствующих локусах из второго множества локусов и отсутствующие в материнском геноме. Затем можно идентифицировать унаследованный от отца гаплотип как гаплотип с идентифицированными аллелями и использовать его для определения аллелей, унаследованных от отца по первому множеству локусов. Эти аспекты определения отцовского гаплотипа обсуждаются более подробно ниже.In another embodiment, the second set of loci of the father's genome for which he is heterozygous can be used to determine the paternal haplotype inherited by the fetus from the first set of loci for which the father is homozygous. For example, if the maternal genome is homozygous for the second set of loci, then alleles present in the paternal genome at the corresponding loci from the second set of loci and not present in the maternal genome can be identified. The paternally inherited haplotype can then be identified as the haplotype with identified alleles and used to determine paternally inherited alleles at the first set of loci. These aspects of paternal haplotype determination are discussed in more detail below.

На стадии 140 проводится анализ множества молекул нуклеиновой кислоты из биологического образца, взятого у беременной женщины. Образец содержит смесь нуклеиновых кислот матери и плода. Материнский биологический образец может быть взят, а затем обработан для анализа. В одном воплощении используется материнская плазма и сыворотка. В других воплощениях можно использовать материнскую кровь, материнскую мочу, материнскую слюну, смывную жидкость матки или клетки плода, полученные из крови матери.In step 140, a plurality of nucleic acid molecules are analyzed from a biological sample taken from a pregnant woman. The sample contains a mixture of maternal and fetal nucleic acids. A maternal biological sample may be taken and then processed for analysis. In one embodiment, maternal plasma and serum are used. In other embodiments, maternal blood, maternal urine, maternal saliva, uterine lavage, or fetal cells derived from maternal blood may be used.

В одном воплощении анализ молекул нуклеиновой кислоты включает определение локализации молекулы нуклеиновой кислоты в геноме человека и определение ее аллеля по индивидуальному локусу. Таким образом, в одном воплощении может выполняться количественное генотипирование с использованием установленных аллелей молекул нуклеиновой кислоты из одного и того же локуса. Для определения геномной локализации и аллелей (информации о генотипе) молекул нуклеиновой кислоты в материнском образце можно использовать любой подходящий способ. Некоторые из таких способов описаны в заявках США 12/178,181 и 12/614350 и заявке под названием Анализ генома на основе размера.In one embodiment, the analysis of nucleic acid molecules includes determining the location of the nucleic acid molecule in the human genome and determining its allele at an individual locus. Thus, in one embodiment, quantitative genotyping can be performed using established alleles of nucleic acid molecules from the same locus. Any suitable method can be used to determine the genomic location and alleles (genotype information) of nucleic acid molecules in a maternal sample. Some of these methods are described in US Pat. Nos. 12/178,181 and 12/614,350 and the application titled Size Based Genome Analysis.

На стадии 150, исходя из установленных аллелей молекул нуклеиновой кислоты, определяются количества соответствующих аллелей по каждому из первого множества локусов. В одном воплощении эти количества могут составлять число аллелей каждого типа в первом локусе. Например, шесть A и четыре T. В другом воплощении количество может означать распределение по размерам молекул нуклеиновой кислоты, содержащих определенные аллели. Например, относительное количество также может включать распределение по размерам фрагментов с определенным генотипом, что может означать относительное количество фрагментов определенной длины. Такие относительные количества могут дать информацию и о том, какой генотип у генома плода, так как у плода фрагменты обычно меньше, чем фрагменты матери. Некоторые примеры количеств и способов описаны в заявках США 12/178181 и 12/614350 и заявке под названием Анализ генома на основе размера.At step 150, based on the established alleles of the nucleic acid molecules, the numbers of the corresponding alleles at each of the first set of loci are determined. In one embodiment, these numbers may be the number of alleles of each type at the first locus. For example, six A and four T. In another embodiment, the number can mean the size distribution of nucleic acid molecules containing certain alleles. For example, the relative number can also include the size distribution of fragments with a certain genotype, which can mean the relative number of fragments of a certain length. Such relative numbers can also provide information about what genotype the fetal genome has, since the fragments in the fetus are usually smaller than those of the mother. Some examples of quantities and methods are described in US applications 12/178181 and 12/614350 and the application titled Size Based Genome Analysis.

В одном воплощении относительные количества аллелей в одном локусе могут дать информацию о том, какой генотип унаследован плодом (например, после того, как набор данных достигнет достаточной статистической значимости). Например, относительные количества могут использоваться для определения того, что происходит дисбаланс последовательности относительно генотипа матери по одному локусу. В приведенных выше родственных патентных заявках предоставлены примеры воплощений для выявления дисбаланса последовательности по определенному локусу или участку.In one embodiment, the relative numbers of alleles at one locus can provide information about which genotype is inherited by the fetus (eg, after the data set reaches sufficient statistical significance). For example, relative amounts can be used to determine that there is a sequence imbalance relative to the mother's genotype at one locus. The above related patent applications provide exemplary embodiments for detecting sequence imbalance at a particular locus or region.

На стадии 160 проводится сравнение относительных количеств соответствующих аллелей молекул нуклеиновой кислоты по более чем одному локусу из первого множества локусов. В некоторых воплощениях перед проведением сравнения суммируют количество каждого аллеля по всем локусам первого множества локусов, составляющих гаплотипы. Затем сравнивают суммарные количества родительских гаплотипов для определения того, что гаплотип избыточно представлен, одинаково представлен или недостаточно представлен. В других воплощениях сравнивают количества аллелей в локусах и проводят сравнение по множественным локусам. Например, можно суммировать значения разделения (например, разности или отношения), которые можно использовать при сравнении с пределом отсечения. Каждое из этих воплощений применимо к любым из описанных здесь операций сравнения.In step 160, the relative amounts of corresponding alleles of nucleic acid molecules at more than one locus of the first plurality of loci are compared. In some embodiments, the amount of each allele across all loci of the first set of loci constituting the haplotypes is summed before comparison is made. The total numbers of parental haplotypes are then compared to determine if the haplotype is overrepresented, equally overrepresented, or underrepresented. In other embodiments, the numbers of alleles at loci are compared and the comparison is made across multiple loci. For example, you can sum partition values (such as differences or ratios) that can be used when comparing against a cutoff limit. Each of these embodiments is applicable to any of the comparison operations described here.

В различных воплощениях относительное количество может означать встречаемость каждогоIn various embodiments, the relative amount may mean the occurrence of each

- 10 040939 фрагмента с определенным аллелем в определенном локусе, встречаемость фрагментов из любого локуса (или любых локусов на участке) по определенному гаплотипу и статистическое значение встречаемости (например, среднее) по определенному локусу или по определенному гаплотипу. Так в одном воплощении сравнение может означать определение величины разделения (например, разности или отношения) одного аллеля в сравнении с другим аллелем по каждому локусу.- 10 040939 a fragment with a specific allele at a specific locus, the occurrence of fragments from any locus (or any loci in the site) for a specific haplotype, and a statistical value of occurrence (for example, average) for a specific locus or for a specific haplotype. Thus, in one embodiment, comparison may mean determining the amount of separation (eg, difference or ratio) of one allele compared to another allele at each locus.

На стадии 170, исходя из сравнения, можно определить гаплотип, унаследованный еще не рожденным плодом от матери в части генома, охваченной первым множеством локусов. В одном воплощении для того, чтобы установить, какая из материнских хромосом перешла к плоду, применяется способ относительных гаплотипов (RHDO), например, как указано выше. Поскольку мать гетерозиготна по каждому из первых локусов, то первые локусы соответствуют двум гаплотипам для области генома первых локусов. Относительная доза этих гаплотипов должна быть 1:1, если образец был только от матери. Отклонение или отсутствие отклонений от этого соотношения можно использовать для определения гаплотипа плода, унаследованного от матери (и от отца, что изложено более подробно далее) Таким образом, для данной хромосомы или участка хромосомы аллели, составляющие эти гаплотипы, можно отыскать из аналитических данных (например, данных по секвенированию), полученных на стадии 130.At step 170, based on the comparison, it is possible to determine the haplotype inherited by the unborn fetus from the mother in the part of the genome covered by the first set of loci. In one embodiment, in order to determine which of the maternal chromosomes has passed to the fetus, the method of relative haplotypes (RHDO), for example, as described above, is used. Since the mother is heterozygous for each of the first loci, the first loci correspond to two haplotypes for the genome region of the first loci. The relative dose of these haplotypes should be 1:1 if the sample was from the mother only. Deviation or lack of deviation from this ratio can be used to determine the haplotype of the fetus inherited from the mother (and from the father, as described in more detail below). Thus, for a given chromosome or region of the chromosome, the alleles that make up these haplotypes can be found from analytical data (for example , sequencing data) obtained in step 130.

Поскольку множество локусов подвергается анализу и сравнению с гаплотипом матери, то последовательности между локусами можно отнести к определенному гаплотипу. В одном воплощении, если несколько локусов соответствуют определенному гаплотипу, то можно заключить, что сегменты последовательности между локусами будут такими же, как и материнский гаплотип. Вследствие явления мейотической рекомбинации окончательный гаплотип, унаследованный плодом, может состоять из мозаики сегментов гаплотипов, происходящих из одной из этих двух гомологичных хромосом. Воплощения могут выявлять такую рекомбинацию.Since many loci are analyzed and compared with the mother's haplotype, the sequences between the loci can be attributed to a particular haplotype. In one embodiment, if multiple loci correspond to a certain haplotype, then it can be concluded that the sequence segments between the loci will be the same as the maternal haplotype. Due to the phenomenon of meiotic recombination, the final haplotype inherited by the fetus may consist of a mosaic of haplotype segments derived from one of these two homologous chromosomes. Embodiments may exhibit such recombination.

Разрешение, с которым можно выявить такую рекомбинацию, зависит от числа и распределения генетических маркеров, которые были определены в составе ДНК матери и отца, и от порога, который применяется в последующем биоинформационном анализе (к примеру, методом SPRT). Например, если сравнение свидетельствует о том, что унаследованный от матери аллель по каждому из первого набора последовательных локусов соответствует первому гаплотипу, то первый гаплотип считается унаследованным по положению в геноме, соответствующему первому набору локусов. Если второй набор последовательных локусов свидетельствует о том, что унаследован второй гаплотип, то второй гаплотип считается унаследованным по положению в геноме, соответствующему второму набору локусов.The resolution with which such recombination can be detected depends on the number and distribution of genetic markers that were identified in the DNA of the mother and father, and on the threshold that is applied in the subsequent bioinformatics analysis (for example, by SPRT). For example, if the comparison indicates that the allele inherited from the mother at each of the first set of consecutive loci corresponds to the first haplotype, then the first haplotype is considered to be inherited at the position in the genome corresponding to the first set of loci. If the second set of consecutive loci indicates that the second haplotype is inherited, then the second haplotype is considered to be inherited at the position in the genome corresponding to the second set of loci.

В одном воплощении, поскольку подвергается анализу множество локусов, то гаплотип может быть определен с большей точностью. Например, статистические данные для одних локусов могут и не быть решающими, но в сочетании со статистическими данными по другим локусам можно установить, какой гаплотип унаследован. В другом воплощении можно подвергнуть анализу каждый локус независимо для составления классификации, а затем проанализировать эти классификации, чтобы установить, какой гаплотип унаследован для данного участка.In one embodiment, since multiple loci are analyzed, the haplotype can be determined with greater accuracy. For example, statistics for some loci may not be decisive, but in combination with statistics for other loci, it can be established which haplotype is inherited. In another embodiment, each locus can be analyzed independently to generate a classification, and then these classifications can be analyzed to determine which haplotype is inherited for that region.

В одном воплощении для определения относительной дозы гаплотипа (например, если один из гаплотипов избыточно представлен перед другим гаплотипом) можно провести статистическую процедуру. Классификационный порог для этой статистической процедуры может быть установлен в зависимости от фракционной концентрации ДНК плода. В общем, более высокая фракционная концентрация ДНК плода позволяет достичь порога при меньшем количестве молекул. Классификационный порог также может быть установлен в зависимости от количества успешно классифицированных сегментов, которое нужно получить по всему геному или отдельным участкам генома.In one embodiment, a statistical procedure can be performed to determine the relative dose of a haplotype (eg, if one of the haplotypes is overrepresented before another haplotype). The classification threshold for this statistical procedure can be set depending on the fractional concentration of fetal DNA. In general, a higher fractional concentration of fetal DNA allows the threshold to be reached with fewer molecules. The classification threshold can also be set depending on the number of successfully classified segments that need to be obtained for the entire genome or individual regions of the genome.

Обращаясь опять к фиг. 1, на стадии 180 можно подвергнуть анализу геном плода на мутации. Например, воплощения можно использовать для поиска на предмет мутаций, вызывающих генетические заболевания в определенной популяции. Примеры мутаций, которые можно установить с помощью воплощений, можно найти на сайте Online Mendelian Inheritance in Man (www.ncbi.nlm.nih.gov/omim/getmorbid.cgi). Эти мутации можно поискать на стадиях 140-160 или в виде отдельной стадии, как описано далее. Например, поиск на мутации в семьях, в которых отец является носителем одной или нескольких мутаций, отсутствующих у матери, можно вести по аналитическим данным (например, данным по секвенированию) из материнского биологического образца.Referring again to FIG. 1, at step 180, the fetal genome can be analyzed for mutations. For example, embodiments can be used to search for mutations that cause genetic diseases in a particular population. Examples of mutations that can be identified using embodiments can be found on the Online Mendelian Inheritance in Man website (www.ncbi.nlm.nih.gov/omim/getmorbid.cgi). These mutations can be looked for in steps 140-160 or as a separate step as described below. For example, searching for mutations in families in which the father is a carrier of one or more mutations that are absent from the mother can be conducted on analytical data (eg, sequencing data) from the maternal biological sample.

Помимо выявления существующих мутаций, можно вести поиск на полиморфные генетические маркеры, сцепленные с мутантным аллелем или аллелем дикого типа у отца или матери. Например, при анализе RHDO может оказаться, что плод унаследовал от матери известный гаплотип, который несет мутацию, вызывающую заболевание. Воплощения изобретения также могут применяться для неинвазивной пренатальной диагностики заболеваний, вызванных делециями участков хромосом, например, делеции Southeast Asian, вызывающей альфа-талассемию. В том случае, когда и отец, и мать являются носителями делеции, а плод гомозиготен по делеции, то при проведении массированного параллельного секвенирования ДНК из плазмы матери должно наблюдаться снижение частоты последовательностей ДНК, происходящих из делетированного участка в материнской плазме.In addition to identifying existing mutations, one can search for polymorphic genetic markers linked to a mutant or wild-type allele in the father or mother. For example, when analyzing RHDO, it may turn out that the fetus inherited from the mother a known haplotype that carries a mutation that causes the disease. Embodiments of the invention can also be used for non-invasive prenatal diagnosis of diseases caused by deletions of portions of chromosomes, such as Southeast Asian deletion causing alpha thalassemia. In the case when both the father and mother are carriers of the deletion, and the fetus is homozygous for the deletion, then during massive parallel DNA sequencing from the mother's plasma, a decrease in the frequency of DNA sequences originating from the deleted site in the maternal plasma should be observed.

B. ПримерB. Example

В этом разделе описан пример воплощений (например, способа 100), применимых к однонуклео- 11 040939 тидному полиморфизму (SNP), при котором мать гетерозиготна. Аллели SNP на одной и той же хромосоме образуют гаплотип, причем у матери есть гомологичная пара каждой хромосомы, т.е. два гаплотипа. Для иллюстрации того, как выполняется такое определение, рассмотрим сегмент на хромосоме 3, например, как показано на фиг. 2.This section describes an example of embodiments (eg, method 100) applicable to a single nucleotide polymorphism (SNP) in which the mother is heterozygous. SNP alleles on the same chromosome form a haplotype, with the mother having a homologous pair of each chromosome, i.e. two haplotypes. To illustrate how such a determination is made, consider a segment on chromosome 3, for example, as shown in FIG. 2.

На фиг. 2 представлены два гаплотипа для отца и два гаплотипа для матери по определенному сегменту соответствующего им геномного кода. Внутри этого сегмента обнаружено пять SNP, по которым отец гомозиготен, а мать гетерозиготна по всем 5 из этих SNP. Две гомологичные хромосомы отца имеют один и тот же гаплотип (Нар), т.е. A-G-A-A-G (сверху вниз на фиг. 2). Для простоты отцовские гаплотипы называются Hap I и Hap II, учитывая, что оба они идентичны по этому набору из 5 SNP. У матери отмечены два гаплотипа, а именно Hap III - A-A-A-G-G и Hap IV - G-G-G-A-A.In FIG. 2 presents two haplotypes for the father and two haplotypes for the mother for a certain segment of the genomic code corresponding to them. Within this segment, five SNPs were found for which the father is homozygous and the mother is heterozygous for all 5 of these SNPs. Two homologous chromosomes of the father have the same haplotype (Har), i.e. A-G-A-A-G (from top to bottom in Fig. 2). For simplicity, the paternal haplotypes are referred to as Hap I and Hap II, given that both are identical in this set of 5 SNPs. The mother had two haplotypes, namely Hap III - A-A-A-G-G and Hap IV - G-G-G-A-A.

В этом примере SNPs можно далее классифицировать на два типа. На фиг. 3 представлены два типа SNP согласно воплощениям настоящего изобретения. Тип A состоит из таких SNP, у которых родительские аллели те же, что и в материнском гаплотипе III. Тип B состоит из таких SNP, в которых родительские аллели те же, что и в материнском гаплотипе IV.In this example, SNPs can be further classified into two types. In FIG. 3 shows two types of SNPs according to embodiments of the present invention. Type A consists of those SNPs whose parental alleles are the same as in the maternal haplotype III. Type B consists of those SNPs in which the parental alleles are the same as in the maternal haplotype IV.

Эти два типа SNP могут потребовать слегка различной математической обработки. Так, по сценарию типа A наследование плодом гаплотипа III приведет к избыточной представленности гаплотипа III по отношению к гаплотипу IV в материнской плазме (фиг. 4A). Например, рассматривая для упрощения только один SNP 410, аллель A наследуется от отца, а если от матери наследуется Hap III, то у плода будет два аллеля A в образце, что приведет к избыточной представленности A. Если же плод унаследовал гаплотип IV, то избыточная представленность не будет наблюдаться, так как плод тоже будет гетерозиготным по A и G в этом локусе.These two types of SNPs may require slightly different mathematical processing. Thus, in type A scenario, fetal inheritance of haplotype III would result in an overrepresentation of haplotype III relative to haplotype IV in maternal plasma (Fig. 4A). For example, considering only one SNP 410 for simplification, the A allele is inherited from the father, and if Hap III is inherited from the mother, then the fetus will have two A alleles in the sample, which will lead to overrepresentation of A. If the fetus inherited haplotype IV, then the excess representation will not be observed, since the fetus will also be heterozygous for A and G at this locus.

С другой стороны, по сценарию типа B наследование плодом гаплотипа III приведет к равной представленности гаплотипа III и гаплотипа IV в материнской плазме (фиг. 4B). Например, рассматривая SNP 420, наследование G от отца и A в составе Hap III приведет к тому, что у плода будут равные количества A и G по SNP 420, совсем как у матери. Если же плод унаследовал гаплотип IV, тогда будет наблюдаться избыточная представленность, как явствует из вышеприведенного обсуждения.On the other hand, in scenario type B, fetal inheritance of haplotype III would result in equal representation of haplotype III and haplotype IV in maternal plasma (Fig. 4B). For example, considering SNP 420, inheritance of G from the father and A in Hap III would result in the fetus having equal amounts of A and G on SNP 420, just like the mother. If the fetus has inherited haplotype IV, then there will be overrepresentation, as is clear from the discussion above.

На фиг. 5A и B представлен анализ путем сравнения относительных количеств (например, встречаемости) фрагментов для каждого локуса и будет ли результат сравнения означать, что определенный гаплотип наследуется или нет. Для этого примера можно использовать любое место в геноме, в котором есть SNP, который соответствует одной из этих конфигураций генотипа у отца и матери (например, сценарии типа A или типа B). Из данных по секвенированию материнской плазмы можно сосредоточиться на том, какое количество просеквенированных молекул соответствует определенному аллелю SNP. Можно использовать анализ по SPRT (или другой метод сравнения) для установления наличия какоголибо аллельного дисбаланса между этими аллелями (Lo YD et a., Proc Natl Acad Sci USA 2007, 104: 13116-13121).In FIG. 5A and B present an analysis by comparing the relative numbers (eg, occurrence) of fragments for each locus and whether the result of the comparison would indicate that a particular haplotype is inherited or not. For this example, any location in the genome that has a SNP that matches one of these paternal and maternal genotype configurations (eg, type A or type B scenarios) can be used. From maternal plasma sequencing data, one can focus on how many sequenced molecules correspond to a particular SNP allele. An SPRT analysis (or other comparison method) can be used to establish the presence of any allelic imbalance between these alleles (Lo YD et a., Proc Natl Acad Sci USA 2007, 104: 13116-13121).

На фиг. 5A представлен анализ SNP типа A. Как видим, для каждого SNP сравнение методом SPRT относительных количеств (например, определенных по величине разделения) со значением порога отсечения обеспечивает классификацию. В одном воплощении, если достигнут классификационный порог для SPRT, то можно заключить, что плод унаследовал определенный материнский гаплотип. После этого можно заново настроить параметры для анализа SPRT. Затем можно перейти к анализу соседнего SNP, соответствующего требуемой конфигурации генотипа, как в направлении от теломеры к центромере, так и наоборот; и можно начинать новый анализ SPRT по этому SNP.In FIG. 5A shows an analysis of type A SNPs. As can be seen, for each SNP, comparison by SPRT of relative amounts (eg, determined by split size) with a cut-off value provides classification. In one embodiment, if the classification threshold for SPRT is reached, then it can be concluded that the fetus has inherited a certain maternal haplotype. You can then reconfigure the settings for the SPRT analysis. Then, one can proceed to the analysis of the adjacent SNP corresponding to the required genotype configuration, both in the direction from telomere to centromere, and vice versa; and you can start a new SPRT analysis for that SNP.

С другой стороны, в одном воплощении, если классификация SNP no SPRT не была достигнута, то можно опять же перейти к соседнему SNP аналогичным образом, за исключением того, что баллы для следующего SNP можно добавить к предыдущему, а затем снова провести анализ по SPRT. Этот процесс может продолжаться до тех пор, пока не будет достигнут классификационный порог. На фиг. 5A и B представлено исполнение этого процесса для анализов типа A и типа B. В одном воплощении все классификации анализируются вместе для получения итоговой классификации для участка. Например, если получена классификация для первой группы SNP и для следующей группы SNP, то можно сравнить обе классификации, чтобы узнать, согласуются ли они.On the other hand, in one embodiment, if the SNP no SPRT classification has not been achieved, then one can again proceed to the neighboring SNP in the same way, except that the scores for the next SNP can be added to the previous one, and then the SPRT analysis can be performed again. This process can continue until the classification threshold is reached. In FIG. 5A and B show the execution of this process for Type A and Type B analyses. In one embodiment, all classifications are analyzed together to obtain a final classification for a site. For example, if a classification is obtained for the first group of SNPs and for the next group of SNPs, then both classifications can be compared to see if they agree.

На фиг. 6 представлен эффект изменения отношения вероятностей при классификации по SPRT (Zhou W et al., Nat Biotechnol 2001, 19:78-81; Karoui NE et al., Statist Med 2006, 25:3124-33). В общем, меньшее отношение вероятностей для классификации, например, 8, может облегчить проведение классификации. При этом может увеличиться количество классифицированных участков внутри генома. Однако следует ожидать, что некоторые из таких участков будут классифицированы неправильно. С другой стороны, при большем отношении вероятностей для классификации, например, 1200, классификация станет возможной только при оценке большего числа SNP. При этом может уменьшиться количество классифицированных участков внутри генома. Следует ожидать, что количество и доля неправильно классифицированных участков будет меньше по сравнению с использованием меньшего классификационного порога.In FIG. 6 shows the effect of changing the odds ratio in SPRT classification (Zhou W et al., Nat Biotechnol 2001, 19:78-81; Karoui NE et al., Statist Med 2006, 25:3124-33). In general, a lower classification probability ratio, such as 8, may make it easier to classify. This may increase the number of classified regions within the genome. However, it is to be expected that some of these sites will be misclassified. On the other hand, with a larger probability ratio for classification, for example 1200, classification will only become possible if more SNPs are evaluated. In this case, the number of classified regions within the genome may decrease. It should be expected that the number and proportion of misclassified parcels will be less compared to using a lower classification threshold.

В одном воплощении классификация засчитывается только в том случае, если две последовательные классификации по SPRT дают один и тот же гаплотип (что именуется алгоритмом двух последова- 12 040939 тельных блоков). В одном аспекте алгоритм двух последовательных блоков может повысить точность классификации. В некоторых воплощениях, для любых отрезков последовательности, сначала может выполняться анализ SPRT для SNP типа A, а затем проводится другой анализ SPRT для SNP типа B. В одном воплощении предусмотрен сценарий для таких отрезков последовательности, в которых SNP типа A и типа B образуют две перемежающиеся группы генетических ориентиров (например, SNP). В воплощениях с применением алгоритма двух последовательных блоков эти два блока могут быть различного типа.In one embodiment, a classification is only scored if two consecutive SPRT classifications result in the same haplotype (referred to as the two consecutive block algorithm). In one aspect, a two-block algorithm can improve classification accuracy. In some embodiments, for any portion of the sequence, an SPRT for type A SNPs may be performed first, followed by another SPRT for type B SNPs. alternating groups of genetic landmarks (eg, SNPs). In implementations using the two-block algorithm, the two blocks may be of different types.

Результаты анализа SPRT для типа A и типа B следует проверить на согласованность или несогласованность результатов классификации. Для повышения точности классификации в одном воплощении (перемежающийся подход) классификация засчитывается только в том случае, если анализ типа A и типа B для данного участка генома дает непротиворечивые результаты. Если эти два анализа дают противоречивые результаты, то нужно проверить результаты классификации двух смежных участков, следующих за этим, одного со стороны центромеры и другого со стороны теломеры. Если эти два смежных участка дают непротиворечивые результаты, то первый участок можно классифицировать как имеющий одинаковый гаплотип с этими двумя участками. Если же два смежных участка не дают непротиворечивые результаты, то можно перейти к следующим двум смежным участкам, пока не будет наблюдаться согласованность. Один из вариантов этой темы состоит в том, чтобы продвигаться только в одном направлении и принимать результаты классификации следующих одного, двух или же нескольких смежных участков за результаты исходного рассматриваемого участка. Общий принцип заключается в том, чтобы использовать результаты классификации смежных участков генома для проверки результатов классификации данного участка.The results of the SPRT analysis for type A and type B should be checked for consistency or inconsistency in the classification results. To improve classification accuracy in a single embodiment (interleaved approach), a classification is only valid if type A and type B analyzes for a given genome region yield consistent results. If these two analyzes give conflicting results, then the results of the classification of the two adjacent regions following this, one on the centromere side and the other on the telomere side, should be checked. If these two adjacent sites give consistent results, then the first site can be classified as having the same haplotype with these two sites. If two adjacent sections do not give consistent results, then you can move on to the next two adjacent sections until consistency is observed. One variation on this theme is to move in only one direction and take the classification results of the next one, two or more adjacent parcels as the results of the original parcel under consideration. The general principle is to use the results of the classification of adjacent regions of the genome to check the results of the classification of this region.

III. Определение отцовских аллелей, унаследованных плодомIII. Determination of paternal alleles inherited by the fetus

На фиг. 7 представлена блок-схема способа определения 700 по меньшей мере части генома, унаследованной от отца, у еще не рожденного плода беременной женщины. Способом 700 проводится анализ молекул (фрагментов) нуклеиновой кислоты из биологического образца, взятого у беременной женщины, для определения генома плода. Образец содержит смесь нуклеиновых кислот матери и плода.In FIG. 7 is a flow diagram of a method for determining 700 at least the paternally inherited portion of the genome in an unborn fetus of a pregnant woman. Method 700 analyzes nucleic acid molecules (fragments) from a biological sample taken from a pregnant woman to determine the fetal genome. The sample contains a mixture of maternal and fetal nucleic acids.

На стадии 710 проводится анализ каждой из множества молекул нуклеиновых кислот из биологического образца для определения локализации молекулы нуклеиновой кислоты в геноме человека и определения аллельного типа молекулы нуклеиновой кислоты. Таким образом, в одном воплощении можно определить генотипы молекул нуклеиновой кислоты в определенном месте (локусе). Для этого анализа можно применять любые способы, описанные выше и по тексту.In step 710, each of the plurality of nucleic acid molecules from the biological sample is analyzed to determine the location of the nucleic acid molecule in the human genome and determine the allelic type of the nucleic acid molecule. Thus, in one embodiment, the genotypes of nucleic acid molecules at a specific location (locus) can be determined. For this analysis, you can apply any of the methods described above and throughout the text.

На стадии 720 определяется первое множество локусов, по которым отцовский геном гетерозиготен, а материнский геном гомозиготен. В одном воплощении первое множество локусов получают путем определения отцовского и материнского геномов. Эти геномы можно проверить на геномные локусы, по которым отец гетерозиготен, а мать гомозиготна.At step 720, a first set of loci is determined for which the paternal genome is heterozygous and the maternal genome is homozygous. In one embodiment, the first set of loci is obtained by determining the paternal and maternal genomes. These genomes can be tested for genomic loci for which the father is heterozygous and the mother is homozygous.

На стадии 730 определяется гаплотип, унаследованный еще не рожденным плодом от отца в той части генома, которая охвачена первым множеством локусов, исходя из установленных генотипов по первому множеству локусов. В одном воплощении из аналитических данных (например, данных по секвенированию) по каждому из этих локусов определяется аллель, который представлен у отца, но отсутствует в геноме матери. Комбинация этих аллелей будет указывать на гаплотипы хромосом, которые плод унаследовал от отца.At step 730, the haplotype inherited by the unborn fetus from the father in that part of the genome covered by the first set of loci is determined based on the established genotypes at the first set of loci. In one embodiment, from analytical data (eg, sequencing data) at each of these loci, an allele is determined that is present in the father but not present in the mother's genome. The combination of these alleles will indicate the chromosome haplotypes that the fetus has inherited from the father.

В другом воплощении, если известны гаплотипы каждой из хромосом или искомых участков хромосом в геноме отца, то можно определить, где во время сперматогенеза у отца произошла мейотическая рекомбинация. Так, мейотическая рекомбинация у отца отмечается тогда, когда гаплотип отрезка ДНК в унаследованной от отца хромосоме отличается между плодом и отцом. Включение такой информации о рекомбинации может быть полезным при использовании аналитических данных (например, данных по секвенированию) для пренатальной диагностики генетических заболеваний по сцеплению с генетическими полиморфизмами.In another embodiment, if the haplotypes of each of the chromosomes or desired chromosome regions in the father's genome are known, then it is possible to determine where meiotic recombination occurred in the father during spermatogenesis. So, meiotic recombination in the father is noted when the haplotype of the DNA segment in the chromosome inherited from the father differs between the fetus and the father. The inclusion of such recombination information may be useful when using analytical data (eg, sequencing data) for prenatal diagnosis of genetic diseases by linkage to genetic polymorphisms.

IV. Отец и мать гетерозиготны на участке геномаIV. Father and mother are heterozygous for a region of the genome

Воплощения предусматривают сценарий, при котором отец и мать гетерозиготны на участке генома. Этот сценарий может быть особенно важным для семей, в которых отец и мать являются близкими родственниками, а также когда заболевание связано с преобладающей мутацией вследствие сильного эффекта предка-основателя. При таких обстоятельствах следует ожидать, что если отец и мать еще не рожденного плода являются носителями мутантного гена, то гаплотип хромосомы, несущей мутантную копию гена, будет практически идентичным, за исключением случаев мейотической рекомбинации. Такой тип анализа может оказаться особенно полезным при аутосомных рецессивных заболеваниях, таких как кистозный фиброз, бета-талассемия, серповидно-клеточная анемия и болезнь гемоглобина E.Embodiments provide for a scenario in which the father and mother are heterozygous in a region of the genome. This scenario may be particularly important in families where the father and mother are close relatives, and when the disease is associated with a predominant mutation due to a strong founding ancestor effect. Under such circumstances, it would be expected that if the father and mother of the unborn fetus are carriers of the mutant gene, then the haplotype of the chromosome carrying the mutant copy of the gene will be almost identical, except in cases of meiotic recombination. This type of analysis may be particularly useful in autosomal recessive diseases such as cystic fibrosis, beta thalassemia, sickle cell anemia, and hemoglobin E disease.

На фиг. 8 представлена блок-схема способа определения 800 по меньшей мере части генома еще не рожденного плода на участке, в котором отец и мать гетерозиготны согласно воплощениям настоящего изобретения.In FIG. 8 is a flowchart of a method for determining 800 at least a portion of the genome of an unborn fetus at a site in which the father and mother are heterozygous according to embodiments of the present invention.

На стадии 810 определяется первое множество локусов, по которым и отец, и мать гетерозиготны. В одном воплощении первые локусы можно определить любым из приведенных здесь способов. Например, можно просеквенировать весь отцовский геном или его участки либо генотипировать различные частиAt step 810, a first set of loci is determined for which both the father and mother are heterozygous. In one embodiment, the first loci can be determined by any of the methods described here. For example, you can sequence the entire paternal genome or parts of it, or genotype different parts

- 13 040939 для выявления первых локусов. При этом станут известны каждый из двух отцовских и каждый из двух материнских гаплотипов по первому множеству локусов.- 13 040939 to identify the first loci. In this case, each of the two paternal and each of the two maternal haplotypes for the first set of loci will become known.

В качестве примера на фиг. 9 представлены гаплотипы отца и матери, которые оба гетерозиготны на определенном участке генома. Как видим, оба родителя содержат мутантный ген (аллель) на участке 1. В частности, Hap I отца и Hap III матери содержат мутантный ген. Также видно, что и отец, и мать могут содержать другую копию хромосомы, несущую копию гена дикого типа. В частности, Hap II отца и Hap IV матери содержат ген дикого типа. Таким образом, этот пример относится к определению того, унаследовал ли плод мутантный ген. Хромосомы от отца и матери, несущие ген дикого типа, имеют одинаковый гаплотип в непосредственной близости от гена, но могут иметь разные гаплотипы на большем удалении от гена. Поскольку эта хромосома скорее всего происходит от различных предков, то она вряд ли будет иметь идентичные гаплотипы между отцом и матерью по всей длине хромосомы.As an example, in FIG. 9 shows the haplotypes of the father and mother, which are both heterozygous in a certain region of the genome. As you can see, both parents contain the mutant gene (allele) in region 1. In particular, Hap I of the father and Hap III of the mother contain the mutant gene. It is also seen that both father and mother may contain a different copy of the chromosome carrying a copy of the wild-type gene. In particular, the father's Hap II and the mother's Hap IV contain the wild-type gene. Thus, this example relates to determining whether a fetus has inherited a mutated gene. Chromosomes from the father and mother that carry the wild-type gene have the same haplotype in the immediate vicinity of the gene, but may have different haplotypes at a greater distance from the gene. Since this chromosome most likely comes from different ancestors, it is unlikely to have identical haplotypes between father and mother along the entire length of the chromosome.

На стадии 820 определяется второе множество локусов, по которым отец гетерозиготен, а мать гомозиготна. Как видим, первое и второе множество локусов находятся на одной и той же хромосоме. На участке 2 представлены такие вторые локусы. Участок 2 выбирается таким образом, чтобы отец был гетерозиготен по одному или нескольким SNP на этом участке, а мать была гомозиготна на этом участке.At step 820, a second set of loci is determined for which the father is heterozygous and the mother is homozygous. As you can see, the first and second set of loci are on the same chromosome. Plot 2 presents such second loci. Site 2 is chosen such that the father is heterozygous for one or more SNPs at that site and the mother is homozygous at that site.

На стадии 830 проводится анализ фрагментов из образца беременной женщины для установления локализации в геноме человека и генотипа. Локализация может использоваться для определения того, что фрагмент (молекула нуклеиновой кислоты) включает один или несколько первых локусов либо один или несколько вторых локусов. Затем эта информация может использоваться для определения гаплотипа, унаследованного от отца, и гаплотипа, унаследованного от матери.At step 830, fragments from the sample of the pregnant woman are analyzed to establish localization in the human genome and genotype. Localization can be used to determine that a fragment (nucleic acid molecule) includes one or more first loci or one or more second loci. This information can then be used to determine the haplotype inherited from the father and the haplotype inherited from the mother.

На стадии 840 определяется, какой из двух родительских гаплотипов был унаследован плодом, путем анализа установленных генотипов множества молекул нуклеиновой кислоты из биологического образца хотя бы по одному из вторых локусов. Например, можно провести поиск аллелей SNP, представленных исключительно в геноме отца, но отсутствующих в геноме матери, как-то аллеля T, обозначенного *, и аллеля A, обозначенного + на фиг. 9, из аналитических данных (например, локализации и генотипа, установленных на стадии 710) материнского биологического образца. Так же, как это делается в способе 700, если в материнской плазме выявляется аллель T, обозначенный *, то это значит, что плодом от отца унаследован гаплотип II (Hap II). Наоборот, если в материнской плазме определяется аллель A, обозначенный +, то это означает, что плодом от отца унаследован Hap I.At step 840, it is determined which of the two parental haplotypes was inherited by the fetus by analyzing the established genotypes of multiple nucleic acid molecules from the biological sample at at least one of the second loci. For example, one could search for SNP alleles exclusively present in the paternal genome but absent from the maternal genome, such as the T allele denoted * and the A allele denoted + in FIG. 9 from analysis data (eg, location and genotype ascertained at 710) of the maternal biological sample. Just as is done in method 700, if the T allele indicated by * is detected in maternal plasma, then this means that haplotype II (Hap II) is inherited from the father by the fetus. Conversely, if the A allele, denoted + , is detected in maternal plasma, this means that Hap I is inherited from the father by the fetus.

На стадии 850 проводится сравнение относительных количеств установленных генотипов молекул нуклеиновой кислоты по более чем одному из первого множества локусов. В одном воплощении суммируют количества по всем локусам и сравнивают относительные количества материнских гаплотипов. Относительные количества могут означать встречаемость, распределение по размерам и любые другие параметры, дающие информацию о том, какой генотип представлен в геноме плода по определенному локусу.In step 850, the relative amounts of the established genotypes of nucleic acid molecules at more than one of the first plurality of loci are compared. In one embodiment, the numbers across all loci are summed and the relative numbers of maternal haplotypes are compared. Relative numbers can mean occurrence, size distribution, and any other parameters that provide information about which genotype is present in the fetal genome at a particular locus.

На стадии 860, исходя из того, какой гаплотип унаследован плодом от отца, и исходя из сравнения относительных количеств, определяется гаплотип, унаследованный еще не рожденным плодом от матери в той части генома, которая охвачена первым множеством локусов. Так, для определения того, какой из двух материнских гаплотипов унаследован плодом, проводится анализ RHDO (например, как описано выше) SNP на участке 1 по аналитических данным материнского биологического образца, с учетом отцовского гаплотипа, унаследованного плодом на участке 2. В одном воплощении предполагается, что между участками 1 и 2 не было рекомбинации при переходе этих участков от родителей к плоду.At step 860, based on which haplotype is inherited from the father by the fetus and based on a comparison of relative amounts, the haplotype inherited by the unborn fetus from the mother in that part of the genome covered by the first set of loci is determined. Thus, to determine which of the two maternal haplotypes is inherited by the fetus, an RHDO analysis (e.g., as described above) of the SNP at site 1 from maternal biological sample analysis is performed, given the paternal haplotype inherited by the fetus at site 2. In one embodiment, it is contemplated that there was no recombination between regions 1 and 2 when these regions passed from parents to the fetus.

Например, рассмотрим сценарий, когда при анализе участка 2 было установлено, что плод унаследовал Hap I от отца. Тогда наследование плодом Hap III (который идентичен Hap I на участке 1) от матери приведет к избыточной представленности Hap III относительно Hap IV в материнской плазме. Наоборот, если плод унаследовал Hap IV от матери, то в материнской плазме будет наблюдаться равная представленность Hap III и Hap IV.For example, consider a scenario where analysis of site 2 found that the fetus inherited Hap I from the father. The fetal inheritance of Hap III (which is identical to Hap I at site 1) from the mother would then result in an over-representation of Hap III relative to Hap IV in maternal plasma. Conversely, if the fetus has inherited Hap IV from the mother, then an equal representation of Hap III and Hap IV will be observed in maternal plasma.

В качестве другого примера рассмотрим сценарий, когда при анализе участка 2 было установлено, что плод унаследовал Hap II от отца. Тогда наследование плодом Hap IV (который идентичен Hap II на участке 1) от матери приведет к избыточной представленности Hap IV относительно Hap III в материнской плазме. Наоборот, если плод унаследовал Hap III от матери, то в материнской плазме будет наблюдаться равная представленность Hap III и Hap IV.As another example, consider a scenario where analysis of site 2 found that the fetus had inherited Hap II from the father. The fetal inheritance of Hap IV (which is identical to Hap II at site 1) from the mother would then result in an overrepresentation of Hap IV relative to Hap III in maternal plasma. Conversely, if the fetus has inherited Hap III from the mother, then an equal representation of Hap III and Hap IV will be observed in maternal plasma.

В предыдущих разделах мы выводили геном плода и фракционную концентрацию ДНК плода, используя данные, полученные при секвенировании ДНК из материнской плазмы, а также информацию о генотипе родителей плода. В следующих разделах описаны воплощения для выведения фракционной концентрации ДНК плода и генотипа плода без предварительной информации о генотипах/гаплотипах матери и отца.In the previous sections, we derived the fetal genome and fractional concentration of fetal DNA using data obtained from DNA sequencing from maternal plasma, as well as information about the genotype of the fetal parents. The following sections describe embodiments for deriving a fractional concentration of fetal DNA and fetal genotype without prior knowledge of maternal and paternal genotypes/haplotypes.

V. Определение фракционной концентрации ДНК плодаV. Determination of the fractional concentration of fetal DNA

В некоторых воплощениях необязательной стадией является определение фракционной концентрации ДНК плода. В различных аспектах эта фракционная концентрация может определять объем анализа (например, необходимый объем секвенирования) или определять точность анализа для данного количества данных (например, полноту охвата последовательности генома). Определение фракционной концен- 14 040939 трации ДНК плода может применяться и для определения предела отсечения при классификации того, какой гаплотип и/или генотип наследуется.In some embodiments, an optional step is to determine the fractional concentration of fetal DNA. In various aspects, this fractional concentration may determine the amount of analysis (eg, the amount of sequencing required) or determine the accuracy of the analysis for a given amount of data (eg, genome sequence completeness). The determination of the fractional concentration of fetal DNA can also be used to determine the cut-off limit in classifying which haplotype and/or genotype is inherited.

В одном воплощении фракционная концентрация ДНК плода определяется путем извлечения аналитических данных (например, полученных на стадии 140 и 710) для локусов, по которым и отец, и мать гомозиготны, но с различными аллелями. Например, для SNP с двумя аллелями, A и G, у отца может быть AA, а у матери GG, и наоборот. По таким локусам плод будет облигатной гетерозиготой. В вышеприведенном примере у плода будет генотип AG, а доля аллеля A в материнском образце может использоваться для определения фракционной концентрации ДНК плода. В другом воплощении для определения локуса, по которому мать гомозиготна, а плод гетерозиготен, может проводиться статистический анализ. При этом не требуется никакой информации о геноме матери или геноме отца.In one embodiment, the fractional concentration of fetal DNA is determined by extracting analytical data (eg, obtained at steps 140 and 710) for loci for which both the father and mother are homozygous, but with different alleles. For example, for an SNP with two alleles, A and G, the father may have AA and the mother GG, and vice versa. For such loci, the fetus will be an obligate heterozygote. In the example above, the fetus will have an AG genotype, and the proportion of the A allele in the maternal sample can be used to determine the fractional concentration of fetal DNA. In another embodiment, statistical analysis may be performed to determine the locus at which the mother is homozygous and the fetus is heterozygous. It does not require any information about the genome of the mother or the genome of the father.

В качестве альтернативы извлечению аналитических данных фракционную концентрацию ДНК плода также можно определить при помощи другого подхода, как-то методом ПЦР, цифровым методом ПЦР или методом на основе масс-спектрометрии, используя комплект полиморфных генетических маркеров (Lun FMF et al., Clin Chem 2008, 54: 1664-1672). Другой альтернативой является использование одного или нескольких геномных локусов, отличающихся по метилированию ДНК между плодом и матерью (Poon LLM et al., Clin Chem 2002, 48: 35-41; Chan KCA et al., Clin Chem 2006, 52: 2211-2218; US Patent 6,927,028). Еще одной альтернативой является использование приблизительной фракционной концентрации ДНК плода, определенной в контрольной популяции, например, при аналогичном гестационном возрасте. Однако, поскольку фракционная концентрация ДНК плода может отличаться от образца к образцу, можно ожидать, что этот последний подход будет менее точным, чем при измерении концентрации специально для тестируемого образца.As an alternative to extracting analytical data, the fractional concentration of fetal DNA can also be determined using another approach, such as PCR, digital PCR, or mass spectrometry-based methods using a set of polymorphic genetic markers (Lun FMF et al., Clin Chem 2008 , 54: 1664-1672). Another alternative is to use one or more genomic loci that differ in DNA methylation between fetus and mother (Poon LLM et al., Clin Chem 2002, 48: 35-41; Chan KCA et al., Clin Chem 2006, 52: 2211-2218 ; US Patent 6,927,028). Another alternative is to use the approximate fractional concentration of fetal DNA determined in a control population, for example, at a similar gestational age. However, since the fractional concentration of fetal DNA may differ from sample to sample, this latter approach can be expected to be less accurate than measuring the concentration specifically for the sample being tested.

A. Определение фракционной концентрации у облигатных гетерозиготA. Determination of fractional concentration in obligate heterozygotes

В тех воплощениях, в которых плод является облигатной гетерозиготой, можно определить фракционную концентрацию ДНК плода, используя следующие серии расчетов (например, при массированном параллельном секвенировании). Пусть p означает количество аллеля у плода, который отсутствует в материнском геноме. Пусть q означает количество другого аллеля, а именно аллеля, который есть в геноме и матери, и плода. Фракционная концентрация ДНК плода задается следующим уравнением ipIn those embodiments in which the fetus is an obligate heterozygote, the fractional concentration of fetal DNA can be determined using the following series of calculations (eg, massive parallel sequencing). Let p denote the number of alleles in the fetus that are absent from the maternal genome. Let q denote the amount of another allele, namely the allele that is in the genome of both the mother and the fetus. The fractional concentration of fetal DNA is given by the following equation ip

Р + ЧR + H

В одном воплощении такое вычисление проводится на совокупных данных по всем полиморфным генетическим локусам или полиморфным генетическим признакам, соответствующим конфигурации родительских генотипов (например, оба родителя гомозиготны, но по различным аллелям).In one embodiment, such a calculation is performed on aggregate data for all polymorphic genetic loci or polymorphic genetic traits corresponding to the configuration of the parental genotypes (eg, both parents are homozygous, but for different alleles).

B. Определение по информативным SNPB. Determination by Informative SNPs

Фракционную концентрацию ДНК плода также можно определить для любого локуса, по которому мать гомозиготна, а плод гетерозиготен, а не только когда мать гомозиготна по одному аллелю, а отец гомозиготен по другому аллелю. Оба способа предусматривают, что локус является информативным. Термин информативный SNP может применяться в разных контекстах в зависимости от того, какая нужна информация. В одном контексте это информация об аллеле в геноме плода в определенном локусе, в котором аллель не представлен в материнском геноме. Так, подмножество SNP, по которым мать гомозиготна, а плод гетерозиготен, можно называть информативными SNP в контексте определения концентрации ДНК плода. Случаи, когда и мать, и плод гетерозиготны, но отличаются хотя бы по одному аллелю, также могут использоваться в качестве информативных SNP. Однако триаллельные SNP относительно редко встречаются в геноме.The fractional concentration of fetal DNA can also be determined for any locus for which the mother is homozygous and the fetus is heterozygous, not just when the mother is homozygous for one allele and the father is homozygous for another allele. Both methods assume that the locus is informative. The term informative SNP can be used in different contexts depending on what kind of information is needed. In one context, this is information about an allele in the fetal genome at a particular locus where the allele is not present in the maternal genome. Thus, the subset of SNPs for which the mother is homozygous and the fetus is heterozygous can be called informative SNPs in the context of determining the concentration of fetal DNA. Cases where both mother and fetus are heterozygous but differ in at least one allele can also be used as informative SNPs. However, triallelic SNPs are relatively rare in the genome.

На фиг. 10 представлена блок-схема способа определения 1000 фракционной концентрации материала плода в материнском образце согласно воплощениям настоящего изобретения. На стадии 1010 фрагменты из образца беременной женщины подвергаются анализу для установления локализации в геноме человека и типа аллелей (что может привести к определению генотипа на этом участке). В одном воплощении фрагменты подвергаются анализу путем секвенирования множества молекул нуклеиновой кислоты из биологического образца, взятого у беременной женщины. В других воплощениях может применяться ПЦР в реальном времени или цифровой метод ПЦР.In FIG. 10 is a flow diagram of a method for determining the 1000 fractional concentration of fetal material in a maternal sample, in accordance with embodiments of the present invention. In step 1010, fragments from a sample of a pregnant woman are analyzed to determine the location in the human genome and the type of alleles (which can lead to the determination of the genotype at this site). In one embodiment, the fragments are analyzed by sequencing multiple nucleic acid molecules from a biological sample taken from a pregnant woman. In other embodiments, real-time PCR or digital PCR may be used.

На стадии 1020 определяется, что один или несколько первых локусов являются информативными. В некоторых воплощениях материнский геном гомозиготен, но в образце по информативному локусу выявляется не материнский аллель. В одном воплощении геном плода гетерозиготен по всем первым локусам, а материнский геном гомозиготен по всем первым локусам. Например, в одном первом локусе геном плода может содержать первый и второй аллели (например, TA), а материнский геном может содержать два соответствующих вторых аллеля (например, AA) в первом локусе. Однако такие локусы могут и не быть заранее известны, например в ситуациях, когда плод не является облигатной гетерозиготой.At step 1020, it is determined that one or more of the first loci are informative. In some embodiments, the maternal genome is homozygous, but a non-maternal allele is detected at the informative locus in the sample. In one embodiment, the fetal genome is heterozygous at all first loci and the maternal genome is homozygous at all first loci. For example, at one first locus, the fetal genome may contain the first and second alleles (eg, TA), and the maternal genome may contain two corresponding second alleles (eg, AA) at the first locus. However, such loci may not be known in advance, for example in situations where the fetus is not an obligate heterozygote.

В одном воплощении для определения информативного локуса рассматриваются те SNP, по которым мать гомозиготна. По тем SNP, по которым мать гомозиготна, плод будет либо гомозиготен по тому же аллелю, либо гетерозиготен. Например, если SNP полиморфен по A и T, а у матери генотип AA, то у плода будет генотип AA или TA. В этом случае наличие аллеля T в образце материнской плазмы означа- 15 040939 ет, что у плода будет генотип TA, а не AA. Некоторые воплощения нацелены на то, в какой степени наличие аллеля T означает генотип TA путем вычисления необходимого предела отсечения, как описано ниже.In one embodiment, those SNPs for which the mother is homozygous are considered to determine the informative locus. For those SNPs for which the mother is homozygous, the fetus will either be homozygous for the same allele or heterozygous. For example, if the SNP is polymorphic in both A and T, and the mother has an AA genotype, then the fetus will have an AA or TA genotype. In this case, the presence of the T allele in the maternal plasma sample means that the fetus will have the TA genotype, not AA. Some embodiments target the extent to which the presence of the T allele signifies the TA genotype by calculating the required cutoff, as described below.

На стадии 1030 для хотя бы одного из первых локусов определяется первое число p случаев (встречаемость) соответствующего первого аллеля и второе число q случаев (встречаемость) соответствующего второго аллеля. В одном воплощении число специфичных для плода (аллель T) и совместных (аллель A) аллелей в материнской плазме определяется различными методами, к примеру, без ограничения, ПЦР в реальном времени, цифровым методом ПЦР и массированным параллельным секвенированием.At step 1030, for at least one of the first loci, a first number p of occurrences (occurrence) of the corresponding first allele and a second number q of occurrences (occurrence) of the corresponding second allele are determined. In one embodiment, the number of fetal-specific (T allele) and shared (A allele) alleles in maternal plasma is determined by various methods, such as, but not limited to, real-time PCR, digital PCR, and massive parallel sequencing.

На стадии 1040 на основании первых и вторых чисел рассчитывается фракционная концентрация. В одном воплощении для беременной женщины с генотипом AA и ее плода с генотипом TA фракционная концентрация ДНК плода (f) рассчитывается по уравнению f=2xp/(p+q), где p означает встречаемость специфичного для плода аллеля (аллель T), a q означает встречаемость аллеля, встречающегося и у матери, и у плода (аллель A).At 1040, a fractional concentration is calculated based on the first and second numbers. In one embodiment, for a pregnant woman with genotype AA and her fetus with genotype TA, the fractional concentration of fetal DNA (f) is calculated by the equation f=2xp/(p+q), where p is the occurrence of a fetal-specific allele (T allele), and q is the occurrence of an allele that occurs in both the mother and the fetus (allele A).

В другом воплощении фракционная концентрация ДНК плода в материнской плазме может быть установлена с большей точностью при использовании множественных информативных SNP. При использовании встречаемости аллелей по множественным SNP (общее число SNP=n) фракционная концентрация ДНК плода (f) может быть рассчитана по уравнению f Σ^In another embodiment, the fractional concentration of fetal DNA in maternal plasma can be established with greater accuracy using multiple informative SNPs. When using the occurrence of alleles for multiple SNPs (total number of SNPs = n), the fractional concentration of fetal DNA (f) can be calculated using the equation f Σ^

Σ^4/ где pi означает встречаемость специфичного для плода аллеля по информативному SNP,;Σ^4/ where pi means the occurrence of a fetus-specific allele for informative SNP,;

qi - встречаемость аллеля, совместного для матери и для плода по информативному SNP,;qi - the occurrence of an allele that is common for the mother and the fetus according to the informative SNP;

а n - общее число информативных SNP.and n is the total number of informative SNPs.

Использование встречаемости аллелей по множественным SNP может повысить точность определения фракционной концентрации ДНК плода.Using the occurrence of alleles for multiple SNPs can improve the accuracy of determining the fractional concentration of fetal DNA.

C. Фракционная концентрация без явной генетической информации о родителяхC. Fractional Concentration Without Explicit Parental Genetic Information

Теперь опишем способ определения фракционной концентрации ДНК плода в образце материнской плазмы, при котором не требуется предварительная информация о генотипах плода и матери. В одном воплощении осуществляется определение информативных SNP по встречаемости различных аллелей в локусах этих SNP в материнской плазме. При этом способ 1000 может применяться вместе с определением информативных SNP на основании воплощений, описанных ниже. Сначала представим описание вероятностей для того, чтобы облегчить понимание расчета порога отсечения, используемого для идентификации информативных SNP.We now describe a method for determining the fractional concentration of fetal DNA in a maternal plasma sample that does not require prior information about the fetal and maternal genotypes. In one embodiment, informative SNPs are determined by the occurrence of different alleles at the loci of these SNPs in maternal plasma. However, the method 1000 can be used in conjunction with the determination of informative SNPs based on the embodiments described below. We first present a description of the probabilities in order to facilitate understanding of the cutoff threshold calculation used to identify informative SNPs.

В одном воплощении вероятность выявления специфичного для плода аллеля подчиняется распределению Пуассона. Вероятность (P) выявления специфичного для плода аллеля можно вычислить по следующему уравнениюIn one embodiment, the probability of detecting a fetal-specific allele follows a Poisson distribution. The probability (P) of detecting a fetal-specific allele can be calculated using the following equation

P=1-exp(-fxN/2), где f означает фракционную концентрацию ДНК плода в образце материнской плазмы, N -общее число молекул, соответствующих локусу данного анализируемого SNP, а ехр() означает экспоненциальную функцию. В одном аспекте P рассматривается как ожидаемое распределение, так как это распределение получается не при измерении количества молекул по многим образцам. В других воплощениях можно использовать и другие распределения.P=1-exp(-fxN/2), where f is the fractional concentration of fetal DNA in the maternal plasma sample, N is the total number of molecules corresponding to the locus of this analyzed SNP, and exp() is an exponential function. In one aspect, P is considered as the expected distribution, since this distribution is not obtained by measuring the number of molecules in many samples. In other embodiments, other distributions may be used.

Принимая, что фракционная концентрация ДНК плода составляет 5% (типичное значение для первого триместра беременности) и подвергается анализу 100 молекул (матери + плода), соответствующих этому локусу SNP (что эквивалентно количеству, содержащемуся в 50 диплоидных геномах), вероятность обнаружения специфичного для плода аллеля (аллеля T) равнаAssuming that the fractional concentration of fetal DNA is 5% (typical value for the first trimester of pregnancy) and subjected to analysis of 100 molecules (mother + fetus) corresponding to this SNP locus (which is equivalent to the amount contained in 50 diploid genomes), the probability of detecting a fetal-specific allele (T allele) is

1-exp(-0,05x 100/2)=0,921-exp(-0.05x 100/2)=0.92

Вероятность обнаружения специфичного для плода аллеля возрастает с повышением фракционной концентрации ДНК плода и числа молекул, подвергаемых анализу на локус SNP. Например, если концентрация ДНК плода составляет 10% и анализируется 100 молекул, то вероятность обнаружения специфичного для плода аллеля составляет 0,99.The probability of detecting a fetal-specific allele increases with an increase in the fractional concentration of fetal DNA and the number of molecules analyzed per SNP locus. For example, if the concentration of fetal DNA is 10% and 100 molecules are analyzed, then the probability of finding a fetal-specific allele is 0.99.

Следовательно, в локусе SNP, по которому мать гомозиготна, присутствие в материнской плазме аллеля, отличающегося от материнского, может означать, что этот SNP информативен для расчета фракционной концентрации ДНК плода. Вероятность пропуска любого информативного SNP может зависеть от числа анализируемых молекул. Иными словами, для выявления информативных SNP при любом желательном уровне достоверности число молекул, которое нужно проанализировать для получения требуемой точности, можно рассчитать по вероятностной функции Пуассона.Therefore, at the SNP locus for which the mother is homozygous, the presence in maternal plasma of an allele different from maternal may mean that this SNP is informative for calculating the fractional concentration of fetal DNA. The probability of missing any informative SNP may depend on the number of analyzed molecules. In other words, to identify informative SNPs at any desired level of confidence, the number of molecules that need to be analyzed to obtain the required accuracy can be calculated from the Poisson probability function.

Применяя вышеуказанный анализ, в некоторых воплощениях можно определить, является локус информативным или нет, когда генотип матери неизвестен. В одном воплощении определяются локусы, по которым в материнской плазме проводится выявление двух различных аллелей. Например, для локуса SNPUsing the above analysis, in some embodiments it can be determined whether the locus is informative or not when the mother's genotype is unknown. In one embodiment, loci are determined at which two different alleles are detected in maternal plasma. For example, for the SNP locus

- 16 040939 с двумя возможными аллелями, A и T, в материнской плазме проводится выявление обоих аллелей, A и T.- 16 040939 with two possible alleles, A and T, both alleles, A and T, are detected in maternal plasma.

На фиг. 11 представлена блок-схема способа определения 1100 того, что локус является информативным согласно воплощениям настоящего изобретения. В одном воплощении способ 1100 может применяться при выполнении стадии 1020 способа 1000. В другом воплощении одна стадия способа 1100 заключается в определении предела отсечения на основе статистического распределения, а на другой стадии предел отсечения используется для определения того, является ли локус (SNP) информативным.In FIG. 11 is a flow diagram of a method for determining 1100 that a locus is informative in accordance with embodiments of the present invention. In one embodiment, method 1100 may be applied in performing step 1020 of method 1000. In another embodiment, one step of method 1100 is to determine a cutoff based on a statistical distribution, and in another step, the cutoff is used to determine if a locus (SNP) is informative.

На стадии 1110 определяется предел отсечения для предсказания встречаемости соответствующего первого аллеля в определенном локусе. В одном воплощении предел отсечения предсказывает, является ли материнский геном гомозиготным, а геном плода гетерозиготным. В одном воплощении предел отсечения определяется на основе статистического распределения встречаемости для различных комбинаций гомозиготности и гетерозиготности в конкретном локусе. Например, распределение частоты аллелей можно предсказать по вероятностной функции Пуассона.At 1110, a cutoff is determined to predict the occurrence of the corresponding first allele at a particular locus. In one embodiment, the cutoff predicts whether the maternal gene is homozygous and the fetal gene is heterozygous. In one embodiment, the cutoff is determined based on the statistical distribution of occurrence for various combinations of homozygosity and heterozygosity at a particular locus. For example, the allele frequency distribution can be predicted from a Poisson probability function.

На стадии 1120, исходя из анализа молекул нуклеиновой кислоты из материнского образца (например, на стадии 1010), в локусе проводится выявление первого аллеля и второго аллеля. Например, при картировании на анализируемый локус приходится набор фрагментов, в которых был обнаружен первый аллель или второй аллель. Первый аллель может соответствовать одному из соответствующих первых аллелей из стадии 1020, а второй аллель может соответствовать одному из соответствующих вторых аллелей. В одном воплощении, если не обнаруживаются два различных аллеля, то это значит, что локус не является информативным.In step 1120, based on the analysis of nucleic acid molecules from the parent sample (eg, in step 1010), a first allele and a second allele are detected at the locus. For example, when mapping, the analyzed locus has a set of fragments in which the first allele or the second allele was found. The first allele may correspond to one of the respective first alleles from step 1020, and the second allele may correspond to one of the respective second alleles. In one embodiment, if two different alleles are not found, then the locus is not informative.

На стадии 1130 определяется фактическая встречаемость соответствующего первого аллеля в локусе на основании анализа молекул нуклеиновой кислоты. Например, можно подсчитать результаты секвенирования множества молекул нуклеиновой кислоты и установить, сколько раз на этот локус приходится фрагмент с генотипом первого аллеля.In step 1130, the actual occurrence of the corresponding first allele at the locus is determined based on the analysis of the nucleic acid molecules. For example, you can count the results of sequencing of many nucleic acid molecules and determine how many times at this locus there is a fragment with the genotype of the first allele.

На стадии 1140 локус идентифицируется как один из первых локусов, исходя из сравнения фактической встречаемости с пределом отсечения. В одном аспекте предел отсечения используется для различения между тремя возможностями: (a) мать гомозиготна (AA), а плод гетерозиготен (AT); (b) мать гетерозиготна (AT), и плод гетерозиготен (AT); и (c) мать гетерозиготна (AT), а плод гомозиготен (AA) или (TT). Для иллюстрации в приведенных ниже примерах принимается, что у плода генотип AA по сценарию (c). Однако вычисление будет таким же, если у плода будет генотип TT. Информативному локусу соответствует вариант (a).At step 1140, the locus is identified as one of the first loci based on a comparison of the actual occurrence with the cutoff. In one aspect, a cutoff is used to distinguish between three possibilities: (a) the mother is homozygous (AA) and the fetus is heterozygous (AT); (b) the mother is heterozygous (AT) and the fetus is heterozygous (AT); and (c) the mother is heterozygous (AT) and the fetus is homozygous (AA) or (TT). For illustration purposes, the examples below assume that the fetus has the AA genotype in scenario (c). However, the calculation will be the same if the fetus has the TT genotype. The informative locus corresponds to option (a).

В одном воплощении локус определяется как один из первых локусов, если его фактическая встречаемость меньше предела отсечения. В другом воплощении можно использовать и меньшее значение порога, чтобы избежать ложного картирования.In one embodiment, a locus is defined as one of the first loci if its actual occurrence is less than the cutoff limit. In another embodiment, a lower threshold value may be used to avoid false mapping.

А теперь опишем определение предела отсечения. Исходя из физиологически возможной фракционной концентрации ДНК плода (эта информация доступна из предыдущих исследований) и общего числа молекул, соответствующих локусу SNP, можно предсказать распределение встречаемости аллелей для трех возможных сценариев, приведенных выше. Исходя из предсказанного распределения, можно определить предел отсечения для интерпретации наблюдаемой встречаемости аллелей в материнской плазме для определения того, что SNP является информативным (т.е. вариант (a)) или нет.Now let's describe the definition of the cutoff limit. Based on the physiologically possible fractional concentration of fetal DNA (this information is available from previous studies) and the total number of molecules corresponding to the SNP locus, it is possible to predict the distribution of allele occurrence for the three possible scenarios given above. Based on the predicted distribution, a cut-off can be determined for interpreting the observed occurrence of alleles in maternal plasma to determine if the SNP is informative (ie option (a)) or not.

Фракционная концентрация ДНК плода обычно составляет от 5% до 20% в начале беременности и от 10 до 35% в конце беременности (Lun et al. Micro fluidics digital PCR reveals a higher than expected fraction of fetal DNA in maternal plasma. Clin Chem 2008, 54: 1664-72). Так, в одном воплощении определяли прогнозируемое распределение встречаемости аллелей при фракционной концентрации ДНК плода в 5 и 20%.The fractional concentration of fetal DNA is usually 5% to 20% at the beginning of pregnancy and 10 to 35% at the end of pregnancy (Lun et al. Micro fluidics digital PCR reveals a higher than expected fraction of fetal DNA in maternal plasma. Clin Chem 2008, 54: 1664-72). Thus, in one embodiment, the predicted distribution of allele occurrence was determined at fractional concentrations of fetal DNA of 5% and 20%.

На фиг. 12A представлено прогнозируемое распределение встречаемости для аллеля T (менее распространенный аллель по сценариям (a) и (c)) для трех сценариев с предполагаемой фракционной концентрацией ДНК плода в 20%. На фиг. 12B представлено прогнозируемое распределение встречаемости для аллеля T (менее распространенный аллель по сценариям (a) и (c)) для трех сценариев с предполагаемой фракционной концентрацией ДНК плода в 5%. В обеих моделях предполагается, что для анализа локуса SNP было взято в целом 200 молекул.In FIG. 12A shows the predicted distribution of occurrence for the T allele (the less common allele in scenarios (a) and (c)) for three scenarios with an assumed fractional concentration of 20% fetal DNA. In FIG. 12B shows the predicted distribution of occurrence for the T allele (the less common allele in scenarios (a) and (c)) for three scenarios with an assumed fractional concentration of fetal DNA of 5%. In both models, it is assumed that a total of 200 molecules were taken for the analysis of the SNP locus.

Используя в качестве предела отсечения встречаемость менее распространенного аллеля (аллеля T), составляющую 40 раз, можно статистически отличить три возможности. Иными словами, при выявлении в материнской плазме локуса SNP с двумя аллелями и при анализе в общей сложности 200 молекул, если частота второстепенного аллеля (менее распространенного аллеля) будет меньше 40, то этот локус SNP можно считать информативным. При фракционной концентрации ДНК плода в 5% и 20% различение информативных SNP (сценарий (a)) от тех SNP, по которым мать гетерозиготна (сценарии (b) и (c)), будет правильным на 100%.Using a 40-fold occurrence of the less common allele (T allele) as a cutoff, three possibilities can be statistically distinguished. In other words, if an SNP locus with two alleles is detected in maternal plasma and a total of 200 molecules are analyzed, if the frequency of a minor allele (less common allele) is less than 40, then this SNP locus can be considered informative. With a fractional concentration of fetal DNA of 5% and 20%, distinguishing informative SNPs (scenario (a)) from those SNPs for which the mother is heterozygous (scenarios (b) and (c)) will be 100% correct.

На практике общее число выявляемых молекул может быть различным для различных SNP. Для каждого локуса SNP можно составить свою кривую прогнозируемого распределения с учетом общего числа выявляемых молекул в образце материнской плазмы, охватывающих этот локус SNP. Иными словами, предел отсечения для определения того, что SNP является информативным или нет, может варьировать между различными SNP и зависит от того, сколько раз встречался этот локус SNP.In practice, the total number of detected molecules may be different for different SNPs. For each SNP locus, a different predictive distribution curve can be drawn, taking into account the total number of detectable molecules in the maternal plasma sample covering that SNP locus. In other words, the cutoff for determining whether a SNP is informative or not may vary between different SNPs and depends on how many times that SNP locus occurs.

В следующей таблице представлена встречаемость аллелей из трех локусов SNP в материнскойThe following table presents the occurrence of alleles from the three SNP loci in the maternal

- 17 040939 плазме при секвенировании образца материнской плазмы. По каждому из трех SNP в материнской плазме обнаружено два разных аллеля. Общее число выявленных случаев в материнской плазме, соответствующих этим трем SNP, отличается друг от друга.- 17 040939 plasma when sequencing a sample of maternal plasma. For each of the three SNPs, two different alleles were found in maternal plasma. The total number of detected cases in maternal plasma corresponding to these three SNPs differ from each other.

Локус SNP Locus SNP Обозначение SNP SNP designation Аллель (разы) Allele (times) Аллель (разы) Allele (times) Общее число раз Total number of times 1 1 rs3107146 rs3107146 А (Ю) A (U) G(163) G(163) 173 173 2 2 rs7522344 rs7522344 G(9) G(9) Т(112) Т(112) 121 121 3 3 rs2272908 rs2272908 А (72) A (72) G(62) G(62) 134 134

Прогнозируемое распределение встречаемости менее распространенного аллеля при фракционной концентрации ДНК плода в 20% и различном числе молекул, соответствующих SNP, представлено на фиг. 13A, 13B и 14. Прогнозируемое распределение составляли, принимая концентрацию ДНК плода в 20%, так как она представляет верхний предел концентрации ДНК плода в первом триместре. Чем более высокая концентрация ДНК плода, тем большее ожидается перекрывание между кривыми распределения второстепенного аллеля, по которому мать гомозиготна, и главного аллеля, по которому мать гетерозиготна. Таким образом, для предсказания информативных SNP будет более уместным вычисление предела отсечения для второстепенного аллеля с использованием более высокой концентрации ДНК плода.The predicted distribution of occurrence of the less common allele at a fractional concentration of fetal DNA of 20% and various numbers of molecules corresponding to SNPs is shown in FIG. 13A, 13B and 14. The predicted distribution was made by assuming a fetal DNA concentration of 20% as it represents the upper limit of the first trimester fetal DNA concentration. The higher the concentration of fetal DNA, the more overlap is expected between the distribution curves of the minor allele for which the mother is homozygous and the major allele for which the mother is heterozygous. Thus, in order to predict informative SNPs, it would be more appropriate to calculate the cut-off for a minor allele using a higher concentration of fetal DNA.

На фиг. 13A представлено прогнозируемое распределение встречаемости менее распространенного аллеля при общем числе 173 молекул и фракционной концентрации ДНК плода в 20%. В одном воплощении, исходя из этого распределения, для идентификации информативных SNP подходит критерий отсечения менее 40 для встречаемости менее распространенного аллеля. Поскольку аллель A встречается 10 раз, то локус SNP № 1 считается информативным для вычисления фракционной концентрации ДНК плода.In FIG. 13A shows the predicted distribution of occurrence of the less common allele with a total number of 173 molecules and a fetal DNA fractional concentration of 20%. In one embodiment, based on this distribution, a cut-off criterion of less than 40 for the occurrence of the less common allele is appropriate for identifying informative SNPs. Since the A allele occurs 10 times, the SNP #1 locus is considered informative for calculating the fractional concentration of fetal DNA.

На фиг. 13B представлено прогнозируемое распределение встречаемости менее распространенного аллеля при общем числе 121 молекулы и фракционной концентрации ДНК плода в 20%. В одном воплощении, исходя из этого распределения, для идентификации информативных SNP подходит предел отсечения менее 26 для встречаемости менее распространенного аллеля. Поскольку аллель T встречается 9 раз, то локус SNP № 2 считается информативным для вычисления фракционной концентрации ДНК плода.In FIG. 13B shows the predicted distribution of occurrence of the less common allele at a total number of 121 molecules and a fetal DNA fractional concentration of 20%. In one embodiment, based on this distribution, a cutoff of less than 26 for the occurrence of the less common allele is appropriate for identifying informative SNPs. Since the T allele occurs 9 times, the SNP 2 locus is considered informative for calculating the fractional concentration of fetal DNA.

На фиг. 12 представлено прогнозируемое распределение встречаемости менее распространенного аллеля при общем числе 134 молекул и фракционной концентрации ДНК плода в 20%. В одном воплощении, исходя из этого распределения, для идентификации информативных SNP подходит предел отсечения менее 25 для встречаемости менее распространенного аллеля. Поскольку аллель T встречается 62 раза, то локус SNP № 3 считается не информативным и не должен использоваться для вычисления фракционной концентрации ДНК плода.In FIG. 12 shows the predicted distribution of occurrence of the less common allele with a total number of 134 molecules and a fetal DNA fractional concentration of 20%. In one embodiment, based on this distribution, a cutoff of less than 25 for the occurrence of the less common allele is appropriate for identifying informative SNPs. Since the T allele occurs 62 times, SNP locus no. 3 is considered non-informative and should not be used to calculate the fractional concentration of fetal DNA.

В некоторых воплощениях фракционную концентрацию ДНК плода можно рассчитать по формуле f=2xp/(p+q), используя встречаемость аллелей для SNP № 1 и № 2 и объединяя их.In some embodiments, the fractional concentration of fetal DNA can be calculated using the formula f=2xp/(p+q) using the allele occurrence for SNP #1 and #2 and combining them.

Результаты представлены ниже.The results are presented below.

Локус SNP, используемый для вычисления SNP locus used for calculation Фракционная концентрация ДНК плода Fractional concentration of fetal DNA 1 1 10x2/(10+ 163) = 11,6% 10x2/(10+163) = 11.6% 2 2 9x2/(9+112)= 14,9% 9x2/(9+112)= 14.9% 1 и2 1 and 2 (10 + 9)х2/(10 + 9 + 163 + 112) = 12,9% (10 + 9)x2 / (10 + 9 + 163 + 112) = 12.9%

D. Определение полноты охвата генома плодаD. Determination of fetal genome coverage

Помимо получения фракционной концентрации, в воплощениях можно определить степень охвата генома плода при выполнении аналитической процедуры (например, секвенирования) на стадии 1010. В некоторых воплощениях для определения степени охвата можно использовать информативные локусы. Например, можно использовать любой из вышеприведенных примеров. В одном воплощении можно использовать локусы, по которым плод является облигатной гетерозиготой. В другом воплощении можно использовать локусы, по которым плод оказался гетерозиготным, а мать гомозиготна (например, используя способ 1100).In addition to obtaining a fractional concentration, in embodiments, the coverage of the fetal genome by performing an analytical procedure (eg, sequencing) at step 1010 can be determined. In some embodiments, informative loci can be used to determine the coverage. For example, any of the above examples can be used. In one embodiment, loci for which the fetus is an obligate heterozygote can be used. In another embodiment, loci for which the fetus is heterozygous and the mother is homozygous can be used (eg, using method 1100).

Для определения степени охвата можно использовать фрагменты, которые при картировании попадают на информативные локусы. В одном воплощении определяется доля тех локусов из первого множества локусов, в которых по результатам секвенирования выявляется соответствующий первый аллель. Например, если по одному локусу у плода будет TA, а у матери AA, то по результатам секвенирования должен выявляться аллель T, если этот локус подвергался секвенированию. Таким образом, можно рассчитать, какая доля генома плода в биологическом образце подвергалась секвенированию, исходя из этого соотношения. В одном воплощении в качестве степени охвата генома плода принимается доля тех первых локусов, в которых отмечен специфичный для плода аллель. В других воплощениях эта доля может подвергаться модификации в зависимости от того, где находятся эти локусы. Например, можно оп- 18 040939 ределить степень охвата для каждой хромосомы. С другой стороны, можно считать, что степень охвата меньше, чем эта доля, если первые локусы не являются хорошей репрезентативной выборкой генома. С другой стороны, можно представить диапазон, в котором эта доля составляет один конец диапазона. В то время, как высокая степень охвата, т.е. близкая к 100%, означает почти полный охват генома плода, большинство генетических заболеваний можно диагностировать при значительном меньшем охвате, чем 100%, например, 80% или 50% или еще меньше.To determine the degree of coverage, you can use fragments that, when mapped, fall on informative loci. In one embodiment, the proportion of those loci from the first set of loci in which the corresponding first allele is detected by sequencing is determined. For example, if at one locus the fetus has TA and the mother has AA, then the sequencing results should reveal the T allele if this locus has been sequenced. Thus, it is possible to calculate what proportion of the fetal genome in a biological sample has been sequenced based on this ratio. In one embodiment, the proportion of those first loci that have a fetal-specific allele is taken as the coverage of the fetal genome. In other embodiments, this proportion may be modified depending on where these loci are located. For example, it is possible to determine the degree of coverage for each chromosome. On the other hand, coverage can be considered to be less than this proportion if the first loci are not a good representative sample of the genome. On the other hand, one can imagine a range in which this proportion is one end of the range. While the high coverage rate, i.e. close to 100% means almost complete coverage of the fetal genome, most genetic diseases can be diagnosed with significantly less coverage than 100%, such as 80% or 50% or even less.

VI. Отсутствие предварительной информации о геноме матери и отцаVI. Lack of preliminary information about the genome of the mother and father

В предыдущих разделах, в некоторых воплощениях определяли генетическую карту плода (или части генома плода), когда были известны гаплотипы матери и генотипы отца. В других воплощениях было показано, что фракционную концентрацию ДНК плода можно определить путем анализа ДНК в материнской плазме без предварительного знания о генотипах матери, отца или плода. Еще в других воплощениях мы теперь также опишем способ определения генетической карты плода (или части генома плода) при помощи анализа RHDO без предварительной информации о генотипах/гаплотипах матери и отца.In the previous sections, in some embodiments, the genetic map of the fetus (or parts of the fetal genome) was determined when the mother's haplotypes and father's genotypes were known. In other embodiments, it has been shown that the fractional concentration of fetal DNA can be determined by DNA analysis in maternal plasma without prior knowledge of maternal, paternal, or fetal genotypes. In yet other embodiments, we will now also describe a method for determining the genetic map of a fetus (or a portion of the fetal genome) by RHDO analysis without prior knowledge of maternal and paternal genotypes/haplotypes.

В одном воплощении используется информация о контрольных (например, распространенных или известных) гаплотипах той популяции, к которой принадлежат родители. Эта информация может использоваться для выведения гаплотипов матери и отца. Покажем принцип этого метода на одном примере. Информацию по таким контрольным гаплотипам можно получить, к примеру, из вебсайта международного проекта International HapMap Project (hapmap.ncbi.nlm.nih.gov/).In one embodiment, information about control (eg, common or known) haplotypes of the population to which the parents belong is used. This information can be used to derive maternal and paternal haplotypes. Let's show the principle of this method on one example. Information on such control haplotypes can be obtained, for example, from the International HapMap Project website (hapmap.ncbi.nlm.nih.gov/).

Для примера предположим, что в популяции есть три контрольных гаплотипа (Hap A, Hap B и Hap C, как показано на фиг. 15A). Каждый из этих трех гаплотипов состоит из 14 локусов SNP, причем в каждом локусе есть два возможных аллеля. В этом примере отец обладает Hap B и Hap C, а мать обладает Hap A и Hap B, как показано на фиг. 15B. В этом примере принимается, что плод наследует Hap A от матери и Hap C от отца. Поэтому у плода будет Hap A и Hap C, как показано на фиг. 15B.For example, suppose there are three control haplotypes in the population (Hap A, Hap B, and Hap C, as shown in Fig. 15A). Each of these three haplotypes consists of 14 SNP loci, with two possible alleles at each locus. In this example, the father has Hap B and Hap C and the mother has Hap A and Hap B, as shown in FIG. 15b. In this example, it is assumed that the fetus inherits Hap A from the mother and Hap C from the father. Therefore, the fetus will have Hap A and Hap C as shown in FIG. 15b.

На фиг. 16 представлена блок-схема способа определения 1600 по меньшей мере части генома плода, когда известен набор контрольных гаплотипов, но неизвестны родительские гаплотипы, согласно воплощениям настоящего изобретения.In FIG. 16 is a flow diagram of a method for determining 1600 at least a portion of the fetal genome when a set of control haplotypes is known but parental haplotypes are unknown, in accordance with embodiments of the present invention.

На стадии 1610 материнский образец подвергается анализу для выявления тех SNP, по которым мать гомозиготна, а плод гетерозиготен. Такой анализ проводится таким же образом, как и определение информативных локусов, как описано выше. Так, в одном воплощении можно использовать способ 1000 и/или 1100. В других воплощениях, описанных выше, подвергаются анализу геномы матери и отца, чтобы получить данные для картирования генома плода.In step 1610, the maternal sample is analyzed to identify those SNPs for which the mother is homozygous and the fetus is heterozygous. This analysis is carried out in the same way as the determination of informative loci, as described above. Thus, in one embodiment, method 1000 and/or 1100 can be used. In other embodiments described above, maternal and paternal genomes are analyzed to obtain data for fetal genome mapping.

На фиг. 17 представлен пример определения информативных локусов при анализе фрагментов ДНК из материнского образца. Для каждого из 14 локусов определяется встречаемость двух аллелей по каждому локусу. Встречаемость этих аллелей можно определить, к примеру, без ограничения, методом ПЦР в реальном времени, цифровым методом ПЦР и массированным параллельным секвенированием. По каждому из этих локусов нужно выявить два разных аллеля в материнской плазме. В отличие от тех SNP, по которым мать гетерозиготна, доля этих двух аллелей будет существенно отличаться. Специфичный для плода аллель (тот, который плод наследует от отца) будет встречаться гораздо реже, чем материнский аллель. Информативные локусы 1710 отмечены на фиг. 17.In FIG. 17 shows an example of determining informative loci when analyzing DNA fragments from a maternal sample. For each of the 14 loci, the occurrence of two alleles for each locus is determined. The occurrence of these alleles can be determined, for example, without limitation, real-time PCR, digital PCR, and massive parallel sequencing. For each of these loci, two different alleles must be identified in maternal plasma. Unlike those SNPs for which the mother is heterozygous, the proportion of these two alleles will be significantly different. The fetal-specific allele (the one that the fetus inherits from the father) will be much less common than the maternal allele. Informative loci 1710 are marked in FIG. 17.

На стадии 1620 определяется один или несколько аллелей из отцовского гаплотипа, унаследованных плодом. В одном воплощении каждый из локусов 1710 может использоваться для определения унаследованного отцовского гаплотипа. Например, отцовский аллель, унаследованный плодом, можно идентифицировать как специфичный для плода аллель по локусам 1720, поскольку в материнском образце специфичный для плода аллель встречается гораздо реже, чем материнский аллель.At stage 1620, one or more alleles from the paternal haplotype inherited by the fetus are determined. In one embodiment, each of the loci 1710 can be used to determine the inherited paternal haplotype. For example, a paternal allele inherited by a fetus can be identified as a fetal-specific allele at the 1720 loci because the fetal-specific allele is much less common than the maternal allele in a maternal sample.

На стадии 1630 отцовские аллели сравнивают с контрольными гаплотипами, чтобы определить гаплотип, унаследованный от отца. В некоторых воплощениях можно вывести целый ряд возможных гаплотипов плода, каждый со своей вероятностью. Затем один или несколько из наиболее вероятных гаплотипов плода можно использовать для последующего анализа или для клинической диагностики.At step 1630, paternal alleles are compared with control haplotypes to determine the haplotype inherited from the father. In some embodiments, a number of possible fetal haplotypes can be deduced, each with a different probability. One or more of the most likely fetal haplotypes can then be used for further analysis or for clinical diagnosis.

В приведенном на фиг. 18 примере в популяции есть три возможных гаплотипа (Hap A, Hap B и Hap C). При анализе материнской плазмы четыре SNPs оказались гомозиготными для матери и гетерозиготными для плода, поэтому они представляют отцовские аллели, унаследованные плодом. Генотипы по этим четырем SNPs соответствуют профилю Hap C. Следовательно, плод унаследовал Hap C от отца, как показано на фиг. 19. Иными словами, для всех SNPs в пределах одного и того же блока гаплотипов можно вычислить отцовские аллели, унаследованные плодом.In FIG. In example 18, there are three possible haplotypes in the population (Hap A, Hap B, and Hap C). In analysis of maternal plasma, four SNPs were found to be homozygous for the mother and heterozygous for the fetus, so they represent paternal alleles inherited by the fetus. The genotypes for these four SNPs matched the Hap C profile. Therefore, the fetus inherited Hap C from the father, as shown in FIG. 19. In other words, for all SNPs within the same block of haplotypes, paternal alleles inherited by the fetus can be calculated.

На стадии 1640 можно определить локусы (например, SNPs), по которым мать гетерозиготна. В одном воплощении те SNPs, по которым мать гетерозиготна, получают при анализе материнского образца. Например, по каждому из этих SNPs выявляется два разных аллеля. В отличие от тех SNPs, по которым мать гомозиготна, а плод гетерозиготен, когда специфичные для плода аллели составляют лишь небольшую долю от всех аллелей в материнской плазме, встречаемость двух аллелей будет одинаковой для тех SNPs, по которым мать гетерозиготна. Таким образом, при анализе материнской плазмы можно установить полный генотип матери по всем локусам SNP в пределах одного блока гаплотипов, например, как показано на фиг. 20.At 1640, loci (eg, SNPs) for which the mother is heterozygous can be determined. In one embodiment, those SNPs for which the mother is heterozygous are obtained from analysis of a maternal sample. For example, two different alleles are identified for each of these SNPs. Unlike those SNPs for which the mother is homozygous and the fetus heterozygous, where fetal-specific alleles represent only a small fraction of all alleles in maternal plasma, the occurrence of the two alleles will be the same for those SNPs for which the mother is heterozygous. Thus, by analyzing maternal plasma, it is possible to establish the complete maternal genotype across all SNP loci within a single block of haplotypes, for example, as shown in FIG. 20.

- 19 040939- 19 040939

На стадии 1650 составляются материнские гаплотипы из генотипов матери на стадии 1640 путем сравнения генотипов по локусам с информацией о гаплотипах в соответствующей популяции. На фиг. 21 представлено воплощение для определения материнских гаплотипов из генотипов матери и контрольных гаплотипов. В данном примере мать гомозиготна по аллелю G в третьем локусе SNP. Поскольку только Hap A и Hap B соответствуют этому критерию, то это значит, что у матери должна быть одна из трех комбинаций гаплотипов, а именно Hap A/Hap A, Hap A/Hap B или Hap B/Нар B. Кроме того, поскольку мать гетерозиготна по A и C для первого SNP, можно заключить, что у матери должна быть комбинация гаплотипов Hap A/Hap B. В одном воплощении может возникнуть более чем одна возможность, причем каждую возможность можно проверить на следующей стадии. Из вышеприведенного анализа были установлены гаплотипы матери и гаплотип, унаследованный плодом от отца. На фиг. 22 представлены установленные гаплотипы матери и унаследованный от отца гаплотип.At step 1650, maternal haplotypes are constructed from the mother's genotypes at step 1640 by comparing the genotypes at the loci with haplotype information in the corresponding population. In FIG. 21 shows an embodiment for determining maternal haplotypes from maternal genotypes and control haplotypes. In this example, the mother is homozygous for the G allele at the third SNP locus. Since only Hap A and Hap B meet this criterion, this means that the mother must have one of three haplotype combinations, namely Hap A/Hap A, Hap A/Hap B, or Hap B/Hap B. In addition, since the mother is heterozygous for A and C for the first SNP, it can be concluded that the mother must have the Hap A/Hap B haplotype combination. In one embodiment, more than one possibility may arise, each possibility being tested in the next step. From the above analysis, the mother's haplotypes and the haplotype inherited from the father by the fetus were determined. In FIG. 22 shows the established maternal haplotypes and the haplotype inherited from the father.

На стадии 1660 определяется материнский гаплотип, унаследованный плодом, из гаплотипов матери, установленных на стадии 1650, и унаследованного от отца гаплотипа, установленного на стадии 1630. Используя эту информацию, в одном воплощении для определения того, какой материнский гаплотип перешел к плоду, применяется анализ RHDO. Анализ RHDO может проводиться по любому из описанных здесь воплощений.At step 1660, the maternal haplotype inherited by the fetus is determined from the haplotypes of the mother determined at step 1650 and the haplotype inherited from the father determined at step 1630. Using this information, in one embodiment, analysis is applied to determine which maternal haplotype has passed to the fetus. RHDO. RHDO analysis can be carried out according to any of the embodiments described here.

В одном воплощении для анализа RHDO те SNPs, по которым мать гетерозиготна, можно разделить на два типа, тип альфа и тип бета (например, как показано на фиг. 23 и описано выше). К SNPs типа альфа относятся те локусы, в которых отцовский аллель, перешедший к плоду, идентичен материнскому аллелю в составе Hap A. Для SNPs типа альфа, если плод от матери унаследует Hap A, то аллели из Hap A будут избыточно представлены в материнской плазме. С другой стороны, если плод от матери унаследует Hap B, то два материнских аллеля будут одинаково представлены в материнской плазме.In one embodiment for RHDO analysis, those SNPs for which the mother is heterozygous can be divided into two types, alpha type and beta type (eg, as shown in FIG. 23 and described above). Alpha SNPs include those loci in which the paternal allele passed to the fetus is identical to the maternal allele in Hap A. For alpha SNPs, if the fetus inherits Hap A from the mother, alleles from Hap A will be overrepresented in maternal plasma. On the other hand, if the mother's fetus inherits Hap B, then the two maternal alleles will be equally represented in maternal plasma.

К SNPs типа бета относятся те локусы, в которых отцовский аллель, перешедший к плоду, идентичен материнскому аллелю в составе Hap B. Для SNPs типа бета, если плод от матери унаследует Hap B, то аллели из Hap B будут избыточно представлены в материнской плазме. Однако, если плод от матери унаследует Hap A, то два материнских аллеля будут одинаково представлены в материнской плазме. Возможную избыточную представленность аллелей из Hap A или Hap B можно определить при помощи анализа RHDO.Beta SNPs include those loci in which the paternal allele passed to the fetus is identical to the maternal allele in Hap B. For beta SNPs, if the fetus inherits Hap B from the mother, alleles from Hap B will be overrepresented in maternal plasma. However, if the mother's fetus inherits Hap A, then the two maternal alleles will be equally present in maternal plasma. Possible overrepresentation of alleles from Hap A or Hap B can be determined using RHDO analysis.

В некоторых воплощениях при применении анализа RHDO к определенному участку без предварительной информации о гаплотипах матери и генотипах отца может потребоваться сравнительно многократный охват SNPs в пределах блока гаплотипов, к примеру, в одном воплощении нужно проанализировать 200 молекул, соответствующих локусу SNP. Такая информация может быть получена, к примеру, без ограничения, методом ПЦР в реальном времени, цифровым методом ПЦР и массированным параллельным секвенированием. В одном воплощении для получения репрезентативной и объективной количественной информации по различным аллелям на искомом участке можно использовать прицельное секвенирование (например, сочетанием обогащения мишени и массированного параллельного секвенирования). Прицельное секвенирование описано в приведенном ниже примере. Таким образом, анализ RHDO может применяться к данным по прицельному секвенированию ДНК в материнской плазме для определения того, какие материнские аллели/гаплотипы передаются плоду, без предварительной информации о генотипах/гаплотипах родителей.In some embodiments, when applying RHDO analysis to a specific site without prior knowledge of maternal haplotypes and paternal genotypes, relatively multiple coverage of SNPs within a haplotype block may be required, for example, in one embodiment, 200 molecules corresponding to the SNP locus need to be analyzed. Such information can be obtained, for example, without limitation, real-time PCR, digital PCR, and massive parallel sequencing. In one embodiment, targeted sequencing (eg, a combination of target enrichment and massive parallel sequencing) can be used to obtain representative and unbiased quantitative information on the various alleles in the region of interest. Targeted sequencing is described in the example below. Thus, RHDO analysis can be applied to targeted maternal plasma DNA sequencing data to determine which maternal alleles/haplotypes are passed on to the fetus without prior knowledge of parental genotypes/haplotypes.

VII. Выявление мутаций de novoVII. Detection of de novo mutations

В некоторых воплощениях можно выявить мутации, приобретенные плодом. Мутации de novo - это такие мутации, которые не передаются отцом или матерью, а возникают, к примеру, при гаметогенезе у отца или у матери или у обоих. Выявление их имеет клиническое значение, так как мутации de novo играют важную роль, вызывая целый ряд генетических заболеваний, например, гемофилию A и хондродистрофию.In some embodiments, mutations acquired by the fetus can be detected. De novo mutations are mutations that are not transmitted by the father or mother, but arise, for example, during gametogenesis in the father or in the mother, or in both. Their detection is of clinical importance, since de novo mutations play an important role in causing a number of genetic diseases, such as hemophilia A and chondrodystrophy.

На фиг. 24 представлена блок-схема, иллюстрирующая способ идентификации 2400 мутаций de novo в геноме еще не рожденного плода у беременной женщины. У плода есть отец и беременная женщина-мать, причем отец обладает отцовским геномом с двумя гаплотипами, а мать обладает материнским геномом с двумя гаплотипами, при этом способ включает.In FIG. 24 is a flowchart illustrating a method for identifying 2400 de novo mutations in the genome of an unborn fetus in a pregnant woman. The fetus has a father and a pregnant mother, the father having a paternal genome with two haplotypes and the mother having a maternal genome with two haplotypes, the method comprising.

На стадии 2410 проводится секвенирование множества молекул нуклеиновой кислоты из биологического образца, взятого у беременной женщины. Отметим, что образец содержит смесь нуклеиновых кислот матери и плода.In step 2410, a plurality of nucleic acid molecules are sequenced from a biological sample taken from a pregnant woman. Note that the sample contains a mixture of maternal and fetal nucleic acids.

На стадии 2420 устанавливается локализация каждой из просеквенированных молекул нуклеиновой кислоты в геноме человека. В одном воплощении картирование последовательностей осуществляется путем секвенирования с одного конца или с обоих концов. В одном аспекте картирование для локализации в геноме человека не требует точного совпадения каждого из нуклеотидов при выявлении локализации.At step 2420, the localization of each of the sequenced nucleic acid molecules in the human genome is established. In one embodiment, sequence mapping is performed by sequencing from one end or both ends. In one aspect, mapping for localization in the human genome does not require an exact match of each of the nucleotides when detecting localization.

На стадии 2430 для каждого из по крайней мере части местоположений определяется материнская последовательность и отцовская последовательность в данном положении. Например, если на стадии 2420 установлено 100 местоположений, то можно определить материнские и отцовские геномы в этих 100 положениях. В одном воплощении отцовские последовательности определяются из взятого у отца образца, в отличие от использования контрольных гаплотипов, как это описано выше. При этом можноAt 2430, for each of at least a portion of the locations, a maternal sequence and a paternal sequence at that position are determined. For example, if 100 locations are established at step 2420, then maternal and paternal genomes at those 100 positions can be determined. In one embodiment, paternal sequences are determined from a paternal sample, as opposed to using control haplotypes as described above. At the same time, it is possible

- 20 040939 выявить мутации, не представленные в контрольном геноме. В различных воплощениях материнские последовательности можно получить из образца, содержащего только материнскую ДНК, или же получить из биологического образца, например, с помощью описанных здесь методов.- 20 040939 identify mutations not present in the control genome. In various embodiments, maternal sequences can be obtained from a sample containing only maternal DNA, or obtained from a biological sample, for example, using the methods described here.

На стадии 2440 устанавливается первая последовательность во множестве молекул нуклеиновой кислоты, которая отсутствует у выявленных материнских или отцовских последовательностей. В одном воплощении сравнение первой последовательности с выявленными материнскими или отцовскими последовательностями требует точного совпадения. Так, если совпадение не будет точным, то считается, что первая последовательность отсутствует у выявленных материнских или отцовских последовательностей. При этом можно идентифицировать даже незначительные мутации de novo, так как мутация de novo может представлять собой изменение всего лишь одного нуклеотида. В другом воплощении для того, чтобы последовательность рассматривалась как мутация de novo, необходимо определенное количество фрагментов ДНК, проявляющих не материнскую и не отцовскую последовательность. Например, можно использовать предел отсечения в 3 фрагмента ДНК для определения того, что в последовательности есть мутация de novo или нет ее.At step 2440, the first sequence in the plurality of nucleic acid molecules is established that is not present in the identified maternal or paternal sequences. In one embodiment, comparison of the first sequence with the identified maternal or paternal sequences requires an exact match. So, if the match is not exact, then it is considered that the first sequence is absent from the identified maternal or paternal sequences. Even minor de novo mutations can be identified, since a de novo mutation can be a change in just one nucleotide. In another embodiment, in order for a sequence to be considered a de novo mutation, a certain number of DNA fragments are required that exhibit a non-maternal and non-paternal sequence. For example, a cutoff of 3 DNA fragments can be used to determine if a sequence has or does not have a de novo mutation.

На стадии 2450 определяется первая фракционная концентрация первой последовательности в биологическом образце. Например, количество фрагментов ДНК, проявляющих первую последовательность, можно выразить в виде доли от всех фрагментов ДНК, выявленных по этому локусу.In step 2450, the first fractional concentration of the first sequence in the biological sample is determined. For example, the number of DNA fragments exhibiting a first sequence can be expressed as a proportion of all DNA fragments identified at that locus.

На стадии 2460 определяется вторая фракционная концентрация нуклеиновой кислоты плода в биологическом образце, используя молекулу нуклеиновой кислоты, унаследованную плодом от отца, которая присутствует в отцовском геноме, но отсутствует в материнском геноме. Такая молекула нуклеиновой кислоты может содержать первый аллель в таком локусе, по которому отец гомозиготен, а мать тоже гомозиготна, но по другому аллелю, поэтому плод будет облигатной гетерозиготой. Для выяснения того, какую молекулу нуклеиновой кислоты следует использовать для определения второй фракционной концентрации, можно использовать информативные локусы, описанные выше.In step 2460, a second fractional concentration of fetal nucleic acid in the biological sample is determined using a nucleic acid molecule inherited from the father by the fetus that is present in the paternal genome but not present in the maternal genome. Such a nucleic acid molecule may contain the first allele at a locus for which the father is homozygous and the mother is also homozygous, but for a different allele, so the fetus will be an obligate heterozygote. The informative loci described above can be used to determine which nucleic acid molecule should be used to determine the second fractional concentration.

В других воплощениях вторая фракционная концентрация определяется при помощи других подходов, как-то методом ПЦР, цифровым методом ПЦР или методом на основе масс-спектрометрии, по Yхромосоме, по комплекту геннетических полиморфизмов, т.е. полиморфизмов по одному нуклеотиду или полиморфизмов типа вставки-делеции (Lun FMF et al., Clin Chem 2008, 54: 1664-1672). Другая альтернатива состоит в использовании одного или нескольких геномных локусов, проявляющих различия по метилированию ДНК между плодом и матерью (Poon LLM et al., Clin Chem 2002, 48: 35-41; Chan KCA et al., Clin Chem 2006, 52: 2211-2218; US Patent 6,927,028).In other embodiments, the second fractional concentration is determined using other approaches, such as PCR, digital PCR, or mass spectrometry based, on the Y chromosome, on a set of genetic polymorphisms, i.e. single nucleotide polymorphisms or insertion-deletion type polymorphisms (Lun FMF et al., Clin Chem 2008, 54: 1664-1672). Another alternative is to use one or more genomic loci showing differences in DNA methylation between fetus and mother (Poon LLM et al., Clin Chem 2002, 48: 35-41; Chan KCA et al., Clin Chem 2006, 52: 2211 -2218; US Patent 6,927,028).

В одном воплощении различия в эпигенетическом статусе отражаются различиями по метилированию ДНК. Различия по метилированию ДНК могут затрагивать ген 1A из семейства доменов ассоциации с RAS (RASSF1A) или ген лигазы синтетазы голокар-боксилазы (биотин-(пропионил-CoA-карбоксилазы (АТФ-гидролизирующей)) (HLCS). Количество фрагментов ДНК со специфичным для плода профилем метилирования ДНК можно выразить в виде доли от всех фрагментов ДНК, возникающих по этому локусу с дифференциальным метилированием.In one embodiment, differences in epigenetic status are reflected by differences in DNA methylation. Differences in DNA methylation may affect the 1A gene from the RAS association domain family (RASSF1A) or the holocarboxylase synthetase ligase (biotin-(propionyl-CoA-carboxylase (ATP-hydrolysing)) (HLCS) gene. the DNA methylation profile can be expressed as the proportion of all DNA fragments arising at that locus with differential methylation.

На стадии 2470 первая последовательность классифицируется как мутация de novo, если первая и вторая фракционная концентрация примерно одинаковы. Не материнские и не отцовские последовательности, возникающие из-за ошибок в процессе анализа, например, ошибок при секвенировании, являются случайными явлениями и могут случиться с малой вероятностью. Поэтому множественные фрагменты ДНК, проявляющие одну и ту же не материнскую и не отцовскую последовательность в количестве, близком к измеренной фракционной концентрации ДНК плода в образце, скорее всего представляют мутацию de novo, присутствующую в геноме плода, а не возникли из-за ошибки при секвенировании. В одном воплощении для определения того, что фракционные концентрации одинаковы, можно использовать предел отсечения. Например, если концентрации отличаются друг от друга на заданную величину, то первая последовательность классифицируется как мутация de novo. В различных воплощениях заданная величина может составлять 5, 10 или 15%.At 2470, the first sequence is classified as a de novo mutation if the first and second fractional concentrations are approximately the same. Non-maternal and non-paternal sequences resulting from errors in the analysis process, such as sequencing errors, are random events and can occur with a low probability. Therefore, multiple DNA fragments exhibiting the same non-maternal and non-paternal sequence in an amount close to the measured fractional concentration of fetal DNA in the sample most likely represent a de novo mutation present in the fetal genome and did not arise from a sequencing error. . In one embodiment, a cutoff can be used to determine that the fractional concentrations are the same. For example, if the concentrations differ from each other by a given amount, then the first sequence is classified as a de novo mutation. In various embodiments, the target value may be 5, 10 or 15%.

ПримерыExamples

Пример 1.Example 1

Для иллюстрации воплощений настоящего изобретения проанализируем следующий случай. Была привлечена пара, посещающая акушерскую клинику для пре-натальной диагностики бета-талассемии. Отец был носителем делеции 4 пар оснований-CTTT из кодонов 41/42 гена бета-глобина человека. Беременная мать была носителем мутации A^G по нуклеотиду -28 гена бета-глобина человека. У отца и матери брали образцы крови. У матери образец крови брали перед взятием образца хориальных ворсин (CVS) после 12 недель беременности. Часть образца CVS сохраняли для эксперимента. Целью эксперимента было составление генетической карты всего генома или определение полной или частичной геномной последовательности плода путем массированного параллельного секвенирования ДНК материнской плазмы.To illustrate embodiments of the present invention, consider the following case. A couple visiting an obstetrics clinic for prenatal diagnosis of beta-thalassemia was recruited. The father was a carrier of a 4 bp-CTTT deletion from codons 41/42 of the human beta-globin gene. The pregnant mother was a carrier of the A^G mutation at nucleotide -28 of the human beta-globin gene. Blood samples were taken from the father and mother. The mother had a blood sample taken before chorionic villus sampling (CVS) after 12 weeks of pregnancy. Part of the CVS sample was kept for the experiment. The aim of the experiment was to map the whole genome or to determine the complete or partial genomic sequence of the fetus by massively parallel maternal plasma DNA sequencing.

1. Определение родительских генотипов1. Determination of parental genotypes

ДНК экстрагировали из лейкоцитной пленки отца и матери и из образца CVS. Эти образцы ДНК подвергали анализу на установке Affymetrix Genome-Wide Human SNP Array 6.0 system. Эта система со- 21 040939 держит 1,8 млн генетических маркеров, включая ~900 000 полиморфизмов по одному нуклеотиду (SNP) и более 950 000 зондов для выявления вариаций числа копий. Абсолютное количество и проценты SNPs, проявляющих различные комбинации генотипов для отца, матери и плода (CVS), приведены в таблице на фиг. 25A.DNA was extracted from paternal and maternal buffy coats and from a CVS sample. These DNA samples were analyzed on the Affymetrix Genome-Wide Human SNP Array 6.0 system. This system contains 1.8 million genetic markers, including ~900,000 single nucleotide polymorphisms (SNPs) and more than 950,000 probes for detecting copy number variations. The absolute number and percentages of SNPs exhibiting various combinations of paternal, maternal, and fetal (CVS) genotypes are tabulated in FIG. 25A.

Хотя в этом примере использовалась система Affymetrix, на практике можно использовать любую платформу генотипирования, известную в данной области. Так, помимо генотипирования, ДНК из лейкоцитной пленки отца и матери также можно подвергнуть секвенированию, как по всему геному, так и по отдельным участкам генома. Более того, для установления генотипов родителей можно использовать любой источник ДНК (например, ДНК буккальных клеток, ДНК волосяных фолликулов и т.д.) из организма отца и матери.Although the Affymetrix system was used in this example, in practice any genotyping platform known in the art can be used. So, in addition to genotyping, DNA from the buffy coat of the father and mother can also be subjected to sequencing, both for the entire genome and for individual sections of the genome. Moreover, any source of DNA (eg, buccal cell DNA, hair follicle DNA, etc.) from the father and mother can be used to determine the genotypes of the parents.

Образец CVS подвергали анализу, чтобы получить стандарт для сравнения с генетической картой плода, составленной при анализе материнской плазмы. Кроме того, для этого эксперимента генотип образца CVS также можно использовать для составления гаплотипа матери для анализа RHDO. При этом использование генотипа CVS с целью составления гаплотипа матери применялось только для иллюстрации. При клиническом применении воплощений гаплотип матери можно составить посредством анализа других членов семьи, к примеру, предыдущих детей, братьев и сестер, родителей или других родственников матери. Гаплотип матери по искомым участкам хромосом также можно составить и другими методами, хорошо известными специалистам, из которых некоторые приведены здесь.The CVS sample was analyzed to provide a standard for comparison with the fetal genetic map from maternal plasma analysis. In addition, for this experiment, the genotype of the CVS sample can also be used to construct a maternal haplotype for RHDO analysis. However, the use of the CVS genotype to compile the maternal haplotype was used for illustration purposes only. In the clinical use of embodiments, the mother's haplotype can be derived from analysis of other family members, such as previous children, siblings, parents, or other relatives of the mother. The mother's haplotype can also be compiled from the desired chromosome regions by other methods well known to specialists, some of which are given here.

В отдельных воплощениях также определяется гаплотип отца еще не рожденного плода. Такая информация может быть особенно полезной при определении относительной дозы гаплотипа по тем участкам хромосом, по которым и отец, и мать гетерозиготны.In some embodiments, the haplotype of the father of the unborn fetus is also determined. Such information can be especially useful in determining the relative dose of the haplotype for those parts of the chromosomes for which both the father and mother are heterozygous.

2. Массированное параллельное секвенирование ДНК материнской плазмы2. Massive parallel sequencing of maternal plasma DNA

ДНК из плазмы, полученной от матери, подвергали массированному параллельному секвенированию на платформе Illumina Genome Analyzer. Секвенирование молекул ДНК из плазмы проводили с двух концов. Каждую молекулу секвенировали по каждому концу на 50 п.о., в общей сложности 100 п.о. на молекулу. Оба конца последовательности выравнивали с демаскированным по повторам геномом человека (Hg18 NCBI.36 из сайта UCSC http://genome.ucsc.edu) с помощью программы SOAP2 из Пекинского института геномики в Шеньчжене (Beijing Genomics Institute at Shenzhen; soap.genomics.org.cn) (Li R et al., Bioinformatics 2009, 25(15): 1966-7). В табл. на фиг. 25B приведена статистика выравнивания для первых 20 проточных кювет. Так при 20 проточных кюветах с контрольным геномом человека было выровнено свыше 3,932 млрд прочитанных отрезков.Maternal plasma DNA was subjected to massive parallel sequencing on the Illumina Genome Analyzer platform. Sequencing of DNA molecules from plasma was performed from two ends. Each molecule was sequenced at each end by 50 bp, for a total of 100 bp. per molecule. Both ends of the sequence were aligned with the unmasked human genome (Hg18 NCBI.36 from the UCSC website http://genome.ucsc.edu) using the SOAP2 program from the Beijing Genomics Institute at Shenzhen; soap.genomics.org .cn) (Li R et al., Bioinformatics 2009, 25(15): 1966-7). In table. in fig. 25B shows alignment statistics for the first 20 flow cells. So, with 20 flow cells with a control human genome, more than 3.932 billion read segments were aligned.

3. Вычисление фракционной концентрации ДНК плода3. Calculation of the fractional concentration of fetal DNA

Как указано выше, фракционную концентрацию ДНК плода в образце материнской плазмы можно вычислить по данным секвенирования. Так, можно проанализировать те SNPs, по которым и отец, и мать гомозиготны, но по различным аллелям. По таким SNPs плод будет облигатной гетерозиготой по одному отцовскому и одному материнскому аллелю. В одном воплощении можно использовать любой из способов вычисления, описанных в разделе V. А в этом примере вычисления проводились по кумулятивным данным из различных полиморфных генетических локусов, соответствующих конфигурации родительских генотипов (т.е. оба родителя гомозиготны, но по различным аллелям) на разных хромосомах. Фракционные концентрации ДНК плода, рассчитанные по SNPs, локализованным на разных хромосомах, приведены в самом правом столбце на фиг. 26. Как видно из таблицы, фракционные концентрации, рассчитанные по SNPs, локализованным на разных хромосомах, очень хорошо коррелируют друг с другом.As stated above, the fractional concentration of fetal DNA in a maternal plasma sample can be calculated from sequencing data. Thus, it is possible to analyze those SNPs for which both the father and mother are homozygous, but for different alleles. For such SNPs, the fetus will be obligate heterozygous for one paternal and one maternal allele. In one embodiment, any of the calculation methods described in section V can be used. In this example, the calculations were performed on cumulative data from various polymorphic genetic loci corresponding to the configuration of the parental genotypes (i.e. both parents are homozygous, but for different alleles) on different chromosomes. Fractional concentrations of fetal DNA calculated from SNPs located on different chromosomes are shown in the rightmost column in FIG. 26. As can be seen from the table, the fractional concentrations calculated from SNPs located on different chromosomes correlate very well with each other.

В качестве эксперимента по контролю качества исследовали и те SNPs, по которым мать гомозиготна, а отец гетерозиготен, путем анализа образцов из лейкоцитной пленки методом Affymetrix SNP 6.0 (средний столбец на фиг. 26). Видно, что при достаточной полноте секвенирования ДНК измеренные при этом фракционные концентрации ДНК плода оказались очень близкими тем, которые измеряли по SNPs, по которым и отец, и мать гомозиготны, но по различным аллелям.As a quality control experiment, those SNPs for which the mother is homozygous and the father is heterozygous were also examined by analyzing buffy coat samples with the Affymetrix SNP 6.0 method (middle column in Fig. 26). It can be seen that with a sufficient completeness of DNA sequencing, the fractional concentrations of fetal DNA measured in this case turned out to be very close to those measured by SNPs for which both the father and mother are homozygous, but for different alleles.

В одном воплощении, если по этим двум типам SNPs наблюдаются почти одинаковые фракционные концентрации ДНК плода, то можно заключить, что геном плода был почти полностью охвачен секвенированием. В одном аспекте, при меньшей полноте охвата фракционные концентрации ДНК плода, измеренные по SNPs, по которым мать гомозиготна, а отец гетерозиготен, будут более высокими, чем при измерении по тем SNPs, по которым и отец, и мать гомозиготны, но по различным аллелям. При меньшей полноте охвата отсутствие уникального по отцовской линии аллеля может быть вызвано двумя возможными факторами: (i) тем, что плод не унаследовал этот аллель от отца; и/или (ii) тем, что плод унаследовал этот аллель от отца, но затем он был утерян при секвени-ровании, потому что полнота секвенирования была недостаточной.In one embodiment, if almost the same fractional concentrations of fetal DNA are observed for these two types of SNPs, then it can be concluded that the fetal genome has been almost completely covered by sequencing. In one aspect, at lower coverage, the fractional concentrations of fetal DNA measured by SNPs for which the mother is homozygous and the father is heterozygous will be higher than when measured by those SNPs for which both the father and mother are homozygous, but for different alleles. . At lower coverage, the absence of a paternally unique allele could be due to two possible factors: (i) that the fetus did not inherit the allele from the father; and/or (ii) that the fetus inherited this allele from the father, but then it was lost during sequencing because the completeness of sequencing was insufficient.

4a. Вычисление степени охвата генома плода4a. Fetal genome coverage calculation

Также, как указано выше, можно определить, какой процент генома плода был проанализирован при секвенировании ДНК из материнской плазмы, если посмотреть на подгруппу SNPs, по которым и отец, и мать гомозиготны, но по различным аллелям. В этой семье 45 900 SNPs на матрице Affymetrix SNP 6.0 принадлежали к этой подгруппе. Степень охвата генома плода можно вычислить путем анализа данных по секвенированию ДНК из плазмы, чтобы узнать, у какого процента SNPs из этой подгруппыAlso, as mentioned above, it is possible to determine what percentage of the fetal genome was analyzed by DNA sequencing from maternal plasma by looking at the subset of SNPs for which both father and mother are homozygous, but for different alleles. In this family, 45,900 SNPs on the Affymetrix SNP 6.0 matrix belonged to this subgroup. The coverage of the fetal genome can be calculated by analyzing plasma DNA sequencing data to find out what percentage of SNPs from this subgroup

- 22 040939 выявляется аллель плода при секвенировании.- 22 040939 fetal allele detected by sequencing.

На графике из фиг. 27A представлен наблюдаемый процент SNP в этой подгруппе, в которой аллель плода наблюдается по данным секвенирования при анализе первых 20 проточных кювет. Так, аллель плода наблюдается у 94% таких SNPs. Такая степень секвенирования соответствует более 3,932 млрд прочитанных отрезков при последовательности в 100 п.о. На графике из фиг. 27B представлен охват в зависимости от числа прочитанных отрезков вместо количества проточных кювет. С увеличением производительности различных платформ секвенирования следует ожидать, что количество проточных кювет или запусков, используемых или необходимых для получения такого количества прочитанных последовательностей или отрезков последовательностей, в будущем уменьшится.On the graph from Fig. 27A shows the observed percentage of SNPs in this subgroup, in which the fetal allele is observed by sequencing in the analysis of the first 20 flow cells. Thus, the fetal allele is observed in 94% of these SNPs. This degree of sequencing corresponds to more than 3.932 billion read segments with a sequence of 100 bp. On the graph from Fig. 27B shows coverage as a function of the number of segments read instead of the number of flow cells. As the throughput of various sequencing platforms increases, it is to be expected that the number of flow cells or runs used or required to obtain this many sequence reads or sequence cuts will decrease in the future.

В некоторых воплощениях, поскольку в каждом участке хромосомы или хромосом выявляется несколько SNPs, то охват генома плода составит менее 94% и тем не менее обеспечит правильное картирование генома. Например, предположим, что на участке хромосомы имеется 30 информативных SNPs, но аллель плода выявляется только у 20 из этих 30 SNPs. Тем не менее, участок хромосомы можно правильно идентифицировать и при 20 SNPs. Так, в одном воплощении равнозначная точность достигается при охвате, составляющем менее 94%.In some embodiments, since multiple SNPs are detected in each region of the chromosome or chromosomes, the coverage of the fetal genome will be less than 94% and still provide correct mapping of the genome. For example, suppose there are 30 informative SNPs in a region of a chromosome, but the fetal allele is found in only 20 of those 30 SNPs. However, a chromosome region can be correctly identified at 20 SNPs. Thus, in one embodiment, equivalent accuracy is achieved with a coverage of less than 94%.

4b. Охват генетической картой аллелей, унаследованных плодом от отца4b. Coverage of the alleles inherited by the fetus from the father by the genetic map

В этом примере анализа изучали те аллели SNPs, по которым отец гетерозиготен, а мать гомозиготна. В этой семье 131 037 SNPs на матрице Affymetrix SNP 6.0 относились к этой категории. Подгруппа таких SNPs состояла из 65 875 SNPs, по которым мать гомозиготна, а отец и плод гетерозиготны. При использовании 20 проточных кювет аллели, наследуемые по отцовской линии, наблюдались у 61 875 таких SNPs, что означает охват в 93,9%. Этот процент хорошо соответствует данным по степени охвата, полученным в предыдущем параграфе. Корреляции между охватом наследуемых по отцовской линии аллелей и количеством поддающихся картированию прочитанных последовательностей и количеством последовательностей из проточных кювет приведены на фиг. 28A и фиг. 28B соответственно.In this analysis example, those SNPs alleles for which the father is heterozygous and the mother is homozygous were examined. In this family, 131,037 SNPs on the Affymetrix SNP 6.0 matrix were in this category. The subset of such SNPs consisted of 65,875 SNPs for which the mother is homozygous and the father and fetus are heterozygous. When using 20 flow cuvettes, paternally inherited alleles were observed in 61,875 of these SNPs, representing a coverage of 93.9%. This percentage is in good agreement with the coverage data obtained in the previous paragraph. The correlations between paternally inherited allele coverage and the number of mappable sequences read and the number of sequences from flow cells are shown in FIG. 28A and FIG. 28B respectively.

Для выяснения специфичности такого подхода к выявлению истинных наследуемых по отцовской линии аллелей у плода подвергали анализу 65 162 (т.е. 131 037 -65 875) SNPs, по которым плод унаследовал те же самые аллели, что и мать. Для таких SNPs кажущееся выявление аллелей, отличающихся от аллелей матери, должно означать ложно-положительные результаты. Так, из этих 65 162 SNPs при анализе 20 проточных кювет отмечено только 3 225 ложно-положительных (4,95%). Эти ложноположительные результаты могли возникнуть в результате ошибок при секвенировании или ошибок при генотипировании ДНК отца или матери либо мутаций de novo у плода. Корреляция между долей ложноположительных и количеством просеквенированных проточных кювет представлена на фиг. 29A.To determine the specificity of this approach to identifying true paternally inherited alleles in the fetus, 65,162 (ie, 131,037 -65,875) SNPs were analyzed for which the fetus inherited the same alleles as the mother. For such SNPs, the apparent detection of alleles different from those of the mother should mean false positive results. Thus, out of these 65,162 SNPs, only 3,225 false positives (4.95%) were noted in the analysis of 20 flow cells. These false positives could result from sequencing or genotyping errors in paternal or maternal DNA, or de novo mutations in the fetus. The correlation between the proportion of false positives and the number of flow cells sequenced is shown in FIG. 29A.

Долю ложно-положительных можно определить и при рассмотрении подгруппы SNPs, по которым и отец, и мать гомозиготны по одному и тому же аллелю. Наличие любого альтернативного аллеля в определенном локусе считалось ложно-положительным результатом. Эти ложно-положительные могли возникнуть в результате ошибок при секвенировании или ошибок при генотипировании ДНК отца или матери либо мутаций de novo у плода. В этой подгруппе было 500 673 SNPs. По данным секвенирования из 20 проточных кювет ложно-положительные результаты отмечались у 48 396 SNPs (9,67%). Корреляция между долей ложно-положительных и количеством просеквенированных проточных кювет представлена на фиг. 29B. Доля ложно-положительных при этом была выше, чем при оценке по подгруппе SNPs, по которым и мать, и плод гомозиготны, а отец гетерозиготен. Это вызвано тем, что в последней подгруппе SNPs ложно-положительным считается только наличие в материнской плазме наследуемых по отцовской линии аллелей, тогда как в первой подгруппе ложно-положительным результатом считается любой аллель, отличающийся от общих для отца и матери аллелей.The proportion of false positives can also be determined by considering the subgroup of SNPs for which both the father and mother are homozygous for the same allele. The presence of any alternative allele at a particular locus was considered a false positive. These false positives could result from sequencing or genotyping errors in paternal or maternal DNA, or de novo mutations in the fetus. There were 500,673 SNPs in this subgroup. False-positive results were reported in 48,396 SNPs (9.67%) from 20 flow cell sequencing. The correlation between the proportion of false positives and the number of flow cells sequenced is shown in FIG. 29b. The proportion of false positives in this case was higher than when assessed by the subgroup of SNPs for which both the mother and the fetus are homozygous, and the father is heterozygous. This is because in the latter subgroup of SNPs, only the presence of paternally inherited alleles in maternal plasma is considered false positive, while in the first subgroup, any allele that differs from the alleles common to the father and mother is considered a false positive.

На фиг. 30 представлен охват специфичных для плода SNPs при различном числе анализируемых проточных кювет. В этот анализ включены те SNPs, по которым и отец, и мать гомозиготны, но по различным аллелям. По оси X представлена степень охвата специфичных для плода SNPs, а по оси Y - процент SNPs с заданной степенью охвата.In FIG. 30 shows the coverage of fetal-specific SNPs for various numbers of flow cells analyzed. Included in this analysis are those SNPs for which both father and mother are homozygous, but for different alleles. The x-axis represents the coverage of fetal-specific SNPs and the y-axis represents the percentage of SNPs with a given coverage.

При повышении числа анализируемых проточных кювет возрастает средняя степень охвата специфичных для плода SNPs. Например, при одной анализируемой проточной кювете средняя степень охвата SNPs составляет 0,23 раз. А при анализе 20 проточных кювет средняя степень охвата возрастает до 4,52 раз.As the number of flow cells analyzed increases, the mean coverage of fetal-specific SNPs increases. For example, with a single flow cell analyzed, the average coverage of SNPs is 0.23 times. And when analyzing 20 flow cells, the average coverage increases to 4.52 times.

5. Правильность генетической карты, унаследованной от матери5. The correctness of the genetic map inherited from the mother

На фиг. 31 представлена точность анализа типа A при использовании данных из 10 проточных кювет. В разделе П.В описаны воплощения анализа типа A и типа B (также именуются альфа и бета). Точность относится к правильному определению гаплотипа, унаследованного от матери. Точность представлена отдельно для каждой хромосомы.In FIG. 31 shows the accuracy of Type A analysis using data from 10 flow cells. Section B describes the Type A and Type B (also referred to as alpha and beta) analysis implementations. Accuracy refers to the correct determination of the haplotype inherited from the mother. Accuracy is presented separately for each chromosome.

Используя соотношение правдоподобия =1200 при анализе SPRT (Zhou W et al., Nat Biotechnol 2001, 19:78-81; Karoui NE et al., Statist Med 2006, 25:3124-33), точность составляла от 96 до 100%. Как видим, даже при таком высоком соотношении правдоподобия для классификации по SPRT, в общей сложности классифицировали 2760 сегментов по всему геному. Такая степень разрешения достаточна для большинства задач, если учесть, что мейотическая рекомбинация происходит с частотой от одного до нескольких раз на одно плечо хромосомы за поколение. Кроме того, видно, что все ошибочные клас- 23 040939 сификации можно было предотвратить при использовании перемежающегося подхода (справа на фиг. 31). Как описано выше, в перемежающемся подходе применяется анализ и типа A, и типа B.Using likelihood ratio =1200 in SPRT analysis (Zhou W et al., Nat Biotechnol 2001, 19:78-81; Karoui NE et al., Statist Med 2006, 25:3124-33), the accuracy ranged from 96 to 100%. As you can see, even with such a high likelihood ratio for SPRT classification, a total of 2760 segments were classified across the genome. This degree of resolution is sufficient for most problems, given that meiotic recombination occurs at a frequency of one to several times per chromosome arm per generation. In addition, it can be seen that all misclassifications could have been prevented using the interleaved approach (right in FIG. 31). As described above, the interleaved approach uses both Type A and Type B analysis.

На фиг. 32 представлена точность анализа типа B при использовании данных из 10 проточных кювет. Используя соотношение правдоподобия = 1200 при анализе SPRT, точность составляла от 94,1% до 100%. Все ошибочные классификации можно было предотвратить при использовании перемежающегося подхода (справа на фиг. 32), как это отмечалось и на фиг. 31.In FIG. 32 shows the accuracy of Type B analysis using data from 10 flow cells. Using likelihood ratio = 1200 in the SPRT analysis, the accuracy ranged from 94.1% to 100%. All misclassifications could be prevented using the interleaved approach (right in FIG. 32), as noted in FIG. 31.

На фиг. 33 представлена точность анализа типа A при использовании данных из 20 проточных кювет. Используя соотношение правдоподобия =1200 при анализе SPRT и алгоритм двух последовательных блоков, в общей сложности было сделано 3780 классификаций, и только 3 (0,1%) классификации оказались неправильными. На фиг. 34 представлена точность анализа типа B при использовании данных из 20 проточных кювет. Используя соотношение правдоподобия =1200 при анализе SPRT и алгоритм двух последовательных блоков, в общей сложности было сделано 3355 классификаций, и только 6 (0,2%) классификаций оказались неправильными. В этих примерах анализ SPRT проводился по целому ряду генетических маркеров типа SNPs.In FIG. 33 shows the accuracy of Type A analysis using data from 20 flow cells. Using a likelihood ratio of 1200 in the SPRT analysis and a 2-block algorithm, a total of 3780 classifications were made and only 3 (0.1%) classifications were incorrect. In FIG. 34 shows the accuracy of Type B analysis using data from 20 flow cells. Using the likelihood ratio =1200 in the SPRT analysis and the 2-block algorithm, a total of 3355 classifications were made and only 6 (0.2%) classifications were incorrect. In these examples, SPRT analysis was performed on a variety of genetic markers such as SNPs.

Пример 2. Пренатальное определение риска бета-талассемии.Example 2 Prenatal Beta Thalassemia Risk Determination.

В одном воплощении для определения риска бета-талассемии у плода (аутосомного рецессивного заболевания) можно определить, унаследовал ли плод мутантные аллели, переносимые его отцом и матерью. В данном случае, приведенном выше, отец является носителем делеции 4 пар оснований -CTTT из кодонов 41/42 гена бета-глобина человека. Беременная мать является носителем мутации A^G по нуклеотиду -28 гена бета-глобина человека.In one embodiment, to determine the risk of fetal beta thalassemia (an autosomal recessive disease), it can be determined whether the fetus has inherited mutant alleles carried by its father and mother. In this case above, the father is a carrier of a 4 bp -CTTT deletion from codons 41/42 of the human beta globin gene. A pregnant mother is a carrier of the A^G mutation at nucleotide -28 of the human beta-globin gene.

Для того, чтобы определить, унаследовал ли плод отцовскую мутацию по кодонам 41/42, проводили поиск среди данных секвенирования ДНК из материнской плазмы с использованием первых 10 проточных кювет на предмет этой мутации. Всего обнаружили 10 сигналов с этой мутацией (фиг. 35A). Таким образом, плод унаследовал отцовскую мутацию. Кроме того, 62 сигнала содержали последовательность дикого типа по кодонам 41/42 (фиг. 35B). Следовательно, на этом участке процент сигналов, содержащих эту мутацию, равен 0,1389. Эта цифра очень близка фракционной концентрации ДНК плода, установленной на фиг. 26. В одном воплощении риск наследования плодом отцовской мутации можно определить и по наследованию им генетических полиморфизмов, сцепленных с отцовской мутацией.To determine if the fetus had inherited the paternal 41/42 codon mutation, maternal plasma DNA sequencing data was searched using the first 10 flow cells for the mutation. A total of 10 signals were found with this mutation (FIG. 35A). Thus, the fetus inherited the paternal mutation. In addition, 62 signals contained the wild-type sequence at codons 41/42 (FIG. 35B). Therefore, in this region, the percentage of signals containing this mutation is 0.1389. This figure is very close to the fractional concentration of fetal DNA found in FIG. 26. In one embodiment, the risk of a fetus inheriting a paternal mutation can also be determined by the inheritance of genetic polymorphisms linked to the paternal mutation.

В одном воплощении для определения риска того, что плод унаследовал материнскую мутацию -28, проводили анализ RHDO. В этой семье мутация -28 локализована на гаплотипе IV, тогда как аллель дикого типа локализован на гаплотипе III. Результаты анализа RHDO типа A представлены на фиг. 36, а результаты анализа RHDO типа B представлены на фиг. 37. При обоих типах анализа установлено наследование плодом гаплотипа III от матери. Иными словами, плод унаследовал от матери аллель дикого типа. Окончательный диагноз у плода состоит в том, что он унаследовал мутацию по кодонам 41/42 от отца и аллель дикого типа от матери. Таким образом, плод является гетерозиготным носителем бетаталассемии и поэтому должен быть клинически здоровым.In one embodiment, an RHDO assay was performed to determine the risk that the fetus inherited the -28 maternal mutation. In this family, the -28 mutation is localized to haplotype IV, while the wild-type allele is localized to haplotype III. The results of the type A RHDO analysis are shown in FIG. 36 and the results of the type B RHDO analysis are shown in FIG. 37. In both types of analysis, the inheritance of haplotype III from the mother by the fetus was established. In other words, the fetus inherited the wild-type allele from the mother. The final diagnosis in the fetus is that it inherited the 41/42 codon mutation from the father and the wild-type allele from the mother. Thus, the fetus is a heterozygous carrier of betathalassemia and therefore should be clinically healthy.

Пример 3. Обогащение мишени и прицельное секвенирование.Example 3 Target Enrichment and Targeted Sequencing.

Как изложено в предыдущих разделах, точность определения фракционной концентрации ДНК плода и разрешение генетической карты, составленной по анализу ДНК в материнской плазме, может зависеть от полноты охвата искомых локусов. Например, мы показали, что для определения с высокой точностью фракционной концентрации ДНК плода без предварительной информации о генотипе матери должно хватить и 200 молекул, соответствующих локусу SNP. Встречаемость аллелей для SNP в материнской плазме можно получить, к примеру, без ограничения, методом ПЦР в реальном времени, цифровым методом ПЦР и массированным параллельным секвенированием.As outlined in the previous sections, the accuracy of fetal DNA fractional determination and the resolution of a genetic map derived from maternal plasma DNA analysis may depend on the coverage of the loci sought. For example, we have shown that to determine with high accuracy the fractional concentration of fetal DNA without prior information about the mother's genotype, 200 molecules corresponding to the SNP locus should be enough. Allele occurrence for SNPs in maternal plasma can be obtained, for example, without limitation, by real-time PCR, digital PCR, and massive parallel sequencing.

Поскольку при массированном параллельном секвенировании ДНК из материнской плазмы можно одновременно определить встречаемость аллелей для миллионов SNP по всему геному, то это идеальная платформа для анализа всего генома по различным локусам. Основной формат массированного параллельного секвенирования позволяет охватить различные участки генома с аналогичной полнотой. Однако для того, чтобы просеквенировать определенный участок с высокой полнотой секвенирования методом случайного массированного параллельного секвенирования, нужно в такой же степени просеквенировать и остальные части генома (не предназначенные для анализа). Так что этот подход может оказаться дорогостоящим. Для улучшения рентабельности подхода массированного параллельного секвенирования можно подвергнуть обогащению искомый участок перед проведением секвенирования. Прицельное секвенирование может проводиться при помощи захвата в растворимой фазе (Gnirke A et al. Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencing. Nat Biotechnol 2009, 27: 182-9), захвата на микроматрице (например, на платформе NimbleGen) или прицельной амплификации (Tewhey R et al. Microdroplet-based PCR enrichment for large-scale targeted sequencing. Nat Biotechnol 2009, 27: 1025-31).Because massive parallel sequencing of DNA from maternal plasma can simultaneously determine the allele occurrence for millions of SNPs throughout the genome, it is an ideal platform for whole genome analysis at multiple loci. The main format of massively parallel sequencing makes it possible to cover different parts of the genome with similar completeness. However, in order to sequence a specific region with high sequencing completeness by random massive parallel sequencing, the rest of the genome (not intended for analysis) must be sequenced to the same extent. So this approach can be costly. To improve the cost-effectiveness of the massively parallel sequencing approach, it is possible to enrich the region of interest prior to sequencing. Targeted sequencing can be performed using soluble phase capture (Gnirke A et al. Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencing. Nat Biotechnol 2009, 27: 182-9), microarray capture (e.g., on the NimbleGen platform ) or targeted amplification (Tewhey R et al. Microdroplet-based PCR enrichment for large-scale targeted sequencing. Nat Biotechnol 2009, 27: 1025-31).

Прицельное секвенирование сначала применялось для генетических вариаций в популяции, например, при исследовании генетической ассоциации. Поэтому его текущее применение в исследованиях по геномике направлено на решение качественных задач (например, генотипирование или выявление мутаций). Однако применение прицельного секвенирования ДНК из материнской плазмы для неинвазивнойTargeted sequencing was first applied to genetic variation within a population, such as in the study of genetic association. Therefore, its current application in genomics research is aimed at solving qualitative problems (for example, genotyping or mutation detection). However, the use of targeted DNA sequencing from maternal plasma for non-invasive

- 24 040939 пренатальной диагностики включает и количественные соображения, осуществимость которых остается неясной. Например, применение прицельного секвенирования может вносить количественные ошибки при выявлении ДНК плода и матери в материнской плазме. Кроме того, в предшествующих работах было показано, что ДНК плода короче, чем ДНК матери (Chan КСА et al. Size distributions of maternal and fetal DNA in maternal plasma. Clin Chem 2004, 50: 88-92). Такая разница в размерах также может вносить количественные ошибки или различия в эффективности при захвате ДНК плода и матери в материнской плазме. К тому же нет уверенности в том, с какой эффективностью могут захватываться такие фрагментированные молекулы ДНК. В нижеследующем описании мы покажем, что прицельное секвенирование может осуществляться посредством обогащения мишени с последующим массированным параллельным секвенированием. Мы также покажем, что обогащение мишени является эффективным способом оценки фракционной концентрации ДНК плода по сравнению с секвенированием целого генома.- 24 040939 prenatal diagnosis also includes quantitative considerations, the feasibility of which remains unclear. For example, the use of targeted sequencing can introduce quantitative errors in the detection of fetal and maternal DNA in maternal plasma. In addition, previous work has shown that fetal DNA is shorter than maternal DNA (Chan KCA et al. Size distributions of maternal and fetal DNA in maternal plasma. Clin Chem 2004, 50: 88-92). This size difference can also introduce quantitative errors or differences in efficiency in capturing fetal and maternal DNA in maternal plasma. In addition, there is no certainty with what efficiency such fragmented DNA molecules can be captured. In the following description, we will show that targeted sequencing can be performed by target enrichment followed by massive parallel sequencing. We will also show that target enrichment is an efficient way to assess the fractional concentration of fetal DNA compared to whole genome sequencing.

А. Определение фракционной концентрации с обогащением мишениA. Fractional Concentration Determination with Target Enrichment

1. Материалы и методы1. Materials and methods

Были привлечены 4 беременные женщины (М6011, М6028, М6029 и М6043) с единственными плодами женского пола. Образцы периферической крови матерей собирали в пробирки с ЭДТА перед избирательным кесаревым сечением в третьем триместре, а образцы плаценты брали после избирательного кесарева сечения. После центрифугирования из клеток периферической крови экстрагировали ДНК с помощью набора Blood Mini Kit (Qiagen). ДНК из 2,4 мл плазмы экстрагировали с помощью набора DSP DNA Blood Mini Kit (Qiagen). Геномную ДНК матери экстрагировали из лейкоцитной пленки, а геномную ДНК плода экстрагировали из ткани плаценты. В этом примере образцы брали в третьем триместре только для иллюстрации. Равным образом можно использовать образцы из первого или второго триместра.4 pregnant women (M6011, M6028, M6029 and M6043) with single female fetuses were recruited. Maternal peripheral blood samples were collected in EDTA tubes before elective caesarean section in the third trimester, and placental samples were taken after elective caesarean section. After centrifugation, DNA was extracted from peripheral blood cells using the Blood Mini Kit (Qiagen). DNA from 2.4 ml of plasma was extracted using the DSP DNA Blood Mini Kit (Qiagen). Maternal genomic DNA was extracted from buffy coat and fetal genomic DNA was extracted from placental tissue. In this example, samples were taken in the third trimester for illustration purposes only. Similarly, samples from the first or second trimester can be used.

Генотипы матери и плода определяли на матрице Affymetrix Genome-Wide Human SNP Array 6.0. В каждом случае 5-30 нг ДНК из плазмы использовали для конструирования библиотеки ДНК с помощью набора Paired-end Sample Preparation kit (Illumina) по методике изготовителя с приготовлением образцов типа Chromatin Immunoprecipitation Sequencing. Лигированную с адаптером ДНК очищали прямо на центрифужных колонках из набора QIAquick PCR Purification kit (Qiagen) без дальнейшего отбора по размерам. Затем лигированную с адаптером ДНК подвергали амплификации за 15 циклов ПЦР с помощью стандартных праймеров, которыми служили PCR Primer РЕ 1.0 и 2.0 фирмы Illumina. Библиотеки ДНК подвергали количественному определению с помощью спектрофотометра NanoDrop ND-1000 (NanoDrop Technologies) и пропускали через анализатор 2100 Bioanalyzer, используя набор DNA 1000 kit (Agilent) для проверки распределения по размерам. По каждому образцу получали 0,6-1 мкг амплифицированной библиотеки ДНК из плазмы со средним размером около 290 п.о. Захватывающую библиотеку получали от Agilent, она охватывала 85% экзонов на хромосоме chrX человека (кат. № 5190-1993). Во всех 4 случаях в данном исследовании по 500 нг амплифицированной библиотеки ДНК из плазмы инкубировали с захватывающими зондами в течение 24 ч при 65°C согласно инструкции производителя. После гибридизации захваченные мишени отбирали путем притягивания гибридов типа биотинилированный зонд/мишень с помощью покрытых стрептавидином магнитных шариков (Dynal DynaMag-2, Invitrogen) и очищали с помощью набора MinElute PCR Purification Kit (Qiagen). Наконец, искомые библиотеки ДНК подвергали обогащению путем ПЦР-амплификации за 12 циклов с помощью праймеров SureSelect GA РЕ фирмы Agilent. Продукты ПЦР очищали с помощью набора QIAquick PCR Purification Kit (Qiagen). После этого библиотеки ДНК, полученные с обогащением мишени или без него, подвергали случайному массированному параллельному секвени-рованию на анализаторе Illumina Genome Analyzer Пх. При секвенировании использовали одну дорожку на стандартной проточной кювете для секвенирования одной библиотеки ДНК.Maternal and fetal genotypes were determined using the Affymetrix Genome-Wide Human SNP Array 6.0. In each case, 5-30 ng of DNA from plasma was used to construct a DNA library using a Paired-end Sample Preparation kit (Illumina) following the manufacturer's protocol with Chromatin Immunoprecipitation Sequencing. DNA ligated to the adapter was purified directly on centrifuge columns from the QIAquick PCR Purification kit (Qiagen) without further size selection. Then, DNA ligated with the adapter was subjected to amplification for 15 cycles of PCR using standard primers, which were PCR Primer PE 1.0 and 2.0 from Illumina. DNA libraries were quantified with a NanoDrop ND-1000 spectrophotometer (NanoDrop Technologies) and passed through a 2100 Bioanalyzer using a DNA 1000 kit (Agilent) to check size distribution. For each sample, 0.6-1 μg of amplified plasma DNA library was obtained with an average size of about 290 bp. The capture library was obtained from Agilent and spanned 85% of the exons on the human chrX chromosome (Cat. No. 5190-1993). In all 4 cases in this study, 500 ng of the amplified plasma DNA library were incubated with capture probes for 24 h at 65° C. according to the manufacturer's instructions. After hybridization, captured targets were selected by attracting biotinylated probe/target hybrids with streptavidin-coated magnetic beads (Dynal DynaMag-2, Invitrogen) and purified using the MinElute PCR Purification Kit (Qiagen). Finally, DNA libraries of interest were enriched by PCR amplification for 12 cycles using Agilent's SureSelect GA PE primers. PCR products were purified using the QIAquick PCR Purification Kit (Qiagen). After that, DNA libraries obtained with or without target enrichment were subjected to random massive parallel sequencing on the Illumina Genome Analyzer Px. Sequencing used one lane on a standard flow cell to sequence one DNA library.

2. Фракционная концентрация ДНК плода без обогащения мишени2. Fractional concentration of fetal DNA without target enrichment

Фракционная концентрация ДНК плода может быть рассчитана на основе встречаемости аллелей информативных SNP (т.е. SNPs, по которым мать гомозиготна, а отец гетерозиготен). Из нижеприведенной таблицы видно, что для 4 случаев по всему геному идентифицировано 120 184, ПО 730, 107 362 и ПО 321 информативных SNP, тогда как на искомый участок хромосомы X приходится 63, 61, 69 и 65 (в таком же порядке перечисления, соответственно). Без обогащения мишени фракционные концентрации ДНК плода составили 33,4, 31,3, 29,2 и 34,4%, исходя из данных по всем информативным SNP в геноме.The fractional concentration of fetal DNA can be calculated based on the occurrence of informative SNP alleles (i.e., SNPs for which the mother is homozygous and the father is heterozygous). The table below shows that for 4 cases, 120 184, LO 730, 107 362 and LO 321 informative SNPs were identified throughout the genome, while 63, 61, 69 and 65 (in the same order of listing, respectively) fall on the desired region of the X chromosome. ). Without target enrichment, fetal DNA fractional concentrations were 33.4%, 31.3%, 29.2%, and 34.4% based on all informative SNPs in the genome.

Образец Sample Обогащение мишени Target enrichment Информативные SNP по всему геному Informative SNPs throughout the genome Совместные аллели Shared alleles Специфичные для плода аллели Fetal-specific alleles Фракционная конц. ДНК плода Fractional conc. Fetal DNA М6011 M6011 нет No 120 184 120 184 15 309 15 309 3 064 3064 33,4% 33.4% М6028 M6028 нет No ПО 730 software 730 16 778 16 778 3 114 3 114 31,3% 31.3% М6029 M6029 нет No 107 362 107 362 19 889 19 889 3 404 3404 29,2% 29.2% М6043 M6043 нет No ПО 321 software 321 21 070 21 070 4 369 4 369 34,4% 34.4%

3. Сравнение образцов с обогащением мишени и без него3. Comparison of samples with and without target enrichment

В некоторых воплощениях полнота охвата последовательности представлена средним числом раз, когда каждое основание было просеквенировано на определенном участке. В этом воплощении полнотаIn some embodiments, sequence completeness is represented by the average number of times each base has been sequenced in a particular region. In this incarnation, the fullness

-25 040939 охвата последовательности рассчитывается делением общего числа просеквенированных оснований на искомом участке на длину искомого участка (3,05 Mb). Для участков, охватываемых набором для обогащения, средний охват последовательности составил 0,19 раз для необогащенных образцов и 54,9 раза для обогащенных образцов, что означает в среднем 289-кратное обогащение. При такой полноте секвенирования на искомом участке перед обогащением мишени выявлялось только 4,0% специфичных для плода аллелей (см. таблицу внизу). Для сравнения, после обогащения мишени выявлялось 95,8% из них. Следовательно, обогащение мишени сильно повышает показатель выявления специфичных для плода аллелей на заданном участке.-25 040939 Sequence coverage is calculated by dividing the total number of sequenced bases in the region of interest by the length of the region of interest (3.05 Mb). For the sites covered by the enrichment kit, the average sequence coverage was 0.19 times for the unenriched samples and 54.9 times for the enriched samples, which means an average of 289 times enrichment. At this completeness of sequencing, only 4.0% of fetal-specific alleles were detected in the target region before enrichment of the target (see table below). For comparison, after enrichment of the target, 95.8% of them were detected. Therefore, enrichment of the target greatly increases the rate of detection of fetal-specific alleles at a given site.

После этого мы сравнили фракционные концентрации ДНК плода на основе встречаемости всех информативных SNP на заданном участке по каждому образцу, с обогащением и без него. Без обогащения мишени число специфичных для плода аллелей составило от 0 до 6 для четырех образцов (см. таблицу внизу). Вследствие низкого охвата последовательности неадекватный отбор молекул ДНК плода будет мешать точному определению фракционной концентрации ДНК плода. При обогащении мишени на заданном участке наблюдалось гораздо большее число специфичных для плода аллелей (511-776) и совместных аллелей (2570-3922) (см. таблицу внизу). Содержание ДНК плода составило 35,4, 33,2, 26,1 и 33,0%, что согласуется с содержанием ДНК плода, установленным по данным из всего генома в необогащенных образцах (см. таблицу внизу). Эти результаты означают, что на заданном участке молекулы ДНК матери и плода подвергались обогащению в равной степени,____________________________After that, we compared the fractional concentrations of fetal DNA based on the occurrence of all informative SNPs at a given site for each sample, with and without enrichment. Without target enrichment, the number of fetal-specific alleles ranged from 0 to 6 for four samples (see table below). Due to low sequence coverage, inadequate selection of fetal DNA molecules will interfere with accurate determination of the fractional concentration of fetal DNA. When the target was enriched at a given site, a much higher number of fetal-specific alleles (511-776) and co-alleles (2570-3922) were observed (see table below). The fetal DNA content was 35.4, 33.2, 26.1 and 33.0%, which is consistent with the fetal DNA content found from whole genome data in unenriched samples (see table below). These results mean that at a given site, the DNA molecules of the mother and fetus were enriched to the same extent, ____________________________

Образец Sample Обогащение мишени Target enrichment Число информативных SNP на участке Number of informative SNPs per site Выявлено специф. для плода аллелей Identified spec. for fetal alleles Процент специф. для плода аллелей Percentage spec. for fetal alleles Число совместных аллелей Number of joint alleles Число специф. для плода аллелей Number of spec. for fetal alleles Фракц. КОНЦ. ДНК плода Fractional CONC. Fetal DNA М6011 M6011 нет No 63 63 6 6 9,5% 9.5% 13 13 6 6 63,2% 63.2% М6028 M6028 нет No 61 61 2 2 3,3% 3.3% 6 6 2 2 50,0% 50.0% М6029 M6029 нет No 69 69 2 2 2,9% 2.9% 11 eleven 2 2 30,8% 30.8% М6043 M6043 нет No 65 65 0 0 0,0% 0.0% 15 15 0 0 0,00% 0.00% М6011 M6011 да Yes 63 63 60 60 95,2% 95.2% 3072 3072 661 661 35,4% 35.4% М6028 M6028 да Yes 61 61 60 60 98,4% 98.4% 2570 2570 511 511 33,2% 33.2% М6029 M6029 да Yes 69 69 66 66 95,7% 95.7% 3835 3835 575 575 26,1% 26.1% М6043 M6043 да Yes 65 65 61 61 93,9% 93.9% 3922 3922 776 776 33,0% 33.0%

В. Определение генома плода с обогащением мишениB. Determination of the fetal genome with target enrichment

Одним из применений метода RHDO является неинвазивная пренатальная диагностика наследуемых по материнской линии генетических заболеваний. С помощью массированного параллельного секвенирования материнской плазмы без обогащения мишени при анализе RHDO можно правильно определить, какой гаплотип матери был передан плоду, в среднем по 17 SNPs, если полнота секвенирования ДНК материнской плазмы составляет примерно 65-кратный охват генома человека. Для улучшения рентабельности этого подхода можно избирательно направить секвенирование на определенные участки генома, а затем применить анализ RHDO к данным по секвенированию. В примера мы проверили эту концепцию при прицельном секвенировании и анализе RHDO хромосомы X. Однако прицельное секвенирование и анализ RHDO может применяться ко всем хромосомам, например, аутосомам. В одном воплощении анализ RHDO, как описано выше, может применяться для прицельных воплощений.One of the applications of the RHDO method is the non-invasive prenatal diagnosis of maternally inherited genetic diseases. Using massive parallel maternal plasma sequencing without target enrichment, RHDO analysis can correctly determine which maternal haplotype was transferred to the fetus, on average, 17 SNPs, if the completeness of maternal plasma DNA sequencing is approximately 65-fold coverage of the human genome. To improve the cost-effectiveness of this approach, one can selectively target sequencing to specific regions of the genome and then apply RHDO analysis to the sequencing data. In an example, we tested this concept with targeted sequencing and RHDO analysis of chromosome X. However, targeted sequencing and RHDO analysis can be applied to all chromosomes, such as autosomes. In one embodiment, the RHDO assay as described above may be used for targeted embodiments.

Было привлечено 5 беременных женщин (PW226, PW263, PW316, PW370 и PW421) с единственными плодами мужского пола. Образцы периферической крови матерей собирали в пробирки с ЭДТА перед взятием образца хориальных ворсин (CVS) в первом триместре. После центрифугирования из клеток периферической крови экстрагировали ДНК с помощью набора Blood Mini Kit (Qiagen). ДНК из 3,2 мл плазмы экстрагировали с помощью набора DSP DNA Blood Mini Kit (Qiagen). Геномную ДНК матери экстрагировали из лейкоцитной пленки, а геномную ДНК плода экстрагировали из хориальных ворсин. Образцы готовили и анализировали, как описано выше. Затем каждый образец секвенировали случайным образом, используя одну дорожку на проточной кювете фирмы Illumina.5 pregnant women (PW226, PW263, PW316, PW370 and PW421) were recruited with single male fetuses. Maternal peripheral blood samples were collected in EDTA tubes prior to first trimester chorionic villus sampling (CVS). After centrifugation, DNA was extracted from peripheral blood cells using the Blood Mini Kit (Qiagen). DNA from 3.2 ml of plasma was extracted using a DSP DNA Blood Mini Kit (Qiagen). Maternal genomic DNA was extracted from buffy coat and fetal genomic DNA was extracted from chorionic villi. Samples were prepared and analyzed as described above. Each sample was then randomly sequenced using one lane on an Illumina flow cell.

В этом примере для выведения материнских гаплотипов для хромосомы X и того, какой гаплотип унаследован от матери, использовали генотип плода вместе с информацией по секвенированию нуклеиновых кислот матери. Для каждого SNP на хромосоме X, по которому мать гетерозиготна (т.е. это информативные SNP), наследуемый плодом аллель определяется как происходящий из материнского гаплотипа 1 (Нар I), тогда как материнский аллель, который не перешел к плоду, определяется как происходящий из материнского гаплотипа 2 (Нар II). В некоторых воплощениях для клинического применения генотип плода может быть неизвестен заранее, а гаплотипы матери можно определить или установить методами, хорошо известными специалистам, а также методами, описанными здесь. При этом хромосома X используется только для иллюстрации. При таком анализе можно использовать и другие хромосомы, например аутосомы.In this example, the fetal genotype was used along with maternal nucleic acid sequencing information to derive maternal haplotypes for chromosome X and which haplotype is inherited from the mother. For each SNP on the X chromosome for which the mother is heterozygous (i.e., these are informative SNPs), the fetal inherited allele is determined to be derived from the maternal haplotype 1 (Hap I), while the maternal allele that is not passed on to the fetus is determined to be derived from maternal haplotype 2 (Har II). In some embodiments for clinical use, the fetal genotype may not be known in advance, and maternal haplotypes may be determined or established by methods well known to those skilled in the art, as well as by the methods described herein. The X chromosome is used for illustration purposes only. Other chromosomes, such as autosomes, can also be used in this analysis.

Во всех 5 случаях, описанных здесь, у них было по одному плоду мужского пола. Поскольку мужской плод наследует только одну хромосому X от матери, но никакой хромосомы X от отца, то перешедшая к плоду материнская хромосома X будет избыточно представлена в материнской плазме. АнализIn all 5 cases described here, they each had one male fetus. Since the male fetus inherits only one X chromosome from the mother, but no X chromosome from the father, the maternal X chromosome that passes to the fetus will be overrepresented in the maternal plasma. Analysis

-26040939-26040939

RHDO проводили от pter до qter хромосомы X. Начиная с SNP, ближайшего к pter хромосомы X, анализом SPRT можно определить, что аллель из Hap I или Hap II статистически значимым образом избыточно представлен в материнской плазме. Если ни один из двух гаплотипов не представлен избыточно статистически значимым образом, то можно сложить встречаемость аллелей по следующему SNP для дальнейшего анализа методом SPRT. Можно объединять дополнительные SNPs для анализа до тех пор, пока в процессе SPRT не будет установлено, что один из гаплотипов избыточно представлен статистически значимым образом. Затем процесс классификации можно начать заново по следующему SNP.RHDO was performed from pter to qter of chromosome X. Starting from the SNP closest to pter of chromosome X, it can be determined by SPRT analysis that an allele from Hap I or Hap II is statistically significantly overrepresented in maternal plasma. If neither of the two haplotypes is represented in an excessively statistically significant manner, then the allele occurrence can be summed for the next SNP for further analysis by the SPRT method. Additional SNPs may be pooled for analysis until the SPRT process determines that one of the haplotypes is overrepresented in a statistically significant manner. The classification process can then be restarted at the next SNP.

На фиг. 38A и B представлены результаты классификации по SPRT для случая PW226 в качестве примера. В этом случае всего было 9 успешных классификаций по SPRT для хромосомы X. При каждой классификации по SPRT аллели из Hap I оказались избыточно представленными в образце материнской плазмы, указывая на то, что плод унаследовал от матери Hap I. Поскольку мы определили Hap I как гаплотип, содержащий аллели, перешедшие к плоду, то результаты всех этих классификаций по SPRT были правильными.In FIG. 38A and B show the SPRT classification results for PW226 as an example. In this case, there were a total of 9 successful SPRT classifications for chromosome X. At each SPRT classification, alleles from Hap I were overrepresented in the maternal plasma sample, indicating that the fetus inherited Hap I from the mother. Since we identified Hap I as a haplotype containing alleles passed on to the fetus, then all of these SPRT classifications were correct.

На фиг. 39 приведены результаты анализа RHDO для этих 5 случаев. Количество успешных классификаций по SPRT составляло от 1 до 9. Все классификации по SPRT были правильными. Более высокая фракционная концентрация ДНК плода связана с большим числом классификаций, потому что аллельный дисбаланс, обусловленный присутствием ДНК плода, легче выявляется при более высокой фракционной концентрации ДНК плода. Поэтому для получения успешной классификации RHDO требуется меньше SNPs. При этом определенные участки хромосомы можно разделить на большее число блоков RHDO. Наши результаты подтверждают, что анализ RHDO может проводиться по данным массированного секвенирования, полученным после обогащения мишени.In FIG. 39 shows the results of the RHDO analysis for these 5 cases. The number of successful SPRT classifications ranged from 1 to 9. All SPRT classifications were correct. Higher fetal DNA fractions are associated with more classifications because allelic imbalances due to the presence of fetal DNA are more readily detected at higher fetal DNA fractions. Therefore, fewer SNPs are required to obtain a successful RHDO classification. At the same time, certain regions of the chromosome can be divided into a larger number of RHDO blocks. Our results confirm that RHDO analysis can be performed on massive sequencing data obtained after target enrichment.

Наши данные также показывают, что прицельный подход является более рентабельным способом проведения анализа RHDO. Без обогащения мишени при секвени-ровании образцов с близкими концентрациями ДНК плода нужно примерно 5 проточных кювет (т.е. 40 дорожек для секвенирования) (фиг. 40), чтобы достичь такой же средней полноты, как у образцов, представленных на фиг. 39. А у нас при обогащении мишени секвенирование всего лишь по одной дорожке дает среднюю полноту секвенирования от 15 до 19 крат для успешной классификации RHDO.Our data also show that the targeted approach is a more cost-effective way to conduct RHDO analysis. Without target enrichment, when sequencing samples with similar concentrations of fetal DNA, approximately 5 flow cells (i.e. 40 sequencing lanes) are needed (Fig. 40) to achieve the same average completeness as the samples shown in Fig. 40. 39. And in our case, when enriching the target, sequencing in just one lane gives an average completeness of sequencing from 15 to 19 times for successful RHDO classification.

С другой стороны, можно достичь еще более многократного охвата секвенирования при сравнительно небольших дополнительных затратах, если использовать обогащение мишени. Более высокий охват секвенирования может существенно уменьшить размер участка генома, который необходим для успешной классификации RHDO, и тем самым улучшить разрешение при анализе.On the other hand, even higher sequencing coverage can be achieved at a relatively small additional cost if target enrichment is used. Higher sequencing coverage can significantly reduce the size of the genome region required for successful RHDO classification, and thereby improve analysis resolution.

Пример 4. Обогащение мишени.Example 4. Enrichment of the target.

С 2004 г. было известно, что циркулирующие молекулы ДНК плода в общем короче, чем ДНК матери в материнской плазме (Chan KCA et al., Clin Chem 2004, 50: 88-92; Li et al., Clin Chem 2004). Однако молекулярная основа этого наблюдения оставалась неизвестной. В настоящем исследовании мы прочитали 3,931x109 отрезков в исследуемом образце плазмы и использовали разбиение в 1 п.о. при биоинформатическом анализе. Размер каждой просеквенированной молекулы ДНК из плазмы выводили из геномных координат концов прочитанных с двух концов отрезков.It has been known since 2004 that circulating fetal DNA molecules are generally shorter than maternal DNA in maternal plasma (Chan KCA et al., Clin Chem 2004, 50: 88-92; Li et al., Clin Chem 2004). However, the molecular basis of this observation remained unknown. In the present study, we read 3.931x109 segments in the studied plasma sample and used a 1 bp split. in bioinformatics analysis. The size of each sequenced DNA molecule from plasma was derived from the genomic coordinates of the ends of the segments read from both ends.

Для этого анализа мы сосредоточились на полиморфизмах по одному нуклеотиду (SNPs), по которым и отец, и мать гомозиготны, но по различным аллелям. По таким SNPs плод является облигатной гетерозиготой. Аллели по каждому SNP, унаследованному плодом от отца, можно использовать в качестве специфичного для плода маркера. Определяли размеры последовательностей плода (используя наследуемые по отцовской линии специфичные для плода аллели) и общих последовательностей для всего генома (фиг. 41) и отдельно для каждой хромосомы (фиг. 42A-C).For this analysis, we focused on single nucleotide polymorphisms (SNPs) for which both father and mother are homozygous, but for different alleles. For such SNPs, the fetus is an obligate heterozygote. Alleles for each SNP inherited from the father by the fetus can be used as a fetal-specific marker. Fetal sequences (using paternally inherited fetal-specific alleles) and total sequences for the entire genome (FIG. 41) and separately for each chromosome (FIGS. 42A-C) were determined.

Как оказалось, наиболее заметным отличием между ДНК плода и матери в материнской плазме было уменьшение пика в 166 п.о. по сравнению с пиком в 143 п.о. (фиг. 41). Самые распространенные общие последовательности (главным образом материнские) имели длину в 166 п.о. Наиболее заметным отличием в распределении по размерам между ДНК плода и общей ДНК было то, что у плода проявлялось уменьшение пика ДНК в 166 п.о. (фиг. 41) и относительная заметность пика в 143 п.о. Последний, видимо, соответствует отщеплению соединительного фрагмента (линкера) в ~20 п.о. из нуклеосомы с образованием ядра нуклеосомы в ~146 п.о. (Lewin B., in Gene IX, Jones and Bartlett, Sudbury, 2008, pp. 757-795).As it turned out, the most noticeable difference between fetal and maternal DNA in maternal plasma was a decrease in the peak at 166 bp. compared to the peak at 143 p. (Fig. 41). The most common common sequences (mainly maternal) were 166 bp long. The most notable difference in size distribution between fetal DNA and total DNA was that the fetus showed a decrease in the DNA peak at 166 bp. (Fig. 41) and the relative prominence of the peak at 143 p. The latter, apparently, corresponds to the cleavage of the connecting fragment (linker) in ~20 bp. from the nucleosome to form the nucleosome nucleus at ~146 bp. (Lewin B., in Gene IX, Jones and Bartlett, Sudbury, 2008, pp. 757-795).

Начиная примерно со 143 п.о. и ниже, в распределении ДНК плода и общей ДНК проявлялась периодичность в 10 п.о., как при расщеплении нуклеосом нуклеазой. Это свидетельствует о том, что фрагменты ДНК в плазме возникают при воздействии апоптозных ферментов. Напротив, такой нуклеосомный профиль не проявлялся при анализе по размерам прочитанных отрезков, соответствующих не связанному с гистонами геному митохондрий (фиг. 41). Эти результаты дают ранее неизвестное молекулярное объяснение известным отличиям по размерам между ДНК плода и матери по хромосоме Y и отдельным полиморфным генетическим маркерам (Chan KCA et al., Clin Chem 2004, 50: 88-92; Li et al., Clin Chem 2004, 50: 1002-1011; US Patent Application 2005/0164241; US Patent Application 2007/0202525) и свидетельствуют о том, что такие отличия по размерам существуют по всему геному. Наиболее вероятное объяснение таких различий состоит в том, что среди циркулирующих молекул ДНК плода содержит- 27 040939 ся больше таких молекул, у которых из нуклеосомы был отщеплен соединительный фрагмент в ~20 п.о.Starting from about 143 p. and below, the distribution of fetal DNA and total DNA showed a periodicity of 10 bp, as in the cleavage of nucleosomes by nuclease. This indicates that DNA fragments in plasma arise under the influence of apoptotic enzymes. On the contrary, such a nucleosomal profile was not manifested when analyzing the size of the read segments corresponding to the non-histone genome of mitochondria (Fig. 41). These results provide a previously unknown molecular explanation for known size differences between fetal and maternal DNA on the Y chromosome and individual polymorphic genetic markers (Chan KCA et al., Clin Chem 2004, 50: 88-92; Li et al., Clin Chem 2004, 50: 1002-1011; US Patent Application 2005/0164241; US Patent Application 2007/0202525) and suggest that such size differences exist throughout the genome. The most probable explanation for these differences is that among the circulating fetal DNA molecules there are more molecules in which a connecting fragment of ~20 bp was cleaved from the nucleosome.

Учитывая эти наблюдения, существует ряд способов, которыми можно провести обогащение образца ДНК плода. В одном воплощении можно использовать реагенты, которые будут предпочтительно связываться с фрагментом линкера. Такие реагенты должны предпочтительно связываться с ДНК матери по сравнению с ДНК плода в материнской плазме. Одним из примеров таких реагентов являются антитела. Одна из мишеней таких антител должна связываться с гистоном H1. Как известно, гистон H1 связывается с линкерным фрагментом. Одно из применений таких антител заключается в обогащении ДНК плода путем отрицательного отбора, т.е. путем иммунопреципитации содержащей линкер ДНК матери в материнской плазме вместе с гистоном H1. Кроме того, известно, что существует целый ряд вариантов H1, причем некоторые из них проявляют тканеспецифичные вариации в экспрессии (Sancho M et al., PLoS Genet 2008, 4: el 000227). Эти варианты можно было бы также использовать для отличения ДНК плода (преимущественно из плаценты) от ДНК матери (преимущественно гемопоэтической) (Lui YYN et al., Clin Chem 2002, 48: 421-427). Например, можно нацелиться на вариант гистона H1, который преимущественно экспрессируется в клетках трофобластов, чтобы проводить избирательный и положительный отбор ДНК плода в материнской плазме. Такая стратегия может применяться и к другим гистоновым белкам, проявляющим тканеспецифичный, особенно специфичный к трофобластам, профиль экспрессии.Given these observations, there are a number of ways in which a fetal DNA sample can be enriched. In one embodiment, reagents can be used that will preferentially bind to the linker moiety. Such reagents should preferentially bind to maternal DNA over fetal DNA in maternal plasma. One example of such reagents are antibodies. One of the targets of such antibodies should bind to histone H1. As is known, histone H1 binds to the linker fragment. One application of such antibodies is to enrich fetal DNA by negative selection, ie. by immunoprecipitation of maternal DNA containing the linker in maternal plasma together with histone H1. In addition, a number of H1 variants are known to exist, some of which exhibit tissue-specific variation in expression (Sancho M et al., PLoS Genet 2008, 4: el 000227). These variants could also be used to distinguish fetal DNA (predominantly from the placenta) from maternal DNA (predominantly hematopoietic) (Lui YYN et al., Clin Chem 2002, 48: 421-427). For example, a H1 histone variant that is predominantly expressed in trophoblast cells can be targeted to selectively and positively select for fetal DNA in maternal plasma. This strategy can also be applied to other histone proteins exhibiting a tissue-specific, especially trophoblast-specific, expression profile.

Учитывая резкий пик в 166 п.о. у ДНК матери, другая возможность обогащения ДНК плода состоит в разработке системы отрицательного отбора фрагментов ДНК длиной в 166±2 п.о. Например, система на основе капиллярного электрофореза или высокоэффективной жидкостной хроматографии позволила бы точное измерение размеров и разделение молекул ДНК. Другим способом отрицательного отбора является проведение его in silico во время биоинформатического анализа данных по секвенированию.Considering the sharp peak at 166 p.p. in maternal DNA, another possibility for fetal DNA enrichment is to develop a negative selection system for 166±2 bp DNA fragments. For example, a system based on capillary electrophoresis or high-performance liquid chromatography would allow precise size measurement and separation of DNA molecules. Another way of negative selection is to perform it in silico during bioinformatics analysis of sequencing data.

Поскольку и другие разновидности ДНК в плазме, например, ДНК опухолей (Vlassov VV et al., Curr Mol Med 2010, 10: 142-165) и ДНК трансплантированных органов (Lo YMD et al., Lancet 1998, 351: 13291330), должны иметь такие же характеристики, как и ДНК плода в материнской плазме, то стратегии, приведенные выше в пунктах (1) и (2), можно использовать и для обогащения этих разновидностей ДНК.Since other types of DNA in plasma, such as tumor DNA (Vlassov VV et al., Curr Mol Med 2010, 10: 142-165) and organ transplant DNA (Lo YMD et al., Lancet 1998, 351: 13291330), should have the same characteristics as fetal DNA in maternal plasma, then the strategies outlined in points (1) and (2) above can be used to enrich these DNA varieties.

В соответствии с одним воплощением предусмотрен способ дифференциального обогащения разновидностей ДНК в плазме или сыворотке человека через воздействие на линкерный фрагмент нуклеосом. В одном воплощении обогащение осуществляется путем удаления одного из следующего: ДНК матери или ДНК из гемопоэтических клеток. В другом воплощении воздействие включает реагент (как-то антитело или белок другого типа), который будет предпочтительно связываться с компонентом белка или нуклеиновой кислоты линкерного фрагмента нуклеосом. В другом воплощении реагент должен избирательно связываться с гистоном H1 или другим белком, связывающимся с линкерным фрагментом нуклеосом. В другом воплощении реагент должен связываться с материнскими или гематологическими вариантами гистона H1 или другого белка, связывающегося с линкерным фрагментом нуклеосом. В одном воплощении удаление ДНК проводится методом иммунопреципитации или связывания на твердой поверхности.In accordance with one embodiment, a method is provided for differential enrichment of DNA species in human plasma or serum through exposure to a nucleosome linker fragment. In one embodiment, enrichment is by removing one of the following: maternal DNA or DNA from hematopoietic cells. In another embodiment, the treatment comprises a reagent (such as an antibody or other type of protein) that will preferentially bind to the protein or nucleic acid component of the nucleosome linker fragment. In another embodiment, the reagent should selectively bind to histone H1 or other protein that binds to the nucleosome linker fragment. In another embodiment, the reagent must bind to maternal or hematologic variants of the H1 histone or other protein that binds to the nucleosome linker fragment. In one embodiment, DNA removal is carried out by immunoprecipitation or solid surface binding.

В соответствии с другим воплощением способ дифференциального обогащения ДНК плода в материнской плазме или сыворотке включает: (a) использование антитела, связывающегося с одним или несколькими компонентами линкерного фрагмента нуклеосом; (b) удаление связавшейся фракции методом иммунопреципитации или захвата на твердой поверхности; и (c) извлечение несвязавшейся фракции, содержащей ДНК плода с повышенной фракционной концентрацией.According to another embodiment, a method for differential enrichment of fetal DNA in maternal plasma or serum comprises: (a) using an antibody that binds to one or more components of a nucleosome linker fragment; (b) removing the bound fraction by immunoprecipitation or solid surface capture; and (c) recovering an unbound fraction containing fetal DNA at an increased fractional concentration.

Любые компоненты или функции программного обеспечения, описанные в данной заявке, могут выполняться в виде системной программы, исполняемой процессором с помощью любого подходящего компьютерного языка, такого, к примеру, как Java, C++ или Perl, с использованием, к примеру, стандартных или объектно-ориентированных методов. Системная программа может храниться в виде ряда инструкций или команд на считываемом компьютером носителе для хранения и/или передачи, а подходящими носителями являются запоминающие устройства с произвольной выборкой (RAM), постоянные запоминающие устройства (ROM), магнитные носители типа жесткого диска или дискеты, или же такие оптические носители, как компакт-диск (CD) или DVD (универсальный цифровой диск), флэш-память и др. Считываемый компьютером носитель может представлять собой любую комбинацию таких устройств для хранения или передачи данных.Any components or functions of the software described in this application may be executed as a system program executable by a processor using any suitable computer language, such as Java, C++, or Perl, using, for example, standard or object-based oriented methods. A system program may be stored as a series of instructions or instructions on a computer-readable medium for storage and/or transmission, and suitable media are random access memory (RAM), read-only memory (ROM), magnetic media such as a hard disk or floppy disk, or or optical media such as compact disc (CD) or DVD (digital versatile disk), flash memory, etc. Computer-readable media can be any combination of such devices for storing or transmitting data.

Такие программы могут кодироваться и передаваться с помощью сигналов-переносчиков, адаптированных для передачи через проводные, оптические и/или беспроводные сети, соответствующие различным протоколам, в том числе Интернет. При этом считываемый компьютером носитель в соответствии с воплощением настоящего изобретения может быть создан с помощью сигнала передачи данных, кодируемого такой программой. Считываемый компьютером носитель, кодируемый управляющей программой, может помещаться в одной упаковке с совместимым устройством или предоставляться отдельно от других устройств (например, загружаться через Интернет). Любой такой считываемый компьютером носитель может находиться на или в одном компьютерном программном продукте (например, жестком диске или целой компьютерной системе), а может находиться на или в различных компьютерных программных продуктах внутри системы или сети. Компьютерная система может включать монитор, принтер или другой подходящий дисплей для предоставления пользователю любых из приведенныхSuch programs may be encoded and transmitted using carrier signals adapted for transmission over wired, optical, and/or wireless networks in various protocols, including the Internet. Meanwhile, a computer-readable medium according to an embodiment of the present invention can be created with a data transmission signal encoded by such a program. The computer-readable media encoded by the control program may be packaged with a compatible device or provided separately from other devices (for example, downloaded from the Internet). Any such computer-readable media may reside on or within a single computer program product (eg, a hard drive or an entire computer system), or may reside on or within various computer program products within a system or network. The computer system may include a monitor, printer, or other suitable display to provide the user with any of the following

--

Claims (15)

здесь результатов.here are the results. Пример компьютерной системы представлен на фиг. 43. Приведенные на фиг. 43 подсистемы связаны друг с другом через системную шину 4375. Представлены и другие подсистемы, как-то принтер 4374, клавиатура 4378, несъемный жесткий диск 4379, монитор 4376, который подключен к адаптеру дисплея 4382, и др. Периферические и устройства ввода/вывода (I/O), подключенные к контроллеру ввода-вывода 4371, могут соединяться с компьютерной системой любыми известными способами, как-то через последовательный порт 4377. Например, последовательный порт 4377 или внешний интерфейс 4381 может использоваться для соединения самого компьютера с глобальной сетью типа Интернет, устройством ввода с мыши или сканером. Внутреннее соединение через системную шину дает возможность центральному процессору 4373 соединяться с каждой подсистемой и контролировать исполнение инструкций из системной памяти 4372 или несъемного жесткого диска 4379, а также обмен информации между подсистемами. Системная память 4372 и/или несъемный жесткий диск 4379 могут воплощать считываемый компьютером носитель. Любая из приведенных здесь величин может означать вывод данных из одного компонента на другой компонент или же на пользователя.An example of a computer system is shown in Fig. 43. Shown in FIG. 43 subsystems are connected to each other via the 4375 system bus. Other subsystems are provided, such as the 4374 printer, 4378 keyboard, 4379 fixed hard drive, 4376 monitor that is connected to the 4382 display adapter, etc. Peripheral and I/O devices ( I/O) connected to the 4371 I/O controller can be connected to the computer system by any known means, such as through the 4377 serial port. For example, the 4377 serial port or the 4381 external interface can be used to connect the computer itself to a global network such as the Internet , mouse input device, or scanner. An internal connection via the system bus allows the 4373 CPU to communicate with each subsystem and control the execution of instructions from the 4372 system memory or the 4379 fixed hard drive, as well as the exchange of information between the subsystems. The system memory 4372 and/or the non-removable hard drive 4379 may implement a computer-readable medium. Any of the values given here can mean the output of data from one component to another component or to the user. Компьютерная система может включать несколько одинаковых компонентов или подсистем, например, соединенных через внешний интерфейс 4381 или через внутренний интерфейс. В некоторых воплощениях компьютерные системы, подсистемы или машины могут обмениваться информацией через сеть. В таких случаях один компьютер может рассматриваться как клиент, а другой - как сервер, при этом каждый может входить в состав одной и той же компьютерной системы. И клиент, и сервер может включать множественные системы, подсистемы или компоненты.The computer system may include several identical components or subsystems, for example, connected through an external interface 4381 or through an internal interface. In some embodiments, computer systems, subsystems, or machines may communicate over a network. In such cases, one computer may be considered a client and the other a server, and each may be part of the same computer system. Both client and server may include multiple systems, subsystems, or components. Конкретные детали определенных воплощений могут сочетаться любым подходящим образом или отличаться от тех, что представлены и описаны здесь, не отходя от сущности и не выходя за рамки воплощений изобретения.Specific details of certain embodiments may be combined in any suitable manner or differ from those presented and described here without departing from the essence and without going beyond the embodiments of the invention. Вышеприведенное описание типичных воплощений изобретения представлено в целях иллюстрации и описания. Оно не может быть исчерпывающим или ограничивать изобретение в точности описанной формой, причем возможны многие модификации и вариации в свете вышеприведенных положений. Воплощения были выбраны и описаны с тем, чтобы наилучшим образом разъяснить принципы изобретения и его практическое применение и тем самым дать возможность другим специалистам наилучшим образом использовать изобретение в различных воплощениях и с различными модификациями, подходящими для его конкретного предназначения.The foregoing description of exemplary embodiments of the invention has been presented for purposes of illustration and description. It is not meant to be exhaustive or to limit the invention to the exact form described, and many modifications and variations are possible in light of the foregoing. The embodiments have been selected and described in order to best explain the principles of the invention and its practical applications, and thereby enable others skilled in the art to make the best use of the invention in various embodiments and with various modifications suitable for its particular purpose. Все приведенные здесь публикации, патенты и патентные заявки настоящим включены путем ссылки во всей полноте на все случаи.All publications, patents and patent applications cited herein are hereby incorporated by reference in their entirety in all cases. ФОРМУЛА ИЗОБРЕТЕНИЯCLAIM 1. Способ идентификации мутаций de novo в геноме еще не рожденного плода беременной женщины, причем у плода есть отец и мать, являющаяся указанной беременной женщиной, который включает по лучение результатов секвенирования множества молекул нуклеиновых кислот из биологического образца, взятого у беременной женщины, где биологический образец содержит смесь нуклеиновых кислот матери и плода;1. A method for identifying de novo mutations in the genome of an unborn fetus of a pregnant woman, wherein the fetus has a father and a mother who is the specified pregnant woman, which includes obtaining the results of sequencing a plurality of nucleic acid molecules from a biological sample taken from a pregnant woman, where the biological the sample contains a mixture of maternal and fetal nucleic acids; оп ределение локализации каждой из просеквенированных молекул нуклеиновых кислот в геноме человека;determination of the localization of each of the sequenced nucleic acid molecules in the human genome; дл я каждой из по крайней мере части локализаций определение одной или нескольких материнских последовательностей в материнском геноме и одной или нескольких отцовских последовательностей в данной локализации;for each of at least part of the localizations, determining one or more maternal sequences in the maternal genome and one or more paternal sequences in that localization; ид ентификацию компьютерной системой первой последовательности во множестве молекул нуклеиновых кислот, которая отсутствует у выявленных материнских или отцовских последовательностей в первой локализации;identification by the computer system of a first sequence in a plurality of nucleic acid molecules that is absent from the identified maternal or paternal sequences at the first location; оп ределение первой фракционной концентрации первой последовательности из первой локализации в биологическом образце;determining a first fractional concentration of the first sequence from the first location in the biological sample; определение второй фракционной концентрации второй последовательности из второй локализации в биологическом образце, вторая последовательность во второй локализации унаследована плодом от отца, где вторая последовательность присутствует в отцовском геноме во второй локализации, но отсутствует в материнском геноме во второй локализации; и классификацию первой последовательности как мутации de novo, если первая и вторая фракционная концентрация примерно одинаковы.determining the second fractional concentration of the second sequence from the second localization in the biological sample, the second sequence in the second localization is inherited by the fetus from the father, where the second sequence is present in the paternal genome in the second localization, but is absent in the maternal genome in the second localization; and classifying the first sequence as a de novo mutation if the first and second fractional concentrations are approximately the same. 2. Способ по п.1, где секвенирование молекул нуклеиновых кислот представляет собой секвенирование по спаренным концам, которое обеспечивает пару последовательностей, соответствующих обоим концам молекулы нуклеиновой кислоты, и где определение локализации молекул нуклеиновых кислот в геноме человека включает картирование указанных обоих концов в контрольном геноме человека.2. The method of claim 1, wherein the sequencing of the nucleic acid molecules is a paired-end sequencing that provides a pair of sequences corresponding to both ends of the nucleic acid molecule, and wherein determining the location of the nucleic acid molecules in the human genome comprises mapping said both ends to a reference genome person. 3. Способ по п.1, где определение локализации молекулы нуклеиновой кислоты в геноме человека включает картирование молекулы нуклеиновой кислоты в геноме человека, где картирование не требует3. The method of claim 1, wherein determining the location of the nucleic acid molecule in the human genome comprises mapping the nucleic acid molecule to the human genome, where mapping is not required. - 29 040939 точного совпадения последовательностей.- 29 040939 exact sequence match. 4. Способ по п.1, где по крайней мере для одной из локализаций отцовская последовательность определяется из образца от отца.4. The method according to claim 1, where at least one of the locations of the paternal sequence is determined from the sample from the father. 5. Способ по п.1, где по крайней мере для одной из локализаций материнская последовательность определяется из биологического образца.5. The method of claim 1, wherein at least one of the locations, the maternal sequence is determined from a biological sample. 6. Способ по п.1, где идентификация первой последовательности в первой локализации включает сравнение последовательностей молекул нуклеиновых кислот, которые идентифицировали как происходящих из первой локализации, с одной или несколькими материнскими последовательностями и с одной или несколькими отцовскими последовательностями в первой локализации; и идентификацию первой последовательности из последовательностей как не совпадающую ни с одной из одной или нескольких материнских последовательностей и одной или нескольких отцовских последовательностей в первой локализации.6. The method according to claim 1, where the identification of the first sequence in the first localization includes comparing the sequences of nucleic acid molecules, which are identified as originating from the first localization, with one or more maternal sequences and with one or more paternal sequences in the first localization; and identifying the first sequence of the sequences as not matching any of the one or more maternal sequences and one or more paternal sequences at the first location. 7. Способ по п.6, далее содержащий подсчет количества молекул нуклеиновых кислот, демонстрирующих наличие первой последовательности; и выставление требования, что если количество выше определенного количества для первой последовательности, то это считается мутацией de novo.7. The method according to claim 6, further comprising counting the number of nucleic acid molecules demonstrating the presence of the first sequence; and requiring that if the amount is above a certain amount for the first sequence, then it is considered a de novo mutation. 8. Способ по п.1, где определение первой фракционной концентрации включает определение доли молекул нуклеиновых кислот в первой локализации, которые демонстрируют наличие первой последовательности.8. The method of claim 1, wherein determining the first fractional concentration comprises determining the proportion of nucleic acid molecules at the first location that exhibit the first sequence. 9. Способ по п.1, где вторая последовательность находится на хромосоме Y или же представляет собой генетический полиморфизм, или полиморфизм по одному нуклеотиду, или полиморфизм типа вставки-делеции.9. The method of claim 1, wherein the second sequence is on the Y chromosome, or is a genetic polymorphism, or a single nucleotide polymorphism, or an insertion-deletion type polymorphism. 10. Способ по п.1, где мать гомозиготна по первому аллелю во второй локализации и отец гомозиготен по второму аллелю во второй локализации, и второй аллель соответствует второй последовательности.10. The method of claim 1 wherein the mother is homozygous for the first allele at the second location and the father is homozygous for the second allele at the second location and the second allele matches the second sequence. 11. Способ по п.1, далее содержащий определение, что первая и вторая фракционные концентрации примерно одинаковы, посредством подсчета разницы между первой и второй фракционными концентрациями; и сравнение разницы с пороговым значением.11. The method according to claim 1, further comprising determining that the first and second fractional concentrations are approximately the same, by calculating the difference between the first and second fractional concentrations; and comparing the difference with a threshold value. 12. Способ идентификации мутаций de novo в геноме еще не рожденного плода беременной женщины, причем у плода есть отец и мать, являющаяся указанной беременной женщиной, где отец имеет отцовский геном и мать имеет материнский геном, который включает пол учение результатов секвенирования множества молекул нуклеиновых кислот из биологического образца, взятого у беременной женщины, причем биологический образец содержит смесь нуклеиновых кислот матери и плода;12. A method for identifying de novo mutations in the genome of an unborn fetus of a pregnant woman, wherein the fetus has a father and a mother being said pregnant woman, where the father has the paternal genome and the mother has the maternal genome, which includes obtaining sequencing results of multiple nucleic acid molecules from a biological sample taken from a pregnant woman, the biological sample containing a mixture of maternal and fetal nucleic acids; опр еделение локализации каждой из просеквенированных молекул нуклеиновых кислот в геноме человека;determining the localization of each of the sequenced nucleic acid molecules in the human genome; для каждой из по крайней мере части локализаций определение одной или нескольких материнских последовательностей в материнском геноме и одной или нескольких отцовских последовательностей в отцовском геноме в данной локализации;for each of at least part of the localizations, determining one or more maternal sequences in the maternal genome and one or more paternal sequences in the paternal genome at that localization; иде нтификацию компьютерной системой последовательности во множестве молекул нуклеиновых кислот, которая отсутствует у определенных материнских или отцовских последовательностей в первой локализации;identification by the computer system of a sequence in a plurality of nucleic acid molecules that is absent from certain maternal or paternal sequences at the first location; опр еделение первой фракционной концентрации указанной последовательности из первой локализации в биологическом образце;determining a first fractional concentration of said sequence from the first location in the biological sample; определение второй фракционной концентрации нуклеиновых кислот плода из второй локализации в биологическом образце, которые проявляют эпигенетический статус, специфичный для плода, где эпигенетический статус произошедших от плода и произошедших от матери молекул нуклеиновых кислот в биологическом образце отличается во второй локализации; и классификацию указанной последовательности в первой локализации как мутации de novo, если первая и вторая фракционная концентрация примерно одинаковы.determining a second fractional concentration of fetal nucleic acids from a second location in the biological sample that exhibit a fetal-specific epigenetic status, where the epigenetic status of the fetal-derived and maternal-derived nucleic acid molecules in the biological sample is different at the second location; and classifying said sequence at the first location as de novo mutations if the first and second fractional concentrations are approximately the same. 13. Способ по п.12, где по крайней мере для одной из локализаций отцовская последовательность определяется из образца от отца.13. The method of claim 12, wherein for at least one of the locations, the paternal sequence is determined from a sample from the paternal. 14. Способ по п.12, где по крайней мере для одной из локализаций материнская последовательность определяется из биологического образца.14. The method of claim 12, wherein at least one of the locations, the maternal sequence is determined from a biological sample. 15. Способ по п.12, где идентификация указанной последовательности в первой локализации включает сравнение последовательностей молекул нуклеиновых кислот, которые идентифицировали как происходящие из первой локализации с одной или несколькими материнскими последовательностями и с одной или несколькими отцовскими последовательностями в первой локализации; и идентификацию указанной последовательности из последовательностей в первой локализации как15. The method according to claim 12, where the identification of the specified sequence in the first localization includes comparing the sequences of nucleic acid molecules that are identified as originating from the first localization with one or more maternal sequences and with one or more paternal sequences in the first localization; and identifying said sequence from sequences in the first localization as --
EA201991550 2009-11-05 2010-11-05 ANALYSIS OF THE FETUS GENOME FROM A MATERNAL BIOLOGICAL SAMPLE EA040939B1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US61/258,567 2009-11-05
US61/259,075 2009-11-06
US61/381,854 2010-09-10

Publications (1)

Publication Number Publication Date
EA040939B1 true EA040939B1 (en) 2022-08-19

Family

ID=

Similar Documents

Publication Publication Date Title
US20220325344A1 (en) Identifying a de novo fetal mutation from a maternal biological sample
AU2010317019B2 (en) Size-based genomic analysis
AU2013203446B2 (en) Identifying a de novo fetal mutation from a maternal biological sample
EA040939B1 (en) ANALYSIS OF THE FETUS GENOME FROM A MATERNAL BIOLOGICAL SAMPLE
AU2015200462A1 (en) Size-based genomic analysis
EA042606B1 (en) GENOMIC ANALYSIS BASED ON SIZE