JP2014530629A5 - - Google Patents

Download PDF

Info

Publication number
JP2014530629A5
JP2014530629A5 JP2014537440A JP2014537440A JP2014530629A5 JP 2014530629 A5 JP2014530629 A5 JP 2014530629A5 JP 2014537440 A JP2014537440 A JP 2014537440A JP 2014537440 A JP2014537440 A JP 2014537440A JP 2014530629 A5 JP2014530629 A5 JP 2014530629A5
Authority
JP
Japan
Prior art keywords
site
sample
reference sequence
sites
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014537440A
Other languages
Japanese (ja)
Other versions
JP2014530629A (en
Filing date
Publication date
Application filed filed Critical
Priority to JP2014537440A priority Critical patent/JP2014530629A/en
Priority claimed from JP2014537440A external-priority patent/JP2014530629A/en
Publication of JP2014530629A publication Critical patent/JP2014530629A/en
Publication of JP2014530629A5 publication Critical patent/JP2014530629A5/ja
Pending legal-status Critical Current

Links

Images

Description

しかしながら、この種の病気は、染色体レベルの微小変異なので、染色体核型解析方法などの通常の臨床方法(解像度は10M以上)で検出することができない(Malcolm S. Microdeletion and microduplication syndromes. Prenat Diagn. 1996 Dec; 16(13): 1213 - 9)。現在、微細欠失/微細重複症候群に対する診断方法には、主として、高解像度染色体核型解析、FISH(蛍光in situ ハイブリダイゼーション)、Array CGH(比較ゲノムハイブリダイゼーション)、MLPA(Multiplex Ligation-dependent Probe Amplification)及びPCR方法などの方法があり、これらの方法を利用して、染色体微細欠失/微細重複を検出することができる。 However, since this type of disease is a chromosomal micro-mutation, it cannot be detected by conventional clinical methods such as chromosome karyotype analysis (resolution is 10M or more) (Malcolm S. Microdeletion and microduplication syndromes. Prenat Diagn. 1996 Dec; 16 (13): 1213-9). Currently, diagnostic methods for microdeletion / duplication syndrome include mainly high-resolution chromosome karyotype analysis, FISH (fluorescence in situ hybridization), Array CGH (comparative genomic hybridization), MLPA (Multiplex Ligation-dependent Probe Amplification). ) and there are methods such as PCR method, it is possible to use these methods to detect the fine deletion / minute duplication of a chromosome.

本発明は細胞染色体DNA断片コピー数変異(Copy number variation、CNV)を検出する方法に関し、この方法は以下のステップを含む。
a)被検測サンプル及び正常サンプルから得られたゲノムDNA分子をそれぞれ無作為に切断してDNA断片を得て、前記DNA断片の配列決定を行い配列決定のリード(read)を獲得する;
b)ステップaで測定したDNA配列とサンプルの種のゲノム参考配列を対比して測定したDNA配列を参考配列上に定位し、参考配列上に唯一の位置を有するリードのみを選出して解析を行う;
c)参考配列上において、以下の条件に満足するサイトを探す。即ち、正常サンプルの対比結果と比べ、サイト両側にコピー数変異比率は差異があるサイトである。具体の手順は以下のようになる。
i)参考配列上の各々のサイトbに対して、強引にその左右両側部分の窓口にw条正常リードを包含させ、即ちN(xL,b)=N(b,xR)=wを満たし、式中に、N(xL,xR)は窓口(xL,xR)中に入った正常サンプルの対比本数である;
ii)これらの位置において、

Figure 2014530629
に符合するサイトを選別し、Di(xL,xR)=0、b-w<i<b+wに符合するサイトを除去し、検定統計量D(xL,xR)に対して正規分布の両側有意性検定を行うことで、各々サイトのp(|D(xL,xR)|)は得られ、式中に、D(xL,xR)=log(R(xL,x))-log(R(x,xR))、
Figure 2014530629
、また、正常サンプルリードと被検測サンプルリード中唯一に参考配列上に対比したリード本数はそれぞれaN及びaTであり、窓口(xL,xR)中に入った参考配列の唯一対比したリード本数はそれぞれN(xL,xR)及びT(xL,xR)である;
iii)pbkpを設定し、p(|D(xL,xR)|)>pbkpに符合するすべてのサイトを得るまで上記のステップを繰り返し、得られた候補サイト集合BcはBc={b1,b2,...,bN}に満たす;
そのうち、pbkpを設定してよく、例えば対照サンプルデータにより最初の候補サイトが10、100、1000又は10000である時最小のp(|D(xL,xR)|)をpbkpと設定する。以下の方式でpbkpを選択してもよい。正常サンプルを被検測サンプルとして、前記ステップa)〜c)のii)を執行し、すべてのp(|D(xL,xR)|)について偽発見率制御(False discovery rate control、FDR control)で濾過し、濾過したサイト中の最後にFDR閾値を突破するp(|D(xL,xR)|)をpbkpとする。偽発見率制御を行うステップは以下のようになる。
被検定データ集を有意性(P値)の低い方から順に排列し、これらのランク(r)を得る。
上から下に
Figure 2014530629
に満たす最後のサイトkまで検定し、式中に、Pkは第k個位置のP値であり、rkは第k個位置のランクであり、Nは総サイト個数であり、αは有意性レベル、例えば0.01である。k及びその前のすべてのサイトを保留し、その後の偽陽性サイトを除去する。
d)ステップcで得られた参考配列上の候補サイト集合Bc、Bc={b1,b2,...,bN}にある各サイトkの両側に窓口(bk-1,bk-1)及び(bk,bk+1)が存在する。両側窓口の間のコピー数変異比率差異比較的に小さいサイトを除去し、即ち毎回
Figure 2014530629
最大のサイトkを削除し、また区間(bk-1,bk+1)のp値を更新・合併し、hを設定することで、すべてのサイトは
Figure 2014530629
に満たすまで当該ステップを繰り返して、残りのサイトはCNVを探すに必要な要求を満たすサイトであり、即ち染色体コピー数変異が発生するサイトを得る。
そのうち、pmergeは、設定してよく、例えば残りのサイトの規模はもとの1/2、1/10、1/100又は1/1000である時の最大のp(|D(xL,xR)|)をpmergeとして設定する。以下の形態でpmergeを選択してよい。合併した候補サイトの数量を最初サイトの数量の1/2、1/10、1/100又は1/1000にするように、正常サンプルを被検測サンプルとして、上記のステップa)〜d)を執行し、そのうち、最大のp(|D(xL,xR)|)はpmergeとして選ばれる。 The present invention relates to a method for detecting cell chromosomal DNA fragment copy number variation (CNV), which comprises the following steps.
a) genomic DNA molecules obtained from a test sample and a normal sample are randomly cleaved to obtain DNA fragments, and the DNA fragments are sequenced to obtain a sequencing read;
b) Localize the DNA sequence measured by comparing the DNA sequence measured in step a and the genomic reference sequence of the sample seed on the reference sequence, and select and analyze only the reads that have a unique position on the reference sequence. Do;
c) Search for sites that satisfy the following conditions on the reference sequence. That is, compared with the comparison result of the normal sample, the copy number variation ratio is different on both sides of the site. The specific procedure is as follows.
i) for each site b on the reference sequence, forcibly to encompass w conditions normally leads to the window opening of the left and right side portions, i.e. N (x L, b) = N (b, x R) = w Where N (x L , x R ) is the contrast number of normal samples that entered the window (x L , x R );
ii) In these positions:
Figure 2014530629
, Select sites that match D i (x L , x R ) = 0, bw <i <b + w, and normalize for the test statistic D (x L , x R ) By performing the two-sided significance test of the distribution, p (| D (x L , x R ) |) of each site is obtained, and D (x L , x R ) = log (R (x L , x))-log (R (x, x R )),
Figure 2014530629
In addition, the number of leads compared to the reference sequence in the normal sample lead and the test sample lead is a N and a T , respectively, and the reference sequence in the window (x L , x R ) is the only comparison. The number of leads obtained is N (x L , x R ) and T (x L , x R ), respectively;
iii) p bkp is set, and the above steps are repeated until all sites matching p (| D (x L , x R ) |)> p bkp are obtained, and the obtained candidate site set Bc is Bc = { satisfy b 1 , b 2 , ..., b N };
Among them, p bkp may be set, for example, when the first candidate site is 10, 100, 1000 or 10000 by the control sample data, the minimum p (| D (x L , x R ) |) is set as p bkp To do. P bkp may be selected in the following manner. Using a normal sample as a test sample, execute steps ii) through a) to c) above, and perform false discovery rate control (FDR) for all p (| D (x L , x R ) |) control), and p (| D (x L , x R ) |) that breaks the FDR threshold at the end of the filtered site is defined as p bkp . The steps for performing false discovery rate control are as follows.
The test data collection is arranged in descending order of significance (P value) to obtain these ranks (r).
From top to bottom
Figure 2014530629
To the last site k satisfying, where P k is the P value at the kth position, r k is the rank at the kth position, N is the total number of sites, and α is significant Sex level, for example 0.01. Hold k and all previous sites and remove subsequent false positive sites.
d) A window (b k-1 , b k on both sides of each site k in the candidate site set Bc, Bc = {b 1 , b 2 , ..., b N } on the reference sequence obtained in step c -1) and (b k , b k + 1 ) exist. Copy number mutation ratio of the difference between the two sides teller removes the relatively small site, i.e. each time
Figure 2014530629
By deleting the largest site k, updating and merging the p-values in the interval (b k-1 , b k + 1 ) and setting h, all sites
Figure 2014530629
This step is repeated until the above conditions are satisfied, and the remaining sites satisfy the requirements necessary for searching for CNVs, that is, sites where chromosome copy number variation occurs.
Among them, p merge may be set, for example, the maximum p (| D (x L , when the scale of the remaining site is 1/2, 1/10, 1/100 or 1/1000 Set x R ) |) as p merge . You may choose p merge in the following form: Steps a) to d) above with the normal sample as the test sample so that the merged candidate site quantity is 1/2, 1/10, 1/100 or 1/1000 of the original site quantity. The largest p (| D (x L , x R ) |) is chosen as p merge .

本発明の効果
目前の染色体微細欠失/微細重複を検出する常用方法(如高解像度染色体核型解析、FISH、Array CGH及びPCRの方法)と比べ、本発明の優越性は主に以下の点である。
1) 高解像度。本発明は、染色体CNVを解析する精度が100kbに達し、染色体微細欠失/微細重複を効果的に検出することができる。
2) より広いデータ解析に適用し、メモリー設備の利用率を高める。算法を新たに編訳し、データ処理の方法を改善し、元のSegSeqソフトウェアは1〜4×低深度配列決定データ解析のみに適したが、改良したSegSeqは1〜30×異なる配列決定深度のデータ解析に適用することができる。
3) 全ゲノムを覆う。第二世代の配列決定技術に基づき、本発明は全ゲノム範囲に対して染色体CNV解析を行い、既知のプローブを依頼すること及びプローブを設計することなく、新しい染色体異常を発見することができる。
4) ハイスループット。ハイスループット配列決定技術に基づき、本発明はハイスループットで染色体CNV解析を行い、サンプル一個あたりに異なるラベル配列を加えることで、多量のサンプルに対して一括に解析することができる。
5) 低コスト。配列決定技術の不断の発展及び配列決定コストの継続的降下に従い、本発明の染色体CNV解析のコストもますます低下してくる。
Advantages of the present invention The superiority of the present invention is as follows, compared with the conventional method (high resolution chromosome karyotype analysis, FISH, Array CGH and PCR methods) for detecting the current chromosomal microdeletion / duplication. It is.
1) High resolution. In the present invention, the accuracy of analyzing chromosome CNV reaches 100 kb, and it is possible to effectively detect chromosomal microdeletions / microduplications.
2) Apply to wider data analysis and increase the utilization rate of memory equipment. New translation of algorithm, improved data processing method, original SegSeq software is only suitable for 1-4x low depth sequencing data analysis, but improved SegSeq is 1-30x different sequencing depth data It can be applied to analysis.
3) Cover the whole genome. Based on second generation sequencing technology, the present invention can perform chromosomal CNV analysis over the entire genome range and discover new chromosomal abnormalities without requesting known probes and designing probes.
4) High throughput. Based on the high-throughput sequencing technique, the present invention can perform chromosomal CNV analysis at high throughput and add different label sequences to each sample, thereby analyzing a large number of samples at once.
5) Low cost. According continuous drop in constant development and sequencing cost of sequencing technology, the cost of chromosomes CNV analysis of the present invention also come more and more reduced.

本発明において、被検測サンプルに対してCNV解析の断点を探すとは、改良されたSegseqソフトウェア算法を利用して、正常サンプルを陰性対照として、参考ゲノム配列において、被検測サンプルと正常サンプルちの両側コピー数変異比率差異は一定の要求に満たす候補サイト、即ち断点を探すこと指す。前記断点を探すことには二つのステップを含む。即ち、(1)初期化。その目的は、候補点の選出にある。(2)隣接の断片の合併を繰り返す。その目的は、偽陽性率を低下させることにある。 In the present invention, searching for a breakpoint in CNV analysis for a test sample is performed using the improved Segseq software algorithm, using a normal sample as a negative control, and a reference genome sequence as a normal sample. The difference in the copy number variation ratio on both sides of the sample refers to searching for candidate sites that meet certain requirements, that is, break points. Finding the break point involves two steps. (1) Initialization. The purpose is to select candidate points. (2) Repeat the merger of adjacent fragments. Its purpose is to make reduce the false positive rate.

具体的な原理及数学模型は、配列決定で得られたリードはゲノムDNA中の随机断片から由来するものである前提下、対比後一つの区域に入るリード数量はポアソン分布に従うべき。全ゲノム中の対比可能な区域長さをA(A=2.2×109)とし、正常サンプル及び被検測サンプルの参考配列に対比可能なリード本数をそれぞれaN及びaTとし、窓口(xL,xR)中に入ったリード本数をそれぞれN(xL,xR)及びT(xL,xR)とし、窓口大きさL=xR-xL+1、そしてN及びTはそれぞれパラメーターは

Figure 2014530629
及び
Figure 2014530629
であるポアソン分布に従い、かつλT=r×a×λN、a=aT/aNがある。コピー数変異比率は
Figure 2014530629
と定義され、サンプリングが大きいである条件下、R(xL,xR)は対数正規分布に近いである。D(xL,xR)=log(R(xL,x))-log(R(x,xR))、xL<x<xR、と定義する。そして、R(xL,xR)は対数正規分布に近いから、D(xL,xR)は正規分布に従うことにより、両側P-value(p(|D(xL,xR)|>d)を用いてあるサイト両側のコピー数変異比率差異は有意かどうかことを検定することができる。 The specific principle and mathematical model are based on the assumption that the reads obtained by sequencing are derived from random fragments in the genomic DNA, and the number of reads that enter one zone after the comparison should follow the Poisson distribution. The length of comparable area in the whole genome is A (A = 2.2 × 10 9 ), the number of reads that can be compared with the reference sequence of normal sample and test sample is a N and a T , respectively. L, x R) a number of leads entering into the respective N (x L, x R) and T (x L, and x R), window size L = x R -x L +1, and N and T Each parameter is
Figure 2014530629
as well as
Figure 2014530629
According to the Poisson distribution, there are λ T = r × a × λ N and a = a T / a N. Copy number variation ratio is
Figure 2014530629
R (x L , x R ) is close to a lognormal distribution under conditions where sampling is large. D (x L, x R) = log (R (x L, x)) - log (R (x, x R)), x L <x <x R, and defined. Since R (x L , x R ) is close to a lognormal distribution, D (x L , x R ) follows a normal distribution, so that the two-sided P-value (p (| D (x L , x R ) | > d) can be used to test whether the difference in copy number variation ratios on both sides of a site is significant.

断点を探すステップ(1)中の初期化とは、候補点を予選する流れを指す。具体的には、参考配列上の位置bに対し、強引にその左右両側部分の窓口にw条正常リードを包含させ、即ちN(xL,b)=N(b,xR)=wを満たす。これらの位置において、

Figure 2014530629
を満たすものを候補配列に加入し、Di(xL,xR)=0、b-w<i<b+wを満たすものを除去し、候補点に列入しない。適宜なpbkpを設定することで、p(|D(xL,xR)|)>pbkpに符合するすべてのサイトを得るまで上記のステップを繰り返し、適宜な数量の候補点を得る。 The initialization in the step (1) for searching for break points refers to the flow of qualifying candidate points. Specifically, with respect to the position b on the reference sequence, forcibly to encompass w conditions normally leads to the window opening of the left and right side portions, i.e. N (x L, b) = N (b, x R) = w Meet. In these positions,
Figure 2014530629
Those satisfying the condition are added to the candidate sequence, those satisfying D i (x L , x R ) = 0, bw <i <b + w are removed, and the candidate points are not entered. By setting an appropriate p bkp , the above steps are repeated until all sites matching p (| D (x L , x R ) |)> p bkp are obtained to obtain an appropriate number of candidate points.

断点を探すステップ(2)に隣接の断片の合併を繰り返すとは、最尤処理により、その間のコピー数変異比率差異が比較的に小さい隣接の断片を合併させることで、偽陽性率を低下させる。具体的に、ステップ(1)で得られた参考配列上の候補点集合をBc、Bc={b1,b2,...,bN}とし、候補点kの左右両側窓口をそれぞれ(bk-1,bk-1)及び(bk,bk+1)とし、両側窓口の間のコピー数変異比率差異比較的に小さいサイトを除去する。即ち、毎度、

Figure 2014530629
最大のサイトkを削除し、合併区間(bk-1, bk+1)のp値を更新し、pmergeを設定し、すべてのサイトは
Figure 2014530629
に満たすまで当該ステップを繰り返すと、残りのサイトはCNVを探すに必要な要求を満たすサイトである。 Repeated and the merger of the fragment next to the step (2) to find the cross-sectional point, the maximum likelihood process, in between the copy number mutation ratio differences that have to merge the relatively small contiguous pieces, the false positive rate cause deterioration. Specifically, the set of candidate points on the reference sequence obtained in step (1) is Bc, Bc = {b 1 , b 2 , ..., b N }, and the left and right side windows of the candidate point k are respectively ( b k-1, b k -1 ) and (b k, and b k + 1), the copy number mutation ratio of difference between the two sides window removes a relatively small site. That is, every time,
Figure 2014530629
Delete the largest site k, update the p-value of the merged section (b k-1 , b k + 1 ), set pmerge, all sites
Figure 2014530629
If this step is repeated until the condition is satisfied, the remaining sites satisfy the requirements necessary for searching for CNVs.

本発明において、既存のCNVと病気データベースとは、既存のコピー数変異と病気関連情報のデータベースを指す。本発明の一つの形態において、使用されるデータベース値DECIPHER (https://decipher.sanger.ac.uk/syndromes)、該データベースに挙げられた58種の微細欠失/微細重複症候群はいずれも欠失重複断片と病気との関係明確である内容である。 In the present invention, the existing CNV and disease database refer to an existing database of copy number variation and disease related information. In one form of the invention, the database value DECIPHER (https://decipher.sanger.ac.uk/syndromes) used, none of the 58 microdeletion / microduplication syndromes listed in the database is missing. the relationship between the disease and the loss overlapping fragments is the content is clear.

本発明の一つの形態において、絨毛組織に対して染色体CNV解析を行う具体的な方法は、以下のステップを含む。
1、DNA抽出及び配列決定:磁珠法ゲノムDNA抽出キット(例えばTiangen DP329)操作ハンドブックに従って絨毛組織DNAを抽出した後、Illumina/Solexa標準ライブラリ構築工程に従ってライブラリを構築する。この過程中、絨毛組織DNAは超音法で500bp程度に集中したDNA分子に無作為に切断され、両端に配列決定用ジョイントを加え、サンプル一個あたりに異なるラベル配列(index)を加えることで、一回配列決定で得られたデータ中に多数のサンプルのデータを区別することができる。
2、対比及び統計:第二世代の配列決定方法Illumina/Solexaを利用して配列決定(他の配列決定方法、例えばABI/SOLiDを用いて相同又は相似の効果を得る)を行い、サンプル一個あたりに一定大きさの断片のDNA配列、即ちリードを得る。それとNCBIデータベース中の標準ヒトゲノム参考配列とをSOAP対比し、測定されるDNA配列がゲノム相応位置に定位する情報を得る。重複配列のCNV解析への妨害を避けるために、ヒトゲノム参考配列と唯一対比したリード(Unique reads)のみを選択し、後続CNV解析の有效データとし、その数目aTを統計する。
3、データ解析:既知正常サンプルを陰性サンプルとし、SegSeq算法によるCNV解析で、CNV解析に必要な断点を探し、及び被検測サンプルの正常サンプルに対するコピー数変異比率を計算し、一定の検出閾値を設定することで、被検測サンプルの染色体断片微細欠失/微細重複状態を判断し、かつ染色体数字核型図を製作し、及び対応の遺伝子のアノテーションを行う。具体的な過程は以下のようになる。
1)初期化。同一の染色体上に対し、一つの位置bに対し、その左右両側部分の窓口に300条正常リードを含み、即ちN(x L ,b)=N(b,x R )=w=300のように、パラメーターwを設定する。被検測サンプルのリード位置に、

Figure 2014530629
を満たす物を候補配列に加入し、Di(xL,xR)=0、b-w<i<b+wを満たすものを除去する。pbkp関連のパラメーターを1000とし、当該初期化流れに1000個候補点を輸出させる。すべてのp(|D(xL,xR)|)>pbkpまで、上記の除去及び加入候補配列のステップを繰り返し、染色体c上の候補点集合Bc、Bc={b1,b2,...,bN}を輸出する。
2)隣接の断片の合併を繰り返す。初期化して候補点集合をえて、候補点kの左右両側窓口をそれぞれ(bk-1,bk-1)及び(bk,bk+1)とし、pmerge関連のパラメーターを10とし、当該反復分割流れにせいぜい10個偽陽性断片結果を輸出させる。すべての
Figure 2014530629
まで、その間のコピー数変異比率差異比較的に小さい隣接の断片の合併を繰り返す、最終の解析CNVに必要な有效候補点、即ち断点を得る。
3)CNV解析。上記の最終断点を統計し、ある二つの断点の間の窓口を(xL,xR)とし、被検測サンプルの正常サンプルに対するCNV比率
Figure 2014530629
を計算する。前記CNV比率≦0.75及び≧1.25をそれぞれ染色体断片欠失及び重複の検出閾値とし、解析して微細欠失/微細重複結果を得てから染色体数字核型図を製作し、かつ遺伝子のアノテーションを行う。 In one form of the invention, a specific method for performing chromosomal CNV analysis on villus tissue includes the following steps.
1. DNA extraction and sequencing: After extracting chorionic tissue DNA according to the operation handbook of the magnetic bead method genomic DNA extraction kit (eg Tiangen DP329) , the library is constructed according to the Illumina / Solexa standard library construction process. During this process, villous tissue DNA is randomly cleaved into DNA molecules concentrated at about 500 bp by the ultrasonic method, adding sequencing joints at both ends, and adding a different label sequence (index) per sample, Multiple samples of data can be distinguished from the data obtained by single sequencing.
2, contrast and Statistics: second-generation sequencing methods sequenced using Illumina / Solexa performed (other sequencing methods, for example, obtain the effect of homologous or similar be used ABI / SOLiD), one sample A DNA sequence of a fragment of a certain size, that is, a lead is obtained. By comparing it with the standard human genome reference sequence in the NCBI database, information on the localization of the measured DNA sequence at the position corresponding to the genome is obtained. To avoid interference with the CNV analysis of overlapping sequences, the human genome reference sequence only contrasted with lead alone (Unique reads The) is selected, the chromatic效data subsequent CNV analysis, statistically the number eyes a T.
3. Data analysis: Using known normal samples as negative samples, CNV analysis using the SegSeq algorithm to find the breakpoints required for CNV analysis, and calculating the copy number variation ratio of the test sample to the normal sample to detect a certain amount By setting the threshold value, the chromosome fragment microdeletion / microduplication state of the test sample is judged, a chromosome number karyotype is created, and the corresponding gene is annotated. The specific process is as follows.
1) Initialization. For the same above chromosome, for one position b, viewed contains 300 Article normally leads to the window opening of the left and right side portions, i.e. N (x L, b) = N (b, x R) = w = 300 as in, to set the parameter w. At the lead position of the sample to be measured,
Figure 2014530629
Those satisfying the condition are added to the candidate sequence, and those satisfying D i (x L , x R ) = 0 and bw <i <b + w are removed. Let p bkp related parameters be 1000 and export 1000 candidate points to the initialization flow. The above removal and joining candidate sequence steps are repeated until all p (| D (x L , x R ) |)> p bkp , and the candidate point set Bc on chromosome c, Bc = {b 1 , b 2 , ..., b N } is exported.
2) Repeat the merger of adjacent fragments. Initializing to obtain a candidate point set, the left and right sides of the candidate point k are (b k−1 , b k −1) and (b k , b k + 1 ) respectively, the p merge related parameter is set to 10, Export at most 10 false positive fragment results to the repetitive split flow. All
Figure 2014530629
Until, repeated merger of fragments of adjoining difference between copy number mutation ratio is relatively small, to obtain the final Effective candidate points required for analysis of CNV, i.e. the cross-sectional point.
3) CNV analysis. Statistics of the above final breakpoints, and the contact between two breakpoints is (x L , x R ), and the CNV ratio of the test sample to the normal sample
Figure 2014530629
Calculate The CNV ratios ≤ 0.75 and ≥ 1.25 are used as detection thresholds for chromosome fragment deletion and duplication, respectively, and after analysis, a fine deletion / fine duplication result is obtained, a chromosome number karyotype is produced, and gene annotation is performed. .

3.データ解析
1)初期化。SegSeq算法を運行し、一本染色体上の位置bに対して、位置b左右両側部分の窓口に300条正常リードを包含させるように、パラメーターw=300を設定し、即ちN(xL,b)=N(b,xR)=w=300。被検測サンプルのリード位置に、

Figure 2014530629
を満たすものを候補配列に加入し、Di(xL,xR)=0、b-w<i<b+wを満たすものを除去する。pbkp関連のパラメーターを1000とし、当該初期化流れに1000個候補点を出させる。すべてのp(|D(xL,xR)|)>pbkpまで、上記の除去及び加入候補配列のステップを繰り返し、染色体
Figure 2014530629
上の候補点集合Bc、Bc={b1,b2,...,bN}を輸出する。
2) 隣接の断片の合併を繰り返す。初期化して候補点集合を得て、候補点kの左右両側窓口をそれぞれ(bk-1,bk-1)及び(bk,bk+1)とし、pmerge関連のパラメーターを10とし、当該反復合併流れにせいぜい10個偽陽性断片結果を輸出させる。すべての
Figure 2014530629
まで、両側窓口の間のコピー数変異比率差異比較的に小さいサイトを除去し、最終の解析CNVに必要な有效断点を得る。
3) CNV解析。上記の最終断点を統計し、ある二つの断点の間の窓口を(xL,xR)とし、被検測サンプルの正常サンプルに対するCNV比率
Figure 2014530629
を計算する。前記CNV比率≦0.75及び≧1.25をそれぞれ染色体断片欠失及び重複の検出閾値とし、解析して微細欠失/微細重複結果を得てから、染色体数字核型図を製作し、array CGH(The Fetal DNA Chip, http://www.fetalmedicine.hk/en/Fetal_DNA_Chip.asp )と比較する。DECIPHERデータベースにより病気分類を行って遺伝子のアノテーションを行う。
4) CNV解析結果を出して数字核型図を製作する。
陰性対照結果コピー数はいずれも正常であり、3例サンプルのCNV結果及び検出結果検証並び主要遺伝子それぞれは下表2と3に示す。 3. Data analysis 1) Initialization. Runs the SegSeq algorithm, with respect to the position b on one chromosome, so as to encompass 300 Article normally leads to the window opening position b the right and left side portions, and set the parameters w = 300, i.e. N (x L, b) = N (b, x R ) = w = 300. At the lead position of the sample to be measured,
Figure 2014530629
Those satisfying the condition are added to the candidate sequence, and those satisfying D i (x L , x R ) = 0 and bw <i <b + w are removed. Let p bkp- related parameters be 1000, and let 1000 candidate points appear in the initialization flow. Repeat the above removal and joining candidate sequence steps until all p (| D (x L , x R ) |)> p bkp
Figure 2014530629
Export the above candidate point set Bc, Bc = {b 1 , b 2 , ..., b N }.
2) Repeat the merger of adjacent fragments. Initialization is performed to obtain a set of candidate points, and the left and right sides of the candidate point k are (b k-1 , b k -1) and (b k , b k + 1 ), respectively, and the p merge related parameter is set to 10. Export at most 10 false positive fragment results in the recurrent merge process. All
Figure 2014530629
Until the difference in the copy number mutation ratio between the sides teller removes the relatively small sites, obtaining a chromatic效断points required in the final analysis CNV.
3) CNV analysis. Statistics of the above final breakpoints, and the contact between two breakpoints is (x L , x R ), and the CNV ratio of the test sample to the normal sample
Figure 2014530629
Calculate The CNV ratios ≦ 0.75 and ≧ 1.25 are set as detection thresholds for chromosomal fragment deletion and duplication, respectively, and after analyzing and obtaining a fine deletion / fine duplication result, a chromosome number karyotype is produced and array CGH (The Fetal Compare with DNA Chip, http://www.fetalmedicine.hk/en/Fetal_DNA_Chip.asp). Use DECIPHER database to classify diseases and annotate genes.
4) Generate CNV analysis results and create a numerical karyotype.
The negative control result copy numbers are all normal, and the CNV result and detection result verification of 3 samples and the major genes are shown in Tables 2 and 3 below.

本実施例のデータ解析過程中、実施例一と同様に、既知正常サンプルの炎黄ゲノムDNAサンプルを陰性サンプル対照として選択し、被検測サンプルに近いデータ量を取り、標準化してからその有效リード数目aNを統計し、aN=68750810。上記のサンプル4、サンプル5及びサンプル6の有效リード数目aTを統計し、それぞれは44797212、44086450及び45374254である。他のデータ解析の流れ及び関連パラメーターの設定は、いずれも実施例一と同じであり、最後、解析して微細欠失/微細重複結果を得てから、染色体数字核型図を製作して遺伝子のアノテーションを行う。 During data analysis process of the present embodiment, similarly to Embodiment one, the flame yellow genomic DNA sample of known normal samples were selected as negative samples control, it takes the data amount close to Hikenhaka sample, its chromatic效after standardizing to statistics the number of leads first a N, a N = 68750810. The number of effective leads a T of sample 4, sample 5 and sample 6 is statistically calculated as 44797212, 44086450 and 45374254, respectively. The other data analysis flow and related parameter settings are the same as in Example 1. Finally, after analyzing and obtaining the microdeletion / microduplication result, the chromosome number karyotype is created and the gene is Annotate.

本発明の具体的な実施形態はすでに詳細説明されたものの、当業者は公開されたすべての示唆により、その細節を修正及び変更できると理解することができる。これらの変更はいずれも本発明の保護範囲内のものである。本発明の全部範囲は権利要求及びその任何等同物に与えられる。 While specific embodiments of the present invention have been described in detail , those skilled in the art will appreciate that the subsections may be modified and changed in accordance with all published suggestions. Any of these modifications are within the protection scope of the present invention. The full scope of the invention is given to the rights requirement and any such equivalents.

Claims (9)

a)細胞、血液、又は組織由来の被検測サンプル及び正常サンプルから得られたゲノムDNA分子をそれぞれ無作為に切断してDNA断片を得て、前記DNA断片の配列決定を行い配列決定のリードを獲得するステップ、
b)ステップaで測定したDNA配列とサンプルの種のゲノム参考配列を対比して測定したDNA配列を参考配列上に定位し、参考配列上に唯一の位置を有するリードのみを選出して解析を行うステップ、
c)参考配列において以下の条件に満足する断点、即ち被検測サンプルの対比結果と正常サンプルの対比結果を比べ、サイト両側にコピー数変異比率が異なるサイトを探すステップ、具体の手順は以下の通りである:
i)参考配列上の各々サイトbに対して、強引にその左右両側部分のウインドウにw正常リードを包含させ、即ちN(xL,b)=N(b,xR)=wを満たし、式中に、N(xL,xR)は正常サンプルのウインドウ(xL,xR)中にある参考配列の唯一対比したリード本数であり、wは1を超える整数であり、
ii)これらの位置において、
Figure 2014530629
に符合するサイトを選別し、Di(xL,xR)=0、b-w<i<b+wに符合するサイトを除去し、検定統計量D(xL,xR)に対して正規分布の両側有意性検定を行うことで、各々サイトのp(|D(xL,xR)|)は得られ、式中に、D(xL,xR)=log(R(xL,x))-log(R(x,xR))、ここで、x L <x<x R
Figure 2014530629
、また、正常サンプルリードと被検測サンプルリード中唯一に参考配列上に対比したリード本数はそれぞれaN及びaTであり、ウインドウ(xL,xR)中にある参考配列の唯一対比したリード本数はそれぞれN(xL,xR)及びT(xL,xR)であり、
iii)pbkpを設定し、p(|D(xL,xR)|)>pbkpに符合するすべてのサイトを得るまで上記のステップを繰り返し、得られた候補サイト集合はBc、Bc={b1,b2,...,bN}であり、
d)ステップcで得られた参考配列上の候補サイト集合Bc、Bc={b1,b2,...,bN}にある各サイトkの両側にウインドウ(bk-1,bk-1)及び(bk,bk+1)が存在し、両側ウインドウの間に、毎回に
Figure 2014530629
最大のサイトkを前記候補サイト集合Bcから削除し、また区間(bk-1,bk+1)のp値を更新・合併し、pmergeを設定することで、すべてのサイトは
Figure 2014530629
に満たすまで当該ステップを繰り返して染色体コピー数変異が発生する断点を得るステップ、
を含み
前記pbkpは侯補サイトが10、100、1000又は10000である時最小のp(|D(xL,xR)|)であるか、或いは、以下のように選択されるものである:正常サンプルを被検測サンプルとして、前記ステップa)からc)のii)まで執行し、すべてのp(|D(xL,xR)|)について偽発見率制御(FDR)で濾過し、濾過したサイト中の値が最小のp(|D(xL,xR)|)をpbkpとし、その偽発見率制御を行うステップは、被検定データ集合を有意性(P値)の低い方から順に排列し、これらのランク(r)を得て、上から下に
Figure 2014530629
(Pkは第k個位置のP値であり、rkは第k個位置のランクであり、Nは総サイト個数であり、αは有意性レベル、例えば0.01である)に満たす最後のサイトkまで検定し、k及びその前のすべてのサイトを保留し、その後のサイトを除去するステップである染色体コピー数変異の検出方法。
a) Sequential genomic DNA molecules obtained from test samples and normal samples derived from cells, blood, or tissues to obtain DNA fragments, which are then sequenced to read the DNA fragments. Step to win,
b) Localize the DNA sequence measured by comparing the DNA sequence measured in step a and the genomic reference sequence of the sample seed on the reference sequence, and select and analyze only the reads that have a unique position on the reference sequence. The steps to do,
c) A step where the reference sequence satisfies the following conditions in the reference sequence, that is, the comparison result of the sample to be tested and the comparison result of the normal sample are compared, and a site having a different copy number variation ratio is found on both sides of the site. As follows:
i) For each site b on the reference sequence, rammed inclusion of window w pieces correctly read the left and right side portions, satisfies i.e. N (x L, b) = N (b, a x R) = w Where N (x L , x R ) is the only number of reads of the reference sequence in the normal sample window (x L , x R ), w is an integer greater than 1,
ii) In these positions:
Figure 2014530629
, Select sites that match D i (x L , x R ) = 0, bw <i <b + w, and normalize for the test statistic D (x L , x R ) By performing the two-sided significance test of the distribution, p (| D (x L , x R ) |) of each site is obtained, and D (x L , x R ) = log (R (x L , x))-log (R (x, x R )), where x L <x <x R ,
Figure 2014530629
In addition, the number of leads compared to the reference sequence in the normal sample lead and the test sample lead is a N and a T , respectively, and the reference sequence in the window (x L , x R ) is the only comparison. The number of leads is N (x L , x R ) and T (x L , x R ), respectively.
iii) p bkp is set, and the above steps are repeated until all the sites matching p (| D (x L , x R ) |)> p bkp are obtained, and the obtained candidate site sets are B c , B c = {b 1 , b 2 , ..., b N },
d) A window (b k−1 , b) on each side of each site k in the candidate site set B c , B c = {b 1 , b 2 , ..., b N } on the reference sequence obtained in step c. b k -1) and (b k, b k + 1 ) is present, between the side window, the every time
Figure 2014530629
By deleting the largest site k from the candidate site set Bc , updating and merging the p values of the interval (b k−1 , b k + 1 ), and setting p merge , all sites are
Figure 2014530629
Repeating the steps until the point is satisfied to obtain a breakpoint at which chromosomal copy number variation occurs,
The p bkp is the minimum p (| D (x L , x R ) |) when the compensation site is 10, 100, 1000 or 10000, or is selected as follows: Yes: Using normal samples as test samples, execute from step a) to c) ii) above, and filter all p (| D (x L , x R ) |) with false discovery rate control (FDR) Then, p (| D (x L , x R ) |) having the smallest value in the filtered site is defined as p bkp, and the step of controlling the false discovery rate is significant (P value) Arrange in order from the lowest of , get these ranks (r), from top to bottom
Figure 2014530629
(P k is the P value of the k-number position, r k is the rank of the k-number position, N is the total site number, alpha is significance level, for example a is 0.01) after the site to meet the assayed to k, k and suspends all sites prior method for detecting chromosomal copy number mutant is a step of removing the subsequent site.
前記wは100〜1000の整数である請求項1に記載の方法。   The method of claim 1, wherein w is an integer from 100 to 1000. pmergeは、残りのサイト数はもと侯補サイト数の1/2、1/10、1/100又は1/1000である時の最大のp(|D(xL,xR)|)であるか、或いは、以下のように選択されるものであり、即ち、正常サンプルを被検測サンプルとして、合併した候補サイト数を最初サイト数の1/2、1/10、1/100又は1/1000になるように、上記のステップa)〜d)を執行し、最大のp(|D(xL,xR)|)はpmergeとして選ばれる、請求項1又は2に記載の方法。 p merge is the maximum p (| D (x L , x R ) |) when the number of remaining sites is 1/2, 1/10, 1/100 or 1/1000 of the number of compensation sites Or selected as follows: normal sample as test sample, merged candidate site number is 1/2, 1/10, 1/100 of initial site number or The above steps a) to d) are executed so that 1/1000, and the maximum p (| D (x L , x R ) |) is selected as p merge . Method. 染色体コピー数変異が発生したサイトを得た後、
e)ステップdで得られた断点に基づきCNV解析を行い、正常サンプルに対する被検測サンプルのCNV比率は微細欠失検出閾値以下であるサイトを微細欠失サイトとして選択し、正常サンプルに対する被検測サンプルのCNV比率は微細重複検出閾値以上であるサイトを微細重複サイトとして選択するステップ及び、
f)前記微細欠失サイト及び/又は微細重複サイトを既存のCNV及び病気データベースに対照して遺伝子注釈と機能解析を行い、染色体の微細欠失及び/または微細重複症候群病気のタイプを注釈するステップ、
を更に含む請求項1〜3のいずれか一項に記載の方法。
After obtaining the site where the chromosomal copy number variation occurred,
e) Perform CNV analysis based on the break point obtained in step d, select a site where the CNV ratio of the test sample to the normal sample is less than or equal to the fine deletion detection threshold, and select the site for the normal sample. Selecting a site where the CNV ratio of the inspection sample is equal to or greater than the fine overlap detection threshold as a fine overlap site; and
f) Annotating the type of chromosomal microdeletion and / or microduplication syndrome disease by performing genetic annotation and functional analysis of the microdeletion site and / or microduplication site against existing CNV and disease databases ,
The method according to any one of claims 1 to 3, further comprising:
前記微細欠失検出閾値は0.75であり、微細重複検出閾値は1.25である請求項4に記載の方法。   The method according to claim 4, wherein the fine deletion detection threshold is 0.75 and the fine duplication detection threshold is 1.25. サンプルゲノムのDNA分子を無作為に切断するステップは、化学又は物理の断裂方式で行い、前記化学又は物理の断裂方式は酵素切断破壊、霧化、超音又はHydroShear法破壊を含む、請求項1〜のいずれか一項に記載の方法。 The step of randomly cleaving the DNA molecules of the sample genome is performed by a chemical or physical fragmentation method, and the chemical or physical fragmentation method includes enzyme fragmentation destruction, atomization, ultrasonic or HydroShear method destruction. The method according to any one of to 5 . 前記DNA断片配列決定ステップはハイスループット配列決定技術を利用して行ない、前記ハイスループット配列決定技術はIllumina/Solexa(商標)、ABI/SOLiD(登録商標)又はRoche/454(商標)配列決定技術を含む、請求項1〜のいずれか一項に記載の方法。 The DNA fragment sequencing step is performed using high-throughput sequencing technology, which uses Illumina / Solexa , ABI / SOLiD or Roche / 454 sequencing technology. comprising a method according to any one of claims 1-6. 前記DNA断片配列決定ステップに採取される配列決定深度の範囲は1〜30×である、請求項1〜のいずれか一項に記載の方法。 The method according to any one of claims 1 to 5 , wherein the range of the sequencing depth collected in the DNA fragment sequencing step is 1 to 30x. コピー数変異比率値により染色体数字核型図を製作するステップを更に含む、請求項4又は5に記載の方法。   6. The method according to claim 4 or 5, further comprising the step of producing a chromosomal numeral karyotype with copy number variation ratio values.
JP2014537440A 2011-10-28 2011-10-28 Method for detecting chromosomal microdeletions and microduplications Pending JP2014530629A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014537440A JP2014530629A (en) 2011-10-28 2011-10-28 Method for detecting chromosomal microdeletions and microduplications

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014537440A JP2014530629A (en) 2011-10-28 2011-10-28 Method for detecting chromosomal microdeletions and microduplications

Publications (2)

Publication Number Publication Date
JP2014530629A JP2014530629A (en) 2014-11-20
JP2014530629A5 true JP2014530629A5 (en) 2016-04-21

Family

ID=51938962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014537440A Pending JP2014530629A (en) 2011-10-28 2011-10-28 Method for detecting chromosomal microdeletions and microduplications

Country Status (1)

Country Link
JP (1) JP2014530629A (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018209704A1 (en) * 2017-05-19 2018-11-22 深圳华大基因研究院 Sample source detection method, device, and storage medium based on dna sequencing data
CN114220481B (en) * 2021-11-25 2023-09-08 深圳思勤医疗科技有限公司 Method, system and computer readable medium for completing karyotyping of a sample to be tested based on whole genome sequencing
CN114592056A (en) * 2022-04-15 2022-06-07 常州市妇幼保健院 22q11 micro-deletion and/or micro-repetition detection primer group, primer probe composition, kit and application thereof

Similar Documents

Publication Publication Date Title
US11371074B2 (en) Method and system for determining copy number variation
CN104302781B (en) A kind of method and device detecting chromosomal structural abnormality
CN113366122B (en) Free DNA end characterization
KR101817785B1 (en) Novel Method for Analysing Non-Invasive Prenatal Test Results from Various Next Generation Sequencing Platforms
CN109767810B (en) High-throughput sequencing data analysis method and device
CN106951731B (en) A kind of prediction technique and system large fragment insertion or lacked
CN106715711A (en) Method for determining the sequence of a probe and method for detecting genomic structural variation
CN107480470A (en) Known the variation method for detecting and device examined based on Bayes and Poisson distribution
WO2021202424A1 (en) Cancer classification with synthetic spiked-in training samples
US20220336051A1 (en) Method for Determining Relatedness of Genomic Samples Using Partial Sequence Information
CN110648722B (en) Device for evaluating neonatal genetic disease risk
Xie et al. Mitochondrial genome sequence analysis: a custom bioinformatics pipeline substantially improves Affymetrix MitoChip v2. 0 call rate and accuracy
JP2014530629A5 (en)
Salam et al. Next generation diagnostics of heritable connective tissue disorders
CN114067908B (en) Method, device and storage medium for evaluating single-sample homologous recombination defects
CN111028885B (en) Method and device for detecting yak RNA editing site
JP2014530629A (en) Method for detecting chromosomal microdeletions and microduplications
Magi et al. AUDACITY: A comprehensive approach for the detection and classification of Runs of Homozygosity in medical and population genomics
CN113195741A (en) Identification of global sequence features in whole genome sequence data from circulating nucleic acids
KR102287096B1 (en) Method for determining fetal fraction in maternal sample
US20230272477A1 (en) Sample contamination detection of contaminated fragments for cancer classification
WO2022262569A1 (en) Method for distinguishing somatic mutation and germline mutation
WO2024020036A1 (en) Dynamically selecting sequencing subregions for cancer classification
CN115588464A (en) Sex chromosome karyotype estimation method, sex chromosome karyotype estimation tool, computer device, and storage medium
Krantz Likelihood Modelling of DNA SequencingDataCalibration and accuracy assessment