JP2024028758A - 核酸断片間距離情報を用いた染色体異常検出方法 - Google Patents

核酸断片間距離情報を用いた染色体異常検出方法 Download PDF

Info

Publication number
JP2024028758A
JP2024028758A JP2023199582A JP2023199582A JP2024028758A JP 2024028758 A JP2024028758 A JP 2024028758A JP 2023199582 A JP2023199582 A JP 2023199582A JP 2023199582 A JP2023199582 A JP 2023199582A JP 2024028758 A JP2024028758 A JP 2024028758A
Authority
JP
Japan
Prior art keywords
value
nucleic acid
chromosomal abnormality
region
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023199582A
Other languages
English (en)
Inventor
チャンソク キ
Chang-Seok Ki
ウンヘ チョ
Eun Hae Cho
ジュンナム イ
Junnam Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GC Genome Corp
Original Assignee
Green Cross Genome Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200103240A external-priority patent/KR102452413B1/ko
Application filed by Green Cross Genome Corp filed Critical Green Cross Genome Corp
Publication of JP2024028758A publication Critical patent/JP2024028758A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】核酸断片間距離情報を用いた染色体の異常を検出する方法を提供する。【解決手段】生体試料から核酸を抽出して配列情報を取得した後、核酸断片基準値間の距離を計算する方法を用いた染色体の異常検出方法を提供する。本発明に係る染色体異常判定方法は、既存のリード個数(read count)に基づいて染色体量を決定する段階を利用する方式とは違い、整列された核酸断片間の距離概念を用いて分析する方法であり、既存方法ではリード個数が減少すれば正確度が低下するが、本発明の方法ではリード個数が減少しても検出の正確度を上げることができる他、全ての染色体区間ではなく一定区間の核酸断片間の距離を分析しても検出正確度が高いので、有用である。【選択図】図1

Description

本発明は、核酸断片間距離情報を用いて染色体の異常を検出する方法に関し、より具体的には、生体試料から核酸を抽出して配列情報を取得した後、核酸断片基準値間の距離を計算する方法を用いた染色体異常検出方法に関する。
染色体異常(chromosomal abnormality)は、遺伝的欠陥及び腫瘍疾患に関連している。染色体異常は、染色体の欠失又は重複、染色体のうち一部の欠失又は重複、又は染色体内の損傷(break)、転位(translocation)、又は逆位(inversion)を意味することもある。染色体異常は、遺伝的バランス障害の一つであって、胎児死亡又は肉体及び精神状態の深刻な欠陥及び腫瘍疾患を誘発する。例えば、ダウン症候群(Down’s syndrome)は、21番染色体が3本存在(trisomy 21)して誘発される染色体数異常のありふれた形態である。エドワード症候群(Edwards syndrome)(trisomy 18)、パトウ症候群(Patau syndrome)(trisomy 13)、ターナー症候群(Turner syndrome)(XO)、及びクラインフェルター症候群(Klinefelter syndrome)(XXY)も染色体数異常に該当する。また、腫瘍患者からも染色体異常が発見される。例えば、肝癌患者(Liver Adenomas and adenocarcinomas)から4q、11q、22q領域の重複と13q領域の欠失が確認され、膵癌患者からは2p、2q、6p、11q領域の重複と6q、8p、9p、21番染色体領域の欠失が確認された。これらの領域は、腫瘍と関連した腫瘍遺伝子(Oncogene)、癌抑制遺伝子(Tumor suppressor gene)領域と関連付けられている。
染色体異常は、核型検査(Karyotype)、FISH(Fluorescent
In Situ Hybridization)を用いて検出可能である。このような検出法は、時間、努力及び正確度の側面で不利である。また、DNAマイクロアレイを染色体異常検出に用いることができる。特に、ゲノムDNAマイクロアレイシステムは、プローブの作製が容易であり、染色体の拡張された領域の他に染色体のイントロン領域においても染色体異常を検出できるが、染色体内の位置及び機能が確認されたDNA断片を多数作製することは困難である。
近年、次世代シーケンシング技術が染色体数異常分析に用いられている(Park,H.,Kim et al.,Nat Genet 2010,42,400-405.;Kidd,J.M.et al.,Nature 2008,453,56-64)。しかしながら、この技術は、染色体数異常分析のための高いカバレッジ読み(coverage reading)を要求し、CNV測定は、独立した立証(validation)も必要とする。このため、非常に高コストとなり、結果が理解し難いため、その当時、一般の遺伝子検索分析として不適であった。
現在、実時間qPCRが定量的な遺伝子分析用先端技術として用いられているが、これは、広い動力学範囲(Weaver,S.et al,Methods 2010,50,271-276)及び閾値周期(threshold cycle)と初期ターゲット量との間に線形的な相関関係が再現的に観察されるためである(Deepak,S.et
al.,Curr Genomics 2007,8,234-251)。しかし、qPCR分析の敏感度は、複製数の差が区別される程度に十分に高くはない。
一方、胎児染色体異常に対する既存の産前検査項目には、超音波検査、血中標識者検査、羊水検査、絨毛膜検査、経皮臍帯血検査などがある(Mujezinovic F,et al.Obstet Gynecol.2007,110(3):687-94.)。このうち、超音波検査と血中標識者検査は選別検査に、羊水染色体検査は確診検査に分類する。非侵襲的方法である超音波検査及び血中標識者検査は、胎児に対する直接的な試料採取をせず、安全な方法であるが、検査の敏感度が80%以下と劣っている(ACOG
Committee on Practice Bulletins.2007)。侵襲的方法である羊水検査、絨毛膜検査、経皮臍帯血検査は、胎児染色体異常を確診できるが、侵襲的医療行為による胎児の消失確率が存在するという短所がある。
1997年にLo等が母体血漿及び血清から、胎児由来遺伝物質のY染色体塩基配列分析に成功し、母体内胎児遺伝物質を産前検査に利用可能になった(Lo YM,et al.Lancet.1997,350(9076):485-7)。母体血液中の胎児遺伝物質は、胎盤再形成過程中に細胞死過程を経た栄養膜細胞の一部分が物質交換機序によって母体血液に入ったものであり、実際には胎盤から由来し、これをcff DNA(cell-free fetal DNA)と定義する。
cff DNAは、早ければ胚移植18日目から、遅くとも37日目には大部分の母体血液から発見される。cff DNAは、300bp以下の短い鎖であり、母体血液中に少量で存在する特徴を有するので、これを胎児染色体異常検出に適用する目的に、次世代塩基配列分析手法(NGS)を用いた大規模並列塩基分析技術が用いられている。大規模並列塩基分析技術を用いた非侵襲的胎児染色体異常検出性能は、染色体によって90~99%以上の検出敏感度を示しているが、偽陽性及び偽陰性の結果が1~10%に及んでおり、これに対する矯正技術が必要な現状である(Gil MM,et al.Ultrasound Obstet Gynecol.2015,45(3):249-66)。
そこで、本発明者らは、上記問題点を解決し、高い敏感度及び正確度の染色体異常検出方法を開発するために鋭意努力した結果、染色体領域に整列される核酸断片(fragments)をグループ化した後、核酸断片基準値間の距離を計算して正常グループと比較した結果、高い敏感度及び正確度で染色体異常を検出できるということを確認し、本発明を完成するに至った。
本発明の目的は、核酸断片間距離情報を用いた染色体の異常を判定する方法を提供することである。
本発明の他の目的は、核酸断片間距離情報を用いて染色体の異常を判定する装置を提供することである。
本発明のさらに他の目的は、前記方法で染色体の異常を判定するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体を提供することである。
前記目的を達成するために、本発明は、生体試料から抽出した核酸断片(fragments)基準値間の距離を計算して染色体異常を検出する方法を提供する。
本発明は、また、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体配列データベースに整列する整列部;及び、選別された核酸断片(fragments)に対して整列された核酸断片の基準値間の距離を測定してFD値(Fragments Distance)を計算し、計算したFD値に基づいて染色体全体領域又は特定遺伝領域別にFDI値(Fragments Distance Index)を計算し、FDI値が基準値範囲に属しない場合に、染色体異常があると判定する染色体異常判定部を含む染色体異常検出装置を提供する。
本発明は、また、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
(A)生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階;
(B)取得した配列情報(reads)に基づいて核酸断片を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
(C)選別された核酸断片(fragments)の基準値間の距離を測定してFD値(Fragments Distance)を計算する段階;及び
(D)前記(C)段階で計算したFD値に基づいて染色体全体領域又は特定遺伝領域別にFDI値(Fragments Distance Index)を計算し、FDI値が基準値又は範囲に属しない場合に、染色体異常があると判定する段階、により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体を提供する。
本発明は、また、(A)生体試料から核酸を抽出して配列情報を取得する段階;(B)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;(C)前記整列された配列情報(reads)に対して、整列されたリード間の距離を測定し、RD値(Read Distance)を計算する段階;及び、(D)前記(C)段階で計算したRD値に基づいて染色体全体領域又は特定遺伝領域別にRDI値(Read Distance Index)を計算し、RDI値が基準値範囲に属しない場合に、染色体異常があると判定する段階、を含む染色体異常検出方法を提供する。
本発明は、また、生体試料から核酸を抽出して配列情報を解読する解読部;解読された配列を標準染色体配列データベースに整列する整列部;及び、選別された配列情報(reads)に対して、整列されたリード間の距離を測定してRD値(Read Distance)を計算し、計算したRD値に基づいて染色体全体領域又は特定遺伝領域別にRDI値(Read Distance Index)を計算し、RDI値が基準値範囲に属しない場合に、染色体異常があると判定する染色体異常判定部を含む染色体異常検出装置を提供する。
本発明は、また、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、(A)生体試料から核酸を抽出して配列情報を取得する段階;(B)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;(C)選別された配列情報(reads)に対して、整列されたリード間の距離を測定し、RD値(Read Distance)を計算する段階;及び、(D)前記(C)段階で計算したRD値に基づいて染色体全体領域又は特定遺伝領域別にRDI値(Read Distance Index)を計算し、RDI値が基準値範囲に属しない場合に、染色体異常があると判定する段階、により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体を提供する。
本発明の一実施例に係るFD値に基づく染色体異常を判定するための全体フローチャートである。
シングルエンドシーケンシング(single-end sequencing)方法で生産されたリードから本発明のFD値を計算する方法を示す概念図である。
ペアードエンドシーケンシング(paired-end sequencing)方法で生産されたリードから本発明のFD値を計算する方法を示す概念図である。
本発明においてリード外位置情報を用いてFD値を補正する方法に対する概念図である。
本発明の一実施例においてペアードエンドシーケンシング方法で生産されたリードデータに基づき、リード外位置情報を用いる場合と用いない場合に計算されるFD値の差を測定したグラフである。
本発明の一実施例に係るRD値に基づく染色体異常を判定するための全体フローチャートである。
本発明の一実施例に係るRD値ベースの方法で計算するリード距離(Read Distance)に対する概念を図式化したものである。リード間距離(Reads Distance)計算に用いられるリード(Reads)の場合、整列された方向に関係なく利用してもよく(図7(A))、整列された方向を考慮して利用してもよい。(正の方向:図7(B)、負の方向:図7(C))
本発明の一実施例に係るRD値ベースの方法でX染色体のリード個数(read count)とRepRDの分布を図式化したものであり、両値の関係が線形でなく非線形関係であることを確認した。
本発明の一実施例に係るRD値ベースの方法において染色体別リード個数(read count)とRepRDの分布を図式化したものであり、(A)は正常染色体、(B)は三染色体性(trisomy)21番染色体、(C)は三染色体性(trisomy)18番染色体、及び(D)は三染色体性(trisomy)13番染色体を示すものである。
本発明の一実施例に係るRD値ベースの方法で計算したRDI値と胎児分画(図10のA)、妊娠週数(図10のB)及びG-score値(大韓民国特許第10-1686146号公報、図10のC)の関係をそれぞれ確認した結果である。
本発明の一実施例に係るRD値ベースの方法において正常群と各染色体異数性と確認されたサンプルに対するROC分析の結果である。
本発明の一実施例に係るRD値ベースの方法においてリード数による正確度を確認した結果であり、X軸はリードの数であり、Y軸はAUCを意味する。
本発明の一実施例に係るRD値ベースの方法とリードの数及び染色体異常との関連度を確認した結果である。
本発明の一実施例に係るRD値ベースの方法とマイクロアレイ分析結果を比較した結果である。
本発明の一実施例に係るRD値ベースの方法において正常人と21番染色体異数性サンプルのRepRDを中央値の逆数に設定したRDI値分布を確認した結果である。
本発明の一実施例に係るRD値ベースの方法において正常人と21番染色体異数性サンプルのRepRDを平均値に設定したRDI値分布を確認した結果である。
本発明の一実施例に係るRD値ベースの方法において正常人と21番染色体異数性サンプルのRepRDを平均値の逆数に設定したRDI値分布を確認した結果である。
特に断りのない限り、本明細書で使われる全ての技術的及び科学的用語は、本発明の属する技術の分野における熟練した専門家によって通常理解されるのと同じ意味を有する。一般に、本明細書における命名法及び以下に記述する実験方法は、本技術分野でよく知られており、通常使われるものである。
本発明では、サンプルから取得した配列情報(read)データを参照遺伝体に整列し、整列された核酸断片(fragments)をグループ化した後、核酸断片基準値間の距離を計算することにより、正常人集団と実験対象者の分析しようとする染色体における代表値を比較して染色体異常を検出する場合に、高い敏感度及び正確度で染色体異常を検出できるということを確認しようとした。
本発明に係る染色体異常検出方法は、異数性などの胎児の染色体異常の他、腫瘍の検出、すなわち腫瘍の診断又は予後の予測にも用いることができる。
すなわち、本発明の一実施例では、血液から抽出したDNAをシーケンシングした後、参照染色体に整列した後、核酸断片を全体グループ、正方向グループ及び逆方向グループにグループ化した後、各グループ別に核酸断片基準値間の距離(fragment distance,FD)を計算し、各遺伝領域当たりの核酸断片基準値間距離の代表値(RepFD)を導出した後、正規化要素を用いてRepFD比率(RepFD ratio)を計算し、正常人参照集団におけるRepFD比率と比較してグループ別FDI(Fragment Distance Index)値を導出し、全てのグループ別FDI値が基準値を下回る或いは上回る場合に、実験対象者の染色体異常があると決定する方法を開発した(図1)。
したがって、本発明は、一観点において、生体試料から抽出した核酸断片(fragments)基準値間の距離を計算して染色体異常を検出する方法に関する。
本発明において、前記核酸断片は、生体試料から抽出した核酸の断片であればいずれも使用可能であるが、好ましくは、細胞遊離核酸又は細胞内核酸の断片であり得るが、これに限定されるものではない。
本発明において、前記核酸断片は、直接に配列分析する、次世代塩基配列分析によって配列分析する、又は非特異的全長遺伝体増幅(non-specific whole genome amplification)によって配列分析して得たものであることを特徴とし得る。
本発明において、前記核酸断片を直接配列分析する方法は、既存公知のいかなる技術も用いることができる。
本発明において、非特異的全長遺伝体増幅によって配列分析する方法は、ランダムプライマーを用いて核酸を増幅した後、配列分析を行うあらゆる方法を意味する。
本発明において、次世代塩基配列分析による配列分析を用いて核酸断片基準値間の距離を計算し、これに基づいて染色体異常の有無を判定する方法は、
(A)生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階;
(B)取得した配列情報(reads)に基づいて標準染色体配列データベース(reference genome database)から核酸断片の位置を確認する段階;
(C)前記配列情報(reads)を全体配列、正方向配列及び逆方向配列にグループ化する段階;
(D)前記グループ化された配列情報を用いて、各核酸断片の基準値を定義し、基準値間の距離を測定して、各グループ別FD値(Fragments Distance)を計算する段階;及び
(E)前記(D)段階で計算した各グループ別FD値に基づいて染色体全体領域又は特定領域別にそれぞれのFDI値(Fragments Distance Index)を計算し、それぞれのFDI値がいずれも基準値範囲に属しない場合に、染色体異常があると判定する段階;
を含む方法で行うことを特徴とし得るが、これに限定されるものではない。
本発明において、用語“染色体異常”は、染色体に発生する様々な変異を意味するが、大きく、数異常、構造異常、微細欠失、及び染色体不安定性などに区分できる。
染色体の数異常は、染色体の個数に異常が発生する場合であり、例えば、ダウン症候群(Down Syndrome,21番目染色体が1個さらに多くて全体染色体の数が47個)、ターナー症候群(Turner Syndrome、単一Xを有し、染色体の数が45個)、及びクラインフェルター症候群(Klinefelter Syndrome,XXYY、XXXY、XXXXYなどの染色体数を有する)のように、全体染色体の個数である23対46個から異常が発生するあらゆる場合を含むことができる。
染色体の構造異常は、欠失、重複、逆位、転座、融合(Fusion)、マイクロサテライト不安定性(MSI-H)などの、染色体の個数には変化がないが、染色体の構造に変化が発生するあらゆる場合を意味する。例えば、5番染色体の一部欠失(猫泣き症候群)、7番染色体の一部欠失(ウィリアムズ症候群)、12番染色体の一部重複(ウォルフヒルシュホーン症候群)などが挙げられる。腫瘍患者から発見される染色体構造的異常には、9番染色体と22番染色体間の転座(慢性骨髄白血病)、4q、11q、22q領域の重複及び13q領域の欠失(肝癌)、2p、2q、6p、11q領域の重複及び6q、8p、9p、21番染色体領域の欠失(膵癌)、TMPRSS2-TRG遺伝子融合(前立腺癌)、染色体全般にわたるマイクロサテライト不安定性(大腸癌)などが確認された。このような領域は腫瘍と関連した腫瘍遺伝子(oncogene)、腫瘍抑制遺伝子(tumor suppressor gene)領域と関連付いているが、上述の内容に限定されるものではない。
本発明において、
前記(A)段階は、
(A-i)血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びそれらの混合物から核酸を得る段階;
(A-ii)採取された核酸から塩析方法(salting-out method)、カラムクロマトグラフィー方法(column chromatography method)又はビーズ方法(beads method)を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階;
(A-iii)精製された核酸又は酵素的切断、粉砕、水圧切断方法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)又はペアエンドシーケンシング(pair-end sequencing)ライブラリー(library)を作製する段階;
(A-iv)作製されたライブラリーを次世代シークエンサー(next-generation sequencer)に反応させる段階;及び
(A-v)次世代シークエンサーから核酸の配列情報(reads)を取得する段階を含むことを特徴とし得る。
本発明において、前記次世代シークエンサー(next-generation sequencer)は、当業界に公知の任意のシーケンシング方法で用いられてよい。選択方法によって分離された核酸のシーケンシングは、典型的には次世代シーケンシング(NGS)を用いて行われる。次世代シーケンシングは、個々の核酸分子又は高度に類似な方式で個々の核酸分子に対してクローンで拡張されたプロキシのうち一つのヌクレオチド配列を決定する任意のシーケンシング方法を含む(例えば、10個以上の分子が同時にシーケンシングされる。)。一実施形態において、ライブラリー内核酸種の相対的存在比は、シーケンシング実験によって作られたデータからそれの同族配列の相対的発生数を計測することによって推定することができる。次世代シーケンシング方法は当業界に公知されており、例えば、本明細書に援用により組み込まれた文献(Metzker,M.(2010)Nature Biotechnology Reviews 11:31-46)に記載されている。
一実施形態において、次世代シーケンシングは、個々の核酸分子のヌクレオチド配列を決定するために行われる(例えば、ヘリコスバイオサイエンス(Helicos BioSciences)のヘリスコープ遺伝子シーケンシングシステム(HeliScope
Gene Sequencing system)及びパシフィックバイオサイエンスのパックバイオアールエスシステム(PacBio RS system))。他の実施形態において、シーケンシング、例えば、より少ないが、より長いリードを生成する他のシーケンシング方法に比べてシーケンシング単位当たりに配列のより多い塩基を生成する大量並列の短いリードシーケンシング(例えば、カリフォルニア州サンディエゴに所在するイルミナインコポレイテッド(Illumina Inc.)ソレキサシーケンサー(Solexa sequencer))方法は、個々の核酸分子に対してクローンで拡張されたプロキシのヌクレオチド配列を決定する(例えば、カリフォルニア州サンディエゴに所在のイルミナインコポレイテッド(Illumina Inc.)ソレキサシーケンサー(Solexa sequencer);454ライフサイエンス(Life Sciences)(コネチカット州ブランフォードに所在)及びイオントレント(Ion Torrent))。次世代シーケンシングのための他の方法又は機械は、以下に制限されるものではないが、454ライフサイエンス(Life Sciences)(コネチカット州ブランフォードに所在)、アプライドバイオシーステムズ(カリフォルニア州フォスターシティに所在;SOLiDシーケンサー)、ヘリコスバイオサイエンスコポーレーション(マサチューセッツ州カンブリッジに所在)、及びエマルジョン及びマイクロ流動シーケンシング手法ナノ点滴(例えば、ジヌバイオ(GnuBio)点滴)によって提供される。
次世代シーケンシングのためのプラットホームは、以下に制限されるものではないが、ロシュ(Roche)/454のゲノムシーケンサー(Genome Sequencer:GS)FLXシステム、イルミナ(Illumina)/ソレキサ(Solexa)ゲノム分析器(Genome Analyzer:GA)、ライフ(Life)/APGのサポートオリゴ(Support Oligonucleotide Ligation Detection:SOLiD)システム、ポロネーター(Polonator)のG.007システム、ヘリコスバイオサイエンスのヘリスコープ遺伝子シーケンシングシステム(Helicos BioSciences’ HeliScope Gene Sequencing system)及びパシフィックバイオサイエンス(Pacific Biosciences)のパックバイオアールエス(PacBio RS)システム、MGI社のDNBseqを含む。
NGSテクノロジーズは、例えば、鋳型製造、シーケンシング及びイメージング及びデータ分析段階のうち一つ以上を含むことができる。
鋳型製造段階、鋳型製造のための方法は、核酸(例えば、ゲノムDNA又はcDNA)を小さい大きさで無作為に破壊する段階、及びシーケンシング鋳型(例えば、断片鋳型又はメート対鋳型)を作る段階のような段階を含むことができる。空間的に分離された鋳型は、固体表面又は支持体に付着したり又は固定されてよいが、これは、大量のシーケンシング反応が同時に行われるようにする。NGS反応のために使用可能な鋳型の類型は、例えば、単一DNA分子から由来したクローンが増幅された鋳型及び単一DNA分子鋳型を含む。
クローンが増幅された鋳型の製造方法は、例えば、エマルジョンPCR(emulsion PCR:emPCR)及び固体相増幅を含む。
EmPCRは、NGSのための鋳型を製造するために用いることができる。典型的に、核酸断片のライブラリーが作られ、通常のプライミング部位を含有するアダプターは、断片の末端に結紮される。その後、断片は単一鎖に変性され、ビーズによって捕獲される。各ビーズは、単一核酸分子を捕獲する。増幅及びemPCRビーズの豊富化後に、多量の鋳型が付着し得、標準顕微鏡スライド(例えば、ポロネーター(Polonator))上でポリアクリルアミドゲルに固定され、アミノコーティングされたガラス表面(例えば、Life/APG;ポロネーター(Polonator))に化学的に架橋される、又は個々のピコタイタプレート(PicoTiterPlate:PTP)ウェル(例えば、ロシュ(Roche)/454)上に蒸着されるが、このとき、NGS反応が行われ得る。
固体相増幅もまた用いられ、NGSのための鋳型を生成することができる。典型的に、前方及び後方プライマーは、固体支持体に共有的に付着する。増幅された断片の表面密度は、支持体上でプライマー対鋳型の比として定義される。固体相増幅は、数百万個の空間的に分離された鋳型クラスター(例えば、イルミナ/ソレキサ(Illumina/Solexa))を生成できる。鋳型クラスターの末端は、NGS反応のための通常のプライマーに混成化されてよい。
クローンで増幅された鋳型の製造のための他の方法は、例えば、多重置換増幅(Multiple Displacement Amplification:MDA)(Lasken R.S.Curr Opin Microbiol.2007;10(5):510-6)を含む。MDAは、非PCRベースのDNA増幅手法である。反応は、鋳型に対して無作為にヘキサマープライマーをアニーリングする段階、及び一定の温度で高忠実度酵素、典型的にФ29重合酵素によってDNAを合成する段階を伴う。MDAは、より低い誤り頻度で巨大な大きさの生成物を作ることができる。
PCRのような鋳型増幅方法は、標的にNGSプラットホームを結合させ得るか又はゲノムの特異的領域を豊富化させ得る(例えば、エクソン)。代表的な鋳型豊富化方法は、例えば、マイクロ点滴PCR手法(Tewhey R.et al.,Nature Biotech.2009,27:1025-1031)、カスタマイズ設計されたオリゴヌクレオチドマイクロアレイ(例えば、ロシュ(Roche)/ニンブルジェン(NimbleGen)オリゴヌクレオチドマイクロアレイ)及び溶液ベースの混成化方法(例えば、分子逆位プローブ(molecular inversion probe:MIP))(Porreca G.J.et al.,Nature Methods,2007,4:931-936;Krishnakumar S.et al.,Proc.Natl.Acad.Sci.USA,2008,105:9296-9310;Turner E.H.et al.,Nature Methods,2009,6:315-316)及びビオチン化されたRNA捕獲配列(Gnirke A.et al.,Nat.Biotechnol.2009;27(2):182-9)を含む。
単一分子鋳型は、NGS反応のために利用可能な鋳型の他の類型である。空間的に分離された単一分子鋳型は、様々な方法によって固体支持体上に固定されてよい。一接近において、個々のプライマー分子は、固体支持体に共有的に付着する。アダプターは鋳型に添加され、鋳型は、その次に固定されたプライマーに混成化される。他の接近において、単一分子鋳型は、固定されたプライマーから単一鎖の単一分子鋳型をプライミングし延長させることによって固体支持体に共有的に付着する。その後、通常のプライマーは、鋳型に混成化される。さらに他の接近において、単一ポリメラーゼ分子は、プライミングされた鋳型が結合した固体支持体に付着する。
シーケンシング及びイメージング。NGSのための代表的なシーケンシング及びイメージング方法は、以下に制限されるものではないが、サイクリック可逆的終結(cyclic reversible termination:CRT)、結紮によるシーケンシング(sequencing by ligation:SBL)、単一分子添加(パイロシーケンシング(pyrosequencing))及び実時間シーケンシングを含む。
CRTは、ヌクレオチド取り込み、蛍光イメージング及び切断段階を最小限に含むサイクリック方法において可逆ターミネーターを使用する。典型的に、DNAポリメラーゼは、プライマーに鋳型塩基の相補的ヌクレオチドに対して相補的な単一の蛍光で修飾されたヌクレオチドを含める。DNA合成は、単一ヌクレオチドの添加後に終結され、含まれなかったヌクレオチドは洗浄される。含まれた標識ヌクレオチドの同一性を決定するためにイメージングが行われる。その後、切断段階において、ターミネーター/インヒビター及び蛍光染料は除去される。CRT方法を用いる代表的なNGSプラットホームは、以下に制限されるものではないが、全体内部反射蛍光(total internal reflection fluorescence:TIRF)によって検出された4色CRT方法と結合したクローンで増幅された鋳型方法を用いるイルミナ(Illumina)/ソレキサ(Solexa)ゲノム分析器(GA);及びTIRFによって検出された1色CRT方法と結合した単一分子鋳型方法を用いるヘリコスバイオサイエンス(Helicos BioSciences)/ヘリスコープ(HeliScope)を含む。
SBLは、シーケンシングのためにDNAリガーゼ及び1塩基暗号化されたプローブ又は2塩基暗号化されたプローブのいずれかを使用する。
典型的に、蛍光標識されたプローブは、プライミングされた鋳型に隣接した相補的配列に混成化される。DNAリガーゼは、プライマーに染料標識されたプローブを結紮させるために用いられる。非結紮プローブが洗浄された後、結紮されたプローブの同一性を決定するために蛍光イメージングが行われる。蛍光染料は、後続の結紮周期のために5’-PO4基を再生する切断可能なプローブを用いて除去されてよい。代案として、新しいプライマーは、古くなったプライマーが除去された後、鋳型に混成化されてよい。代表的なSBLプラットホームは、以下に制限されるものではないが、ライフ(Life)/APG/SOLiD(支持体オリゴヌクレオチド結紮検出)を含むが、これは、2塩基暗号化されたプローブを使用する。
パイロシーケンシング方法は、他の化学発光酵素でDNAポリメラーゼの活性を検出する段階に基づく。典型的に、当該方法は、1回に1つの塩基対に沿って相補的鎖を合成し、各段階で実際に添加された塩基を検出することによってDNAの単一鎖をシーケンシングさせる。鋳型DNAは固定的であり、A、C、G及びTヌクレオチドの溶液は順次に添加され、反応から除去される。光は、単にヌクレオチド溶液が、鋳型の対をなしていない塩基を補充する時にのみ生成される。化学発光信号を生成する溶液の配列は、鋳型の配列を決定させる。代表的なパイロシーケンシングプラットホームは、以下に制限されるものではないが、PTPウェルに蒸着された1百万~2百万個のビーズによるemPCRによって製造されたDNA鋳型を使用するロシュ(Roche)/454を含む。
実時間シーケンシングは、DNA合成の間に染料標識されたヌクレオチドの連続的取り込みをイメージングする段階を伴う。代表的な実時間シーケンシングプラットホームは、以下に制限されるものではないが、ホスフェート連結されたヌクレオチドが成長するプライマー鎖に含まれる時に配列情報を得るための個々の0モードウェーブガイド(zero-mode waveguide,ZMW)検出器の表面に付着したDNAポリメラーゼ分子を使用するパシフィックバイオサイエンスプラットホーム(Pacific Biosciences);蛍光共鳴エネルギー伝達(fluorescence resonance energy transfer,FRET)によるヌクレオチド取り込み後に、向上した信号を作るために付着した蛍光染料と共に遺伝子操作されたDNAポリメラーゼを使用するライフ(Life)/ビシゲン(VisiGen)プラットホーム;及び、シーケンシング反応で染料クエンチャーヌクレオチドを使用するLI-CORバイオサイエンス(Biosciences)プラットホームを含む。
NGSの他のシーケンシング方法は、以下に制限されるものではないが、ナノポアシーケンシング、混成化によるシーケンシング、ナノトランジスターアレイベースのシーケンシング、ポロニー(polony)シーケンシング、走査型電子トンネルリング顕微鏡(scanning tunneling microscopy,STM)ベースのシーケンシング、及びナノワイヤー分子センサーベースのシーケンシングを含む。
ナノポアシーケンシングは、単一核酸ポリマーから分析され得る高度に密閉した空間を提供するナノ規模ポアを通じて溶液中の核酸分子の電気泳動を伴う。ナノポアシーケンシングの代表的な方法は、例えば、文献[Branton D.et al.,Nat Biotechnol.2008;26(10):1146-53]に記載されている。
混成化によるシーケンシングは、DNAマイクロアレイを使用する非酵素的方法である。典型的に、DNAの単一プールは蛍光で標識され、公知された配列を含有するアレイに混成化される。アレイ上の与えられたスポットから混成化信号はDNA配列を確認することができる。DNA二重鎖においてDNAのうち1本のそれの相補的鎖への結合は、混成体領域が短いか又は具体化したミスマッチ検出タンパク質が存在する時に、単一塩基ミスマッチに対してすら敏感である。混成化によるシーケンシングの代表的な方法は、例えば、文献(Hanna G.J.et al.,J.Clin.Microbiol.2000;38(7):2715-21;及びEdwards J.R.et al.,Mut.Res.2005;573(1-2):3-12)に記載されている。
ポロニーシーケンシングは、ポロニー増幅及び多重単一塩基延長(FISSEQ)を通じてシーケンシングに従うことに基づく。ポロニー増幅は、ポリアクリルアミドフィルム上でインシチュでDNAを増幅させる方法である。代表的なポロニーシーケンシング方法は、例えば、米国特許出願公開第2007/0087362号に記載されている。
炭素ナノチューブ電界効果トランジスター(Carbon NanoTube Field Effect Transistor:CNTFET)のようなナノトランジスターアレイベース装置も、NGSのために用いられてよい。例えば、DNA分子は伸張され、マイクロ作製された電極によってナノチューブにわたって駆動される。DNA分子は、炭素ナノチューブ表面と順次に接触し、DNA分子とナノチューブとの間の電荷伝達に起因して各塩基からの電流流れの差異が生成される。DNAはこれらの差異を記録することによってシーケンシングされる。代表的なナノトランジスターアレイベースシーケンシング方法は、例えば、米国特許公開第2006/0246497号に記載されている。
走査型電子トンネルリング顕微鏡(STM)は、また、NGSのために用いられてよい。STMは、標本のラスター走査(raster scan)を行うピエゾ電子制御プローブを用いてそれの表面のイメージを形成する。STMは、例えば、作動器駆動可撓性ギャップと走査型電子トンネルリング顕微鏡を統合させることによって一貫した電子トンネルリングイメージング及び分光学を作る単一DNA分子の物理的特性をイメージングするために用いられてよい。STMを使用する代表的なシーケンシング方法は、例えば、米国特許出願公開第2007/0194225号に記載されている。
ナノワイヤー分子センサーで構成された分子分析装置もまたNGSのために用いられてよい。このような装置は、DNAのようなナノワイヤー及び核酸分子に配置された窒素性物質の相互作用を検出できる。分子ガイドは相互作用及び後続する検出を許容するために、分子センサー近くの分子をガイドするために配置される。ナノワイヤー分子センサーを用いる代表的なシーケンシング方法は、例えば、米国特許出願公開第2006/0275779号に記載されている。
二重末端のシーケンシング方法がNGSのために用いられてよい。二重末端シーケンシングは、DNAのセンスとアンチセンス鎖の両方をシーケンシングするために、遮断及び未遮断プライマーを使用する。典型的に、これらの方法は、核酸の第1鎖に未遮断プライマーをアニーリングさせる段階;核酸の第2鎖に第2の遮断プライマーをアニーリングさせる段階;ポリマーラゼで第1鎖に沿って核酸を延長させる段階;第1シーケンシングプライマーを終結させる段階;第2プライマーを遮断解除(deblocking)する段階;及び、第2鎖に沿って核酸を延長させる段階を含む。代表的な二重鎖シーケンシング方法は、例えば、米国特許第7,244,567号に記載されている。
データ分析段階。NGSリードが作られた後、それらは公知の基準配列に対して整列されるか又はデノボ組立(de novo assemble)される。
例えば、サンプル(例えば、腫瘍サンプル)から単一ヌクレオチド多形性及び構造的変異体のような遺伝的修飾を確認することは、基準配列(例えば、野生型配列)に対してNGSリードを整列することによって行われてよい。NGSに対する配列整列方法は、例えば、文献(Trapnell C.and Salzberg S.L.Nature Biotech.,2009,27:455-457]に記載されている。
デノボ組立体の例は、例えば、文献(Warren R.et al.,Bioinformatics,2007,23:500-501;Butler J.et al.,Genome Res.,2008,18:810-820;及び、Zerbino D.R.and Birney E.,Genome Res.,2008,18:821-829)に記載されている。
配列整列又は組立(assembly)は、一つ以上のNGSプラットホームからのリードデータを用いて、例えば、ロシュ(Roche)/454及びイルミナ(Illumina)/ソレキサ(Solexa)リードデータを混合して行われてよい。本発明において、前記整列段階は、これに制限されないが、BWAアルゴリズム及びhg19配列を用いて行われてよい。
本発明において、前記(B)段階の核酸断片の位置を確認する段階は、好ましくは、配列整列(Sequence alignment)を通じて行われることを特徴とし、前記配列整列は、コンピュータアルゴリズムであって、ゲノムにおいてリード配列(例えば、次世代シーケンシングからの、例えば、短いリード配列)が殆どリード配列と基準配列間の類似性を評価することによって由来する可能性がある場合から同一性に対して使用されるコンピュータ的方法又は接近を含む。配列整列問題に様々なアルゴリズムが適用されてよい。一部のアルゴリズムは相対的に遅いが、相対的に高い特異性を許容する。これらは、例えば、力動的プログラミングベースアルゴリズムを含む。力動的プログラミングは、それらがより簡単な段階に分けられることによって複雑な問題を解決する方法である。他の接近は、相対的により効率的であるが、典型的に徹底していない。これは、例えば、大量データベース検索のために設計されたヒューリスティク(heuristic)アルゴリズム及び確率的(probabilistic)方法を含む。
典型的に、整列過程に2段階があり得る:候補者検査及び配列整列。候補者検査は、可能な整列位置のより短い列挙に対して全体ゲノムから配列整列のための検索空間を減少させる。用語が示唆するように、配列整列は、候補者検査段階に提供された配列を有する配列を整列させる段階を含む。これは、大域整列(例えば、ニードルマンブンシュ(Needleman-Wunsch)整列)又は局所整列(例えば、スミスウォーターマン整列)を用いて行われてよい。
大部分の属性整列アルゴリズムは、索引方法に基づく3類型のいずれか一つを特徴とし得る:ハッシュテーブル(例えば、BLAST、ELAND、SOAP)、接尾辞ツリー(例えば、Bowtie、BWA)及び併合整列(例えば、スライダー(Slider))に基づくアルゴリズム。短いリード配列は、整列のために典型的に用いられる。短いリード配列に対する配列整列アルゴリズム/プログラムの例は、以下に制限されるものではないが、BFAST(Homer N.et al.,PLoS One.2009;4(11):e7767)、BLASTN(ワールドワイドウェブ上のblast.ncbi.nlm.nih.govから)、BLAT(Kent W.J.Genome Res.2002;12(4):656-64)、ボウタイ(Bowtie)(Langmead B.et al.,Genome Biol.2009;10(3):R25)、BWA(Li H.and Durbin R.Bioinformatics,2009,25:1754-60)、BWA-SW(Li H.and Durbin R.Bioinformatics,2010;26(5):589-95)、クラウドバースト(CloudBurst)(Schatz M.C.Bioinformatics.2009;25(11):1363-9)、コロナライト(Corona Lite)(Applied Biosystems,Carlsbad,California,USA)、CASHX(Fahlgren N.et al.,RNA,2009;15,992-1002)、CUDA-EC(Shi H.et al.,J Comput Biol.2010;17(4):603-15)、ELAND(ワールドワイドウェブ上のbioit.dbi.udel.edu/howto/elandで)、GNUMAP(Clement N.L.et al.,Bioinformatics.2010;26(1):38-45)、GMAP(Wu T.D.and Watanabe C.K.Bioinformatics.2005;21(9):1859-75)、GSNAP(Wu T.D.and Nacu S.,Bioinformatics.2010;26(7):873-81)、ジー二アスアセンブラ(Geneious Assembler)(ニュージーランド、オークランドに所在のBiomatters Ltd.)、LAST、MAQ(Li H.et al.,Genome Res.2008;18(11):1851-8)、Mega-BLAST(ワールドワイドウェブ上のncbi.nlm.nih.gov/blast/megablast.shtmlで)、MOM(Eaves H.L.and Gao Y.Bioinformatics.2009;25(7):969-70)、MOSAIK(ワールドワイドウェブ上のbioinformatics.bc.edu/marthlab/Mosaikで)、ノボアライン(Novoalign)(ワールドワイドウェブ上のnovocraft.com/main/index.phpで)、パルマッパー(PALMapper)(ワールドワイドウェブ上のfml.tuebingen.mpg.de/raetsch/suppl/palmapperで)、PASS(Campagna D.et al.,Bioinformatics.2009;25(7):967-8)、PatMaN(Prufer K.et al.,Bioinformatics.2008;24(13):1530-1)、PerM(Chen Y.et al.,Bioinformatics,2009,25(19):2514-2521)、ProbeMatch(Kim
Y.J.et al.,Bioinformatics.2009;25(11):1424-5)、QPalma(de Bona F.et al.,Bioinformatics,2008,24(16):i174)、RazerS(Weese D.et al.,Genome Research,2009,19:1646-1654)、RMAP(Smith A.D.et al.,Bioinformatics.2009;25(21):2841-2)、SeqMap(Jiang H.et al.Bioinformatics.2008;24:2395-2396.)、Shrec(Salmela L.,Bioinformatics.2010;26(10):1284-90)、SHRiMP(Rumble S.M.et al.,PLoS Comput.Biol.,2009,5(5):e1000386)、SLIDER(Malhis N.et al.,Bioinformatics,2009,25(1):6-13)、スリムサーチ(SLIM Search)(Muller T.et al.,Bioinformatics.2001;17 Suppl 1:S182-9)、SOAP(Li R.et al.,Bioinformatics.2008;24(5):713-4)、SOAP2(Li R.et al.,Bioinformatics.2009;25(15):1966-7)、SOCS(Ondov B.D.et
al.,Bioinformatics,2008;24(23):2776-7)、SSAHA(Ning Z.et al.,Genome Res.2001;11(10):1725-9)、SSAHA2(Ning Z.et al.,Genome Res.2001;11(10):1725-9)、スタンピー(Stampy)(Lunter G.and Goodson M.Genome Res.2010,epub ahead of print)、タイパン(Taipan)(ワールドワイドウェブ上のtaipan.sourceforge.netで)、UGENE(ワールドワイドウェブ上のugene.unipro.ruで)、XpressAlign(ワールドワイドウェブ上のbcgsc.ca/platform/bioinfo/software/XpressAlignで)、及びZOOM(カナダオンタリオ州ウォータールーに所在のバイオインフォマティクスソリューションインコポレイテッド(Bioinformatics Solutions Inc.))を含む。
配列整列アルゴリズムは、例えば、シーケンシング手法、リード長さ、リード数、入手可能なコンピューティング資料及び敏感性/スコアリング必要条件を含む多数の因子に基づいて選択されてよい。異なる配列整列アルゴリズムは、異なる速度レベル、整列敏感性及び整列特異性を達成することができる。整列特異性は、予測された整列と比較して正確に整列された典型的にサブミッションから発見されるように、整列された標的配列残基の百分率のことを指す。整列敏感性は、また、サブミッションで正確に整列された一般に予測された整列から発見されるように、整列された標的配列残基の百分率のことを指す。
整列アルゴリズム、例えば、ELAND又はSOAPは、速度が考慮される第1因子である時に、基準ゲノムに対して短いリード(例えば、イルミナ(Illumina)/ソレキサ(Solexa)シーケンサー製)を整列する目的に用いられてよい。BLAST又はMega-BLASTのような整列アルゴリズムは、特異性が最も重要な因子である時に、これらの方法が相対的に遅いが、短い判読(例えば、ロシュ(Roche)FLX製)を用いて類似性調査の目的のために使用されてよい。MAQ又はノボアライン(Novoalign)のような整列アルゴリズムは、品質スコアを考慮し、よって、正確性が必須のときに、単一又はペアード末端データに対して使用されてよい(例えば、高速大量SNP検索で)。ボウタイ(Bowtie)又はBWAのような整列アルゴリズムは、バローズウィーラー変換(Burrows-Wheeler Transform:BWT)を利用し、したがって、相対的に小さいメモリフットプリント(memory footprint)を必要とする。BFAST、PerM、SHRiMP、SOCS又はZOOMのような整列アルゴリズムは、色空間リードをマッピングし、したがって、ABIのSOLiDプラットホームと共に用いられてよい。一部の適用において、2以上の整列アルゴリズムからの結果が組み合わせられてよい。
本発明において、前記B)段階の配列情報(reads)の長さは、5~5000bpであり、使用する配列情報の数は、5千~500万個になり得るが、これに限定されるものではない。
本発明において、前記(C)段階の配列情報をグループ化する段階は、配列情報(reads)のアダプター配列に基づいて行うことができる。正方向に整列された核酸断片と逆方向に整列された核酸断片とに別に区分して選別された配列情報に対してFD値を計算するか、或いは全体グループに対してFD値を計算することができる。
本発明において、前記(C)段階を行うに先立って整列された核酸断片の整列一致度点数(mapping quality score)を満たす核酸断片を別に分類する段階をさらに含むことを特徴とし得る。
本発明において、前記整列一致度点数(mapping quality score)は、所望の基準によって変わり得るが、好ましくは15~70点、より好ましくは50~70点でよく、最も好ましくは60点でよい。
本発明において、前記(D)段階のFD値は、取得したn個の核酸断片に対して、i番目核酸断片の基準値とi+1~n番目核酸断片から選択されるいずれか一つ以上の核酸断片の基準値との間の距離として定義されることを特徴とし得る。
本発明において、前記FD値は、取得したn個の核酸断片に対して、第1核酸断片の基準値と第2~第n個の核酸断片で構成された群から選ばれるいずれか一つ以上の核酸断片の基準値との距離を計算し、それらの和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値をFD値として使用できるが、これに限定されるものではない。
本発明において、“一つ以上の値及び/又は一つ以上のそれらの逆数値”という記載は、上述した数値のから1つ又は2つ以上が組み合わせられて使用可能であるという意味で解釈される。
本発明において、前記”核酸断片の基準値”は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とし得る。
前記FD値は、取得したn個の核酸断片に対して、次のように定義できる。
FD = Dist(Ri~Rj) (1<i<j<n)、
ここで、Dist関数は、選別されたRiとRjの両核酸断片間に含まれる全ての核酸断片の整列位置値の差の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値を計算する。
すなわち、本発明において、FD値(Fragment Distance Value)は、整列された核酸断片間の距離を意味する。ここで、距離計算のための核酸断片の選別の場合の数は、次のように定義できる。合計N個の核酸断片が存在する場合に、
個の核酸断片間距離の組合せが可能である。すなわち、iが1の場合に、i+1は2となり、2~n番目核酸断片から選択されるいずれか一つ以上の核酸断片との距離を定義することができる。
本発明において、前記FD値は、前記i番目核酸断片内部の特定位置とi+1~n番目のいずれか一つ以上の核酸断片内部の特定位置との間の距離を計算することを特徴とし得る。
例えば、ある核酸断片の長さが50bpであり、染色体1番の4,183位置に整列されているとすれば、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体1番の4,183~4,232である。
前記核酸断片と隣接した50bp長の核酸断片が染色体1番の4,232番目位置に整列されると、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体1番の4,232~4,281であり、両核酸断片間のFD値は、1~99になり得る。
さらに他の隣接した50bp長の核酸断片が染色体1番の4123番目位置に整列されると、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体1番の4,123~4,172であり、両核酸断片間のFD値は61~159であり、最初の例示核酸断片とのFD値は12~110であり、前記両FD値範囲の一つの値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値をFD値として使用でき、好ましくは、両FD値範囲の一つの値の逆数値であることを特徴とし得るが、これに限定されるものではない
好ましくは、本発明において、前記FD値は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とし得る。
本発明において、FDの中央値は、計算されたFD値を大きさの順に整列したとき、最も中央に位置する値を意味する。例えば1、2、100のように3個の値があるとき、2が最も中央にあるので、2が中央値となる。仮に、偶数個のFD値がある場合、中央にある2つの値の平均を中央値として決定する。例えば、1、10、90、200のFD値がある場合、中央値は10及び90の平均である50となる。
本発明において、前記任意の値は、核酸断片の位置を示し得るものであればいずれも利用可能であるが、好ましくは、0~5kbp、又は核酸断片長さの0~300%、0~3kbp、又は核酸断片長さの0~200%、0~1kbp、又は核酸断片長さの0~100%、より好ましくは0~500bp又は核酸断片長さの0~50%であってよいが、これに限定されるものではない。
本発明において、前記FD値は、ペアードエンドシーケンシング(paired-end sequencing)では、正方向及び逆方向配列情報(reads)の位置値に基づいて導出することを特徴とし得る。
例えば、50bp長のペアードエンドリード対において、正方向リードは、染色体1番の4183番目位置に整列され、逆方向リードは4349番目位置に整列されると、この核酸断片の両末端は4183、4349となり、核酸断片距離に使用可能な基準値は、4183~4349である。このとき、前記核酸断片と隣接した他のペアードエンドリード対において、正方向リードは染色体1番の4349番目位置に整列され、逆方向リードは4515番目に整列されると、この核酸断片の位置値は、4349~4515である。この両核酸断片の距離は0~333になり得、最も好ましくは、各核酸断片の中央値の距離である166になり得る。
本発明において、前記ペアードエンドシーケンシングで配列情報を取得する場合、配列情報(reads)の整列点数が基準値未満である核酸断片は、計算過程から除外する段階をさらに含むことを特徴とし得る。
本発明において、前記FD値は、シングルエンドシーケンシング(single-end sequencing)では、正方向又は逆方向配列情報(read)の位置値の一つの種類に基づいて導出することを特徴とし得る。
本発明において、前記シングルエンドシーケンシングでは、正方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を足し、逆方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を引くことを特徴とし、前記任意の値は、FD値が核酸断片の位置を明確に表示可能にする値であればいずれも利用可能であるが、好ましくは0~5kbp又は核酸断片長さの0~300%、0~3kbp又は核酸断片長さの0~200%、0~1kbp又は核酸断片長さの0~100%、より好ましくは0~500bp又は核酸断片長さの0~50%でよいが、これに限定されるものではない。
本発明において、分析しようとする核酸は、シーケンシングされてリード(reads)という単位で表現されてよい。このリードは、シーケンシング方法によって、シングルエンドシーケンシング(single end sequencing read,SE)及びペアードエンドシーケンシング(paired end sequencing read,PE)に分類できる。SE方式のリードは、核酸分子の5’及び3’のいずれか1ヵ所をランダムな方向に一定の長さだけシーケンシングしたものを意味し、PE方式のリードは、5’及び3’の両方を一定の長さだけシーケンシングする。このような相違から、SEモードでシーケンシングする場合、1個の核酸断片から1個のリードが生成され、PEモードでは1個の核酸断片から2個のリードが対として生成されることは、通常の技術者によく知られた事実である。
核酸断片間の正確な距離を計算するための最も理想的な方式は、核酸分子を初めから終わりまでシーケンシングし、そのリードを整列し、整列された値の中央値(センター)を利用する。しかし、技術的に、上の方式は、シーケンシング技術の限界及び費用の側面において制約があるのが現状である。したがって、SE、PEのような方式でシーケンシングすることになるが、PE方式では、核酸分子の開始と終了の位置が分かるので、これらの値の組合せにより核酸断片の正確な位置(中央値)を把握できるが、SE方式では、核酸断片の片方の終了情報しか利用できず、正確な位置(中央値)計算に限界がある。
また、正方向、逆方向の両方向にシーケンシングされた(整列された)、全てのリードの末端情報を用いて核酸分子の距離計算時に、シーケンシング方向という要素のため、正確でない値が計算されることがある。
したがって、シーケンシング方式の技術的理由から、正方向リードの5’末端は、核酸分子の中心位置よりも小さい位置値を有し、逆方向リードの3’末端は大きい値を有する。このような特徴を用いて、正方向リードでは任意の値(Extended bp)を足し、逆方向リードでは引くと、核酸分子の中心位置に近い値が推定できる。
すなわち、任意の値(Extended bp)は、使用する試料によって変わってよく、細胞遊離核酸は、その核酸の平均長さが166bp程度と知られているので、約80bp程度に設定できる。万一、断片化装備(ex;sonication)を用いて実験が行われた場合は、断片化過程において設定したターゲット長さの半分程度を延長bp(extended bp)と設定できる。
本発明において、前記(E)段階の染色体の異常を判定する段階は
(E-i)染色体全体領域又は特定領域別にFD値の代表値(RepFD)を決定する段階;
(E-ii)分析しようとする染色体全体領域又は特定領域以外のサンプル内特定領域のRepFD値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値を計算し、正規化要素(Normalized Factor)を導出する段階;
(E-iii)下記式1に基づいて代表値比率(RepFD ratio)を計算する段階;
式1:RepFD ratio = RepFD Target genomic region / Normalized Factor
(E-iv)正常人参照集団とサンプルのRepFD比率値を比較し、FDI(Fragments Distance Index)を計算する段階:
を含んで行われることを特徴とし得る。
本発明において、前記(E-i)段階の代表値(RepFD)は、FD値の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値であることを特徴とし、好ましくは、FD値の中央値、平均値又はこれの逆数値であることを特徴とし得るが、これに限定されるものではない。
本発明において、前記染色体全体領域又は特定遺伝領域は、ヒト核酸配列の集合であればいずれも利用可能であるが、好ましくは、染色体単位又は一部染色体の特定領域でよく、例えば、数的異常有無の検出のための特定領域は、正倍数体と考えられる常染色体でよく、構造的異常有無の検出のための特定領域は、固有性に劣る領域(centromere、telomere)以外の全ての遺伝的領域でよいが、これに限定されるものではない。
前記(E-ii)段階の分析しようとする染色体全体領域又は特定遺伝領域以外のサンプル内特定領域は、
a)無作為に分析しようとする染色体全体領域又は特定遺伝領域以外の領域を無作為に選別する段階;
b)前記a)段階で選別した遺伝領域のRepFD値の代表値を事前正規化要素(Pre Normalized Factor,PNF)として決定する段階;
c)下記式2に基づいて代表値比率(RepFD ratio)を計算する段階:
式2:RepFD ratio = RepFD Target genomic region / PNF
d)正常人参照集団のRepFD比率値の変動係数(Coefficient of Variance:SD/Mean)を計算する段階;及び
e)前記a)~d)段階を反復施行して得た変動係数のうち、最も小さい値を有する遺伝領域を、染色体全体領域又は特定遺伝領域以外のサンプル内特定領域として決定する段階を含む方法で選別することを特徴とし得る。
本発明において、前記e)段階の反復施行は、100回以上、好ましくは1万~100万回の範囲、最も好ましくは10万回であることを特徴とし得るが、これに限定されるものではない。
本発明において、前記(E-iv)段階は、正常人参照集団のRepFD比率値をサンプルのRepFD比率値と比較することを特徴とし得る。
本発明において、前記正常人参照集団のRepFD比率値とサンプルのRepFD比率とを比較する方式は、両方の値が統計的に有意に差を有することを確認できる方法であればいずれも利用可能であるが、好ましくは、平均及び標準偏差ベースのZ-score又は中央値ベースのLog比、その他分類アルゴリズムを通じて算出された尤度比(Likelihood)などが選択される方法であってよく、最も好ましくは、平均及び標準偏差ベースのZ点数計算方式でよいが、これに限定されるものではない。
本発明において、前記FDI(Fragments Distance Index)は、正常参照集団と分析しようとするサンプルのRep FD比率値の比較によって計算されるが、比較する方法には、Z点数のような標準点数方式を用いることができ、臨界値は無限大の正数、負数などの整数又は範囲が可能であり、好ましくは3でよいが、これに限定されるものではない。
本発明は、他の観点において、生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;及び
選別された核酸断片(fragments)に対して整列された核酸断片間の距離を測定してFD値(Fragments Distance)を計算し、計算したFD値に基づいて染色体全体領域又は特定遺伝領域別にFDI値(Fragments Distance Index)を計算し、FDI値が基準値又は区間未満又は超過である場合に、染色体異常があると判定する染色体異常判定部を含む染色体異常検出装置に関する。
本発明は、さらに他の観点において、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
(A)生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階;
(B)取得した配列情報(reads)に基づいて核酸断片を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
(C)選別された核酸断片(fragments)間の距離を測定してFD値(Fragments Distance)を計算する段階;及び
(D)前記(C)段階で計算したFD値に基づいて染色体全体領域又は特定遺伝領域別にFDI値(Fragments Distance Index)を計算し、FDI値が基準値範囲に属しない場合に、染色体異常があると判定する段階;
により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体に関する。
具体的には、本発明に係るコンピュータ可読記憶媒体は、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
(A)生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階;
(B)取得した配列情報(reads)に基づいて核酸断片を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
(C)前記配列情報(reads)に基づいて整列された核酸断片(fragments)を全体配列、正方向配列及び逆方向配列にグループ化する段階;
(D)前記グループ化されたそれぞれの核酸断片に対して整列された核酸断片基準値間の距離を測定して、各グループ別FD値(Fragments Distance)を計算する段階;及び
(E)前記(D)段階で計算した各グループ別FD値に基づいて染色体全体領域又は特定領域別にそれぞれのFDI値(Fragments Distance Index)を計算し、それぞれのFDI値がいずれも基準値範囲に属しない場合に、染色体異常があると判定する段階;
により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むことを特徴とし得るが、これに限定されるものではない。
本発明の他の実施例では、前記整列された核酸断片の中央値から、分析対象核酸断片平均長さの50%を足して又は引いてリードの両末端の位置値を計算し、リード間の距離を計算できるということを確認した(図6)。
したがって、本発明は、さらに他の観点において、
(A)生体試料から核酸を抽出して配列情報を取得する段階;
(B)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
(C)前記整列された配列情報(reads)に対して、整列されたリード間の距離を測定し、RD値(Read Distance)を計算する段階;及び
(D)前記(C)段階で計算したRD値に基づいて染色体全体領域又は特定領域別にRDI値(Read Distance Index)を計算し、RDI値が基準値範囲に属しない場合に、染色体異常があると判定する段階を含む染色体異常検出方法に関する。
本発明において、
前記A)段階は、
(A-i)血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びこれらの混合物から核酸を得る段階;
(A-ii)採取された核酸から、塩析方法(salting-out method)、カラムクロマトグラフィー方法(column chromatography method)又はビーズ方法(beads method)を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階;
(A-iii)精製された核酸又は酵素的切断、粉砕、水圧切断方法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)又はペアエンドシーケンシング(pair-end sequencing)ライブラリー(library)を作製する段階;
(A-iv)作製されたライブラリーを次世代シークエンサー(next-generation sequencer)に反応させる段階;及び
(A-v)次世代シークエンサーで核酸の配列情報(reads)を取得する段階を含む方法で行われることを特徴とし得る。
本発明において、前記(B)段階の配列情報(reads)の長さは、5~5000bpであり、使用する配列情報の数は5千~500万個でよいが、これに限定されるものではない。
本発明において、前記(C)段階は、整列されたリードを整列された方向によってグループ化する段階をさらに利用可能であることを特徴とし得る。
本発明では、リードをグループ化する段階をさらに利用可能であり、このとき、グループ化基準は、整列されたリードのアダプター配列に基づき得る。正方向に整列されたリードと逆方向に整列されたリードとに別に区分して選別された配列情報に対してRD値を計算することができる。
本発明において、前記(C)段階を行うに先立って整列されたリードの整列一致度点数(mapping quality score)を満たすリードを別に分類する段階をさらに含むことを特徴とし得る。
本発明において、前記整列一致度点数(mapping quality score)は、所望の基準によって変わってよいが、好ましくは15~70点、より好ましくは50~70点でよく、最も好ましくは60点でよい。
本発明において、前記(C)段階のRD値は、取得したn個のリードに対して、i番目リードとi+1~n番目リードから選択されるいずれか一つ以上のリードの両末端値のうち一つの値に核酸平均長さの50%を足した又は引いた値間の距離から算出することを特徴とし得る。
本発明において、前記RD値は、取得したn個のリードに対して、第1リードと第2~第n個のリードからなる群から選ばれるいずれか一つ以上のリードとの距離を計算し、それらの和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差、変動係数、これらの逆数値及び組合せ、加重値が含まれた計算結果、及びこれに限定されない統計値をRD値として使用することができるが、これに限定されるものではない。
本発明において、RDの中央値は、計算されたRD値を大きさの順に整列した時に最も中央に位置する値を意味する。例えば、1、2、100のように奇数個の値があるとき、2が最も中央にあるので、2が中央値となる。仮に、偶数個のRD値がある場合には、中央にある2つの値の平均と中央値を決定する。例えば1、10、90、200のRD値がある場合、中央値は10及び90の平均である50となる。
本発明において、前記RD値は、前記i番目リード内部の5’又は3’末端とi+1~n番目のいずれか一つ以上のリードの5’又は3’末端間の距離を計算することを特徴とし得る。
例えば、50bp長のペアードエンドリード対において、正方向リードは染色体1番の4183番目位置に整列され、逆方向リードは4349番目位置に整列されると、この核酸断片の両末端は4183、4349になり、核酸断片距離に使用可能な基準値は4183~4349である。このとき、前記核酸断片と隣接した他のペアードエンドリード対において、正方向リードは染色体1番の4349番目位置に整列され、逆方向リードは4515番目位置に整列されると、この核酸断片の位置値は4349~4515である。この2核酸断片の距離は0~333になり得、最も好ましくは、各核酸断片の中央値の距離である166になり得る。前記例示において、核酸断片の平均長さが166の場合に、核酸断片平均長さの50%値を中央値(4266)から引く場合に、1番目核酸断片の位置値は4183になり、2番目核酸断片の位置値は4349であり、このとき、リード間の距離は166となる(4349~4183)。一方、50%値を中央値に足す場合に、1番目核酸断片の位置値は4349、2番目核酸断片の位置値は4515であり、このとき、リード間の距離は166となる(4515~4349)。
本発明において、前記(D)段階の染色体の異常を判定する段階は
(D-i)各染色体全体領域又は特定遺伝領域別にRD値の代表値(RepRD)を決定する段階;
(D-ii)分析しようとする染色体全体領域又は特定遺伝領域以外のサンプル内領域のRepRD値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値を計算し、正規化要素(Normalized Factor)を導出する段階;
(D-iii)下記式10に基づいて代表値比率(RepRD ratio)を計算する段階;
式10:RepRD ratio = RepRD Target genomic region / Normalized Factor
(D-iv)正常人参照集団とサンプルのRepRD比率値を比較し、RDI(Read Distance Index)を計算する段階:
を含んで行われることを特徴とし得る。
本発明において、前記(D-i)段階の代表値(RepRD)は、RD値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値、及びこれに限定されない統計値からなる群から選ばれる一つ以上であることを特徴とし、好ましくは、RD値の中央値、平均値又はこれの逆数値であることを特徴とし得るが、これに限定されるものではない。
本発明において、RepRD値の中央値は、計算されたRepRD値を大きさの順に整列した時に最も中央に位置する値を意味する。例えば、1、2、100のように奇数個の値があるとき、2が最も中央にあるので、2が中央値になる。仮に、偶数個のRepRD値がある場合、中央にある2つの値の平均を中央値として決定する。例えば、1、10、90、200のRepRD値がある場合、中央値は10及び90の平均である50になる。
本発明において、前記染色体全体領域又は特定遺伝領域(specific genomic region)は、ヒト核酸配列の集合であればいずれも利用可能であるが、好ましくは、染色体単位又は一部染色体の特定領域でよく、例えば、数的異常有無の検出のための特定領域には、正倍数体と考えられる常染色体になり得、構造的異常有無の検出のための特定領域には、固有性に劣る領域(centromere、telomere)以外の全ての遺伝的領域になり得るが、これに限定されるものではない。
前記(D-ii)段階の分析しようとする染色体全体領域又は特定遺伝領域以外のサンプル内特定領域は、
a)無作為に分析しようとする染色体全体領域又は特定遺伝領域以外の領域を選別する段階;
b)前記a)段階で選別した遺伝領域のRepRD値の代表値を事前正規化要素(Pre Normalized Factor,PNF)として決定する段階;
c)下記式11に基づいて代表値比率(RepRD ratio)を計算する段階:
式11:RepRD ratio = RepRD Target genomic region / PNF
d)正常人参照集団のRepRD比率値の変動係数(Coefficient of Variance:SD/Mean)を計算する段階;及び
e)前記a)~d)段階を反復施行して得た変動係数のうち、最も小さい値を有する遺伝領域を、染色体全体領域又は特定遺伝領域他領域として決定する段階を含む方法で選別することを特徴とし得る。
本発明において、前記e)段階の反復施行は100回以上、好ましくは1万~100万回の範囲、最も好ましくは10万回であることを特徴とし得るが、これに限定されるものではない。
本発明において、前記(iv)段階は、正常人参照集団のRepRD比率値をサンプルのRepRD比率値と比較することを特徴とし得る。
本発明において、前記正常人参照集団のRepRD比率値とサンプルのRepRD比率を比較する方式は、両方の値が統計的に有意に差を有することを確認できる方法であればいずれも利用可能であるが、好ましくは、平均及び標準偏差ベースのZ-score又は中央値ベースのLog比、その他分類アルゴリズムによって算出された尤度比(Likelihood)などが選択される方法でよく、最も好ましくは平均及び標準偏差ベースのZ点数計算方式でよいが、これに限定されるものではない。
本発明において、前記RDI値(Reads Distance Index)は、正常参照集団と分析しようとするサンプルのRep RD比率値の比較によって計算されるが、比較する方法には、Z点数のような標準点数方式を利用可能であり、臨界値は無限大の正数、負数などの整数又は範囲が可能であり、好ましくは、-3又は3になり得るが、これに限定されるものではない。
本発明は、さらに他の観点において、生体試料から核酸を抽出して配列情報を解読する解読部;
解読された配列を標準染色体配列データベースに整列する整列部;及び
選別された配列情報(reads)に対して、整列されたリード間の距離を測定してRD値(Read Distance)を計算し、計算したRD値に基づいて遺伝領域別にRDI値(Read Distance Index)を計算し、RDI値が基準値又は区間未満又は超過である場合に、染色体異常があると判定する染色体異常判定部を含む染色体異常検出装置に関する。
本発明は、さらに他の観点において、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
(A)生体試料から核酸を抽出して配列情報を取得する段階;
(B)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
(C)選別された配列情報(reads)に対して、整列されたリード間の距離を測定し、RD値(Read Distance)を計算する段階;及び (D)前記(C)段階で計算したRD値に基づいて遺伝領域別にRDI値(Read Distance Index)を計算し、RDI値が基準値範囲に属しない場合に、染色体に異常があると判定する段階により、染色体の異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体に関する。
以下、実施例を用いて本発明をより詳細に説明する。これら実施例は単に本発明を例示するためのものであり、本発明の範囲がこれらの実施例によって制限されるものと解釈されないことは、当業界における通常の知識を有する者にとって明らかであろう。
実施例1.血液からDNAを抽出し、次世代塩基配列分析を行う
サンプルの血液を10mLずつ採取してEDTAチューブに保管し、採取後2時間以内に1200g、4℃、15分の条件で血漿部分だけを1次遠心分離した後、1次遠心分離された血漿を16000g、4℃、10分の条件で2次遠心分離し、沈殿物以外の血漿上清液を分離した。分離された血漿に対してTiangenmicro DNAキット(Tiangen)を用いて細胞遊離DNAを抽出した。PE(Paired-end)データの生産は、MGIEasy細胞遊離DNAライブラリー調製キット(MGIEasy Cell-free DNA Library Prep set kit)(MGI)を用いてライブラリー調製(Library preparation)過程を行った後、DNBseq G400装備(MGI)を利用し(50cycle*2)、SE(Single-end)データは、TruseqナノDNA HTライブラリー調製キット(Truseq Nano DNA HT library prep kit)(Illumina)を用いてライブラリー調製過程後に、Nextseq500(Illumina)装備を用いて生産した。
PEデータは、約1,000万個の核酸断片に対する配列情報が得られ、SEデータは、約130万個の核酸断片に対する配列情報が得られた。
実施例2.配列情報データの品質管理及びFD値計算
塩基配列情報を前処理し、FD値を計算する前に次の一連の過程を行った。次世代塩基配列分析器(NGS)装備で生成されたfastq形式のファイルをBWA-memアルゴリズムを用いて参照染色体Hg19配列を基準にライブラリー配列を整列した。ライブラリー配列の整列時に誤りの発生する確率があり、誤りを矯正する2つの過程を行った。まず、重複したライブラリー配列に対して除去作業を行った後、BWA-memアルゴリズムによって整列されたライブラリー配列のうち、整列一致度点数(Mapping Quality Score)が60に達しない配列を除去した。
選別したリードを、整列された方向によって正方向リードと逆方向リードとにグループ化した後、最も隣接したリードとの距離をFD値として、下記式3を用いて計算し、その概念は、図2及び図3に示した。下記式3のD関数は、遺伝体位置の差値を計算する関数である。下記式3におけるaとbは、核酸断片の位置値であり、PEシーケンシングにおいて、2個の配列情報の整列された位置値の最小値から最大値までのいずれか一つの値になり得、SEシーケンシングにおいて、配列情報の整列された位置値であるか或いは位置値に特定値を延長(extension)した値であり得る。
式3:Fragment Distance (FD) = D(a,b) | a ∈ Fi , b ∈ Fi)
実施例3.延長によるFD値の差の確認
PEで生産されたデータは、核酸断片の開始と末端の位置情報が分かり、中間位置を基準に各核酸断片間距離を計算することができる。PEで生産されたデータから無作為にFor、Revリードにグループ化し、Forに分類されたリードは、Forリードの5’位置を基準に、Revに分類されたリードはRevリードの3’位置を基準にFDを計算した後、Forリードには80bpを足し、Revリードには80bpを引く延長(extension)を行った。
前記過程のFD値と延長を行った過程のFD値との差を比較した結果、図5に記載されているように、延長した後に計算されたFD値が、PEの中央の(centered)FD値と類似することが確認され、延長を行っていないFD値は、+166、-166のFD値の差を有することが確認された。
実施例4.FDI値計算
4-1.染色体数的異常検出のためのFDI値計算
SEシーケンシングデータを用いてFDI値を計算し、延長(extension)値は80bpに設定した。異数性の有無を確認しようとする染色体に対して、それぞれ選別された染色体の集合のRepFD値の中央値比を正規化要素(Normalized Factor)と定義し、下記式4で計算した。
Figure 2024028758000003
式4:Normalized Factor = Median of RepFDselected chromosome set
(selected chromosome set:前記表において染色体集合に該当する部分である。)
式3及び式4で計算したFDと正規化要素(Normalized Factor)を用いてRepFD比率を式5で計算した。
式5:RepFD ratio = RepFD Target chromosome/ Normalized Factor
2000名の正常人参照集団においてRepFD比率の平均と標準偏差値を計算し、分析しようとするサンプルのFDI(Fragments Distance Index)値を式6で計算した。
式6:FDI = (MEAN(RepFD Ratio reference - RepFD Ratio sample -) / SD(RepFD Ratioreference)
前記式6の過程を、全ての核酸断片を使用する場合(式7)、正方向に整列された核酸断片を使用する場合(式8)、逆方向に整列された核酸断片を使用する場合(式9)にそれぞれ行った。
式7:FDIall= mean(RepFDall Ratioreference) - RepFDall Ratiosample/ SD(RepFDall Ratioreference)
式8:FDIFor= mean(RepFDFor Ratioreference) - RepFDFor Ratiosample/ SD(RepFDFor Ratioreference)
式9:FDIRev = mean(RepFDRevRatioreference) - RepFDRev Ratiosample/ SD(RepFDRevRatioreference)
4-2.染色体数的異常検出のためのFDI値の性能確認
正常標準集団2000名のサンプルとトリソミー(Trisomy)6サンプルを含む臨床88サンプルの分析の結果、100%敏感度(sensitivity)及び100%特異度(specificity)を確認した。
陽性判別のための臨界値は、FDI21all、FDI21For、FDI21Revのいずれも3を使用した。
それぞれ、サンプルは、陽性判別のために3個のFDI値を計算し、いずれも3以上である場合に最終陽性と判別した。分析された88サンプルのうち3サンプル(G19NIPT261-3、G19NIPT261-10、G19NIPT261-13)は、1個のFDI値から陽性と判別されたが、残り2個のFDI値は陰性と判別され、最終的には陰性と判定した。
Figure 2024028758000004
実施例5.RD値ベースの分析のための血液からDNAを抽出し、次世代塩基配列を分析
正常人400名、トリソミー21 175名、トリソミー18 67名及びトリソミー13 26名の血液を10mLずつ採取してEDTAチューブに保管し、採取後2時間以内に1200g、4℃、15分の条件で血漿部分だけを1次遠心分離した後、1次遠心分離された血漿を16000g、4℃、10分の条件で2次遠心分離し、沈殿物以外の血漿上清液を分離した。分離された血漿に対してTiangenmicro DNAキット(Tiangen)を用いて細胞遊離DNAを抽出し、TruseqナノDNA HTライブラリー調製キット(Illumina)を用いてライブラリー調製過程を行った後、Nextseq500装備(Illumina)を75SE(Single-end)モードでシーケンシングを行った。
その結果、サンプル当たりに約1,300万個のリードが生産されることを確認した。
実施例6.配列情報データの品質管理及びRD値計算
塩基配列情報を前処理し、RD値を計算する前に、次の一連の過程を行った。次世代塩基配列分析器(NGS)装備で生成されたBclファイル(塩基配列情報を含む)をfastq形式に変換した後、fastqファイルをBWA-memアルゴリズムを用いて参照染色体Hg19配列を基準にライブラリー配列を整列した。ライブラリー配列の整列時に誤りの発生する確率があるため、誤りを矯正する2つの過程を行った。まず、重複したライブラリー配列に対して除去作業を行った後、BWA-memアルゴリズムによって整列されたライブラリー配列のうち、整列一致度点数(Mapping Quality Score)が60に達しない配列を除去した。
選別したリードを、整列された方向によって正方向リードと逆方向リードとにグループ化した後、最も隣接したリードとの距離をRD値として式12を用いて計算し、その概念は図7に示した。下記12のD関数は、遺伝体位置の差値を計算する関数である。
式12:Read Distance (RD) = D(a,b) | a ∈ Ri , b ∈ Ri)
実施例7.RDI値計算
7-1.染色体数的異常検出のためのRDI値計算
各染色体別にRD値の中央値をRepRDと定義した。異数性の有無を確認しようとする染色体に対して、それぞれ選別された染色体の集合のRepRD値の中央値比を正規化要素(Normalized Factor)と定義し、下記式13で計算した。
Figure 2024028758000005
式13:Normalized Factor = Median of RepRDselected chromosome set
(selected chromosome set:前記表において染色体集合に該当する部分である。)
式12及び式13で計算したRDと正規化要素(Normalized Factor)を用いてRepRD比率(ratio RepRD ratio)を式14で計算した。
式14:RepRD ratio = RepRD Target chromosome / Normalized Factor
400名の正常人参照集団においてRepRD比率(ratio RepRD ratio)の平均と標準偏差値を計算し、分析しようとするサンプルのRDI(Reads Distance Index)値を式15で計算した。
式15:RDI = RepRD Ratio sample - MEAN(RepRD Ratio reference ) / SD(RepRD Ratioreference)
7-2.染色体構造的異常のためのRDI値計算
染色体を50kbaseで一定に分けた後、各領域別にRD値の中央値をRepRDと定義した。また、正規化要素(Normalized Factor)は常染色体RD値の中央値を使用した。参照集団は、正常女性437名のデータを利用し、染色体各領域別にRepRD比率(RepRD Ratio)の平均と標準偏差を計算した。RDI値は、式15を引用して計算した。
7-3.RD代表値(RepRD)計算方式による性能確認(中央値の逆数を利用)
各遺伝領域(染色体別)に整列された配列情報のRD値を計算した後、これらの値の中央値の逆数をRD代表値(RepRD)と定義した。ここで、中央値とは、計算されたRD値を大きさの順に整列した時に最も中央に位置する値を意味する。例えば1、2、100のように3個の値があるとき、2が最も中央にあるので、2が中央値となる。
仮に、偶数個のRD値がある場合には、中央にある2つの値の平均を中央値として決定する。例えば、1、10、90、200のRD値がある場合に、中央に位置している10及び90の平均である50が中央値となる。分析サンプルは、トリソミー21として確認された49サンプルと、正常として確認された3,448サンプルを使用し、RepRD値は、RD値の中央値の逆数を使用した。分析方法は、正常人3,448サンプルのRepRD値の平均と標準偏差を用いたZ-score方式でRDI値を計算した。分析の結果、約0.999の正確度でサンプルの染色体数異常の有無が検出できた(表4、図15)。
Figure 2024028758000006
7-4.RD代表値(RepRD)計算方式による性能確認(平均を利用)
各遺伝領域(染色体別)に整列された配列情報のRD値を計算した後、これらの値の平均値をRD代表値(RepRD)として定義した。ここで、平均値とは、計算されたRD値の算術平均値であって、仮に10、50、90のRD値があると、(10+50+90)/3である50がRD代表値となる。正常人1、999とT21 163サンプルを用いて、正常人集団のRepRD平均と標準偏差を用いたZ-score方式でRDI値を計算した。正規化要素(Normalized Factor)として使用した染色体は、2、7、9、12、14であった。分析の結果、約0.9995の正確度でサンプルの染色体数異常の有無が検出できたし、臨界値を4.0に設定時に、敏感度は0.999、特異度は1.000であることが確認できた(表5、図16)。
Figure 2024028758000007
7-5.RD代表値(RepRD)計算方式による性能確認(平均の逆数値を利用)
各遺伝領域(染色体別)に整列された配列情報のRD値を計算した後、これらの値の平均値の逆数値をRD代表値(RepRD)として定義した。ここで、平均値とは、計算されたRD値の算術平均値であって、仮に10、50、90のRD値があると、(10+50+90)/3である50が平均値となり、この値の逆数である1/50=0.02をRD代表値として用いた。正常人1、999とT21 163サンプルを利用し、正常な集団のRepRD平均と標準偏差を用いたZ-score方式でRDI値を計算した。正規化要素(Normalized Factor)として使用した染色体は、2、7、8、9、12、14であった。分析の結果、約0.9995の正確度でサンプルの染色体数異常の有無が検出できたし、臨界値を4.3に設定時に、敏感度は0.993、特異度は1.000であることが確認できた(表6、図17)。
Figure 2024028758000008
実施例8.染色体数的異常検出のためのRDI値の性能確認
8-1.リード個数(Read count)及びリード距離(Read Distance)の分布
整列されたリードの距離概念を用いた分析において、生産されたリードの数が多いほど、各リード間の距離は短く維持されるであろう。これを確認するために、各染色体別にリード数とRepRD値の分布を分析した。
その結果、全体的にリード数が多いほどRepRDが減少することを確認した。特に、リード数とRepRD値の関係が線形関係ではなく非線形関係であることを確認し、これは、リード距離概念が、単純リードの数の他に、整列された位置も反映する結果である(図8)。
正常サンプルと比較すれば、トリソミー13、18及び21番サンプルから、それぞれ異数性として確認された染色体のRepRD値が低く分布することが確認できた(図9)。
8-2.RDI(Reads Distance Index)の性能及び胎児分画、臨床情報、既存G-scoreとの関係
産婦血液を用いた胎児異数性検査において、胎児分画、妊娠週数は、検査の正確度に多い影響を及ぼす。妊娠週数が高いほど胎児分画は高くなる傾向性があり、胎児分画が高いほど検査の正確度は高くなる。トリソミー21サンプルのRDIchr21値と産婦の妊娠週数、胎児分画との分布を分析した結果、胎児分画が高くなりながらRDIchr21値が低下することを確認した。また、妊娠週数とRDIchr21値との関係では、15週以上のサンプルにおいて値が下がる傾向性を確認し、既存リード個数(Reads count)に基づく値である、G-score(大韓民国特許第10-1686146号)との関係を調べた結果、類似の傾向性が確認できた(図10)。
8-3.陽性判別臨床検体分析結果
RDI値を用いて、正常群と各染色体異数性として確認されたサンプルに対して分析性能を検証した。RDI値を一定基準cutoff(-3)に設定後に、正常、異数性サンプル間の分析性能を比較した結果、トリソミー13は0.991、トリソミー18は0.989、トリソミー21は0.998の正確度が確認された(表7)。また、AUC値はトリソミー13、18、21からそれぞれ0.999、0.984、1.000であることが確認できた(図11)。
Figure 2024028758000009
8-4.RDI計算方式による性能確認
正常参照集団RDI比率(RDI ratio)の平均と標準偏差を利用するZ-score方式とは異なる、中央値を用いたLog比率(Log ratio)分析結果を確認した。Log比率(Log ratio)の分析方法は、式16を用いた。
式16:RDI = log10(RepRD Ratio sample/ Median(RepRD Ratio reference ))
実施例8-3で用いたのと同じサンプルを利用し、RDI値を一定基準cutoff(-0.0045)に設定後に、分析性能を比較した。性能は、陽性種類によって少しずつ差異があり、正確度は、トリソミー21は0.976、トリソミー18は0.994、そしてトリソミー13は0.991と確認された(表8)。
Figure 2024028758000010
8-5.ダウンサンプリング(Down sampling)性能確認
次世代塩基配列分析技術を用いて、非侵襲的方法の胎児異数性の有無を確認する検査において、生産されるデータの量(リード数)は正確度の重要な要素として知られている。本実施例において、リード数によるRDI方式の分析性能を計算した。分析性能の基準は、ROC分析のAUC値を利用し、リードの数はin-silico方式の無作為リード選別方法を利用した。無作為にリードを100万個~1,000万個選別した。21番異数性サンプルを用いた分析の結果、リード数が減るにつれて分析性能が低くなることが確認できた(図12)。
実施例9.染色体構造的異常検出のためのRDI値の性能確認
9-1.リード個数とリード距離の分布
RDIを用いた染色体構造的異常の有無を調べるために、染色体を適当な大きさに分ける作業が必要であり、本実施例では50k baseの大きさに染色体の区間を分けた。リードの距離は、リードの数が多いほど小さく、リードの数が多いほど長く分布する。分けられた区間に該当するリードの数と距離との関係を調べた結果、染色体の構造的異常である欠失が確認された領域のリード距離が、構造的異常がない領域に比べてリード距離が長く分布することが確認できた(図13)。
9-2.マイクロアレイ(Microarray)結果との比較
染色体構造的異常の有無を検出するマイクロアレイ検査とRDIの分析結果とを比較した。分析サンプルは、1番染色体の末端に3,897,640bp長の欠失が確認されたサンプルであり、RDIを用いた分析の結果、類似な地域の3,700,000bpサイズにおいて構造的異常(欠失)が検出されることが確認できた(図14)。
以上、本発明内容の特定の部分を詳細に記述したところ、当業界における通常の知識を有する者にとって、このような具体的記述は単に好ましい実施の態様であるだけで、これによって本発明の範囲が制限されないという点は明らかであろう。したがって、本発明の実質的な範囲は、添付する請求項及びそれらの等価物によって定義されるといえよう。
本発明に係る染色体異常判定方法は、既存のリード個数(read count)に基づいて染色体量を決定する段階を利用する方式とは違い、整列された核酸断片(fragments)をグループ化した後、核酸断片基準値間の距離概念を用いた方法であり、既存方法ではリード個数が減少すれば正確度が低下するが、本発明の方法では、リード個数が減少しても検出の正確度を上げることができる他、全ての染色体区間ではなく一定区間の核酸断片間の距離を分析しても検出正確度が高いので、有用である。

Claims (33)

  1. 生体試料から抽出した核酸断片(fragments)基準値間の距離を計算して染色体異常を検出する方法。
  2. 前記核酸断片は、細胞遊離核酸又は細胞内核酸であることを特徴とする、請求項1に記載の染色体異常を検出する方法。
  3. 前記核酸断片は、直接配列分析するか、次世代塩基配列分析によって配列分析するか、又は非特異的全長遺伝体増幅(non-specific whole genome amplification)によって配列分析して得たものであることを特徴とする、請求項1に記載の染色体異常を検出する方法。
  4. (A)生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階;
    (B)取得した配列情報(reads)に基づいて標準染色体配列データベース(reference genome database)から核酸断片の位置を確認する段階;
    (C)前記配列情報(reads)を全体配列、正方向配列及び逆方向配列にグループ化する段階;
    (D)前記グループ化された配列情報を用いて、各核酸断片の基準値を定義し、基準値間の距離を測定して、各グループ別FD値(Fragments Distance)を計算する段階;及び
    (E)前記(D)段階で計算した各グループ別FD値に基づいて染色体全体領域又は特定領域別にそれぞれのFDI値(Fragments Distance Index)を計算し、それぞれのFDI値がいずれも基準値範囲に属しない場合に、染色体異常があると判定する段階を含む、請求項3に記載の染色体異常を検出する方法。
  5. 前記(A)段階は、次の段階を含む方法で行われることを特徴とする、請求項4に記載の染色体異常を検出する方法:
    (A-i)血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びこれらの混合物から核酸を得る段階;
    (A-ii)採取された核酸から、塩析方法(salting-out method)、カラムクロマトグラフィー方法(column chromatography method)又はビーズ方法(beads method)を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階;
    (A-iii)精製された核酸又は酵素的切断、粉砕、水圧切断方法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)又はペアエンドシーケンシング(pair-end sequencing)ライブラリー(library)を作製する段階;
    (A-iv)作製されたライブラリーを次世代シークエンサー(next-generation sequencer)に反応させる段階;及び
    (A-v)次世代シークエンサーで核酸の配列情報(reads)を取得する段階。
  6. 前記(D)段階のFD値は、取得したn個の核酸断片に対して、i番目核酸断片の基準値とi+1~n番目核酸断片から選択されるいずれか一つ以上の核酸断片の基準値との間の距離から算出することを特徴とする、請求項4に記載の染色体異常を検出する方法。
  7. 前記核酸断片の基準値は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とする、請求項6に記載の染色体異常を検出する方法。
  8. 前記核酸断片の基準値は、ペアードエンドシーケンシング(paired-end sequencing)では、正方向及び逆方向配列情報(reads)の位置値に基づいて導出することを特徴とする、請求項7に記載の染色体異常を検出する方法。
  9. 配列情報(reads)の整列点数が基準値未満である核酸断片である場合、計算過程から除外する段階をさらに含むことを特徴とする、請求項8に記載の染色体異常を検出する方法。
  10. 前記核酸断片の基準値は、シングルエンドシーケンシング(single-end sequencing)では、正方向又は逆方向配列情報(read)の位置値のいずれか一種類に基づいて導出することを特徴とする、請求項6に記載の染色体異常を検出する方法。
  11. 正方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を足し、逆方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を引くことを特徴とする、請求項10に記載の染色体異常を検出する方法。
  12. 前記任意の値は、分析対象核酸平均長さの30~70%であることを特徴とする、請求項7に記載の染色体異常を検出する方法。
  13. 前記任意の値は、0~5kbp又は核酸断片長さの0~300%であることを特徴とする、請求項7に記載の染色体異常を検出する方法。
  14. 前記(E)段階は、次の段階を含む方法で行われることを特徴とする、請求項4に記載の染色体異常を検出する方法:
    (E-i)染色体全体領域又は特定領域別にFD値の代表値(RepFD)を決定する段階;
    (E-ii)分析しようとする染色体全体領域又は特定領域以外のサンプル内特定領域のRepFD値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差、変動係数、これらの逆数値及び組合せからなる群から選ばれる一つ以上の値を計算して、正規化要素(Normalized Factor)を導出する段階;
    (E-iii)下記式1に基づいて代表値比率(RepFD ratio)を計算する段階;
    式1:RepFD ratio = RepFD Target genomic region / Normalized Factor
    (E-iv)正常人参照集団とサンプルのRepFD比率値を比較して、FDI(Fragments Distance Index)を計算する段階。
  15. 前記(E-i)段階の代表値(RepFD)は、FD値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値であることを特徴とする、請求項14に記載の染色体異常を検出する方法。
  16. 前記(E-i)段階の代表値(RepFD)は、FD値の中央値、平均値又はこれの逆数値であることを特徴とする、請求項15に記載の染色体異常を検出する方法。
  17. 前記(E-ii)段階の分析しようとする染色体全体領域又は特定遺伝領域以外のサンプル内特定領域は、下記の段階を含む方法で選別することを特徴とする、請求項14に記載の染色体異常を検出する方法:
    a)分析しようとする染色体全体領域又は特定遺伝領域以外の領域を無作為に選別する段階;
    b)前記a)段階で選別した遺伝領域の代表値(RepFD)を事前正規化要素(Pre Normalized Factor,PNF)として決定する段階;
    c)下記式2に基づいて代表値比率(RepFD ratio)を計算する段階:
    式2: RepFD ratio = RepFD Target genomic region / PNF
    d)正常人参照集団のRepFD比率値の変動係数(Coefficient of Variance:SD/Mean)を計算する段階;及び
    e)前記a)~d)段階を反復施行して得た変動係数のうち、最も小さい値を有する遺伝領域を、染色体全体領域又は特定遺伝領域以外のサンプル内特定領域として決定する段階。
  18. 前記(E-iv)段階は、正常人参照集団のRepFD比率(RepFD ratio)値をサンプルのRepFD比率(RepFD ratio)値と比較することを特徴とする、請求項14に記載の染色体異常を検出する方法。
  19. 生体試料から核酸を抽出して配列情報を解読する解読部;
    解読された配列を標準染色体配列データベースに整列する整列部;及び
    選別された核酸断片(fragments)に対して、整列された核酸断片間の距離を測定してFD値(Fragments Distance)を計算し、計算したFD値に基づいて染色体全体領域又は特定遺伝領域別にFDI値(Fragments Distance Index)を計算し、FDI値が基準値の範囲内に収まらない場合に、染色体異常があると判定する染色体異常判定部、を含む染色体異常検出装置。
  20. コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
    (A)生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階;
    (B)取得した配列情報(reads)に基づいて核酸断片を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
    (C)選別された核酸断片(fragments)間の距離を測定してFD値(Fragments Distance)を計算する段階;及び
    (D)前記(C)段階で計算したFD値に基づいて染色体全体領域又は特定遺伝領域別にFDI値(Fragments Distance Index)を計算し、FDI値が基準値の範囲内に収まらない場合に、染色体異常があると判定する段階、により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体。
  21. 前記任意の値が分析対象核酸平均長さの50%である場合に、計算したFD値はRD値(Read Distance)であることを特徴とする、請求項7に記載の染色体異常を検出する方法。
  22. (A)生体試料から核酸を抽出して配列情報を取得する段階;
    (B)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
    (C)前記整列された配列情報(reads)に対して、整列されたリード間の距離を測定し、RD値(Read Distance)を計算する段階;及び
    (D)前記(C)段階で計算したRD値に基づいて染色体全体領域又は特定領域別にRDI値(Read Distance Index)を計算し、RDI値が基準値の範囲内に収まらない場合に、染色体異常があると判定する段階を含む染色体異常検出方法。
  23. 前記(A)段階は、次の段階を含む方法で行われることを特徴とする、請求項22に記載の染色体異常検出方法:
    (A-i)血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びこれらの混合物から核酸を得る段階;
    (A-ii)採取された核酸から、塩析方法(salting-out method)、カラムクロマトグラフィー方法(column chromatography method)又はビーズ方法(beads method)を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階;
    (A-iii)精製された核酸又は酵素的切断、粉砕、水圧切断方法(hydroshear method)で無作為断片化(random fragmentation)された核酸に対して、シングルエンドシーケンシング(single-end sequencing)又はペアエンドシーケンシング(pair-end sequencing)ライブラリー(library)を作製する段階;
    (A-iv)作製されたライブラリーを次世代シークエンサー(next-generation sequencer)で反応させる段階;及び
    (A-v)次世代シークエンサーで核酸の配列情報(reads)を取得する段階。
  24. 前記(C)段階以前に整列されたリードを整列された方向によってグループ化する段階がさらに利用可能であることを特徴とする、請求項22に記載の染色体異常検出方法。
  25. 前記(C)段階のRD値は、取得したn個のリードに対して、i番目リードとi+1~n番目リードから選択されるいずれか一つ以上のリードの両末端値のいずれか一つの値に核酸平均長さの50%を足した又は引いた値間の距離から算出することを特徴とする、請求項22に記載の染色体異常を検出する方法。
  26. RD値は、前記i番目リード内部の5’又は3’末端とi+1~n番目のいずれか一つ以上のリードの5’又は3’末端間の距離を計算することを特徴とする、請求項22に記載の染色体異常検出方法。
  27. 前記(D)段階は、次の段階を含む方法で行われることを特徴とする、請求項22に記載の染色体異常検出方法:
    (D-i)染色体全体領域又は特定領域別にRD値の代表値(RepRD)を決定する段階;
    (D-ii)分析しようとする染色体全体領域又は特定領域以外のサンプル内特定領域のRepRD値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値を計算し、正規化要素(Normalized Factor)を導出する段階;
    (D-iii)下記式10に基づいて代表値比率(RepRD ratio)を計算する段階;
    式10:RepRD ratio = RepRD Target genomic region / Normalized Factor
    (D-iv)正常人参照集団とサンプルのRepRD比率(RepRD ratio)値を比較し、RDI(Read Distance Index)を計算する段階。
  28. 前記(D-i)段階の代表値(RepRD)は、RD値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び/又は一つ以上のそれらの逆数値であることを特徴とする、請求項27に記載の染色体異常検出方法。
  29. 前記(D-i)段階の代表値(RepRD)は、RD値の中央値、平均値又はこれの逆数値であることを特徴とする、請求項28に記載の染色体異常検出方法。
  30. 前記(D-ii)段階の分析しようとする染色体全体領域又は特定遺伝領域以外のサンプル内特定領域は、下記の段階を含む方法で選別することを特徴とする、請求項27に記載の染色体異常検出方法:
    a)分析しようとする染色体全体領域又は特定遺伝領域以外の領域を無作為に選別する段階;
    b)前記a)段階で選別した遺伝領域のRepRD値の代表値を事前正規化要素(Pre Normalized Factor,PNF)として決定する段階;
    c)下記式11に基づいて代表値比率(RepRD ratio)を計算する段階:
    式11:RepRD ratio = RepRD Target genomic region / PNF
    d)正常人参照集団の代表値比率(RepRD ratio)の変動係数(Coefficient of Variance:SD/Mean)を計算する段階;及び
    e)前記a)~d)段階を反復施行して得た変動係数のうち、最も小さい値を有する遺伝領域を、染色体全体領域又は特定遺伝領域以外のサンプル内特定領域として決定する段階。
  31. 前記(D-iv)段階は、正常人参照集団の代表値比率(RepRD ratio)をサンプルの代表値比率(RepRD ratio)と比較することを特徴とする、請求項27に記載の染色体異常検出方法。
  32. 生体試料から核酸を抽出して配列情報を解読する解読部;
    解読された配列を標準染色体配列データベースに整列する整列部;及び
    選別された配列情報(reads)に対して、整列されたリード間の距離を測定してRD値(Read Distance)を計算し、計算したRD値に基づいて染色体全体領域又は特定遺伝領域別にRDI値(Read Distance Index)を計算し、RDI値が基準値の範囲内に収まらない場合に、染色体異常があると判定する染色体異常判定部を含む染色体異常検出装置。
  33. コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
    (A)生体試料から核酸を抽出して配列情報を取得する段階;
    (B)取得した配列情報(reads)を標準染色体配列データベース(reference genome database)に整列(alignment)する段階;
    (C)選別された配列情報(reads)に対して、整列されたリード間の距離を測定し、RD値(Read Distance)を計算する段階;及び
    (D)前記(C)段階で計算したRD値に基づいて染色体全体領域又は特定遺伝領域別にRDI値(Read Distance Index)を計算し、RDI値が基準値の範囲内に収まらない場合に、染色体異常があると判定する段階、により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体。
JP2023199582A 2019-08-19 2023-11-27 核酸断片間距離情報を用いた染色体異常検出方法 Pending JP2024028758A (ja)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
KR20190101246 2019-08-19
KR10-2019-0101246 2019-08-19
KR10-2019-0160407 2019-12-05
KR20190160407 2019-12-05
KR10-2020-0103240 2020-08-18
KR1020200103240A KR102452413B1 (ko) 2019-08-19 2020-08-18 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법
JP2022510881A JP2022544626A (ja) 2019-08-19 2020-08-19 核酸断片間距離情報を用いた染色体異常検出方法
PCT/KR2020/010853 WO2021034034A1 (ko) 2019-08-19 2020-08-19 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2022510881A Division JP2022544626A (ja) 2019-08-19 2020-08-19 核酸断片間距離情報を用いた染色体異常検出方法

Publications (1)

Publication Number Publication Date
JP2024028758A true JP2024028758A (ja) 2024-03-05

Family

ID=74660103

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022510881A Pending JP2022544626A (ja) 2019-08-19 2020-08-19 核酸断片間距離情報を用いた染色体異常検出方法
JP2023199582A Pending JP2024028758A (ja) 2019-08-19 2023-11-27 核酸断片間距離情報を用いた染色体異常検出方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2022510881A Pending JP2022544626A (ja) 2019-08-19 2020-08-19 核酸断片間距離情報を用いた染色体異常検出方法

Country Status (6)

Country Link
US (1) US20230178182A1 (ja)
EP (1) EP4020484A4 (ja)
JP (2) JP2022544626A (ja)
AU (1) AU2020333348B2 (ja)
CA (1) CA3147613A1 (ja)
WO (1) WO2021034034A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596933B (zh) * 2023-07-18 2023-09-29 深圳赛陆医疗科技有限公司 碱基簇检测方法及装置、基因测序仪及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2159285B1 (en) 2003-01-29 2012-09-26 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
AU2005216549A1 (en) 2004-02-27 2005-09-09 President And Fellows Of Harvard College Polony fluorescent in situ sequencing beads
TWI287041B (en) 2005-04-27 2007-09-21 Jung-Tang Huang An ultra-rapid DNA sequencing method with nano-transistors array based devices
US20060275779A1 (en) 2005-06-03 2006-12-07 Zhiyong Li Method and apparatus for molecular analysis using nanowires
US20070194225A1 (en) 2005-10-07 2007-08-23 Zorn Miguel D Coherent electron junction scanning probe interference microscope, nanomanipulator and spectrometer with assembler and DNA sequencing applications
US8620593B2 (en) * 2009-11-06 2013-12-31 The Chinese University Of Hong Kong Size-based genomic analysis
JP6073902B2 (ja) * 2011-10-06 2017-02-01 セクエノム, インコーポレイテッド 遺伝的変異の非侵襲的評価のための方法およびプロセス
US9892230B2 (en) * 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
LT3354747T (lt) * 2012-09-20 2021-04-12 The Chinese University Of Hong Kong Neinvazinis naviko metilomos nustatymas iš plazmos
US20150286773A1 (en) * 2012-11-15 2015-10-08 The General Hospital Corporation Methods and systems for diagnosing prenatal abnormalities
WO2015095226A2 (en) * 2013-12-20 2015-06-25 Illumina, Inc. Preserving genomic connectivity information in fragmented genomic dna samples
US10364467B2 (en) * 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
HUE058263T2 (hu) * 2015-02-10 2022-07-28 Univ Hong Kong Chinese Mutációk detektálása rákszûrési és magzatelemzési célból
ES2702603T3 (es) * 2015-06-23 2019-03-04 Zytovision Gmbh Procedimiento para la detección de aberraciones cromosómicas
EP3967775B1 (en) * 2015-07-23 2023-08-23 The Chinese University Of Hong Kong Analysis of fragmentation patterns of cell-free dna
SG11201804651XA (en) * 2015-12-04 2018-07-30 Green Cross Genome Corp Method for determining copy-number variation in sample comprising mixture of nucleic acids
KR101686146B1 (ko) 2015-12-04 2016-12-13 주식회사 녹십자지놈 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법
WO2018039463A1 (en) * 2016-08-25 2018-03-01 Resolution Bioscience, Inc. Methods for the detection of genomic copy changes in dna samples

Also Published As

Publication number Publication date
CA3147613A1 (en) 2021-02-25
JP2022544626A (ja) 2022-10-19
EP4020484A4 (en) 2023-08-30
EP4020484A1 (en) 2022-06-29
NZ785370A (en) 2024-03-22
AU2020333348B2 (en) 2023-11-23
WO2021034034A1 (ko) 2021-02-25
AU2020333348A1 (en) 2022-03-24
US20230178182A1 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
AU2021209224B2 (en) Methods and processes for non-invasive assessment of chromosome alterations
US20200251180A1 (en) Resolving genome fractions using polymorphism counts
US11335437B2 (en) Set membership testers for aligning nucleic acid samples
CN113096726B (zh) 使用无细胞dna片段尺寸以确定拷贝数变异
JP7539985B2 (ja) 人工知能ベースの染色体異常検出方法
JP6161607B2 (ja) サンプルにおける異なる異数性の有無を決定する方法
CN107750277B (zh) 使用无细胞dna片段大小来确定拷贝数变化
CN105917008B (zh) 用于前列腺癌复发的预后的基因表达面板
US20190233883A1 (en) Methods and compositions for analyzing nucleic acid
JP2023504529A (ja) がん予測パイプラインにおけるrna発現コールを自動化するためのシステムおよび方法
JP2023551517A (ja) 人工知能ベースのがん診断及びがん種予測方法{Method for diagnosing and predicting cancer type based on artificial intelligence based on artificial intelligence}
JP2024028758A (ja) 核酸断片間距離情報を用いた染色体異常検出方法
KR102452413B1 (ko) 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법
KR20220071122A (ko) 핵산 길이 비를 이용한 암 진단 및 예후예측 방법
KR20220062839A (ko) 인공지능 기반 모체 시료 중 태아 분획 결정 방법
KR20220160807A (ko) 세포유리 핵산과 이미지 분석기술 기반의 암 진단 및 암 종 예측 방법
WO2024006702A1 (en) Methods and systems for predicting genotypic calls from whole-slide images

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231222

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231222