JP2024028758A

JP2024028758A - 核酸断片間距離情報を用いた染色体異常検出方法

Info

Publication number: JP2024028758A
Application number: JP2023199582A
Authority: JP
Inventors: チャンソクキ; Chang-Seok Ki; ウンヘチョ; Eun Hae Cho; ジュンナムイ; Junnam Lee
Original assignee: Green Cross Genome Corp
Current assignee: GC Genome Corp
Priority date: 2019-08-19
Filing date: 2023-11-27
Publication date: 2024-03-05
Also published as: CA3147613A1; JP2022544626A; EP4020484A4; EP4020484A1; NZ785370A; AU2020333348B2; WO2021034034A1; AU2020333348A1; US20230178182A1

Abstract

【課題】核酸断片間距離情報を用いた染色体の異常を検出する方法を提供する。【解決手段】生体試料から核酸を抽出して配列情報を取得した後、核酸断片基準値間の距離を計算する方法を用いた染色体の異常検出方法を提供する。本発明に係る染色体異常判定方法は、既存のリード個数（ｒｅａｄｃｏｕｎｔ）に基づいて染色体量を決定する段階を利用する方式とは違い、整列された核酸断片間の距離概念を用いて分析する方法であり、既存方法ではリード個数が減少すれば正確度が低下するが、本発明の方法ではリード個数が減少しても検出の正確度を上げることができる他、全ての染色体区間ではなく一定区間の核酸断片間の距離を分析しても検出正確度が高いので、有用である。【選択図】図１

Description

本発明は、核酸断片間距離情報を用いて染色体の異常を検出する方法に関し、より具体的には、生体試料から核酸を抽出して配列情報を取得した後、核酸断片基準値間の距離を計算する方法を用いた染色体異常検出方法に関する。

染色体異常（ｃｈｒｏｍｏｓｏｍａｌａｂｎｏｒｍａｌｉｔｙ）は、遺伝的欠陥及び腫瘍疾患に関連している。染色体異常は、染色体の欠失又は重複、染色体のうち一部の欠失又は重複、又は染色体内の損傷（ｂｒｅａｋ）、転位（ｔｒａｎｓｌｏｃａｔｉｏｎ）、又は逆位（ｉｎｖｅｒｓｉｏｎ）を意味することもある。染色体異常は、遺伝的バランス障害の一つであって、胎児死亡又は肉体及び精神状態の深刻な欠陥及び腫瘍疾患を誘発する。例えば、ダウン症候群（Ｄｏｗｎ’ｓｓｙｎｄｒｏｍｅ）は、２１番染色体が３本存在（ｔｒｉｓｏｍｙ２１）して誘発される染色体数異常のありふれた形態である。エドワード症候群（Ｅｄｗａｒｄｓｓｙｎｄｒｏｍｅ）（ｔｒｉｓｏｍｙ１８）、パトウ症候群（Ｐａｔａｕｓｙｎｄｒｏｍｅ）（ｔｒｉｓｏｍｙ１３）、ターナー症候群（Ｔｕｒｎｅｒｓｙｎｄｒｏｍｅ）（ＸＯ）、及びクラインフェルター症候群（Ｋｌｉｎｅｆｅｌｔｅｒｓｙｎｄｒｏｍｅ）（ＸＸＹ）も染色体数異常に該当する。また、腫瘍患者からも染色体異常が発見される。例えば、肝癌患者（ＬｉｖｅｒＡｄｅｎｏｍａｓａｎｄａｄｅｎｏｃａｒｃｉｎｏｍａｓ）から４ｑ、１１ｑ、２２ｑ領域の重複と１３ｑ領域の欠失が確認され、膵癌患者からは２ｐ、２ｑ、６ｐ、１１ｑ領域の重複と６ｑ、８ｐ、９ｐ、２１番染色体領域の欠失が確認された。これらの領域は、腫瘍と関連した腫瘍遺伝子（Ｏｎｃｏｇｅｎｅ）、癌抑制遺伝子（Ｔｕｍｏｒｓｕｐｐｒｅｓｓｏｒｇｅｎｅ）領域と関連付けられている。

染色体異常は、核型検査（Ｋａｒｙｏｔｙｐｅ）、ＦＩＳＨ（Ｆｌｕｏｒｅｓｃｅｎｔ
ＩｎＳｉｔｕＨｙｂｒｉｄｉｚａｔｉｏｎ）を用いて検出可能である。このような検出法は、時間、努力及び正確度の側面で不利である。また、ＤＮＡマイクロアレイを染色体異常検出に用いることができる。特に、ゲノムＤＮＡマイクロアレイシステムは、プローブの作製が容易であり、染色体の拡張された領域の他に染色体のイントロン領域においても染色体異常を検出できるが、染色体内の位置及び機能が確認されたＤＮＡ断片を多数作製することは困難である。

近年、次世代シーケンシング技術が染色体数異常分析に用いられている（Ｐａｒｋ，Ｈ．，Ｋｉｍｅｔａｌ．，ＮａｔＧｅｎｅｔ２０１０，４２，４００－４０５．；Ｋｉｄｄ，Ｊ．Ｍ．ｅｔａｌ．，Ｎａｔｕｒｅ２００８，４５３，５６－６４）。しかしながら、この技術は、染色体数異常分析のための高いカバレッジ読み（ｃｏｖｅｒａｇｅｒｅａｄｉｎｇ）を要求し、ＣＮＶ測定は、独立した立証（ｖａｌｉｄａｔｉｏｎ）も必要とする。このため、非常に高コストとなり、結果が理解し難いため、その当時、一般の遺伝子検索分析として不適であった。

現在、実時間ｑＰＣＲが定量的な遺伝子分析用先端技術として用いられているが、これは、広い動力学範囲（Ｗｅａｖｅｒ，Ｓ．ｅｔａｌ，Ｍｅｔｈｏｄｓ２０１０，５０，２７１－２７６）及び閾値周期（ｔｈｒｅｓｈｏｌｄｃｙｃｌｅ）と初期ターゲット量との間に線形的な相関関係が再現的に観察されるためである（Ｄｅｅｐａｋ，Ｓ．ｅｔ
ａｌ．，ＣｕｒｒＧｅｎｏｍｉｃｓ２００７，８，２３４－２５１）。しかし、ｑＰＣＲ分析の敏感度は、複製数の差が区別される程度に十分に高くはない。

一方、胎児染色体異常に対する既存の産前検査項目には、超音波検査、血中標識者検査、羊水検査、絨毛膜検査、経皮臍帯血検査などがある（ＭｕｊｅｚｉｎｏｖｉｃＦ，ｅｔａｌ．ＯｂｓｔｅｔＧｙｎｅｃｏｌ．２００７，１１０（３）：６８７－９４．）。このうち、超音波検査と血中標識者検査は選別検査に、羊水染色体検査は確診検査に分類する。非侵襲的方法である超音波検査及び血中標識者検査は、胎児に対する直接的な試料採取をせず、安全な方法であるが、検査の敏感度が８０％以下と劣っている（ＡＣＯＧ
ＣｏｍｍｉｔｔｅｅｏｎＰｒａｃｔｉｃｅＢｕｌｌｅｔｉｎｓ．２００７）。侵襲的方法である羊水検査、絨毛膜検査、経皮臍帯血検査は、胎児染色体異常を確診できるが、侵襲的医療行為による胎児の消失確率が存在するという短所がある。

１９９７年にＬｏ等が母体血漿及び血清から、胎児由来遺伝物質のＹ染色体塩基配列分析に成功し、母体内胎児遺伝物質を産前検査に利用可能になった（ＬｏＹＭ，ｅｔａｌ．Ｌａｎｃｅｔ．１９９７，３５０（９０７６）：４８５－７）。母体血液中の胎児遺伝物質は、胎盤再形成過程中に細胞死過程を経た栄養膜細胞の一部分が物質交換機序によって母体血液に入ったものであり、実際には胎盤から由来し、これをｃｆｆＤＮＡ（ｃｅｌｌ－ｆｒｅｅｆｅｔａｌＤＮＡ）と定義する。

ｃｆｆＤＮＡは、早ければ胚移植１８日目から、遅くとも３７日目には大部分の母体血液から発見される。ｃｆｆＤＮＡは、３００ｂｐ以下の短い鎖であり、母体血液中に少量で存在する特徴を有するので、これを胎児染色体異常検出に適用する目的に、次世代塩基配列分析手法（ＮＧＳ）を用いた大規模並列塩基分析技術が用いられている。大規模並列塩基分析技術を用いた非侵襲的胎児染色体異常検出性能は、染色体によって９０～９９％以上の検出敏感度を示しているが、偽陽性及び偽陰性の結果が１～１０％に及んでおり、これに対する矯正技術が必要な現状である（ＧｉｌＭＭ，ｅｔａｌ．ＵｌｔｒａｓｏｕｎｄＯｂｓｔｅｔＧｙｎｅｃｏｌ．２０１５，４５（３）：２４９－６６）。

そこで、本発明者らは、上記問題点を解決し、高い敏感度及び正確度の染色体異常検出方法を開発するために鋭意努力した結果、染色体領域に整列される核酸断片（ｆｒａｇｍｅｎｔｓ）をグループ化した後、核酸断片基準値間の距離を計算して正常グループと比較した結果、高い敏感度及び正確度で染色体異常を検出できるということを確認し、本発明を完成するに至った。

本発明の目的は、核酸断片間距離情報を用いた染色体の異常を判定する方法を提供することである。

本発明の他の目的は、核酸断片間距離情報を用いて染色体の異常を判定する装置を提供することである。

本発明のさらに他の目的は、前記方法で染色体の異常を判定するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体を提供することである。

前記目的を達成するために、本発明は、生体試料から抽出した核酸断片（ｆｒａｇｍｅｎｔｓ）基準値間の距離を計算して染色体異常を検出する方法を提供する。

本発明は、また、生体試料から核酸を抽出して配列情報を解読する解読部；解読された配列を標準染色体配列データベースに整列する整列部；及び、選別された核酸断片（ｆｒａｇｍｅｎｔｓ）に対して整列された核酸断片の基準値間の距離を測定してＦＤ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅ）を計算し、計算したＦＤ値に基づいて染色体全体領域又は特定遺伝領域別にＦＤＩ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＦＤＩ値が基準値範囲に属しない場合に、染色体異常があると判定する染色体異常判定部を含む染色体異常検出装置を提供する。

本発明は、また、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
（Ａ）生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階；
（Ｂ）取得した配列情報（ｒｅａｄｓ）に基づいて核酸断片を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
（Ｃ）選別された核酸断片（ｆｒａｇｍｅｎｔｓ）の基準値間の距離を測定してＦＤ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅ）を計算する段階；及び
（Ｄ）前記（Ｃ）段階で計算したＦＤ値に基づいて染色体全体領域又は特定遺伝領域別にＦＤＩ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＦＤＩ値が基準値又は範囲に属しない場合に、染色体異常があると判定する段階、により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体を提供する。

本発明は、また、（Ａ）生体試料から核酸を抽出して配列情報を取得する段階；（Ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；（Ｃ）前記整列された配列情報（ｒｅａｄｓ）に対して、整列されたリード間の距離を測定し、ＲＤ値（ＲｅａｄＤｉｓｔａｎｃｅ）を計算する段階；及び、（Ｄ）前記（Ｃ）段階で計算したＲＤ値に基づいて染色体全体領域又は特定遺伝領域別にＲＤＩ値（ＲｅａｄＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＲＤＩ値が基準値範囲に属しない場合に、染色体異常があると判定する段階、を含む染色体異常検出方法を提供する。

本発明は、また、生体試料から核酸を抽出して配列情報を解読する解読部；解読された配列を標準染色体配列データベースに整列する整列部；及び、選別された配列情報（ｒｅａｄｓ）に対して、整列されたリード間の距離を測定してＲＤ値（ＲｅａｄＤｉｓｔａｎｃｅ）を計算し、計算したＲＤ値に基づいて染色体全体領域又は特定遺伝領域別にＲＤＩ値（ＲｅａｄＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＲＤＩ値が基準値範囲に属しない場合に、染色体異常があると判定する染色体異常判定部を含む染色体異常検出装置を提供する。

本発明は、また、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、（Ａ）生体試料から核酸を抽出して配列情報を取得する段階；（Ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；（Ｃ）選別された配列情報（ｒｅａｄｓ）に対して、整列されたリード間の距離を測定し、ＲＤ値（ＲｅａｄＤｉｓｔａｎｃｅ）を計算する段階；及び、（Ｄ）前記（Ｃ）段階で計算したＲＤ値に基づいて染色体全体領域又は特定遺伝領域別にＲＤＩ値（ＲｅａｄＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＲＤＩ値が基準値範囲に属しない場合に、染色体異常があると判定する段階、により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体を提供する。

本発明の一実施例に係るＦＤ値に基づく染色体異常を判定するための全体フローチャートである。

シングルエンドシーケンシング（ｓｉｎｇｌｅ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）方法で生産されたリードから本発明のＦＤ値を計算する方法を示す概念図である。

ペアードエンドシーケンシング（ｐａｉｒｅｄ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）方法で生産されたリードから本発明のＦＤ値を計算する方法を示す概念図である。

本発明においてリード外位置情報を用いてＦＤ値を補正する方法に対する概念図である。

本発明の一実施例においてペアードエンドシーケンシング方法で生産されたリードデータに基づき、リード外位置情報を用いる場合と用いない場合に計算されるＦＤ値の差を測定したグラフである。

本発明の一実施例に係るＲＤ値に基づく染色体異常を判定するための全体フローチャートである。

本発明の一実施例に係るＲＤ値ベースの方法で計算するリード距離（ＲｅａｄＤｉｓｔａｎｃｅ）に対する概念を図式化したものである。リード間距離（ＲｅａｄｓＤｉｓｔａｎｃｅ）計算に用いられるリード（Ｒｅａｄｓ）の場合、整列された方向に関係なく利用してもよく（図７（Ａ））、整列された方向を考慮して利用してもよい。（正の方向：図７（Ｂ）、負の方向：図７（Ｃ））

本発明の一実施例に係るＲＤ値ベースの方法でＸ染色体のリード個数（ｒｅａｄｃｏｕｎｔ）とＲｅｐＲＤの分布を図式化したものであり、両値の関係が線形でなく非線形関係であることを確認した。

本発明の一実施例に係るＲＤ値ベースの方法において染色体別リード個数（ｒｅａｄｃｏｕｎｔ）とＲｅｐＲＤの分布を図式化したものであり、（Ａ）は正常染色体、（Ｂ）は三染色体性（ｔｒｉｓｏｍｙ）２１番染色体、（Ｃ）は三染色体性（ｔｒｉｓｏｍｙ）１８番染色体、及び（Ｄ）は三染色体性（ｔｒｉｓｏｍｙ）１３番染色体を示すものである。

本発明の一実施例に係るＲＤ値ベースの方法で計算したＲＤＩ値と胎児分画（図１０のＡ）、妊娠週数（図１０のＢ）及びＧ－ｓｃｏｒｅ値（大韓民国特許第１０－１６８６１４６号公報、図１０のＣ）の関係をそれぞれ確認した結果である。

本発明の一実施例に係るＲＤ値ベースの方法において正常群と各染色体異数性と確認されたサンプルに対するＲＯＣ分析の結果である。

本発明の一実施例に係るＲＤ値ベースの方法においてリード数による正確度を確認した結果であり、Ｘ軸はリードの数であり、Ｙ軸はＡＵＣを意味する。

本発明の一実施例に係るＲＤ値ベースの方法とリードの数及び染色体異常との関連度を確認した結果である。

本発明の一実施例に係るＲＤ値ベースの方法とマイクロアレイ分析結果を比較した結果である。

本発明の一実施例に係るＲＤ値ベースの方法において正常人と２１番染色体異数性サンプルのＲｅｐＲＤを中央値の逆数に設定したＲＤＩ値分布を確認した結果である。

本発明の一実施例に係るＲＤ値ベースの方法において正常人と２１番染色体異数性サンプルのＲｅｐＲＤを平均値に設定したＲＤＩ値分布を確認した結果である。

本発明の一実施例に係るＲＤ値ベースの方法において正常人と２１番染色体異数性サンプルのＲｅｐＲＤを平均値の逆数に設定したＲＤＩ値分布を確認した結果である。

特に断りのない限り、本明細書で使われる全ての技術的及び科学的用語は、本発明の属する技術の分野における熟練した専門家によって通常理解されるのと同じ意味を有する。一般に、本明細書における命名法及び以下に記述する実験方法は、本技術分野でよく知られており、通常使われるものである。

本発明では、サンプルから取得した配列情報（ｒｅａｄ）データを参照遺伝体に整列し、整列された核酸断片（ｆｒａｇｍｅｎｔｓ）をグループ化した後、核酸断片基準値間の距離を計算することにより、正常人集団と実験対象者の分析しようとする染色体における代表値を比較して染色体異常を検出する場合に、高い敏感度及び正確度で染色体異常を検出できるということを確認しようとした。

本発明に係る染色体異常検出方法は、異数性などの胎児の染色体異常の他、腫瘍の検出、すなわち腫瘍の診断又は予後の予測にも用いることができる。

すなわち、本発明の一実施例では、血液から抽出したＤＮＡをシーケンシングした後、参照染色体に整列した後、核酸断片を全体グループ、正方向グループ及び逆方向グループにグループ化した後、各グループ別に核酸断片基準値間の距離（ｆｒａｇｍｅｎｔｄｉｓｔａｎｃｅ，ＦＤ）を計算し、各遺伝領域当たりの核酸断片基準値間距離の代表値（ＲｅｐＦＤ）を導出した後、正規化要素を用いてＲｅｐＦＤ比率（ＲｅｐＦＤｒａｔｉｏ）を計算し、正常人参照集団におけるＲｅｐＦＤ比率と比較してグループ別ＦＤＩ（ＦｒａｇｍｅｎｔＤｉｓｔａｎｃｅＩｎｄｅｘ）値を導出し、全てのグループ別ＦＤＩ値が基準値を下回る或いは上回る場合に、実験対象者の染色体異常があると決定する方法を開発した（図１）。

したがって、本発明は、一観点において、生体試料から抽出した核酸断片（ｆｒａｇｍｅｎｔｓ）基準値間の距離を計算して染色体異常を検出する方法に関する。

本発明において、前記核酸断片は、生体試料から抽出した核酸の断片であればいずれも使用可能であるが、好ましくは、細胞遊離核酸又は細胞内核酸の断片であり得るが、これに限定されるものではない。

本発明において、前記核酸断片は、直接に配列分析する、次世代塩基配列分析によって配列分析する、又は非特異的全長遺伝体増幅（ｎｏｎ－ｓｐｅｃｉｆｉｃｗｈｏｌｅｇｅｎｏｍｅａｍｐｌｉｆｉｃａｔｉｏｎ）によって配列分析して得たものであることを特徴とし得る。

本発明において、前記核酸断片を直接配列分析する方法は、既存公知のいかなる技術も用いることができる。

本発明において、非特異的全長遺伝体増幅によって配列分析する方法は、ランダムプライマーを用いて核酸を増幅した後、配列分析を行うあらゆる方法を意味する。

本発明において、次世代塩基配列分析による配列分析を用いて核酸断片基準値間の距離を計算し、これに基づいて染色体異常の有無を判定する方法は、
（Ａ）生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階；
（Ｂ）取得した配列情報（ｒｅａｄｓ）に基づいて標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）から核酸断片の位置を確認する段階；
（Ｃ）前記配列情報（ｒｅａｄｓ）を全体配列、正方向配列及び逆方向配列にグループ化する段階；
（Ｄ）前記グループ化された配列情報を用いて、各核酸断片の基準値を定義し、基準値間の距離を測定して、各グループ別ＦＤ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅ）を計算する段階；及び
（Ｅ）前記（Ｄ）段階で計算した各グループ別ＦＤ値に基づいて染色体全体領域又は特定領域別にそれぞれのＦＤＩ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、それぞれのＦＤＩ値がいずれも基準値範囲に属しない場合に、染色体異常があると判定する段階；
を含む方法で行うことを特徴とし得るが、これに限定されるものではない。

本発明において、用語“染色体異常”は、染色体に発生する様々な変異を意味するが、大きく、数異常、構造異常、微細欠失、及び染色体不安定性などに区分できる。

染色体の数異常は、染色体の個数に異常が発生する場合であり、例えば、ダウン症候群（ＤｏｗｎＳｙｎｄｒｏｍｅ，２１番目染色体が１個さらに多くて全体染色体の数が４７個）、ターナー症候群（ＴｕｒｎｅｒＳｙｎｄｒｏｍｅ、単一Ｘを有し、染色体の数が４５個）、及びクラインフェルター症候群（ＫｌｉｎｅｆｅｌｔｅｒＳｙｎｄｒｏｍｅ，ＸＸＹＹ、ＸＸＸＹ、ＸＸＸＸＹなどの染色体数を有する）のように、全体染色体の個数である２３対４６個から異常が発生するあらゆる場合を含むことができる。

染色体の構造異常は、欠失、重複、逆位、転座、融合（Ｆｕｓｉｏｎ）、マイクロサテライト不安定性（ＭＳＩ－Ｈ）などの、染色体の個数には変化がないが、染色体の構造に変化が発生するあらゆる場合を意味する。例えば、５番染色体の一部欠失（猫泣き症候群）、７番染色体の一部欠失（ウィリアムズ症候群）、１２番染色体の一部重複（ウォルフヒルシュホーン症候群）などが挙げられる。腫瘍患者から発見される染色体構造的異常には、９番染色体と２２番染色体間の転座（慢性骨髄白血病）、４ｑ、１１ｑ、２２ｑ領域の重複及び１３ｑ領域の欠失（肝癌）、２ｐ、２ｑ、６ｐ、１１ｑ領域の重複及び６ｑ、８ｐ、９ｐ、２１番染色体領域の欠失（膵癌）、ＴＭＰＲＳＳ２－ＴＲＧ遺伝子融合（前立腺癌）、染色体全般にわたるマイクロサテライト不安定性（大腸癌）などが確認された。このような領域は腫瘍と関連した腫瘍遺伝子（ｏｎｃｏｇｅｎｅ）、腫瘍抑制遺伝子（ｔｕｍｏｒｓｕｐｐｒｅｓｓｏｒｇｅｎｅ）領域と関連付いているが、上述の内容に限定されるものではない。

本発明において、
前記（Ａ）段階は、
（Ａ－ｉ）血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びそれらの混合物から核酸を得る段階；
（Ａ－ｉｉ）採取された核酸から塩析方法（ｓａｌｔｉｎｇ－ｏｕｔｍｅｔｈｏｄ）、カラムクロマトグラフィー方法（ｃｏｌｕｍｎｃｈｒｏｍａｔｏｇｒａｐｈｙｍｅｔｈｏｄ）又はビーズ方法（ｂｅａｄｓｍｅｔｈｏｄ）を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階；
（Ａ－ｉｉｉ）精製された核酸又は酵素的切断、粉砕、水圧切断方法（ｈｙｄｒｏｓｈｅａｒｍｅｔｈｏｄ）で無作為断片化（ｒａｎｄｏｍｆｒａｇｍｅｎｔａｔｉｏｎ）された核酸に対して、シングルエンドシーケンシング（ｓｉｎｇｌｅ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）又はペアエンドシーケンシング（ｐａｉｒ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）ライブラリー（ｌｉｂｒａｒｙ）を作製する段階；
（Ａ－ｉｖ）作製されたライブラリーを次世代シークエンサー（ｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｅｒ）に反応させる段階；及び
（Ａ－ｖ）次世代シークエンサーから核酸の配列情報（ｒｅａｄｓ）を取得する段階を含むことを特徴とし得る。

本発明において、前記次世代シークエンサー（ｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｅｒ）は、当業界に公知の任意のシーケンシング方法で用いられてよい。選択方法によって分離された核酸のシーケンシングは、典型的には次世代シーケンシング（ＮＧＳ）を用いて行われる。次世代シーケンシングは、個々の核酸分子又は高度に類似な方式で個々の核酸分子に対してクローンで拡張されたプロキシのうち一つのヌクレオチド配列を決定する任意のシーケンシング方法を含む（例えば、１０^５個以上の分子が同時にシーケンシングされる。）。一実施形態において、ライブラリー内核酸種の相対的存在比は、シーケンシング実験によって作られたデータからそれの同族配列の相対的発生数を計測することによって推定することができる。次世代シーケンシング方法は当業界に公知されており、例えば、本明細書に援用により組み込まれた文献（Ｍｅｔｚｋｅｒ，Ｍ．（２０１０）ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙＲｅｖｉｅｗｓ１１：３１－４６）に記載されている。

一実施形態において、次世代シーケンシングは、個々の核酸分子のヌクレオチド配列を決定するために行われる（例えば、ヘリコスバイオサイエンス（ＨｅｌｉｃｏｓＢｉｏＳｃｉｅｎｃｅｓ）のヘリスコープ遺伝子シーケンシングシステム（ＨｅｌｉＳｃｏｐｅ
ＧｅｎｅＳｅｑｕｅｎｃｉｎｇｓｙｓｔｅｍ）及びパシフィックバイオサイエンスのパックバイオアールエスシステム（ＰａｃＢｉｏＲＳｓｙｓｔｅｍ））。他の実施形態において、シーケンシング、例えば、より少ないが、より長いリードを生成する他のシーケンシング方法に比べてシーケンシング単位当たりに配列のより多い塩基を生成する大量並列の短いリードシーケンシング（例えば、カリフォルニア州サンディエゴに所在するイルミナインコポレイテッド（ＩｌｌｕｍｉｎａＩｎｃ．）ソレキサシーケンサー（Ｓｏｌｅｘａｓｅｑｕｅｎｃｅｒ））方法は、個々の核酸分子に対してクローンで拡張されたプロキシのヌクレオチド配列を決定する（例えば、カリフォルニア州サンディエゴに所在のイルミナインコポレイテッド（ＩｌｌｕｍｉｎａＩｎｃ．）ソレキサシーケンサー（Ｓｏｌｅｘａｓｅｑｕｅｎｃｅｒ）；４５４ライフサイエンス（ＬｉｆｅＳｃｉｅｎｃｅｓ）（コネチカット州ブランフォードに所在）及びイオントレント（ＩｏｎＴｏｒｒｅｎｔ））。次世代シーケンシングのための他の方法又は機械は、以下に制限されるものではないが、４５４ライフサイエンス（ＬｉｆｅＳｃｉｅｎｃｅｓ）（コネチカット州ブランフォードに所在）、アプライドバイオシーステムズ（カリフォルニア州フォスターシティに所在；ＳＯＬｉＤシーケンサー）、ヘリコスバイオサイエンスコポーレーション（マサチューセッツ州カンブリッジに所在）、及びエマルジョン及びマイクロ流動シーケンシング手法ナノ点滴（例えば、ジヌバイオ（ＧｎｕＢｉｏ）点滴）によって提供される。

次世代シーケンシングのためのプラットホームは、以下に制限されるものではないが、ロシュ（Ｒｏｃｈｅ）／４５４のゲノムシーケンサー（ＧｅｎｏｍｅＳｅｑｕｅｎｃｅｒ：ＧＳ）ＦＬＸシステム、イルミナ（Ｉｌｌｕｍｉｎａ）／ソレキサ（Ｓｏｌｅｘａ）ゲノム分析器（ＧｅｎｏｍｅＡｎａｌｙｚｅｒ：ＧＡ）、ライフ（Ｌｉｆｅ）／ＡＰＧのサポートオリゴ（ＳｕｐｐｏｒｔＯｌｉｇｏｎｕｃｌｅｏｔｉｄｅＬｉｇａｔｉｏｎＤｅｔｅｃｔｉｏｎ：ＳＯＬｉＤ）システム、ポロネーター（Ｐｏｌｏｎａｔｏｒ）のＧ．００７システム、ヘリコスバイオサイエンスのヘリスコープ遺伝子シーケンシングシステム（ＨｅｌｉｃｏｓＢｉｏＳｃｉｅｎｃｅｓ’ ＨｅｌｉＳｃｏｐｅＧｅｎｅＳｅｑｕｅｎｃｉｎｇｓｙｓｔｅｍ）及びパシフィックバイオサイエンス（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）のパックバイオアールエス（ＰａｃＢｉｏＲＳ）システム、ＭＧＩ社のＤＮＢｓｅｑを含む。

ＮＧＳテクノロジーズは、例えば、鋳型製造、シーケンシング及びイメージング及びデータ分析段階のうち一つ以上を含むことができる。

鋳型製造段階、鋳型製造のための方法は、核酸（例えば、ゲノムＤＮＡ又はｃＤＮＡ）を小さい大きさで無作為に破壊する段階、及びシーケンシング鋳型（例えば、断片鋳型又はメート対鋳型）を作る段階のような段階を含むことができる。空間的に分離された鋳型は、固体表面又は支持体に付着したり又は固定されてよいが、これは、大量のシーケンシング反応が同時に行われるようにする。ＮＧＳ反応のために使用可能な鋳型の類型は、例えば、単一ＤＮＡ分子から由来したクローンが増幅された鋳型及び単一ＤＮＡ分子鋳型を含む。

クローンが増幅された鋳型の製造方法は、例えば、エマルジョンＰＣＲ（ｅｍｕｌｓｉｏｎＰＣＲ：ｅｍＰＣＲ）及び固体相増幅を含む。

ＥｍＰＣＲは、ＮＧＳのための鋳型を製造するために用いることができる。典型的に、核酸断片のライブラリーが作られ、通常のプライミング部位を含有するアダプターは、断片の末端に結紮される。その後、断片は単一鎖に変性され、ビーズによって捕獲される。各ビーズは、単一核酸分子を捕獲する。増幅及びｅｍＰＣＲビーズの豊富化後に、多量の鋳型が付着し得、標準顕微鏡スライド（例えば、ポロネーター（Ｐｏｌｏｎａｔｏｒ））上でポリアクリルアミドゲルに固定され、アミノコーティングされたガラス表面（例えば、Ｌｉｆｅ／ＡＰＧ；ポロネーター（Ｐｏｌｏｎａｔｏｒ））に化学的に架橋される、又は個々のピコタイタプレート（ＰｉｃｏＴｉｔｅｒＰｌａｔｅ：ＰＴＰ）ウェル（例えば、ロシュ（Ｒｏｃｈｅ）／４５４）上に蒸着されるが、このとき、ＮＧＳ反応が行われ得る。

固体相増幅もまた用いられ、ＮＧＳのための鋳型を生成することができる。典型的に、前方及び後方プライマーは、固体支持体に共有的に付着する。増幅された断片の表面密度は、支持体上でプライマー対鋳型の比として定義される。固体相増幅は、数百万個の空間的に分離された鋳型クラスター（例えば、イルミナ／ソレキサ（Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘａ））を生成できる。鋳型クラスターの末端は、ＮＧＳ反応のための通常のプライマーに混成化されてよい。

クローンで増幅された鋳型の製造のための他の方法は、例えば、多重置換増幅（ＭｕｌｔｉｐｌｅＤｉｓｐｌａｃｅｍｅｎｔＡｍｐｌｉｆｉｃａｔｉｏｎ：ＭＤＡ）（ＬａｓｋｅｎＲ．Ｓ．ＣｕｒｒＯｐｉｎＭｉｃｒｏｂｉｏｌ．２００７；１０（５）：５１０－６）を含む。ＭＤＡは、非ＰＣＲベースのＤＮＡ増幅手法である。反応は、鋳型に対して無作為にヘキサマープライマーをアニーリングする段階、及び一定の温度で高忠実度酵素、典型的にФ２９重合酵素によってＤＮＡを合成する段階を伴う。ＭＤＡは、より低い誤り頻度で巨大な大きさの生成物を作ることができる。

ＰＣＲのような鋳型増幅方法は、標的にＮＧＳプラットホームを結合させ得るか又はゲノムの特異的領域を豊富化させ得る（例えば、エクソン）。代表的な鋳型豊富化方法は、例えば、マイクロ点滴ＰＣＲ手法（ＴｅｗｈｅｙＲ．ｅｔａｌ．，ＮａｔｕｒｅＢｉｏｔｅｃｈ．２００９，２７：１０２５－１０３１）、カスタマイズ設計されたオリゴヌクレオチドマイクロアレイ（例えば、ロシュ（Ｒｏｃｈｅ）／ニンブルジェン（ＮｉｍｂｌｅＧｅｎ）オリゴヌクレオチドマイクロアレイ）及び溶液ベースの混成化方法（例えば、分子逆位プローブ（ｍｏｌｅｃｕｌａｒｉｎｖｅｒｓｉｏｎｐｒｏｂｅ：ＭＩＰ））（ＰｏｒｒｅｃａＧ．Ｊ．ｅｔａｌ．，ＮａｔｕｒｅＭｅｔｈｏｄｓ，２００７，４：９３１－９３６；ＫｒｉｓｈｎａｋｕｍａｒＳ．ｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ，２００８，１０５：９２９６－９３１０；ＴｕｒｎｅｒＥ．Ｈ．ｅｔａｌ．，ＮａｔｕｒｅＭｅｔｈｏｄｓ，２００９，６：３１５－３１６）及びビオチン化されたＲＮＡ捕獲配列（ＧｎｉｒｋｅＡ．ｅｔａｌ．，Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．２００９；２７（２）：１８２－９）を含む。

単一分子鋳型は、ＮＧＳ反応のために利用可能な鋳型の他の類型である。空間的に分離された単一分子鋳型は、様々な方法によって固体支持体上に固定されてよい。一接近において、個々のプライマー分子は、固体支持体に共有的に付着する。アダプターは鋳型に添加され、鋳型は、その次に固定されたプライマーに混成化される。他の接近において、単一分子鋳型は、固定されたプライマーから単一鎖の単一分子鋳型をプライミングし延長させることによって固体支持体に共有的に付着する。その後、通常のプライマーは、鋳型に混成化される。さらに他の接近において、単一ポリメラーゼ分子は、プライミングされた鋳型が結合した固体支持体に付着する。

シーケンシング及びイメージング。ＮＧＳのための代表的なシーケンシング及びイメージング方法は、以下に制限されるものではないが、サイクリック可逆的終結（ｃｙｃｌｉｃｒｅｖｅｒｓｉｂｌｅｔｅｒｍｉｎａｔｉｏｎ：ＣＲＴ）、結紮によるシーケンシング（ｓｅｑｕｅｎｃｉｎｇｂｙｌｉｇａｔｉｏｎ：ＳＢＬ）、単一分子添加（パイロシーケンシング（ｐｙｒｏｓｅｑｕｅｎｃｉｎｇ））及び実時間シーケンシングを含む。

ＣＲＴは、ヌクレオチド取り込み、蛍光イメージング及び切断段階を最小限に含むサイクリック方法において可逆ターミネーターを使用する。典型的に、ＤＮＡポリメラーゼは、プライマーに鋳型塩基の相補的ヌクレオチドに対して相補的な単一の蛍光で修飾されたヌクレオチドを含める。ＤＮＡ合成は、単一ヌクレオチドの添加後に終結され、含まれなかったヌクレオチドは洗浄される。含まれた標識ヌクレオチドの同一性を決定するためにイメージングが行われる。その後、切断段階において、ターミネーター／インヒビター及び蛍光染料は除去される。ＣＲＴ方法を用いる代表的なＮＧＳプラットホームは、以下に制限されるものではないが、全体内部反射蛍光（ｔｏｔａｌｉｎｔｅｒｎａｌｒｅｆｌｅｃｔｉｏｎｆｌｕｏｒｅｓｃｅｎｃｅ：ＴＩＲＦ）によって検出された４色ＣＲＴ方法と結合したクローンで増幅された鋳型方法を用いるイルミナ（Ｉｌｌｕｍｉｎａ）／ソレキサ（Ｓｏｌｅｘａ）ゲノム分析器（ＧＡ）；及びＴＩＲＦによって検出された１色ＣＲＴ方法と結合した単一分子鋳型方法を用いるヘリコスバイオサイエンス（ＨｅｌｉｃｏｓＢｉｏＳｃｉｅｎｃｅｓ）／ヘリスコープ（ＨｅｌｉＳｃｏｐｅ）を含む。

ＳＢＬは、シーケンシングのためにＤＮＡリガーゼ及び１塩基暗号化されたプローブ又は２塩基暗号化されたプローブのいずれかを使用する。

典型的に、蛍光標識されたプローブは、プライミングされた鋳型に隣接した相補的配列に混成化される。ＤＮＡリガーゼは、プライマーに染料標識されたプローブを結紮させるために用いられる。非結紮プローブが洗浄された後、結紮されたプローブの同一性を決定するために蛍光イメージングが行われる。蛍光染料は、後続の結紮周期のために５’－ＰＯ４基を再生する切断可能なプローブを用いて除去されてよい。代案として、新しいプライマーは、古くなったプライマーが除去された後、鋳型に混成化されてよい。代表的なＳＢＬプラットホームは、以下に制限されるものではないが、ライフ（Ｌｉｆｅ）／ＡＰＧ／ＳＯＬｉＤ（支持体オリゴヌクレオチド結紮検出）を含むが、これは、２塩基暗号化されたプローブを使用する。

パイロシーケンシング方法は、他の化学発光酵素でＤＮＡポリメラーゼの活性を検出する段階に基づく。典型的に、当該方法は、１回に１つの塩基対に沿って相補的鎖を合成し、各段階で実際に添加された塩基を検出することによってＤＮＡの単一鎖をシーケンシングさせる。鋳型ＤＮＡは固定的であり、Ａ、Ｃ、Ｇ及びＴヌクレオチドの溶液は順次に添加され、反応から除去される。光は、単にヌクレオチド溶液が、鋳型の対をなしていない塩基を補充する時にのみ生成される。化学発光信号を生成する溶液の配列は、鋳型の配列を決定させる。代表的なパイロシーケンシングプラットホームは、以下に制限されるものではないが、ＰＴＰウェルに蒸着された１百万～２百万個のビーズによるｅｍＰＣＲによって製造されたＤＮＡ鋳型を使用するロシュ（Ｒｏｃｈｅ）／４５４を含む。

実時間シーケンシングは、ＤＮＡ合成の間に染料標識されたヌクレオチドの連続的取り込みをイメージングする段階を伴う。代表的な実時間シーケンシングプラットホームは、以下に制限されるものではないが、ホスフェート連結されたヌクレオチドが成長するプライマー鎖に含まれる時に配列情報を得るための個々の０モードウェーブガイド（ｚｅｒｏ－ｍｏｄｅｗａｖｅｇｕｉｄｅ，ＺＭＷ）検出器の表面に付着したＤＮＡポリメラーゼ分子を使用するパシフィックバイオサイエンスプラットホーム（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）；蛍光共鳴エネルギー伝達（ｆｌｕｏｒｅｓｃｅｎｃｅｒｅｓｏｎａｎｃｅｅｎｅｒｇｙｔｒａｎｓｆｅｒ，ＦＲＥＴ）によるヌクレオチド取り込み後に、向上した信号を作るために付着した蛍光染料と共に遺伝子操作されたＤＮＡポリメラーゼを使用するライフ（Ｌｉｆｅ）／ビシゲン（ＶｉｓｉＧｅｎ）プラットホーム；及び、シーケンシング反応で染料クエンチャーヌクレオチドを使用するＬＩ－ＣＯＲバイオサイエンス（Ｂｉｏｓｃｉｅｎｃｅｓ）プラットホームを含む。

ＮＧＳの他のシーケンシング方法は、以下に制限されるものではないが、ナノポアシーケンシング、混成化によるシーケンシング、ナノトランジスターアレイベースのシーケンシング、ポロニー（ｐｏｌｏｎｙ）シーケンシング、走査型電子トンネルリング顕微鏡（ｓｃａｎｎｉｎｇｔｕｎｎｅｌｉｎｇｍｉｃｒｏｓｃｏｐｙ，ＳＴＭ）ベースのシーケンシング、及びナノワイヤー分子センサーベースのシーケンシングを含む。

ナノポアシーケンシングは、単一核酸ポリマーから分析され得る高度に密閉した空間を提供するナノ規模ポアを通じて溶液中の核酸分子の電気泳動を伴う。ナノポアシーケンシングの代表的な方法は、例えば、文献［ＢｒａｎｔｏｎＤ．ｅｔａｌ．，ＮａｔＢｉｏｔｅｃｈｎｏｌ．２００８；２６（１０）：１１４６－５３］に記載されている。

混成化によるシーケンシングは、ＤＮＡマイクロアレイを使用する非酵素的方法である。典型的に、ＤＮＡの単一プールは蛍光で標識され、公知された配列を含有するアレイに混成化される。アレイ上の与えられたスポットから混成化信号はＤＮＡ配列を確認することができる。ＤＮＡ二重鎖においてＤＮＡのうち１本のそれの相補的鎖への結合は、混成体領域が短いか又は具体化したミスマッチ検出タンパク質が存在する時に、単一塩基ミスマッチに対してすら敏感である。混成化によるシーケンシングの代表的な方法は、例えば、文献（ＨａｎｎａＧ．Ｊ．ｅｔａｌ．，Ｊ．Ｃｌｉｎ．Ｍｉｃｒｏｂｉｏｌ．２０００；３８（７）：２７１５－２１；及びＥｄｗａｒｄｓＪ．Ｒ．ｅｔａｌ．，Ｍｕｔ．Ｒｅｓ．２００５；５７３（１－２）：３－１２）に記載されている。

ポロニーシーケンシングは、ポロニー増幅及び多重単一塩基延長（ＦＩＳＳＥＱ）を通じてシーケンシングに従うことに基づく。ポロニー増幅は、ポリアクリルアミドフィルム上でインシチュでＤＮＡを増幅させる方法である。代表的なポロニーシーケンシング方法は、例えば、米国特許出願公開第２００７／００８７３６２号に記載されている。

炭素ナノチューブ電界効果トランジスター（ＣａｒｂｏｎＮａｎｏＴｕｂｅＦｉｅｌｄＥｆｆｅｃｔＴｒａｎｓｉｓｔｏｒ：ＣＮＴＦＥＴ）のようなナノトランジスターアレイベース装置も、ＮＧＳのために用いられてよい。例えば、ＤＮＡ分子は伸張され、マイクロ作製された電極によってナノチューブにわたって駆動される。ＤＮＡ分子は、炭素ナノチューブ表面と順次に接触し、ＤＮＡ分子とナノチューブとの間の電荷伝達に起因して各塩基からの電流流れの差異が生成される。ＤＮＡはこれらの差異を記録することによってシーケンシングされる。代表的なナノトランジスターアレイベースシーケンシング方法は、例えば、米国特許公開第２００６／０２４６４９７号に記載されている。

走査型電子トンネルリング顕微鏡（ＳＴＭ）は、また、ＮＧＳのために用いられてよい。ＳＴＭは、標本のラスター走査（ｒａｓｔｅｒｓｃａｎ）を行うピエゾ電子制御プローブを用いてそれの表面のイメージを形成する。ＳＴＭは、例えば、作動器駆動可撓性ギャップと走査型電子トンネルリング顕微鏡を統合させることによって一貫した電子トンネルリングイメージング及び分光学を作る単一ＤＮＡ分子の物理的特性をイメージングするために用いられてよい。ＳＴＭを使用する代表的なシーケンシング方法は、例えば、米国特許出願公開第２００７／０１９４２２５号に記載されている。

ナノワイヤー分子センサーで構成された分子分析装置もまたＮＧＳのために用いられてよい。このような装置は、ＤＮＡのようなナノワイヤー及び核酸分子に配置された窒素性物質の相互作用を検出できる。分子ガイドは相互作用及び後続する検出を許容するために、分子センサー近くの分子をガイドするために配置される。ナノワイヤー分子センサーを用いる代表的なシーケンシング方法は、例えば、米国特許出願公開第２００６／０２７５７７９号に記載されている。

二重末端のシーケンシング方法がＮＧＳのために用いられてよい。二重末端シーケンシングは、ＤＮＡのセンスとアンチセンス鎖の両方をシーケンシングするために、遮断及び未遮断プライマーを使用する。典型的に、これらの方法は、核酸の第１鎖に未遮断プライマーをアニーリングさせる段階；核酸の第２鎖に第２の遮断プライマーをアニーリングさせる段階；ポリマーラゼで第１鎖に沿って核酸を延長させる段階；第１シーケンシングプライマーを終結させる段階；第２プライマーを遮断解除（ｄｅｂｌｏｃｋｉｎｇ）する段階；及び、第２鎖に沿って核酸を延長させる段階を含む。代表的な二重鎖シーケンシング方法は、例えば、米国特許第７，２４４，５６７号に記載されている。

データ分析段階。ＮＧＳリードが作られた後、それらは公知の基準配列に対して整列されるか又はデノボ組立（ｄｅｎｏｖｏａｓｓｅｍｂｌｅ）される。

例えば、サンプル（例えば、腫瘍サンプル）から単一ヌクレオチド多形性及び構造的変異体のような遺伝的修飾を確認することは、基準配列（例えば、野生型配列）に対してＮＧＳリードを整列することによって行われてよい。ＮＧＳに対する配列整列方法は、例えば、文献（ＴｒａｐｎｅｌｌＣ．ａｎｄＳａｌｚｂｅｒｇＳ．Ｌ．ＮａｔｕｒｅＢｉｏｔｅｃｈ．，２００９，２７：４５５－４５７］に記載されている。

デノボ組立体の例は、例えば、文献（ＷａｒｒｅｎＲ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００７，２３：５００－５０１；ＢｕｔｌｅｒＪ．ｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．，２００８，１８：８１０－８２０；及び、ＺｅｒｂｉｎｏＤ．Ｒ．ａｎｄＢｉｒｎｅｙＥ．，ＧｅｎｏｍｅＲｅｓ．，２００８，１８：８２１－８２９）に記載されている。

配列整列又は組立（ａｓｓｅｍｂｌｙ）は、一つ以上のＮＧＳプラットホームからのリードデータを用いて、例えば、ロシュ（Ｒｏｃｈｅ）／４５４及びイルミナ（Ｉｌｌｕｍｉｎａ）／ソレキサ（Ｓｏｌｅｘａ）リードデータを混合して行われてよい。本発明において、前記整列段階は、これに制限されないが、ＢＷＡアルゴリズム及びｈｇ１９配列を用いて行われてよい。

本発明において、前記（Ｂ）段階の核酸断片の位置を確認する段階は、好ましくは、配列整列（Ｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔ）を通じて行われることを特徴とし、前記配列整列は、コンピュータアルゴリズムであって、ゲノムにおいてリード配列（例えば、次世代シーケンシングからの、例えば、短いリード配列）が殆どリード配列と基準配列間の類似性を評価することによって由来する可能性がある場合から同一性に対して使用されるコンピュータ的方法又は接近を含む。配列整列問題に様々なアルゴリズムが適用されてよい。一部のアルゴリズムは相対的に遅いが、相対的に高い特異性を許容する。これらは、例えば、力動的プログラミングベースアルゴリズムを含む。力動的プログラミングは、それらがより簡単な段階に分けられることによって複雑な問題を解決する方法である。他の接近は、相対的により効率的であるが、典型的に徹底していない。これは、例えば、大量データベース検索のために設計されたヒューリスティク（ｈｅｕｒｉｓｔｉｃ）アルゴリズム及び確率的（ｐｒｏｂａｂｉｌｉｓｔｉｃ）方法を含む。

典型的に、整列過程に２段階があり得る：候補者検査及び配列整列。候補者検査は、可能な整列位置のより短い列挙に対して全体ゲノムから配列整列のための検索空間を減少させる。用語が示唆するように、配列整列は、候補者検査段階に提供された配列を有する配列を整列させる段階を含む。これは、大域整列（例えば、ニードルマンブンシュ（Ｎｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈ）整列）又は局所整列（例えば、スミスウォーターマン整列）を用いて行われてよい。

大部分の属性整列アルゴリズムは、索引方法に基づく３類型のいずれか一つを特徴とし得る：ハッシュテーブル（例えば、ＢＬＡＳＴ、ＥＬＡＮＤ、ＳＯＡＰ）、接尾辞ツリー（例えば、Ｂｏｗｔｉｅ、ＢＷＡ）及び併合整列（例えば、スライダー（Ｓｌｉｄｅｒ））に基づくアルゴリズム。短いリード配列は、整列のために典型的に用いられる。短いリード配列に対する配列整列アルゴリズム／プログラムの例は、以下に制限されるものではないが、ＢＦＡＳＴ（ＨｏｍｅｒＮ．ｅｔａｌ．，ＰＬｏＳＯｎｅ．２００９；４（１１）：ｅ７７６７）、ＢＬＡＳＴＮ（ワールドワイドウェブ上のｂｌａｓｔ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖから）、ＢＬＡＴ（ＫｅｎｔＷ．Ｊ．ＧｅｎｏｍｅＲｅｓ．２００２；１２（４）：６５６－６４）、ボウタイ（Ｂｏｗｔｉｅ）（ＬａｎｇｍｅａｄＢ．ｅｔａｌ．，ＧｅｎｏｍｅＢｉｏｌ．２００９；１０（３）：Ｒ２５）、ＢＷＡ（ＬｉＨ．ａｎｄＤｕｒｂｉｎＲ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００９，２５：１７５４－６０）、ＢＷＡ－ＳＷ（ＬｉＨ．ａｎｄＤｕｒｂｉｎＲ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１０；２６（５）：５８９－９５）、クラウドバースト（ＣｌｏｕｄＢｕｒｓｔ）（ＳｃｈａｔｚＭ．Ｃ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（１１）：１３６３－９）、コロナライト（ＣｏｒｏｎａＬｉｔｅ）（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ，Ｃａｒｌｓｂａｄ，Ｃａｌｉｆｏｒｎｉａ，ＵＳＡ）、ＣＡＳＨＸ（ＦａｈｌｇｒｅｎＮ．ｅｔａｌ．，ＲＮＡ，２００９；１５，９９２－１００２）、ＣＵＤＡ－ＥＣ（ＳｈｉＨ．ｅｔａｌ．，ＪＣｏｍｐｕｔＢｉｏｌ．２０１０；１７（４）：６０３－１５）、ＥＬＡＮＤ（ワールドワイドウェブ上のｂｉｏｉｔ．ｄｂｉ．ｕｄｅｌ．ｅｄｕ／ｈｏｗｔｏ／ｅｌａｎｄで）、ＧＮＵＭＡＰ（ＣｌｅｍｅｎｔＮ．Ｌ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１０；２６（１）：３８－４５）、ＧＭＡＰ（ＷｕＴ．Ｄ．ａｎｄＷａｔａｎａｂｅＣ．Ｋ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００５；２１（９）：１８５９－７５）、ＧＳＮＡＰ（ＷｕＴ．Ｄ．ａｎｄＮａｃｕＳ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１０；２６（７）：８７３－８１）、ジー二アスアセンブラ（ＧｅｎｅｉｏｕｓＡｓｓｅｍｂｌｅｒ）（ニュージーランド、オークランドに所在のＢｉｏｍａｔｔｅｒｓＬｔｄ．）、ＬＡＳＴ、ＭＡＱ（ＬｉＨ．ｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．２００８；１８（１１）：１８５１－８）、Ｍｅｇａ－ＢＬＡＳＴ（ワールドワイドウェブ上のｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｂｌａｓｔ／ｍｅｇａｂｌａｓｔ．ｓｈｔｍｌで）、ＭＯＭ（ＥａｖｅｓＨ．Ｌ．ａｎｄＧａｏＹ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（７）：９６９－７０）、ＭＯＳＡＩＫ（ワールドワイドウェブ上のｂｉｏｉｎｆｏｒｍａｔｉｃｓ．ｂｃ．ｅｄｕ／ｍａｒｔｈｌａｂ／Ｍｏｓａｉｋで）、ノボアライン（Ｎｏｖｏａｌｉｇｎ）（ワールドワイドウェブ上のｎｏｖｏｃｒａｆｔ．ｃｏｍ／ｍａｉｎ／ｉｎｄｅｘ．ｐｈｐで）、パルマッパー（ＰＡＬＭａｐｐｅｒ）（ワールドワイドウェブ上のｆｍｌ．ｔｕｅｂｉｎｇｅｎ．ｍｐｇ．ｄｅ／ｒａｅｔｓｃｈ／ｓｕｐｐｌ／ｐａｌｍａｐｐｅｒで）、ＰＡＳＳ（ＣａｍｐａｇｎａＤ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（７）：９６７－８）、ＰａｔＭａＮ（ＰｒｕｆｅｒＫ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００８；２４（１３）：１５３０－１）、ＰｅｒＭ（ＣｈｅｎＹ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００９，２５（１９）：２５１４－２５２１）、ＰｒｏｂｅＭａｔｃｈ（Ｋｉｍ
Ｙ．Ｊ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（１１）：１４２４－５）、ＱＰａｌｍａ（ｄｅＢｏｎａＦ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００８，２４（１６）：ｉ１７４）、ＲａｚｅｒＳ（ＷｅｅｓｅＤ．ｅｔａｌ．，ＧｅｎｏｍｅＲｅｓｅａｒｃｈ，２００９，１９：１６４６－１６５４）、ＲＭＡＰ（ＳｍｉｔｈＡ．Ｄ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（２１）：２８４１－２）、ＳｅｑＭａｐ（ＪｉａｎｇＨ．ｅｔａｌ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００８；２４：２３９５－２３９６．）、Ｓｈｒｅｃ（ＳａｌｍｅｌａＬ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１０；２６（１０）：１２８４－９０）、ＳＨＲｉＭＰ（ＲｕｍｂｌｅＳ．Ｍ．ｅｔａｌ．，ＰＬｏＳＣｏｍｐｕｔ．Ｂｉｏｌ．，２００９，５（５）：ｅ１０００３８６）、ＳＬＩＤＥＲ（ＭａｌｈｉｓＮ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００９，２５（１）：６－１３）、スリムサーチ（ＳＬＩＭＳｅａｒｃｈ）（ＭｕｌｌｅｒＴ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００１；１７Ｓｕｐｐｌ１：Ｓ１８２－９）、ＳＯＡＰ（ＬｉＲ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００８；２４（５）：７１３－４）、ＳＯＡＰ２（ＬｉＲ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（１５）：１９６６－７）、ＳＯＣＳ（ＯｎｄｏｖＢ．Ｄ．ｅｔ
ａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００８；２４（２３）：２７７６－７）、ＳＳＡＨＡ（ＮｉｎｇＺ．ｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．２００１；１１（１０）：１７２５－９）、ＳＳＡＨＡ２（ＮｉｎｇＺ．ｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．２００１；１１（１０）：１７２５－９）、スタンピー（Ｓｔａｍｐｙ）（ＬｕｎｔｅｒＧ．ａｎｄＧｏｏｄｓｏｎＭ．ＧｅｎｏｍｅＲｅｓ．２０１０，ｅｐｕｂａｈｅａｄｏｆｐｒｉｎｔ）、タイパン（Ｔａｉｐａｎ）（ワールドワイドウェブ上のｔａｉｐａｎ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔで）、ＵＧＥＮＥ（ワールドワイドウェブ上のｕｇｅｎｅ．ｕｎｉｐｒｏ．ｒｕで）、ＸｐｒｅｓｓＡｌｉｇｎ（ワールドワイドウェブ上のｂｃｇｓｃ．ｃａ／ｐｌａｔｆｏｒｍ／ｂｉｏｉｎｆｏ／ｓｏｆｔｗａｒｅ／ＸｐｒｅｓｓＡｌｉｇｎで）、及びＺＯＯＭ（カナダオンタリオ州ウォータールーに所在のバイオインフォマティクスソリューションインコポレイテッド（ＢｉｏｉｎｆｏｒｍａｔｉｃｓＳｏｌｕｔｉｏｎｓＩｎｃ．））を含む。

配列整列アルゴリズムは、例えば、シーケンシング手法、リード長さ、リード数、入手可能なコンピューティング資料及び敏感性／スコアリング必要条件を含む多数の因子に基づいて選択されてよい。異なる配列整列アルゴリズムは、異なる速度レベル、整列敏感性及び整列特異性を達成することができる。整列特異性は、予測された整列と比較して正確に整列された典型的にサブミッションから発見されるように、整列された標的配列残基の百分率のことを指す。整列敏感性は、また、サブミッションで正確に整列された一般に予測された整列から発見されるように、整列された標的配列残基の百分率のことを指す。

整列アルゴリズム、例えば、ＥＬＡＮＤ又はＳＯＡＰは、速度が考慮される第１因子である時に、基準ゲノムに対して短いリード（例えば、イルミナ（Ｉｌｌｕｍｉｎａ）／ソレキサ（Ｓｏｌｅｘａ）シーケンサー製）を整列する目的に用いられてよい。ＢＬＡＳＴ又はＭｅｇａ－ＢＬＡＳＴのような整列アルゴリズムは、特異性が最も重要な因子である時に、これらの方法が相対的に遅いが、短い判読（例えば、ロシュ（Ｒｏｃｈｅ）ＦＬＸ製）を用いて類似性調査の目的のために使用されてよい。ＭＡＱ又はノボアライン（Ｎｏｖｏａｌｉｇｎ）のような整列アルゴリズムは、品質スコアを考慮し、よって、正確性が必須のときに、単一又はペアード末端データに対して使用されてよい（例えば、高速大量ＳＮＰ検索で）。ボウタイ（Ｂｏｗｔｉｅ）又はＢＷＡのような整列アルゴリズムは、バローズウィーラー変換（Ｂｕｒｒｏｗｓ－ＷｈｅｅｌｅｒＴｒａｎｓｆｏｒｍ：ＢＷＴ）を利用し、したがって、相対的に小さいメモリフットプリント（ｍｅｍｏｒｙｆｏｏｔｐｒｉｎｔ）を必要とする。ＢＦＡＳＴ、ＰｅｒＭ、ＳＨＲｉＭＰ、ＳＯＣＳ又はＺＯＯＭのような整列アルゴリズムは、色空間リードをマッピングし、したがって、ＡＢＩのＳＯＬｉＤプラットホームと共に用いられてよい。一部の適用において、２以上の整列アルゴリズムからの結果が組み合わせられてよい。

本発明において、前記Ｂ）段階の配列情報（ｒｅａｄｓ）の長さは、５～５０００ｂｐであり、使用する配列情報の数は、５千～５００万個になり得るが、これに限定されるものではない。

本発明において、前記（Ｃ）段階の配列情報をグループ化する段階は、配列情報（ｒｅａｄｓ）のアダプター配列に基づいて行うことができる。正方向に整列された核酸断片と逆方向に整列された核酸断片とに別に区分して選別された配列情報に対してＦＤ値を計算するか、或いは全体グループに対してＦＤ値を計算することができる。

本発明において、前記（Ｃ）段階を行うに先立って整列された核酸断片の整列一致度点数（ｍａｐｐｉｎｇｑｕａｌｉｔｙｓｃｏｒｅ）を満たす核酸断片を別に分類する段階をさらに含むことを特徴とし得る。

本発明において、前記整列一致度点数（ｍａｐｐｉｎｇｑｕａｌｉｔｙｓｃｏｒｅ）は、所望の基準によって変わり得るが、好ましくは１５～７０点、より好ましくは５０～７０点でよく、最も好ましくは６０点でよい。

本発明において、前記（Ｄ）段階のＦＤ値は、取得したｎ個の核酸断片に対して、ｉ番目核酸断片の基準値とｉ＋１～ｎ番目核酸断片から選択されるいずれか一つ以上の核酸断片の基準値との間の距離として定義されることを特徴とし得る。

本発明において、前記ＦＤ値は、取得したｎ個の核酸断片に対して、第１核酸断片の基準値と第２～第ｎ個の核酸断片で構成された群から選ばれるいずれか一つ以上の核酸断片の基準値との距離を計算し、それらの和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値をＦＤ値として使用できるが、これに限定されるものではない。

本発明において、“一つ以上の値及び／又は一つ以上のそれらの逆数値”という記載は、上述した数値のから１つ又は２つ以上が組み合わせられて使用可能であるという意味で解釈される。

本発明において、前記”核酸断片の基準値”は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とし得る。

前記ＦＤ値は、取得したｎ個の核酸断片に対して、次のように定義できる。
FD = Dist(Ri～Rj) (1<i<j<n)、
ここで、Ｄｉｓｔ関数は、選別されたＲｉとＲｊの両核酸断片間に含まれる全ての核酸断片の整列位置値の差の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値を計算する。

すなわち、本発明において、ＦＤ値（ＦｒａｇｍｅｎｔＤｉｓｔａｎｃｅＶａｌｕｅ）は、整列された核酸断片間の距離を意味する。ここで、距離計算のための核酸断片の選別の場合の数は、次のように定義できる。合計Ｎ個の核酸断片が存在する場合に、
個の核酸断片間距離の組合せが可能である。すなわち、ｉが１の場合に、ｉ＋１は２となり、２～ｎ番目核酸断片から選択されるいずれか一つ以上の核酸断片との距離を定義することができる。

本発明において、前記ＦＤ値は、前記ｉ番目核酸断片内部の特定位置とｉ＋１～ｎ番目のいずれか一つ以上の核酸断片内部の特定位置との間の距離を計算することを特徴とし得る。

例えば、ある核酸断片の長さが５０ｂｐであり、染色体１番の４，１８３位置に整列されているとすれば、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体１番の４，１８３～４，２３２である。

前記核酸断片と隣接した５０ｂｐ長の核酸断片が染色体１番の４，２３２番目位置に整列されると、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体１番の４，２３２～４，２８１であり、両核酸断片間のＦＤ値は、１～９９になり得る。

さらに他の隣接した５０ｂｐ長の核酸断片が染色体１番の４１２３番目位置に整列されると、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体１番の４，１２３～４，１７２であり、両核酸断片間のＦＤ値は６１～１５９であり、最初の例示核酸断片とのＦＤ値は１２～１１０であり、前記両ＦＤ値範囲の一つの値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値をＦＤ値として使用でき、好ましくは、両ＦＤ値範囲の一つの値の逆数値であることを特徴とし得るが、これに限定されるものではない

好ましくは、本発明において、前記ＦＤ値は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とし得る。

本発明において、ＦＤの中央値は、計算されたＦＤ値を大きさの順に整列したとき、最も中央に位置する値を意味する。例えば１、２、１００のように３個の値があるとき、２が最も中央にあるので、２が中央値となる。仮に、偶数個のＦＤ値がある場合、中央にある２つの値の平均を中央値として決定する。例えば、１、１０、９０、２００のＦＤ値がある場合、中央値は１０及び９０の平均である５０となる。

本発明において、前記任意の値は、核酸断片の位置を示し得るものであればいずれも利用可能であるが、好ましくは、０～５ｋｂｐ、又は核酸断片長さの０～３００％、０～３ｋｂｐ、又は核酸断片長さの０～２００％、０～１ｋｂｐ、又は核酸断片長さの０～１００％、より好ましくは０～５００ｂｐ又は核酸断片長さの０～５０％であってよいが、これに限定されるものではない。

本発明において、前記ＦＤ値は、ペアードエンドシーケンシング（ｐａｉｒｅｄ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）では、正方向及び逆方向配列情報（ｒｅａｄｓ）の位置値に基づいて導出することを特徴とし得る。

例えば、５０ｂｐ長のペアードエンドリード対において、正方向リードは、染色体１番の４１８３番目位置に整列され、逆方向リードは４３４９番目位置に整列されると、この核酸断片の両末端は４１８３、４３４９となり、核酸断片距離に使用可能な基準値は、４１８３～４３４９である。このとき、前記核酸断片と隣接した他のペアードエンドリード対において、正方向リードは染色体１番の４３４９番目位置に整列され、逆方向リードは４５１５番目に整列されると、この核酸断片の位置値は、４３４９～４５１５である。この両核酸断片の距離は０～３３３になり得、最も好ましくは、各核酸断片の中央値の距離である１６６になり得る。

本発明において、前記ペアードエンドシーケンシングで配列情報を取得する場合、配列情報（ｒｅａｄｓ）の整列点数が基準値未満である核酸断片は、計算過程から除外する段階をさらに含むことを特徴とし得る。

本発明において、前記ＦＤ値は、シングルエンドシーケンシング（ｓｉｎｇｌｅ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）では、正方向又は逆方向配列情報（ｒｅａｄ）の位置値の一つの種類に基づいて導出することを特徴とし得る。

本発明において、前記シングルエンドシーケンシングでは、正方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を足し、逆方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を引くことを特徴とし、前記任意の値は、ＦＤ値が核酸断片の位置を明確に表示可能にする値であればいずれも利用可能であるが、好ましくは０～５ｋｂｐ又は核酸断片長さの０～３００％、０～３ｋｂｐ又は核酸断片長さの０～２００％、０～１ｋｂｐ又は核酸断片長さの０～１００％、より好ましくは０～５００ｂｐ又は核酸断片長さの０～５０％でよいが、これに限定されるものではない。

本発明において、分析しようとする核酸は、シーケンシングされてリード（ｒｅａｄｓ）という単位で表現されてよい。このリードは、シーケンシング方法によって、シングルエンドシーケンシング（ｓｉｎｇｌｅｅｎｄｓｅｑｕｅｎｃｉｎｇｒｅａｄ，ＳＥ）及びペアードエンドシーケンシング（ｐａｉｒｅｄｅｎｄｓｅｑｕｅｎｃｉｎｇｒｅａｄ，ＰＥ）に分類できる。ＳＥ方式のリードは、核酸分子の５’及び３’のいずれか１ヵ所をランダムな方向に一定の長さだけシーケンシングしたものを意味し、ＰＥ方式のリードは、５’及び３’の両方を一定の長さだけシーケンシングする。このような相違から、ＳＥモードでシーケンシングする場合、１個の核酸断片から１個のリードが生成され、ＰＥモードでは１個の核酸断片から２個のリードが対として生成されることは、通常の技術者によく知られた事実である。

核酸断片間の正確な距離を計算するための最も理想的な方式は、核酸分子を初めから終わりまでシーケンシングし、そのリードを整列し、整列された値の中央値（センター）を利用する。しかし、技術的に、上の方式は、シーケンシング技術の限界及び費用の側面において制約があるのが現状である。したがって、ＳＥ、ＰＥのような方式でシーケンシングすることになるが、ＰＥ方式では、核酸分子の開始と終了の位置が分かるので、これらの値の組合せにより核酸断片の正確な位置（中央値）を把握できるが、ＳＥ方式では、核酸断片の片方の終了情報しか利用できず、正確な位置（中央値）計算に限界がある。

また、正方向、逆方向の両方向にシーケンシングされた（整列された）、全てのリードの末端情報を用いて核酸分子の距離計算時に、シーケンシング方向という要素のため、正確でない値が計算されることがある。

したがって、シーケンシング方式の技術的理由から、正方向リードの５’末端は、核酸分子の中心位置よりも小さい位置値を有し、逆方向リードの３’末端は大きい値を有する。このような特徴を用いて、正方向リードでは任意の値（Ｅｘｔｅｎｄｅｄｂｐ）を足し、逆方向リードでは引くと、核酸分子の中心位置に近い値が推定できる。

すなわち、任意の値（Ｅｘｔｅｎｄｅｄｂｐ）は、使用する試料によって変わってよく、細胞遊離核酸は、その核酸の平均長さが１６６ｂｐ程度と知られているので、約８０ｂｐ程度に設定できる。万一、断片化装備（ｅｘ；ｓｏｎｉｃａｔｉｏｎ）を用いて実験が行われた場合は、断片化過程において設定したターゲット長さの半分程度を延長ｂｐ（ｅｘｔｅｎｄｅｄｂｐ）と設定できる。

本発明において、前記（Ｅ）段階の染色体の異常を判定する段階は
（Ｅ－ｉ）染色体全体領域又は特定領域別にＦＤ値の代表値（ＲｅｐＦＤ）を決定する段階；
（Ｅ－ｉｉ）分析しようとする染色体全体領域又は特定領域以外のサンプル内特定領域のＲｅｐＦＤ値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値を計算し、正規化要素（ＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ）を導出する段階；
（Ｅ－ｉｉｉ）下記式１に基づいて代表値比率（ＲｅｐＦＤｒａｔｉｏ）を計算する段階；
式１：RepFD ratio = RepFD Target genomic region / Normalized Factor
（Ｅ－ｉｖ）正常人参照集団とサンプルのＲｅｐＦＤ比率値を比較し、ＦＤＩ（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算する段階：
を含んで行われることを特徴とし得る。

本発明において、前記（Ｅ－ｉ）段階の代表値（ＲｅｐＦＤ）は、ＦＤ値の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値であることを特徴とし、好ましくは、ＦＤ値の中央値、平均値又はこれの逆数値であることを特徴とし得るが、これに限定されるものではない。

本発明において、前記染色体全体領域又は特定遺伝領域は、ヒト核酸配列の集合であればいずれも利用可能であるが、好ましくは、染色体単位又は一部染色体の特定領域でよく、例えば、数的異常有無の検出のための特定領域は、正倍数体と考えられる常染色体でよく、構造的異常有無の検出のための特定領域は、固有性に劣る領域（ｃｅｎｔｒｏｍｅｒｅ、ｔｅｌｏｍｅｒｅ）以外の全ての遺伝的領域でよいが、これに限定されるものではない。

前記（Ｅ－ｉｉ）段階の分析しようとする染色体全体領域又は特定遺伝領域以外のサンプル内特定領域は、
ａ）無作為に分析しようとする染色体全体領域又は特定遺伝領域以外の領域を無作為に選別する段階；
ｂ）前記ａ）段階で選別した遺伝領域のＲｅｐＦＤ値の代表値を事前正規化要素（ＰｒｅＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ，ＰＮＦ）として決定する段階；
ｃ）下記式２に基づいて代表値比率（ＲｅｐＦＤｒａｔｉｏ）を計算する段階：
式２：RepFD ratio = RepFD Target genomic region / PNF
ｄ）正常人参照集団のＲｅｐＦＤ比率値の変動係数（ＣｏｅｆｆｉｃｉｅｎｔｏｆＶａｒｉａｎｃｅ：ＳＤ／Ｍｅａｎ）を計算する段階；及び
ｅ）前記ａ）～ｄ）段階を反復施行して得た変動係数のうち、最も小さい値を有する遺伝領域を、染色体全体領域又は特定遺伝領域以外のサンプル内特定領域として決定する段階を含む方法で選別することを特徴とし得る。

本発明において、前記ｅ）段階の反復施行は、１００回以上、好ましくは１万～１００万回の範囲、最も好ましくは１０万回であることを特徴とし得るが、これに限定されるものではない。

本発明において、前記（Ｅ－ｉｖ）段階は、正常人参照集団のＲｅｐＦＤ比率値をサンプルのＲｅｐＦＤ比率値と比較することを特徴とし得る。

本発明において、前記正常人参照集団のＲｅｐＦＤ比率値とサンプルのＲｅｐＦＤ比率とを比較する方式は、両方の値が統計的に有意に差を有することを確認できる方法であればいずれも利用可能であるが、好ましくは、平均及び標準偏差ベースのＺ－ｓｃｏｒｅ又は中央値ベースのＬｏｇ比、その他分類アルゴリズムを通じて算出された尤度比（Ｌｉｋｅｌｉｈｏｏｄ）などが選択される方法であってよく、最も好ましくは、平均及び標準偏差ベースのＺ点数計算方式でよいが、これに限定されるものではない。

本発明において、前記ＦＤＩ（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）は、正常参照集団と分析しようとするサンプルのＲｅｐＦＤ比率値の比較によって計算されるが、比較する方法には、Ｚ点数のような標準点数方式を用いることができ、臨界値は無限大の正数、負数などの整数又は範囲が可能であり、好ましくは３でよいが、これに限定されるものではない。

本発明は、他の観点において、生体試料から核酸を抽出して配列情報を解読する解読部；
解読された配列を標準染色体配列データベースに整列する整列部；及び
選別された核酸断片（ｆｒａｇｍｅｎｔｓ）に対して整列された核酸断片間の距離を測定してＦＤ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅ）を計算し、計算したＦＤ値に基づいて染色体全体領域又は特定遺伝領域別にＦＤＩ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＦＤＩ値が基準値又は区間未満又は超過である場合に、染色体異常があると判定する染色体異常判定部を含む染色体異常検出装置に関する。

本発明は、さらに他の観点において、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
（Ａ）生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階；
（Ｂ）取得した配列情報（ｒｅａｄｓ）に基づいて核酸断片を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
（Ｃ）選別された核酸断片（ｆｒａｇｍｅｎｔｓ）間の距離を測定してＦＤ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅ）を計算する段階；及び
（Ｄ）前記（Ｃ）段階で計算したＦＤ値に基づいて染色体全体領域又は特定遺伝領域別にＦＤＩ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＦＤＩ値が基準値範囲に属しない場合に、染色体異常があると判定する段階；
により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体に関する。

具体的には、本発明に係るコンピュータ可読記憶媒体は、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
（Ａ）生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階；
（Ｂ）取得した配列情報（ｒｅａｄｓ）に基づいて核酸断片を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
（Ｃ）前記配列情報（ｒｅａｄｓ）に基づいて整列された核酸断片（ｆｒａｇｍｅｎｔｓ）を全体配列、正方向配列及び逆方向配列にグループ化する段階；
（Ｄ）前記グループ化されたそれぞれの核酸断片に対して整列された核酸断片基準値間の距離を測定して、各グループ別ＦＤ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅ）を計算する段階；及び
（Ｅ）前記（Ｄ）段階で計算した各グループ別ＦＤ値に基づいて染色体全体領域又は特定領域別にそれぞれのＦＤＩ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、それぞれのＦＤＩ値がいずれも基準値範囲に属しない場合に、染色体異常があると判定する段階；
により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むことを特徴とし得るが、これに限定されるものではない。

本発明の他の実施例では、前記整列された核酸断片の中央値から、分析対象核酸断片平均長さの５０％を足して又は引いてリードの両末端の位置値を計算し、リード間の距離を計算できるということを確認した（図６）。

したがって、本発明は、さらに他の観点において、
（Ａ）生体試料から核酸を抽出して配列情報を取得する段階；
（Ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
（Ｃ）前記整列された配列情報（ｒｅａｄｓ）に対して、整列されたリード間の距離を測定し、ＲＤ値（ＲｅａｄＤｉｓｔａｎｃｅ）を計算する段階；及び
（Ｄ）前記（Ｃ）段階で計算したＲＤ値に基づいて染色体全体領域又は特定領域別にＲＤＩ値（ＲｅａｄＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＲＤＩ値が基準値範囲に属しない場合に、染色体異常があると判定する段階を含む染色体異常検出方法に関する。

本発明において、
前記Ａ）段階は、
（Ａ－ｉ）血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びこれらの混合物から核酸を得る段階；
（Ａ－ｉｉ）採取された核酸から、塩析方法（ｓａｌｔｉｎｇ－ｏｕｔｍｅｔｈｏｄ）、カラムクロマトグラフィー方法（ｃｏｌｕｍｎｃｈｒｏｍａｔｏｇｒａｐｈｙｍｅｔｈｏｄ）又はビーズ方法（ｂｅａｄｓｍｅｔｈｏｄ）を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階；
（Ａ－ｉｉｉ）精製された核酸又は酵素的切断、粉砕、水圧切断方法（ｈｙｄｒｏｓｈｅａｒｍｅｔｈｏｄ）で無作為断片化（ｒａｎｄｏｍｆｒａｇｍｅｎｔａｔｉｏｎ）された核酸に対して、シングルエンドシーケンシング（ｓｉｎｇｌｅ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）又はペアエンドシーケンシング（ｐａｉｒ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）ライブラリー（ｌｉｂｒａｒｙ）を作製する段階；
（Ａ－ｉｖ）作製されたライブラリーを次世代シークエンサー（ｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｅｒ）に反応させる段階；及び
（Ａ－ｖ）次世代シークエンサーで核酸の配列情報（ｒｅａｄｓ）を取得する段階を含む方法で行われることを特徴とし得る。

本発明において、前記（Ｂ）段階の配列情報（ｒｅａｄｓ）の長さは、５～５０００ｂｐであり、使用する配列情報の数は５千～５００万個でよいが、これに限定されるものではない。

本発明において、前記（Ｃ）段階は、整列されたリードを整列された方向によってグループ化する段階をさらに利用可能であることを特徴とし得る。

本発明では、リードをグループ化する段階をさらに利用可能であり、このとき、グループ化基準は、整列されたリードのアダプター配列に基づき得る。正方向に整列されたリードと逆方向に整列されたリードとに別に区分して選別された配列情報に対してＲＤ値を計算することができる。

本発明において、前記（Ｃ）段階を行うに先立って整列されたリードの整列一致度点数（ｍａｐｐｉｎｇｑｕａｌｉｔｙｓｃｏｒｅ）を満たすリードを別に分類する段階をさらに含むことを特徴とし得る。

本発明において、前記整列一致度点数（ｍａｐｐｉｎｇｑｕａｌｉｔｙｓｃｏｒｅ）は、所望の基準によって変わってよいが、好ましくは１５～７０点、より好ましくは５０～７０点でよく、最も好ましくは６０点でよい。

本発明において、前記（Ｃ）段階のＲＤ値は、取得したｎ個のリードに対して、ｉ番目リードとｉ＋１～ｎ番目リードから選択されるいずれか一つ以上のリードの両末端値のうち一つの値に核酸平均長さの５０％を足した又は引いた値間の距離から算出することを特徴とし得る。

本発明において、前記ＲＤ値は、取得したｎ個のリードに対して、第１リードと第２～第ｎ個のリードからなる群から選ばれるいずれか一つ以上のリードとの距離を計算し、それらの和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差、変動係数、これらの逆数値及び組合せ、加重値が含まれた計算結果、及びこれに限定されない統計値をＲＤ値として使用することができるが、これに限定されるものではない。

本発明において、ＲＤの中央値は、計算されたＲＤ値を大きさの順に整列した時に最も中央に位置する値を意味する。例えば、１、２、１００のように奇数個の値があるとき、２が最も中央にあるので、２が中央値となる。仮に、偶数個のＲＤ値がある場合には、中央にある２つの値の平均と中央値を決定する。例えば１、１０、９０、２００のＲＤ値がある場合、中央値は１０及び９０の平均である５０となる。

本発明において、前記ＲＤ値は、前記ｉ番目リード内部の５’又は３’末端とｉ＋１～ｎ番目のいずれか一つ以上のリードの５’又は３’末端間の距離を計算することを特徴とし得る。

例えば、５０ｂｐ長のペアードエンドリード対において、正方向リードは染色体１番の４１８３番目位置に整列され、逆方向リードは４３４９番目位置に整列されると、この核酸断片の両末端は４１８３、４３４９になり、核酸断片距離に使用可能な基準値は４１８３～４３４９である。このとき、前記核酸断片と隣接した他のペアードエンドリード対において、正方向リードは染色体１番の４３４９番目位置に整列され、逆方向リードは４５１５番目位置に整列されると、この核酸断片の位置値は４３４９～４５１５である。この２核酸断片の距離は０～３３３になり得、最も好ましくは、各核酸断片の中央値の距離である１６６になり得る。前記例示において、核酸断片の平均長さが１６６の場合に、核酸断片平均長さの５０％値を中央値（４２６６）から引く場合に、１番目核酸断片の位置値は４１８３になり、２番目核酸断片の位置値は４３４９であり、このとき、リード間の距離は１６６となる（４３４９～４１８３）。一方、５０％値を中央値に足す場合に、１番目核酸断片の位置値は４３４９、２番目核酸断片の位置値は４５１５であり、このとき、リード間の距離は１６６となる（４５１５～４３４９）。

本発明において、前記（Ｄ）段階の染色体の異常を判定する段階は
（Ｄ－ｉ）各染色体全体領域又は特定遺伝領域別にＲＤ値の代表値（ＲｅｐＲＤ）を決定する段階；
（Ｄ－ｉｉ）分析しようとする染色体全体領域又は特定遺伝領域以外のサンプル内領域のＲｅｐＲＤ値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値を計算し、正規化要素（ＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ）を導出する段階；
（Ｄ－ｉｉｉ）下記式１０に基づいて代表値比率（ＲｅｐＲＤｒａｔｉｏ）を計算する段階；
式１０：RepRD ratio = RepRD Target genomic region / Normalized Factor
（Ｄ－ｉｖ）正常人参照集団とサンプルのＲｅｐＲＤ比率値を比較し、ＲＤＩ（ＲｅａｄＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算する段階：
を含んで行われることを特徴とし得る。

本発明において、前記（Ｄ－ｉ）段階の代表値（ＲｅｐＲＤ）は、ＲＤ値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値、及びこれに限定されない統計値からなる群から選ばれる一つ以上であることを特徴とし、好ましくは、ＲＤ値の中央値、平均値又はこれの逆数値であることを特徴とし得るが、これに限定されるものではない。

本発明において、ＲｅｐＲＤ値の中央値は、計算されたＲｅｐＲＤ値を大きさの順に整列した時に最も中央に位置する値を意味する。例えば、１、２、１００のように奇数個の値があるとき、２が最も中央にあるので、２が中央値になる。仮に、偶数個のＲｅｐＲＤ値がある場合、中央にある２つの値の平均を中央値として決定する。例えば、１、１０、９０、２００のＲｅｐＲＤ値がある場合、中央値は１０及び９０の平均である５０になる。

本発明において、前記染色体全体領域又は特定遺伝領域（ｓｐｅｃｉｆｉｃｇｅｎｏｍｉｃｒｅｇｉｏｎ）は、ヒト核酸配列の集合であればいずれも利用可能であるが、好ましくは、染色体単位又は一部染色体の特定領域でよく、例えば、数的異常有無の検出のための特定領域には、正倍数体と考えられる常染色体になり得、構造的異常有無の検出のための特定領域には、固有性に劣る領域（ｃｅｎｔｒｏｍｅｒｅ、ｔｅｌｏｍｅｒｅ）以外の全ての遺伝的領域になり得るが、これに限定されるものではない。

前記（Ｄ－ｉｉ）段階の分析しようとする染色体全体領域又は特定遺伝領域以外のサンプル内特定領域は、
ａ）無作為に分析しようとする染色体全体領域又は特定遺伝領域以外の領域を選別する段階；
ｂ）前記ａ）段階で選別した遺伝領域のＲｅｐＲＤ値の代表値を事前正規化要素（ＰｒｅＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ，ＰＮＦ）として決定する段階；
ｃ）下記式１１に基づいて代表値比率（ＲｅｐＲＤｒａｔｉｏ）を計算する段階：
式１１：RepRD ratio = RepRD Target genomic region / PNF
ｄ）正常人参照集団のＲｅｐＲＤ比率値の変動係数（ＣｏｅｆｆｉｃｉｅｎｔｏｆＶａｒｉａｎｃｅ：ＳＤ／Ｍｅａｎ）を計算する段階；及び
ｅ）前記ａ）～ｄ）段階を反復施行して得た変動係数のうち、最も小さい値を有する遺伝領域を、染色体全体領域又は特定遺伝領域他領域として決定する段階を含む方法で選別することを特徴とし得る。

本発明において、前記ｅ）段階の反復施行は１００回以上、好ましくは１万～１００万回の範囲、最も好ましくは１０万回であることを特徴とし得るが、これに限定されるものではない。

本発明において、前記（ｉｖ）段階は、正常人参照集団のＲｅｐＲＤ比率値をサンプルのＲｅｐＲＤ比率値と比較することを特徴とし得る。

本発明において、前記正常人参照集団のＲｅｐＲＤ比率値とサンプルのＲｅｐＲＤ比率を比較する方式は、両方の値が統計的に有意に差を有することを確認できる方法であればいずれも利用可能であるが、好ましくは、平均及び標準偏差ベースのＺ－ｓｃｏｒｅ又は中央値ベースのＬｏｇ比、その他分類アルゴリズムによって算出された尤度比（Ｌｉｋｅｌｉｈｏｏｄ）などが選択される方法でよく、最も好ましくは平均及び標準偏差ベースのＺ点数計算方式でよいが、これに限定されるものではない。

本発明において、前記ＲＤＩ値（ＲｅａｄｓＤｉｓｔａｎｃｅＩｎｄｅｘ）は、正常参照集団と分析しようとするサンプルのＲｅｐＲＤ比率値の比較によって計算されるが、比較する方法には、Ｚ点数のような標準点数方式を利用可能であり、臨界値は無限大の正数、負数などの整数又は範囲が可能であり、好ましくは、－３又は３になり得るが、これに限定されるものではない。

本発明は、さらに他の観点において、生体試料から核酸を抽出して配列情報を解読する解読部；
解読された配列を標準染色体配列データベースに整列する整列部；及び
選別された配列情報（ｒｅａｄｓ）に対して、整列されたリード間の距離を測定してＲＤ値（ＲｅａｄＤｉｓｔａｎｃｅ）を計算し、計算したＲＤ値に基づいて遺伝領域別にＲＤＩ値（ＲｅａｄＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＲＤＩ値が基準値又は区間未満又は超過である場合に、染色体異常があると判定する染色体異常判定部を含む染色体異常検出装置に関する。

本発明は、さらに他の観点において、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
（Ａ）生体試料から核酸を抽出して配列情報を取得する段階；
（Ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
（Ｃ）選別された配列情報（ｒｅａｄｓ）に対して、整列されたリード間の距離を測定し、ＲＤ値（ＲｅａｄＤｉｓｔａｎｃｅ）を計算する段階；及び（Ｄ）前記（Ｃ）段階で計算したＲＤ値に基づいて遺伝領域別にＲＤＩ値（ＲｅａｄＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＲＤＩ値が基準値範囲に属しない場合に、染色体に異常があると判定する段階により、染色体の異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体に関する。

以下、実施例を用いて本発明をより詳細に説明する。これら実施例は単に本発明を例示するためのものであり、本発明の範囲がこれらの実施例によって制限されるものと解釈されないことは、当業界における通常の知識を有する者にとって明らかであろう。

実施例１．血液からＤＮＡを抽出し、次世代塩基配列分析を行う
サンプルの血液を１０ｍＬずつ採取してＥＤＴＡチューブに保管し、採取後２時間以内に１２００ｇ、４℃、１５分の条件で血漿部分だけを１次遠心分離した後、１次遠心分離された血漿を１６０００ｇ、４℃、１０分の条件で２次遠心分離し、沈殿物以外の血漿上清液を分離した。分離された血漿に対してＴｉａｎｇｅｎｍｉｃｒｏＤＮＡキット（Ｔｉａｎｇｅｎ）を用いて細胞遊離ＤＮＡを抽出した。ＰＥ（Ｐａｉｒｅｄ－ｅｎｄ）データの生産は、ＭＧＩＥａｓｙ細胞遊離ＤＮＡライブラリー調製キット（ＭＧＩＥａｓｙＣｅｌｌ－ｆｒｅｅＤＮＡＬｉｂｒａｒｙＰｒｅｐｓｅｔｋｉｔ）（ＭＧＩ）を用いてライブラリー調製（Ｌｉｂｒａｒｙｐｒｅｐａｒａｔｉｏｎ）過程を行った後、ＤＮＢｓｅｑＧ４００装備（ＭＧＩ）を利用し（５０ｃｙｃｌｅ＊２）、ＳＥ（Ｓｉｎｇｌｅ－ｅｎｄ）データは、ＴｒｕｓｅｑナノＤＮＡＨＴライブラリー調製キット（ＴｒｕｓｅｑＮａｎｏＤＮＡＨＴｌｉｂｒａｒｙｐｒｅｐｋｉｔ）（Ｉｌｌｕｍｉｎａ）を用いてライブラリー調製過程後に、Ｎｅｘｔｓｅｑ５００（Ｉｌｌｕｍｉｎａ）装備を用いて生産した。

ＰＥデータは、約１，０００万個の核酸断片に対する配列情報が得られ、ＳＥデータは、約１３０万個の核酸断片に対する配列情報が得られた。

実施例２．配列情報データの品質管理及びＦＤ値計算
塩基配列情報を前処理し、ＦＤ値を計算する前に次の一連の過程を行った。次世代塩基配列分析器（ＮＧＳ）装備で生成されたｆａｓｔｑ形式のファイルをＢＷＡ－ｍｅｍアルゴリズムを用いて参照染色体Ｈｇ１９配列を基準にライブラリー配列を整列した。ライブラリー配列の整列時に誤りの発生する確率があり、誤りを矯正する２つの過程を行った。まず、重複したライブラリー配列に対して除去作業を行った後、ＢＷＡ－ｍｅｍアルゴリズムによって整列されたライブラリー配列のうち、整列一致度点数（ＭａｐｐｉｎｇＱｕａｌｉｔｙＳｃｏｒｅ）が６０に達しない配列を除去した。

選別したリードを、整列された方向によって正方向リードと逆方向リードとにグループ化した後、最も隣接したリードとの距離をＦＤ値として、下記式３を用いて計算し、その概念は、図２及び図３に示した。下記式３のＤ関数は、遺伝体位置の差値を計算する関数である。下記式３におけるａとｂは、核酸断片の位置値であり、ＰＥシーケンシングにおいて、２個の配列情報の整列された位置値の最小値から最大値までのいずれか一つの値になり得、ＳＥシーケンシングにおいて、配列情報の整列された位置値であるか或いは位置値に特定値を延長（ｅｘｔｅｎｓｉｏｎ）した値であり得る。

式３：Fragment Distance (FD) = D(a,b) | a ∈ Fi , b ∈ Fi)

実施例３．延長によるＦＤ値の差の確認
ＰＥで生産されたデータは、核酸断片の開始と末端の位置情報が分かり、中間位置を基準に各核酸断片間距離を計算することができる。ＰＥで生産されたデータから無作為にＦｏｒ、Ｒｅｖリードにグループ化し、Ｆｏｒに分類されたリードは、Ｆｏｒリードの５’位置を基準に、Ｒｅｖに分類されたリードはＲｅｖリードの３’位置を基準にＦＤを計算した後、Ｆｏｒリードには８０ｂｐを足し、Ｒｅｖリードには８０ｂｐを引く延長（ｅｘｔｅｎｓｉｏｎ）を行った。

前記過程のＦＤ値と延長を行った過程のＦＤ値との差を比較した結果、図５に記載されているように、延長した後に計算されたＦＤ値が、ＰＥの中央の（ｃｅｎｔｅｒｅｄ）ＦＤ値と類似することが確認され、延長を行っていないＦＤ値は、＋１６６、－１６６のＦＤ値の差を有することが確認された。

実施例４．ＦＤＩ値計算
４－１．染色体数的異常検出のためのＦＤＩ値計算
ＳＥシーケンシングデータを用いてＦＤＩ値を計算し、延長（ｅｘｔｅｎｓｉｏｎ）値は８０ｂｐに設定した。異数性の有無を確認しようとする染色体に対して、それぞれ選別された染色体の集合のＲｅｐＦＤ値の中央値比を正規化要素（ＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ）と定義し、下記式４で計算した。

式４：Normalized Factor = Median of RepFD_{selected chromosome set}

（ｓｅｌｅｃｔｅｄｃｈｒｏｍｏｓｏｍｅｓｅｔ：前記表において染色体集合に該当する部分である。）

式３及び式４で計算したＦＤと正規化要素（ＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ）を用いてＲｅｐＦＤ比率を式５で計算した。

式５：RepFD ratio = RepFD _{Target chromosome}/ Normalized Factor

２０００名の正常人参照集団においてＲｅｐＦＤ比率の平均と標準偏差値を計算し、分析しようとするサンプルのＦＤＩ（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）値を式６で計算した。

式６：FDI = (MEAN(RepFD Ratio _reference - RepFD Ratio _sample -) / SD(RepFD Ratio_reference)

前記式６の過程を、全ての核酸断片を使用する場合（式７）、正方向に整列された核酸断片を使用する場合（式８）、逆方向に整列された核酸断片を使用する場合（式９）にそれぞれ行った。

式７：FDI^all= mean(RepFD^all Ratio_reference) - RepFD^all Ratio_sample/ SD(RepFD^all Ratio_reference)
式８：FDI^For= mean(RepFD^For Ratio_reference) - RepFD^For Ratio_sample/ SD(RepFD^For Ratio_reference)
式９：FDI^Rev = mean(RepFD^RevRatio_reference) - RepFD^Rev Ratio_sample/ SD(RepFD^RevRatio_reference)

４－２．染色体数的異常検出のためのＦＤＩ値の性能確認
正常標準集団２０００名のサンプルとトリソミー（Ｔｒｉｓｏｍｙ）６サンプルを含む臨床８８サンプルの分析の結果、１００％敏感度（ｓｅｎｓｉｔｉｖｉｔｙ）及び１００％特異度（ｓｐｅｃｉｆｉｃｉｔｙ）を確認した。

陽性判別のための臨界値は、ＦＤＩ２１^ａｌｌ、ＦＤＩ２１^Ｆｏｒ、ＦＤＩ２１^Ｒｅｖのいずれも３を使用した。

それぞれ、サンプルは、陽性判別のために３個のＦＤＩ値を計算し、いずれも３以上である場合に最終陽性と判別した。分析された８８サンプルのうち３サンプル（Ｇ１９ＮＩＰＴ２６１－３、Ｇ１９ＮＩＰＴ２６１－１０、Ｇ１９ＮＩＰＴ２６１－１３）は、１個のＦＤＩ値から陽性と判別されたが、残り２個のＦＤＩ値は陰性と判別され、最終的には陰性と判定した。

実施例５．ＲＤ値ベースの分析のための血液からＤＮＡを抽出し、次世代塩基配列を分析
正常人４００名、トリソミー２１１７５名、トリソミー１８６７名及びトリソミー１３２６名の血液を１０ｍＬずつ採取してＥＤＴＡチューブに保管し、採取後２時間以内に１２００ｇ、４℃、１５分の条件で血漿部分だけを１次遠心分離した後、１次遠心分離された血漿を１６０００ｇ、４℃、１０分の条件で２次遠心分離し、沈殿物以外の血漿上清液を分離した。分離された血漿に対してＴｉａｎｇｅｎｍｉｃｒｏＤＮＡキット（Ｔｉａｎｇｅｎ）を用いて細胞遊離ＤＮＡを抽出し、ＴｒｕｓｅｑナノＤＮＡＨＴライブラリー調製キット（Ｉｌｌｕｍｉｎａ）を用いてライブラリー調製過程を行った後、Ｎｅｘｔｓｅｑ５００装備（Ｉｌｌｕｍｉｎａ）を７５ＳＥ（Ｓｉｎｇｌｅ－ｅｎｄ）モードでシーケンシングを行った。

その結果、サンプル当たりに約１，３００万個のリードが生産されることを確認した。

実施例６．配列情報データの品質管理及びＲＤ値計算
塩基配列情報を前処理し、ＲＤ値を計算する前に、次の一連の過程を行った。次世代塩基配列分析器（ＮＧＳ）装備で生成されたＢｃｌファイル（塩基配列情報を含む）をｆａｓｔｑ形式に変換した後、ｆａｓｔｑファイルをＢＷＡ－ｍｅｍアルゴリズムを用いて参照染色体Ｈｇ１９配列を基準にライブラリー配列を整列した。ライブラリー配列の整列時に誤りの発生する確率があるため、誤りを矯正する２つの過程を行った。まず、重複したライブラリー配列に対して除去作業を行った後、ＢＷＡ－ｍｅｍアルゴリズムによって整列されたライブラリー配列のうち、整列一致度点数（ＭａｐｐｉｎｇＱｕａｌｉｔｙＳｃｏｒｅ）が６０に達しない配列を除去した。

選別したリードを、整列された方向によって正方向リードと逆方向リードとにグループ化した後、最も隣接したリードとの距離をＲＤ値として式１２を用いて計算し、その概念は図７に示した。下記１２のＤ関数は、遺伝体位置の差値を計算する関数である。

式１２：Read Distance (RD) = D(a,b) | a ∈ Ri , b ∈ Ri)

実施例７．ＲＤＩ値計算
７－１．染色体数的異常検出のためのＲＤＩ値計算
各染色体別にＲＤ値の中央値をＲｅｐＲＤと定義した。異数性の有無を確認しようとする染色体に対して、それぞれ選別された染色体の集合のＲｅｐＲＤ値の中央値比を正規化要素（ＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ）と定義し、下記式１３で計算した。

式１３：Normalized Factor = Median of RepRD_{selected chromosome set}

式１２及び式１３で計算したＲＤと正規化要素（ＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ）を用いてＲｅｐＲＤ比率（ｒａｔｉｏＲｅｐＲＤｒａｔｉｏ）を式１４で計算した。

式１４：RepRD ratio = RepRD _{Target chromosome} / Normalized Factor

４００名の正常人参照集団においてＲｅｐＲＤ比率（ｒａｔｉｏＲｅｐＲＤｒａｔｉｏ）の平均と標準偏差値を計算し、分析しようとするサンプルのＲＤＩ（ＲｅａｄｓＤｉｓｔａｎｃｅＩｎｄｅｘ）値を式１５で計算した。

式１５：RDI = RepRD Ratio _sample - MEAN(RepRD Ratio _reference ) / SD(RepRD Ratio_reference)

７－２．染色体構造的異常のためのＲＤＩ値計算
染色体を５０ｋｂａｓｅで一定に分けた後、各領域別にＲＤ値の中央値をＲｅｐＲＤと定義した。また、正規化要素（ＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ）は常染色体ＲＤ値の中央値を使用した。参照集団は、正常女性４３７名のデータを利用し、染色体各領域別にＲｅｐＲＤ比率（ＲｅｐＲＤＲａｔｉｏ）の平均と標準偏差を計算した。ＲＤＩ値は、式１５を引用して計算した。

７－３．ＲＤ代表値（ＲｅｐＲＤ）計算方式による性能確認（中央値の逆数を利用）
各遺伝領域（染色体別）に整列された配列情報のＲＤ値を計算した後、これらの値の中央値の逆数をＲＤ代表値（ＲｅｐＲＤ）と定義した。ここで、中央値とは、計算されたＲＤ値を大きさの順に整列した時に最も中央に位置する値を意味する。例えば１、２、１００のように３個の値があるとき、２が最も中央にあるので、２が中央値となる。

仮に、偶数個のＲＤ値がある場合には、中央にある２つの値の平均を中央値として決定する。例えば、１、１０、９０、２００のＲＤ値がある場合に、中央に位置している１０及び９０の平均である５０が中央値となる。分析サンプルは、トリソミー２１として確認された４９サンプルと、正常として確認された３，４４８サンプルを使用し、ＲｅｐＲＤ値は、ＲＤ値の中央値の逆数を使用した。分析方法は、正常人３，４４８サンプルのＲｅｐＲＤ値の平均と標準偏差を用いたＺ－ｓｃｏｒｅ方式でＲＤＩ値を計算した。分析の結果、約０．９９９の正確度でサンプルの染色体数異常の有無が検出できた（表４、図１５）。

７－４．ＲＤ代表値（ＲｅｐＲＤ）計算方式による性能確認（平均を利用）
各遺伝領域（染色体別）に整列された配列情報のＲＤ値を計算した後、これらの値の平均値をＲＤ代表値（ＲｅｐＲＤ）として定義した。ここで、平均値とは、計算されたＲＤ値の算術平均値であって、仮に１０、５０、９０のＲＤ値があると、（１０＋５０＋９０）／３である５０がＲＤ代表値となる。正常人１、９９９とＴ２１１６３サンプルを用いて、正常人集団のＲｅｐＲＤ平均と標準偏差を用いたＺ－ｓｃｏｒｅ方式でＲＤＩ値を計算した。正規化要素（ＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ）として使用した染色体は、２、７、９、１２、１４であった。分析の結果、約０．９９９５の正確度でサンプルの染色体数異常の有無が検出できたし、臨界値を４．０に設定時に、敏感度は０．９９９、特異度は１．０００であることが確認できた（表５、図１６）。

７－５．ＲＤ代表値（ＲｅｐＲＤ）計算方式による性能確認（平均の逆数値を利用）
各遺伝領域（染色体別）に整列された配列情報のＲＤ値を計算した後、これらの値の平均値の逆数値をＲＤ代表値（ＲｅｐＲＤ）として定義した。ここで、平均値とは、計算されたＲＤ値の算術平均値であって、仮に１０、５０、９０のＲＤ値があると、（１０＋５０＋９０）／３である５０が平均値となり、この値の逆数である１／５０＝０．０２をＲＤ代表値として用いた。正常人１、９９９とＴ２１１６３サンプルを利用し、正常な集団のＲｅｐＲＤ平均と標準偏差を用いたＺ－ｓｃｏｒｅ方式でＲＤＩ値を計算した。正規化要素（ＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ）として使用した染色体は、２、７、８、９、１２、１４であった。分析の結果、約０．９９９５の正確度でサンプルの染色体数異常の有無が検出できたし、臨界値を４．３に設定時に、敏感度は０．９９３、特異度は１．０００であることが確認できた（表６、図１７）。

実施例８．染色体数的異常検出のためのＲＤＩ値の性能確認
８－１．リード個数（Ｒｅａｄｃｏｕｎｔ）及びリード距離（ＲｅａｄＤｉｓｔａｎｃｅ）の分布
整列されたリードの距離概念を用いた分析において、生産されたリードの数が多いほど、各リード間の距離は短く維持されるであろう。これを確認するために、各染色体別にリード数とＲｅｐＲＤ値の分布を分析した。

その結果、全体的にリード数が多いほどＲｅｐＲＤが減少することを確認した。特に、リード数とＲｅｐＲＤ値の関係が線形関係ではなく非線形関係であることを確認し、これは、リード距離概念が、単純リードの数の他に、整列された位置も反映する結果である（図８）。

正常サンプルと比較すれば、トリソミー１３、１８及び２１番サンプルから、それぞれ異数性として確認された染色体のＲｅｐＲＤ値が低く分布することが確認できた（図９）。

８－２．ＲＤＩ（ＲｅａｄｓＤｉｓｔａｎｃｅＩｎｄｅｘ）の性能及び胎児分画、臨床情報、既存Ｇ－ｓｃｏｒｅとの関係
産婦血液を用いた胎児異数性検査において、胎児分画、妊娠週数は、検査の正確度に多い影響を及ぼす。妊娠週数が高いほど胎児分画は高くなる傾向性があり、胎児分画が高いほど検査の正確度は高くなる。トリソミー２１サンプルのＲＤＩ_{ｃｈｒ２１}値と産婦の妊娠週数、胎児分画との分布を分析した結果、胎児分画が高くなりながらＲＤＩ_{ｃｈｒ２１}値が低下することを確認した。また、妊娠週数とＲＤＩ_{ｃｈｒ２１}値との関係では、１５週以上のサンプルにおいて値が下がる傾向性を確認し、既存リード個数（Ｒｅａｄｓｃｏｕｎｔ）に基づく値である、Ｇ－ｓｃｏｒｅ（大韓民国特許第１０－１６８６１４６号）との関係を調べた結果、類似の傾向性が確認できた（図１０）。

８－３．陽性判別臨床検体分析結果
ＲＤＩ値を用いて、正常群と各染色体異数性として確認されたサンプルに対して分析性能を検証した。ＲＤＩ値を一定基準ｃｕｔｏｆｆ（－３）に設定後に、正常、異数性サンプル間の分析性能を比較した結果、トリソミー１３は０．９９１、トリソミー１８は０．９８９、トリソミー２１は０．９９８の正確度が確認された（表７）。また、ＡＵＣ値はトリソミー１３、１８、２１からそれぞれ０．９９９、０．９８４、１．０００であることが確認できた（図１１）。

８－４．ＲＤＩ計算方式による性能確認
正常参照集団ＲＤＩ比率（ＲＤＩｒａｔｉｏ）の平均と標準偏差を利用するＺ－ｓｃｏｒｅ方式とは異なる、中央値を用いたＬｏｇ比率（Ｌｏｇｒａｔｉｏ）分析結果を確認した。Ｌｏｇ比率（Ｌｏｇｒａｔｉｏ）の分析方法は、式１６を用いた。

式１６：RDI = log₁₀(RepRD Ratio _sample/ Median(RepRD Ratio _reference ))

実施例８－３で用いたのと同じサンプルを利用し、ＲＤＩ値を一定基準ｃｕｔｏｆｆ（－０．００４５）に設定後に、分析性能を比較した。性能は、陽性種類によって少しずつ差異があり、正確度は、トリソミー２１は０．９７６、トリソミー１８は０．９９４、そしてトリソミー１３は０．９９１と確認された（表８）。

８－５．ダウンサンプリング（Ｄｏｗｎｓａｍｐｌｉｎｇ）性能確認
次世代塩基配列分析技術を用いて、非侵襲的方法の胎児異数性の有無を確認する検査において、生産されるデータの量（リード数）は正確度の重要な要素として知られている。本実施例において、リード数によるＲＤＩ方式の分析性能を計算した。分析性能の基準は、ＲＯＣ分析のＡＵＣ値を利用し、リードの数はｉｎ－ｓｉｌｉｃｏ方式の無作為リード選別方法を利用した。無作為にリードを１００万個～１，０００万個選別した。２１番異数性サンプルを用いた分析の結果、リード数が減るにつれて分析性能が低くなることが確認できた（図１２）。

実施例９．染色体構造的異常検出のためのＲＤＩ値の性能確認
９－１．リード個数とリード距離の分布
ＲＤＩを用いた染色体構造的異常の有無を調べるために、染色体を適当な大きさに分ける作業が必要であり、本実施例では５０ｋｂａｓｅの大きさに染色体の区間を分けた。リードの距離は、リードの数が多いほど小さく、リードの数が多いほど長く分布する。分けられた区間に該当するリードの数と距離との関係を調べた結果、染色体の構造的異常である欠失が確認された領域のリード距離が、構造的異常がない領域に比べてリード距離が長く分布することが確認できた（図１３）。

９－２．マイクロアレイ（Ｍｉｃｒｏａｒｒａｙ）結果との比較
染色体構造的異常の有無を検出するマイクロアレイ検査とＲＤＩの分析結果とを比較した。分析サンプルは、１番染色体の末端に３，８９７，６４０ｂｐ長の欠失が確認されたサンプルであり、ＲＤＩを用いた分析の結果、類似な地域の３，７００，０００ｂｐサイズにおいて構造的異常（欠失）が検出されることが確認できた（図１４）。

以上、本発明内容の特定の部分を詳細に記述したところ、当業界における通常の知識を有する者にとって、このような具体的記述は単に好ましい実施の態様であるだけで、これによって本発明の範囲が制限されないという点は明らかであろう。したがって、本発明の実質的な範囲は、添付する請求項及びそれらの等価物によって定義されるといえよう。

本発明に係る染色体異常判定方法は、既存のリード個数（ｒｅａｄｃｏｕｎｔ）に基づいて染色体量を決定する段階を利用する方式とは違い、整列された核酸断片（ｆｒａｇｍｅｎｔｓ）をグループ化した後、核酸断片基準値間の距離概念を用いた方法であり、既存方法ではリード個数が減少すれば正確度が低下するが、本発明の方法では、リード個数が減少しても検出の正確度を上げることができる他、全ての染色体区間ではなく一定区間の核酸断片間の距離を分析しても検出正確度が高いので、有用である。

Claims

生体試料から抽出した核酸断片（ｆｒａｇｍｅｎｔｓ）基準値間の距離を計算して染色体異常を検出する方法。
前記核酸断片は、細胞遊離核酸又は細胞内核酸であることを特徴とする、請求項１に記載の染色体異常を検出する方法。
前記核酸断片は、直接配列分析するか、次世代塩基配列分析によって配列分析するか、又は非特異的全長遺伝体増幅（ｎｏｎ－ｓｐｅｃｉｆｉｃｗｈｏｌｅｇｅｎｏｍｅａｍｐｌｉｆｉｃａｔｉｏｎ）によって配列分析して得たものであることを特徴とする、請求項１に記載の染色体異常を検出する方法。
（Ａ）生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階；
（Ｂ）取得した配列情報（ｒｅａｄｓ）に基づいて標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）から核酸断片の位置を確認する段階；
（Ｃ）前記配列情報（ｒｅａｄｓ）を全体配列、正方向配列及び逆方向配列にグループ化する段階；
（Ｄ）前記グループ化された配列情報を用いて、各核酸断片の基準値を定義し、基準値間の距離を測定して、各グループ別ＦＤ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅ）を計算する段階；及び
（Ｅ）前記（Ｄ）段階で計算した各グループ別ＦＤ値に基づいて染色体全体領域又は特定領域別にそれぞれのＦＤＩ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、それぞれのＦＤＩ値がいずれも基準値範囲に属しない場合に、染色体異常があると判定する段階を含む、請求項３に記載の染色体異常を検出する方法。
前記（Ａ）段階は、次の段階を含む方法で行われることを特徴とする、請求項４に記載の染色体異常を検出する方法：
（Ａ－ｉ）血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びこれらの混合物から核酸を得る段階；
（Ａ－ｉｉ）採取された核酸から、塩析方法（ｓａｌｔｉｎｇ－ｏｕｔｍｅｔｈｏｄ）、カラムクロマトグラフィー方法（ｃｏｌｕｍｎｃｈｒｏｍａｔｏｇｒａｐｈｙｍｅｔｈｏｄ）又はビーズ方法（ｂｅａｄｓｍｅｔｈｏｄ）を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階；
（Ａ－ｉｉｉ）精製された核酸又は酵素的切断、粉砕、水圧切断方法（ｈｙｄｒｏｓｈｅａｒｍｅｔｈｏｄ）で無作為断片化（ｒａｎｄｏｍｆｒａｇｍｅｎｔａｔｉｏｎ）された核酸に対して、シングルエンドシーケンシング（ｓｉｎｇｌｅ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）又はペアエンドシーケンシング（ｐａｉｒ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）ライブラリー（ｌｉｂｒａｒｙ）を作製する段階；
（Ａ－ｉｖ）作製されたライブラリーを次世代シークエンサー（ｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｅｒ）に反応させる段階；及び
（Ａ－ｖ）次世代シークエンサーで核酸の配列情報（ｒｅａｄｓ）を取得する段階。
前記（Ｄ）段階のＦＤ値は、取得したｎ個の核酸断片に対して、ｉ番目核酸断片の基準値とｉ＋１～ｎ番目核酸断片から選択されるいずれか一つ以上の核酸断片の基準値との間の距離から算出することを特徴とする、請求項４に記載の染色体異常を検出する方法。
前記核酸断片の基準値は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とする、請求項６に記載の染色体異常を検出する方法。
前記核酸断片の基準値は、ペアードエンドシーケンシング（ｐａｉｒｅｄ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）では、正方向及び逆方向配列情報（ｒｅａｄｓ）の位置値に基づいて導出することを特徴とする、請求項７に記載の染色体異常を検出する方法。
配列情報（ｒｅａｄｓ）の整列点数が基準値未満である核酸断片である場合、計算過程から除外する段階をさらに含むことを特徴とする、請求項８に記載の染色体異常を検出する方法。
前記核酸断片の基準値は、シングルエンドシーケンシング（ｓｉｎｇｌｅ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）では、正方向又は逆方向配列情報（ｒｅａｄ）の位置値のいずれか一種類に基づいて導出することを特徴とする、請求項６に記載の染色体異常を検出する方法。
正方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を足し、逆方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を引くことを特徴とする、請求項１０に記載の染色体異常を検出する方法。
前記任意の値は、分析対象核酸平均長さの３０～７０％であることを特徴とする、請求項７に記載の染色体異常を検出する方法。
前記任意の値は、０～５ｋｂｐ又は核酸断片長さの０～３００％であることを特徴とする、請求項７に記載の染色体異常を検出する方法。
前記（Ｅ）段階は、次の段階を含む方法で行われることを特徴とする、請求項４に記載の染色体異常を検出する方法：
（Ｅ－ｉ）染色体全体領域又は特定領域別にＦＤ値の代表値（ＲｅｐＦＤ）を決定する段階；
（Ｅ－ｉｉ）分析しようとする染色体全体領域又は特定領域以外のサンプル内特定領域のＲｅｐＦＤ値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差、変動係数、これらの逆数値及び組合せからなる群から選ばれる一つ以上の値を計算して、正規化要素（ＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ）を導出する段階；
（Ｅ－ｉｉｉ）下記式１に基づいて代表値比率（ＲｅｐＦＤｒａｔｉｏ）を計算する段階；
式１：RepFD ratio = RepFD Target genomic region / Normalized Factor
（Ｅ－ｉｖ）正常人参照集団とサンプルのＲｅｐＦＤ比率値を比較して、ＦＤＩ（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算する段階。
前記（Ｅ－ｉ）段階の代表値（ＲｅｐＦＤ）は、ＦＤ値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値であることを特徴とする、請求項１４に記載の染色体異常を検出する方法。
前記（Ｅ－ｉ）段階の代表値（ＲｅｐＦＤ）は、ＦＤ値の中央値、平均値又はこれの逆数値であることを特徴とする、請求項１５に記載の染色体異常を検出する方法。
前記（Ｅ－ｉｉ）段階の分析しようとする染色体全体領域又は特定遺伝領域以外のサンプル内特定領域は、下記の段階を含む方法で選別することを特徴とする、請求項１４に記載の染色体異常を検出する方法：
ａ）分析しようとする染色体全体領域又は特定遺伝領域以外の領域を無作為に選別する段階；
ｂ）前記ａ）段階で選別した遺伝領域の代表値（ＲｅｐＦＤ）を事前正規化要素（ＰｒｅＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ，ＰＮＦ）として決定する段階；
ｃ）下記式２に基づいて代表値比率（ＲｅｐＦＤｒａｔｉｏ）を計算する段階：
式２： RepFD ratio = RepFD Target genomic region / PNF
ｄ）正常人参照集団のＲｅｐＦＤ比率値の変動係数（ＣｏｅｆｆｉｃｉｅｎｔｏｆＶａｒｉａｎｃｅ：ＳＤ／Ｍｅａｎ）を計算する段階；及び
ｅ）前記ａ）～ｄ）段階を反復施行して得た変動係数のうち、最も小さい値を有する遺伝領域を、染色体全体領域又は特定遺伝領域以外のサンプル内特定領域として決定する段階。
前記（Ｅ－ｉｖ）段階は、正常人参照集団のＲｅｐＦＤ比率（ＲｅｐＦＤｒａｔｉｏ）値をサンプルのＲｅｐＦＤ比率（ＲｅｐＦＤｒａｔｉｏ）値と比較することを特徴とする、請求項１４に記載の染色体異常を検出する方法。
生体試料から核酸を抽出して配列情報を解読する解読部；
解読された配列を標準染色体配列データベースに整列する整列部；及び
選別された核酸断片（ｆｒａｇｍｅｎｔｓ）に対して、整列された核酸断片間の距離を測定してＦＤ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅ）を計算し、計算したＦＤ値に基づいて染色体全体領域又は特定遺伝領域別にＦＤＩ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＦＤＩ値が基準値の範囲内に収まらない場合に、染色体異常があると判定する染色体異常判定部、を含む染色体異常検出装置。
コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
（Ａ）生体試料から核酸を抽出して核酸断片を得て配列情報を取得する段階；
（Ｂ）取得した配列情報（ｒｅａｄｓ）に基づいて核酸断片を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
（Ｃ）選別された核酸断片（ｆｒａｇｍｅｎｔｓ）間の距離を測定してＦＤ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅ）を計算する段階；及び
（Ｄ）前記（Ｃ）段階で計算したＦＤ値に基づいて染色体全体領域又は特定遺伝領域別にＦＤＩ値（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＦＤＩ値が基準値の範囲内に収まらない場合に、染色体異常があると判定する段階、により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体。
前記任意の値が分析対象核酸平均長さの５０％である場合に、計算したＦＤ値はＲＤ値（ＲｅａｄＤｉｓｔａｎｃｅ）であることを特徴とする、請求項７に記載の染色体異常を検出する方法。
（Ａ）生体試料から核酸を抽出して配列情報を取得する段階；
（Ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
（Ｃ）前記整列された配列情報（ｒｅａｄｓ）に対して、整列されたリード間の距離を測定し、ＲＤ値（ＲｅａｄＤｉｓｔａｎｃｅ）を計算する段階；及び
（Ｄ）前記（Ｃ）段階で計算したＲＤ値に基づいて染色体全体領域又は特定領域別にＲＤＩ値（ＲｅａｄＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＲＤＩ値が基準値の範囲内に収まらない場合に、染色体異常があると判定する段階を含む染色体異常検出方法。
前記（Ａ）段階は、次の段階を含む方法で行われることを特徴とする、請求項２２に記載の染色体異常検出方法：
（Ａ－ｉ）血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びこれらの混合物から核酸を得る段階；
（Ａ－ｉｉ）採取された核酸から、塩析方法（ｓａｌｔｉｎｇ－ｏｕｔｍｅｔｈｏｄ）、カラムクロマトグラフィー方法（ｃｏｌｕｍｎｃｈｒｏｍａｔｏｇｒａｐｈｙｍｅｔｈｏｄ）又はビーズ方法（ｂｅａｄｓｍｅｔｈｏｄ）を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階；
（Ａ－ｉｉｉ）精製された核酸又は酵素的切断、粉砕、水圧切断方法（ｈｙｄｒｏｓｈｅａｒｍｅｔｈｏｄ）で無作為断片化（ｒａｎｄｏｍｆｒａｇｍｅｎｔａｔｉｏｎ）された核酸に対して、シングルエンドシーケンシング（ｓｉｎｇｌｅ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）又はペアエンドシーケンシング（ｐａｉｒ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）ライブラリー（ｌｉｂｒａｒｙ）を作製する段階；
（Ａ－ｉｖ）作製されたライブラリーを次世代シークエンサー（ｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｅｒ）で反応させる段階；及び
（Ａ－ｖ）次世代シークエンサーで核酸の配列情報（ｒｅａｄｓ）を取得する段階。
前記（Ｃ）段階以前に整列されたリードを整列された方向によってグループ化する段階がさらに利用可能であることを特徴とする、請求項２２に記載の染色体異常検出方法。
前記（Ｃ）段階のＲＤ値は、取得したｎ個のリードに対して、ｉ番目リードとｉ＋１～ｎ番目リードから選択されるいずれか一つ以上のリードの両末端値のいずれか一つの値に核酸平均長さの５０％を足した又は引いた値間の距離から算出することを特徴とする、請求項２２に記載の染色体異常を検出する方法。
ＲＤ値は、前記ｉ番目リード内部の５’又は３’末端とｉ＋１～ｎ番目のいずれか一つ以上のリードの５’又は３’末端間の距離を計算することを特徴とする、請求項２２に記載の染色体異常検出方法。
前記（Ｄ）段階は、次の段階を含む方法で行われることを特徴とする、請求項２２に記載の染色体異常検出方法：
（Ｄ－ｉ）染色体全体領域又は特定領域別にＲＤ値の代表値（ＲｅｐＲＤ）を決定する段階；
（Ｄ－ｉｉ）分析しようとする染色体全体領域又は特定領域以外のサンプル内特定領域のＲｅｐＲＤ値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値を計算し、正規化要素（ＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ）を導出する段階；
（Ｄ－ｉｉｉ）下記式１０に基づいて代表値比率（ＲｅｐＲＤｒａｔｉｏ）を計算する段階；
式１０：RepRD ratio = RepRD Target genomic region / Normalized Factor
（Ｄ－ｉｖ）正常人参照集団とサンプルのＲｅｐＲＤ比率（ＲｅｐＲＤｒａｔｉｏ）値を比較し、ＲＤＩ（ＲｅａｄＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算する段階。
前記（Ｄ－ｉ）段階の代表値（ＲｅｐＲＤ）は、ＲＤ値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値であることを特徴とする、請求項２７に記載の染色体異常検出方法。
前記（Ｄ－ｉ）段階の代表値（ＲｅｐＲＤ）は、ＲＤ値の中央値、平均値又はこれの逆数値であることを特徴とする、請求項２８に記載の染色体異常検出方法。
前記（Ｄ－ｉｉ）段階の分析しようとする染色体全体領域又は特定遺伝領域以外のサンプル内特定領域は、下記の段階を含む方法で選別することを特徴とする、請求項２７に記載の染色体異常検出方法：
ａ）分析しようとする染色体全体領域又は特定遺伝領域以外の領域を無作為に選別する段階；
ｂ）前記ａ）段階で選別した遺伝領域のＲｅｐＲＤ値の代表値を事前正規化要素（ＰｒｅＮｏｒｍａｌｉｚｅｄＦａｃｔｏｒ，ＰＮＦ）として決定する段階；
ｃ）下記式１１に基づいて代表値比率（ＲｅｐＲＤｒａｔｉｏ）を計算する段階：
式１１：RepRD ratio = RepRD Target genomic region / PNF
ｄ）正常人参照集団の代表値比率（ＲｅｐＲＤｒａｔｉｏ）の変動係数（ＣｏｅｆｆｉｃｉｅｎｔｏｆＶａｒｉａｎｃｅ：ＳＤ／Ｍｅａｎ）を計算する段階；及び
ｅ）前記ａ）～ｄ）段階を反復施行して得た変動係数のうち、最も小さい値を有する遺伝領域を、染色体全体領域又は特定遺伝領域以外のサンプル内特定領域として決定する段階。
前記（Ｄ－ｉｖ）段階は、正常人参照集団の代表値比率（ＲｅｐＲＤｒａｔｉｏ）をサンプルの代表値比率（ＲｅｐＲＤｒａｔｉｏ）と比較することを特徴とする、請求項２７に記載の染色体異常検出方法。
生体試料から核酸を抽出して配列情報を解読する解読部；
解読された配列を標準染色体配列データベースに整列する整列部；及び
選別された配列情報（ｒｅａｄｓ）に対して、整列されたリード間の距離を測定してＲＤ値（ＲｅａｄＤｉｓｔａｎｃｅ）を計算し、計算したＲＤ値に基づいて染色体全体領域又は特定遺伝領域別にＲＤＩ値（ＲｅａｄＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＲＤＩ値が基準値の範囲内に収まらない場合に、染色体異常があると判定する染色体異常判定部を含む染色体異常検出装置。
コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
（Ａ）生体試料から核酸を抽出して配列情報を取得する段階；
（Ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
（Ｃ）選別された配列情報（ｒｅａｄｓ）に対して、整列されたリード間の距離を測定し、ＲＤ値（ＲｅａｄＤｉｓｔａｎｃｅ）を計算する段階；及び
（Ｄ）前記（Ｃ）段階で計算したＲＤ値に基づいて染色体全体領域又は特定遺伝領域別にＲＤＩ値（ＲｅａｄＤｉｓｔａｎｃｅＩｎｄｅｘ）を計算し、ＲＤＩ値が基準値の範囲内に収まらない場合に、染色体異常があると判定する段階、により染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体。