JP2023504139A

JP2023504139A - 人工知能ベースの染色体異常検出方法

Info

Publication number: JP2023504139A
Application number: JP2022532058A
Authority: JP
Inventors: チャンソクキ; ウンヘチョ; ジュンナムイ; テリムイ; ジンモアン
Original assignee: GC Genome Corp
Current assignee: GC Genome Corp
Priority date: 2019-11-29
Filing date: 2020-11-27
Publication date: 2023-02-01
Also published as: KR20210067931A; EP4068291A1; WO2021107676A1; KR102586651B1; AU2020391556A1; US20230028790A1; EP4068291A4; AU2020391556B2; CA3163405A1

Abstract

本発明は、人工知能ベースの染色体異常検出方法に関し、より具体的には、生体試料から核酸を抽出し、配列情報を取得して整列した核酸断片に基づいてベクトル化されたデータを生成した後、学習された人工知能モデルに入力し、計算された値と基準値とを比較する方法を用いる人工知能ベースの染色体異常検出方法に関する。本発明に係る人工知能ベースの染色体異常検出方法は、既存のリード個数（ｒｅａｄｃｏｕｎｔ）ベースで染色体量を決定する段階を利用する方式又は整列されたリード（ｒｅａｄｓ）間の距離概念を利用する検出方法などにおいてリードに関連した値として個々の定形化された値を用いることに比べて、ベクトル化されたデータを生成してＡＩアルゴリズムを用いて分析するので、リードカバレッジが低くとも類似の効果を発揮することができ、有用である。【選択図】図１

Description

本発明は、人工知能ベースの染色体異常検出方法に関し、より具体的には、生体試料から核酸を抽出し、配列情報を取得して整列したリードに基づいてベクトル化されたデータを生成した後、学習された人工知能モデルに入力して計算された値と基準値とを比較する方法を用いた人工知能ベースの染色体異常検出方法に関する。

染色体異常（ｃｈｒｏｍｏｓｏｍａｌａｂｎｏｒｍａｌｉｔｙ）は、遺伝的欠陥及び腫瘍疾患に関連している。染色体異常は、染色体の欠失又は重複、染色体のうち一部の欠失又は重複、又は染色体内の損傷（ｂｒｅａｋ）、転位（ｔｒａｎｓｌｏｃａｔｉｏｎ）、又は逆位（ｉｎｖｅｒｓｉｏｎ）を意味することもある。染色体異常は、遺伝的バランス障害の一つであって、胎児死亡又は肉体及び精神状態の深刻な欠陥及び腫瘍疾患を誘発する。例えば、ダウン症候群（Ｄｏｗｎ’ｓｓｙｎｄｒｏｍｅ）は、２１番染色体が３個存在（ｔｒｉｓｏｍｙ２１）して誘発される染色体数異常のありふれた形態である。エドワード症候群（Ｅｄｗａｒｄｓｓｙｎｄｒｏｍｅ）（ｔｒｉｓｏｍｙ１８）、パトウ症候群（Ｐａｔａｕｓｙｎｄｒｏｍｅ）（ｔｒｉｓｏｍｙ１３）、ターナー症候群（Ｔｕｒｎｅｒｓｙｎｄｒｏｍｅ）（ＸＯ）、及びクラインフェルター症候群（Ｋｌｉｎｅｆｅｌｔｅｒｓｙｎｄｒｏｍｅ）（ＸＸＹ）も染色体数異常に該当する。また、腫瘍患者からも染色体異常が発見される。例えば、肝癌患者（ＬｉｖｅｒＡｄｅｎｏｍａｓａｎｄａｄｅｎｏｃａｒｃｉｎｏｍａｓ）から４ｑ、１１ｑ、２２ｑ領域の重複と１３ｑ領域の欠失が確認され、膵癌患者からは２ｐ、２ｑ、６ｐ、１１ｑ領域の重複と６ｑ、８ｐ、９ｐ、２１番染色体領域の欠失が確認された。これらの領域は、腫瘍と関連した腫瘍遺伝子（Ｏｎｃｏｇｅｎｅ）、癌抑制遺伝子（Ｔｕｍｏｒｓｕｐｐｒｅｓｓｏｒｇｅｎｅ）領域と関連している。

染色体異常は、核型検査（Ｋａｒｙｏｔｙｐｅ）、ＦＩＳＨ（ＦｌｕｏｒｅｓｃｅｎｔＩｎＳｉｔｕＨｙｂｒｉｄｉｚａｔｉｏｎ）を用いて検出可能である。このような検出法は、時間、努力及び正確度の側面で不利である。また、ＤＮＡマイクロアレイを染色体異常の検出に用いることができる。特に、ゲノムＤＮＡマイクロアレイシステムは、プローブの作製が容易であり、染色体の拡張された領域の他に染色体のイントロン領域における染色体異常も検出できるが、染色体内の位置付け及び機能が確認されたＤＮＡ断片を多数作製することは困難である。

近年、次世代シーケンシング技術が染色体数異常分析に用いられている（Ｐａｒｋ，Ｈ．，Ｋｉｍｅｔａｌ．，ＮａｔＧｅｎｅｔ２０１０，４２，４００－４０５．；Ｋｉｄｄ，Ｊ．Ｍ．ｅｔａｌ．，Ｎａｔｕｒｅ２００８，４５３，５６－６４）。しかしながら、この技術は、染色体数異常分析のための高いカバレッジ読み（ｃｏｖｅｒａｇｅｒｅａｄｉｎｇ）を要求し、ＣＮＶ測定は、独立した立証（ｖａｌｉｄａｔｉｏｎ）も必要とする。このため、非常に高コストとなり、結果が理解し難いため、その当時では一般の遺伝子検索分析として不適であった。

一方、胎児染色体異常に対する既存の産前検査項目には、超音波検査、血中標識子検査、羊水検査、絨毛膜検査、経皮臍帯血検査などがある（ＭｕｊｅｚｉｎｏｖｉｃＦ，ｅｔａｌ．ＯｂｓｔｅｔＧｙｎｅｃｏｌ．２００７，１１０（３）：６８７－９４．）。このうち、超音波検査と血中標識子検査は選別検査に、羊水染色体検査は確診検査に分類する。非侵襲的方法である超音波検査及び血中標識子検査は、胎児に対する直接の試料採取をせず、安全な方法であるが、検査の敏感度が８０％以下と劣っている（ＡＣＯＧＣｏｍｍｉｔｔｅｅｏｎＰｒａｃｔｉｃｅＢｕｌｌｅｔｉｎｓ．２００７）。侵襲的方法である羊水検査、絨毛膜検査、経皮臍帯血検査は、胎児染色体異常を確診できるが、侵襲的医療行為による胎児の消失確率が存在するという短所がある。

１９９７年にＬｏ等が母体血漿及び血清から、胎児由来遺伝物質のＹ染色体塩基配列分析に成功し、母体内胎児遺伝物質を産前検査に利用可能になった（ＬｏＹＭ，ｅｔａｌ．Ｌａｎｃｅｔ．１９９７，３５０（９０７６）：４８５－７）。母体血液中の胎児遺伝物質は、胎盤再形成過程中に細胞死過程を経た栄養膜細胞の一部分が物質交換機序によって母体血液に入ったものであり、実際には胎盤に由来し、これをｃｆｆＤＮＡ（ｃｅｌｌ－ｆｒｅｅｆｅｔａｌＤＮＡ）と定義する。

ｃｆｆＤＮＡは、早ければ胚移植１８日目から、遅くとも３７日目には大部分の母体血液から発見される。ｃｆｆＤＮＡは、３００ｂｐ以下の短い鎖であり、母体血液中に少量で存在する特徴を有するので、これを胎児染色体異常検出に適用する目的に、次世代塩基配列分析手法（ＮＧＳ）を用いた大規模並列塩基分析技術が用いられている。大規模並列塩基分析技術を用いた非侵襲的胎児染色体異常検出性能は、染色体によって９０～９９％以上の検出敏感度を示しているが、偽陽性及び偽陰性の結果が１～１０％に及んでおり、これに対する矯正技術が必要な現状である（ＧｉｌＭＭ，ｅｔａｌ．ＵｌｔｒａｓｏｕｎｄＯｂｓｔｅｔＧｙｎｅｃｏｌ．２０１５，４５（３）：２４９－６６）。

一方、工学分野で頻繁に接し得る入力パターンを特定のグループに分類する問題を解決する方案として、人間が持つ効率的なパターン認識方法を実際のコンピュータに適用させようとする研究が活発に行われている。

様々なコンピュータ適用研究のうち、効率的なパターン認識作用が起きる人間の頭脳細胞構造を工学的にモデリングした人工神経網（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に関する研究がある。入力パターンを特定のグループに分類する問題を解決するために、人工神経網は、人間が有する学習という能力を摸倣したアルゴリズムを利用する。このアルゴリズムを用いて入力パターンと出力パターンとの間の写像（Ｍａｐｐｉｎｇ）を人工神経網が生成することができ、これを、人工神経網に学習能力がある、と表現する。また、人工神経網は、学習された結果に基づき、学習に使用されなかった

入力パターンに対して比較的に正しい出力を生成できる一般化能力がある。学習及び一般化という２つの代表的な性能のため、人工神経網は、既存の順次的なプログラミング方法によってはなかなか解決し難い問題に適用されている。人工神経網はその使用範囲が広いので、パターン分類問題、連続写像、非線形システム識別、非線形制御及びロボット制御分野などに活発に応用されている。

人工神経網とは、連結線で連結された数多くの人工ニューロンを用いて生物学的なシステムの計算能力を摸倣するソフトウェア又はハードウェアによって具現された演算モデルを意味する。人工神経網では、生物学的なニューロンの機能を単純化させた人工ニューロンを使用する。そして、連結強度を有する連結線を介して相互連結させ、人間の認知作用又は学習過程を行うことになる。連結強度は、連結線が有する特定値であり、連結加重値ともいう。人工神経網の学習は、教師あり学習と教師なし学習とに分けられる。教師あり学習とは、入力データとそれに対応する出力データを共に神経網に入れ、入力データに対応する出力データが出力されるように連結線の連結強度を更新させる方法である。代表的な学習アルゴリズムには、デルタ規則（ＤｅｌｔａＲｕｌｅ）と誤り逆伝播学習（ＢａｃｋｐｒｏｐａｇａｔｉｏｎＬｅａｒｎｉｎｇ）がある。教師なし学習とは、目標値無しで入力データのみを用いて人工神経網が自ら連結強度を学習させる方法である。教師なし学習は、入力パターン間の相関関係によって連結加重値を更新させて行く方法である。

機械学習で適用される多くのデータは、複雑化し次元が増えることにより、次元の呪い（ｃｕｒｓｅｏｆｄｉｍｅｎｓｉｏｎａｌｉｔｙ）の問題が発生する。すなわち、これは、必要なデータの次元が無限に行くほど任意の２点間の距離が無限大に発散し、データの存在量、すなわち密度が高次元の空間では多少低くなるため、データの特性（Ｆｅａｔｕｒｅ）を正しく反映できなくなってしまうことをいう（ＲｉｃｈａｒｄＢｅｌｌｍａｎ，ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ，２００３，ｃｈａｐｔｅｒ１）。近年、深層神経網（ｄｅｅｐｌｅａｒｎｉｎｇ）の発達は、入力層（ｉｎｐｕｔｌａｙｅｒ）と出力層（ｏｕｔｐｕｔｌａｙｅｒ）との間に隠れた層（ｈｉｄｄｅｎｌａｙｅｒ）がある構造であって、入力層から伝達される変数値の線形結合（ｌｉｎｅａｒｃｏｍｂｉｎａｔｉｏｎ）を非線形関数で処理しながら、イメージ、映像、信号データなどの高次元のデータにおける分類器（ｃｌａｓｓｉｆｉｅｒ）の性能を大きく向上させたと報告されている（Ｈｉｎｔｏｎ，Ｇｅｏｆｆｒｅｙ，ｅｔａｌ．，ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＭａｇａｚｉｎｅＶｏｌ．２９．６，ｐｐ．８２－９７，２０１２）。

このような人工神経網を用いてバイオ分野に活用する様々な特許（ＫＲ１０－２０１７－０１８５０４１、ＫＲ１０－２０１７－０１４４２３７、ＫＲ１０－２０１８－１２４５５０）が存在しているが、ｃｆｆＤＮＡの配列分析情報に基づき、人工神経網分析を用いて染色体異常を検出する方法についての研究は足りない実情である。

そこで、本発明者らは、上記の問題点を解決し、高い敏感度及び正確度の人工知能ベースの染色体異常検出方法を開発するために鋭意努力した結果、染色体領域に整列されるリードに基づき、ベクトル化されたデータを生成し、これを学習された人工知能モデルで分析する場合に、高い敏感度及び正確度で染色体異常が検出できるということを確認し、本発明を完成するに至った。

本発明の目的は、人工知能ベースの染色体異常検出方法を提供することである。

本発明の他の目的は、人工知能ベースの染色体異常判定装置を提供することである。

本発明のさらに他の目的は、上記の方法で染色体の異常を判定するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体を提供することである。

上記の目的を達成するために、本発明は、ａ）生体試料から核酸を抽出して配列情報を取得する段階；ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；ｃ）前記整列された配列情報（ｒｅａｄｓ）に基づき、ベクトル化されたデータを生成する段階；ｄ）生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値（ｃｕｔ－ｏｆｆｖａｌｕｅ）と比較して染色体異常の有無を判定する段階を含む、人工知能ベースの染色体異常検出方法を提供する。

本発明は、また、生体試料から核酸を抽出して配列情報を解読する解読部；解読された配列を標準染色体配列データベースに整列する整列部；整列された配列情報（ｒｅａｄ）に基づき、ベクトル化されたデータを生成するデータ生成部；生成されたベクトル化されたデータを、学習された人工知能モデルに入力して分析し、染色体異常の有無を判定する染色体異常判定部を含む、人工知能ベースの染色体異常検出装置を提供する。

本発明は、また、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含むが、ａ）生体試料から核酸を抽出して配列情報を取得する段階；ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；ｃ）前記整列された配列情報（ｒｅａｄｓ）に基づき、ベクトル化されたデータを生成する段階；ｄ）生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値（ｃｕｔ－ｏｆｆｖａｌｕｅ）と比較して染色体異常の有無を判定する段階により染色体異常を検出するプロセッサによって実行されるように構成される命令を含む、コンピュータ可読記憶媒体を提供する。

本発明の人工知能ベース染色体異常を判定するための全体フローチャートである。

本発明の一実施例によって生成したＧＣプロットの例示であり、Ｘ軸は、区間別染色体を表し、Ｙ軸は、各区間に該当する核酸断片間の距離値を意味する。

（Ａ）は、本発明の一実施例によって生成した正常サンプルのＧＣＷプロットの例示であり、（Ｂ）は、２１番染色体が３個であるサンプルのＧＣＷプロットの例示であり、Ｘ軸は染色体、Ｙ軸は染色体に該当する核酸断片間の距離値をＺ点数に変換したものを意味する。

（Ａ）は、本発明の一実施例によって生成した正常サンプルのＧＣＷプロットの例示であり、（Ｂ）は２１番染色体が３個であるサンプルのＧＣＷプロットの例示であり、Ｘ軸は染色体、Ｙ軸は染色体に該当するリードの数をＺ点数に変換したものを意味する。

（Ａ）は、本発明の一実施例によって、核酸断片間の距離に基づいて生成したＧＣプロットイメージデータを学習したディープラーニングモデルに対してｔｒｉｓｏｍｙ２１判定の正確度を確認した結果であり、（Ｂ）は、各データセット別確率分布を示した結果である。

（Ａ）は、本発明の一実施例によって、核酸断片間の距離に基づいて生成したＧＣプロットイメージデータを学習したディープラーニングモデルに対してｔｒｉｓｏｍｙ１８判定の正確度を確認した結果であり、（Ｂ）は、各データセット別確率分布を示した結果である。

（Ａ）は、本発明の一実施例によって、核酸断片間の距離に基づいて生成したＧＣプロットイメージデータを学習したディープラーニングモデルに対してｔｒｉｓｏｍｙ１３判定の正確度を確認した結果であり、（Ｂ）は、各データセット別確率分布を示した結果である。

上パネルは、本発明の一実施例によって、核酸断片間の距離に基づいて生成したＧＣＷプロットイメージデータを学習したディープラーニングモデルに対してｔｒｉｓｏｍｙ２１判定の正確度を確認した結果であり、下パネルは、各データセット別確率分布を示した結果である。

左パネルは、図８で学習したディープラーニングモデルで１８番染色体の異常を検出した結果の正確度を確認した結果であり、右パネルは、確率分布を示した結果である。

左パネルは、図８で学習したディープラーニングモデルで１３番染色体の異常を検出した結果の正確度を確認した結果であり、右パネルは、確率分布を示した結果である。

左パネルは、図８で学習したディープラーニングモデルで２１番染色体の異常を検出するためにダウンサンプリングを試みた結果の正確度を確認した結果であり、右パネルは、確率分布を示した結果である。

上パネルは、本発明の一実施例によって、核酸断片間の距離を計算した値の逆数値に基づいて生成したＧＣＷプロットイメージデータを学習したディープラーニングモデルに対してｔｒｉｓｏｍｙ２１判定の正確度を確認した結果であり、下パネルは、各データセット別確率分布を示した結果である。

上パネルは、図１２で学習したディープラーニングモデルで１８番染色体の異常を検出した結果の正確度を確認した結果であり、下パネルは、確率分布を示した結果である。

上パネルは、図１２で学習したディープラーニングモデルで１３番染色体の異常を検出した結果の正確度を確認した結果であり、下パネルは、確率分布を示した結果である。

特に断りのない限り、本明細書で使われる全ての技術的及び科学的用語は、本発明の属する技術の分野における熟練した専門家によって通常理解されるのと同じ意味を有する。一般に、本明細書における命名法及び以下に記述する実験方法は、本技術分野でよく知られており、通常使われるものである。

本発明では、サンプルから取得した配列分析データを参照遺伝体に整列した後、整列された核酸断片に基づいてベクトル化されたデータを生成した後、学習された人工知能モデルでＤＰＩ値を計算して基準値と比較して染色体異常を検出する場合に、高い敏感度及び正確度で染色体異常を検出できるということを確認しようとした。

すなわち、本発明の一実施例では、血液から抽出したＤＮＡをシーケンシングした後、参照染色体に整列した後、核酸断片間の距離又は量を一定の染色体区間別に計算し、各遺伝領域をＸ軸にし、核酸断片間の距離又は量をＹ軸にするベクトル化されたデータを生成した後、それをディープラーニングモデルに学習させてＤＰＩ値を計算し、ＤＰＩ値が基準値以上の場合に染色体異常があると決定する方法を開発した（図１）

したがって、本発明は、一観点において、
ａ）生体試料から核酸を抽出して配列情報を取得する段階；
ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
ｃ）前記整列された核酸断片（ｆｒａｇｍｅｎｔｓ）に基づき、ベクトル化されたデータを生成する段階；
ｄ）生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値（ｃｕｔ－ｏｆｆｖａｌｕｅ）と比較して染色体異常の有無を判定する段階、を含む、人工知能ベースの染色体異常検出方法に関する。

本発明において、前記核酸断片は、生体試料から抽出した核酸の断片であればいずれも使用可能であるが、好ましくは、細胞遊離核酸又は細胞内核酸の断片であってよい。ただし、これに限定されるものではない。

本発明において、前記核酸断片は、直接に配列分析する、次世代塩基配列分析によって配列分析する、又は非特異的全長遺伝体増幅（ｎｏｎ－ｓｐｅｃｉｆｉｃｗｈｏｌｅｇｅｎｏｍｅａｍｐｌｉｆｉｃａｔｉｏｎ）によって配列分析して得たものであることを特徴とし得る。

本発明において、前記核酸断片は、次世代塩基配列分析を利用する場合にはリードを意味できる。

本発明において、用語“染色体の異常”は、染色体に発生する様々な変異を意味するが、大きく、数異常、構造異常、微細欠失、及び染色体不安定性などに区分できる。

染色体の数異常は、染色体の個数に異常が発生する場合であり、例えば、ダウン症候群（ＤｏｗｎＳｙｎｄｒｏｍｅ，２１番目染色体が１個さらに多くて全染色体の数が４７個）、ターナー症候群（ＴｕｒｎｅｒＳｙｎｄｒｏｍｅ、単一Ｘを有し、染色体の数が４５個）、及びクラインフェルター症候群（ＫｌｉｎｅｆｅｌｔｅｒＳｙｎｄｒｏｍｅ，ＸＸＹＹ、ＸＸＸＹ、ＸＸＸＸＹなどの染色体数を有する）のように、全染色体の個数である２３対４６個から異常が発生するあらゆる場合を含むことができる。

染色体の構造異常は、欠失、重複、逆位、転座などの、染色体の個数には変化がないが、染色体の構造に変化が発生するあらゆる場合を意味する。例えば、５番染色体の一部分が欠失（猫泣き症候群）、７番染色体の一部分が欠失（ウィリアムズ症候群）、１２番染色体の一部分が重複（ウォルフヒルシュホーン症候群）、９番と２２番染色体との転座（慢性骨髄白血病）などが挙げられ、腫瘍患者から発見される一部の染色体領域の微細重複と微細欠失も含まれてよい。ただし、上述の内容に限定されるものではない。

本発明において、
前記ａ）段階は、
（ａ－ｉ）血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞及びそれらの混合物から核酸を得る段階；
（ａ－ｉｉ）採取された核酸から塩析方法（ｓａｌｔｉｎｇ－ｏｕｔｍｅｔｈｏｄ）、カラムクロマトグラフィー方法（ｃｏｌｕｍｎｃｈｒｏｍａｔｏｇｒａｐｈｙｍｅｔｈｏｄ）又はビーズ方法（ｂｅａｄｓｍｅｔｈｏｄ）を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を得る段階；
（ａ－ｉｉｉ）精製された核酸又は酵素的切断、粉砕、水圧切断方法（ｈｙｄｒｏｓｈｅａｒｍｅｔｈｏｄ）で無作為断片化（ｒａｎｄｏｍｆｒａｇｍｅｎｔａｔｉｏｎ）された核酸に対して、シングルエンドシーケンシング（ｓｉｎｇｌｅ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）又はペアエンドシーケンシング（ｐａｉｒ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）ライブラリー（ｌｉｂｒａｒｙ）を作製する段階；
（ａ－ｉｖ）作製されたライブラリーを次世代シークエンサー（ｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｅｒ）に反応させる段階；及び
（ａ－ｖ）次世代シークエンサーで核酸の配列情報（ｒｅａｄｓ）を取得する段階；を含むことを特徴とし得る。

本発明において、前記次世代シークエンサー（ｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｅｒ）は、当業界に公知の任意のシーケンシング方法で用いられてよい。選択方法によって分離された核酸のシーケンシングは、典型的には次世代シーケンシング（ＮＧＳ）を用いて行われる。次世代シーケンシングは、個々の核酸分子又は高度に類似な方式で個々の核酸分子に対してクローンで拡張されたプロキシのうち一つのヌクレオチド配列を決定する任意のシーケンシング方法を含む（例えば、１０^５個以上の分子が同時にシーケンシングされる。）。一実施形態において、ライブラリー内の核酸種の相対的存在比は、シーケンシング実験によって作られたデータからそれの同族配列の相対的発生数を計測することによって推定することができる。次世代シーケンシング方法は、当業界に公知されており、例えば、本明細書に援用により組み込まれた文献（Ｍｅｔｚｋｅｒ，Ｍ．（２０１０）ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙＲｅｖｉｅｗｓ１１：３１－４６）に記載されている。

一実施形態において、次世代シーケンシングは、個々の核酸分子のヌクレオチド配列を決定するために行われる（例えば、ヘリコスバイオサイエンス（ＨｅｌｉｃｏｓＢｉｏＳｃｉｅｎｃｅｓ）のヘリスコープ遺伝子シーケンシングシステム（ＨｅｌｉＳｃｏｐｅＧｅｎｅＳｅｑｕｅｎｃｉｎｇｓｙｓｔｅｍ）及びパシフィックバイオサイエンスのパックバイオアールエスシステム（ＰａｃＢｉｏＲＳｓｙｓｔｅｍ））。他の実施形態において、シーケンシング、例えば、より少ないが、より長いリードを生成する他のシーケンシング方法に比べて、シーケンシング単位当たりに配列のより多い塩基を生成する大量並列の短いリードシーケンシング（例えば、カリフォルニア州サンディエゴに所在するイルミナインコポレイテッド（ＩｌｌｕｍｉｎａＩｎｃ．）ソレキサシーケンサー（Ｓｏｌｅｘａｓｅｑｕｅｎｃｅｒ））方法は、個々の核酸分子に対してクローンで拡張されたプロキシのヌクレオチド配列を決定する（例えば、カリフォルニア州サンディエゴに所在のイルミナインコポレイテッド（ＩｌｌｕｍｉｎａＩｎｃ．）ソレキサシーケンサー（Ｓｏｌｅｘａｓｅｑｕｅｎｃｅｒ）；４５４ライフサイエンス（ＬｉｆｅＳｃｉｅｎｃｅｓ）（コネチカット州ブランフォードに所在）及びイオントレント（ＩｏｎＴｏｒｒｅｎｔ））。次世代シーケンシングのための他の方法又は機械は、以下に制限されるものではないが、４５４ライフサイエンス（ＬｉｆｅＳｃｉｅｎｃｅｓ）（コネチカット州ブランフォードに所在）、アプライドバイオシーステムズ（カリフォルニア州フォスターシティに所在；ＳＯＬｉＤシーケンサー）、ヘリコスバイオサイエンスコポーレーション（マサチューセッツ州カンブリッジに所在）、及びエマルジョン及びマイクロ流動シーケンシング手法ナノ点滴（例えば、ジヌバイオ（ＧｎｕＢｉｏ）点滴）によって提供される。

次世代シーケンシングのためのプラットホームは、以下に制限されるものではないが、ロシュ（Ｒｏｃｈｅ）／４５４のゲノムシーケンサー（ＧｅｎｏｍｅＳｅｑｕｅｎｃｅｒ：ＧＳ）ＦＬＸシステム、イルミナ（Ｉｌｌｕｍｉｎａ）／ソレキサ（Ｓｏｌｅｘａ）ゲノム分析器（ＧｅｎｏｍｅＡｎａｌｙｚｅｒ：ＧＡ）、ライフ（Ｌｉｆｅ）／ＡＰＧのサポートオリゴ（ＳｕｐｐｏｒｔＯｌｉｇｏｎｕｃｌｅｏｔｉｄｅＬｉｇａｔｉｏｎＤｅｔｅｃｔｉｏｎ：ＳＯＬｉＤ）システム、ポロネーター（Ｐｏｌｏｎａｔｏｒ）のＧ．００７システム、ヘリコスバイオサイエンスのヘリスコープ遺伝子シーケンシングシステム（ＨｅｌｉｃｏｓＢｉｏＳｃｉｅｎｃｅｓ’ ＨｅｌｉＳｃｏｐｅＧｅｎｅＳｅｑｕｅｎｃｉｎｇｓｙｓｔｅｍ）及びパシフィックバイオサイエンス（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）のパックバイオアールエス（ＰａｃＢｉｏＲＳ）システム、を含む。

ＮＧＳテクノロジーズは、例えば、鋳型製造、シーケンシング及びイメージング及びデータ分析段階のうち一つ以上を含むことができる。

鋳型製造。鋳型製造のための方法は、核酸（例えば、ゲノムＤＮＡ又はｃＤＮＡ）を小さいサイズに無作為に破壊する段階、及びシーケンシング鋳型（例えば、断片鋳型又はメート対鋳型）を作る段階のような段階を含むことができる。空間的に分離された鋳型は、固体表面又は支持体に付着したり又は固定されてよいが、これは、大量のシーケンシング反応が同時に行われるようにする。ＮＧＳ反応のために使用可能な鋳型の類型は、例えば、単一ＤＮＡ分子に由来するクローンが増幅された鋳型及び単一ＤＮＡ分子鋳型を含む。

クローンが増幅された鋳型の製造方法は、例えば、エマルジョンＰＣＲ（ｅｍｕｌｓｉｏｎＰＣＲ：ｅｍＰＣＲ）及び固体相増幅を含む。

ＥｍＰＣＲは、ＮＧＳのための鋳型を製造するために用いることができる。典型的に、核酸断片のライブラリーが作られ、通常のプライミング部位を含有するアダプターは、断片の末端に結紮される。その後、断片は単一鎖に変性され、ビーズによって捕獲される。各ビーズは、単一核酸分子を捕獲する。増幅及びｅｍＰＣＲビーズの豊富化後に、多量の鋳型が付着し得、標準顕微鏡スライド（例えば、ポロネーター（Ｐｏｌｏｎａｔｏｒ））上でポリアクリルアミドゲルに固定され、アミノコーティングされたガラス表面（例えば、Ｌｉｆｅ／ＡＰＧ；ポロネーター（Ｐｏｌｏｎａｔｏｒ））に化学的に架橋される、又は個々のピコタイタプレート（ＰｉｃｏＴｉｔｅｒＰｌａｔｅ：ＰＴＰ）ウェル（例えば、ロシュ（Ｒｏｃｈｅ）／４５４）上に蒸着されるが、この際、ＮＧＳ反応が行われ得る。

固体相増幅もまた用いられ、ＮＧＳのための鋳型を生成することができる。典型的に、前方及び後方プライマーは、固体支持体に共有的に付着する。増幅された断片の表面密度は、支持体上でプライマー対鋳型の比として定義される。固体相増幅は、数百万個の空間的に分離された鋳型クラスター（例えば、イルミナ／ソレキサ（Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘａ））を生成できる。鋳型クラスターの末端は、ＮＧＳ反応のための通常のプライマーに混成化されてよい。

クローンで増幅された鋳型の製造のための他の方法は、例えば、多重置換増幅（ＭｕｌｔｉｐｌｅＤｉｓｐｌａｃｅｍｅｎｔＡｍｐｌｉｆｉｃａｔｉｏｎ：ＭＤＡ）（ＬａｓｋｅｎＲ．Ｓ．ＣｕｒｒＯｐｉｎＭｉｃｒｏｂｉｏｌ．２００７；１０（５）：５１０－６）を含む。ＭＤＡは、非ＰＣＲベースのＤＮＡ増幅手法である。反応は、鋳型に対して無作為にヘキサマープライマーをアニーリングする段階、及び一定の温度で高忠実度酵素、典型的にФ２９によってＤＮＡを合成する段階を伴う。ＭＤＡは、より低い誤り頻度で巨大なサイズの生成物を作ることができる。

ＰＣＲのような鋳型増幅方法は、標的にＮＧＳプラットホームを結合させ得るか又はゲノムの特異的領域を豊富化させ得る（例えば、エクソン）。代表的な鋳型豊富化方法は、例えば、マイクロ点滴ＰＣＲ手法（ＴｅｗｈｅｙＲ．ｅｔａｌ．，ＮａｔｕｒｅＢｉｏｔｅｃｈ．２００９，２７：１０２５－１０３１）、カスタマイズ設計されたオリゴヌクレオチドマイクロアレイ（例えば、ロシュ（Ｒｏｃｈｅ）／ニンブルジェン（ＮｉｍｂｌｅＧｅｎ）オリゴヌクレオチドマイクロアレイ）及び溶液ベースの混成化方法（例えば、分子逆位プローブ（ｍｏｌｅｃｕｌａｒｉｎｖｅｒｓｉｏｎｐｒｏｂｅ：ＭＩＰ））（ＰｏｒｒｅｃａＧ．Ｊ．ｅｔａｌ．，ＮａｔｕｒｅＭｅｔｈｏｄｓ，２００７，４：９３１－９３６；ＫｒｉｓｈｎａｋｕｍａｒＳ．ｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ，２００８，１０５：９２９６－９３１０；ＴｕｒｎｅｒＥ．Ｈ．ｅｔａｌ．，ＮａｔｕｒｅＭｅｔｈｏｄｓ，２００９，６：３１５－３１６）及びビオチン化されたＲＮＡ捕獲配列（ＧｎｉｒｋｅＡ．ｅｔａｌ．，Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．２００９；２７（２）：１８２－９）を含む。

単一分子鋳型は、ＮＧＳ反応のために利用可能な鋳型の他の類型である。空間的に分離された単一分子鋳型は、様々な方法によって固体支持体上に固定されてよい。一接近において、個々のプライマー分子は、固体支持体に共有的に付着する。アダプターは鋳型に添加され、鋳型は、その次に固定されたプライマーに混成化される。他の接近において、単一分子鋳型は、固定されたプライマーから単一鎖の単一分子鋳型をプライミングし延長させることによって固体支持体に共有的に付着する。その後、通常のプライマーは、鋳型に混成化される。さらに他の接近において、単一ポリメラーゼ分子は、プライミングされた鋳型が結合した固体支持体に付着する。

シーケンシング及びイメージング。ＮＧＳのための代表的なシーケンシング及びイメージング方法は、以下に制限されるものではないが、サイクリック可逆的終結（ｃｙｃｌｉｃｒｅｖｅｒｓｉｂｌｅｔｅｒｍｉｎａｔｉｏｎ：ＣＲＴ）、結紮によるシーケンシング（ｓｅｑｕｅｎｃｉｎｇｂｙｌｉｇａｔｉｏｎ：ＳＢＬ）、単一分子添加（パイロシーケンシング（ｐｙｒｏｓｅｑｕｅｎｃｉｎｇ））及び実時間シーケンシングを含む。

ＣＲＴは、ヌクレオチド取り込み、蛍光イメージング及び切断段階を最小限に含むサイクリック方法において可逆ターミネーターを使用する。典型的に、ＤＮＡポリメラーゼは、プライマーに鋳型塩基のヌクレオチドに対して相補的な単一の蛍光で修飾されたヌクレオチドを含める。ＤＮＡ合成は、単一ヌクレオチドの添加後に終結され、含まれなかったヌクレオチドは洗浄される。含まれた標識ヌクレオチドの同一性を決定するためにイメージングが行われる。その後、切断段階において、ターミネーター／インヒビター及び蛍光染料は除去される。ＣＲＴ方法を用いる代表的なＮＧＳプラットホームは、以下に制限されるものではないが、全体内部反射蛍光（ｔｏｔａｌｉｎｔｅｒｎａｌｒｅｆｌｅｃｔｉｏｎｆｌｕｏｒｅｓｃｅｎｃｅ：ＴＩＲＦ）によって検出された４色ＣＲＴ方法と結合したクローンで増幅された鋳型方法を用いるイルミナ（Ｉｌｌｕｍｉｎａ）／ソレキサ（Ｓｏｌｅｘａ）ゲノム分析器（ＧＡ）；及びＴＩＲＦによって検出された１色ＣＲＴ方法と結合した単一分子鋳型方法を用いるヘリコスバイオサイエンス（ＨｅｌｉｃｏｓＢｉｏＳｃｉｅｎｃｅｓ）／ヘリスコープ（ＨｅｌｉＳｃｏｐｅ）を含む。

ＳＢＬは、シーケンシングのためにＤＮＡリガーゼ及び１塩基暗号化されたプローブ又は２塩基暗号化されたプローブのいずれかを使用する。

典型的に、蛍光標識されたプローブは、プライミングされた鋳型に隣接した相補的配列に混成化される。ＤＮＡリガーゼは、プライマーに染料標識されたプローブを結紮させるために用いられる。非結紮プローブが洗浄された後、結紮されたプローブの同一性を決定するために蛍光イメージングが行われる。蛍光染料は、後続の結紮周期のために５’－ＰＯ４基を再生する切断可能なプローブを用いて除去されてよい。代案として、新しいプライマーは、古くなったプライマーが除去された後、鋳型に混成化されてよい。代表的なＳＢＬプラットホームは、以下に制限されるものではないが、ライフ（Ｌｉｆｅ）／ＡＰＧ／ＳＯＬｉＤ（支持体オリゴヌクレオチド結紮検出）を含むが、これは、２塩基暗号化されたプローブを使用する。

パイロシーケンシング方法は、他の化学発光酵素でＤＮＡポリメラーゼの活性を検出する段階に基づく。典型的に、当該方法は、１回に１つの塩基対に沿って相補的鎖を合成し、各段階で実際に添加された塩基を検出することによってＤＮＡの単一鎖をシーケンシングさせる。鋳型ＤＮＡは固定的であり、Ａ、Ｃ、Ｇ及びＴヌクレオチドの溶液は順次に添加され、反応から除去される。光は、単にヌクレオチド溶液が、鋳型の対をなしていない塩基を補充する時にのみ生成される。化学発光信号を生成する溶液の配列は、鋳型の配列を決定させる。代表的なパイロシーケンシングプラットホームは、以下に制限されるものではないが、ＰＴＰウェルに蒸着された１百万～２百万個のビーズによるｅｍＰＣＲによって製造されたＤＮＡ鋳型を使用するロシュ（Ｒｏｃｈｅ）／４５４を含む。

実時間シーケンシングは、ＤＮＡ合成の間に染料標識されたヌクレオチドの連続的取り込みをイメージングする段階を伴う。代表的な実時間シーケンシングプラットホームは、以下に制限されるものではないが、ホスフェート連結されたヌクレオチドが成長するプライマー鎖に含まれる時に配列情報を得るための個々の０モードウェーブガイド（ｚｅｒｏ－ｍｏｄｅｗａｖｅｇｕｉｄｅ，ＺＭＷ）検出器の表面に付着したＤＮＡポリメラーゼ分子を使用するパシフィックバイオサイエンスプラットホーム（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）；蛍光共鳴エネルギー伝達（ｆｌｕｏｒｅｓｃｅｎｃｅｒｅｓｏｎａｎｃｅｅｎｅｒｇｙｔｒａｎｓｆｅｒ，ＦＲＥＴ）によるヌクレオチド取り込み後に、向上した信号を作るために付着した蛍光染料と共に遺伝子操作されたＤＮＡポリメラーゼを使用するライフ（Ｌｉｆｅ）／ビシゲン（ＶｉｓｉＧｅｎ）プラットホーム；及び、シーケンシング反応で染料クエンチャーヌクレオチドを使用するＬＩ－ＣＯＲバイオサイエンス（Ｂｉｏｓｃｉｅｎｃｅｓ）プラットホームを含む。

ＮＧＳの他のシーケンシング方法は、以下に制限されるものではないが、ナノポアシーケンシング、混成化によるシーケンシング、ナノトランジスターアレイベースのシーケンシング、ポロニー（ｐｏｌｏｎｙ）シーケンシング、走査型電子トンネルリング顕微鏡（ｓｃａｎｎｉｎｇｔｕｎｎｅｌｉｎｇｍｉｃｒｏｓｃｏｐｙ，ＳＴＭ）ベースのシーケンシング、及びナノワイヤー分子センサーベースのシーケンシングを含む。

ナノポアシーケンシングは、単一核酸ポリマーから分析され得る高度に密閉した空間を提供するナノ規模ポアを通じて溶液中の核酸分子の電気泳動を伴う。ナノポアシーケンシングの代表的な方法は、例えば、文献［ＢｒａｎｔｏｎＤ．ｅｔａｌ．，ＮａｔＢｉｏｔｅｃｈｎｏｌ．２００８；２６（１０）：１１４６－５３］に記載されている。

混成化によるシーケンシングは、ＤＮＡマイクロアレイを使用する非酵素的方法である。典型的に、ＤＮＡの単一プールは蛍光で標識され、公知された配列を含有するアレイに混成化される。アレイ上の与えられたスポットから混成化信号はＤＮＡ配列を確認することができる。ＤＮＡ二重鎖においてＤＮＡのうち１本のそれの相補的鎖への結合は、混成体領域が短いか又は具体化したミスマッチ検出タンパク質が存在する時に、単一塩基ミスマッチに対してすら敏感である。混成化によるシーケンシングの代表的な方法は、例えば、文献（ＨａｎｎａＧ．Ｊ．ｅｔａｌ．，Ｊ．Ｃｌｉｎ．Ｍｉｃｒｏｂｉｏｌ．２０００；３８（７）：２７１５－２１；及びＥｄｗａｒｄｓＪ．Ｒ．ｅｔａｌ．，Ｍｕｔ．Ｒｅｓ．２００５；５７３（１－２）：３－１２）に記載されている。

ポロニーシーケンシングは、ポロニー増幅及び多重単一塩基延長（ＦＩＳＳＥＱ）を通じてシーケンシングに従うことに基づく。ポロニー増幅は、ポリアクリルアミドフィルム上でインシチュでＤＮＡを増幅させる方法である。代表的なポロニーシーケンシング方法は、例えば、米国特許出願公開第２００７／００８７３６２号に記載されている。

炭素ナノチューブ電界効果トランジスター（ＣａｒｂｏｎＮａｎｏＴｕｂｅＦｉｅｌｄＥｆｆｅｃｔＴｒａｎｓｉｓｔｏｒ：ＣＮＴＦＥＴ）のようなナノトランジスターアレイベース装置も、ＮＧＳのために用いられてよい。例えば、ＤＮＡ分子は伸張され、マイクロ作製された電極によってナノチューブにわたって駆動される。ＤＮＡ分子は、炭素ナノチューブ表面と順次に接触し、ＤＮＡ分子とナノチューブとの間の電荷伝達に起因して各塩基からの電流流れの差異が生成される。ＤＮＡはこれらの差異を記録することによってシーケンシングされる。代表的なナノトランジスターアレイベースシーケンシング方法は、例えば、米国特許公開第２００６／０２４６４９７号に記載されている。

走査型電子トンネルリング顕微鏡（ＳＴＭ）は、また、ＮＧＳのために用いられてよい。ＳＴＭは、標本のラスター走査（ｒａｓｔｅｒｓｃａｎ）を行うピエゾ電子制御プローブを用いてそれの表面のイメージを形成する。ＳＴＭは、例えば、作動器駆動可撓性ギャップと走査型電子トンネルリング顕微鏡を統合させることによって一貫した電子トンネルリングイメージング及び分光学を作る単一ＤＮＡ分子の物理的特性をイメージングするために用いられてよい。ＳＴＭを使用する代表的なシーケンシング方法は、例えば、米国特許出願公開第２００７／０１９４２２５号に記載されている。

ナノワイヤー分子センサーで構成された分子分析装置もまたＮＧＳのために用いられてよい。このような装置は、ＤＮＡのようなナノワイヤー及び核酸分子に配置された窒素性物質の相互作用を検出できる。分子ガイドは相互作用及び後続する検出を許容するために、分子センサーに近くの分子をガイドするために配置される。ナノワイヤー分子センサーを用いる代表的なシーケンシング方法は、例えば、米国特許出願公開第２００６／０２７５７７９号に記載されている。

二重末端のシーケンシング方法がＮＧＳのために用いられてよい。二重末端シーケンシングは、ＤＮＡのセンスとアンチセンス鎖の両方をシーケンシングするために、遮断及び未遮断プライマーを使用する。典型的に、これらの方法は、核酸の第１鎖に未遮断プライマーをアニーリングさせる段階；核酸の第２鎖に第２の遮断プライマーをアニーリングさせる段階；ポリメラーゼで第１鎖に沿って核酸を延長させる段階；第１シーケンシングプライマーを終結させる段階；第２プライマーを遮断解除（ｄｅｂｌｏｃｋｉｎｇ）する段階；及び、第２鎖に沿って核酸を延長させる段階を含む。代表的な二重鎖シーケンシング方法は、例えば、米国特許第７，２４４，５６７号に記載されている。

データ分析段階。

ＮＧＳリードが作られた後、それらは公知の基準配列に対して整列されるか又はデノボ組立（ｄｅｎｏｖｏａｓｓｅｍｂｌｅ）される。

例えば、サンプル（例えば、腫瘍サンプル）から単一ヌクレオチド多形性及び構造的変異体のような遺伝的修飾を確認することは、基準配列（例えば、野生型配列）に対してＮＧＳリードを整列することによって行われてよい。ＮＧＳに対する配列整列方法は、例えば、文献（ＴｒａｐｎｅｌｌＣ．ａｎｄＳａｌｚｂｅｒｇＳ．Ｌ．ＮａｔｕｒｅＢｉｏｔｅｃｈ．，２００９，２７：４５５－４５７］に記載されている。

デノボ組立体の例は、例えば、文献（ＷａｒｒｅｎＲ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００７，２３：５００－５０１；ＢｕｔｌｅｒＪ．ｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．，２００８，１８：８１０－８２０；及び、ＺｅｒｂｉｎｏＤ．Ｒ．ａｎｄＢｉｒｎｅｙＥ．，ＧｅｎｏｍｅＲｅｓ．，２００８，１８：８２１－８２９）に記載されている。

配列整列又は組立（ａｓｓｅｍｂｌｙ）は、一つ以上のＮＧＳプラットホームからのリードデータを用いて、例えば、ロシュ（Ｒｏｃｈｅ）／４５４及びイルミナ（Ｉｌｌｕｍｉｎａ）／ソレキサ（Ｓｏｌｅｘａ）リードデータを混合して行われてよい。本発明において、前記整列段階は、これに制限されないが、ＢＷＡアルゴリズム及びｈｇ１９配列を用いて行われてよい。

本発明において、前記（ｂ）段階の配列整列は、コンピュータアルゴリズムであって、ゲノムにおいてリード配列（例えば、次世代シーケンシングからの、例えば、短いリード配列）が殆どリード配列と基準配列間の類似性を評価することによって由来する可能性がある場合から同一性に対して使用されるコンピュータ的方法又は接近を含む。配列整列問題に様々なアルゴリズムが適用されてよい。一部のアルゴリズムは相対的に遅いが、相対的に高い特異性を許容する。これらは、例えば、力動的プログラミングベースアルゴリズムを含む。力動的プログラミングは、それらがより簡単な段階に分けられることによって複雑な問題を解決する方法である。他の接近は、相対的により効率的であるが、典型的に徹底していない。これは、例えば、大量データベース検索のために設計されたヒューリスティク（ｈｅｕｒｉｓｔｉｃ）アルゴリズム及び確率的（ｐｒｏｂａｂｉｌｉｓｔｉｃ）方法を含む。

典型的に、整列過程に２段階があり得る：候補者検査及び配列整列。候補者検査は、可能な整列位置のより短い列挙に対して全ゲノムから配列整列のための検索空間を減少させる。用語が示唆するように、配列整列は、候補者検査段階に提供された配列を有する配列を整列させる段階を含む。これは、広域整列（例えば、ニードルマンブンシュ（Ｎｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈ）整列）又は局所整列（例えば、スミスウォーターマン整列）を用いて行われてよい。

大部分の属性整列アルゴリズムは、索引方法に基づく３類型のいずれか一つを特徴とし得る：ハッシュテーブル（例えば、ＢＬＡＳＴ、ＥＬＡＮＤ、ＳＯＡＰ）、接尾辞ツリー（例えば、Ｂｏｗｔｉｅ、ＢＷＡ）及び併合整列（例えば、スライダー（Ｓｌｉｄｅｒ））に基づくアルゴリズム。短いリード配列は、整列のために典型的に用いられる。短いリード配列に対する配列整列アルゴリズム／プログラムの例は、以下に制限されるものではないが、ＢＦＡＳＴ（ＨｏｍｅｒＮ．ｅｔａｌ．，ＰＬｏＳＯｎｅ．２００９；４（１１）：ｅ７７６７）、ＢＬＡＳＴＮ（ワールドワイドウェブ上のｂｌａｓｔ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖから）、ＢＬＡＴ（ＫｅｎｔＷ．Ｊ．ＧｅｎｏｍｅＲｅｓ．２００２；１２（４）：６５６－６４）、ボウタイ（Ｂｏｗｔｉｅ）（ＬａｎｇｍｅａｄＢ．ｅｔａｌ．，ＧｅｎｏｍｅＢｉｏｌ．２００９；１０（３）：Ｒ２５）、ＢＷＡ（ＬｉＨ．ａｎｄＤｕｒｂｉｎＲ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００９，２５：１７５４－６０）、ＢＷＡ－ＳＷ（ＬｉＨ．ａｎｄＤｕｒｂｉｎＲ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１０；２６（５）：５８９－９５）、クラウドバースト（ＣｌｏｕｄＢｕｒｓｔ）（ＳｃｈａｔｚＭ．Ｃ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（１１）：１３６３－９）、コロナライト（ＣｏｒｏｎａＬｉｔｅ）（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ，Ｃａｒｌｓｂａｄ，Ｃａｌｉｆｏｒｎｉａ，ＵＳＡ）、ＣＡＳＨＸ（ＦａｈｌｇｒｅｎＮ．ｅｔａｌ．，ＲＮＡ，２００９；１５，９９２－１００２）、ＣＵＤＡ－ＥＣ（ＳｈｉＨ．ｅｔａｌ．，ＪＣｏｍｐｕｔＢｉｏｌ．２０１０；１７（４）：６０３－１５）、ＥＬＡＮＤ（ワールドワイドウェブ上のｂｉｏｉｔ．ｄｂｉ．ｕｄｅｌ．ｅｄｕ／ｈｏｗｔｏ／ｅｌａｎｄで）、ＧＮＵＭＡＰ（ＣｌｅｍｅｎｔＮ．Ｌ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１０；２６（１）：３８－４５）、ＧＭＡＰ（ＷｕＴ．Ｄ．ａｎｄＷａｔａｎａｂｅＣ．Ｋ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００５；２１（９）：１８５９－７５）、ＧＳＮＡＰ（ＷｕＴ．Ｄ．ａｎｄＮａｃｕＳ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１０；２６（７）：８７３－８１）、ジー二アスアセンブラ（ＧｅｎｅｉｏｕｓＡｓｓｅｍｂｌｅｒ）（ニュージーランド、オークランドに所在のＢｉｏｍａｔｔｅｒｓＬｔｄ．）、ＬＡＳＴ、ＭＡＱ（ＬｉＨ．ｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．２００８；１８（１１）：１８５１－８）、Ｍｅｇａ－ＢＬＡＳＴ（ワールドワイドウェブ上のｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｂｌａｓｔ／ｍｅｇａｂｌａｓｔ．ｓｈｔｍｌで）、ＭＯＭ（ＥａｖｅｓＨ．Ｌ．ａｎｄＧａｏＹ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（７）：９６９－７０）、ＭＯＳＡＩＫ（ワールドワイドウェブ上のｂｉｏｉｎｆｏｒｍａｔｉｃｓ．ｂｃ．ｅｄｕ／ｍａｒｔｈｌａｂ／Ｍｏｓａｉｋで）、ノボアライン（Ｎｏｖｏａｌｉｇｎ）（ワールドワイドウェブ上のｎｏｖｏｃｒａｆｔ．ｃｏｍ／ｍａｉｎ／ｉｎｄｅｘ．ｐｈｐで）、パルマッパー（ＰＡＬＭａｐｐｅｒ）（ワールドワイドウェブ上のｆｍｌ．ｔｕｅｂｉｎｇｅｎ．ｍｐｇ．ｄｅ／ｒａｅｔｓｃｈ／ｓｕｐｐｌ／ｐａｌｍａｐｐｅｒで）、ＰＡＳＳ（ＣａｍｐａｇｎａＤ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（７）：９６７－８）、ＰａｔＭａＮ（ＰｒｕｆｅｒＫ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００８；２４（１３）：１５３０－１）、ＰｅｒＭ（ＣｈｅｎＹ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００９，２５（１９）：２５１４－２５２１）、ＰｒｏｂｅＭａｔｃｈ（ＫｉｍＹ．Ｊ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（１１）：１４２４－５）、ＱＰａｌｍａ（ｄｅＢｏｎａＦ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００８，２４（１６）：ｉ１７４）、ＲａｚｅｒＳ（ＷｅｅｓｅＤ．ｅｔａｌ．，ＧｅｎｏｍｅＲｅｓｅａｒｃｈ，２００９，１９：１６４６－１６５４）、ＲＭＡＰ（ＳｍｉｔｈＡ．Ｄ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（２１）：２８４１－２）、ＳｅｑＭａｐ（ＪｉａｎｇＨ．ｅｔａｌ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００８；２４：２３９５－２３９６．）、Ｓｈｒｅｃ（ＳａｌｍｅｌａＬ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１０；２６（１０）：１２８４－９０）、ＳＨＲｉＭＰ（ＲｕｍｂｌｅＳ．Ｍ．ｅｔａｌ．，ＰＬｏＳＣｏｍｐｕｔ．Ｂｉｏｌ．，２００９，５（５）：ｅ１０００３８６）、ＳＬＩＤＥＲ（ＭａｌｈｉｓＮ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００９，２５（１）：６－１３）、スリムサーチ（ＳＬＩＭＳｅａｒｃｈ）（ＭｕｌｌｅｒＴ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００１；１７Ｓｕｐｐｌ１：Ｓ１８２－９）、ＳＯＡＰ（ＬｉＲ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００８；２４（５）：７１３－４）、ＳＯＡＰ２（ＬｉＲ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９；２５（１５）：１９６６－７）、ＳＯＣＳ（ＯｎｄｏｖＢ．Ｄ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００８；２４（２３）：２７７６－７）、ＳＳＡＨＡ（ＮｉｎｇＺ．ｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．２００１；１１（１０）：１７２５－９）、ＳＳＡＨＡ２（ＮｉｎｇＺ．ｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．２００１；１１（１０）：１７２５－９）、スタンピー（Ｓｔａｍｐｙ）（ＬｕｎｔｅｒＧ．ａｎｄＧｏｏｄｓｏｎＭ．ＧｅｎｏｍｅＲｅｓ．２０１０，ｅｐｕｂａｈｅａｄｏｆｐｒｉｎｔ）、タイパン（Ｔａｉｐａｎ）（ワールドワイドウェブ上のｔａｉｐａｎ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔで）、ＵＧＥＮＥ（ワールドワイドウェブ上のｕｇｅｎｅ．ｕｎｉｐｒｏ．ｒｕで）、ＸｐｒｅｓｓＡｌｉｇｎ（ワールドワイドウェブ上のｂｃｇｓｃ．ｃａ／ｐｌａｔｆｏｒｍ／ｂｉｏｉｎｆｏ／ｓｏｆｔｗａｒｅ／ＸｐｒｅｓｓＡｌｉｇｎで）、及びＺＯＯＭ（カナダオンタリオ州ウォータールーに所在のバイオインフォマティクスソリューションインコポレイテッド（ＢｉｏｉｎｆｏｒｍａｔｉｃｓＳｏｌｕｔｉｏｎｓＩｎｃ．））を含む。

配列整列アルゴリズムは、例えば、シーケンシング手法、リード長さ、リード数、入手可能なコンピューティング資料及び敏感性／スコアリング必要条件を含む多数の因子に基づいて選択されてよい。異なる配列整列アルゴリズムは、異なる速度レベル、整列敏感性及び整列特異性を達成することができる。整列特異性は、予測された整列と比較して正確に整列された典型的にサブミッションから発見されるように、整列された標的配列残基の百分率のことを指す。整列敏感性は、また、サブミッションで正確に整列された一般に予測された整列から発見されるように、整列された標的配列残基の百分率のことを指す。

整列アルゴリズム、例えば、ＥＬＡＮＤ又はＳＯＡＰは、速度が考慮される第１因子である時に、基準ゲノムに対して短いリード（例えば、イルミナ（Ｉｌｌｕｍｉｎａ）／ソレキサ（Ｓｏｌｅｘａ）シーケンサー製）を整列する目的に用いられてよい。ＢＬＡＳＴ又はＭｅｇａ－ＢＬＡＳＴのような整列アルゴリズムは、特異性が最も重要な因子である時に、これらの方法が相対的に遅いが、短い判読（例えば、ロシュ（Ｒｏｃｈｅ）ＦＬＸ製）を用いて類似性調査の目的のために使用されてよい。ＭＡＱ又はノボアライン（Ｎｏｖｏａｌｉｇｎ）のような整列アルゴリズムは、品質スコアを考慮し、よって、正確性が必須のときに、単一又はペアード末端データに対して使用されてよい（例えば、高速大量ＳＮＰ検索で）。ボウタイ（Ｂｏｗｔｉｅ）又はＢＷＡのような整列アルゴリズムは、バローズウィーラー変換（Ｂｕｒｒｏｗｓ－ＷｈｅｅｌｅｒＴｒａｎｓｆｏｒｍ：ＢＷＴ）を利用し、したがって、相対的に小さいメモリフットプリント（ｍｅｍｏｒｙｆｏｏｔｐｒｉｎｔ）を必要とする。ＢＦＡＳＴ、ＰｅｒＭ、ＳＨＲｉＭＰ、ＳＯＣＳ又はＺＯＯＭのような整列アルゴリズムは、色空間リードをマッピングし、したがって、ＡＢＩのＳＯＬｉＤプラットホームと共に用いられてよい。一部の適用において、２以上の整列アルゴリズムからの結果が組み合わせられてよい。

本発明において、前記ｂ）段階の配列情報（ｒｅａｄｓ）の長さは５～５０００ｂｐであり、使用する配列情報の数は５，０００～５０，０００個でよいが、これに限定されない。

本発明において、前記ｃ）段階のベクトル化されたデータは、整列された核酸断片に基づいて生成できるベクトル化されたデータであればいずれも利用可能であるが、好ましくは、グランドキャニオンプロット（ＧｒａｎｄＣａｎｙｏｎｐｌｏｔ，ＧＣプロット）又はゲノミックキャッスルウォールプロット（ＧｅｎｏｍｉｃＣａｓｔｌｅＷａｌｌｐｌｏｔ，ＧＣＷプロット）であることを特徴とし得るが、これに限定されるものではない。

本発明においてベクトル化されたデータは、これに限定されないが、好ましくは、イメージ化されたことを特徴とし得る。イメージは、基本的にピクセルで構成されるが、ピクセルで構成されたイメージをベクトル化させると、イメージの種類によって１次元２Ｄベクトル（白黒）、３次元２Ｄベクトル（カラー（ＲＧＢ））又は４次元２Ｄベクトル（カラー（ＣＭＹＫ））で表現されてよい。

本発明のベクトル化されたデータは、イメージに限定されず、例えば、ｎ個の白黒イメージを複数枚積み、ｎ次元の２Ｄベクトル（Ｍｕｌｔｉ－ｄｉｍｅｎｓｉｏｎａｌＶｅｃｔｏｒ）を用いて人工知能モデルの入力データとして使用することができる。

本発明において、ＧＣＷプロットは、正常染色体と判別染色体の区間別差異点を明確に示すために、正常染色体と判別染色体とを交差配列して作成したグラフを意味し、例えば、染色体別ＲｅｐＦＤ値をイメージ化する場合に、正常サンプルでは全染色体においてＲｅｐＦＤ値が類似に出るので、ＧＣＷプロットにおいてＵｐ－Ｄｏｗｎパターンが生成されないが、染色体異数性サンプルでは、異数性のある染色体において正常染色体に比べて相対的に低いＲｅｐＦＤ値が出るので、ＧＣＷプロットにおいて明確なＵｐ－Ｄｏｗｎパターンが生成される。このようなパターンの差異を極大化させるために（正常染色体，異数性染色体）_ｎを反復、交差配列して人工知能モデルに学習させ、正常サンプルと染色体異数性サンプルとを区分可能にするものである。

本発明において、ＧＣプロットは、特定の区間（一定のｂｉｎ又は異なるサイズのｂｉｎ）をＸ軸に置き、核酸断片間の距離又は数のような核酸断片で表現できる数値をＹ軸に生成したプロットである。

本発明において、前記ｃ）段階を行うに先立って整列された核酸断片の整列一致度点数（ｍａｐｐｉｎｇｑｕａｌｉｔｙｓｃｏｒｅ）を満たす核酸断片を別に分類する段階をさらに含むことを特徴とし得る。

本発明において、前記整列一致度点数（ｍａｐｐｉｎｇｑｕａｌｉｔｙｓｃｏｒｅ）は、所望の基準によって変わり得るが、好ましくは１５～７０点、より好ましくは５０～７０点でよく、最も好ましくは６０点でよい。

本発明において、前記ｃ）段階のＧＣプロットは、整列された核酸断片の染色体区間別分布を、区間別核酸断片の数又は核酸断片間の距離を計算してベクトル化されたデータとして生成することを特徴とし得る。

本発明において、核酸断片の数又は核酸断片間の距離計算値をベクトル化する方法は、計算値をベクトル化する公知の技術であればいずれも利用可能である。

本発明において、前記整列された配列情報の染色体区間別分布を核酸断片の数で計算することは、下記の段階を含んで行うことを特徴とし得る：
ｉ）染色体を一定区間（ｂｉｎ）に区分する段階；
ｉｉ）各区間に整列された核酸断片の数を決定する段階；
ｉｉｉ）各区間に決定された核酸断片数をサンプルの全核酸断片数で割って正規化（ｎｏｒｍａｌｉｚａｔｉｏｎ）する段階；及び
ｉｖ）各区間の順序をＸ軸値とし、前記ｉｉｉ）段階で計算した正規化値をＹ軸値としてＧＣプロットを生成する段階。

本発明において、前記整列された配列情報の染色体区間別分布を核酸断片間の距離で計算することは、下記の段階を含んで行うことを特徴とし得る：
ｉ）染色体を一定区間（ｂｉｎ）に区分する段階；
ｉｉ）各区間に整列された核酸断片間の距離（ＦｒａｇｍｅｎｔｓＤｉｓｔａｎｃｅ，ＦＤ）を計算する段階；
ｉｉｉ）各区間別に計算された距離値に基づいて各区間の距離の代表値（ＲｅｐＦＤ）を決定する段階；
ｉｖ）前記ｉｉｉ）段階で計算された代表値を全核酸断片距離値の代表値で割って正規化（ｎｏｒｍａｌｉｚａｔｉｏｎ）する段階；及び
ｖ）各区間の順序をＸ軸値とし、前記ｉｖ）段階で計算した正規化値をＹ軸値としてＧＣプロットを生成する段階。

本発明において、前記代表値（ＲｅｐＦＤ）は、ＦＤ値の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数及びそれらの組合せからなる群から選ばれる一つ以上であることを特徴とし得るが、これに限定されるものではない。

本発明において、前記一定区間（ｂｉｎ）は、１Ｋｂ～３Ｇｂであることを特徴とし得るが、これに限定されるものではない。

本発明では、核酸断片をグループ化する段階をさらに用いることができ、このとき、グループ化は、整列された核酸断片のアダプター配列に基づいて行うことができる。正方向に整列された核酸断片と逆方向に整列された核酸断片とに別個に区分し、選別された配列情報に対して核酸断片間の距離を計算することができる。

本発明において、前記ＦＤ値は、取得したｎ個の核酸断片に対して、ｉ番目核酸断片の基準値とｉ＋１～ｎ番目核酸断片から選択されるいずれか一つ以上の核酸断片の基準値との間の距離として定義されることを特徴とし得る。

本発明において、前記ＦＤ値は、取得したｎ個の核酸断片に対して、第１核酸断片の基準値と第２～第ｎ個の核酸断片からなる群から選ばれるいずれか一つ以上の核酸断片の基準値との距離を計算し、それらの和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値をＦＤ値として使用できるが、これに限定されるものではない。

本発明において、“一つ以上の値及び／又は一つ以上のそれらの逆数値”という記載は、上述した数値のから１つ又は２つ以上が組み合わせられて使用可能であるという意味で解釈される。

本発明において、前記“核酸断片の基準値”は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とし得る。

前記ＦＤ値は、取得したｎ個の核酸断片に対して、次のように定義できる。

ＦＤ＝Ｄｉｓｔ（Ｒｉ～Ｒｊ）（１＜ｉ＜ｊ＜ｎ）

ここで、Ｄｉｓｔ関数は、選別されたＲｉとＲｊの両核酸断片間に含まれる全ての核酸断片の整列位置値の差の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値を計算する。

すなわち、本発明において、ＦＤ値（ＦｒａｇｍｅｎｔＤｉｓｔａｎｃｅＶａｌｕｅ）は、整列された核酸断片間の距離を意味する。ここで、距離計算のための核酸断片の選別の場合の数は、次のように定義できる。合計Ｎ個の核酸断片が存在する場合に、

個の核酸断片間距離の組合せが可能である。すなわち、ｉが１の場合に、ｉ＋１は２となり、２～ｎ番目核酸断片から選択されるいずれか一つ以上の核酸断片との距離を定義することができる。

本発明において、前記ＦＤ値は、前記ｉ番目核酸断片内部の特定位置とｉ＋１～ｎ番目のいずれか一つ以上の核酸断片内部の特定位置との間の距離を計算することを特徴とし得る。

例えば、ある核酸断片の長さが５０ｂｐであり、染色体１番の４，１８３位置に整列されているとすれば、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体１番の４，１８３～４，２３２である。

前記核酸断片と隣接した５０ｂｐ長の核酸断片が染色体１番の４，２３２番目位置に整列されると、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体１番の４，２３２～４，２８１であり、両核酸断片間のＦＤ値は、１～９９になり得る。

さらに他の隣接した５０ｂｐ長の核酸断片が染色体１番の４１２３番目位置に整列されると、この核酸断片の距離計算に使用可能な遺伝的位置値は、染色体１番の４，１２３～４，１７２であり、両核酸断片間のＦＤ値は６１～１５９であり、最初の例示核酸断片とのＦＤ値は１２～１１０であり、前記両ＦＤ値範囲の一つの値の和、差、積、平均、積のログ、和のログ、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値、加重値が含まれた計算結果、及びこれに限定されない統計値をＦＤ値として使用でき、好ましくは、両ＦＤ値範囲の一つの値の逆数値であることを特徴とし得るが、これに限定されるものではない。

好ましくは、本発明において、前記ＦＤ値は、核酸断片の中央値から任意の値を足した又は引いた値であることを特徴とし得る。

本発明において、ＦＤの中央値は、計算されたＦＤ値を大きさの順に整列したとき、最も中央に位置する値を意味する。例えば１、２、１００のように３個の値があるとき、２が最も中央にあるので、２が中央値となる。仮に、偶数個のＦＤ値がある場合に、中央にある２つの値の平均を中央値として決定する。例えば、１、１０、９０、２００のＦＤ値がある場合、中央値は１０及び９０の平均である５０となる。

本発明において、前記任意の値は、核酸断片の位置を示し得るものであればいずれも利用可能であるが、好ましくは、０～５ｋｂｐ、又は核酸断片長さの０～３００％、０～３ｋｂｐ、又は核酸断片長さの０～２００％、０～１ｋｂｐ、又は核酸断片長さの０～１００％、より好ましくは０～５００ｂｐ又は核酸断片長さの０～５０％であってよいが、これに限定されるものではない。

本発明において、前記ＦＤ値は、ペアードエンドシーケンシング（ｐａｉｒｅｄ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）では、正方向及び逆方向配列情報（ｒｅａｄｓ）の位置値に基づいて導出することを特徴とし得る。

例えば、５０ｂｐ長のペアードエンドリード対において、正方向リードは、染色体１番の４１８３番目位置に整列され、逆方向リードは４３４９番目位置に整列されると、この核酸断片の両末端は４１８３、４３４９となり、核酸断片距離に使用可能な基準値は、４１８３～４３４９である。このとき、前記核酸断片と隣接した他のペアードエンドリード対において、正方向リードは染色体１番の４３４９番目位置に整列され、逆方向リードは４５１５番目に整列されると、この核酸断片の位置値は、４３４９～４５１５である。この両核酸断片の距離は０～３３３になり得、最も好ましくは、各核酸断片の中央値の距離である１６６になり得る。

本発明において、前記ペアードエンドシーケンシングで配列情報を取得する場合に、配列情報（ｒｅａｄｓ）の整列点数が基準値未満である核酸断片は、計算過程から除外する段階をさらに含むことを特徴とし得る。

本発明において、前記ＦＤ値は、シングルエンドシーケンシング（ｓｉｎｇｌｅ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）では、正方向又は逆方向配列情報（ｒｅａｄ）の位置値の一つの種類に基づいて導出することを特徴とし得る。

本発明において、前記シングルエンドシーケンシングでは、正方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を足し、逆方向に整列された配列情報に基づいて位置値を導出する場合には任意の値を引くことを特徴とし、前記任意の値は、ＦＤ値が核酸断片の位置を明確に表示可能にする値であればいずれも利用可能であるが、好ましくは０～５ｋｂｐ又は核酸断片長さの０～３００％、０～３ｋｂｐ又は核酸断片長さの０～２００％、０～１ｋｂｐ又は核酸断片長さの０～１００％、より好ましくは０～５００ｂｐ又は核酸断片長さの０～５０％でよいが、これに限定されるものではない。

本発明において、分析しようとする核酸は、シーケンシングされてリード（ｒｅａｄｓ）という単位で表現されてよい。このリードは、シーケンシング方法によって、シングルエンドシーケンシング（ｓｉｎｇｌｅｅｎｄｓｅｑｕｅｎｃｉｎｇｒｅａｄ，ＳＥ）及びペアードエンドシーケンシング（ｐａｉｒｅｄｅｎｄｓｅｑｕｅｎｃｉｎｇｒｅａｄ，ＰＥ）に分類できる。ＳＥ方式のリードは、核酸分子の５’及び３’のいずれか１箇所をランダムな方向に一定の長さだけシーケンシングしたものを意味し、ＰＥ方式のリードは、５’及び３’の両方を一定の長さだけシーケンシングする。このような相違から、ＳＥモードでシーケンシングする場合に、１個の核酸断片から１個のリードが生成され、ＰＥモードでは１個の核酸断片から２個のリードが対として生成されることは、通常の技術者によく知られた事実である。

核酸断片間の正確な距離を計算するための最も理想的な方式は、核酸分子を初めから終わりまでシーケンシングし、そのリードを整列し、整列された値の中央値（センター）を利用する。しかし、技術的に、上の方式は、シーケンシング技術の限界及び費用の側面において制約があるのが現状である。したがって、ＳＥ、ＰＥのような方式でシーケンシングすることになるが、ＰＥ方式では、核酸分子の開始と終了の位置が分かるので、これらの値の組合せにより核酸断片の正確な位置（中央値）を把握できるが、ＳＥ方式では、核酸断片の片方の終了情報しか利用できず、正確な位置（中央値）計算に限界がある。

また、正方向、逆方向の両方向にシーケンシングされた（整列された）、全てのリードの末端情報を用いて核酸分子の距離計算時に、シーケンシング方向という要素のため、正確でない値が計算されることがある。

したがって、シーケンシング方式の技術的理由から、正方向リードの５’末端は、核酸分子の中心位置よりも小さい位置値を有し、逆方向リードの３’末端は大きい値を有する。このような特徴を用いて、正方向リードでは任意の値（Ｅｘｔｅｎｄｅｄｂｐ）を足し、逆方向リードでは引くと、核酸分子の中心位置に近い値が推定できる。

すなわち、任意の値（Ｅｘｔｅｎｄｅｄｂｐ）は、使用する試料によって変わってよく、細胞遊離核酸は、その核酸の平均長さが１６６ｂｐ程度と知られているので、約８０ｂｐ程度に設定できる。万一、断片化装備（例えは、ｓｏｎｉｃａｔｉｏｎ）を用いて実験が行われた場合は、断片化過程において設定したターゲット長さの半分程度を延長ｂｐ（ｅｘｔｅｎｄｅｄｂｐ）と設定できる。

本発明において、前記代表値（ＲｅｐＦＤ）は、ＦＤ値の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値であることを特徴とし、好ましくは、ＦＤ値の中央値、平均値又はこれの逆数値であることを特徴とし得るが、これに限定されるものではない。

本発明において、前記ＧＣＷプロットは、整列された核酸断片間の距離又は区間別量を染色体単位で計算し、正常染色体と異数性を判別しようとする染色体の距離値を交差配列してベクトル化されたデータとして生成することを特徴とし得る。

本発明において、前記交差配列は、ｘ軸に沿って（［正常染色体の計算値］，［異数性を判別する染色体の計算値］）_ｎ値を配列することを意味する。例えば、Ｔｒｉｓｏｍｙ２１を判別する場合に、ｘ軸に沿って１番染色体のＲｅｐＦＤ値、２１番染色体のＲｅｐＦＤ、２番染色体のＲｅｐＦＤ、２１番染色体のＲｅｐＦＤ、３番染色体のＲｅｐＦＤ、２１番染色体のＲｅｐＦＤ…のように配列する方式を意味する。

本発明において、前記ＧＣＷプロットは、核酸断片間の距離を計算値として使用する場合に、下記の段階を含む方法で行われることを特徴とし得る。

ｉ）各染色体別に整列された核酸断片間の距離（ＦＤ）を計算する段階；
ｉｉ）前記ｉ）段階で計算された距離値に基づいて各区間の距離の代表値（ＲｅｐＦＤ）を決定する段階；
ｉｉｉ）前記ｉｉ）段階で決定された染色体別ＲｅｐＦＤ値を標準化（ｓｔａｎｄａｒｄｉｚａｔｉｏｎ）する段階；
ｉｖ）異数性を判別する染色体以外の染色体のうち一部を比較染色体群として選抜する段階；及び
ｉｖ）比較染色体群に属する染色体と異数性を判別する染色体をＸ軸に沿って順次に交差配列し、各染色体の標準化された計算値をＹ値とするＧＣＷプロットを生成する段階。

本発明において、前記標準化段階は、
１）染色体異数性が非検出された正常サンプルからなる標準集団を設定する段階；
２）前記標準集団から観察される染色体別ＲｅｐＦＤ値の平均（Ｒｅｆｅｒｅｎｃｅ＿Ｍｅａｎ）と標準偏差（Ｒｅｆｅｒｅｎｃｅ＿Ｓｔａｎｄａｒｄ＿Ｄｅｖｉａｔｉｏｎ）を計算する段階；
３）前記２）段階で計算した平均と標準偏差を下記数式１に代入してＺ標準化する段階；
数式1:
Z_chr = ((RepFD_chr - Reference_Mean_chr) /Reference_Standard_Deviation_chr) + 5
ここで、シーケンシング量（リード数）が多いサンプルではＲｅｐＦＤ値が低くなりながらＺ_ｃｈｒ値が負数を有する場合が発生し得るが、Ｚ_ｃｈｒ値が負数になると、下記段階の異数性を判別しようとする染色体のＺ_ｃｈｒ値で割る過程で問題が発生するため（Ｕｐ－ＤｏｗｎパターンがＤｏｗｎ－Ｕｐパターンとしてひっくり返されて出ることがある。）、全体的に＋５をして全てを正数値に作るために＋５を足す。

４）前記３）段階で計算した染色体別Ｚ_ｃｈｒ値を、異数性を判別しようとする染色体のＺ_ｃｈｒ値で割る段階。

ここで、前記４）段階は、サンプルのシーケンシング量によってＧＣＷプロットのｙスケールが変わることを補正するために、異数性を判別しようとする染色体のＺ_ｃｈｒ値で割ることであり、この過程により、サンプルのシーケンシング量に関係なくｙスケールが一定のＧＣＷプロットを生成することができる。

本発明において、前記代表値（ＲｅｐＦＤ）は、ＦＤ値の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差及び変動係数からなる群から選ばれる一つ以上の値及び／又は一つ以上のそれらの逆数値であることを特徴とし、好ましくは、ＦＤ値の中央値、平均値又はその逆数値であることを特徴とし得るが、これに限定されるものではない。

本発明において、前記ＧＣＷプロットを核酸断片の量で示した場合に、核酸断片の量でＧＣＷプロットを描けば、比較染色体群の棒の相対的な高さにおいて差を示すが、これを人工知能モデルに学習させることができる（図４）。

本発明において、前記比較染色体群は、判別染色体群以外のいずれの染色体の組合せも利用可能であり、好ましくは、１、２、３、４、５、６、８、９、１０、１１、１３、１４、１５、１８、２０番染色体であるが、これに限定されるものではない。

本発明において、前記ベクトル化されたデータは、一つのイメージに複数の染色体別プロットを含むことを特徴とし得る。

本発明において、前記（ｄ）段階の人工知能モデルは、染色体状態が正常であるイメージと、染色体異常があるイメージとを区別できるように学習できるモデルであればいずれも利用可能であり、好ましくは、ディープラーニングモデルであることを特徴とし得る。

本発明において、前記人工知能モデルは、人工神経網ベースでベクトル化されたデータを分析できる人工神経網アルゴリズムであればいずれも利用可能であるが、好ましくは、ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ（ＣＮＮ）、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（ＤＮＮ）、ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ（ＲＮＮ）及びオートエンコーダ（ａｕｔｏｅｎｃｏｄｅｒ）からなる群から選ばれることを特徴とし得るが、これに限定されるものではない。

本発明において、前記循環神経網は、ＬＳＴＭ（Ｌｏｎｇ－ｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）神経網、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）神経網、バニラ循環神経網（Ｖａｎｉｌｌａｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）及び集中的循環神経網（ａｔｔｅｎｔｉｖｅｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）からなる群から選ばれることを特徴とし得る。

本発明において、前記人工知能モデルがＣＮＮである場合に、二項分類（ｂｉｎａｒｙｃｌａｓｓｉｆｉｃａｔｉｏｎ）を行う損失関数は、下記数式２で表示されることを特徴とし、多クラス分類（Ｍｕｌｔｉ－ｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎ）を行う損失関数は、下記数式３で表示されることを特徴とし得る。

数式２：二項分類（Ｂｉｎａｒｙｃｌａｓｓｉｆｉｃａｔｉｏｎ）

数式３：多クラス分類（Ｍｕｌｔｉ－ｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎ）

本発明において、前記二項分類は、人工知能モデルが１種類の染色体異常を判別するように学習することを意味し、多クラス分類は、人工知能モデルが２種類以上の染色体異常を判別するように学習することを意味する。

本発明において、前記人工知能モデルがＣＮＮである場合に、学習は下記段階を含んで行われることを特徴とし得る：
ｉ）生産されたＧＣ、ＧＣＷプロットをＴｒａｉｎｉｎｇ（学習）、Ｖａｌｉｄａｔｉｏｎ（検証）、Ｔｅｓｔ（性能評価）データに分類する段階；
この時、Ｔｒａｉｎｉｎｇデータは、ＣＮＮモデルを学習する際に用いられ、Ｖａｌｉｄａｔｉｏｎデータは、ハイパーパラメータチューニング（ｈｙｐｅｒ－ｐａｒａｍｅｔｅｒｔｕｎｉｎｇ）検証に用いられ、Ｔｅｓｔデータは、最適のモデル生産後に性能評価に用いられることを特徴とする。

ｉｉ）ハイパーパラメータチューニング及び学習過程によって最適のＣＮＮモデルを構築する段階；
ｉｉｉ）ハイパーパラメータチューニングによって得られた様々なモデルの性能をＶａｌｉｄａｔｉｏｎデータを用いて比較し、Ｖａｌｉｄａｔｉｏｎデータ性能が最も良好なモデルを最適のモデルと決定する段階；
本発明において、前記ハイパーパラメータチューニング過程は、ＣＮＮモデルをなす様々なパラメータ（畳み込み層（ｃｏｎｖｏｌｕｔｉｏｎｌａｙｅｒ）の数、全結合層（ｄｅｎｓｅｌａｙｅｒ）の数、畳み込みフィルタ（ｃｏｎｖｏｌｕｔｉｏｎｆｉｌｔｅｒ）の数など）値を最適化する過程であり、ハイパーパラメータチューニング過程としてはベイズ最適化（Ｂａｙｅｓｉａｎｏｐｔｉｍｉｚａｔｉｏｎ）及びグリッド検索（ｇｒｉｄｓｅａｒｃｈ）手法を用いることを特徴とし得る。

本発明において、前記学習過程は、定められたハイパーパラメータ（ｈｙｐｅｒ－ｐａｒａｍｅｔｅｒ）を用いてＣＮＮモデルの内部パラメータ（加重値）を最適化させ、Ｔｒａｉｎｉｎｇｌｏｓｓに比してＶａｌｉｄａｔｉｏｎｌｏｓｓが増加し始まると、モデルが過適合（Ｏｖｅｒｆｉｔｔｉｎｇ）されたと判断し、その前にモデル学習を中断することを特徴とし得る。

本発明において、前記ｄ）段階で人工知能モデルが入力されたベクトル化されたデータから分析した結果値は、（特定の点数（ｓｃｏｒｅ）又は実数）であればいずれも利用可能であり、好ましくは、ＤＰＩ（ＤｅｅｐＰｒｏｂａｂｉｌｉｔｙＩｎｄｅｘ）値であることを特徴とし得るが、これに限定されるものではない。

本発明において、ＤＰＩは、人工知能モデルの最後のレイヤー（ｌａｙｅｒ）に、二項分類の場合にシグモイド関数、多クラス分類の場合にソフトマックス関数を用いて人工知能のアウトプットを０～１スケールに調整して確率値として表現した値を意味する。

本発明において、前記ｄ）段階の基準値が０．５であり、人工知能モデルで分析して導出した値が０．５以上である場合に、染色体異常があると判定することを特徴とし得る。

本発明において、前記人工知能モデルは、学習の際に、異数性があると、アウトプット結果が１に近いように学習し、異数性がないと、アウトプット結果が０に近いように学習することにより、０．５を基準にして０．５以上であれば異数性があると判断し、０．５以下であれば異数性がないと判断し、性能（ｐｅｒｆｏｒｍａｎｃｅ）測定を行った（Ｔｒａｉｎｉｎｇ、Ｖａｌｉｄａｔｉｏｎ、Ｔｅｓｔ精度）。

ここで、０．５の基準値はいつでも変わり得る値であるということは、通常の技術者にとって明らかである。例えば、Ｆａｌｓｅｐｏｓｉｔｉｖｅ（偽陽性）を減らすには、０．５よりも高い基準値を設定することにより、異数性があると判断される基準を厳格にすることができ、ＦａｌｓｅＮｅｇａｔｉｖｅ（偽陰性）を減らすには、基準値をより低く測定することにより、異数性があると判断される基準を少し緩和することができる。

最も好ましくは、学習された人工知能モデルを用いてｕｎｓｅｅｎｄａｔａ（学習にｔｒａｉｎｉｎｇしていない解を知っているデータ）を適用させ、ＤＰＩ値の隔離（ｐｒｏｂａｂｉｌｉｔｙ）を確認して基準値を決めることができる。

本発明は、他の観点において、生体試料から核酸を抽出して配列情報を解読する解読部；
解読された配列を標準染色体配列データベースに整列する整列部；
整列された核酸断片（ｆｒａｇｍｅｎｔｓ）に基づき、ベクトル化されたデータを生成するデータ生成部；
生成されたベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値と比較して染色体異常の有無を判定する染色体異常判定部を含む人工知能ベースの染色体異常検出装置に関する。

本発明は、さらに他の観点において、コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含むが、
ａ）生体試料から核酸を抽出して配列情報を取得する段階；
ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
ｃ）前記整列された核酸断片（ｆｒａｇｍｅｎｔｓ）に基づき、ベクトル化されたデータを生成する段階；
ｄ）生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値（ｃｕｔ－ｏｆｆｖａｌｕｅ）を比較して染色体異常の有無を判定する段階によって染色体異常を検出するプロセッサによって実行されるように構成される命令を含むコンピュータ可読記憶媒体に関する。

実施例

以下、実施例を用いて本発明をより詳細に説明する。これら実施例は単に本発明を例示するためのものであり、本発明の範囲がこれらの実施例によって制限されるものと解釈されないことは、当業界における通常の知識を有する者にとって明らかであろう。

実施例１．血液からＤＮＡを抽出し、次世代塩基配列分析を行う

正常人７，９３１人、Ｔｒｉｓｏｍｙ２１１７０人、Ｔｒｉｓｏｍｙ１８５８人及びＴｒｉｓｏｍｙ１３１６人の血液を１０ｍＬずつ採取してＥＤＴＡチューブに保管し、採取２時間以内に１２００ｇ、４℃、１５分の条件で血漿部分のみを１次遠心分離した後、１次遠心分離された血漿を１６０００ｇ、４℃、１０分の条件で２次遠心分離し、沈殿物以外の血漿上清液を分離した。分離された血漿に対してＴｉａｎｇｅｎｍｉｃｒｏＤＮＡキット（Ｔｉａｎｇｅｎ）を用いてｃｆＤＮＡ（ｃｅｌｌ－ｆｒｅｅＤＮＡ）を抽出し、ＴｒｕｓｅｑＮａｎｏＤＮＡＨＴライブラリー調製キット（Ｉｌｌｕｍｉｎａ）を用いてライブラリー調製（Ｌｉｂｒａｒｙｐｒｅｐａｒａｔｉｏｎ）過程を行った後、Ｎｅｘｔｓｅｑ５００装備（Ｉｌｌｕｍｉｎａ）を７５シングルエンド（Ｓｉｎｇｌｅ－ｅｎｄ）モードでシーケンシング（ｓｅｑｕｅｎｃｉｎｇ）を行った。その結果、サンプルにつき約１３，０００，０００個のリード（ｒｅａｄｓ）が生産されることを確認した。

実施例２．核酸断片距離ベースＧＣプロットを用いたｔｒｉｓｏｍｙ２１ディープラーニングモデル構築及び性能確認

正常サンプル（ｎ＝９６１）とＴ２１サンプル（ｎ＝１７０）を用いてＤＰＩ値の性能をテストした。全サンプルは、Ｔｒａｉｎ、Ｖａｌｉｄａｔｉｏｎ、Ｔｅｓｔのグループに分けて進行し、Ｔｒａｉｎサンプルを用いてモデルを構築した後、Ｖａｌｉｄａｔｉｏｎグループ及びＴｅｓｔグループのサンプルを用いて、Ｔｒａｉｎサンプルを用いて作ったモデルの性能を確認した。

その結果、表２及び図５に示すように、Ａｃｃｕｒａｃｙは、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ、１００％、１００％、１００％と確認され、ＲＯＣ分析結果であるＡＵＣ値は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ１．０、１．０、１．０であることを確認した。

図５の（Ａ）は、正確度を測定する方法のうちＲＯＣ（ＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃ）カーブ（ｃｕｒｖｅ）を用いた分析であり、カーブ下の面積であるＡＵＣ（ＡｒｅａＵｎｄｅｒｔｈｅＣｕｒｖｅ）値が高いほど正確度が高いと解析する。ＡＵＣ値は、０～１の間の値を有し、ランダムにラベル値を予測した時（ｂａｓｅｌｉｎｅ）に期待されるＡＵＣ値が０．５、完全に正確に予測した時に期待されるＡＵＣ値が１である。

図５の（Ｂ）は、本発明の人工知能モデルで計算された、染色体異数性がある確率値（ＤＰＩ値）を、正常サンプルとｔｒｉｓｏｍｙ２１サンプルグループにおいてボックスプロット（ｂｏｘｐｌｏｔ）で示したものであり、赤い線がＤＰＩカットオフである０．５を示す。

実施例３．核酸断片距離ベースＧＣプロットを用いたｔｒｉｓｏｍｙ１８ディープラーニングモデル構築及び性能確認

正常サンプル（ｎ＝９６１）とＴ１８サンプル（ｎ＝５８）を用いてＤＰＩ値の性能をテストした。全サンプルは、Ｔｒａｉｎ、Ｖａｌｉｄａｔｉｏｎ、Ｔｅｓｔのグループに分けて進行し、Ｔｒａｉｎサンプルを用いてモデルを構築した後、Ｖａｌｉｄａｔｉｏｎグループ及びＴｅｓｔグループのサンプルを用いて、Ｔｒａｉｎサンプルを用いて作ったモデルの性能を確認した。

その結果、表４及び図６に示すように、精度は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ１００％、１００％、１００％と確認され、ＲＯＣ分析結果であるＡＵＣ値は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ１．０、１．０、１．０であることを確認した。

実施例４．核酸断片距離ベースＧＣプロットを用いたｔｒｉｓｏｍｙ１３ディープラーニングモデル構築及び性能確認

正常サンプル（ｎ＝９６１）とＴ１３サンプル（ｎ＝１６）を用いてＤＰＩ値の性能をテストした。全サンプルは、Ｔｒａｉｎ、Ｖａｌｉｄａｔｉｏｎ、Ｔｅｓｔのグループに分けて進行し、Ｔｒａｉｎサンプルを用いてモデルを構築した後、Ｖａｌｉｄａｔｉｏｎグループ及びＴｅｓｔグループのサンプルを用いて、Ｔｒａｉｎサンプルを用いて作ったモデルの性能を確認した。

その結果、表６及び図７に示すように、精度は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ１００％、１００％、１００％と確認され、ＲＯＣ分析結果であるＡＵＣ値は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ１．０、１．０、１．０であることを確認した。

実施例５．核酸断片距離ベースＧＣＷプロットを用いたｔｒｉｓｏｍｙ２１ディープラーニングモデル構築及び性能確認

正常サンプル（ｎ＝７１６）を参照集団として設定し、Ｚ点数を計算した後、この値を用いてＧＣＷプロットを生産した。Ｚ点数計算のための核酸断片距離値は、核酸断片間距離値の中央値を用いた。Ｚ点数計算のための参照集団に含まれない正常サンプル（ｎ＝７，２１５）とＴ２１サンプル（ｎ＝１６８）を用いてＤＰＩ値の性能をテストした。全サンプルはＴｒａｉｎ、Ｖａｌｉｄａｔｉｏｎ、Ｔｅｓｔのグループに分けて進行し、Ｔｒａｉｎサンプルを用いてモデルを構築した後、Ｖａｌｉｄａｔｉｏｎグループ及びＴｅｓｔグループのサンプルを用いて、Ｔｒａｉｎサンプルを用いて作ったモデルの性能を確認した。

その結果、表８及び図８に示すように、精度は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ９９．８％、１００％、９９．８％と確認され、ＲＯＣ分析結果であるＡＵＣ値は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ０．９９９９、１．０、０．９９９８であることを確認した。

実施例６．核酸断片距離ベースＧＣＷプロットを用いたｔｒｉｓｏｍｙ１８ディープラーニングモデル構築及び性能確認

正常サンプル（ｎ＝７１６）を参照集団として設定し、Ｚ点数を計算した後、この値を用いてＧＣＷプロットを生産した。Ｚ点数計算のための核酸断片距離値は、核酸断片間距離値の中央値を用いた。実施例５で構築したディープラーニングモデルを用いて１８番染色体の異数性を予測した。Ｚ点数計算のための参照集団に含まれない正常サンプル（ｎ＝１７４３）とＴ１８サンプル（ｎ＝５８）を用いてＤＰＩ値の性能をテストした。

その結果、表１０及び図９に示すように、Ｔｅｓｔグループにおいて精度は９９．８％であり、ＲＯＣ分析結果であるＡＵＣ値は０．９９９４であることを確認した。

実施例７．核酸断片距離ベースＧＣＷプロットを用いたｔｒｉｓｏｍｙ１３ディープラーニングモデル構築及び性能確認

正常サンプル（ｎ＝７１６）を参照集団として設定し、Ｚ点数を計算した後、この値を用いてＧＣＷプロットを生産した。Ｚ点数計算のための核酸断片距離値は、核酸断片間距離値の中央値を用いた。実施例５で構築したディープラーニングモデルを用いて１３番染色体の異数性を予測した。Ｚ点数計算のための参照集団に含まれない正常サンプル（ｎ＝１，７４３）とＴ１３サンプル（ｎ＝１６）を用いてＤＰＩ値の性能をテストした。

その結果、表１２及び図１０に示すように、Ｔｅｓｔグループにおいて精度は９９．７％であり、ＲＯＣ分析結果であるＡＵＣ値は０．９９４３であることを確認した。

実施例８．核酸断片距離ベースＧＣＷプロットを用いたダウンサンプリング（Ｄｏｗｎｓａｍｐｌｉｎｇ）性能確認

リードカバレッジを半分レベルに下げ（約１０，０００，０００リード以上→５，０００，０００リード）、ＧＣＷプロットを描いて染色体異数性検出を試みた結果、下げる前と類似のレベルの性能を維持することを確認した。カバレッジを下げる時のＴｒｉｓｏｍｙ２１判別性能は、下記表１３の通りである。

分析の結果、Ｔｅｓｔグループにおいて精度は９８．６％と確認され、ＲＯＣ分析結果であるＡＵＣ値は０．９９８であることを確認した（表１４、図１１）。

実施例９．核酸断片距離逆数値ベースＧＣＷプロットを用いたｔｒｉｓｏｍｙ２１ディープラーニングモデル構築及び性能確認

正常サンプル（ｎ＝７００）を参照集団として設定し、Ｚ点数を計算した後、この値を用いてＧＣＷプロットを生産した。Ｚ点数計算のための核酸断片距離値は、核酸断片間距離値の中央値の逆数を用いた。Ｚ点数計算のための参照集団に含まれない正常サンプル（ｎ＝９９１）とＴ２１サンプル（ｎ＝１６３）を用いてＤＰＩ値の性能をテストした。全サンプルは、Ｔｒａｉｎ、Ｖａｌｉｄａｔｉｏｎ、Ｔｅｓｔのグループに分けて進行し、Ｔｒａｉｎサンプルを用いてモデルを構築した後、Ｖａｌｉｄａｔｉｏｎグループ及びＴｅｓｔグループのサンプルを用いて、Ｔｒａｉｎサンプルを用いて作ったモデルの性能を確認した。

その結果、表１６及び図１２に示すように、精度は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ９９．１％、９９．５％、９９．１％と確認され、ＲＯＣ分析結果であるＡＵＣ値は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ０．９９９９、０．９９９、０．９９９であることを確認した。

実施例１０．核酸断片距離逆数値ベースＧＣＷプロットを用いたｔｒｉｓｏｍｙ１８ディープラーニングモデル構築及び性能確認

正常サンプル（ｎ＝７００）を参照集団として設定し、Ｚ点数を計算した後、この値を用いてＧＣＷプロットを生産した。Ｚ点数計算のための核酸断片距離値は、核酸断片間距離値の中央値の逆数を用いた。Ｚ点数計算のための参照集団に含まれない正常サンプル（ｎ＝９９１）とＴ１８サンプル（ｎ＝５７）を用いてＤＰＩ値の性能をテストした。全サンプルは、Ｔｒａｉｎ、Ｖａｌｉｄａｔｉｏｎ、Ｔｅｓｔのグループに分けて進行し、Ｔｒａｉｎサンプルを用いてモデルを構築した後、Ｖａｌｉｄａｔｉｏｎグループ及びＴｅｓｔグループのサンプルを用いて、Ｔｒａｉｎサンプルを用いて作ったモデルの性能を確認した。

その結果、表１７及び図１３に示すように、精度は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ１００％、１００％、９９．６％と確認され、ＲＯＣ分析結果であるＡＵＣ値は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ１．０、１．０、０．９７２であることを確認した。

実施例１１．核酸断片距離逆数値ベースＧＣＷプロットを用いたｔｒｉｓｏｍｙ１３ディープラーニングモデル構築及び性能確認

正常サンプル（ｎ＝７００）を参照集団として設定し、Ｚ点数を計算した後、この値を用いてＧＣＷプロットを生産した。Ｚ点数計算のための核酸断片距離値は、核酸断片間距離値の中央値の逆数を用いた。Ｚ点数計算のための参照集団に含まれない正常サンプル（ｎ＝９９１）とＴ１３サンプル（ｎ＝１６）を用いてＤＰＩ値の性能をテストした。全サンプルは、Ｔｒａｉｎ、Ｖａｌｉｄａｔｉｏｎ、Ｔｅｓｔのグループに分けて進行し、Ｔｒａｉｎサンプルを用いてモデルを構築した後、Ｖａｌｉｄａｔｉｏｎグループ及びＴｅｓｔグループのサンプルを用いて、Ｔｒａｉｎサンプルを用いて作ったモデルの性能を確認した。

その結果、表２０及び図１３に示すように、精度は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ９８．７％、９８．５％、９９．０％と確認され、ＲＯＣ分析結果であるＡＵＣ値は、Ｔｒａｉｎ、Ｖａｌｉｄ、Ｔｅｓｔグループにおいてそれぞれ０．９９６、０．９９５、１．０であることを確認した。

以上、本発明内容の特定の部分を詳細に記述したところ、当業界における通常の知識を有する者にとって、このような具体的記述は単に好ましい実施の態様であるだけで、これによって本発明の範囲が制限されないという点は明らかであろう。したがって、本発明の実質的な範囲は、添付する請求項及びそれらの等価物によって定義されるといえよう。

本発明に係る人工知能ベースの染色体異常検出方法は、既存のリード個数（ｒｅａｄｃｏｕｎｔ）ベースで染色体量を決定する段階を利用する方式又は整列されたリード（ｒｅａｄｓ）間の距離概念を利用する検出方法などにおいてリードに関連した値として個々の定形化された値を用いることに比べて、ベクトル化されたデータを生成してＡＩアルゴリズムを用いて分析するので、リードカバレッジが低くとも類似の効果を発揮するこができ、有用である。

Claims

ａ）生体試料から核酸を抽出して配列情報を取得する段階；
ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
ｃ）前記整列された配列情報（ｒｅａｄｓ）ベースの核酸断片（ｆｒａｇｍｅｎｔｓ）を用いたベクトル化されたデータを生成する段階；
ｄ）生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値（ｃｕｔ－ｏｆｆｖａｌｕｅ）と比較して染色体異常の有無を判定する段階を含む、人工知能ベースの染色体異常検出方法。
前記ａ）段階は、次の段階を含む方法で行われることを特徴とする、請求項１に記載の人工知能ベースの染色体異常検出方法：
（ａ－ｉ）血液、精液、膣細胞、毛髪、唾液、尿、口腔細胞、胎盤細胞又は胎児細胞を含む羊水、組織細胞又はその混合物から核酸を取得する段階；
（ａ－ｉｉ）採取された核酸から、塩析方法（ｓａｌｔｉｎｇ－ｏｕｔｍｅｔｈｏｄ）、カラムクロマトグラフィー方法（ｃｏｌｕｍｎｃｈｒｏｍａｔｏｇｒａｐｈｙｍｅｔｈｏｄ）又はビーズ方法（ｂｅａｄｓｍｅｔｈｏｄ）を用いてタンパク質、脂肪、及びその他残余物を除去し、精製された核酸を取得する段階；
（ａ－ｉｉｉ）精製された核酸又は酵素的切断、粉砕、水圧切断方法（ｈｙｄｒｏｓｈｅａｒｍｅｔｈｏｄ）で無作為断片化（ｒａｎｄｏｍｆｒａｇｍｅｎｔａｔｉｏｎ）された核酸に対して、シングルエンドシーケンシング（ｓｉｎｇｌｅ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）又はペアエンドシーケンシング（ｐａｉｒ－ｅｎｄｓｅｑｕｅｎｃｉｎｇ）ライブラリー（ｌｉｂｒａｒｙ）を作製する段階；
（ａ－ｉｖ）作製されたライブラリーを次世代シークエンサー（ｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｅｒ）で反応させる段階；及び
（ａ－ｖ）次世代シークエンサーで核酸の配列情報（ｒｅａｄｓ）を取得する段階。
前記ｃ）段階のベクトル化されたデータは、グランドキャニオンプロット（ＧｒａｎｄＣａｎｙｏｎｐｌｏｔ，ＧＣプロット）又はゲノミックキャッスルウォールプロット（ＧｅｎｏｍｉｃＣａｓｔｌｅＷａｌｌｐｌｏｔ，ＧＣＷプロット）であることを特徴とする、請求項１に記載の人工知能ベースの染色体異常検出方法。
前記ＧＣプロットは、整列された核酸断片の染色体区間別分布を区間別の数（ｃｏｕｎｔ）又は核酸断片（ｆｒａｇｍｅｎｔ）間の距離を計算してベクトル化されたデータとして生成することを特徴とする、請求項３に記載の人工知能ベースの染色体異常検出方法。
前記染色体区間別分布を核酸断片の数で計算することは、下記の段階を含んで行うことを特徴とする、請求項４に記載の人工知能ベースの染色体異常検出方法：
ｉ）染色体を一定区間（ｂｉｎ）に区分する段階；
ｉｉ）各区間に整列された核酸断片の数を決定する段階；
ｉｉｉ）各区間に決定された核酸断片数をサンプルの全核酸断片数で割って正規化（ｎｏｒｍａｌｉｚａｔｉｏｎ）する段階；及び
ｉｖ）各区間の順序をＸ軸値とし、前記ｉｉｉ）段階で計算した正規化値をＹ軸値としてＧＣプロットを生成する段階。
前記染色体区間別分布を核酸断片間の距離で計算することは、下記の段階を含んで行うことを特徴とする、請求項４に記載の人工知能ベースの染色体異常検出方法：
ｉ）染色体を一定区間（ｂｉｎ）に区分する段階；
ｉｉ）各区間に整列された核酸断片間の距離を計算する段階；
ｉｉｉ）各区間別に計算された距離値に基づいて各区間の距離の代表値（ＲｅｐＦＤ）を決定する段階；
ｉｖ）前記ｉｉｉ）段階で計算された代表値を全核酸断片間の距離値の代表値で割って正規化（ｎｏｒｍａｌｉｚａｔｉｏｎ）する段階；及び
ｖ）各区間の順序をＸ軸値とし、前記ｉｖ）段階で計算した正規化値をＹ軸値としてＧＣプロットを生成する段階。
前記代表値は、核酸断片間の距離の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数、それらの逆数値及びそれらの組合せからなる群から選ばれる一つ以上であることを特徴とする、請求項６に記載の人工知能ベースの染色体異常検出方法。
前記ＧＣＷプロットは、整列された核酸断片間の距離を染色体単位で計算し、正常染色体と異数性を判別しようとする染色体の距離値を交差配列してグラフとして生成することを特徴とする、請求項３に記載の人工知能ベースの染色体異常検出方法。
前記ＧＣＷプロットは、下記の段階を含む方法によって行われることを特徴とする、請求項８に記載の人工知能ベースの染色体異常検出方法：
ｉ）各染色体別に整列された核酸断片間の距離を計算する段階；
ｉｉ）前記ｉ）段階で計算された距離値に基づいて各区間の距離の代表値を決定する段階；
ｉｉｉ）前記ｉｉ）段階で決定された染色体別代表値を標準化（ｓｔａｎｄａｒｄｉｚａｔｉｏｎ）する段階；
ｉｖ）異数性を判別する染色体以外の染色体のうち一部を比較染色体群として選抜する段階；及び
ｖ）比較染色体群に属する染色体と異数性を判別する染色体をＸ軸に沿って順次に交差配列し、各染色体の標準化された計算値をＹ値とするＧＣＷプロットを生成する段階。
前記ｉｉｉ）段階の代表値を標準化する段階は、下記の段階を含む方法で行われることを特徴とする、請求項９に記載の人工知能ベースの染色体異常検出方法：
１）染色体異数性が非検出された正常サンプルからなる標準集団を設定する段階；
２）前記標準集団から観察される染色体別ＲｅｐＦＤ値の平均（Ｒｅｆｅｒｅｎｃｅ＿Ｍｅａｎ）と標準偏差（Ｒｅｆｅｒｅｎｃｅ＿Ｓｔａｎｄａｒｄ＿Ｄｅｖｉａｔｉｏｎ）を計算する段階；
３）前記２）段階で計算した平均と標準偏差を下記数式１に代入してＺ標準化する段階；
数式１：
Z_chr = ((RepFD_chr - Reference_Mean_chr) /Reference_Standard_Deviation_chr) + 5
４）前記３）段階で計算した染色体別Ｚ_ｃｈｒ値を、異数性を判別しようとする染色体のＺ_ｃｈｒ値で割る段階。
前記代表値は、核酸断片間の距離の和、差、積、平均、中央値、分位数、最小値、最大値、分散、標準偏差、中央値絶対偏差、変動係数、それらの逆数値及びそれらの組合せからなる群から選ばれる一つ以上の値であることを特徴とする、請求項９に記載の人工知能ベースの染色体異常検出方法。
前記（ｄ）段階の人工知能モデルは、染色体状態が正常であるベクトル化されたデータと、染色体異常があるベクトル化されたデータとを区別できるように学習することを特徴とする、請求項１に記載の人工知能ベースの染色体異常検出方法。
前記人工知能モデルは、ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ（ＣＮＮ）、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（ＤＮＮ）、ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ（ＲＮＮ）及びオートエンコーダ（ａｕｔｏｅｎｃｏｄｅｒ）からなる群から選ばれることを特徴とする、請求項１２に記載の人工知能ベースの染色体異常検出方法。
前記人工知能モデルがＣＮＮであり、二項分類（ｂｉｎａｒｙｃｌａｓｓｉｆｉｃａｔｉｏｎ）を学習する場合に、損失関数は下記数式２で表示され、前記人工知能モデルがＣＮＮであり、多クラス分類（Ｍｕｌｔｉ－ｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎ）を学習する場合に、損失関数は下記数式３で表示されることを特徴とする、請求項１２に記載の人工知能ベースの染色体異常検出方法：
数式２：二項分類（Ｂｉｎａｒｙｃｌａｓｓｉｆｉｃａｔｉｏｎ）

数式３：多クラス分類（Ｍｕｌｔｉ－ｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎ）
前記ｄ）段階の人工知能モデルが入力されたベクトル化されたデータを分析して出力する結果値は、ＤＰＩ（ＤｅｅｐＰｒｏｂａｂｉｌｉｔｙＩｎｄｅｘ）値であることを特徴とする、請求項１に記載の人工知能ベースの染色体異常検出方法。
前記ｄ）段階の基準値は０．５であり、０．５以上である場合に、染色体異常があると判定することを特徴とする、請求項１に記載の人工知能ベースの染色体異常検出方法。
生体試料から核酸を抽出して配列情報を解読する解読部；
解読された配列を標準染色体配列データベースに整列する整列部；
整列された配列ベースの核酸断片を用いたベクトル化されたデータを生成するデータ生成部；及び
生成されたベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値と比較して染色体異常の有無を判定する染色体異常判定部を含む、人工知能ベースの染色体異常検出装置。
コンピュータ可読記憶媒体であって、染色体異常を検出するプロセッサによって実行されるように構成される命令を含み、
ａ）生体試料から核酸を抽出して配列情報を取得する段階；
ｂ）取得した配列情報（ｒｅａｄｓ）を標準染色体配列データベース（ｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｄａｔａｂａｓｅ）に整列（ａｌｉｇｎｍｅｎｔ）する段階；
ｃ）前記整列された配列情報（ｒｅａｄｓ）ベースの核酸断片を用いたベクトル化されたデータを生成する段階；
ｄ）生成された前記ベクトル化されたデータを、学習された人工知能モデルに入力して分析し、基準値（ｃｕｔ－ｏｆｆｖａｌｕｅ）を比較して染色体異常の有無を判定する段階、によって染色体異常を検出するプロセッサによって実行されるように構成される命令を含む、コンピュータ可読記憶媒体。