JP2024505780A

JP2024505780A - 胎児染色体異常を検出する方法およびシステム

Info

Publication number: JP2024505780A
Application number: JP2023532353A
Authority: JP
Inventors: 勇白; 樹嘉黄; 雅高; ▲しん▼ 金
Original assignee: ビージーアイシェンチェン
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2024-02-08
Also published as: AU2020479407A1; EP4254418A4; WO2022110039A1; EP4254418A1; KR20230110615A; CA3200221A1; US20240013859A1; CN116648752A

Abstract

本発明は、バイオ技術の分野に関する。胎児染色体異常を検出する方法およびシステムを開示する。本方法は、(１)検出対象の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程と、(２)参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、(３)訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する工程と、(４)前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の胎児染色体異常状態を取得する工程と、を含む。

Description

本発明は、バイオテクノロジーの分野に関し、より具体的には、胎児染色体異常を検出する方法およびシステムに関する。

染色体異数性疾患は、胎児における個々の染色体の数が増加または減少することによって正常な遺伝子発現に影響を及ぼす重篤な遺伝病の一種を指す。主に２１トリソミー症候群、１８トリソミー症候群、１３トリソミー症候群、５ｐ症候群などが含まれる。染色体異数性疾患は、死亡および身体障害のリスクが高く、効果的な治療法はない。現在、出生前スクリーニングおよび出生前診断が、染色体異数性の小児の出生率を低下させるために、主に使用されている。

従来の染色体異数性検出は、超音波診断検査または血清学的スクリーニングに基づく非侵襲的出生前スクリーニング、および侵襲的サンプリングに基づく出生前診断を主に含む。超音波診断検査に基づく出生前スクリーニング法では、妊娠１０～１４週で胎児の項部透過像（ＮＴ）の厚さをチェックすることによって、胎児染色体が異常であるかどうかを判定することができる。ＮＴが３ｍｍより大きい場合、胎児の染色体異数性のリスクはより高いと一般的に考えられている。血清学に基づく出生前スクリーニングは、妊娠１３～１６週に母体血清中のαフェトプロテイン（ＡＦＰ）およびヒト絨毛性ゴナドトロピン（ＨＣＧ）の濃度を検出して、妊婦の出産予定日および年齢ならびに採血時の妊娠週数と組み合わせて、胎児染色体異常の危険因子を計算することによって実施される。侵襲的サンプリングに基づく出生前診断法は、一般的に、妊娠１６～２４週での羊水穿刺、臍帯穿刺または直接絨毛膜サンプリングによって胎児サンプルを取得して、胎児が染色体異常を有するかどうかを検出する。超音波診断検査と血清学的検査に基づく複合スクリーニング方法は、胎児染色体を直接的に検出するのではなく、胎児病の危険性を推定することであり、検出精度は５０％～９５％、偽陽性率は３％～７％である^{［１，２］}。侵襲的サンプリングに基づく方法は、胎児の異数性を正確に直接診断することができる胎児染色体異常の検出および診断の「絶対的基準」である。しかしながら、この方法は一定の流産率（０．５％～２％）があり、また、Ｂ型肝炎などの感染性疾患に罹患している妊婦は、胎児に感染するリスクがあるため侵襲的サンプリング（羊水穿刺など）に適していない。加えて、羊水穿刺はＢ走査超音波検査の誘導の下で実施される必要があるが、これは長い時間を要し、操作者に高い技術的要件が必要とされる。

母体末梢血における胎児の無細胞ＤＮＡ（ｃｆＤＮＡ）の発見、次世代シーケンシング（ＮＧＳ）技術の成熟、シーケンシングコストの有意な低減、および情報分析技術の発展により、ＮＧＳ技術に基づく非侵襲的出生前検査（ＮＩＰＴ）は、胎児染色体異数性疾患に最も広く使用される出生前スクリーニング方法になりつつある。ＮＩＰＴ技術では、母体末梢血を利用し、ＮＧＳ技術によって母体末梢血（無細胞胎児ＤＮＡを含む）中の無細胞ＤＮＡの配列を決定し、バイオインフォマティクス解析と組み合わせて胎児遺伝情報を取得することにより、胎児が２１トリソミー症候群（ダウン症候群）、１８トリソミー症候群（エドワーズ症候群）、１３トリソミー症候群（パタウ症候群）などの染色体異常疾患に罹患しているかどうかを検出することができる。

ＮＩＰＴ技術は、感度と特異性（Ｔ２１、Ｔ１８、Ｔ１３のそれぞれの感度は９９％以上）が高く、偽陽性率が低いため（０．１％未満）、診療で広く使用されている^{［３－５］}。ＮＩＰＴ技術は、血清学的スクリーニングの偽陽性率を低下させることができ、侵襲的な出生前診断処置（羊水穿刺および絨毛膜絨毛採取など）によって引き起こされる胎児の子宮内感染および流産のリスクを回避することができる。これは、妊娠初期および中期において安全性の高い非侵襲的出生前スクリーニング技術である。

ＮＧＳ技術に基づく従来のＮＩＰＴは、シーケンシングのリードカウントを計算し、ベースラインＺ検定^［６］を使用することによって胎児染色体異常を検出する。原理は以下の通りである。まず、妊娠１２～２２週の母体末梢血サンプルを採取し、ＮＧＳ技術を用いて前記末梢血サンプル中の無細胞ＤＮＡをシーケンシングし、得られたシーケンシングリードセグメントをヒト参照ゲノム配列とアラインメントさせ（そして、リードカウントに対するＧＣ含量を同時に補正し）、各染色体の一意マッピングリードの数をカウントし、サンプル中の染色体の一意マッピングリードカウントの総数に対するその割合を計算し、さらに、検出対象サンプル中の染色体のＺスコアを検出対象サンプル中の染色体の一意マッピングリードの割合からコントロールサンプル（すなわち、正常サンプル）中の染色体の一意マッピングリードカウントの対応する割合の平均値を減算することによって取得する。その後、コントロールサンプル中の染色体の一意マッピングリードカウントの対応する割合の標準偏差で除算する。最後に、Ｚスコアを所与の閾値と比較して、Ｚスコアが前記閾値より大きい場合はトリソミー症候群のリスクが高いと判定し、そうでない場合はトリソミー症候群のリスクが低いと判定する。ここで、コントロール群の正常サンプル中の各染色体の一意マッピングリードカウントの平均値は、ベースライン値である。したがって、前記コントロール群中に存在する正常サンプルが多いほど、一意のマッピングリードの割合の平均値および標準偏差がより正確に得られ、結果として、Ｚスコアがより正確に得られる。ここで、Ｚスコアの前記所与の閾値は一般的に３であるが、これは、統計的に定義されている、すなわち、通常の期待値から９９．９％の偏差である。

異なる統計的仮説検定は、異なるベースライン値に応じて選択することができる。例えば、参考文献^［７］において、相関分析およびＴ検定が採用され、サンプル中の固定サイズウィンドウ内の各染色体のリードカウントの中央値をこの染色体のリードカウントを表すベースライン値として使用し、サンプル中の染色体の総リードカウントの中央値を用いてサンプルのリードカウントを表し、各染色体のリードカウントをサンプルのリードカウントで除算して対応する染色体の正規化されたリードカウントを取得し、最後に、コントロール群中の全てのサンプルの各染色体の正規化されたリードカウントを用いて信頼区間を計算し、検出対象サンプルのスコアが前記信頼区間内に含まれない場合、前記サンプルは異常であると考えられる。別の例として、参考文献^［８］において、目的の染色体（第２１染色体など）と同程度のＧＣ含量の参照染色体を既知の核型のサンプルにおいて選択し、前記参照染色体のリードカウントをＺ検定のベースライン値として用いることが提案されており、これにより、既知の核型のサンプル中の目的の染色体異常の検出精度が最大限となる。ベースライン値となる前記参照染色体は、いわゆる内部染色体である。別の例として、非侵襲的胎児トリソミー（ＮＩＦＴＹ）検出法が参考文献^［９］において提案されている。染色体のリードカウントを正常コントロールサンプルのリードカウントと比較することに加えて、この方法は、無細胞胎児ＤＮＡの割合も考慮する。この方法では、２値仮説検定、対数尤度比、およびＦＣＡＰＳ２値分割アルゴリズムを用いて検出結果を判定する。ＮＩＦＴＹは、ゲノム全体に基づくアプローチである。この方法は大きな母集団によって高い精度で検証されているが、プロセスは比較的複雑である。リードカウントに基づく前述の統計的仮説検定（Ｚ検定またはＴ検定）方法は、現在のＮＩＰＴ解析の鍵である。

リードカウントに基づく前述の統計的仮説検定（Ｚ検定など）は、現在のところ主流のＮＩＰＴ分析法であるが、これらの分析方法は以下のように明らかな制限がある。（１）現在のＮＩＰＴ分析法は、個々のサンプルのシーケンシングリードセグメント分布に偏差をもたらして異なる状況におけるＺ－スコア計算に変動をもたらすことにより、最終結果判断および関連する性能指標に影響を及ぼす可能性がある。（２）現在のＮＩＰＴ分析法は、母体末梢血中の無細胞胎児ＤＮＡの割合に大きく依存しており、無細胞胎児ＤＮＡの割合が過度に低い（４％未満）と妊婦間の個体差が大きいために偽陰性検出のリスクが高まる可能性がある。（３）現在のＮＩＰＴ分析法は、トリソミー２１症候群の検出においては良好に機能するが、トリソミー１８症候群およびトリソミー１３症候群の検出におけるその精度は妊婦の個体差および異なる染色体におけるＧＣ含量の偏差のために低い。（４）現在のＮＩＰＴ分析法は、ダウン症候群に代表される一般的なトリソミー症候群を主に検出するが、ジョージ症候群、プラダー・ウィリー症候群などの総合的な発生率も高い染色体微小欠失症候群および微小重複症候群の検出に対する臨床効果は限定的である^［１４］。

さらに、ＮＩＰＴシーケンシング結果を用いた機械学習モデルに基づいて染色体異常を検出する新しい技術が提案されている。例えば、参考文献^［１０］において、サポートベクターマシン（ＳＶＭ）を用いてＮＩＰＴ決定を支持する方法が提案されている。この方法では、異なるベースライン値を計算することによって６つの異なるＺスコア結果を取得し、サンプルの臨床適応も追加してＳＶＭモデルを訓練して染色体異常を判定する。別の例として、参考文献^［１１］において、染色体異常を判定するベイズ法が考案されている。この方法は無細胞胎児ＤＮＡ割合の事前情報を利用し、隠れマルコフモデル（ＨＭＭ）を用いて集団レベルの干渉および母体のＣＮＶを排除し、ＧＣ含量補正を行い、その後、Ｚ検定の尤度値および性染色体含有量からの無細胞胎児ＤＮＡ割合の推定事前値を組み合わせることにより、ベイズ因子を計算する。同時に、妊婦の年齢などの複数の危険因子を事前確率に組み込んでベイズ因子を補正し、Ｚスコアおよびベイズ因子を統合して染色体が異常であるかどうかを評価する。別の例として、公開特許公報^［１２］において、ＮＩＰＴシーケンシング結果を用いて簡易畳み込みニューラルネットワークモデルを訓練し、染色体コピー数のバラツキや染色体異数性の異常を検出することが提案されている。例えば、公開特許公報^［１３］において、無細胞胎児ＤＮＡおよび無細胞母体ＤＮＡをまず末梢血サンプルから単離し、前記単離された無細胞ＤＮＡから各種一塩基変異（ＳＮＶ）遺伝子座を増幅し、増幅産物をシーケンシングして、複数ＳＮＶ遺伝子座の遺伝子シーケンシングデータまたは遺伝子配列データを決定することが提案されている。次いで、これらの遺伝子シーケンシングデータまたは遺伝子配列データに基づいて、人工ニューラルネットワークモデルを訓練して、個々の染色体の倍数正常態、組織癌状態、または臓器移植拒絶状態を検出する。

また、ＮＩＰＴシーケンシング結果を用いた機械学習モデルに基づいて染色体異常を検出する前述の方法は以下のような制限がある。これらの方法のほとんどはシーケンシングデータのリードカウントに基づいてモデル訓練のための望ましい特徴を算出し、これらの方法のほとんどはＺスコアの算出に依存し、算出が複雑すぎる（例えば、参考文献^［１１］）か、モデル設計が単純すぎる（例えば、特許公開公報^［１２］）か、またはＳＮＶ遺伝子座に基づく遺伝子シーケンシングデータもしくは遺伝子配列データが必要であり（例えば、特許公開公報^［１３］）、これは、臨床応用の見通し、モデルのスケーラビリティおよび検出精度を制限するため、検出精度を改善する必要がある。

染色体異常、特に異数性の検出における従来技術に存在する問題に鑑み、染色体異常をより効果的に検出するために、本発明は、少なくとも、ディープハイブリッドモデルに基づく染色体異常の検出精度をさらに向上させることを目的とする。

したがって、本発明の第１の態様の胎児染色体異常を検出する方法は、
(１)検出対象の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、前記シーケンシングデータが複数のリードセグメントを含み、前記検出対象の妊婦の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程と、
(２)参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
(３)訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する工程と、
(４)前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の胎児染色体異常状態を取得する工程と、
を含む。

一実施形態では、前記工程（１）において、前記無細胞核酸断片は、前記妊婦の末梢血、肝臓、および／または胎盤に由来する。

一実施形態では、前記工程（１）において、前記無細胞核酸断片は、無細胞ＤＮＡである。

一実施形態では、前記工程（１）において、前記シーケンシングデータは超低深度シーケンシングに由来し、好ましくは、前記超低深度シーケンシングのシーケンシング深度が１×、０．１×、または０．０１×である。

一実施形態では、前記工程（１）において、前記リードセグメントを前記参照ゲノムにアラインメントさせて一意のマッピングリードを取得し（好ましくは、ＧＣ含量補正を行い）、好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される（好ましくは、前記リードセグメントはＧＣ含量により補正される）。

一実施形態では、前記ＧＣ含量補正は、以下のように行われる：
ａ．まず、長さｌのフラグメントｍ個をヒト参照ゲノムの染色体から無作為に選択し、
ｂ．ＧＣ含量ｉのフラグメントの数Ｎ_ｉを以下の式により計算し、

式中、

であり、ｆ（ｋ）はフラグメントｋのＧＣ含量であり、ｉはＧＣ含量（ｉ＝０％、１％、・・・、１００％）を表し、
ｃ．ＧＣ含量ｉのシーケンシングリードセグメントの数Ｆ_ｉを以下の式により計算し、

式中、
ｃ_ｋ・ＩＩ_ｉ（ｆ（ｋ））はフラグメントｋのＧＣ含量を表し、Ｆ_ｉはＧＣ含量ｉおよび前記フラグメントと同じ開始サイトを有するシーケンシングリードセグメントの数を表し、
ｄ．ＧＣ含量の観測値－期待値比率λ_ｉが以下の式により計算され、

式中、
ｒは以下のように定義されるグローバルスケール因子であり、

ｅ．シーケンシングリードセグメントの数が以下の式により補正され、

式中、
Ｒ_ｉは補正したＧＣ含量ｉのシーケンシングリードセグメントの数の期待値を表す。

一実施形態では、前記工程（１）において、前記妊婦の前記臨床表現型特徴データは、年齢、妊娠週、身長、体重、ＢＭＩ、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児ＤＮＡ濃度のうちの１つまたは２つ以上の組合せから選択される。

一実施形態では、前記工程（１）において、前記妊婦の前記臨床表現型特徴データは、異常値処理、欠損値処理、および／またはヌル値処理される。

一実施形態では、前記工程（１）において、以下の記録：
ａ．ｘ_ａｇｅ＜１０またはｘ_ａｇｅ＞８０；
ｂ．ｘ_ＧＷ＜５またはｘ_ＧＷ＞５０；
ｃ．ｘ_{ｈｅｉｇｈｔ}＜４０またはｘ_{ｈｅｉｇｈｔ}＞３００；
ｄ．ｘ_{ｗｅｉｇｈｔ}＜１０またはｘ_{ｗｅｉｇｈｔ}＞２００；
が表示されると、前記妊婦サンプルの表現型データが異常値として判定され、これらの異常値がヌル値として設定される。

一実施形態では、前記欠損値および前記ヌル値は、ミスフォレストアルゴリズムによってパディングされる。

一実施形態では、前記工程（２）において、前記染色体は、第２１染色体、第１８染色体、第１３染色体および／または性染色体である。

一実施形態では、前記工程（２）は、
（２．１）長さｂのウィンドウを使用して、前記参照ゲノムの長さＬの染色体配列をステップサイズｔで重複およびスライドさせてスライディングウィンドウを取得する工程であって、ｂは正の整数であり、ｂ＝［１００００，１０００００００］であり、ｔは任意の正の整数であり、Ｌは正の整数であり、Ｌ≧ｂである工程と、
（２．２）前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と
を含む。

一実施形態では、前記工程（２）において、前記配列特徴行列は、前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む。

一実施形態では、前記塩基品質は、前記塩基品質の平均、標準偏差、歪度、および／または尖度を含む。

一実施形態では、前記マッピング品質は、前記マッピング品質の平均、標準偏差、歪度、および／または尖度を含む。

一実施形態では、前記工程（２）において、前記配列特徴行列は以下の式で表され、

式中、ｈはスライディングウィンドウの数を表し、ｗは単一のスライディングウィンドウ内の配列特徴の数を表し、ｘ_ｉｊはｉ番目のスライディングウィンドウ内のｊ番目の配列固有値を表す。

一実施形態では、前記工程（３）において、前記配列特徴行列は正規化される。

一実施形態では、前記工程（３）において、前記配列特徴行列は、式（Ｉ）を使用して正規化され、

式中、Ｚ^（ｋ） _ｉ，ｊはサンプルｋの正規化された配列特徴行列であり、Ｘ^（ｋ） _ｉ，ｊはサンプルｋのｉ番目のスライディングウィンドウにおけるｊ番目の配列固有値を表し、μ_ｉ，ｊおよびσ_ｉ，ｊは全てのサンプルのｉ番目のスライディングウィンドウにおけるｊ番目の配列固有値の平均および標準偏差をそれぞれ表す。

一実施形態では、前記工程（３）において、前記訓練済み機械学習モデルはニューラルネットワークモデルまたはオートエンコーダモデルであり、好ましくは、前記ニューラルネットワークモデルはディープニューラルネットワークモデルであり、より好ましくは、前記ニューラルネットワークモデルは１Ｄ畳み込みに基づくディープニューラルネットワークモデルである。

一実施形態では、前記ディープニューラルネットワークモデルの構造は、
前記配列特徴行列を受信する入力層と、
前記入力層からの前記配列特徴行列の第１の畳み込みおよび活性化動作を実行して特徴マップを取得する、前記入力層と接続されたプレモジュールと、
前記プレモジュールからの前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する、前記プレモジュールと接続されたコアモジュールと、
前記コアモジュールからの前記特徴マップを特徴抽象化表現する、前記コアモジュールと接続されたポストモジュールと、
前記特徴抽象化表現の前記特徴マップをベクトル化し、前記染色体配列の前記配列特徴ベクトルを出力する、前記ポストモジュールと接続された第１のグローバル平均プーリング層と、
を含む。

一実施形態では、前記プレモジュールは、
(Ｉ)１Ｄ畳み込み層と、
(ＩＩ)（Ｉ）に記載の１Ｄ畳み込み層と接続されたバッチ正規化層と、
(ＩＩＩ)（ＩＩ）に記載のバッチ正規化層と接続されたＲｅＬＵ活性化層と、
を含む。

一実施形態では、前記コアモジュールは、同じ構造を持つ１つ以上の残差サブモジュールで構成され、各残差モジュールの出力が、次の残差モジュールの入力である。

一実施形態では、前記残差サブモジュールは、
(Ａ)１Ｄ畳み込み層と、前記１Ｄ畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたＲｅＬＵ活性化層を各々含む、前記コアモジュールのプレサブモジュールと、
(Ｂ)（Ａ）に記載の前記コアモジュールのプレサブモジュールと接続された第１の１Ｄ平均プーリング層と、
(Ｃ)（Ｂ）に記載の第１の１Ｄ平均プーリング層と接続されたＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュール（ＳＥモジュール）および／またはＳｐａｔｉａｌＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュール（ｓＳＥモジュール）と、
(Ｄ)（Ｃ）に記載のＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュールおよび／またはＳｐａｔｉａｌＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュールと接続された第１の追加層（Ａｄｄ層）と、
(Ｅ)前記プレモジュール内の前記ＲｅＬＵ活性化層と接続された第２の１Ｄ平均プーリング層と、
(Ｆ)（Ｄ）に記載の第１の追加層および（Ｅ）に記載の第２の１Ｄ平均プーリング層と接続された第２の追加層（Ａｄｄ層）と、
を含む。

一実施形態では、前記ＳＥモジュールは、
(ａ)（Ｂ）に記載の前記残差サブモジュールの第１の１Ｄ平均プーリング層と接続された第２のグローバル平均プーリング層と、
(ｂ)（ａ）に記載の第２のグローバル平均プーリング層と接続された再形成層であって、前記再形成層の出力特徴マップの大きさが１×ｆであり、ｆが１Ｄ畳み込みカーネルの数である再形成層と、
(ｃ)（ｂ）に記載の再形成層と接続された第１の完全接続層であって、前記第１の完全接続層の出力ニューロンの数がｆ／ｒ_ＳＥであり、ｆが１Ｄ畳み込みカーネルの数であり、ｒ_ＳＥがＳｑｕｅｅｚ－Ｅｘｃｉｔｅモジュールの減少速度である第１の完全接続層と、
(ｄ)（ｃ）に記載の第１の完全接続層と接続された第２の完全接続層であって、前記第２の完全接続層の出力ニューロンの数がｆであり、ｆが１Ｄ畳み込みカーネルの数である第２の完全接続層と、
（ｅ）（ｄ）に記載の第２の完全接続層および（Ｂ）に記載の前記残差サブモジュールの第１の１Ｄ平均プーリング層と接続された乗算層と、
を含む。

一実施形態では、前記ｓＳＥモジュールは、
ａ.活性化関数としてシグモイド関数を使用する（Ｂ）に記載の第１の１Ｄ平均プーリング層と接続された１×１の１Ｄ畳み込み層と、
b.（Ｂ）に記載の第１の１Ｄ平均プーリング層およびａに記載の１×１の１Ｄ畳み込み層と接続された乗算層と、
を含む。

一実施形態では、前記工程（４）において、前記複合特徴ベクトルは前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせることにより得られる。

一実施形態では、前記工程（４）において、前記複合特徴ベクトルｘは以下の式によって正規化され、

式中、ｘ^’ _iは正規化された複合特徴ベクトルｘのｉ番目の配列固有値であり、ｘ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値であり、μ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値の平均であり、σ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値の標準偏差である。

一実施形態では、前記工程（４）において、前記分類検出モデルはアンサンブル学習モデルである。

一実施形態では、前記アンサンブル学習モデルは、スタッキングまたは多数決に基づくアンサンブル学習モデルであり、好ましくは、前記アンサンブル学習モデルは、サポートベクターマシンモデル、単純ベイズ分類器、ランダムフォレスト分類器、ＸＧＢｏｏｓｔおよびロジスティック回帰のうちの１つ以上である。

一実施形態では、前記染色体異常は、トリソミー２１症候群、トリソミー１８症候群、トリソミー１３症候群、５ｐ症候群、染色体微小欠失および染色体微小重複のうちの少なくとも１つ以上を含む。

本発明の第２の態様の胎児染色体異常を検出するための分類検出モデルを構築する方法は、
（１)複数の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦各々の胎児染色体状態が既知であり、前記妊婦各々の臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程と、
（２）前記妊婦各々について、参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
（３）前記妊婦各々について、前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する工程と、
（４)前記配列特徴ベクトルおよび前記妊婦各々の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、前記妊婦の複合特徴ベクトルおよび前記胎児染色体状態を用いて分類モデルを訓練して訓練済み分類検出モデルを取得する工程と、
を含む。

一実施形態では、各妊婦の前記胎児染色体状態は、正常な二倍体、染色体異数体、部分的モノソミー症候群、染色体微小欠失および染色体微小重複の１つ以上である。

一実施形態では、前記染色体異数体は、トリソミー２１症候群、トリソミー１８症候群およびトリソミー１３症候群の少なくとも１つ以上を含む。

一実施形態では、前記部分的モノソミー症候群は５ｐ症候群を含む。

一実施形態では、前記妊婦の人数は１０人を超え、染色体異数性の胎児の数に対する正常な二倍体の胎児の数の比は１／２～２である。

一実施形態では、前記工程（３）において、前記訓練データセットは、以下のように表され、

式中、Ｎは訓練サンプルの数を表し、Ｎは１以上の整数であり、Ｚ^（ｋ） _ｉ，ｊは訓練サンプルｋの正規化された配列特徴行列であり、ｋ∈［１，Ｎ］であり、ｉは１以上の整数であり、ｊは１以上の整数である。

前記訓練済み機械学習モデル以外は本発明の第１の態様と同じ技術的特徴を持つため、本発明の第１の態様の実施形態における定義も適用される。本態様では、前記訓練済み機械学習モデルは出力層を含む。例えば、前記ディープニューラルネットワークモデルの構造は前記第１のグローバル平均プーリング層の後の出力層を含み、前記出力層は、前記第１のグローバル平均プーリング層と接続され、前記染色体異常状態を出力するために使用される出力ニューロンの数が１の完全接続層である。

本発明の第３の態様の胎児染色体異常を検出するシステムは、
検出対象の妊婦サンプルから無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、前記シーケンシングデータが複数のリードセグメントを含み、前記検出対象の妊婦サンプルの前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュールと、
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュールと、
訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュールと、
前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の前記胎児染色体異常状態を取得する分類検出モジュールと、
を含む。

一実施形態では、前記システムは、前記シーケンシングデータのリードを参照ゲノムにアラインメントさせて一意のマッピングリードを取得するアラインメントモジュールをさらに含む。

一実施形態では、前記データ取得モジュールにおいて、前記無細胞核酸断片は前記妊婦の末梢血、肝臓、および／または胎盤に由来する。

一実施形態では、前記データ取得モジュールにおいて、前記無細胞核酸断片は無細胞ＤＮＡである。

一実施形態では、前記データ取得モジュールにおいて、前記シーケンシングデータは超低深度シーケンシングに由来し、好ましくは、前記超低深度シーケンシングのシーケンシング深度が１×、０．１×、または０．０１×である。

一実施形態では、前記データ取得モジュールにおいて、前記リードセグメントを前記参照ゲノムにアラインメントさせて前記一意のマッピングリードを取得し（好ましくは、ＧＣ含量補正を行い）、好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される（好ましくは、前記リードセグメントはＧＣ含量により補正される）。

式中、

一実施形態では、前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データは、年齢、妊娠週、身長、体重、ＢＭＩ、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児ＤＮＡ濃度のうちの１つまたは２つ以上の組合せから選択される。

一実施形態では、前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データは異常値処理、欠損値処理、および／またはヌル値処理される。

一実施形態では、前記データ取得モジュールにおいて、以下の記録：
ａ．ｘ_ａｇｅ＜１０またはｘ_ａｇｅ＞８０；
ｂ．ｘ_ＧＷ＜５またはｘ_ＧＷ＞５０；
ｃ．ｘ_{ｈｅｉｇｈｔ}＜４０またはｘ_{ｈｅｉｇｈｔ}＞３００；
ｄ．ｘ_{ｗｅｉｇｈｔ}＜１０またはｘ_{ｗｅｉｇｈｔ}＞２００；
が表示されると、前記妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。

一実施形態では、前記欠損値および前記ヌル値はミスフォレストアルゴリズムによってパディングされる。

一実施形態では、前記配列特徴行列生成モジュールにおいて、前記染色体は第２１染色体、第１８染色体、第１３染色体および／または性染色体である。

一実施形態では、前記配列特徴行列生成モジュールにおいて、
（２．１）長さｂのウィンドウを使用して、前記参照ゲノムの長さＬの染色体配列をステップサイズｔで重複およびスライドさせてスライディングウィンドウを取得する工程であって、ｂは正の整数であり、ｂ＝［１００００，１０００００００］であり、ｔは任意の正の整数であり、Ｌは正の整数であり、Ｌ≧ｂである工程と、
（２．２）前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
を行う。

一実施形態では、前記配列特徴行列生成部において、前記配列特徴行列は前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む。

一実施形態では、前記マッピング品質は前記マッピング品質の平均、標準偏差、歪度、および／または尖度を含む。

一実施形態では、前記配列特徴行列生成モジュールにおいて、前記配列特徴行列は以下の式で表され、

一実施形態では、前記配列特徴ベクトル抽出モジュールにおいて、前記配列特徴行列は正規化される。

一実施形態では、前記配列特徴ベクトル抽出モジュールにおいて、前記配列特徴行列は、式（Ｉ）を使用して正規化され、

一実施形態では、前記配列特徴ベクトル抽出モジュールにおいて、前記訓練済み機械学習モデルは、ニューラルネットワークモデルまたはオートエンコーダモデルであり、好ましくは、前記ニューラルネットワークモデルはディープニューラルネットワークモデルであり、より好ましくは、前記ニューラルネットワークモデルは
１Ｄ畳み込みに基づくディープニューラルネットワークモデルである。

ディープニューラルネットワークモデルについては、本発明の第１の態様の実施形態における定義も適用される。

一実施形態では、前記分類検出モジュールにおいて、前記複合特徴ベクトルは前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせることにより得られる。

一実施形態において、前記分類検出モジュールにおいて、前記複合特徴ベクトルｘは以下の式によって正規化され、

式中、ｘ^’ _ｉは正規化された複合特徴ベクトルｘのｉ番目の配列固有値であり、ｘ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値であり、μ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値の平均であり、σ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値の標準偏差である。

一実施形態では、前記分類検出モジュールにおいて、前記分類検出モデルはアンサンブル学習モデルである。

本発明の第４の態様の胎児染色体異常を検出するための分類検出モデルを構築するシステムは、
妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦の胎児染色体状態が既知であり、前記妊婦の臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュールと、
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュールと、
前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュールと、
前記配列特徴ベクトルと前記妊婦の前記表現型特徴ベクトルとを組み合わせて複合特徴ベクトルを形成し、前記分類モデルを複数の妊婦の複合特徴ベクトルと胎児染色体状態とを用いて訓練して訓練済み分類検出モデルを取得する分類検出モジュールと、
を含む。

一実施形態では、前記システムは、前記シーケンシングデータのリードセグメントを参照ゲノムにアラインメントさせて前記一意のマッピングリードを取得するアラインメントモジュールをさらに含む。

前記訓練済み機械学習モデル以外は本発明の第３の態様と同じ技術的特徴を持つため、本発明の第３の態様の実施形態における定義も適用される。本態様では、前記訓練済み機械学習モデルは出力層を含む。例えば、前記ディープニューラルネットワークモデルの構造は前記第１のグローバル平均プーリング層の後の出力層を含み、前記出力層は、前記第１のグローバル平均プーリング層と接続され、前記染色体異常状態を出力するために使用される出力ニューロンの数が１の完全接続層である。本発明の方法およびモデルはＺ検定の代わりにシーケンシングデータの革新的なアルゴリズムに基づいており、結果スコアが「グレー領域」に含まれる場合に閾値に応じて判断することが困難であるという臨床的問題を回避する。さらに、サンプルの数（例えば、サンプルのシーケンシングデータおよび妊婦の対応する表現型データ）が増加するにつれて、本発明によって提案されるハイブリッドモデルは、自動的にアップグレードされて最適化され、検出精度を改善することができる。

本発明の一実施形態に係るディープニューラルネットワークハイブリッドモデルに基づいて胎児染色体異常を検出する方法のフローチャートを示す。本発明の一実施形態に係るシーケンシングデータの特徴行列の計算を示す。本発明の一実施形態に係るディープニューラルネットワークの構造を示す。本発明の一実施形態に係るＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュール（ＳＥモジュール）を示す。本発明の一実施形態に係るＳｐａｔｉａｌＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅ（ｓＳＥモジュール）を示す。本発明の一実施形態に係る表現型データセットの欠損値パディングを示す。本発明の一実施形態に係るスタッキングに基づくアンサンブル学習モデルの構造を示す。本発明の一実施形態に係るスタッキングに基づくアンサンブル学習モデルの５倍交差検証訓練結果のＲＯＣ曲線を示す。本発明の一実施形態に係る試験セットに基くモデルによって評価されたＲＯＣ曲線を示す。本発明の一実施形態に係る試験セットに基づくモデルによって評価された適合率－再現率曲線を示す。本発明の一実施形態に係る決定閾値がデフォルト（すなわち、０．５）である場合の混同行列図を示す。本発明の一実施形態に係る閾値としての適合率および再現率の関数を示す。本発明の一実施形態に係る最小再現率が０．９５である場合（すなわち、タイプＩＩエラーを制限する場合）の混同行列図を示す。

本発明において、胎児染色体異常を検出する方法は胎児染色体異常を検出するシステムによって実施することができ、胎児染色体異常を検出する分類検出モデルを構築する方法は、胎児染色体異常を検出する検出モデルのシステムによって実施することができる。

本発明では、前記データ取得モジュールを使用して、妊婦の無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する。前記シーケンシングデータは複数のリードセグメントを含み、前記妊婦の胎児染色体状態は既知（訓練サンプル）または未知（検出対象サンプル）であり、前記妊婦の前記臨床表現型特徴データは前記妊婦の表現型特徴ベクトルを形成する。前記データ取得モジュールは、上記データを受信するためのデータ受信モジュールを含み得る。前記データ取得モジュールは、シーケンシングのために妊婦の無細胞核酸を入力することによってシーケンシングデータを取得することができるシーケンシング装置をさらに含むことができる。シーケンシングはハイスループットシーケンシングおよび超低深度シーケンシングであり得、前記超低深度シーケンシングのシーケンシング深度は１×、０．１×、または０．０１×である。前記無細胞核酸は、妊婦の末梢血、肝臓、および／または胎盤に由来し得る。前記妊婦の前記臨床表現型特徴および前記妊婦の前記胎児染色体状態（訓練サンプル）はデータベースにおいて利用可能であり、前記妊婦の前記胎児染色体状態は染色体異数性、微小欠失および／または微小重複であり得る。

本発明では、前記アラインメントモジュールを使用して、前記リードセグメントを参照ゲノムにアラインメントして、前記一意のマッピングリードを取得する。前記配列を参照ゲノムにアラインメントさせるアプリケーションソフトウェアは、オープンソース開発者から、例えば、いくつかのオンラインウェブサイトから入手してもよいし自社で開発してもよい。

本発明では、前記配列特徴行列生成モジュールを使用して参照ゲノムの染色体配列の少なくとも一部をウィンドウ分割してスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する。これは固定長を有するウィンドウを使用して前記染色体配列上をスライドさせることによって実施することができ、前記固定長を有するウィンドウは１０ｋ、１００ｋ、１Ｍ、または１０Ｍなどであってもよい。ステップサイズは任意の長さとすることができ、一般的に、計算に便利なようにスライディングウィンドウの長さの半分として設定される。染色体配列の長さは、前記スライディングウィンドウの長さより長ければよく、１０ｋ、１００ｋ、１Ｍ、１０Ｍ、または１００Ｍ・・・染色体全体の長さまで可能である。染色体は、例えば、２１トリソミー症候群の検出に対応する第２１染色体、１８トリソミー症候群の検出に対応する１８番染色体、１３トリソミー症候群の検出に対応する１３番染色体、性染色体異常の検出に対応するＸＹ染色体、および染色体微小欠失／微小重複の検出に対応する全ての常染色体といった標的染色体であり得る。それぞれのウィンドウについて、リード数、塩基品質（シーケンシングの精度の基準）、およびマッピング品質（前記参照ゲノムに対するリードセグメントのアラインメントの精度の基準であって、マッピング品質が高いほど、前記参照ゲノムに対する前記リードセグメントのアラインメント位置が一意になる）などを含むパラメータがカウントされるが、これはコンピュータソフトウエアを用いて行うことができる。

本発明では、前記配列特徴抽出モジュールを使用して、染色体配列の配列特徴を抽出する。訓練データセットについて、前記配列特徴ベクトル生成モジュールは、前記妊婦の前記配列特徴行列および前記胎児染色体状態を使用して、前記訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の前記配列特徴ベクトルを抽出する。試験データについて、前記配列特徴ベクトル生成モジュールは、前記配列特徴行列を使用して試験データセットを構築し、ディープニューラルネットワークモデルなどの訓練済み機械学習モデルに入力して、前記染色体配列の前記配列特徴ベクトルを抽出する。

本発明では、前記訓練データセットについて、前記アンサンブル学習モデルの訓練モジュールなどの分類検出モジュールを使用して、前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルならびに前記胎児染色体状態によって形成される複合特徴ベクトルによって分類検出モデルを訓練し、前記訓練済み分類検出モデルを取得する。

前記試験データセットについて、前記分類検出モジュールを使用して、前記配列特徴ベクトルを前記妊婦の前記表現型特徴ベクトルと組み合わせて、複合特徴ベクトルを入力として形成し、前記訓練済み分類検出モデルを利用して染色体異常状態を検出する。

本発明は、異数性、微小欠失または微小重複などの染色体異常を検出する完全に革新的な方法を提案する。従来の方法とは異なり、本発明は、リードセグメントの数およびＺスコアに基づいて異数性を直接検出せず、データ前処理および特徴抽出選択の余計な作業を必要としない。代わりに、本発明は前記シーケンシングデータから生成された前記配列特徴行列から配列特徴ベクトルを自動的に抽出し、前記配列特徴ベクトルを前記妊婦の前記臨床表現型特徴と組み合わせ、前記分類検出モデルを使用して検出し、最終的に前記胎児染色体に遺伝的異常があるかどうかの予測結果を取得するための機械学習モデルを設計する。

本発明では、前記機械学習モデルを使用して前記シーケンシングデータから前記配列特徴ベクトルを自動的に抽出することでＮＩＰＴ全ゲノム配列特徴の従来の手動抽出の欠点を回避する。本発明の方法は前記シーケンシングデータ情報を十分にマイニングするだけでなく、妊婦の前記臨床表現型情報（モデルに追加できる表現型データ情報は出産年齢、妊娠週、身長、体重、ＢＭＩ（肥満度指数）、出生前検査の生化学的検査結果、ＮＴ値などの超音波診断結果などを含む）を十分に利用し、抽出された配列特徴ベクトルを前記妊婦の表現型特徴ベクトルと組み合わせて、前記ＮＩＰＴシーケンシングデータに含まれる豊富な特徴データ情報および前記妊婦の臨床表現型結果を十分にマイニングし、検出結果の信頼性および妥当性の高さを保証する。本発明の方法は、一般的なトリソミー症候群を検出するために使用することができるだけでなく、染色体コピー数のバラツキ、染色体微小欠失、染色体微小重複などの他の染色体欠損を検出するためにも使用することができる。

本発明において、前記配列特徴ベクトルの抽出は、オートエンコーダネットワークまたはバリエーションオートエンコーダネットワーク等に基づくディープニューラルネットワークモデルを使用することによっても行うことができる。

本発明において、スタッキングまたは多数決に基づくアンサンブル学習モデルは、染色体異常を検出するように訓練され、異なる分類器による異数性の発見が十分に利用されて異数性を発見する精度が大幅に改善される。

本発明において、前記参照ゲノムは例えば、ｈｇ３８、ｈｇ１９などのヒトゲノムプロジェクトによって作製される正常な二倍体染色体を有するヒトゲノムのマップを指す。前記参照ゲノムは、１つの染色体または複数の染色体であってもよく、または染色体の一部であってもよい。

以下、具体的な実施例により本発明をさらに説明する。ただし、本発明は実施例によって限定されるものではない。

実施例１検出モデルの構築例

例示的な実施形態において、検出モデルを構築する例示的なモデル実施形態のプロセスおよび工程を以下に説明する。

１．ＮＩＰＴシーケンシングデータおよびアラインメント結果の取得

ハイスループットシーケンシングプラットフォームＢＧＩｓｅｑ５００を使用して、訓練サンプル、すなわち、妊婦の無細胞核酸断片をシーケンシングする（ＳＥ３５を採用、シーケンシング深度：０．１×）。前記妊婦の胎児染色体状態は知られている。シーケンシングデータを参照ゲノムにアラインメントし、反復アラインメント配列をフィルタリングして、一意のマッピングリードを取得する。

２．上記工程１で得られた一意のマッピングリードを前処理し、ゲノムの各カバレッジ領域の配列カバレッジ深度を、ＧＣ含量とシーケンシング深度との間の関係を通して再補正する。具体的なプロセスは以下の通りである（詳しくは参考文献^［１５］参照）。
ａ．まず、長さｌのフラグメントｍ個をヒト参照ゲノムの染色体（第２１染色体など）から無作為に選択し、
ｂ．ＧＣ含量ｉのフラグメントの数Ｎ_ｉを以下の式により計算し、

式中、

であり、ｆ（ｋ）はフラグメントｋのＧＣ含量であり、ｉはＧＣ含量（ｉ＝０％、１％、・・・、１００％）を表し、
ｃ．ＧＣ含量ｉの一意のマッピングリードの数Ｆ_ｉを以下の式により計算し、

式中、
ｃ_ｋ・ＩＩ_ｉ（ｆ（ｋ））はフラグメントｋのＧＣ含量を表し、Ｆ_ｉはＧＣ含量ｉおよび前記フラグメントと同じ開始サイトを有する一意のマッピングリードの数を表し、
ｄ．ＧＣ含量の観測値－期待値比率λ_ｉを以下の式により計算し、

ｅ．一意のマッピングリードの数を以下の式により補正し、

式中、
Ｒ_ｉは補正後のＧＣ含量ｉの一意のマッピングリードの数の期待値を表す。

３．配列特徴行列の生成

上記工程２の結果を使用して特徴行列を計算する。（図２に示されるように）計算のプロセスは以下の通りである。長さｂのスライディングウィンドウを使用して、開始部位から終了部位までの長さＬの標的染色体をステップサイズｔでスライドさせる。以下の特徴：
ａ．領域内のＧＣ補正リードの数
ｂ．領域内の塩基品質の平均
ｃ．領域内の塩基品質の標準偏差（ｓｔｄ）
ｄ．領域内の塩基品質の歪度
ｅ．領域内の塩基品質の尖度
ｆ．領域内のマッピング品質の平均
ｇ．領域内のマッピング品質の標準偏差（ｓｔｄ）
ｈ．領域内のマッピング品質の歪度
ｉ．領域内のマッピング品質の尖度
を、各スライディングウィンドウでカバーされる長さｂの領域に対して計算し、これにより、配列特徴行列を得る：

式中、
ｈはスライディングウィンドウの数を表し、例えば、

であり、
ｗは単一のスライディングウィンドウ内の配列特徴の数を表し、例えば、ｗ＝９
（すなわち、長さｂの各スライディングウィンドウについて９つの異なる特徴が計算される）であり、
ｘ_ｉｊはｉ番目のスライディングウィンドウにおけるｊ番目の配列固有値を表す。

塩基品質は、シーケンシング結果の精度を定量的に説明するためのものである。塩基品質の平均、標準偏差、歪度および尖度は、それぞれ、シーケンシングリードにおける全ての塩基品質の平均、標準偏差、歪度および尖度を指す。マップ品質は、参照ゲノム配列に対する所与のシーケンシングリードセグメントのアラインメントの信頼性を指し、マップ品質の平均、標準偏差、歪度および尖度はそれぞれ、所与のシーケンシングリードセグメントのマップ品質の平均、標準偏差、歪度および尖度を指す。

４．ディープニューラルネットワークモデルの構築

４．１データセットの構築

工程３の結果を使用して訓練セット

を構築する。式中、Ｎはサンプルの数を表し、Ｎは１以上の整数であり、Ｚ^（ｋ）はサンプルｋの正規化された配列特徴行列（以下、正規化された配列特徴行列と称する）であり、ｋ∈［１，Ｎ］であり、以下のように定義され、

式中、Ｘ^（ｋ） _ｉ，ｊは前記訓練セット中のサンプルｋのｉ番目のスライディングウィンドウにおけるｊ番目の配列特徴ベクトルを表し、μ_ｉ，ｊは前記訓練セット中のｉ番目のスライディングウィンドウにおけるｊ番目の配列特徴ベクトルの平均であり、σ_ｉ，ｊは前記訓練セット中のｉ番目のスライディングウィンドウにおけるｊ番目の配列特徴ベクトルの標準偏差であり、ｉは１以上の整数であり、ｊは１以上の整数である。

４．２ディープニューラルネットワークモデルの構築

ディープニューラルネットワークモデルを構築し、その構造を図３に示す。ディープニューラルネットワークモデルに関与する全ての畳み込み層は、１Ｄ畳み込み演算される。特に明記しない限り、１Ｄ畳み込みカーネル（すなわち、１Ｄフィルタ）のパラメータは同じであり、すなわち、前記１Ｄ畳み込みカーネルの数はｆであり、前記１Ｄ畳み込みカーネルの大きさはｋであり、前記１Ｄ畳み込み演算のステップサイズはｓであり、前記１Ｄ畳み込みはＬ２正則化を使用し、正則化係数はｒ_Ｌ２であり、前記１Ｄ畳み込みカーネルの初期化関数がｇであり、前記１Ｄ畳み込み演算の出力特徴マップの大きさは入力特徴マップの大きさと同じままになるように設定され、プーリングカーネルの大きさはｐであり、プーリング工程大きさはｐ_ｓである。

ディープニューラルネットワークモデルに関与するドロップアウト層の使用ドロップアウト比は同じであり、ｄと設定される。

ディープニューラルネットワークモデルの構造は以下を含む。
４．２．１入力層
入力層を使用して、サイズがｈ×ｗの正規化配列特徴行列Ｚ^（ｋ）を受信する。
４．２．２プレモジュール
プレモジュールを前記入力層と接続して使用し、入力配列特徴行列の第１の畳み込みおよび活性化動作を実行して抽象表現特徴マップを取得する。前記モジュールは、１Ｄ畳み込み層と、前記１Ｄ畳み込み層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたＲｅＬＵ活性化層とを含む。
４．２．３コアモジュール
コアモジュールを、前記プレモジュールと接続して使用し、前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する。前記コアモジュールは、同じ構造を有する残差モジュールの３回の繰り返し操作で構成され、各残差モジュールの出力は、次の残差モジュールの入力である。各残差モジュールは
（Ａ）１Ｄ畳み込み層と、前記１Ｄ畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたＲｅＬＵ活性化層を含み、同じ構造を各々持つ、２回繰り返される前記コアモジュールのプレサブモジュールと、
（Ｂ）（Ａ）に記載の前記コアモジュールの第２のプレサブモジュールと接続された第１の１Ｄ平均プーリング層と、
（Ｃ）（Ｂ）に記載の第１の１Ｄ平均プーリング層と接続されたＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュール（ＳＥモジュール）またはＳｐａｔｉａｌＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュール（ｓＳＥモジュール）と、
を含む。
まず、ＳＥモジュールの減少速度をｒ_ＳＥと設定する。図４に示すように、前記ＳＥモジュールの構造は、
（ａ)（Ｂ）に記載の第１の１Ｄ平均プーリング層と接続された第２のグローバル平均プーリング層と、
（ｂ）（ａ）に記載の第２のグローバル平均プーリング層と接続された再形成層であって、出力特徴マップの大きさが１×ｆであり、ｆが１Ｄ畳み込みカーネルの数である再形成層と、
（ｃ）（ｂ）に記載の再形成層と接続された第１の完全接続層であって、その出力ニューロンの数がｆ／ｒ_ＳＥであり、ｆが１Ｄ畳み込みカーネルの数であり、ｒ_ＳＥが前記ＳＥモジュールの減少速度である第１の完全接続層と、
（ｄ）（ｃ）に記載の第１の完全接続層と接続された第２の完全接続層であって、その出力ニューロンの数がｆであり、式中、ｆが１Ｄ畳み込みカーネルの数である第２の完全接続層と、
（ｅ）（Ｂ）に記載の第１の１Ｄ平均プーリング層と(ｄ)に記載の第２の完全接続層と接続された乗算層と、を含む（詳しくは参考文献^［１６］参照）。
図５に示すように、ｓＳＥモジュールの構造は、
ａ．活性化関数としてシグモイド関数を使用する（Ｂ）に記載の第１の１Ｄ平均プーリング層と接続された１×１の１Ｄ畳み込み層、
ｂ．（Ｂ）に記載の第１の１Ｄ平均プーリング層およびａに記載の１×１の１Ｄ畳み込み層と接続された乗算層、
（Ｄ）（Ｃ）に記載のＳＥモジュールおよびｓＳＥモジュールと接続された第１の追加層（Ａｄｄ層）と、
（Ｅ）４．２．２に記載のプレモジュール内の前記ＲｅＬＵ活性化層と接続された第２の１Ｄ平均プーリング層と、
（Ｆ）（Ｄ）に記載の第１の追加層および（Ｅ）に記載の第２の１Ｄ平均プーリング層と接続された第２の追加層（Ａｄｄ層）と、
を含む（詳しくは参考文献^［１７］参照）。
上記（Ａ）～（Ｄ）は、残差モジュールの左側の分岐であり、（Ｅ）は、残差モジュールの右側の分岐である。
４．２．４ポストモジュール
ポストモジュールは、前記プレモジュールと同じ構造を有し、唯一の違いは、前記ポストモジュール内の１Ｄ畳み込みカーネルの数がｎ_ｏｕｔと設定されており、出力前にポストモジュールを使用して前記コアモジュールから前記特徴マップを特徴抽象化表現することである。
４．２．５第１のグローバル平均プーリング層
第１のグローバル平均プーリング層は、前記ポストモジュールと接続して使用し、前記特徴抽象化表現の特徴マップをベクトル化する。
４．２．６出力層
出力層は、前記第１のグローバル平均プーリング層と接続され、出力ニューロンの数が１の完全接続層であり、活性化関数は、染色体異常を出力するために使用されるシグモイド関数である。

５．配列特徴ベクトルの計算

訓練セットを使用して、工程４においてディープニューラルネットワークモデルを訓練する。前記サンプルの配列特徴ベクトルは、前記訓練済みディープニューラルネットワークモデルを使用して計算される。このプロセスは、以下のとおりである。
（１）上記４．１に従って各サンプルの正規化された配列特徴ベクトルを計算し
（２）（１）で得られた正規化された配列特徴行列を前記ディープニューラルネットワークモデルに入力して計算し、
（３）４．２．５に記載のディープニューラルネットワークモデルの第１のグローバル平均プーリング層の出力を、

と定義される入力サンプルに対応する生成された配列特徴ベクトルｓｅｑとして保存する。式中、ｎ_ｏｕｔは４．２．４に記載のポストモジュールで定義された１Ｄ畳み込みカーネルの数である。

６．妊婦サンプルに対応する表現型結果の取得

妊婦サンプルに対応する表現型結果を取得し、

と定義される５つの特徴を含む初期表現型特徴ベクトルｐｈｅ_ｉｎｉｔを構築する。式中、ｘ_ａｇｅはサンプリング時の妊婦の年齢（歳）を表し、ｘ_ＧＷはサンプリング時の妊婦の妊娠週を表し、ｘ_{ｈｅｉｇｈｔ}は妊婦の身長（ｃｍ）を表し、ｘ_{ｗｅｉｇｈｔ}は妊婦の体重（ｋｇ）を表し、ｘ_ＦＦは妊婦の血漿中の無細胞胎児ＤＮＡの濃度を表す。

７．表現型データの前処理

妊婦の表現型データセットは、異常値処理および欠損値またはヌル値処理を含む、前処理を実施される。

（１）異常値処理

以下の記録：
ａ．ｘ_ａｇｅ＜１０またはｘ_ａｇｅ＞８０；
ｂ．ｘ_ＧＷ＜５またはｘ_ＧＷ＞５０；
ｃ．ｘ_{ｈｅｉｇｈｔ}＜４０またはｘ_{ｈｅｉｇｈｔ}＞３００；
ｄ．ｘ_{ｗｅｉｇｈｔ}＜１０またはｘ_{ｗｅｉｇｈｔ}＞２００；
が表示されると、妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。

（２）欠損値またはヌル値の処理

表現型データ行列Ｐは、以下のように定義され、

式中、（工程６で定義されるように）ｐｈｅ^ｉ _ｉｎｉｔは前記訓練セット中のｉ番目のサンプルの表現型特徴ベクトルを表し、Ｎは前記訓練セット中のサンプルの数を表す。前記訓練セット中の前記サンプルは４．１に記載の訓練セットのサンプルと一致しているため、表現型データ行列ＰはサイズがＮ×Ｍの行列であり、Ｍは表現型特徴の数であり、Ｍ＝５である。

ミスフォレストアルゴリズムを使用して、ランダムフォレストに基づくノンパラメトリック欠損値パディングアルゴリズムである欠損値パディングを行う（詳しくは参考文献^［１8］参照）。そのアルゴリズムは以下の通りである。

（３）ＢＭＩの計算

欠損値パディング後の表現型結果を使用して、

のように定義されるＢＭＩを計算する。

（４）（３）の結果を欠損値パディング後の表現型特徴ベクトルに加算して、最終的な表現型特徴ベクトルを取得する。

８．複合特徴ベクトルの生成

工程５に記載の配列特徴ベクトルと工程７に記載の最終的な特徴ベクトルとを組み合わせて複合特徴ベクトルを取得する。

９．複合特徴ベクトルの正規化

８．に記載の複合特徴ベクトルは以下の式によって正規化され、

１０．スタッキングに基づくアンサンブル学習モデルの構築

工程９に記載の結果を使用して、

のように表される訓練セットを構築する。式中、Ｎは訓練サンプルの数を表し、Ｎは１以上の整数であり、Ｚ^（ｋ） _ｉ，ｊは訓練サンプルｋの正規化された配列特徴行列であり、ｋ∈［１，Ｎ］であり、ｉは１以上の整数であり、ｊは１以上の整数であり、ｙ＝０は正常胎児染色体を表し、ｙ＝１は異常胎児染色体を表す。

スタッキングに基づくアンサンブル訓練アルゴリズムを用いて異数性を予測する。そのアルゴリズムは以下の通りである（詳しくは参考文献^［１９］参照）。

実施例２．染色体異常の検出例

例示的な実施形態において、本発明は、非侵襲的出生前検査（ＮＩＰＴ）の核酸シーケンシング結果および妊婦の表現型データを一緒に使用して、遺伝的異常が胎児染色体に存在するかどうかを予測する、胎児染色体異常を検出する方法を提案する。具体的な実施形態では、胎児染色体異常を検出する方法のプロセスおよび工程を図１に示し、具体的なプロセスを以下に説明する。

ハイスループットシーケンシングプラットフォームＢＧＩｓｅｑ５００を使用して、検出対象サンプルのシーケンシングを行う（ＳＥ３５を採用、シーケンシング深度：０．１×）。シーケンシングデータを参照ゲノムにアラインメントし、反復アラインメント配列をフィルタリングして、一意のマッピングリードを取得する。

２．上記工程１で得られた一意のマッピングリードを前処理し、ゲノムの各カバレッジ領域の配列カバレッジ深度を、ＧＣ含量とシーケンシング深度との間の関係を通して再補正する。具体的なプロセスについては、実施例１を参照のこと。

３．配列特徴行列の生成

上記工程２の結果を使用して特徴行列を計算する。（図２に示されるように）計算のプロセスは以下の通りである。長さｂのウィンドウを使用して、開始部位から終了部位までの長さＬの標的染色体を、ステップサイズｔでスライドさせる。以下の特徴：
ａ．領域内のＧＣ補正リードの数
ｂ．領域内の塩基品質の平均
ｃ．領域内の塩基品質の標準偏差（ｓｔｄ）
ｄ．領域内の塩基品質の歪度
ｅ．領域内の塩基品質の尖度
ｆ．領域内のマッピング品質の平均
ｇ．領域内のマッピング品質の標準偏差（ｓｔｄ）
ｈ．領域内のマッピング品質の歪度
ｉ．領域内のマッピング品質の尖度
を、各スライディングウィンドウでカバーされる長さｂの領域に対して計算し、これにより、配列特徴行列を得る：

であり、
ｗは単一のスライディングウィンドウ内の配列特徴の数を表し、例えば、ｗ＝９（すなわち、長さｂの各スライディングウィンドウについて９つの異なる特徴が計算される）であり、ｘ_ｉｊはｉ番目のスライディングウィンドウにおけるｊ番目の配列固有値を表す。

塩基品質は、シーケンシング結果の精度を定量的に説明するためのものである。塩基品質の平均、標準偏差、歪度および尖度は、それぞれ、シーケンシングリードセグメントにおける全ての塩基品質の平均、標準偏差、歪度および尖度を指す。マップ品質は、参照ゲノム配列に対する所与のシーケンシングセグメントのアラインメントの信頼性を指し、マップ品質の平均、標準偏差、歪度および尖度はそれぞれ、所与のシーケンシングリードセグメントのマップ品質の平均、標準偏差、歪度および尖度を指す。

４．実施例１における訓練済みディープニューラルネットワークモデルを使用してサンプルの配列特徴ベクトルを計算する。プロセスは以下の通りである：
（１）実施例１の４．１に従って前記サンプルの正規化された配列特徴行列を計算し
（２）（１）で得られた正規化された配列特徴行列をディープニューラルネットワークモデルに入力して計算し、
（３）実施例１の４．２．５に記載のディープニューラルネットワークモデルの第１のグローバル平均プーリング層の出力を、

と定義されるサンプルに対応する生成された配列特徴ベクトルｓｅｑとして保存する。式中、ｎ_ｏｕｔは４．２．４に記載のポストモジュールで定義された１Ｄ畳み込みカーネルの数である。

５．検出対象の妊婦サンプルに対応する表現型結果の取得

検出対象の妊婦サンプルに対応する表現型結果を取得し、

６．表現型データの異常値処理

以下の記録：
ａ．ｘ_ａｇｅ＜１０またはｘ_ａｇｅ＞８０；
ｂ．ｘ_ＧＷ＜５またはｘ_ＧＷ＞５０；
ｃ．ｘ_{ｈｅｉｇｈｔ}＜４０またはｘ_{ｈｅｉｇｈｔ}＞３００；
ｄ．ｘ_{ｗｅｉｇｈｔ}＜１０またはｘ_{ｗｅｉｇｈｔ}＞２００；
が表示されると、検出対象の妊婦サンプルの表現型データは異常値として判定され、これらの異常値はヌル値として設定される。

７．工程４に記載の配列特徴ベクトルと工程６に記載の最終的な特徴ベクトルとを組み合わせて複合特徴ベクトルを取得する。

８．複合特徴ベクトルの正規化

７．に記載の複合特徴ベクトルは以下の式によって正規化され、

９．実施例１のスタッキングに基づくアンサンブル学習モデルに合成特徴ベクトルを入力し、検出対象の妊婦の胎児染色体状態を取得する。

実施例３．検証の例

１．サンプル数

本実施例では、陽性検体として「２１トリソミー（Ｔ２１）」のサンプルを１２０５検体使用し、陰性検体として正常染色体（二倍体）のサンプルを１６００検体使用する。

２．実施例１の２．に記載の工程に従って、全ての陽性検体および陰性検体のシーケンシングデータを前処理する。ランダムサンプリングフラグメントの数はｍ＝５０００００００であり、フラグメントはｌ＝１８０である。

３．実施例１の工程３に記載の工程に従って、全ての陽性検体および陰性検体の配列特徴行列を生成する。パラメータは、以下のように設定される。
第２１染色体の長さ：Ｌ＝４６７０９９８３
スライディングウィンドウの長さ：ｂ＝１００００００
スライディングのステップサイズ：ｔ＝５０００００

したがって、各サンプルに対応する配列特徴行列は９×９３の大きさ、すなわち、ｗ＝９、ｈ＝９３で得られる。第２１染色体の開始部分は参照ゲノム中にマッピング配列を持たないので、本実施例では配列特徴行列の最初の８列がフィルタリングされる、すなわち、実際に使用される配列特徴行列の大きさは９×８５である。

４．工程３の結果に基づいて、前記訓練セット中の対応するシーケンシングデータの特徴行列を使用して、前記ディープニューラルネットワークモデルを訓練する。
（１）上記実施例１の４．１に従って、訓練セットのシーケンシングデータの特徴行列を正規化し、正規化モデルを保存する。
（２）（１）に記載のディープニューラルネットワークモデルに従って、大きさが２５２４×８５×９の入力テンソルを取得し、前記ディープニューラルネットワークモデルを訓練する。
（３）実施例１の４．２に記載のディープニューラルネットワークモデルに従って、前記ディープニューラルネットワークモデルを訓練し、前記ディープニューラルネットワークモデルのパラメータを以下のように設定する：
１Ｄ畳み込みカーネルの数：ｆ＝３２であり、
１Ｄ畳み込みカーネルの大きさ：ｋ＝８であり、
１Ｄ畳み込み演算のステップサイズ：ｓ＝１であり、
１Ｄ畳み込みカーネルのｌ２の正則化係数：ｒ_ｌ２＝０．０００４であり、
１Ｄ畳み込みカーネルの初期化関数ｇは、参考文献^［２０］に記載の「Ｈｅ正規化」初期化関数を使用し、
１Ｄ畳み込み演算の出力特徴マップの大きさは、入力特徴マップの大きさと同じであり、
プーリング・カーネルの大きさ：ｐ＝２であり、
プーリングのステップサイズ：ｐ_ｓ＝２であり、
ドロップアウト層のドロップアウト比：ｒ_ｄ＝０．５であり、
ＳＥモジュールの下降速度：ｒ_ＳＥ＝１６であり、
ポストモジュール内の１Ｄ畳み込みカーネルの数：ｎ_ｏｕｔ＝８である。
本実施例は、Ｔｅｎｓｏｒｆｌｏｗ（バージョン＝１．１２．２）およびｋｅｒａｓ（バージョン＝２．２．４）のＧＰＵバージョンに基づいて実施される。表４－１から表４－５は、上述のパラメータに基づく、ディープニューラルネットワークモデルにおける、各層の操作、出力特徴マップの大きさ、およびネットワーク接続を示す。

（４）前記訓練セット中のサンプルの８０％を使用して前記ディープニューラルネットワークの訓練をし、２０％を使用して検証し精度を計算する。
（５）前記ディープニューラルネットワークの訓練は、反復エポック＝１００およびサンプルバッチｍｉｎｉ＿ｂａｔｃｈの大きさ＝６４のように設定する。勾配降下の最適化アルゴリズムとしてＡｄａｍアルゴリズム（パラメータβ_１＝０．９、β_２＝０．９９９）を用い、初期訓練率を０．０１に設定する。訓練プロセスでは、連続する２回の反復後に正解率が改善されない場合、訓練率を２倍に低減し（すなわち、０．５倍し）、１０回の連続する反復後に正解率が改善されない場合、訓練を停止する。
（６）クラス重み係数を（機械訓練ライブラリｓｃｉｋｉｔ－ｌｅａｒｎ（バージョン＝０．２２．２）においてｃｏｍｐｕｔｅ＿ｃｌａｓｓ＿ｗｅｉｇｈｔ（）関数を使用してクラス重みを計算し、対応するクラスのサンプルにクラス重みを割り当てて）ディープニューラルネットワークモデルの訓練プロセスに導入する。
（７）訓練済みディープニューラルネットワークモデルを保存する。

５．上記実施例１の工程５に従って配列特徴ベクトルを計算する。
（１）上記実施例１における工程３に従って、全データセット（前記訓練セットおよび試験セットを含む）中の全てのサンプルに対する配列特徴行列を計算し、
（２）４．１に記載の配列正規化モデルに従って、得られた配列正規化モデルを用いて、上記（１）で得られた配列特徴行列を正規化し、
（３）上記（２）の結果を、４で得られたディープニューラルネットワークモデルに入力し、前記モデルの出力層を前記グローバル平均プーリング層（すなわち、表４－５における６５番目の層）に修正し、
（４）（３）のプロセスに従って、全データセット（前記訓練セットおよび試験セットを含む）中の全てのサンプルの配列特徴ベクトルを取得する。

６．上記実施例１の工程７に従って、全データセット（前記訓練セットおよび試験セットを含む）中の全てのサンプルの表現型特徴を取得し、前記表現型特徴の異常値を処理する。

７．上記実施例１の工程７に従って、前記訓練セット中の表現型特徴を欠損値パディングし、欠損値のパディングモデルを保存する。

８．上記実施例１の工程７に従って、図６に示すように、欠損値処理後の訓練セット中の表現型特徴についてＢＭＩを計算する。

９．上記実施例１の工程８に従って、前記訓練セット中の配列特徴ベクトルを対応するサンプルの表現型特徴ベクトルと組み合わせて複合特徴ベクトルを得る。

１０．上記実施例１の工程９に従って、訓練セット中の各サンプルの複合特徴ベクトルを正規化して正規化された特徴ベクトルを取得し、複合特徴ベクトルの正規化モデルを保存する。

１１．上記工程７～１０のプロセスに従って、前記欠損値の保存されたパディングモデルを使用して前記試験セット中の各サンプルの表現型特徴の欠損値パディングを行い、前記試験セットの配列特徴ベクトルを対応するサンプルの表現型特徴ベクトルと組み合わせて、前記試験セットの複合特徴ベクトルを取得し、保存した前記複合特徴ベクトルの正規化モデルを使用して前記試験セット中の複合特徴ベクトルを正規化する。

１２．図７に示すように、上記工程１０で取得した訓練セットの正規化された特徴ベクトルを使用して、スタッキングに基づいてアンサンブル学習モデルを訓練する。本実施例はｓｃｉｋｉｔ－ｌｅａｒｎ（バージョン＝０．２２．２）機械訓練ライブラリに基づいて実施されるが、クラス重み係数はそれぞれのベース分類器モデルおよび最終メタ分類器モデルに導入され、パラメータは別段の指定がない場合、デフォルトとして設定される。
（１）上記実施例１の工程１０に従い、実施例で使用されるベース分類器は、
・Ｃ＝０．５、カーネル＝「ｒｂｆ」のパラメータを持つＳＶＣ、
・ν＝０．２５、カーネル＝「ｒｂｆ」のパラメータを持つν－ｓｖｃ、
・ガウシアンＮＢ（ガウシアン単純ベイズモデル）、
・ｎ＿ｅｓｔｉｍａｔｏｒｓ＝１００、ｃｒｉｔｅｒｉｏｎ＝「ｇｉｎｉ」、ｍａｘ＿ｄｅｐｔｈ＝５、ｍｉｎ＿ｓａｍｐｌｅｓ＿ｌｅａｆ＝１およびｍｉｎ＿ｓａｍｐｌｅｓ＿ｓｐｌｉｔ＝２のパラメータを持つランダムフォレスト分類器、
・ｎ＿ｅｓｔｉｍａｔｏｒｓ＝１００、ｍｉｎ＿ｃｈｉｌｄ＿ｗｅｉｇｈｔ＝１、ｇａｍｍａ＝０．１、ｃｏｌｓａｍｐｌｅ＿ｂｙｔｒｅｅ＝０．８、ｓｕｂｓａｍｐｌｅ＝０．７、ｒｅｇ＿ａｌｐｈａ＝０．０１、ｍａｘ＿ｄｅｐｔｈ＝５、ｌｅａｒｎｉｎｇ＿ｒａｔｅ＝０．０５のパラメータを持つＸＧＢ分類器、
・Ｃ＝０．５のパラメータを持つロジスティック回帰、
を含む。
（２）実施例１の工程１０に従い、最終メタ分類器は、エクストラツリー分類器（極めてランダム化されたツリー分類器）である。この分類器に関与するパラメータは、それぞれ、ｎ＿ｅｓｔｉｍａｔｏｒｓ＝１１０、ｍａｘ＿ｄｅｐｔｈ＝６、ｍｉｎ＿ｓａｍｐｌｅｓ＿ｓｐｌｉｔ＝３、およびｍｉｎ＿ｓａｍｐｌｅｓ＿ｌｅａｆ＝１と設定される。
（３）スタッキングに基づくアンサンブル学習モデルに対して、５倍交差検証訓練を行い、その結果を図８に示す。これは、５倍交差検証訓練を用いて前記モデルを訓練することによって得られた平均ＡＵＣが０．９６であることを示す。

１３．工程１２に記載のスタッキングに基づいて訓練済みアンサンブル学習モデルを、前記試験セットを使用して検証する。
（１）試験結果のＲＯＣ曲線を図９に示す。ＡＵＣ＝０．９６である。
（２）試験結果の適合率－再現率曲線を図１０に示す。ＡＰ＝０．９５である。
（３）デフォルトの決定閾値（すなわち、０．５）での混同行列を図１１に示す。再現率および適合率はそれぞれ、０．８３および０．８９である。
（４）判定閾値としての適合率と再現率の関数を図１２に示す。
（５）最小再現率を０．９５に設定する（すなわち、タイプＩＩエラーを制限する）。得られた結果を図１２に示す。再現率および適合率はそれぞれ０．９６および０．７０である。

本発明は、機械学習モデル（ディープニューラルネットワークなど）を使用してＮＩＰＴシーケンシングデータの配列特徴ベクトルを抽出し、前記配列特徴ベクトル（リードカウント、塩基品質、およびマッピング品質を含むが、これらに限定されない特徴）を妊婦の表現型特徴ベクトル（出産年齢、妊娠週、身長、体重、ＢＭＩ、出生前検査の生化学的検査結果、およびＮＴ値などの超音波診断結果を含むが、これらに限定されない妊婦の表現型特徴）と組み合わせてベクトル組み合わせを形成し、スタッキングに基づくアンサンブル学習モデルなどの分類モデルを使用して、最終的な予測異数性を取得することを提案する。本発明において、前記配列特徴ベクトルの抽出は本明細書で使用される方法に限定されず、オートエンコーダネットワークまたはバリエーションオートエンコーダネットワークを含むがこれらに限定されない方法を使用することもできる。本発明によって提案されるモデル構造はハイブリッドモデルであり、すなわち、モデルは、２つの段階を含む。第１の段階では、（ディープニューラルネットワークなどの）機械学習モデルを使用して、前記配列特徴ベクトルを計算する。第２の段階では、分類モデル（スタッキングに基づくアンサンブル学習モデルなど）を使用して、配列特徴ベクトルと表現型特徴ベクトルの組合せを用いて異数性を予測する。多数決に基づくモデルなどの他のアンサンブル学習モデルも使用することができる。

他の畳み込みニューラルネットワークと比較して、本発明の実施例で使用される検証された高度なディープニューラルネットワークモデルは、ネットワーク設計およびアーキテクチャに関する以下の特徴を有する。本発明の実施例で使用されるディープニューラルネットワークモデルは１Ｄ畳み込みモデルに基づくディープニューラルネットワークモデルであり、本発明の実施例で使用されるディープニューラルネットワークモデルは残差ネットワークに基づくネットワークモデルであり、Ｓｑｕｅｅｚｅ－ＥｘｃｉｔｅネットワークのＳＥモジュールは本発明の実施例で使用されるディープニューラルネットワークモデルに導入される。これらの設計に基づいて、本発明の実施例で使用されるニューラルネットワークモデルはより多くの層を有し（実施例３参照）、訓練モデルのプロセスにおける勾配消失および過剰適合のリスクを効果的に低減し、安定性を改善するため、モデル予測結果の精度を効果的に改善する。

本発明は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体として実施することができ、本発明の方法を実施する工程は、コンピュータプログラムがプロセッサによって実行されるときに実行される。一例として、コンピュータプログラムがネットワークによって結合されたいくつかのコンピュータ装置またはプロセッサに分散され、その結果、コンピュータプログラムは、１つ以上のコンピュータ装置またはプロセッサによって分散された形で記憶され、アクセスされ、実行される。単一の工程／操作、または２つ以上の工程／操作は、単一のコンピュータ装置もしくはプロセッサによって、または２つ以上のコンピュータ装置もしくはプロセッサによって実行され得る。１つ以上の工程／操作は１つ以上のコンピュータ装置またはプロセッサによって実行され得、１つ以上の他の工程／操作は１つ以上の他のコンピュータ装置またはプロセッサによって実行され得る。１つ以上のコンピュータ装置またはプロセッサは、単一の工程／操作、または２つ以上の工程／操作を実行することができる。

当業者は、本発明の胎児染色体異常を検出する方法における工程の分割および順序が単なる例示であり、限定するものではなく、添付の特許請求の範囲に記載される本発明の技術的思想または技術的範囲およびその同等技術的解決策から逸脱することなく、削除、付加、置換、変更および変形が、当業者によって行われ得ることを理解するであろう。本発明の実施形態の技術的特徴は任意に組み合わせることができるが、説明を簡潔にするために、上記実施形態における技術的特徴の全ての可能な組み合わせが記載されているわけではない。ただし、これらの技術的特徴の組合せに矛盾がない場合には、本明細書の範囲に属するものとする。

例示的な実施形態を参照して本発明を説明してきたが、本発明は上記の実施形態の構成および方法に限定されないことを理解されたい。その代わりに、本発明は、様々な変更および同等の構成を包含することが意図される。加えて、本発明において開示される様々な要素および方法工程は様々な例示的な組合せおよび構成で示されるが、より多いまたはより少ない要素または方法を含む他の組合せも、本発明の範囲内に含まれる。
参考文献：
[1] Evans, Mark I., Stephanie Andriole, and Shara M. Evans. "Genetics: update on prenatal screening and diagnosis." Obstetrics and Gynecology Clinics 42.2 (2015): 193-208.
[2] Norwitz, Errol R., and Brynn Levy. "Noninvasive prenatal testing: the future is now." Reviews in obstetrics and gynecology 6.2 (2013): 48.
[3] Norton, Mary E., et al. "Cell-free DNA analysis for noninvasive examination of trisomy." New England Journal of Medicine 372.17 (2015): 1589-1597.
[4] Langlois, Sylvie, et al. "Current status in non-invasive prenatal detection of Down syndrome, trisomy 18, and trisomy 13 using cell-free DNA in maternal plasma." Journal of Obstetrics and Gynaecology Canada 35.2 (2013): 177-181.
[5] Allyse, Megan, et al. "Non-invasive prenatal testing: a review of international implementation and challenges." International journal of women's health 7 (2015): 113.
[6] Chiu, Rossa WK, et al. "Noninvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma." Proceedings of the National Academy of Sciences 105.51 (2008): 20458-20463.
[7] Fan, H. Christina, et al. "Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA from maternal blood." Proceedings of the National Academy of Sciences 105.42 (2008): 16266-16271.
[8] Lau, Tze Kin, et al. "Noninvasive prenatal diagnosis of common fetal chromosomal aneuploidies by maternal plasma DNA sequencing." The Journal of Maternal-Fetal & Neonatal Medicine 25.8 (2012): 1370-1374.
[9] Jiang, Fuman, et al. "Noninvasive Fetal Trisomy (NIFTY) test: an advanced noninvasive prenatal diagnosis methodology for fetal autosomal and sex chromosomal aneuploidies." BMC medical genomics 5.1 (2012): 57.
[10] Yang, Jianfeng, Xiaofan Ding, and Weidong Zhu. "Improving the calling of non-invasive prenatal testing on 13-/18-/21-trisomy by support vector machine discrimination." BioRxiv (2017): 216689.
[11] Xu, Hanli, et al. "Informative priors on fetal fraction increase power of the noninvasive prenatal screen." Genetics in Medicine 20.8 (2018): 817-824.
[12] Ehrich, Mathias, et al. "Deep learning-based methods, devices, and systems for prenatal testing", Publication number: WO2019191319A1, Filing Date: 27 March 2019.
[13] Egilsson, Agust, et al. "Methods and systems for calling ploidy status using a neural network". Publication number: WO2020018522A1, Filing date: 16 July 2019.
[14] Petersen, Andrea K., et al. "Positive predictive value estimates for cell-free noninvasive prenatal screening from data of a large referral genetic diagnostic laboratory." American journal of obstetrics and gynecology 217.6 (2017): 691-e1.
[15] Benjamini, Yuval, and Terence P. Speed. "Summarizing and correcting the GC content bias in high-throughput sequencing." Nucleic acids research 40.10 (2012): e72-e72.
[16] Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[17] Roy, Abhijit Guha, Nassir Navab, and Christian Wachinger. "Concurrent spatial and channel ‘squeeze & excitation’in fully convolutional networks." International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2018.
[18] Stekhoven, Daniel J., and Peter Buhlmann. "MissForest-non-parametric missing value imputation for mixed-type data." Bioinformatics 28.1 (2012): 112-118.
[19] Tang, J., S. Alelyani, and H. Liu. "Data Classification: Algorithms and Applications." Data Mining and Knowledge Discovery Series, CRC Press (2015): pp. 498-500.
[20] He, Kaiming, et al. "Delving deep into rectifiers: Surpassing human-level performance on imagenet classification." Proceedings of the IEEE international conference on computer vision. 2015.

Claims

以下の工程を含む、胎児染色体異常を検出する方法：
（１）検出対象の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、
前記シーケンシングデータが複数のリードセグメントを含み、
前記検出対象の妊婦の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程；
（２）参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、
前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、
前記染色体配列の配列特徴行列を生成する工程；
（３）訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する工程；
（４）前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、
前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の胎児染色体異常状態を取得する工程。
前記工程（１）において、前記無細胞核酸断片が、前記妊婦の末梢血、肝臓、および／または胎盤に由来する、請求項１に記載の方法。
前記工程（１）において、前記無細胞核酸断片が、無細胞ＤＮＡである、請求項１または２に記載の方法。
前記工程（１）において、前記シーケンシングデータが超低深度シーケンシングに由来し、
好ましくは、前記超低深度シーケンシングのシーケンシング深度が１×、０．１×、または０．０１×である、請求項１～３のいずれか一項に記載の方法。
前記工程（１）において、前記リードセグメントを前記参照ゲノムにアラインメントさせて一意のマッピングリードを取得し（好ましくは、ＧＣ含量補正を行い）、
好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される（好ましくは、前記リードセグメントはＧＣ含量により補正される）、請求項１～４のいずれか一項に記載の方法。
前記ＧＣ含量補正が以下のように行われる、請求項５に記載の方法：
ａ．長さｌのフラグメントｍ個を前記ヒト参照ゲノムの染色体から無作為に選択し、
ｂ．ＧＣ含量ｉのフラグメントの数Ｎ_ｉを以下の式により計算し、

式中、

であり、ｆ（ｋ）はフラグメントｋのＧＣ含量であり、
ｉはＧＣ含量（ｉ＝０％、１％、・・・、１００％）を表し、
ｃ．ＧＣ含量ｉのシーケンシングリードセグメントの数Ｆ_ｉを以下の式により計算し、

式中、
ｃ_ｋ・ＩＩ_ｉ（ｆ（ｋ））はフラグメントｋのＧＣ含量を表し、
Ｆ_ｉは、ＧＣ含量ｉおよび前記フラグメントと同じ開始サイトを有するシーケンシングリードセグメントの数を表し、
ｄ．ＧＣ含量の観測値－期待値比率λ_ｉが以下の式により計算され、

式中、
ｒは以下のように定義されるグローバルスケール因子であり、

ｅ．シーケンシングリードセグメントの数が以下の式により補正され、

式中、
Ｒ_ｉは補正したＧＣ含量ｉのシーケンシングリードセグメントの数の期待値を表す。
前記工程（１）において、前記妊婦の前記臨床表現型特徴データが、年齢、妊娠週、身長、体重、ＢＭＩ、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児ＤＮＡ濃度のうちの１つまたは２つ以上の組合せから選択される、請求項１～６のいずれか一項に記載の方法。
前記工程（１）において、
前記妊婦の前記臨床表現型特徴データが、異常値処理、欠損値処理、および／またはヌル値処理される、請求項１～７のいずれか一項に記載の方法。
前記工程（１）において、以下の記録：
ａ．ｘ_ａｇｅ＜１０またはｘ_ａｇｅ＞８０；
ｂ．ｘ_ＧＷ＜５またはｘ_ＧＷ＞５０；
ｃ．ｘ_{ｈｅｉｇｈｔ}＜４０またはｘ_{ｈｅｉｇｈｔ}＞３００；
ｄ．ｘ_{ｗｅｉｇｈｔ}＜１０またはｘ_{ｗｅｉｇｈｔ}＞２００；
が表示されると、前記妊婦のサンプルの表現型データが異常値として判定され、
これらの異常値がヌル値として設定される、請求項８に記載の方法。
前記欠損値および前記ヌル値が、ミスフォレストアルゴリズムによってパディングされる、請求項８または９に記載の方法。
前記工程（２）において、前記染色体が、第２１染色体、第１８染色体、第１３染色体および／または性染色体である、請求項１～１０のいずれか一項に記載の方法。
前記工程（２）が、
（２．１）長さｂのウィンドウを使用して、前記参照ゲノムの長さＬの染色体配列をステップサイズｔで重複およびスライドさせて、複数のスライディングウィンドウを取得する工程であって、
ｂは正の整数であり、ｂ＝［１００００，１０００００００］であり、ｔは任意の正の整数であり、Ｌは正の整数であり、Ｌ≧ｂである工程と、
（２．２）前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
を含む、請求項１～１１のいずれか一項に記載の方法。
前記工程（２）において、前記配列特徴行列が、前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む、請求項１～１２のいずれか一項に記載の方法。
前記塩基品質が、前記塩基品質の平均、標準偏差、歪度、および／または尖度を含む、請求項１３に記載の方法。
前記マッピング品質が、前記マッピング品質の平均、標準偏差、歪度、および／または尖度を含む、請求項１３に記載の方法。
前記工程（２）において、前記配列特徴行列が以下の式で表され、

式中、ｈがスライディングウィンドウの数を表し、
ｗが単一のスライディングウィンドウ内の配列特徴の数を表し、
ｘ_ｉｊがｉ番目のスライディングウィンドウ内のｊ番目の配列固有値を表す、
請求項１～１５のいずれか一項に記載の方法。
前記工程（３）において、前記配列特徴行列が正規化される、請求項１～１６のいずれか一項に記載の方法。
前記工程（３）において、前記配列特徴行列が、式（Ｉ）を使用して正規化され、

式中、Ｚ^（ｋ） _ｉ，ｊはサンプルｋの正規化された配列特徴行列であり、
Ｘ^（ｋ） _ｉ，ｊはサンプルｋのｉ番目のスライディングウィンドウ内のｊ番目の配列固有値を表し、
μ_ｉ，ｊおよびσ_ｉ，ｊは全てのサンプルのｉ番目のスライディングウィンドウ内のｊ番目の配列固有値の平均および標準偏差をそれぞれ表す、請求項１７記載の方法。
前記工程（３）において、前記訓練済み機械学習モデルがニューラルネットワークモデルまたはオートエンコーダモデルであり、
好ましくは、前記ニューラルネットワークモデルがディープニューラルネットワークモデルであり、
より好ましくは、前記ニューラルネットワークモデルが１Ｄ畳み込みに基づくディープニューラルネットワークモデルである、請求項１～１８のいずれか一項に記載の方法。
前記ディープニューラルネットワークモデルの構造が、
前記配列特徴行列を受信する入力層と、
前記入力層からの前記配列特徴行列の第１の畳み込みおよび活性化動作を実行して特徴マップを取得する、前記入力層と接続されたプレモジュールと、
前記プレモジュールからの前記特徴マップのさらなる抽象化および特徴抽出を行い、前記ニューラルネットワークモデルの深さを効果的に増加させることによって前記ニューラルネットワークの表現能力を強化する、前記プレモジュールと接続されたコアモジュールと、
前記コアモジュールからの前記特徴マップを特徴抽象化表現する、前記コアモジュールと接続されたポストモジュールと、
前記特徴抽象化表現の前記特徴マップをベクトル化し、前記染色体配列の前記配列特徴ベクトルを出力する、前記ポストモジュールと接続された第１のグローバル平均プーリング層と、
を含む、請求項１～１９のいずれか一項に記載の方法。
前記プレモジュールが、
(Ｉ)１Ｄ畳み込み層と、
(ＩＩ)（Ｉ）に記載の１Ｄ畳み込み層と接続されたバッチ正規化層と、
(ＩＩＩ)（ＩＩ）に記載のバッチ正規化層と接続されたＲｅＬＵ活性化層と、
を含む、請求項２０に記載の方法。
前記コアモジュールが、同じ構造を持つ１つ以上の残差サブモジュールで構成され、
各残差モジュールの出力が、次の残差モジュールの入力である、
請求項２０または２１に記載の方法。
前記残差サブモジュールが、
(Ａ)１Ｄ畳み込み層と、前記１Ｄ畳み込み層と接続されたドロップアウト層と、前記ドロップアウト層と接続されたバッチ正規化層と、前記バッチ正規化層と接続されたＲｅＬＵ活性化層とを各々含む、前記コアモジュールのプレサブモジュールと、
(Ｂ)（Ａ）に記載の前記コアモジュールのプレサブモジュールと接続された第１の１Ｄ平均プーリング層と、
(Ｃ)（Ｂ）に記載の第１の１Ｄ平均プーリング層と接続されたＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュールおよび／またはＳｐａｔｉａｌＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュールと、
(Ｄ)（Ｃ）に記載のＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュールおよび／またはＳｐａｔｉａｌＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュールと接続された第１の追加層と、
(Ｅ)前記プレモジュール内の前記ＲｅＬＵ活性化層と接続された第２の１Ｄ平均プーリング層と、
(Ｆ)（Ｄ）に記載の第１の追加層および（Ｅ）に記載の第２の１Ｄ平均プーリング層と接続された第２の追加層と、
を含む、請求項２０～２２のいずれか一項に記載の方法。
前記Ｓｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュールが、
(ａ) （Ｂ）に記載の前記残差サブモジュールの第１の１Ｄ平均プーリング層と接続された第２のグローバル平均プーリング層と、
(ｂ)（ａ）に記載の第２のグローバル平均プーリング層と接続された再形成層であって、
前記再形成層の出力特徴マップの大きさが１×ｆであり、
ｆが１Ｄ畳み込みカーネルの数である再形成層と、
(ｃ)（ｂ）に記載の再形成層と接続された第１の完全接続層であって、
前記第１の完全接続層の出力ニューロンの数がｆ／ｒ_ＳＥであり、
ｆが１Ｄ畳み込みカーネルの数であり、ｒ_ＳＥが前記Ｓｑｕｅｅｚ－Ｅｘｃｉｔｅモジュールの減少速度である第１の完全接続層と、
(ｄ)（ｃ）に記載の第１の完全接続層と接続された第２の完全接続層であって、
前記第２の完全接続層の出力ニューロンの数がｆであり、
ｆが１Ｄ畳み込みカーネルの数である第２の完全接続層と、
(ｅ)(ｄ)に記載の第２の完全接続層および（Ｂ）に記載の前記残差サブモジュールの第１の１Ｄ平均プーリング層と接続された乗算層と、
を含む、請求項２３に記載の方法。
前記ＳｐａｔｉａｌＳｑｕｅｅｚｅ－Ｅｘｃｉｔｅモジュールが、
ａ.活性化関数としてシグモイド関数を使用する（Ｂ）に記載の第１の１Ｄ平均プーリング層と接続された１×１の１Ｄ畳み込み層と、
b.（Ｂ）に記載の第１の１Ｄ平均プーリング層およびａに記載の１×１の１Ｄ畳み込み層と接続された乗算層と、
を含む、請求項２３または２４に記載の方法。
前記工程（４）において、前記複合特徴ベクトルが前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせることにより得られる、請求項１～２５のいずれか一項に記載の方法。
前記工程（４）において、前記複合特徴ベクトルｘが以下の式によって正規化され、

式中、ｘ^’ _iは正規化された複合特徴ベクトルｘのｉ番目の配列固有値であり、
ｘ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値であり、
μ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値の平均であり、
σ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値の標準偏差である、
請求項１～２６のいずれか一項に記載の方法。
前記工程（４）において、前記分類検出モデルがアンサンブル学習モデルである、請求項１～２７のいずれか一項に記載の方法。
前記アンサンブル学習モデルが、スタッキングまたは多数決に基づくアンサンブル学習モデルであり、
好ましくは、前記アンサンブル学習モデルが、サポートベクターマシンモデル、単純ベイズ分類器、ランダムフォレスト分類器、ＸＧＢｏｏｓｔおよびロジスティック回帰のうちの１つ以上である、請求項２８に記載の方法。
前記染色体異常が、トリソミー２１症候群、トリソミー１８症候群、トリソミー１３症候群、５ｐ症候群、染色体微小欠失および染色体微小重複のうちの少なくとも１つ以上を含む、請求項１に記載の方法。
以下の工程を含む、胎児染色体異常を検出する分類検出モデルを構築する方法：
（１）複数の妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得する工程であって、
前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦各々の胎児染色体状態が既知であり、前記妊婦各々の前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成する工程；
（２）前記妊婦各々について、参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、
前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、
前記染色体配列の配列特徴行列を生成する工程；
（３）前記妊婦各々について、前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する工程；
（４）前記配列特徴ベクトルおよび前記妊婦各々の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、前記妊婦の複合特徴ベクトルおよび前記胎児染色体状態を用いて分類モデルを訓練して訓練済み分類検出モデルを取得する工程。
前記妊婦各々の前記胎児染色体状態が、正常な二倍体、染色体異数体、部分的モノソミー症候群、染色体微小欠失および染色体微小重複の１つ以上であり、
好ましくは、前記染色体異数体が、トリソミー２１症候群、トリソミー１８症候群およびトリソミー１３症候群の少なくとも１つ以上を含み、
好ましくは、前記部分的モノソミー症候群が５ｐ症候群を含む、
請求項３１に記載の方法。
前記妊婦の人数が１０人を超え、染色体異数性の胎児の数に対する正常な二倍体の胎児の数の比が１／２～２である、請求項３２または３３に記載の方法。
前記工程（３）において、前記訓練データセットが、以下のように表され、

式中、Ｎは訓練サンプルの数を表し、Ｎは１以上の整数であり、
Ｚ^（ｋ） _ｉ，ｊは訓練サンプルｋの正規化された配列特徴行列であり、ｋ∈［１，Ｎ］であり、ｉは１以上の整数であり、ｊは１以上の整数であり、
前記染色体異常が、２１トリソミー症候群、１８トリソミー症候群、１３トリソミー症候群、５ｐ症候群、染色体微小欠失および染色体微小重複のうちの少なくとも１つ以上を含む、請求項３１～３３のいずれか一項に記載の方法。
以下のモジュールを含む、胎児染色体異常を検出するシステム：
検出対象の妊婦サンプルから無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、
前記シーケンシングデータが複数のリードセグメントを含み、前記検出対象の妊婦サンプルの前記臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュール；
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュール；
訓練済み機械学習モデルに前記配列特徴行列を入力して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュール；
前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、前記複合特徴ベクトルを分類検出モデルに入力することにより前記検出対象の妊婦の前記胎児染色体異常状態を取得する分類検出モジュール。
前記シーケンシングデータのリードを参照ゲノムにアラインメントさせて一意のマッピングリードを取得するアラインメントモジュールをさらに含む、請求項３５に記載のシステム。
前記データ取得モジュールにおいて、前記無細胞核酸断片が、前記妊婦の末梢血、肝臓、および／または胎盤に由来する、請求項３５または３６に記載のシステム。
前記データ取得モジュールにおいて、前記無細胞核酸断片が無細胞ＤＮＡである、請求項３５～３７のいずれか一項に記載のシステム。
前記データ取得モジュールにおいて、前記シーケンシングデータが超低深度シーケンシングに由来し、
好ましくは、前記超低深度シーケンシングのシーケンシング深度が１×、０．１×、または０．０１×である、請求項３５～３８のいずれか一項に記載のシステム。
前記データ取得モジュールにおいて、前記リードセグメントを前記参照ゲノムにアラインメントさせて一意のマッピングリードを取得し（好ましくは、ＧＣ含量補正を行い）、
好ましくは、後続の工程が前記一意のマッピングリードを用いて実行される（好ましくは、前記リードセグメントはＧＣ含量により補正される）、
請求項３５～３９のいずれか一項に記載のシステム。
前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データが、年齢、妊娠週、身長、体重、ＢＭＩ、出生前検査の生化学的検査結果、超音波診断結果、および血漿中の無細胞胎児ＤＮＡ濃度のうちの１つまたは２つ以上の組合せから選択される、請求項３５～４０のいずれか一項に記載のシステム。
前記データ取得モジュールにおいて、前記妊婦の前記臨床表現型特徴データが、異常値処理、欠損値処理、および／またはヌル値処理される、請求項３５～４０のいずれか一項に記載のシステム。
前記データ取得モジュールにおいて、以下の記録：
ａ．ｘ_ａｇｅ＜１０またはｘ_ａｇｅ＞８０；
ｂ．ｘ_ＧＷ＜５またはｘ_ＧＷ＞５０；
ｃ．ｘ_{ｈｅｉｇｈｔ}＜４０またはｘ_{ｈｅｉｇｈｔ}＞３００；
ｄ．ｘ_{ｗｅｉｇｈｔ}＜１０またはｘ_{ｗｅｉｇｈｔ}＞２００；
が表示されると、前記妊婦サンプルの表現型データが異常値として判定され、
これらの異常値がヌル値として設定される、請求項３５～４２のいずれか一項に記載のシステム。
前記欠損値および前記ヌル値がミスフォレストアルゴリズムによってパディングされる、請求項４２または４３に記載のシステム。
前記配列特徴行列生成モジュールにおいて、前記染色体が、第２１染色体、第１８染色体、第１３染色体および／または性染色体である、請求項３５～４４のいずれか一項に記載のシステム。
前記配列特徴行列生成モジュールにおいて、
（２．１）長さｂのウィンドウを使用して、前記参照ゲノムの長さＬの染色体配列をステップサイズｔで重複およびスライドさせてスライディングウィンドウを取得する工程であって、
ｂは正の整数であり、ｂ＝［１００００，１０００００００］であり、ｔは任意の正の整数であり、Ｌは正の整数であり、Ｌ≧ｂである工程と、
（２．２）前記スライディングウィンドウ各々の内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する工程と、
を行う請求項３５～４５のいずれか一項に記載のシステム
前記配列特徴行列生成モジュールにおいて、前記配列特徴行列が、前記スライディングウィンドウ内のリードセグメントの数、塩基品質、およびマッピング品質を含む、請求項３５～４６のいずれか一項に記載のシステム。
前記塩基品質が、前記塩基品質の平均、標準偏差、歪度、および／または尖度を含む、請求項４７にシステムの装置。
前記マッピング品質が、前記マッピング品質の平均、標準偏差、歪度、および／または尖度を含む、請求項４７に記載のシステム。
前記配列特徴行列生成モジュールにおいて、前記配列特徴行列が以下の式で表され、

式中、ｈはスライディングウィンドウの数を表し、
ｗは単一のスライディングウィンドウ内の配列特徴の数を表し、
ｘ_ｉｊはｉ番目のスライディングウィンドウ内のｊ番目の配列固有値を表す、
請求項３５～４９のいずれか一項に記載のシステム。
前記配列特徴ベクトル抽出モジュールにおいて、前記配列特徴行列が正規化される、請求項３５～５０のいずれか一項に記載のシステム。
前記配列特徴ベクトル抽出モジュールにおいて、前記配列特徴行列が、式（Ｉ）を使用して正規化され、

式中、Ｚ^（ｋ） _ｉ，ｊはサンプルｋの正規化された配列特徴行列であり、
Ｘ^（ｋ） _ｉ，ｊはサンプルｋのｉ番目のスライディングウィンドウにおけるｊ番目の配列固有値を表し、
μ_ｉ，ｊおよびσ_ｉ，ｊは全てのサンプルのｉ番目のスライディングウィンドウにおけるｊ番目の配列固有値の平均および標準偏差をそれぞれ表す、
請求項３５～５１のいずれか一項に記載のシステム。
前記配列特徴ベクトル抽出モジュールにおいて、前記訓練済み機械学習モデルがニューラルネットワークモデルまたはオートエンコーダモデルであり、
好ましくは、前記ニューラルネットワークモデルが、ディープニューラルネットワークモデルであり、
より好ましくは、前記ニューラルネットワークモデルが１Ｄ畳み込みに基づくディープニューラルネットワークモデルである、
請求項３５～５２のいずれか一項に記載のシステム。
前記分類検出モジュールにおいて、前記複合特徴ベクトルが前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせることにより得られる、請求項３５～５３のいずれか一項に記載のシステム。
前記分類検出モジュールにおいて、前記複合特徴ベクトルｘが以下の式によって正規化され、

式中、ｘ^’ _ｉは正規化された複合特徴ベクトルｘのｉ番目の配列固有値であり、
ｘ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値であり、
μ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値の平均であり、
σ_ｉは前記複合特徴ベクトルｘのｉ番目の配列固有値の標準偏差である、
請求項３５～５４のいずれか一項に記載のシステム。
前記分類検出モジュールにおいて、前記分類検出モデルがアンサンブル学習モデルである、請求項３５～５５のいずれか一項に記載のシステム。
前記アンサンブル学習モデルが、スタッキングまたは多数決に基づくアンサンブル学習モデルであり、
好ましくは、前記アンサンブル学習モデルが、サポートベクターマシンモデル、単純ベイズ分類器、ランダムフォレスト分類器、ＸＧＢｏｏｓｔおよびロジスティック回帰のうちの１つ以上である、請求項５６に記載のシステム。
以下のモジュールを含む、胎児染色体異常を検出する分類検出モデルを構築するシステム：
妊婦から無細胞核酸断片のシーケンシングデータおよび臨床表現型特徴データを取得するデータ取得モジュールであって、
前記シーケンシングデータが複数のリードセグメントを含み、前記妊婦の胎児染色体状態が既知であり、前記妊婦の臨床表現型特徴データが前記妊婦の表現型特徴ベクトルを形成するデータ取得モジュール；
参照ゲノムの染色体配列の少なくとも一部にウィンドウ分割を行って複数のスライディングウィンドウを取得し、前記スライディングウィンドウ内に含まれる前記リードセグメントをカウントし、前記染色体配列の配列特徴行列を生成する配列特徴行列生成モジュール；
前記配列特徴行列および前記胎児染色体状態を用いて訓練データセットを構築し、機械学習モデルを訓練して前記染色体配列の配列特徴ベクトルを抽出する配列特徴ベクトル抽出モジュール；
前記配列特徴ベクトルおよび前記妊婦の前記表現型特徴ベクトルを組み合わせて複合特徴ベクトルを形成し、複数の妊婦の前記複合特徴ベクトルおよび前記胎児染色体状態を用いて分類モデルを訓練して訓練済み分類検出モデルを取得する分類検出モジュール。
前記シーケンシングデータのリードセグメントを参照ゲノムにアラインメントさせて一意のマッピングリードを取得するアラインメントモジュールをさらに含む、請求項５８に記載のシステム。