JP2022502786A

JP2022502786A - 胚における染色体異常を識別するためのシステムおよび方法

Info

Publication number: JP2022502786A
Application number: JP2021518537A
Authority: JP
Inventors: ジョンバーク，; マイケルジェイ．ラージ，; ジョシュアブラゼク，
Original assignee: クーパーゲノミクス，インコーポレイテッド
Priority date: 2018-10-05
Filing date: 2019-10-07
Publication date: 2022-01-11
Also published as: WO2020073058A1; CN113228191A; AU2019356033A1; SG11202103375SA; KR20210068554A; CA3115273A1; US20200111573A1; CA3115273C; EP3861551A1

Abstract

胚における染色体異常を識別するための方法が開示される。胚から得たサンプルゲノム配列情報が受容され、このサンプルゲノム配列情報は複数のゲノム配列リードから構成される。このサンプルゲノム配列情報は参照ゲノムに対して整列される。このサンプルゲノム配列情報はベースラインゲノム配列情報に対して正規化されてサンプルゲノム配列情報を遺伝子座効果に関して補正し正規化されたサンプルゲノム配列情報データセットを生成する。エラー要因の回帰分析に由来する１種またはこれより多くの補正因子が、上記正規化したサンプルゲノム配列情報データセットに適用されて技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する。このノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動が、上記参照ゲノム上の染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に識別される。

Description

分野
本明細書で開示される実施形態は、一般に、子宮へ移植するための胚候補を識別するためのシステムおよび方法に関する。より具体的には、将来の母に移植するための人工受精した胚候補における染色体異常を識別するための自律的なシステムおよび方法が必要である。

背景
人工授精は、将来の母への胚移植へと続いていくことが意図される。胚が与えられる場合、健康な子が成功裡に産まれることを妨げ得る欠陥をチェックすることは重要であり、複数の胚が与えられる場合、ＩＶＦの各サイクルにつき最適な胚を選択して、移植の成功確率を増大させなければならない。

過去には、胚の形態の顕微鏡検査または染色体のバンド形成パターンの顕微鏡検査が、最適とはいえない胚を識別するために臨床専門家によって使用された。これらの方法は、解像度が最適ではなく、それが技師に依拠することに起因して、一貫性がなかった。従来の核型分析は、５メガベース（ｍｂ）より大きな特徴を検出することに制限され、ＦＩＳＨアッセイは、ほんの１ｍｂ未満に制限され、ともに、特定のゲノム遺伝子座に関してデザインされなければならないプローブセットによって制限される。顕微鏡法によって胚候補を検査するために専門家を使用することは、事務的なおよび検査のエラー率、ならびに他の不確実性を胚スクリーニングプロセスに持ち込む。

次世代シーケンシング（ＮＧＳ）の利用可能性は、従来の核型分析方法より遙かに少ない特注作業しか要しない全ゲノム適用範囲を提供する。さらに、アッセイ費用は、より深いシーケンシングがより高い解像度を可能にする、所望の解像度のためにも最適化され得るシーケンシング深度を介して制御され得る。

しかし、ＮＧＳ核型分析は、シグナル対ノイズに関して問題がある。具体的には、サンプル取り扱い、増幅バイアス、グアニン−シトシン（ＧＣ）含量および異なるゲノム遺伝子座間での技術的差異のような交絡因子に起因して；同一コピー数の類似サイズの領域は通常、非常に異なるシーケンスカウントを有する。これらの交絡因子によって引き起こされる差異はしばしば、コピー数の真の変化によって引き起こされる際より振れ幅が大きい。従って、ＮＧＳデータの正確な解釈には、コピー数シグナルを、交絡因子に由来するノイズから効果的に分離し得る方法が必要である。

さらに、ノイズ除去したコピー数シグナルが与えられる場合、細胞遺伝学的状態（異数性またはセグメントの重複／欠失といわれる）またはカリオグラムへの解釈はまた、いくつかの難題を課し得る。第１の問題は、研究室が進めなければならないサンプルの多さである。別の問題は、実際には正常である（正常＝体細胞領域がコピー数２、性染色体は少なくとも１コピー数がＸ染色体に属した上で２を意味する）ゲノム領域におけるコピー数変動特徴であると思われる人工物の割合である（ノイズ除去したデータにおいてすら）。また、あらゆるコピー数変化が、臨床的重要性において等しいわけではなく、重篤な結果を伴う染色体異常性は、より大きく重要視されるべきである。最後に、以前のおよび現在の方法は、不確実性、主観、疲労、不十分なトレーニング、および不正確さの他の原因に由来するエラーを持ち込むプロットのヒトによる検査に過度に依拠する。

よって、胚候補における染色体異常を正確に／強固に識別して、移植された場合に成功裡の妊娠を生じるという最高の成績を有する胚の選択を可能にし得る方法またはシステムが必要である。

要旨
１つの局面において、胚における染色体異常を識別するための方法が開示される。胚から得たサンプルゲノム配列情報が受容され、ここで上記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される。上記サンプルゲノム配列情報は、参照ゲノムに対して整列される。上記サンプルゲノム配列情報は、ベースラインゲノム配列情報に対して正規化されて、上記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する。エラー要因の回帰分析に由来する１種またはこれより多くの補正因子は、上記正規化したサンプルゲノム配列情報データセットに適用されて、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する。上記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動が、上記参照ゲノム上の染色体位置に整列されるゲノム配列リードの頻度が頻度閾値から外れる場合に識別される。

別の局面において、胚における染色体異常を識別するためのシステムが開示される。上記システムは、データ格納ユニット、コンピューティングデバイスおよびディスプレイから構成され、これらは全て、互いに通信可能に接続されている。

上記データ格納ユニットは、胚から得たサンプルゲノム配列情報を格納するように構成される。上記コンピューティングデバイスは、データノイズ除去エンジンおよび解釈エンジンを提供する。上記データノイズ除去エンジンは、サンプルゲノム配列情報を上記データストレージから受容し、上記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化して、上記サンプルゲノム配列情報を遺伝子座効果に関して補正し、エラー要因の回帰分析に由来する１種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成するように構成される。上記解釈エンジンは、上記ノイズ除去したサンプルゲノム配列情報データセットにおける染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、上記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別するように構成される。

上記ディスプレイは、上記識別したコピー数変動を含む報告書を表示するように構成される。

なお別の局面において、胚における性別異数性を識別するための方法が開示される。胚から得たサンプルゲノム配列情報が受容され、ここで上記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される。上記サンプルゲノム配列情報は、参照ゲノムに対して整列される。上記サンプルゲノム配列情報は、ベースラインゲノム配列情報に対して正規化されて、上記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する、エラー要因の回帰分析に由来する１種またはこれより多くの補正因子は、上記正規化したサンプルゲノム配列情報データセットに適用されて、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する。訓練済みニューラルネットワークは、上記ノイズ除去したサンプルゲノム配列情報データセットを分析し、上記胚の性別異数性状態を分類する。

本明細書で開示される原理およびその利点のより完全な理解のために、ここで添付の図面と合わせて以下の詳細な説明が言及される。

図１Ａ〜１Ｅは、種々の実施形態に従う、正常なおよび異常な染色体状態を有する胚を示すＢＬＵＥＦＵＳＥ（登録商標）視覚化グラフである。図１Ａ〜１Ｅは、種々の実施形態に従う、正常なおよび異常な染色体状態を有する胚を示すＢＬＵＥＦＵＳＥ（登録商標）視覚化グラフである。図１Ａ〜１Ｅは、種々の実施形態に従う、正常なおよび異常な染色体状態を有する胚を示すＢＬＵＥＦＵＳＥ（登録商標）視覚化グラフである。図１Ａ〜１Ｅは、種々の実施形態に従う、正常なおよび異常な染色体状態を有する胚を示すＢＬＵＥＦＵＳＥ（登録商標）視覚化グラフである。図１Ａ〜１Ｅは、種々の実施形態に従う、正常なおよび異常な染色体状態を有する胚を示すＢＬＵＥＦＵＳＥ（登録商標）視覚化グラフである。

図２は、種々の実施形態に従う、染色体異常を識別するための方法を示す例示的フローチャートである。

図３は、種々の実施形態に従う、リードカウントを遺伝子座効果に関してどのように正規化するかを図示する。

図４は、種々の実施形態に従う、目的のサンプルとベースラインサンプルとの間の類似性の評価を図示するプロットである。

図５は、種々の実施形態に従う、ベースラインセットにおける多数のベースラインサンプルからベースラインベクトルをどのようにして構築するかの図解である。

図６Ａは、種々の実施形態に従う、胚データのビン効果正規化を図示するプロットである。

図６Ｂは、種々の実施形態に従う、リアルタイムサンプル効果補正を図示するプロットである。

図７は、種々の実施形態に従う、ＬＯＷＥＳＳ技術がＧＣ含量のためにどのようにして使用されるかの図解である。

図８Ａ〜８Ｂは、種々の実施形態に従う、ビンスコアに対するＧＣ技術効果を示すプロットである。図８Ａ〜８Ｂは、種々の実施形態に従う、ビンスコアに対するＧＣ技術効果を示すプロットである。

図９は、種々の実施形態に従う、胚における染色体異常を識別するためのシステムの模式図である。

図１０は、種々の実施形態に従う、コンピューターシステムを図示するブロック図である。

図１１は、種々の実施形態に従う、胚における性別異数性を識別するための方法を示す例示的フローチャートである。

図１２は、種々の実施形態に従う、隠れマルコフモデル（ＨＭＭ）有限状態機械トポロジーの図解である。

図１３Ａ〜１３Ｂは、種々の実施形態に従う、第１５染色体における欠失を示すノイズ除去および正規化したプロットである。図１３Ａ〜１３Ｂは、種々の実施形態に従う、第１５染色体における欠失を示すノイズ除去および正規化したプロットである。

図１４は、種々の実施形態に従う、複雑な胚性別異数性を決定するために染色体クラスターを使用する方法を示すプロットである。

図１５は、種々の実施形態に従う、胚における複雑な性別異数性の推測のための正規化およびノイズ除去したビンデータニューラルネットワークの図解である。

図１６は、種々の実施形態に従う、フィードフォワードネットワーク構造の図解である。

図１７は、種々の実施形態に従う、ＩＬＬＵＭＩＮＡ（登録商標））が提供する従来の主観的呼び出し方法（ＢＬＵＥＦＵＳＥ（登録商標）ソフトウェアに対して、本明細書で開示される改善されたシステムおよび方法（ＰＧＴａｉ）を比較する場合に、種々の倍数性分類における正味の変化を示すグラフである。

図面は、必ずしもスケールどおりに描かれておらず、図面における対象物は、互いに対する関係性においても必ずしもスケールどおりに描かれていないことが理解されるべきである。図面は、本明細書で開示される装置、システム、および方法の種々の実施形態を明確にし、理解することが意図される図解である。同じまたは類似の部分に言及するために、可能な限り、同じ参照番号が図面全体を通じて使用される。さらに、図面が、本教示の範囲を限定することは如何様にも意図されないことは認識されるべきである。

詳細な説明
本明細書は、人工受精した移植用胚候補における染色体異常を識別するためのシステムおよび方法の種々の例示的実施形態を記載する。しかし、本開示は、これらの例示的実施形態および適用にも、例示的実施形態および適用が機能するかまたは本明細書で記載される様式にも限定されない。さらに、図面は、単純化した図または部分図を示してもよく、図面の中の要素の寸法は、誇張されていてもよいし、そうでなければ比例していなくてもよい。さらに、用語「上に（ｏｎ）」、「に取り付けられる（ａｔｔａｃｈｅｄｔｏ）」、「に接続される（ｃｏｎｎｅｃｔｅｄｔｏ）」、「に連結される（ｃｏｕｐｌｅｄｔｏ）」、または類似の文言が本明細書で使用される場合、１つの要素（例えば、材料、層、基材など）は、もう１つの要素「上に」あり得るか、もう１つの要素「に取り付けられ得る」か、「に接続され得る」か、または「に連結され得る」。それは、上記１つの要素が、他方の要素上に直接存在するか、その要素に取り付けられるか、接続されるか、もしくは連結されるか、または上記１つの要素と他方の要素との間に１もしくはこれより多くの介在する要素が存在するかにかかわらない。さらに、要素の列挙（例えば、要素ａ、ｂ、ｃ）に対して言及される場合、このような言及は、それ自体、列挙された要素の全てより少ない任意の組み合わせ、および／または列挙された要素の全ての組み合わせによって、上記列挙された要素のうちのいずれか１つを含むことが意図される。本明細書中の章立ては、検討を容易にするに過ぎず、考察される要素のいかなる組み合わせをも限定しない。

別段定義されなければ、本明細書で記載される本教示とともに使用される科学用語および技術用語は、当業者によって一般に理解される意味を有するものとする。さらに、文脈によって別段要求されなければ、単数形の用語は、複数形を含むものとし、複数形の用語は、単数形を含むものとする。一般に、本明細書で記載される細胞および組織培養、分子生物学、ならびにタンパク質およびオリゴヌクレオチドまたはポリヌクレオチド化学およびハイブリダイゼーションに関して、およびこれらの技術において利用される命名法は、当該分野で周知かつ一般に使用されるものである。例えば、核酸精製および調製、化学分析、組換え核酸、ならびにオリゴヌクレオチド合成に関して、標準的技術が使用される。酵素反応および精製技術は、製造業者の仕様書に従って、または当該分野で一般に達成されるかもしくは本明細書で記載されるように、行われる。本明細書で記載される技術および手順は、概して、当該分野で周知の、ならびに本明細書全体を通じて引用および考察される種々の一般的なおよびより具体的な参考文献に記載されるとおりの従来の方法に従って行われる。例えば、Ｓａｍｂｒｏｏｋら，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（第３版，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．２０００）を参照のこと。関連して利用される命名法、ならびに本明細書で記載される実験手順および技術は、当該分野で周知であり、一般的に使用されるものである。

ＤＮＡ（デオキシリボ核酸）は、４タイプのヌクレオチド；Ａ（アデニン）、Ｔ（チミン）、Ｃ（シトシン）、およびＧ（グアニン）からなるヌクレオチドの鎖であり、ＲＮＡ（リボ核酸）は、４タイプのヌクレオチド；Ａ、Ｕ（ウラシル）、Ｇ、およびＣから構成される。ヌクレオチドのある特定のペアは、相補的な様式（相補的塩基対形成といわれる）で互いに特異的に結合する。すなわち、アデニン（Ａ）はチミン（Ｔ）と対形成し（しかし、ＲＮＡの場合には、アデニン（Ａ）は、ウラシル（Ｕ）と対形成する）、シトシン（Ｃ）は、グアニン（Ｇ）と対形成する。第１の核酸鎖が、この第１の核酸鎖の中のヌクレオチドに相補的であるヌクレオチドから構成される第２の核酸鎖に結合する場合、その２つの鎖は、２本鎖を形成するように結合する。ヒト参照ゲノムは、これらの鎖のうちの一方の代表である（これは、本明細書で使用される場合、鎖１といわれる）。本明細書で使用される場合、鎖１の逆相補体は、鎖２といわれる。本明細書で使用される場合、「核酸シーケンシングデータ（ｎｕｃｌｅｉｃａｃｉｄｓｅｑｕｅｎｃｉｎｇｄａｔａ）」、「核酸シーケンシング情報（ｎｕｃｌｅｉｃａｃｉｄｓｅｑｕｅｎｃｉｎｇｉｎｆｏｒｍａｔｉｏｎ）」、「核酸配列（ｎｕｃｌｅｉｃａｃｉｄｓｅｑｕｅｎｃｅ）」、「ゲノム配列（ｇｅｎｏｍｉｃｓｅｑｕｅｎｃｅ）」、「遺伝子配列（ｇｅｎｅｔｉｃｓｅｑｕｅｎｃｅ）」、もしくは「フラグメント配列（ｆｒａｇｍｅｎｔｓｅｑｕｅｎｃｅ）」、または「核酸シーケンシングリード（ｎｕｃｌｅｉｃａｃｉｄｓｅｑｕｅｎｃｉｎｇｒｅａｄ）」は、ＤＮＡまたはＲＮＡの分子（例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、フラグメントなど）の中のヌクレオチド塩基（例えば、アデニン、グアニン、シトシン、およびチミン／ウラシル）の順序を示す任意の情報またはデータを示す。本教示が、全ての入手可能な種々の技術、プラットフォームまたは科学技術（キャピラリー電気泳動、マイクロアレイ、ライゲーションベースのシステム、ポリメラーゼベースのシステム、ハイブリダイゼーションベースのシステム、直接的もしくは間接的なヌクレオチド識別システム、パイロシーケンシング、イオンもしくはｐＨがベースの検出システム、電子署名ベースのシステムなどが挙げられるが、これらに限定されない）を使用して得られる配列情報を企図することは、理解されるべきである。

「ポリヌクレオチド（ｐｏｌｙｎｕｃｌｅｏｔｉｄｅ）」、「核酸（ｎｕｃｌｅｉｃａｃｉｄ）」、または「オリゴヌクレオチド（ｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅ）」とは、ヌクレオシド間連結によって結合したヌクレオシド（デオキシリボヌクレオシド、リボヌクレオシド、またはこれらのアナログを含む）の直線状ポリマーに言及する。代表的には、ポリヌクレオチドは、少なくとも３個のヌクレオシドを含む。通常、オリゴヌクレオチドは、数個のモノマー単位（例えば、３〜４）から数百のモノマー単位のサイズの範囲に及ぶ。ポリヌクレオチド（例えば、オリゴヌクレオチド）が、文字配列（例えば、「ＡＴＧＣＣＴＧ」）によって表される場合は常に、別段注記されなければ、ヌクレオチドは、左から右に５’→３’の順序で存在し、「Ａ」はデオキシアデノシンを示し、「Ｃ」はデオキシシチジンを示し、「Ｇ」はデオキシグアノシンを示し、「Ｔ」はチミジンを示すことが理解される。文字Ａ、Ｃ、Ｇ、およびＴは、当該分野で標準であるように、塩基自体に、ヌクレオシドに、または塩基を含むヌクレオチドに言及するために使用され得る。

語句「次世代シーケンシング（ｎｅｘｔｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ）」（ＮＧＳ）とは、例えば、一度に数十万もの比較的小さな配列リードを生成する能力を有する、古典的なサンガー法ベースのおよびキャピラリー電気泳動ベースのアプローチと比較した場合、増大したスループットを有するシーケンシング技術に言及する。次世代シーケンシング技術のいくつかの例としては、合成ごとのシーケンシング（ｓｅｑｕｅｎｃｉｎｇｂｙｓｙｎｔｈｅｓｉｓ）、ライゲーションごとのシーケンシング（ｓｅｑｕｅｎｃｉｎｇｂｙｌｉｇａｔｉｏｎ）、およびハイブリダイゼーションごとのシーケンシング（ｓｅｑｕｅｎｃｉｎｇｂｙｈｙｂｒｉｄｉｚａｔｉｏｎ）が挙げられるが、これらに限定されない。より具体的には、ＩｌｌｕｍｉｎａおよびＰｅｒｓｏｎａｌＧｅｎｏｍｅＭａｃｈｉｎｅ（ＰＧＭ）のＭＩＳＥＱ、ＨＩＳＥＱおよびＮＥＸＴＳＥＱＳｙｓｔｅｍｓ、ならびにＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓＣｏｒｐのＳＯＬｉＤＳｅｑｕｅｎｃｉｎｇＳｙｓｔｅｍは、全ゲノムまたは標的化したゲノムの大規模並列シーケンシングを提供する。ＳＯＬｉＤＳｙｓｔｅｍおよび関連するワークフロー、プロトコール、化学物質などは、ＰＣＴ公報番号ＷＯ２００６／０８４１３２（発明の名称「Ｒｅａｇｅｎｔｓ，Ｍｅｔｈｏｄｓ，ａｎｄＬｉｂｒａｒｉｅｓｆｏｒＢｅａｄ−ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」、国際出願日２００６年２月１日）、米国特許出願第１２／８７３，１９０号（発明の名称「Ｌｏｗ−ＶｏｌｕｍｅＳｅｑｕｅｎｃｉｎｇＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｏｆＵｓｅ」、出願日２０１０年８月３１日）、および米国特許出願第１２／８７３，１３２号（発明の名称「Ｆａｓｔ−ＩｎｄｅｘｉｎｇＦｉｌｔｅｒＷｈｅｅｌａｎｄＭｅｔｈｏｄｏｆＵｓｅ」、出願日２０１０年８月３１日）により詳細に記載される（これら出願の各々の全体は、本明細書に参考として援用される）。

語句「シーケンシング実行（ｓｅｑｕｅｎｃｉｎｇｒｕｎ）」とは、少なくとも１個の生体分子（例えば、核酸分子）に関するある種の情報を決定するために行われるシーケンシング実験の任意の工程または一部に言及する。

本明細書で使用される場合、語句「ゲノム特徴（ｇｅｎｏｍｉｃｆｅａｔｕｒｅ）」とは、変異、組換え／交差もしくは遺伝的浮動に起因して、特定の種にまたは特定の種内の部分集団に対して参照されるとおりの変化を受けた単一の遺伝子または遺伝子群（ＤＮＡまたはＲＮＡにおいて）を示す、ある種の註釈付き機能（例えば、遺伝子、タンパク質コード配列、ｍＲＮＡ、ｔＲＮＡ、ｒＲＮＡ、反復配列、逆方向反復、ｍｉＲＮＡ、ｓｉＲＮＡなど）を有するゲノム領域または遺伝子／ゲノム改変体（例えば、一ヌクレオチド多型／改変体、挿入／欠失配列、コピー数変動、反転など）に言及し得る。

ゲノム改変体は、種々の技術（アレイベースの方法（例えば、ＤＮＡマイクロアレイなど）、リアルタイム／デジタル／定量的ＰＣＲ機器の方法および全核酸または標的化核酸シーケンシングシステム（例えば、ＮＧＳｓｙｓｔｅｍｓ、ＣａｐｉｌｌａｒｙＥｌｅｃｔｒｏｐｈｏｒｅｓｉｓｓｙｓｔｅｍｓなど）が挙げられるが、これらに限定されない）を使用して識別され得る。核酸シーケンシングを用いると、適用範囲データは、単一塩基解像度において利用可能であり得る。

語句「フラグメントライブラリー（ｆｒａｇｍｅｎｔｌｉｂｒａｒｙ）」とは、核酸配列の集まりに言及し、ここで１またはこれより多くのフラグメントは、シーケンシングテンプレートとして使用される。フラグメントライブラリーは、例えば、より大きな核酸をより小さな核酸に切断または剪断することによって生成され得る。フラグメントライブラリーは、天然に存在する核酸（例えば、哺乳動物または細菌の核酸）から生成され得る。類似のサイズの合成核酸配列を含むライブラリーはまた、合成フラグメントライブラリーを作り出すために生成され得る。

語句「染色体異常（ｃｈｒｏｍｏｓｏｍａｌａｂｎｏｒｍａｌｉｔｙ）」または「染色体異常（ｃｈｒｏｍｏｓｏｍａｌａｂｎｏｒｍａｌｉｔｉｅｓ）」とは、構造上の（例えば、欠失、重複、転座、反転、挿入など）および数字上（すなわち、異数性）の染色体障害の両方を示す。

語句「モザイク胚（ｍｏｓａｉｃｅｍｂｒｙｏ）」とは、２またはこれより多くの細胞遺伝学的に別個に細胞系統を含む胚を示す。例えば、モザイク胚は、異なるタイプの異数性または正倍数性の混合を有する細胞系統、および妊娠中に胚の生存能力に有害であり得る遺伝子改変体を有するＤＮＡを含む遺伝的に異常な細胞を含み得る。

種々の実施形態において、配列整列法は、フラグメント配列を、参照配列または別のフラグメント配列に整列させ得る。上記フラグメント配列は、フラグメントライブラリー、ペアードエンドライブラリー（ｐａｉｒｅｄ−ｅｎｄｌｉｂｒａｒｙ）、メイトペアライブラリー（ｍａｔｅ−ｐａｉｒｌｉｂｒａｒｙ）、鎖状フラグメントライブラリー（ｃｏｎｃａｔｅｎａｔｅｄｆｒａｇｍｅｎｔｌｉｂｒａｒｙ）、または核酸配列情報（例えば、ＲＮＡ、ＤＮＡ、およびタンパク質ベースの配列情報を含む）によって反映され得るかもしくは表され得る別のタイプのライブラリーから得られ得る。一般に、フラグメント配列の長さは、参照配列の長さより実質的に短い可能性がある。上記フラグメント配列および上記参照配列は、各々、一連の記号を含み得る。フラグメント配列および参照配列のアラインメントは、上記フラグメント配列の記号と上記参照配列の記号との間の制限された数のミスマッチを含み得る。一般に、上記フラグメント配列は、上記フラグメント配列と上記参照配列との間のミスマッチの数を最小化するために、上記参照配列の一部に対して整列され得る。

特定の実施形態において、上記フラグメント配列および上記参照配列の記号は、生体分子の組成を表し得る。例えば、上記記号は、核酸（例えば、ＲＮＡまたはＤＮＡ）におけるヌクレオチドの正体、またはタンパク質におけるアミノ酸の正体に相当し得る。いくつかの実施形態において、上記記号は、生体分子のこれらの下位構成要素に対して直接的な相関関係を有し得る。例えば、各記号は、ポリヌクレオチドの１個の塩基を表し得る。他の実施形態において、各記号は、上記生体分子の２またはこれより多くの隣接する下位構成要素（たとえば、ポリヌクレオチドの２個の隣接する塩基）を表し得る。さらに、上記記号は、隣接する下位構成要素の重なり合うセットまたは隣接する下位構成要素の別個のセットを表し得る。例えば、各記号がポリヌクレオチドの２個の隣接する塩基を表す場合、重複するセットを表す２個の隣接する記号は、ポリヌクレオチド配列の３個の塩基に相当し得るのに対して、別個のセットを表す２個の隣接する記号は、４個の塩基の配列を表し得る。さらに、上記記号は、下位構成要素（例えば、ヌクレオチド）に直接相当し得るか、またはそれらは、上記下位構成要素のカラー呼び出しまたは他の間接的尺度に相当し得る。例えば、上記記号は、特定のヌクレオチドフローに関する組み込みまたは非組み込みに相当し得る。

種々の実施形態において、コンピュータープログラム製品が、フラグメント配列の連続する部分を選択する命令；上記参照配列に対して上記連続する部分の少なくとも１つのマッチを生じるおよそのストリングマッチング方法を使用して、上記フラグメント配列の連続する部分を参照配列にマッピングする命令を含み得る。

種々の実施形態において、核酸配列分析のためのシステムは、データ分析ユニットを含み得る。上記データ分析ユニットは、フラグメント配列をシーケンシング機器から得る、参照配列を得る、上記フラグメント配列の連続する部分を選択する、および上記参照配列に対して上記連続する部分の少なくとも１つのマッチを生じるおよそのストリングマッチング方法を使用して、上記フラグメント配列の連続する部分を上記参照配列にマッピングするように構成され得る。

本明細書で使用される場合、「実質的に（ｓｕｂｓｔａｎｔｉａｌｌｙ）とは、意図した目的に向かって作業するために十分であることを意味する。用語「実質的に」とは、従って、絶対的状態または完全な状態、寸法、測定値、結果などからの小さな、重大でない変動（例えば、当業者によって予測されるが、全体的な性能に明らかに影響を及ぼさないもの）を許容する。数値またはパラメーターまたは数値として表され得る特性に関して使用される場合、「実質的に」とは、１０％以内を意味する。

用語「１つ（ｏｎｅｓ）」とは、１より大きいを意味する。

本明細書で使用される場合、用語「複数（ｐｌｕｒａｌｉｔｙ）」は、２、３、４、５、６、７、８、９、１０、または１０超であり得る。

本明細書で使用される場合、用語「細胞（ｃｅｌｌ）」とは、用語「生物学的細胞（ｂｉｏｌｏｇｉｃａｌｃｅｌｌ）」と交換可能に使用される。生物学的細胞の非限定的な例としては、真核生物細胞、植物細胞、動物細胞（例えば、哺乳動物細胞、爬虫類細胞、鳥類細胞、魚類細胞など）、原核生物細胞、細菌細胞、真菌細胞、原生動物細胞など、組織（例えば、筋、軟骨、脂肪、皮膚、肝臓、肺、神経組織など）から解離した細胞、免疫学的細胞（例えば、Ｔ細胞、Ｂ細胞、ナチュラルキラー細胞、マクロファージなど）、胚（例えば、接合子）、卵母細胞、卵子、精細胞、ハイブリドーマ、培養した細胞、細胞株に由来する細胞、がん細胞、感染した細胞、トランスフェクトしたおよび／または形質転換した細胞、レポーター細胞などが挙げられる。哺乳動物細胞は、例えば、ヒト、マウス、ラット、ウマ、ヤギ、ヒツジ、ウシ、霊長類などに由来し得る。
ＮＧＳデータを処理して、染色体異常を識別するための従来の方法

ＮＧＳデータを使用する多くの臨床パイプラインは、類似の初期ワークフローをたどる。第１に、シーケンシング機器を使用して生成される生の配列は、多重分離（ｄｅｍｕｌｔｉｐｌｅｘ）される；多くのサンプルが同時にシーケンシングされる場合、異なる被験体に由来する配列は、配列が被験体に割り当てられた後に除去される初期バーコードでタグ化される。アダプターまたは他の人工的特徴は、その生成した配列から除去される。配列はしばしば、上記生成した配列の塩基を、既知のゲノム参照配列に整列させるかまたはマッチさせるコンピュータープログラムによってゲノム遺伝子座に割り当てられ、ＰＣＲ重複および低品質配列はしばしば、アラインメントプロセスの間にまたは直後に除去される。処理され、遺伝子座にマッチさせた配列はしばしば、呼び出された整列済み配列または整列済みリードである。目的の各サンプルから生成した配列の数はしばしば、「シーケンシング深度（ｓｅｑｕｅｎｃｉｎｇｄｅｐｔｈ）」といわれる。

コピー数変動（ＣＮＶ）呼び出しに対する従来のアプローチの商業的実行は、ｋ個の近位ビンに対してスライディングウインドウ内のメジアンを採用することによってデータを平滑化するＩｌｌｕｍｉｎａ（ＢＬＵＥＦＵＳＥ（登録商標））によって提供される。

ＣＮＶは、１またはこれより多くの遺伝子の異常なコピー数を生じるゲノム変化であり、疾患に寄与し得る。ＢＬＵＥＦＵＳＥ（登録商標）ソフトウェアは、ユーザーが遺伝的異常性を可視化、分析および解釈することを可能にするグラフを生成する。

正常な染色体数を有する胚は、正倍数体胚である。図１Ａに示されるように、正倍数体胚は、グラフのｘ軸上に示される各染色体番号（１〜２２）の２つのコピー（グラフのｙ軸上）を有するとして、ＢＬＵＥＦＵＳＥ（登録商標）グラフ上に可視化される。性別に関して、女性胚は、２コピーのＸ染色体を有し、Ｙ染色体のコピーを有しない（図１Ａに示されるとおり）。そして男性胚は、１コピーのＸ染色体および１コピーのＹ染色体を有する。

異常な染色体数を有する胚は、他方で、異数性胚である。コピーを獲得した染色体（通常の２コピーの代わりに３コピー）はトリソミーといわれ、コピーを失った染色体（通常の２コピーの代わりに１コピー）はモノソミーといわれる。図１Ｂは、モノソミーを有する男性異数性胚を示す。第１〜１４染色体、第１６〜２２染色体に関しては２コピーが可視化され、第１５染色体（モノソミー）に関しては１コピーのみが可視化される。また、胚が男性であることを示す１コピーのＸ染色体およびＹ染色体が存在する。

染色体の一部のみが、異常にコピーされるかまたは欠失される場合、それは、それぞれ、重複または欠失といわれる。図１Ｃは、第５染色体上の欠失を有する男性胚を示す。第１〜４、第６〜２２染色体に関して２コピーが可視化され、染色体５の一部が欠失される。また、上記胚が男性であることを示す１コピーのＸ染色体およびＹ染色体が存在する。

特定の染色体に関して正常および異常な細胞を有する胚は、モザイク胚といわれる。視覚的には、この胚は、正常（２コピー）と異常（それがトリソミーまたはモノソミーであるかに依存して、１コピーまたは３コピーのいずれか）と間にある染色体コピー数を有する。図１Ｄは、モザイク第１６染色体を有する男性胚を示す。第１〜１５、第１７〜２２に関しては２コピーが可視化され、第１６染色体はモザイクである（コピー数２．５を伴う）。上記胚が男性であることを示す１コピーのＸ染色体およびＹ染色体が存在する。

ＢＬＵＥＦＵＳＥ（登録商標）ソフトウェアが採用したアプローチには重大な制限が存在する。胚生検の質に妥協が必要な場合、ＤＮＡは劣化しているか、またはライブラリー調製自体に伴う問題がある場合、データを解釈することがより困難になる。なぜならデータのノイズ（バックグラウンド）レベルが増大するからである。ノイズレベルが高くなるほど、正常からのどの変化が、ＤＮＡの品質自体に伴う問題に対して実際の遺伝的異常性であり得るかを解読することは難題になる。これらの欠点の結果は、セグメント呼び出しもしくはモザイク呼び出し、または複雑な性別異数性呼び出しが、正規化したビンスコアのプロットの検査によって、技師によって行われなければならないことである。ヒトが画像を解釈することと関連する主観および不確実性は、胚を染色体異常に関して分析するにあたって不必要な変動をもたらし得る。図１Ｅは、高いノイズレベルを伴う男性胚を示し、これは、技師が、胚において真の遺伝的異常性が存在するか否かを解釈することを困難にする。

ＮＧＳデータを処理して染色体異常を識別するための自動化機器解釈法
セグメントの重複／欠失、モザイク特徴、ならびに複雑な性別異数性を含む染色体異常の自動化検出のためのシステムおよび方法が、開示される。概念としては、これらのシステムおよび方法は、２つの主なパイプラインを有する：１）ノイズ除去／正規化（生の配列リードをノイズ除去する）、および２）解釈（ノイズ除去／正規化したシグナルを、カリオグラムおよび臨床上の異数性呼び出しへとデコードする）。

図２は、種々の実施形態に従う、胚における染色体異常の自動化識別のための方法２００を示す例示的フローチャートである。工程２０２において、胚から得たサンプルゲノム配列情報が受容される。上記サンプルゲノム情報は、ＮＧＳ、ＰＣＲ等を含む種々のゲノムシーケンス技術を使用して生成した複数のゲノム配列リードから構成される。工程２０４において、上記サンプルゲノム配列情報は、参照ゲノムに対して整列される。種々の実施形態において、上記参照ゲノムは、ヒト参照ゲノムである。

工程２０６において、上記サンプルゲノム配列情報は、ベースラインゲノム配列情報に対して正規化されて、上記サンプルゲノム配列情報を遺伝子座効果に関して補正する。遺伝子座効果は、コピー数に変化がない場合でも配列適用範囲の変化と関連するゲノム位置の局面である。遺伝子座効果の例は、１）塩基位置の５０個、１００個、１５０個など塩基の範囲内のＧＣ含量、２）ゲノム位置の周りのＤＮＡが二次構造を形成する潜在的能力、３）他のゲノム位置に対する類似性などであり得るが、これらに限定されない。

種々の実施形態において、上記サンプルゲノム配列情報を遺伝子座効果に関して正規化する工程は、ビンサイズを最初に設定することを包含する。種々の実施形態において、上記ビンサイズは、１メガベース（ｍｂ）に設定される。しかし、上記ビンサイズが、ヒトゲノムの長さを超えない限りにおいて、任意のサイズ（１００ｋｂ、５００ｋｂ、または１００万〜２０００万の間の任意の他の値を含む）に設定され得ることは理解されるべきである。次に、上記サンプルゲノム配列情報およびベースラインゲノム配列情報は、上記ビンサイズに基づいて、複数のビンへとセグメント化される。次いで、複数のサンプルゲノム配列情報ビンの各々に対して整列されるサンプルゲノム配列情報からのゲノム配列リードの数は、複数のサンプルゲノム配列情報ビンの各々に関してサンプルビンスコアを生成するために決定される。

次に、上記複数のベースラインゲノム配列情報ビンの各々に対して整列される上記ベースラインゲノム配列情報からのゲノム配列リードの数は、複数のベースラインゲノム配列情報ビンの各々に関してベースラインビンスコアを生成するために決定される。次いで、上記サンプルビンスコアは、ベースラインビンスコアに対して正規化されて、正規化したサンプルゲノム配列データセットを生成する。

種々の実施形態において、上記ベースラインビンスコアを、正倍数性胚から得た複数のベースラインゲノム配列情報データセットを最初に受容することによって決定した。次いで、上記複数のベースラインゲノム配列情報データセットの各々に関するビンスコアを、決定した。次に、上記サンプルゲノム配列情報に対する類似性閾値を超えるビンスコアを有するベースラインゲノム配列情報データセットのサブセットを、複数のベースラインゲノム配列情報データセットから選択した。最後に、上記ベースラインビンスコアを、ベースラインゲノム情報データセットの選択したサブセットにおいてビンスコアのメジアン値を決定することによって生成した。

工程２０８において、エラー要因の回帰分析に由来する１種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成した。

工程２１０において、ＣＮＶを、参照ゲノム上の染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、上記ノイズ除去したサンプルゲノム配列情報データセットから識別する。

方法２００の種々の局面は、図３〜８Ｂに示される。図３に示されるように、各鎖（上記で記載されるとおりのヒトゲノムの鎖１および鎖２）および各ビンに関して、ｎｘは、同じ鎖上の目的のサンプルに関する二倍体染色体に対して整列されるリード３０２の総数によって調整したビンカウントとして定義される。

図４に示されるように、遺伝子座（ビン）効果に関する第１の補正は、目的のサンプルからのビンカウントを、正倍数性サンプルのベースラインセットに対して正規化することによって行われ得る。上記ビンサイズは、最初に、１メガベースに設定され得る３０４。しかし、そのビンサイズが本質的に任意のサイズ（１００ｋｂ、５００ｋｂ、または１００万〜２０００万の間の任意の他の値を含む）に設定され得ることは、認識されるべきである。次に、図５に示されるように、上記サンプルゲノム配列情報は、複数のビンへとセグメント化され、次いで、最適性が目的のサンプルｎｘに最も類似のベースラインｎｘを有すると定義されるビン効果に対して正規化されるように、ベースラインサンプルの最適なサブセットが選択される（全体のベースラインセットを使用する代わりに）。次いで、類似性は、ベースラインサンプルに関するｎｘおよび目的のサンプルに関するｎｘの相関関係として定量される。種々の実施形態において、ランク相関関係がまた、類似性の尺度として使用され得るが、多くの代替手段が存在する（例えば、ＭＳＥ／残差平方和、ユークリッド距離またはマハラノビス距離）。

目的のサンプルとベースラインサンプルとの間の類似性を計算するために上記の方法が与えられる場合、目的のサンプルに対して最高の類似性を有するベースラインからのサンプルを、選択した。

類似性値のセットｓ＝｛ｓ１，ｓ２， …，ｓ（ベースラインサンプルの数）｝が与えられる場合、ベースラインサンプルと目的のサンプルとの間の類似性（ｓ＞ｔを有するベースラインサンプル）を選択した（ここでｔは、ｓのｇ番目のパーセンタイルである）。種々の実施形態において、パラメーターｇは、９０％に設定され得るが、１０％、３０％、５０％、８０％または１〜１００の間の任意の他の数にも設定され得る。遺伝子座カウントに対するビン限界効果を補正することに加えて、これは、１つのビンの適用範囲が別のビンの適用範囲を知らせる場合に、相関したスコアを有する遠位ビンを補正する。ベースラインサンプルの最適なサブセットを選択した後、上記目的のサンプルのビンスコアは、メジアンベースラインサブセット正規化ビンスコアによって正規化される。次いで、正規化は、除算によって行われ得、結果は、１．０を中心としたビンスコアのベクトルである。

遺伝子座効果を補正することに関するこれらの方法の１つの利益は、実行サンプルが蓄積されることおよび正倍数性サンプルが将来的な正規化を知らせ、従って、正規化したビンスコアのノイズを少なくし、時間を経てオーバーシステム（ｏｖｅｒｓｙｓｔｅｍ）をより正確にする。

遺伝子発現または調節のような、シーケンシングの時点での目的のサンプルの状態に特異的な生物学的プロセス（すなわち、リアルタイムサンプル効果）はまた、シーケンシングプロセスの間にゲノム利用可能性に潜在的に影響を及ぼし得るが、それらは補正され得る。これらのリアルタイム効果の１つの結果は、個々の鎖のシグナル減弱である。局所的に重み付けした散布図平滑化（ＬＯＷＥＳＳ）予測因子（ｅｓｔｉｍａｔｏｒ）は、ｒ＝（順方向鎖からのビンスコアの割合）によってビンシグナルの鎖特異的補正を導出するために使用され得る。次いで、鎖特異的ビンスコアは、この補正因子によって正規化（除算）され得る。図６Ａおよび６Ｂに示されるように、ＬＯＷＥＳＳは、ｒに最も近い値を有するデータ点（ｒ，ｂｉｎ＿ｓｃｏｒｅ）のサブセットを使用するに過ぎない、ｒを中心とした低次多項式フィットの予測によって、ｒの各値において補正因子６０２を計算する。

上記で注記されるように、「ｃ」および「ｇ」塩基の遺伝子座特異的濃度ならびに他の技術的効果（例えば、増幅バイアス、二次構造、ヌクレオソーム密度、ｍｉＲＮＡ停止、遺伝子発現など）は、ビンにおける配列カウントに影響を及ぼし得る；しかし、上記の遺伝子座効果補正は、これらの技術的効果に対する各サンプルの差次的な応答を説明しない。サンプル相互作用補正に関連する多くの技術的効果が存在する。図７に示されるように、ＧＣ含量効果は、ＬＯＷＥＳＳを使用しても補正され得る。ＬＯＷＥＳＳは、技術的効果の各レベルに関する補正を定義し、ビンスコアを上記因子によって正規化する（差し引きする）ために使用され得る。図８Ａおよび８Ｂに示されるように、ＬＯＷＥＳＳは、ｐに最も近いｇｃ値を有するデータ点（ｇｃ，ｂｉｎ＿ｓｃｏｒｅ）のサブセットを使用するに過ぎない、ｐを中心とした低次多項式フィットの予測によって、ｇｃパーセンテージの各値ｐにおける補正を計算する。

図９は、種々の実施形態に従う、胚における染色体異常を識別するためのシステムの模式図である。システム９００は、シーケンサー９０２、コンピューティングデバイス／分析サーバー９０４およびディスプレイ９１２を含む。

シーケンサー９０２は、コンピューティングデバイス／分析サーバー９０４に通信可能に接続されている。種々の実施形態において、コンピューティングデバイス９０４は、ゲノムシーケンサー９０２に、「配線で接続された（ｈａｒｄｗｉｒｅｄ）」物理的ネットワーク接続（例えば、インターネット、ＬＡＮ、ＷＡＮ、ＶＰＮなど）またはワイヤレスネットワーク接続（例えば、Ｗｉ−Ｆｉ、ＷＬＡＮなど）のいずれかであり得るネットワーク接続を介して通信可能に接続され得る。種々の実施形態において、コンピューティングデバイス９０４は、ワークステーション、メインフレームコンピューター、分散型コンピューティングノード（「クラウドコンピューティング（ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ）」または分散型ネットワーキングシステムの一部）、パーソナルコンピューター、モバイルデバイスなどであり得る。種々の実施形態において、ゲノムシーケンサー９０２は、核酸シーケンサー（例えば、ＮＧＳ、ＣａｐｉｌｌａｒｙＥｌｅｃｔｒｏｐｈｏｒｅｓｉｓシステムなど）、リアルタイム／デジタル／定量的ＰＣＲ機器、マイクロアレイスキャナーなどであり得る。しかし、ゲノムシーケンサー９０２が、本質的には、ゲノムフラグメントを含むサンプルから核酸配列データを生成し得る機器の任意のタイプであり得ることは、理解されるべきである。

ゲノムシーケンサー５０２の種々の実施形態が、ライゲーションベースの方法、合成ごとのシーケンシング、単一分子法（ｓｉｎｇｌｅｍｏｌｅｃｕｌｅｍｅｔｈｏｄｓ）、ナノポアシーケンシング、および他のシーケンシング技術を含む種々のシーケンシング法を実施するために使用され得ることは、当業者によって認識される。ライゲーションシーケンシングは、単一のライゲーション技術を含み得るか、またはライゲーション技術を変化させ得る。この場合、多数のライゲーションを、単一の一時核酸配列鎖に対して順に行う。合成ごとのシーケンシングは、色素標識ヌクレオチドの組み込み、連鎖停止、イオン／タンパク質シーケンシング、ピロリン酸シーケンシング（ｐｙｒｏｐｈｏｓｐｈａｔｅｓｅｑｕｅｎｃｉｎｇ）などを含み得る。単一分子技術は、連続シーケンシング（ここで核タイプの正体は、シーケンシング反応を一時停止または遅らせる必要性なしに、組み込みの間に決定される）、または千鳥状の配列（ｓｔａｇｇｅｒｅｄｓｅｑｕｅｎｃｅ）（ここでシーケンシング反応は、組み込まれたヌクレオチドの正体を決定するために一時停止される）を含み得る。

種々の実施形態において、ゲノムシーケンサー９０２は、核酸（例えば、ポリヌクレオチドまたはオリゴヌクレオチド）の配列を決定し得る。上記核酸は、ＤＮＡまたはＲＮＡを含み得、１本鎖（例えば、ｓｓＤＮＡおよびＲＮＡ）、または２本鎖（例えば、ｄｓＤＮＡまたはＲＮＡ／ｃＤＮＡペア）であり得る。種々の実施形態において、上記核酸は、フラグメントライブラリー、メイトペアライブラリー、クロマチン免疫沈降（ＣｈＩＰ）フラグメントなどを含み得るかまたはこれらに由来し得る。特定の実施形態において、ゲノムシーケンサー９０２は、単一の核酸分子から、または実質的に同一の核酸分子の群から、配列情報を得ることができる。

種々の実施形態において、ゲノムシーケンサー９０２は、種々の異なる出力データファイルタイプ／フォーマット（＊．ｆａｓｔａ、＊．ｃｓｆａｓｔａ、＊．ｘｓｑ、＊ｓｅｑ．ｔｘｔ、＊ｑｓｅｑ．ｔｘｔ、＊．ｆａｓｔｑ、＊．ｓｆｆ、＊ｐｒｂ．ｔｘｔ、＊．ｓｍｓ、＊．ｓｒｓおよび／または＊．ｑｖが挙げられるが、これらに限定されない）において、核酸シーケンシングリードデータ（ゲノム配列情報）を出力し得る。

種々の実施形態において、シーケンサー９０２は、サンプル実行の間にシーケンサー９０２によって生成されるサンプルゲノムシーケンシング情報を格納するように構成されたデータストレージをさらに含む。

コンピューティングデバイス／分析サーバー９０４は、データノイズ除去エンジン９０６、人工知能（ＡＩ）／機械学習（ＭＬ）式解釈エンジン９０８およびＡＩ／ＭＬ式性別異数性識別エンジン９１０を主催するように構成され得る。

データノイズ除去エンジン９０６は、サンプルゲノム配列情報を、シーケンサー９０２（またはシーケンサー９０２と関連したデータストレージ）から受容し、上記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化して、上記サンプルゲノム配列情報を遺伝子座効果に関して補正し、サンプリングエラー要因の回帰分析に由来する１種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成するように構成され得る。

ＡＩ／ＭＬ式解釈エンジン９０８は、ノイズ除去したサンプルゲノム配列情報データセットにおける染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、上記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別するように構成され得る。

ＡＩ／ＭＬ式性別異数性エンジン９１０は、訓練済みニューラルネットワークを利用して、上記ノイズ除去したサンプルゲノム配列情報データセットを分析し、胚の性別異数性状態を分類するように構成され得る。

染色体異常が識別された後、その結果は、コンピューティングデバイス９０４に通信可能に接続された、ディスプレイまたはクライアント端末９１２上に表示され得る。種々の実施形態において、クライアント端末９１２は、薄いクライアントコンピューティングデバイスであり得る。種々の実施形態において、クライアント端末９１２は、データノイズ除去エンジン９０６、人工知能（ＡＩ）／機械学習（ＭＬ）式解釈エンジン９０８および／またはＡＩ／ＭＬ式性別異数性識別エンジン９１０の作動を制御するために使用され得る、ウェブブラウザ（例えば、ＩＮＴＥＲＮＥＴＥＸＰＬＯＲＥＲ^ＴＭ、ＦＩＲＥＦＯＸ^ＴＭ、ＳＡＦＡＲＩ^ＴＭなど）を有するパーソナルコンピューティングデバイスであり得る。

解釈
ビンレベル正規化およびノイズ除去が完全である場合、ビンスコアは、１．０が中心になる（これは、コピオースウ状態２を表す）。次いで、機械学習および「人工知能（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）」方法は、遺伝子座スコアをカリオグラムおよび臨床的異数性呼び出しへと解釈（またはデコード）するために使用され得る。

図１２に示されるように、隠れマルコフモデル（ＨＭＭ）は、音声認識およびシグナル処理において一般的な機械学習技術のファミリーである。各染色体に関して、有限状態機械は、入力データ特性およびユーザーが所望する解像度によってパラメーター化される放出および移行確率とともに構築される。

各染色体位置、ｊにおいて、モデルは、多くの状態を有し、各状態は、コピー数変化の割合を表す。初期状態は全て、等しい確率で与えられ、次のゲノムビンへと進む場合の状態間の移行は、平均して、＞＝３メガベースの領域を作製する継続時間モデル化によって定義される（これは、メガベースビンサイズにおいて、非２．０コピー数状態において残っている確率が１／３であり、全ての他の移行が等しい確率を有するように構成可能なパラメーターである）。各状態によって放出されるスコアは、標準偏差がビンスコアから予測され、コピー数値ｋ＊ｒｅｓ（ここでｒｅｓは、定義された解像度（デフォルト０．０１）である）に関して平均値（ｋ＊ｒｅｓ）／２．０の正規分布をたどる（本発明の範囲においては、異なる分布が可能である）。本発明者らのＨＭＭによって与えられる、ビンをコピー数に割り当てるプロセスは、デコードといわれ、これは、１つの状態における構成員（ｍｅｍｂｅｒｓｈｉｐ）の確率を各観察に割り当てる標準的方法であるフォワード−バックワードアルゴリズムを使用して行われる。Ｖｉｔｅｒｂｉのような他のデコードアルゴリズムがまた、使用され得る。フォワード−バックワードアルゴリズムによる初期デコードは、各ビンが各状態に存在する確率を定義するので、各ビンをコピー数状態に割り当てる。

種々の実施形態において、本明細書で開示されるシステムおよび方法は、データの不均一性に適応し得る。上記で記載される「ＢｌｕｅＦｕｓｅ」方法において、等分散性（デフォルト０．３３）は、全ての遺伝子座にわたって全てのサンプルに対して想定される。本明細書で記載されるように、ＨＭＭは、デフォルトによって、目的のサンプルの動的に計算された分散によってパラメーター化され、これは、低分散を有するサンプル（しばしば、より高いシーケンシング深度またはＤＮＡ品質を有するサンプル）に関してより高い解像度を可能にし、より変動性のサンプル（しばしば、より低いシーケンシング深度またはＤＮＡ品質を有するサンプル）に関して偽陽性の非二倍体割り当ての数を制御する。

種々の実施形態において、本明細書で開示されるシステムおよび方法は、機械学習を使用して、データにおける不均質性および分散不均一性が説明され得るように、コピー数を遺伝子座に割り当てる。例えば、図１３Ａ〜１３Ｂに示されるように、正規化し、ノイズ除去したビンスコアは一定の中心を有するが、それらは、異なる拡がりまたは標準偏差を有する。特に、図１３Ａは、第１５染色体における欠失を示すカリオグラムグラフを示す。ノイズ除去し、正規化したビンスコア１３０６は、デコードしたコピー数のライン１３０２の周りにより密集して分布する。図１３Ｂは、ベースライン正規化した胚サンプルのサブセットの正規化したビンスコア１３０４が、正規化していないビンスコア１３０８の一定でない分散に対して示されるカリオグラムグラフを示す。ＨＭＭは、不均質様式で作動して、遺伝子座特異的変動性に適応し得る。

種々の他の非ＨＭＭ方法（例えば、循環性バイナリーセグメント化（ｃｉｒｃｕｌａｒｂｉｎａｒｙｓｅｇｍｅｎｔａｔｉｏｎ）、貪欲アルゴリズム、およびコピー数状態を割り当て、本開示の範囲内になお残るために使用され得る他のものが存在し得る。

種々の実施形態において、本明細書で開示されるシステムおよび方法は、胚における複雑な性別異数性の存在を正確に決定する能力を有する。上記で考察されるＢＬＵＥＦＵＳＥ（登録商標）方法は、例えば、４７：ＸＸＹ（性別異数性）、４７：ＸＸＸ（性別異数性）、６９：ＸＸＹ（三倍性）または６９：ＸＹＹ（三倍性）の自律的な複雑な性別異数性呼び出しを提供できない。

図１４は、種々の実施形態に従う、染色体クラスターを使用して、複雑な胚性別異数性を決定する方法を示すプロットである。この方法は、マハラノビス統計距離（Ｍａｈａｂａｌｏｎｉｓｓｔａｔｉｓｔｉｃａｌｄｉｓｔａｎｃｅ）に伴うｋ近傍法のような分類法とともに、機械学習方法（例えば、以下から構成されるベクトルに対するｋ近傍法：｛Ｘに対して整列された配列の割合、ビン正規化したＸ染色体スコア、Ｙに対して整列された配列の割合、ビン正規化したＹスコア｝）を使用して、性別異数性状態を割り当てる。

種々の実施形態において、本明細書で開示されるシステムおよび方法はまた、ニューラルネットワーク方法および他の「人工知能」方法を利用し得る。すなわち、ゲノムにわたるビンスコアは、異数性状態を推定するために、ニューラル学習多層パーセプトロン法で処理され得る。

種々の実施形態において、フィードフォワードネットワークに供給する、ゲノムにわたるビンスコアのうちの全てまたはいくつかの入力を特定するために使用される上記ニューラルネットワークトポロジー１５００は、図１５に示されるように、複雑な性別異数性結果／呼び出し１５０６とともに、それぞれ、４つのノード１５０２および２つのノード１５０４を含む２つの隠れ層から構成される。次いで、誤差逆伝播法は、胚性別異数性状態が既知である訓練データのセットに対するニューラルネットワーク重みを構築するために使用され得る。

図１６は、種々の実施形態に従う、フィードフォワードネットワーク構造の図解である。種々の実施形態において、ネットワークへの入力（入力層）は、上記の「ノイズ除去および正規化（ｄｅ−ｎｏｉｓｉｎｇａｎｄｎｏｒｍａｌｉｚａｔｉｏｎ）」の説明においてまたは類似のプロセスを通じて構築されるように、正規化したビンスコアのサブセットであり、デフォルトによって、染色体ＸおよびＹにおける全ての正規化したビンならびに全ての常染色体（ヒトゲノムの第１〜２２染色体）が使用される。種々の実施形態において、検査によって決定されるか、またはどのビンが性別決定にとってより重要であるかを決定するプロセスによって予測されるように、染色体または染色体ビンのサブセットも使用され得る。

ネットワークの隠れ層は、入力と出力との間にある。種々の実施形態において、胚における複雑な性別異数性を識別するためのニューラルネットワークは、２つの隠れ層を含み、ここで第１の隠れ層は４つのノードから構成され、第２の隠れ層は２つのノードから構成され、各層は、さらなるバイアスノードを有する。しかし、異なるノードを有する異なる数の隠れ層が、特定の適用の要件に依存して使用され得ることは、認識されるべきである。

最後の出力層は、可能な結果の各々に対して１つのノードを有する（この場合には、各性別状態に関して１つのノード）。

各非入力ノードの構造は、出力が入力の非線形的「活性化関数（ａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎ）」である標準的パーセプトロンであり得る。デフォルトによって、上記活性化関数は、正規化線形関数（ＲｅＬＵ）であり得るが、ＥＬＵ、シグモイド、ＡｒｃＴａｎｇｅｎｔ、Ｓｔｅｐ、ｓｏｆｔｍａｘおよび多くの他の活性化関数が、本開示の範囲において使用され得る。

ＲｅＬＵ活性化を用いると、出力ｆは、ノード入力ｘが与えられる場合、最大（０，ｘ）である。

しかし、多くの他のタイプのニューラルネットワークが本開示の範囲において適用され売ることは、理解されるべきである；例えば、畳み込みニューラルネットワーク（さらなるプーリング層および畳み込み層を有する）、再帰型ニューラルネットワーク（ここでノードは、前のノードへの接続を有する）など。

本明細書で開示されるシステムおよび方法の明確な利点のうちの１つは、以前に実行したサンプルおよび解釈が、上記システムおよび方法を、時間を経てより正確にするように訓練することを助け得る将来的なデコードを知らせるために蓄積され得ることである。本明細書で開示されるシステムおよび方法の種々の実施形態において、親サンプルにおける特徴および／または転座の知識はまた、小さな転座の検出を可能にする学習の中に組み込まれ得る。

図１１は、種々の実施形態に従う、胚における性別異数性を識別するための方法１１００を示す例示的フローチャートである。

工程１１０２において、胚から得たサンプルゲノム配列情報が受容される。上記サンプルゲノム情報は、種々のゲノムシーケンシング技術（ＮＧＳ、ＰＣＲなどが挙げられる）を使用して生成した複数のゲノム配列リードから構成される。工程１１０４において、上記サンプルゲノム配列情報は、参照ゲノムに対して整列される。種々の実施形態において、上記参照ゲノムは、ヒト参照ゲノムである。

工程１１０６において、上記サンプルゲノム配列情報は、ベースラインゲノム配列情報に対して正規化されて、上記サンプルゲノム配列情報を遺伝子座効果に関して補正する。

種々の実施形態において、上記サンプルゲノム配列情報を遺伝子座効果に関して正規化する工程は、最初にビンサイズを設定する工程を含む。種々の実施形態において、上記ビンサイズは、１メガベース（ｍｂ）に設定される。しかし、上記ビンサイズが、ヒトゲノムの長さを超えない限りにおいて、任意のサイズ（１００ｋｂ、５００ｋｂ、または１００万〜２０００万の間の任意の他の値を含む）に設定され得ることは理解されるべきである。次に、上記サンプルゲノム配列情報およびベースラインゲノム配列情報は、選択されたビンサイズに基づいて、複数のビンへとセグメント化される。次いで、上記複数のサンプルゲノム配列情報ビンの各々に対して整列されるサンプルゲノム配列情報からのゲノム配列リードの数は、複数のサンプルゲノム配列情報ビンの各々に関してサンプルビンスコアを生成するために決定される。

工程１１０８において、エラー要因の回帰分析に由来する１種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成した。

工程１１１０において、上記ノイズ除去したサンプル配列情報データセットは、胚の複雑な性別異数性状態を分類するために、訓練済みニューラルネットワークアルゴリズム／技術を使用して分析され得る。

コンピューター実行システム
種々の実施形態において、胚における染色体異常を識別するための方法は、コンピューターソフトウェアまたはハードウェアを介して実行され得る。すなわち、図９に示されるように、上記方法は、データノイズ除去エンジン９０６、人工知能（ＡＩ）／機械学習（ＭＬ）式解釈エンジン９０８およびＡＩ／ＭＬ式性別異数性識別エンジン９１０を含むコンピューティングデバイス／システム９０４上で実行され得る。種々の実施形態において、コンピューティングデバイス／システム９０４は、直接的な接続を介してまたはインターネット接続を経て、ＮＧＳシーケンサー９０２およびディスプレイデバイス９１２に通信可能に接続され得る。

図９に示される種々のエンジンが、特定の適用またはシステムアーキテクチャの要件に依存して、単一のエンジン、構成要素またはモジュールへと組み合わされ得るかまたは折りたたまれ得ることは、認識されるべきである。さらに、種々の実施形態において、データノイズ除去エンジン９０６、人工知能（ＡＩ）／機械学習（ＭＬ）式解釈エンジン９０８およびＡＩ／ＭＬ式性別異数性識別エンジン９１０は、特定の適用またはシステムアーキテクチャによって必要とされる場合、さらなるエンジンまたは構成要素を含み得る。

図１０は、本教示の実施形態が実行され得るコンピューターシステム１０００を図示するブロック図である。本教示の種々の実施形態において、コンピューターシステム１０００は、バス１００２または情報を通信するための他の通信機構、および情報を処理するためにバス１００２と連結されたプロセッサ１００４を含み得る。種々の実施形態において、コンピューターシステム１０００はまた、プロセッサ１００４によって実行されるべき命令を決定するために、バス１００２に連結された、ランダムアクセスメモリ（ＲＡＭ）１００６であり得るメモリまたは他の動的格納デバイスを含み得る。メモリはまた、プロセッサ１００４によって実行される命令を遂行する間に、一時的変数または他の中間情報を格納するために使用され得る。種々の実施形態において、コンピューターシステム１０００は、プロセッサ１００４のための静的情報および命令を格納するために、バス１００２に連結された、リードオンリーメモリ（ＲＯＭ）１００８または他の静的格納デバイスをさらに含み得る。格納デバイス１０１０（例えば、磁気ディスクまたは光学ディスク）が提供され得、情報および命令を格納するためにバス１００２に連結され得る。

種々の実施形態において、コンピューターシステム１０００は、コンピューターユーザーに情報を示すために、バス１００２を介して、ディスプレイ１０１２（例えば、陰極線管（ＣＲＴ）または液晶ディスプレイ（ＬＣＤ））へと連結され得る。入力デバイス１０１４（英数字キーおよび他のキーを含む）は、プロセッサ１００４への情報およびコマンド選択を通信するために、バス１００２へと連結され得る。別のタイプのユーザー入力デバイスは、プロセッサ１００４へと方向情報およびコマンド選択を通信し、ディスプレイ１０１２上のカーソルの動きを制御するためのカーソルコントロール１０１６（例えば、マウス、トラックボールまたはカーソル方向キー）である。この入力デバイス１０１４は、代表的には、上記デバイスが平面における位置を特定することを可能にする２軸（第１の軸（すなわち、ｘ）および第２の軸（すなわち、ｙ））において２つの自由度を有する。しかし、三次元（ｘ、ｙおよびｚ）のカーソルの動きを可能にする入力デバイス１０１４がまた、本明細書で企図されることは、理解されるべきである。

本教示のある特定の実行と一致して、メモリ１００６の中に含まれる１またはこれより多くの命令の１またはこれより多くのシーケンスを実行するプロセッサ１００４に応答して、コンピューターシステム１０００によって結果が提供され得る。このような命令は、メモリ１００６へと、別のコンピューター可読媒体またはコンピューター可読格納媒体（例えば、格納デバイス１０１０）から読み取られ得る。メモリ１００６の中に含まれる命令のシーケンスの遂行は、プロセッサ１００４に、本明細書に記載されるプロセスを行わせ得る。あるいは、配線で接続された回路は、本教示を実行するソフトウェア命令の代わりにまたはこれと組み合わせて、使用され得る。従って、本教示の実行は、ハードウェア回路およびソフトウェアの任意の特定の組み合わせに限定されない。

用語「コンピューター可読媒体（ｃｏｍｐｕｔｅｒ−ｒｅａｄａｂｌｅｍｅｄｉｕｍ）（例えば、データストレージ（ｄａｔａｓｔｏｒｅ）、データストレージ（ｄａｔａｓｔｏｒａｇｅ）など）または「コンピューター可読格納媒体（ｃｏｍｐｕｔｅｒ−ｒｅａｄａｂｌｅｓｔｏｒａｇｅｍｅｄｉｕｍ）」とは、本明細書で使用される場合、遂行のためにプロセッサ１００４へと命令を提供することに関与する任意の媒体に言及する。このような媒体は、多くの形態をとり得る（不揮発性媒体、揮発性媒体、および伝送媒体が挙げられるが、これらに限定されない）。不揮発性媒体の例としては、光学ディスク、ソリッドステートディスク、磁気ディスク（例えば、格納デバイス１０１０）が挙げられ得るが、これらに限定されない。揮発性媒体の例としては、動的メモリ（例えば、メモリ１００６）が挙げられ得るが、これらに限定されない。伝送媒体の例としては、同軸ケーブル、銅線、および光ファイバー（バス１００２を含むワイヤを含む）が挙げられ得るが、これらに限定されない。

コンピューター可読媒体の一般的な形態としては、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または任意の他の磁気媒体、ＣＤ−ＲＯＭ、任意の他の光学媒体、パンチカード、紙巻きテープ、穴のパターンを有する任意の他の物理的媒体、ＲＡＭ、ＰＲＯＭ、およびＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、またはコンピューターが読み取り得る任意の他の有形媒体が挙げられる。

コンピューター可読媒体に加えて、命令またはデータは、遂行のためにコンピューターシステム１０００のプロセッサ１００４に１またはこれより多くの命令のシーケンスを提供する、通信装置またはシステムの中に含まれる伝送媒体上のシグナルとして提供され得る。例えば、通信装置は、命令およびデータを示すシグナルを有する送受信装置を含み得る。上記命令およびデータは、１またはこれより多くのプロセッサに、本明細書の開示の中に概説される機能を実行させるように構成される。データ通信の伝送接続の代表例としては、電話モデム接続、ワイドエリアネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、赤外線データ通信、ＮＦＣ接続などが挙げられ得るが、これらに限定されない。

本明細書で記載される方法論のフローチャート、図表および付随する開示が、独立型デバイスとしての、または共有コンピューター処理資源（例えば、クラウドコンピューティングネットワーク）の分散型ネットワーク上のコンピューターシステム１０００を使用して実行され得ることは、認識されるべきである。

実験結果
本明細書で開示される改善されたシステムおよび方法を、倍数性分類の全体的な正確性における改善を定量するために、胚における染色体異常を識別する従来のアプローチに対して比較した。

図１７は、本明細書で開示される改善されたシステムおよび方法（ＰＧＴａｉ）を、従来の主観的呼び出し方法（ＩＬＬＵＭＩＮＡ（登録商標）が提供するＢＬＵＥＦＵＳＥ（登録商標）ソフトウェア）に対して比較する場合に、種々の倍数性分類における正味の変化を示すグラフである。６ヶ月の期間をかけて、およそ２０，０００個の胚を分析し、本明細書で記載されるシステムおよび方法（すなわち、ＰＧＴａｉ）で分類した。その分類率を、従来の主観的手段（すなわち、ＢＬＵＥＦＵＳＥ（登録商標））によって解釈された胚のコントロール集団と比較した。次いで、分類率を、従来の手段による分類率に対して本明細書で開示される新たなシステムおよび方法によって達成される全体的な分類率を注記して、相対的な比較によって評価した。例えば、本明細書で開示される新たなシステムおよび方法は、胚のうちの４６％が正倍数性として分類することを示した一方で、従来の方法論は、同じ供給源集団が従来の主観的解釈によって４１％正倍数性を生じたことを示す場合、これは、＋５％として示される。先に記載されるように、主観的解釈は、特に、軽減されないノイズの存在下では、不正確になりやすい。具体的には、ノイズの存在、または異常に低いシグナル−対−ノイズ比は、過大解釈を生じる。この状況では、過大解釈は、偽陽性カテゴリー分けによって表される。胚の遺伝学において、一例として、これは、モザイクとして解釈されている真の正倍数性としてとして表され得るか、または異数性として解釈されている真のモザイクを表され得る。図１７に示されるように、合計およそ４０，０００個の胚（本明細書で開示されるシステムおよび方法によって２０，０００個、従来の主題の方法によって２０，０００個）を分析した場合、異数性およびモザイク率における本質的な減少が観察された一方で、正倍数性分類率における本質的な増大が観察された。データ分析の方法が異なるのみで、その材料を同じ研究室において処理し、同じ臨床施設から得られたことを考慮すれば、これらの結果は、本明細書で記載される改善されたノイズ除去プロセスが、ノイズの過大解釈に起因する不正確な呼び出しを低減することを示した。

本明細書で記載される方法論は、適用に依存して、種々の手段によって実行され得る。例えば、これらの方法論は、ハードウェア、ファームウェア、ソフトウェア、またはこれらの任意の他の組み合わせにおいて実行され得る。ハードウェア実行に関しては、処理装置は、１またはこれより多くの特定用途向け集積回路（ＡＳＩＣｓ）、デジタルシグナルプロセッサ（ＤＳＰｓ）、デジタルシグナル処理デバイス（ＤＳＰＤｓ）、プログラマブルロジックデバイス（ＰＬＤｓ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡｓ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で記載される機能を行うように設計された他の電子ユニット、またはこれらの組み合わせで実行され得る。

種々の実施形態において、本教示の方法は、ファームウェアおよび／またはソフトウェアプログラムならびに従来のプログラミング言語（例えば、Ｃ、Ｃ＋＋、Ｐｙｔｈｏｎなど）で書かれたアプリケーションとして実行され得る。ファームウェアおよび／またはソフトウェアとして実行される場合、本明細書で記載される実施形態は、プログラムが、コンピューターに上記で記載される方法を行わせるために格納される一時的でないコンピューター可読媒体上で実行され得る。本明細書で記載される種々のエンジンが、コンピューターシステム（例えば、コンピューターシステム１０００）上で提供され得、それによって、プロセッサ１００４が、メモリ構成要素１００６／１００８／１０１０および入力デバイス１０１４によって提供されるユーザー入力のうちのいずれか１つ、またはこれらの組み合わせによって提供される命令に従って、これらのエンジンによって提供される分析および決定を遂行することは、理解されるべきである。

本教示は、種々の実施形態とともに記載されるが、本教示がこのような実施形態に限定されることは意図されない。それどころか、本教示は、当業者によって認識されるように、種々の変更、改変、および均等物を包含する。

種々の実施形態を記載するにあたって、本明細書は、工程の特定の順として、方法および／またはプロセスを示していることがある。しかし、上記方法またはプロセスが、本明細書で示される工程の特定の順序に依拠しない程度に、上記方法またはプロセスは、記載される工程の特定の順に限定されるべきでない。当業者が認識するように、工程の他の順も可能であり得る。従って、本明細書で示される工程の特定の順序は、請求項に対する限定として解釈されるべきではない。さらに、上記方法またはプロセスに関する請求項は、それらの工程を記載される順序で行うことに限定されるべきではなく、当業者は、その順が変動し得、かつ種々の実施形態の趣旨および範囲内になおあり得ることを容易に認識し得る。

種々の実施形態を記載するにあたって、本明細書は、工程の特定の順として、方法および／またはプロセスを示していることがある。しかし、上記方法またはプロセスが、本明細書で示される工程の特定の順序に依拠しない程度に、上記方法またはプロセスは、記載される工程の特定の順に限定されるべきでない。当業者が認識するように、工程の他の順も可能であり得る。従って、本明細書で示される工程の特定の順序は、請求項に対する限定として解釈されるべきではない。さらに、上記方法またはプロセスに関する請求項は、それらの工程を記載される順序で行うことに限定されるべきではなく、当業者は、その順が変動し得、かつ種々の実施形態の趣旨および範囲内になおあり得ることを容易に認識し得る。
本発明は、例えば、以下の項目を提供する。
(項目１)
胚における染色体異常を識別するための方法であって、前記方法は、
胚から得たサンプルゲノム配列情報を受容する工程であって、ここで前記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される、工程；
前記サンプルゲノム配列情報を参照ゲノムに対して整列させる工程；
前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化する工程であって、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する工程；
エラー要因の回帰分析に由来する１種またはこれより多くの補正因子を、前記正規化したサンプルゲノム配列情報データセットに適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する工程；および
前記参照ゲノム上の染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、前記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別する工程、
を包含する方法。
(項目２)
前記ノイズ除去したサンプルゲノム配列情報データセットからカリオグラムまたは分子カリオタイプを生成する工程、
をさらに包含する、項目１に記載の方法。
(項目３)
遺伝子座効果に関する前記サンプルゲノム配列情報を正規化する工程は、
ビンサイズを設定すること；
前記サンプルゲノム配列情報および前記ベースラインゲノム配列情報を、前記ビンサイズに基づいて複数のビンにセグメント化すること；
多くのゲノム配列リードを、前記複数のサンプルゲノム配列情報ビンの各々に対して整列される前記サンプルゲノム配列情報から決定して、前記複数のサンプルゲノム配列情報ビンの各々に関するサンプルビンスコアを生成すること；
多くのゲノム配列リードを、前記複数のベースラインゲノム配列情報ビンの各々に対して整列される前記ベースラインゲノム配列情報から決定して、前記複数のベースラインゲノム配列情報ビンの各々に関するベースラインビンスコアを生成すること；
前記サンプルビンスコアを前記ベースラインビンスコアに対して正規化すること；ならびに
正規化したサンプルゲノム配列情報データセットを生成すること、
をさらに包含する、項目１に記載の方法。
(項目４)
正倍数体胚から得た複数のベースラインゲノム配列情報データセットを受容する工程；
前記複数のベースラインゲノム配列情報データセットの各々に関するビンスコアを決定する工程；
ベースラインゲノム配列情報データセットのサブセットを、前記サンプルゲノム配列情報に対する類似性閾値を超えるビンスコアを用いて、前記複数のベースラインゲノム配列情報データセットから選択する工程；ならびに
ベースラインゲノム配列情報データセットの前記選択したサブセットにおいてビンスコアのメジアン値を決定することによって、前記ベースラインビンスコアを生成する工程、
をさらに包含する、項目３に記載の方法。
(項目５)
前記複数のベースラインゲノム配列情報データセットの各々に関する類似性値を計算する工程であって、ここで前記類似性値は、各ベースラインゲノム配列情報データセットが、前記サンプルゲノム配列情報にどの程度類似するかの尺度である、工程、
をさらに包含する、項目４に記載の方法。
(項目６)
前記類似性値は、ユークリッド距離分析を使用して決定される、項目４に記載の方法。
(項目７)
前記類似性値は、マハラノビス距離分析を使用して決定される、項目４に記載の方法。
(項目８)
前記類似性値は、前記ベースラインゲノム配列情報データセットと前記サンプルゲノム配列情報との間のパーセント類似性である、項目４に記載の方法。
(項目９)
サンプリング効果に関して前記サンプルゲノム配列情報を補正することは、
前記１種またはこれより多くの補正因子を、局所的に重み付けした散布図平滑化回帰分析を使用して計算すること、
をさらに包含する、項目１に記載の方法。
(項目１０)
前記エラー要因は、ＧＣ含量関連である、項目１に記載の方法。
(項目１１)
前記エラー要因は、増幅バイアス関連である、項目１に記載の方法。
(項目１２)
前記エラー要因は、二次構造関連である、項目１に記載の方法。
(項目１３)
前記エラー要因は、ヌクレオソーム密度関連である、項目１に記載の方法。
(項目１４)
前記エラー要因は、ｍｉＲＮＡ停止関連である、項目１に記載の方法。
(項目１５)
前記エラー要因は、遺伝子発現関連である、項目１に記載の方法。
(項目１６)
胚における染色体異常を識別するためのシステムであって、前記システムは、
胚から得たサンプルゲノム配列情報を格納するように構成されたデータ格納ユニット；
以下：
前記サンプルゲノム配列情報を前記データストレージから受容し、前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化して、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、エラー要因の回帰分析に由来する１種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成するように構成されたデータノイズ除去エンジン、および
前記ノイズ除去したサンプルゲノム配列情報データセットにおける染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、前記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別するように構成された解釈エンジン、
を含む、前記データ格納ユニットに通信可能に接続されたコンピューティングデバイス；ならびに
前記コンピューティングデバイスに通信可能に接続されかつ前記識別したコピー数変動を含む報告書を表示するように構成されたディスプレイ、
を含む、システム。
(項目１７)
前記エラー要因は、ＧＣ含量関連である、項目１６に記載のシステム。
(項目１８)
前記エラー要因は、増幅バイアス関電である、項目１６に記載のシステム。
(項目１９)
前記エラー要因は、二次構造関連である、項目１６に記載のシステム。
(項目２０)
前記エラー要因は、ヌクレオソーム密度関連である、項目１６に記載のシステム。
(項目２１)
前記エラー要因は、ｍｉＲＮＡ停止関連である、項目１６に記載のシステム。
(項目２２)
前記エラー要因は、遺伝子発現関連である、項目１６に記載のシステム。
(項目２３)
前記コンピューティングデバイスは、
前記ノイズ除去したサンプルゲノム配列情報データセットを分析して、前記胚の性別異数性状態を分類するために、訓練済みニューラルネットワークを利用するように構成された性別異数性識別エンジン、
をさらに含む、項目１６に記載のシステム。
(項目２４)
胚における性別異数性を識別するための方法であって、前記方法は、
胚から得たサンプルゲノム配列情報を受容する工程であって、ここで前記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される、工程；
前記サンプルゲノム配列情報を参照ゲノムに対して整列させる工程；
前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化する工程であって、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する工程；
エラー要因の回帰分析に由来する１種またはこれより多くの補正因子を、前記正規化したサンプルゲノム配列情報データセットに適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する工程；ならびに
訓練済みニューラルネットワークを利用して、前記ノイズ除去したサンプルゲノム配列情報データセットを分析し、前記胚の性別異数性状態を分類する工程、
を包含する方法。
(項目２５)
複数の胚から得たノイズ除去したサンプルゲノム情報サンプルゲノム情報データセットを、既知の性別異数性分類とともに受容する工程；および
ニューラルネットワークを、前記ノイズ除去したサンプルゲノム情報データセットで更新して、前記訓練済みニューラルネットワークを生成する工程、
をさらに包含する、項目２４に記載の方法。
(項目２６)
前記訓練済みニューラルネットワークは、
入力層；
４つのノードを含む第１の隠れ層；
２つのノードを含む第２の隠れ層；および
異なる性別異数性分類に対応する複数のノードを有する出力層、
から構成される、項目２４に記載の方法。
(項目２７)
前記ニューラルネットワークは、フィードフォワードニューラルネットワークアーキテクチャを有する、項目２５に記載の方法。
(項目２８)
バックプロパゲーション技術を適用して、前記ニューラルネットワークを訓練する工程をさらに包含する、項目２５に記載の方法。

Claims

胚における染色体異常を識別するための方法であって、前記方法は、
胚から得たサンプルゲノム配列情報を受容する工程であって、ここで前記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される、工程；
前記サンプルゲノム配列情報を参照ゲノムに対して整列させる工程；
前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化する工程であって、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する工程；
エラー要因の回帰分析に由来する１種またはこれより多くの補正因子を、前記正規化したサンプルゲノム配列情報データセットに適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する工程；および
前記参照ゲノム上の染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、前記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別する工程、
を包含する方法。
前記ノイズ除去したサンプルゲノム配列情報データセットからカリオグラムまたは分子カリオタイプを生成する工程、
をさらに包含する、請求項１に記載の方法。
遺伝子座効果に関する前記サンプルゲノム配列情報を正規化する工程は、
ビンサイズを設定すること；
前記サンプルゲノム配列情報および前記ベースラインゲノム配列情報を、前記ビンサイズに基づいて複数のビンにセグメント化すること；
多くのゲノム配列リードを、前記複数のサンプルゲノム配列情報ビンの各々に対して整列される前記サンプルゲノム配列情報から決定して、前記複数のサンプルゲノム配列情報ビンの各々に関するサンプルビンスコアを生成すること；
多くのゲノム配列リードを、前記複数のベースラインゲノム配列情報ビンの各々に対して整列される前記ベースラインゲノム配列情報から決定して、前記複数のベースラインゲノム配列情報ビンの各々に関するベースラインビンスコアを生成すること；
前記サンプルビンスコアを前記ベースラインビンスコアに対して正規化すること；ならびに
正規化したサンプルゲノム配列情報データセットを生成すること、
をさらに包含する、請求項１に記載の方法。
正倍数体胚から得た複数のベースラインゲノム配列情報データセットを受容する工程；
前記複数のベースラインゲノム配列情報データセットの各々に関するビンスコアを決定する工程；
ベースラインゲノム配列情報データセットのサブセットを、前記サンプルゲノム配列情報に対する類似性閾値を超えるビンスコアを用いて、前記複数のベースラインゲノム配列情報データセットから選択する工程；ならびに
ベースラインゲノム配列情報データセットの前記選択したサブセットにおいてビンスコアのメジアン値を決定することによって、前記ベースラインビンスコアを生成する工程、
をさらに包含する、請求項３に記載の方法。
前記複数のベースラインゲノム配列情報データセットの各々に関する類似性値を計算する工程であって、ここで前記類似性値は、各ベースラインゲノム配列情報データセットが、前記サンプルゲノム配列情報にどの程度類似するかの尺度である、工程、
をさらに包含する、請求項４に記載の方法。
前記類似性値は、ユークリッド距離分析を使用して決定される、請求項４に記載の方法。
前記類似性値は、マハラノビス距離分析を使用して決定される、請求項４に記載の方法。
前記類似性値は、前記ベースラインゲノム配列情報データセットと前記サンプルゲノム配列情報との間のパーセント類似性である、請求項４に記載の方法。
サンプリング効果に関して前記サンプルゲノム配列情報を補正することは、
前記１種またはこれより多くの補正因子を、局所的に重み付けした散布図平滑化回帰分析を使用して計算すること、
をさらに包含する、請求項１に記載の方法。
前記エラー要因は、ＧＣ含量関連である、請求項１に記載の方法。
前記エラー要因は、増幅バイアス関連である、請求項１に記載の方法。
前記エラー要因は、二次構造関連である、請求項１に記載の方法。
前記エラー要因は、ヌクレオソーム密度関連である、請求項１に記載の方法。
前記エラー要因は、ｍｉＲＮＡ停止関連である、請求項１に記載の方法。
前記エラー要因は、遺伝子発現関連である、請求項１に記載の方法。
胚における染色体異常を識別するためのシステムであって、前記システムは、
胚から得たサンプルゲノム配列情報を格納するように構成されたデータ格納ユニット；
以下：
前記サンプルゲノム配列情報を前記データストレージから受容し、前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化して、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、エラー要因の回帰分析に由来する１種またはこれより多くの補正因子を適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成するように構成されたデータノイズ除去エンジン、および
前記ノイズ除去したサンプルゲノム配列情報データセットにおける染色体位置に対して整列されたゲノム配列リードの頻度が頻度閾値から外れる場合に、前記ノイズ除去したサンプルゲノム配列情報データセットにおけるコピー数変動を識別するように構成された解釈エンジン、
を含む、前記データ格納ユニットに通信可能に接続されたコンピューティングデバイス；ならびに
前記コンピューティングデバイスに通信可能に接続されかつ前記識別したコピー数変動を含む報告書を表示するように構成されたディスプレイ、
を含む、システム。
前記エラー要因は、ＧＣ含量関連である、請求項１６に記載のシステム。
前記エラー要因は、増幅バイアス関電である、請求項１６に記載のシステム。
前記エラー要因は、二次構造関連である、請求項１６に記載のシステム。
前記エラー要因は、ヌクレオソーム密度関連である、請求項１６に記載のシステム。
前記エラー要因は、ｍｉＲＮＡ停止関連である、請求項１６に記載のシステム。
前記エラー要因は、遺伝子発現関連である、請求項１６に記載のシステム。
前記コンピューティングデバイスは、
前記ノイズ除去したサンプルゲノム配列情報データセットを分析して、前記胚の性別異数性状態を分類するために、訓練済みニューラルネットワークを利用するように構成された性別異数性識別エンジン、
をさらに含む、請求項１６に記載のシステム。
胚における性別異数性を識別するための方法であって、前記方法は、
胚から得たサンプルゲノム配列情報を受容する工程であって、ここで前記サンプルゲノム配列情報は、複数のゲノム配列リードから構成される、工程；
前記サンプルゲノム配列情報を参照ゲノムに対して整列させる工程；
前記サンプルゲノム配列情報をベースラインゲノム配列情報に対して正規化する工程であって、前記サンプルゲノム配列情報を遺伝子座効果に関して補正し、正規化したサンプルゲノム配列情報データセットを生成する工程；
エラー要因の回帰分析に由来する１種またはこれより多くの補正因子を、前記正規化したサンプルゲノム配列情報データセットに適用して、技術的効果を補正し、ノイズ除去したサンプルゲノム配列情報データセットを生成する工程；ならびに
訓練済みニューラルネットワークを利用して、前記ノイズ除去したサンプルゲノム配列情報データセットを分析し、前記胚の性別異数性状態を分類する工程、
を包含する方法。
複数の胚から得たノイズ除去したサンプルゲノム情報サンプルゲノム情報データセットを、既知の性別異数性分類とともに受容する工程；および
ニューラルネットワークを、前記ノイズ除去したサンプルゲノム情報データセットで更新して、前記訓練済みニューラルネットワークを生成する工程、
をさらに包含する、請求項２４に記載の方法。
前記訓練済みニューラルネットワークは、
入力層；
４つのノードを含む第１の隠れ層；
２つのノードを含む第２の隠れ層；および
異なる性別異数性分類に対応する複数のノードを有する出力層、
から構成される、請求項２４に記載の方法。
前記ニューラルネットワークは、フィードフォワードニューラルネットワークアーキテクチャを有する、請求項２５に記載の方法。
バックプロパゲーション技術を適用して、前記ニューラルネットワークを訓練する工程をさらに包含する、請求項２５に記載の方法。