JP2020532999A

JP2020532999A - 非侵襲性の移植前遺伝子診断のためのシステムおよび方法

Info

Publication number: JP2020532999A
Application number: JP2020514609A
Authority: JP
Inventors: サンティアゴムンネ−ブランコ，; ドゥルティアショックバイババリヤ，; アルンプラサドマノハラン，; ダガンウェルズ，
Original assignee: クーパーゲノミクス，インコーポレイテッド
Priority date: 2017-09-07
Filing date: 2018-09-07
Publication date: 2020-11-19
Also published as: EP3679156A1; SG11202003557YA; AU2018327337A1; CA3074689A1; WO2019051244A1; US20210062256A1; KR20200060410A

Abstract

胚候補中のゲノムの特徴を識別するためのシステムが開示される。システムはゲノミクス配列決定装置と演算装置とディスプレイとを備え、ゲノム配列決定装置は胚候補に由来する連結されたゲノム断片から配列情報を取得するように構成され、連結されたゲノム断片はゲノムリンカーセグメントと胚候補からのゲノム断片とを含む。演算装置はゲノム配列決定装置に通信可能に接続され、配列アラインメントエンジンとゲノムの特徴識別エンジンとを備える。配列アラインメントエンジンは連結されたゲノム断片のゲノムリンカーセグメント部分と関連する配列情報を差し引き、ゲノム断片配列を参照ゲノムにアラインさせるように構成され、ゲノムの特徴識別エンジンはアラインされたゲノム断片配列中のゲノムの特徴を識別するように構成される。ディスプレイは演算装置に通信可能に接続され、識別されたゲノムの特徴を含む報告を表示するように構成される。

Description

分野
本明細書に開示されている実施形態は、一般的には、人工授精手技での移植前における胚の非侵襲性遺伝子スクリーニングおよび／または診断のためのシステムおよび方法を対象とする。より具体的には、遺伝子異常／欠陥のリスクが最低であり、および子宮着床成功の確率が最高である、胚の選択において臨床医を補助することができる、非侵襲性移植前スクリーニングおよび／または診断システムおよび方法に対する要求が存在する。

背景
人工授精（ＩＶＦ）は、生殖補助技術であり、高齢出産年齢の女性、妊娠が困難なカップルにとって、および代理母出産を容易にするための手段として、ますます一般的になっている。受精の過程は、卵を抽出すること、精子試料を回収すること、次いで、研究室で卵と精子を手作業で組み合わせることを含む。次いで、出産まで胚を保有するために、ホストの子宮に胚が移植される。

ＩＶＦ手技は高価であり、患者に対して著しい心理的／肉体的負担を課し得るので、移植前における胚の遺伝子スクリーニングが、ＩＶＦ手技を受けている患者にとってますます一般的となっている。胚中の遺伝子異常を診断し、移入の生存率（すなわち、胚移植生存率）をスクリーニングする現行の方法は胚の生検を必要とし、胚の生検は胚の品質に影響を与えることがあり、ひどく高価で、時間がかかることがある特殊な研究室技術を必要とする。

このため、胚の生検に対する必要性を回避し、このため、移植される前の胚に対する安全性を実質的に増大させる、胚を遺伝学的にスクリーニングするための非侵襲性遺伝子スクリーニングおよび／または診断（ＮＩＰＧＳ）システムおよび方法に対する要求が存在する。

要旨
一態様において、人工授精（ＩＶＦ）移植のための胚候補中のコピー数変動を決定するための方法が開示されている。１つの胚候補が、複数の胚から単離される。この胚候補は、実質的にＤＮＡを含まない培地中でインキュベートされる。培地の一部が増幅容器に移され、前記培地の一部は、胚候補から流出または分泌されたゲノム断片を含む。複数のゲノムリンカーセグメントとリガーゼ酵素は、少なくとも１つのゲノムリンカーセグメントと単離された胚候補からの少なくとも１つのゲノム断片とを含む連結されたゲノム断片の形成を触媒する条件で、増幅容器に添加される。連結されたゲノム断片は、増幅容器中で増幅される。配列情報が、増幅された連結されたゲノム断片から取得される。配列情報は、参照ゲノムに対してアラインされる（マッピングされる）。参照ゲノム上の染色体上の位置にアラインされたゲノム断片配列読み取りデータ（ｒｅａｄ）の頻度が頻度閾値から逸脱するときに、胚候補中で、コピー数変動が識別される。

別の態様において、胚候補中のゲノムの特徴を識別するための方法が開示されている。１つの胚候補が、複数の胚候補から単離される。この胚候補は、実質的にＤＮＡを含まない培地中でインキュベートされる。培地の一部が増幅容器に移され、前記培地の一部は、胚候補から流出または分泌された１つ以上のゲノム断片を含む。複数のゲノムリンカーセグメントとリガーゼ酵素は、少なくとも１つのゲノムリンカーセグメントと単離された胚候補からの少なくとも１つのゲノム断片とを含む連結されたゲノム断片の形成を触媒する条件で、増幅容器に添加される。連結されたゲノム断片は、増幅容器中で増幅される。配列情報が、連結されたゲノム断片から取得される。配列情報は、参照ゲノムに対してアラインされる。ゲノムの特徴は、アラインされたゲノム断片配列上に識別される。

さらに別の態様において、胚候補中のゲノムの特徴を識別するためのシステムが開示されている。システムは、ゲノミクス配列決定装置と、演算装置と、ディスプレイとを備える。

ゲノム配列決定装置は、胚候補に由来する連結されたゲノム断片から配列情報を取得するように構成されている。連結されたゲノム断片はそれぞれ、少なくとも１つのゲノムリンカーセグメントと胚候補からの少なくとも１つのゲノム断片とを含む。

演算装置はゲノム配列決定装置に通信可能に接続されており、配列アラインメントエンジンとゲノムの特徴識別エンジンとを備える。配列アラインメントエンジンは、連結されたゲノム断片のゲノムリンカーセグメント部分と関連する配列情報を差し引き、ゲノム断片配列を参照ゲノムにアラインさせるように構成されている。ゲノムの特徴識別エンジンは、アラインされたゲノム断片配列中のゲノムの特徴を識別するように構成されている。ディスプレイは、演算装置に通信可能に接続されており、識別されたゲノムの特徴を含む報告を表示するように構成されている。

さらに別の態様において、組織試料中のゲノムの特徴を識別するための方法が開示されている。少なくとも１つのゲノムリンカーセグメント配列と組織試料からの少なくとも１つのゲノム断片配列とを含む連結されたゲノム断片配列読み取りデータが受領される。連結されたゲノム断片配列読み取りデータのゲノムリンカーセグメント配列部分が差し引かれる。連結されたゲノム断片配列読み取りデータは、参照ゲノムにアラインされる（マッピングされる）。ゲノムの特徴は、アラインされたゲノム断片配列上に識別される。

さらに別の態様において、組織試料中のゲノムの特徴を識別するための方法をコンピュータに実行させるためのプログラムがその中に保存されている非一時的なコンピュータ読み取り可能な媒体が提供される。少なくとも１つのゲノムリンカーセグメント配列と組織試料からの少なくとも１つのゲノム断片配列とを含む連結されたゲノム断片配列読み取りデータが受領される。連結されたゲノム断片配列読み取りデータのゲノムリンカーセグメント配列部分が差し引かれる。連結されたゲノム断片配列読み取りデータは、参照ゲノムにアラインされる（マッピングされる）。ゲノムの特徴は、アラインされたゲノム断片配列上に識別される。

本明細書に開示されている原理およびその利点のさらに完全な理解のために、ここで、添付の図面と合わせて以下の記述を参照する。

図１は、本開示のいくつかの実施形態にしたがう、胚の非侵襲性移植前遺伝子スクリーニングに対するワークフローを例示する。

図２は、本開示のいくつかの実施形態にしたがう、短いゲノム断片を増幅するための増幅プロトコールを図示する例示的なフローチャートである。

図３は、本開示のいくつかの実施形態にしたがう、連結された断片の形成を例示する。

図４は、様々な実施形態にしたがう、コンピュータシステムを例示するブロック図である。

図５は、様々な実施形態にしたがう、胚の非侵襲性移植前遺伝子スクリーニングのためのシステムの模式図である。

図６は、様々な実施形態にしたがい、連結された断片読み取りデータが参照ゲノムにマッピングされる方法の図示である。

図７は、様々な実施形態にしたがい、様々な種類のゲノムの特徴を識別するためにゲノム断片読み取りデータをアラインするための方法を示す例示的なフローチャートである。

図８は、様々な実施形態にしたがい、胚候補中のコピー数変動を決定するための方法を示すフローチャートである。

図９は、様々な実施形態にしたがい、胚候補中のゲノムの特徴を識別する方法を示すフローチャートである。

図１０は、様々な実施形態にしたがい、連結されたゲノム断片読み取りデータからのゲノムの特徴を識別するための方法を示すフローチャートである。

図面は必ずしも正確な比率で描かれているわけではなく、図面中の物体も、互いとの関連で、必ずしも正確な比率で描かれているわけではないことが理解されるべきである。図面は、本明細書に開示されている装置、システムおよび方法の様々な実施形態に対して明確さと理解をもたらすことを目的とする描写である。可能な限り、同一のまたは同様の部分を表すために、図面全体を通じて同一の参照番号が使用される。さらに、図面は、本教示の範囲を限定することを決して目的とするものではないことが理解されるべきである。

詳細な説明
本明細書は、本開示の例示的な実施形態および応用を記載する。しかしながら、本開示は、これらの例示的な実施形態および応用に、または例示的な実施形態および応用が作動するもしくは本明細書に記載されている様式に限定されない。さらに、図面は、簡略化されたまたは部分的な図を示すことがあり得、図面中の要素の大きさは、強調され、またはその他比例していないことがあり得る。さらに、「上」、「に付着された」、「に接続された」、「に結合された」などの用語または類似の用語が本明細書において使用される場合、ある要素が別の要素の上に直接存在し、別の要素に直接付着され、接続され、もしくは結合されているかどうかに、またはある要素と別の要素の間に１つもしくはそれを超える介在する要素が存在するかどうかに関わらず、ある要素（例えば、材料、層、基材など）は、別の要素の「上」に存在し、別の要素に付着され、接続され、もしくは結合されることができる。さらに、要素のリスト（例えば、要素ａ、ｂ、ｃ）が参照される場合、このような参照は、列記された要素自体の任意の１つ、列記された要素の全てに満たないあらゆる組み合わせ、および／または列記された要素の全ての組み合わせを含むものとする。本明細書中の節の区切りは参照の容易のためのものに過ぎず、論述されている要素のいずれの組み合わせも限定しない。

別段の定義が為されていなければ、本明細書に記載されている本教示に関連して使用される科学用語および技術用語は、当業者によって一般的に理解されている意味を有するものとする。さらに、文脈によって別段の要求がされていなければ、単数形の用語は複数を含むものとし、複数形の用語は単数を含むものとする。一般的に、本明細書に記載されている、細胞および組織培養、分子生物学ならびにタンパク質およびオリゴヌクレオチドまたはポリヌクレオチド化学およびハイブリダイゼーションと関連して使用される命名法およびこれらの技術は、周知のものであり、一般的に本分野において使用されるものである。例えば、核酸精製および調製、化学的分析、組換え核酸およびオリゴヌクレオチド合成のための標準的技術が使用される。酵素的反応および精製技術は、製造業者の仕様に従って、または本分野で一般的に達成されるように、または本明細書に記載されているように行われる。本明細書に記載されている技術および手技は、一般に、本分野において周知の慣用的な方法に従って、ならびに本明細書を通じて引用および論述されている様々な一般的およびより具体的な参考文献に記載されているとおりに実施される。例えば、Ｓａｍｂｒｏｏｋら、ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（Ｔｈｉｒｄｅｄ．，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．２０００）を参照されたい。関連して使用される命名法ならびに本明細書に記載されている研究室手技および技術は、本分野において周知であり、一般的に使用されるものである。

「次世代配列決定」（ＮＧＳ（ｎｅｘｔｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ））という用語は、伝統的なサンガーおよびキャピラリー電気泳動をベースとするアプローチと比べて、増加した処理量を有する、例えば、何十万もの相対的に小さな配列読み取りデータを一度に生成する能力を有する配列決定技術を表す。次世代配列決定技術のいくつかの例には、合成による配列決定、ライゲーションによる配列決定およびハイブリダイゼーションによる配列決定が含まれるが、これらに限定されない。より具体的には、ＩｌｌｕｍｉｎａのＭＩＳＥＱ、ＨＩＳＥＱおよびＮＥＸＴＳＥＱＳｙｓｔｅｍｓならびにＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓＣｏｒｐのＰｅｒｓｏｎａｌＧｅｎｏｍｅＭａｃｈｉｎｅ（ＰＧＭ）およびＳＯＬｉＤＳｅｑｕｅｎｃｉｎｇＳｙｓｔｅｍは、全ゲノムまたは標的とされたゲノムの大規模平行配列決定を提供する。ＳＯＬｉＤＳｙｓｔｅｍおよび付随するワークフロー、プロトコール、化学などは、「Ｒｅａｇｅｎｔｓ，Ｍｅｔｈｏｄｓ，ａｎｄＬｉｂｒａｒｉｅｓｆｏｒＢｅａｄ−ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」の名称で、国際出願日が２００６年２月１日のＰＣＴ公開ＷＯ２００６／０８４１３２号、２０１０年８月３１日に出願され、「Ｌｏｗ−ＶｏｌｕｍｅＳｅｑｕｅｎｃｉｎｇＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｏｆＵｓｅ」という名称の米国特許出願第１２／８７３，１９０号、および２０１０年８月３１日に出願された、「Ｆａｓｔ−ＩｎｄｅｘｉｎｇＦｉｌｔｅｒＷｈｅｅｌａｎｄＭｅｔｈｏｄｏｆＵｓｅ」という名称の米国特許出願第１２／８７３，１３２号にさらに詳しく記載されており、これらの出願の各々の全体が、その参照によって、本明細書に組み込まれている。

「配列決定動作」という用語は、少なくとも１つの生体分子（例えば、核酸分子）に関連する何らかの情報を決定するために実施される配列決定実験のいずれかの工程または部分を表す。

本明細書において使用される場合、「ゲノムの特徴」という用語は、何らかの注釈付けられた機能を有するゲノム領域（例えば、遺伝子、タンパク質コード配列、ｍＲＮＡ、ｔＲＮＡ、ｒＲＮＡ、反復配列、逆方向反復、ｍｉＲＮＡ、ｓｉＲＮＡなど）、または、変異、組換え／乗り換えもしくは遺伝的浮動によって、特定の種もしくは特定の種内の部分集団に対して参照された場合に変化を受けている（ＤＮＡまたはＲＮＡ中の）単一またはグループの遺伝子を表す遺伝子／ゲノムバリアント（例えば、一塩基多型／変異体、挿入／欠失配列、コピー数変動、反転など）を表すことができる。

ゲノムバリアントは、アレイをベースとする方法（例えば、ＤＮＡマイクロアレイなど）、リアルタイム／デジタル／定量的ＰＣＲ機器法および全核酸または標的とする核酸の配列決定システム（例えば、ＮＧＳシステム，ＣａｐｉｌｌａｒｙＥｌｅｃｔｒｏｐｈｏｒｅｓｉｓシステムなど）を含むが、これらに限定されない様々な技術を用いて識別することができる。核酸配列決定を用いて、単一塩基解像度で、カバレッジデータを取得することが可能である。

ＤＮＡ（デオキシリボ核酸）は、Ａ（アデニン）、Ｔ（チミン）、Ｃ（シトシン）およびＧ（グアニン）の４種類のヌクレオチドからなるヌクレオチドの鎖であり、そのＲＮＡ（リボ核酸）は、Ａ、Ｕ（ウラシル）、ＧおよびＣの４種類のヌクレオチドから構成される。ヌクレオチドのある対は、相補的な様式で、互いに特異的に結合する（相補的塩基対形成と呼ばれる。）。すなわち、アデニン（Ａ）はチミン（Ｔ）と対形成し（ただし、ＲＮＡの場合には、アデニン（Ａ）はウラシル（Ｕ）と対形成する。）、シトシン（Ｃ）はグアニン（Ｇ）と対形成する。第一の核酸鎖が、第一の鎖中のヌクレオチドに相補的であるヌクレオチドから構成される第二の核酸鎖に結合すると、２つの鎖は結合して二本鎖を形成する。本明細書において使用される「核酸配列決定データ」、「核酸配列決定情報」、「核酸配列」、「ゲノム配列」、「遺伝子配列」または「断片配列」または「核酸配列読み取りデータ」は、ＤＮＡまたはＲＮＡの分子（例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、断片など）中のヌクレオチド塩基（例えば、アデニン、グアニン、シトシンおよびチミン／ウラシル）の順序を示すあらゆる情報またはデータを表す。本教示は、キャピラリー電気泳動、マイクロアレイ、ライゲーションをベースとするシステム、ポリメラーゼをベースとするシステム、ハイブリダイゼーションをベースとするシステム、直接または間接的なヌクレオチド識別システム、パイロシークエンシング、イオンまたはｐＨをベースとする検出システム、電子署名をベースとするシステムなどを含むがこれらに限定されない、あらゆる利用可能な様々な技法、プラットフォームまたは技術を用いて得られる配列情報を想定することが理解されるべきである。

「ポリヌクレオチド」、「核酸」または「オリゴヌクレオチド」は、ヌクレオシド間結合によって連結されたヌクレオシド（デオキシリボヌクレオシド、リボヌクレオシドまたはこれらの類縁体を含む。）の直鎖ポリマーを表す。典型的には、ポリヌクレオチドは、少なくとも３つのヌクレオシドを含む。通常、オリゴヌクレオチドのサイズは、数個の単量体単位、例えば、３〜４個から数百個の単量体単位までの範囲である。別段の記載がなければ、オリゴヌクレオチドなどのポリヌクレオチドが、「ＡＴＧＣＣＴＧ」のような文字の列によって表されている場合には常に、ヌクレオチドは、左から右に、５’−＞３’の順序であり、「Ａ」はデオキシアデノシンを表し、「Ｃ」はデオキシシチジンを表し、「Ｇ」はデオキシグアノシンを表し、および「Ｔ」はチミジンを表すことが理解されるであろう。文字Ａ、Ｃ、ＧおよびＴは、本分野において標準的であるように、塩基それ自体、ヌクレオシドまたは塩基を含むヌクレオチドを表すために使用され得る。

「断片ライブラリー」という用語は、１またはそれを超える断片が配列決定鋳型として使用される、核酸断片の集合物を表す。断片ライブラリーは、例えば、より大きな核酸をより小さな断片に切断または剪断することによって生成され得る。断片ライブラリーは、哺乳動物または細菌の核酸などの、天然に存在する核酸から生成され得る。合成断片ライブラリーを作製するために、類似の大きさの合成核酸配列を含むライブラリーを生成することもできる。

様々な実施形態において、配列アライン法は、断片配列を参照配列または別の断片配列にアラインすることができる。断片配列は、断片ライブラリー、ペアードエンドライブラリー、メイトペアライブラリー、連結された断片ライブラリー、または、例えば、ＲＮＡ、ＤＮＡおよびタンパク質をベースとする配列情報などの核酸配列情報によって反映もしくは表され得る別の種類のライブラリーから取得することができる。一般的には、断片配列の長さは、参照配列の長さより実質的に短くすることができる。断片配列および参照配列は、それぞれ、シンボルの配列を含むことができる。断片配列と参照配列のアラインは、断片配列のシンボルと参照配列のシンボルとの間に限られた数のミスマッチを含むことができる。一般的に、断片配列と参照配列の間のミスマッチの数を最小化するために、断片配列は参照配列の一部にアラインすることができる。

特定の実施形態において、断片配列と参照配列のシンボルは、生体分子の組成を表すことができる。例えば、シンボルは、ＲＮＡもしくはＤＮＡなどの核酸中のヌクレオチドの同一性またはタンパク質中のアミノ酸の同一性に対応することができる。いくつかの実施形態において、シンボルは、生体分子のこれらの部分構成要素と直接の相関を有することができる。例えば、各シンボルは、ポリヌクレオチドの単独の塩基を表すことができる。他の実施形態において、各シンボルは、ポリヌクレオチドの２つの隣接する塩基など、生体分子の２つまたはそれを超える隣接する部分構成要素を表すことができる。さらに、シンボルは、隣接する部分構成要素の重複する組または隣接する部分構成要素の別個の組を表すことができる。例えば、各シンボルがポリヌクレオチドの２つの隣接する塩基を表す場合、重複する組を表す２つの隣接するシンボルは、ポリヌクレオチド配列の３つの塩基に対応することができるのに対して、異なる組を表す２つの隣接するシンボルは、４つの塩基の配列を表すことができる。さらに、シンボルは、ヌクレオチドなどの部分構成要素に直接対応することができ、またはカラーコールもしくは部分構成要素の他の間接的指標に対応することができる。例えば、シンボルは、特定のヌクレオチドフローに対する組込みまたは非組込みに対応することができる。

様々な実施形態において、コンピュータプログラム製品は、断片配列の近接する部分を選択するための指示、参照配列に対して近接部分の少なくとも１つのマッチを生成する近似鎖マッチング（ａｐｐｒｏｘｉｍａｔｅｓｔｒｉｎｇｍａｔｃｈｉｎｇ）法を用いて、断片配列の近接部分を参照配列にマッピングするための指示を含むことができる。

様々な実施形態において、核酸配列分析のためのシステムは、データ分析ユニットを含むことができる。データ分析ユニットは、配列決定機器から断片配列を取得し、参照配列を取得し、断片配列の近接する部分を選択し、および参照配列に対して近接部分の少なくとも１つのマッチを生成する近似鎖マッピング法を用いて、断片配列の近接部分を参照配列にマッピングするように設計することができる。

本明細書において使用される「実質的に」は、所期の目的のために作動するのに十分なことを意味する。このため、「実質的に」という用語は、当業者によって予想され得るが、総合的な成績に感知できるほどに影響を及ぼさないような、絶対的なまたは完全な状態、寸法、測定、結果などからの軽微な、重大でない変動を許容する。数値または数値として表すことができるパラメータもしくは特徴に関して使用される場合、「実質的に」は、１０％以内を意味する。

「ｏｎｅｓ」という用語は、１を超えるを意味する。

本明細書において使用される「複数」という用語は、２、３、４、５、６、７、８、９、１０またはそれを超えるであり得る。

本明細書において使用される「細胞」という用語は、「生物の細胞」という用語と互換的に使用される。生物の細胞の非限定的な例には、真核生物細胞、植物細胞、哺乳動物細胞、爬虫類細胞、鳥類細胞、魚類細胞などの動物細胞、原核生物細胞、細菌細胞、真菌細胞、原生動物細胞など、筋肉、軟骨、脂肪、皮膚、肝臓、肺、神経組織などの組織から解離された細胞、Ｔ細胞、Ｂ細胞、ナチュラルキラー細胞、マクロファージなどの免疫学的細胞、胚（例えば、接合体）、卵母細胞、卵子、精子細胞、ハイブリドーマ、培養された細胞、細胞株からの細胞、癌細胞、感染された細胞、形質移入および／または形質転換された細胞、レポーター細胞などが含まれる。哺乳動物細胞は、例えば、ヒト、マウス、ラット、ウマ、ヤギ、ヒツジ、ウシ、霊長類などからのものであり得る。

図１は、本開示のいくつかの実施形態にしたがう、胚の非侵襲性移植前遺伝子スクリーニングに対するワークフロー１００を例示する。ここに図示されているように、ＩＶＦ移植のための胚候補１０４は、胚のプールから単離され、遺伝子スクリーニング分析を妨害し得るＤＮＡ１０６またはその他のポリヌクレオチドを実質的に含まない培地を含む試料ホルダー中で、ある期間インキュベートすることができる。試料ホルダーのいくつかの例には、試験管、ピペットチューブ、ペトリ皿または複数区画／ウェルプレート内のウェル／区画が含まれ得るが、これらに限定されない。様々な実施形態において、実質的に一定の容量の培地を試料ホルダー中に維持するために、試料ホルダーへの連続的培地供給ラインを用いて「新鮮な」培養培地１０６が導入され、「古い」培養培地１０６が試料ホルダーから継続的に除去される（および採取される）継続的培養系中で、胚候補１０４をインキュベートすることもできる。

インキュベートの間に、ゲノム断片は、ＤＮＡを含まない周囲の培地中へ、定期的に、胚によって分泌され、および／または胚から流出される。このワークフローにおいて使用することができる、ＤＮＡを含まない培地の例は、ＴｈｅＣｏｏｐｅｒＣｏｍｐａｎｉｅｓのＯＲＩＧＩＯＳＥＱＵＥＮＴＩＡＬＢＬＡＳＴ（商標）培養培地である。いくつかの実施形態において、胚は、最低約１８時間、培養培地中でインキュベートすることができる。他の実施形態において、胚は、約１８時間〜約１４４時間、培養培地中でインキュベートすることができる。ワークフロー１００を用いた遺伝子スクリーニング分析を実行できるようにするために、十分な量のゲノム断片が胚によって分泌され、および／または胚から流出されるのに必要される長さの期間、ＤＮＡを含まない培地中で胚をインキュベートすることができることが理解されるべきである。いくつかの実施形態において、胚が単離され、ＤＮＡを含まない培地中でインキュベートされるときに、胚は発育の胚盤胞段階にある。他の実施形態において、胚が単離され、ＤＮＡを含まない培地中でインキュベートされるときに、胚は、発育の多細胞前胚盤胞段階にある。

閾値量のゲノム断片がＤＮＡを含まない培地中に分泌されまたは流出され得るのに必要な期間、胚がインキュベートされた後には、インキュベート培地の一部が別個の増幅容器に移され、増幅容器において、断片は、その後のゲノム配列分析用の短いゲノム断片を増幅するために特別に作られた増幅プロトコール１０８を経る。いくつかの実施形態において、増幅プロトコール１０８は、多重置換増幅（ＭＤＡ（ｍｕｌｔｉｐｌｅｄｉｓｐｌａｃｅｍｅｎｔａｍｐｌｉｆｉｃａｔｉｏｎ））をベースとする全ゲノム増幅（ＷＧＡ（ｗｈｏｌｅｇｅｎｏｍｅａｍｐｌｉｆｉｃａｔｉｏｎ））技術を使用する。ＭＤＡは、少量のＤＮＡを増幅する上で効率的であることが示されている非ＰＣＲベースのＤＮＡ増幅技術である。ＭＤＡは、ランダムなプライマーを用いた標的ＤＮＡのプライミングおよび所定の試料中の実質的に全ＤＮＡを増幅するための鎖置換φ２９ポリメラーゼ（またはそれと同等のもの）の使用に依存する。ＰＣＲをベースとしたＷＧＡ法と比べて、ＭＤＡは、何桁も増幅バイアスを低減し、より長いゲノム断片を生成し、より良好なゲノムのカバー範囲を示す。他の実施形態において、増幅プロトコール１０８は、複数アニーリングとルーピングをベースとする増幅サイクル（ＭＡＬＢＡＣ（ｍｕｌｔｉｐｌｅａｎｎｅａｌｉｎｇａｎｄｌｏｏｐｉｎｇ−ｂａｓｅｄａｍｐｌｉｆｉｃａｔｉｏｎｃｙｃｌｅ））をベースとするＷＧＡ技術を使用する。ＭＡＬＢＡＣ増幅技術は、アンプリコンが相補的な末端を有し、したがって、ループを形成して、ＤＮＡが指数関数的に複製されないようにする特殊なプライマーを使用する。これは、元のゲノムＤＮＡのみの増幅をもたらす。その結果、この調節された増幅は、増幅バイアスを低下させることができ、その延長として、人為産物の産生を低下させることができ、単離された胚候補に対する偽陽性および偽陰性変異コールの発生率を低下させることができる。

しかしながら、当該技術が、ワークフロー１００を用いて実行されるべき遺伝子スクリーニング分析のために配列決定されるのに十分な品質および／または量のゲノム断片を生成する限り、あらゆる種類のＷＧＡ技術を増幅プロトコール１０８において使用できることが理解されるべきである。

（単離された胚１０４からの）ゲノム断片が十分な量まで増幅された後、ゲノム断片はＮＧＳまたは同等なゲノム配列決定システムを用いて配列決定される１１０。配列決定ワークフローは、何百、何千または何百万の核酸配列読み取りデータ（すなわち、配列読み取りデータ）を与えるために核酸配列決定装置上で断片が配列決定される１１０ことから開始することができる。参照ゲノムに対してゲノム断片配列がアラインされ（マッピングされ）１１４、胚１０４のゲノム中に存在する１またはそれを超えるゲノムの特徴１１６を識別するのを補助するために、１またはそれを超える二次的分析ツール／パイプラインが使用されるゲノムデータ分析パイプライン１１２を用いて、次いで、ゲノム断片配列情報は処理されることができる。いくつかの実施形態において、ゲノムの特徴１１６は、挿入／欠失（ＩＮＤＥＬ）、コピー数変動（ＣＮＶ）、一塩基多型（ＳＮＰ）、重複、反転、転座などのゲノムバリアントであり得る。他の実施形態において、ゲノムの特徴１１６は、遺伝子、タンパク質コード配列、ｍＲＮＡ、ｔＲＮＡ、ｒＲＮＡ、反復配列、逆方向反復、ｍｉＲＮＡ、ｓｉＲＮＡなどの何らかの注釈付けられた機能を有するゲノム領域であり得る。さらに別の実施形態において、ゲノムの特徴１１６は、遺伝子発現および活性に影響を及ぼすことができる、ゲノム上の後成的変化（例えば、メチル化、アセチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、シトルリン化など）であり得る。

いくつかの実施形態において、参照ゲノムはヒトゲノムである。他の実施形態において、参照ゲノムは、胚が由来する動物種のゲノムである。しかしながら、参照ゲノムは、いずれの具体的な動物種とも関連しないが、特定の分析／用途のために作製されている、人工的に作製されたゲノムであり得ることが理解されるべきである。

ゲノムの特徴１１６が識別された後、分析パイプライン１１２は、単離胚１０４が有するまたはそのリスクがある遺伝性のまたは非遺伝性の遺伝子状態に関する情報を提供する遺伝子診断報告１１８を生成することができる。

様々な実施形態において、「ブランク」または対照試料が、ワークフロー１００全体を通じて、胚候補１０４と並べて実行される。すなわち、（胚１０４をインキュベートするために使用されなかった）ＤＮＡを含まない培地の一部は、ワークフロー１００の全ての工程および過程を通じて実行される。ブランク試料を分析することから得られた結果は、胚のゲノム中に識別されたゲノムの特徴が配列決定の際の増幅および／または体系的誤差（ｓｙｓｔｅｍｉｃｅｒｒｏｒ）の人為的結果でないことを確保するための対照として役割を果たすことができる。

図２は、本開示のいくつかの実施形態にしたがう、短いゲノム断片を増幅するための増幅プロトコール２００を図示する例示的なフローチャートである。

ここに図示されているように、（胚をインキュベートしている培地の一部中の）ゲノム断片２０２は、連結された断片２０８の形成を触媒する条件で、酵素２０４およびゲノムリンカーセグメント２０６と組み合わされる。ライゲーション反応は、約１６〜１８時間（一晩のインキュベート）、（撹拌せずに）室温で実施される。ライゲーション反応混合物は、約７．５のｐＨおよび約２０℃の温度〜約２５℃の温度で、５０ｍＭＴｒｉｓＨＣｌ、１０ｍＭＭｇＣｌ_２、１ｍＭＡＴＰおよび１０ｍＭＤＴＴを含む緩衝液中に１ユニットのＤＮＡリガーゼからなる。得られた連結された断片２０８は元のゲノム断片２０２より長く、これは、プロトコール２００でゲノム断片が後に増幅されるときに、（ゲノム断片２０２を個別に増幅することと比較すると）増幅エラーを低減するのに役立つ。

連結は、多重置換増幅によってＤＮＡを等温性に増幅する、φ２９酵素を用いた増幅に最適である長い鋳型（すなわち、連結された断片）を与えることができる。φ２９酵素は、短い断片（すなわち、約３０塩基対より短いアンプリコン）を効率的におよび／または正確に増幅することができず、このことは、検証実験において実証されており、このため、胚によって培養培地中に押出されたＤＮＡの短い断片の全体を捕捉するために、我々は長い連結された断片を作製することが妥当である。さらに、連結は、Ｓｕｒｅｐｌｅｘシステム（Ｉｌｌｕｍｉｎａ）、ＭＡＬＢＡＣおよびＤＯＰＰＣＲなどのその他の全ゲノム増幅戦略によって首尾よく増幅するために十分な鋳型を作製する上でも役立つ。増幅の誤りのこの低下は、短いゲノム断片にとって特に重要である。一般に、増幅の誤りを減らすことは、ゲノム断片が後に配列決定され、分析されるときに、ゲノムの特徴の識別の正確性を向上させる。いくつかの実施形態において、ゲノム断片は、約３０塩基対（ｂｐ）〜約８００ｂｐの長さを有する短いゲノム断片である。他の実施形態において、ゲノム断片は、約１５０ｂｐ〜約４００ｂｐの長さを有する短いゲノム断片である。さらに他の実施形態において、ゲノム断片は、約１０００ｂｐ未満の長さを有する短いゲノム断片である。

ゲノムリンカーセグメント２０６は、既知の長さおよびヌクレオチド配列の、本質的に人工的に作製された二本鎖「結合した」オリゴヌクレオチドセグメントである。いくつかの実施形態において、ゲノムリンカーセグメント２０６は、約３０〜１０００ｂｐの長さである。他の実施形態において、ゲノムリンカーセグメント２０６は、約３０ｂｐ〜約５００ｂｐの長さである。さらに他の実施形態において、ゲノムリンカーセグメント２０６は、約５０ｂｐ〜約１５０ｂｐである。いくつかの実施形態において、ゲノムリンカーセグメント２０６は、ホモポリマーオリゴヌクレオチドセグメントである。他の実施形態において、ゲノムリンカーセグメント２０６は、ヘテロポリマーオリゴヌクレオチドセグメントである。いくつかの実施形態において、ゲノムリンカーセグメント２０６は、平滑末端化された二本鎖オリゴヌクレオチドセグメントである。いくつかの実施形態において、ゲノム断片２０２は、ゲノムリンカーセグメント２０６に連結される前に、酵素的に平滑末端化される。

ゲノムリンカーセグメント２０６にゲノム断片２０２を連結して、連結されたゲノム断片２０８を形成するために、原核生物および真核生物の酵素（すなわち、リガーゼ）の様々な種類を使用することができる。ここで使用することができるリガーゼのいくつかの例には、Ｔ３、Ｔ４、Ｔ７またはリガーゼ１が含まれるがこれらに限定されない。

連結された断片がそれらの容器（例えば、ウェル、ピペットチューブなど）中で形成された後に、連結された断片は、ＭＤＡ、ＭＡＬＢＡＣなどのＷＧＡ技術を用いて、サーマルサイクラー（または類似の装置）上で増幅２１０することができる。

図３は、本開示のいくつかの実施形態にしたがう、連結された断片の形成を例示する。ここに図示されているように、ゲノムリンカーセグメント３０８の導入および連結された断片３１２を形成するためのリガーゼ３１０を用いたゲノムリンカーセグメント３０８のライゲーションの前に、３’または５’オーバーハング（すなわち、対形成していないヌクレオチド）３０６を充填または除去するために、まず、ゲノム断片３０２は、平滑末端化酵素を用いて平滑末端化される。すなわち、使用される平滑末端化酵素は、オーバーハングを消化する（除去する）ためのエキソヌクレアーゼ活性を示し、またはオーバーハング上の欠落した相補的塩基を合成する（充填する）ためのポリメラーゼ活性を示すことができる。使用することができる平滑末端化酵素のいくつかの例には、ＤＮＡポリメラーゼＩクレノウ断片、Ｔ４ＤＮＡポリメラーゼおよびマングビーンヌクレアーゼが含まれるが、これらに限定されない。例示的な実施形態において、ｄｓＤＮＡの連結された断片を平滑末端化するために使用される平滑末端化試薬混合物は、（３’−＞５’エキソヌクレアーゼ活性および５’−＞３’ポリメラーゼ活性を有する）Ｔ４ＤＮＡポリメラーゼおよび（その後のライゲーション反応のために必要な、平滑末端化されたＤＮＡの５’末端のリン酸化を補助する）Ｔ４ポリヌクレオチドキナーゼを含む。

ゲノム断片３０２の５’および３’末端を平滑末端化３０６した後、ゲノム断片３０２をゲノムリンカーセグメント３０８に連結するために、ＤＮＡリガーゼを導入することができる。ライゲーション３１０の間、リガーゼ−アデニレートおよびＤＮＡ−アデニレート中間体を伴うヌクレオチジル転移工程を介して、ＤＮＡリガーゼは５’および３’ポリヌクレオチド末端を塞ぐ。ＤＮＡリガーゼは、ＡＴＰ依存性ＤＮＡリガーゼ（ＥＣ６．５．１．１）およびＮＡＤ（＋）依存性ＤＮＡリガーゼ（ＥＣ６．５．１．２）という２つの一般的なカテゴリーに属する。ＮＡＤ（＋）依存性ＤＮＡリガーゼは細菌（およびいくつかのウイルス）中のみに見出されるのに対して、ＡＴＰ依存性ＤＮＡリガーゼは遍在している。

ＡＴＰ依存性ＤＮＡリガーゼは、ＤＮＡリガーゼＩ、ＩＩ、ＩＩＩおよびＩＶという４つのクラスに分類することができる。ＤＮＡリガーゼＩは、ＤＮＡの連続鎖を形成するために岡崎断片を連結し、ＤＮＡリガーゼＩＩは分裂していない細胞中のみに見出される、ＤＮＡリガーゼＩＩＩの選択的にスプライシングされた形態であり、ＤＮＡリガーゼＩＩＩは塩基除去修復に関与し、ＤＮＡリガーゼＩＶは、非相同末端結合（ＮＨＥＪ）によるＤＮＡ二本鎖切断の修復に関与する。全てのリガーゼのうち、平滑末端化された二本鎖ＤＮＡライゲーションを促進するのにとりわけ非常に適している２種類の原核生物のリガーゼおよび１種類の真核生物のリガーゼ：原核生物のＤＮＡリガーゼ（Ｔ３およびＴ４）および真核生物のＤＮＡリガーゼ（リガーゼ１）が存在する。

いくつかの実施形態において、Ｔ４ＤＮＡリガーゼは、このプロトコールために、平滑末端ライゲーション過程３１０において使用される。バクテリオファージＴ４ＤＮＡリガーゼは、ＡＴＰをエネルギー源として必要とする、約６８，０００ダルトンの分子量を有する単一のポリペプチドである。最大活性ｐＨ範囲は、約７．５〜約８．０である。Ｍｇ＋＋イオンの存在が好ましく、最適な濃度は約１０ｍＭである。Ｔ４ＤＮＡリガーゼは、粘着および平滑末端化された断片を連結する特有の能力を有する。Ｔ４ＤＮＡリガーゼは、１）ＡＴＰとの反応による酵素−アデニリレート形成、２）アデニリル化されたＤＮＡを生成するための５リン酸化されたポリヌクレオチドへのアデニリル転移および３）ＡＭＰの放出を伴うホスホジエステル結合形成という３段階で、ゲノム断片３０２およびゲノムリンカーセグメント３０８中の並置された５’および３’末端間のホスホジエステル結合形成を触媒する。例示的な実施形態において、ライゲーション反応は、約７．５のｐＨおよび約２３℃の温度で、５０ｍＭＴｒｉｓＨＣｌ、１０ｍＭＭｇＣｌ_２、１ｍＭＡＴＰおよび１０ｍＭＤＴＴからなる緩衝液中の１ユニットのＴ４ＤＮＡリガーゼを用いて実施することができる。Ｔ４リガーゼ、平滑末端化されたＤＮＡおよびリンカーセグメントを含む反応混合物は、撹拌なしに、１６〜１８時間インキュベートすることができる。リンカーセグメントの濃度は、約１ｐｇ〜約１ｎｇの範囲とすることができる。

ゲノム断片３０２がゲノムリンカーセグメント３０８に連結されたら、連結された断片３１２が形成する。いくつかの実施形態において、連結された断片３１２は、少なくとも１つのゲノムリンカーセグメント３０８に連結されている少なくとも１つのゲノム断片３０２を含む。他の実施形態において、連結された断片３１２は、２つまたはそれを超えるゲノム断片３０２および少なくとも１つのゲノムリンカーセグメント３０８を含み、これにより、少なくとも１つのゲノム断片３０２は、ゲノムリンカーセグメント３０８の各末端に連結される。しかしながら、連結された断片３１２は、組み合わせが配列決定およびそれに続くゲノムの特徴の分析という目的に適している限り、ゲノム断片３１２とゲノムリンカーセグメント３０８の本質的にあらゆる組み合わせを有することができることが理解されるべきである。

連結された断片３１２の形成後、連結された断片３１２は、（ＰｉｃｏＰｌｅｘ、ＭＤＡ、ＭＡＬＢＡＣ、ＤＯＰｌｉｆｙなどの）ＷＧＡ増幅技術３１３を用いて増幅され、続いて、ＮＧＳ（または同等の）ゲノム配列決定システム３１６を用いて配列決定される。
コンピュータ装備されたシステム

図４は、本教示の実施形態が実装され得る、コンピュータシステム４００を例示するブロック図である。本教示の様々な実施形態において、コンピュータシステム４００は、バス４０２または情報を通信するための他の通信機構と、情報を処理するための、バス４０２と連結されたプロセッサ４０４とを含むことができる。様々な実施形態において、コンピュータシステム４００は、プロセッサ４０４によって実行されるべき指示を決定するための、バス４０２に連結された、ランダムアクセスメモリ（ＲＡＭ）４０６またはその他の動的記憶装置とすることができるメモリを含むこともできる。プロセッサ４０４によって実行されるべき指示の実行中の一時的変数またはその他の中間情報を保存するために、メモリを使用することもできる。様々な実施形態において、コンピュータシステム４００は、プロセッサ４０４に対する静的情報および指示を保存するための、バス４０２に連結されたリードオンリーメモリ（ＲＯＭ）４０８またはその他の静的記憶装置をさらに含むことができる。情報および指示を保存するために、磁気ディスクまたは光ディスクなどの記憶装置４１０が供され、バス４０２に連結されることができる。

様々な実施形態において、コンピュータシステム４００は、コンピュータユーザに情報を表示するために、バス４０２を介して、陰極線管（ＣＲＴ（ｃａｔｈｏｄｅｒａｙｔｕｂｅ））または液晶ディスプレイ（ＬＣＤ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ））などのディスプレイ４１２に連結することができる。プロセッサ４０４に情報および命令選択を通信するために、英数字およびその他のキーを含む入力装置４１４をバス４０２に連結することができる。別の種類のユーザ入力装置は、プロセッサ４０４に指示情報および命令選択を通信するためのおよびディスプレイ４１２上でのカーソルの動きを調節するための、マウス、トラックボールまたはカーソル指示キーなどのカーソルコントロール４１６である。この入力装置４１４は、典型的には、装置が平面中の位置を識別することを可能にする第一の軸（すなわち、ｘ）および第二の軸（すなわち、ｙ）という２つの軸に２つの自由度を有する。しかしながら、３次元の（ｘ、ｙおよびｚ）カーソルの動きを可能にする入力装置４１４も本明細書において想定されることが理解されるべきである。

本教示のある種の実施と合致して、メモリ４０６中に含まれる１つまたはそれを超える指示の１つまたはそれを超える列を実行しているプロセッサ４０４に応答して、結果はコンピュータシステム４００によって与えられることができる。このような指示は、記憶装置４１０などの、別のコンピュータ読み取り可能な媒体またはコンピュータ読み取り可能な記憶媒体からメモリ４０６中に読み取られることができる。メモリ４０６中に含まれる指示の列の実行は、プロセッサ４０４に本明細書に記載された過程を実行させることができる。あるいは、本教示を実施するためのソフトウェア指示に代えてまたはソフトウェア指示と組み合わせて、配線によって接続された回路を使用することができる。このため、本教示の実施は、ハードウェア回路とソフトウェア回路のいずれかの特定の組み合わせに限定されない。

本明細書において使用される「コンピュータ読み取り可能な媒体」（例えば、データ保存、データストレージなど）または「コンピュータ読み取り可能な記憶媒体」という用語は、実行のためにプロセッサ４０４に指示を与えることに関与するあらゆる媒体を表す。このような媒体は、不揮発性媒体、揮発性媒体および伝送媒体を含むがこれらに限定されない、多くの形態を取ることができる。不揮発性媒体の例には、記憶装置４１０などの、光、ソリッドステート、磁気ディスクが含まれ得るが、これらに限定されない。揮発性媒体の例には、メモリ４０６などの動的メモリが含まれ得るが、これらに限定されない。伝送媒体の例には、バス４０２を備えるワイヤなど、同軸ケーブル、銅線および光ファイバーが含まれ得るが、これらに限定されない。

コンピュータ読み取り可能な媒体の一般的な形態には、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、またはあらゆる他の磁気媒体、ＣＤ−ＲＯＭ、あらゆる他の光学媒体、パンチカード、穿孔テープ、穴のパターンを有するいずれかの他の物理的媒体、ＲＡＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）−ＥＰＲＯＭ、あらゆる他のメモリチップもしくはメモリカートリッジまたはコンピュータがそこから読み取ることができるあらゆる他の有形媒体が含まれる。

コンピュータ読み取り可能な媒体に加えて、実行のためにコンピュータシステム４００のプロセッサ４０４に１またはそれを超える指示の列を与えるために、通信装置またはシステム中に含まれる伝送媒体上の信号として、指示またはデータを与えることができる。例えば、通信装置は、指示およびデータを示す信号を有するトランシーバーを含み得る。指示およびデータは、１またはそれを超えるプロセッサに本明細書中の開示に概説された機能を実施させるように構成される。データ通信伝送接続の代表的な例には、電話モデム接続、広域ネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、赤外線データ接続、ＮＦＣ接続などが含まれ得るが、これらに限定されない。

本明細書に記載されている方法、フローチャート、図表および付随する開示は、スタンドアロン機器として、またはクラウドコンピューティングネットワークのような共有されたコンピュータ処理リソースの分散型ネットワーク上で、コンピュータシステム４００を用いて実施することができることを理解すべきである。

図５は、様々な実施形態にしたがう、胚５００の非侵襲性移植前遺伝子スクリーニングのためのシステムの模式図である。ここに図示されているように、システム５００は、ゲノム配列決定システム５０２と、演算装置５０４と、ディスプレイ／クライアントターミナル５１０とを含む。

様々な実施形態において、演算装置５０４は、「配線接続」物理的ネットワーク接続（例えば、インターネット、ＬＡＮ、ＷＡＮ、ＶＰＮなど）またはワイヤレスネットワーク接続（例えば、Ｗｉ−Ｆｉ、ＷＬＡＮなど）のいずれかであり得るネットワーク接続を介して、ゲノム配列決定システム５０２に通信可能に接続され得る。様々な実施形態において、演算装置５０４は、ワークステーション、大型汎用コンピュータ、分散型コンピューティングノード（「クラウドコンピューティング」または分散型ネットワーキングシステムの一部）、パーソナルコンピュータ、モバイル機器などであり得る。様々な実施形態において、ゲノム配列決定システム５０４は、核酸配列決定装置（例えば、ＮＧＳ、キャピラリー電気泳動システムなど）、リアルタイム／デジタル／定量的ＰＣＲ機器、マイクロアレイスキャナなどであり得る。しかしながら、ゲノム配列決定システム５０４は、ゲノム断片を含む試料から核酸配列データを生成することができる本質的にあらゆる種類の機器であり得ることが理解されるべきである。

ゲノム配列決定システム５０２の様々な実施形態は、ライゲーションをベースとする方法、合成による配列決定、単一分子法、ナノポア配列決定およびその他の配列決定技術を含む様々な配列決定法を実施するために使用することができることが、当業者によって理解されるであろう。ライゲーション配列決定は、単一のライゲーション技術を含むことができ、または単一の一次核酸配列鎖上の配列中で複数のライゲーションが行われるライゲーション技術を変えることができる。合成による配列決定には、色素標識されたヌクレオチドの取り込み、鎖終結、イオン／プロトン配列決定、ピロリン酸配列決定などが含まれ得る。単一分子技術には、配列決定反応を停止もしくは遅延させる必要なしに、取り込みの間に核の種類の正体が決定される連続的配列決定、または取り込まれたヌクレオチドの正体を決定するために配列決定反応が停止される交互配列が含まれ得る。

様々な実施形態において、ゲノム配列決定システム５０２は、ポリヌクレオチドまたはオリゴヌクレオチドなどの核酸の配列を決定することができる。核酸は、ＤＮＡまたはＲＮＡを含むことができ、ｓｓＤＮＡおよびＲＮＡなどの一本鎖であり得、またはｄｓＤＮＡもしくはＲＮＡ／ｃＤＮＡ対などの二本鎖であり得る。様々な実施形態において、核酸は、断片ライブラリー、メイトペアライブラリー、クロマチン免疫沈降（ＣｈＩＰ）断片などを含むことができ、またはこれらに由来することができる。特定の実施形態において、ゲノム配列決定機器５０２は、単一の核酸分子からまたは実質的に同一の核酸分子の群から配列情報を取得することができる。

様々な実施形態において、ゲノム配列決定システム５０２は、^＊．ｆａｓｔａ、^＊．ｃｓｆａｓｔａ、^＊．ｘｓｑ、^＊ｓｅｑ．ｔｘｔ、^＊ｑｓｅｑ．ｔｘｔ、^＊．ｆａｓｔｑ、^＊．ｓｆｆ、^＊ｐｒｂ．ｔｘｔ、^＊．ｓｍｓ、^＊ｓｒｓおよび／または^＊．ｑｖを含むが、これらに限定されない様々な異なる出力データファイル形式／フォーマットで核酸配列決定読み取りデータデータ（ゲノム配列情報）を出力することができる。

分析演算装置５０４は、配列読み取りデータアラインメントエンジン５０６およびゲノムの特徴識別エンジン５０８を収容するように構成されることができる。読み取りデータアラインメントエンジン５０６は、ゲノム配列システム５０２によって生成されたゲノム断片配列情報を受領し、ゲノム断片配列を参照ゲノムにアラインする（マッピングする）ように設計することができる。断片配列をアラインするために使用することができる公に利用可能な配列アラインソフトウェアの例には、ＢＬＡＴ、ＢＬＡＳＴ、Ｂｏｗｔｉｅ、ＢＷＡ、ｄｒＦＡＳＴＬＡＳＴ、ＭＯＳＡＩＫ、ＮＥＸＴＧＥＮＭＡＰなどが含まれる。断片配列がアラインされたら、ゲノムの特徴識別エンジン５０８は、アラインされた配列上のゲノムの特徴を識別するように設計することができる。すなわち、ゲノムの特徴識別エンジン５０８は、アラインされた配列中のゲノムの特徴を識別するために、様々な公的（例えば、ＲｅｆＧｅｎｅデータベース（ＵＣＳＣ）、ＡｌｔｅｒｎａｔｉｖｅＳｐｌｉｃｉｎｇデータベース（ＥＢＩ）、ｄｂＳＮＰデータベース（ＮＣＢＩ）、ＧｅｎｏｍｉｃＳｔｒｕｃｔｕｒａｌＶａｒｉａｔｉｏｎデータベース（ＮＣＢＩ）、ＧＥＮＣＯＤＥデータベース（ＵＣＳＣ）、ＰｏｌｙＰｈｅｎデータベース（ハーバード）、ＳＩＦＴデータベース（ＮＣＢＩ）、３０００ＧｅｎｏｍｅｓＰｒｏｊｅｃｔデータベース、ＤａｔａｂａｓｅｏｆＧｅｎｏｍｉｃＶａｒｉａｎｔｓデータベース（ＥＢＩ）、Ｂｉｏｍａｒｔデータベース（ＥＢＩ）、ＧｅｎｅＯｎｔｏｌｏｇｙデータベース（公共）、ＢｉｏＣｙｃ／ＨｕｍａｎＣｙｃデータベース、ＫＥＧＧパスウェイデータベース、Ｒｅａｃｔｏｍｅデータベース、ＰａｔｈｗａｙＩｎｔｅｒａｃｔｉｏｎデータベース（ＮＩＨ）、Ｂｉｏｃａｒｔａデータベース、ＰＡＮＴＨＥＲデータベースなど）および私的なデータベースに通信可能に接続（例えば、分析演算装置５０４へのネットワーク接続、分析演算装置５０４に対してローカルであるデータベースストレージへのシリアルバス接続、分析演算装置５０４に接続された周辺記憶装置への周辺機器接続など）することができる。

いくつかの実施形態において、ゲノムの特徴は、挿入／欠失（ＩＮＤＥＬ）、コピー数変動（ＣＮＶ）、一塩基多型（ＳＮＰ）、重複、反転、転座などのゲノムバリアントであり得る。他の実施形態において、ゲノムの特徴は、遺伝子、タンパク質コード配列、ｍＲＮＡ、ｔＲＮＡ、ｒＲＮＡ、反復配列、逆方向反復、ｍｉＲＮＡ、ｓｉＲＮＡなどの何らかの注釈付けられた機能を有するゲノム領域であり得る。さらに別の実施形態において、ゲノムの特徴は、遺伝子発現および活性に影響を及ぼすことができる、ゲノム上の後成的変化（例えば、メチル化、アセチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、シトルリン化など）であり得る。

読み取りデータアラインメントエンジン５０６およびゲノムの特徴識別エンジン５０８の機能は、ハードウェア、ファームウェア、ソフトウェアまたはこれらのあらゆる組み合わせとして実施され得ることを理解すべきである。さらに、図５に図示されている様々なエンジンは、具体的なアプリケーションまたはシステム構造の要求に応じて、単一のエンジン、コンポーネントまたはモジュールへ統合し、またはまとめることができる。さらに、様々な実施形態において、読み取りデータアラインメントエンジン５０６およびゲノムの特徴識別エンジン５０８は、具体的なアプリケーションまたはシステム構造によって必要とされる場合、さらなるエンジンまたはコンポーネントを含むことができる。

ゲノムの特徴が識別された後、結果は、演算装置５０４に通信可能に接続されたディスプレイまたはクライアントターミナル５１０上に表示され得る。様々な実施形態において、クライアントターミナル５１０は、シン・クライアント演算装置であり得る。様々な実施形態において、クライアントターミナル５１０は、配列アラインメントエンジン５０６および／またはゲノムの特徴識別エンジン５０８の動作を調節するために使用することができるウェブブラウザ（例えば、ＩＮＴＥＲＮＥＴＥＸＰＬＯＲＥＲ（商標）、ＦＩＲＥＦＯＸ（商標）、ＳＡＦＡＲＩ（商標）など）を有するパーソナル演算装置であり得る。すなわち、クライアントターミナル５１０は、配列アラインメントエンジン５０６の動作を調節するためのブラウザを用いて、配列アラインメントエンジン５０６にアクセスすることができる。例えば、具体的なアプリケーションの要求に応じて、配列アライン基準またはロジックは修正することができる。同様に、クライアントターミナル５１０は、アラインされた配列中のゲノムの特徴を識別し、または生成された要約報告を修正するために使用されるデータベース源（例えば、ＲｅｆＧｅｎｅデータベース（ＵＣＳＣ）、ＡｌｔｅｒｎａｔｉｖｅＳｐｌｉｃｉｎｇデータベース（ＥＢＩ）、ｄｂＳＮＰデータベース（ＮＣＢＩ）、ＧｅｎｏｍｉｃＳｔｒｕｃｔｕｒａｌＶａｒｉａｔｉｏｎデータベース（ＮＣＢＩ）、ＧＥＮＣＯＤＥデータベース（ＵＣＳＣ）、ＰｏｌｙＰｈｅｎデータベース（ハーバード）、ＳＩＦＴデータベース（ＮＣＢＩ）、３０００ＧｅｎｏｍｅｓＰｒｏｊｅｃｔデータベース、ＤａｔａｂａｓｅｏｆＧｅｎｏｍｉｃＶａｒｉａｎｔｓデータベース（ＥＢＩ）、Ｂｉｏｍａｒｔデータベース（ＥＢＩ）、ＧｅｎｅＯｎｔｏｌｏｇｙデータベース（公共）、ＢｉｏＣｙｃ／ＨｕｍａｎＣｙｃデータベース、ＫＥＧＧパスウェイデータベース、Ｒｅａｃｔｏｍｅデータベース、ＰａｔｈｗａｙＩｎｔｅｒａｃｔｉｏｎデータベース（ＮＩＨ）、Ｂｉｏｃａｒｔａデータベース、ＰＡＮＴＨＥＲデータベースなど）を調節するためのブラウザを用いて、ゲノムの特徴識別エンジン５０８にアクセスすることができる。

図６は、様々な実施形態にしたがい、連結された断片読み取りデータを参照ゲノムにマッピングされる方法の図示である。先述されているように、連結された断片は、候補胚が（その中でインキュベートされた培地中に）分泌または流出させたゲノム断片と既知の長さおよびヌクレオチド（塩基）配列の人工的に作製された二本鎖「結合した（ｃｏｎｊｏｉｎｔ）」オリゴヌクレオチドセグメント（すなわち、ゲノムリンカーセグメント）の両方から構成される。したがって、図６に図示されているように、連結された断片読み取りデータ６０２は、人工的に合成されたゲノムリンカーセグメント６０４と胚試験培地から得られるゲノム断片６０６の両方の配列読み取りデータから構成される。

ＢＬＡＴ、ＢＬＡＳＴ、ＢＷＡ、Ｂｏｗｔｉｅ、ｄｒＦＡＳＴＬＡＳＴ、ＭＯＳＡＩＫ、ＮＥＸＴＧＥＮＭＡＰなどが含まれるが、これらに限定されないあらゆる数の公的に利用な配列アライメントツールを用いて、連結された断片読み取りデータ６０２は、参照ゲノム６１０にアラインされる（マッピングされる）６０８。いくつかの実施形態において、配列アライメントツールのパラメータは、短い断片配列読み取りデータアラインを収容するように修正される。いくつかの実施形態において、短いゲノム断片読み取りデータは、約３０塩基対（ｂｐ）〜約８００ｂｐの長さを有する。他の実施形態において、短いゲノム断片読み取りデータは、約１５０ｂｐ〜約４００ｂｐの長さを有する。さらに他の実施形態において、短いゲノム断片読み取りデータは、約１０００ｂｐ未満の長さを有する。

いくつかの実施形態において、ゲノムリンカーセグメント配列読み取りデータは、約３０〜１０００ｂｐの長さである。他の実施形態において、ゲノムリンカーセグメント配列読み取りデータは、約３０ｂｐ〜約５００ｂｐの長さである。さらに他の実施形態において、ゲノムリンカーセグメント配列読み取りデータは、約５０ｂｐ〜約１５０ｂｐである。いくつかの実施形態において、ゲノムリンカーセグメント配列読み取りデータは、ホモポリマー配列である。他の実施形態において、ゲノムリンカーセグメント配列読み取りデータは、ヘテロポリマーオリゴヌクレオチド配列である。

いくつかの実施形態において、ゲノムリンカーセグメント配列読み取りデータは天然に存在しないので、参照ゲノムへの連結された断片読み取りデータのアライン中に、アルゴリズムによって除去される。すなわち、アライメントツールは、ゲノムリンカーセグメントと関連する既知の配列を差し引き、連結された断片読み取りデータのゲノム断片部分と関連する配列を参照ゲノムにアラインするに過ぎない。

いくつかの実施形態において、アライメントツールは、各ゲノム断片配列読み取りデータに対して参照ゲノム上の最長の合致するアライン位置を決定することによって、各ゲノム断片配列読み取りデータに対して最良のアラインを選択する。すなわち、ゲノム断片配列読み取りデータ上の塩基の最長の連続する配列が参照ゲノムに合致するアライン場所。他の実施形態において、アライメントツールは、連続的であるか否かに関わらず、ゲノム断片配列読み取りデータからの塩基の最大数が合致する参照ゲノム上の位置を決定することによって、各ゲノム断片配列読み取りデータに対して最良のアラインを選択する。

いくつかの実施形態において、参照ゲノム上の複数の場所に等しく良好にアラインするゲノム断片配列読み取りデータ情報は自動的に捨てられ、ゲノムの特徴（例えば、ＳＮＰ、ＣＮＶ、インデルなど）の識別には使用されない。

図７は、様々な実施形態にしたがい、ゲノムの特徴の様々な種類を識別するために、連結されたゲノム断片配列読み取りデータをアラインするための方法を示す例示的なフローチャートである。ここに図示されているように、連結されたゲノム断片配列読み取りデータ７０２は、まず、参照ゲノム７０４にアラインされる。ＢＬＡＴ、ＢＬＡＳＴ、ＢＷＡ、Ｂｏｗｔｉｅ、ｄｒＦＡＳＴＬＡＳＴ、ＭＯＳＡＩＫ、ＮＥＸＴＧＥＮＭＡＰなどが含まれるが、これらに限定されないあらゆる数の公に利用可能な配列アライメントツールを用いて、アラインが為される。上述されているように、連結されたゲノム断片読み取りデータは、人工的に合成されたゲノムリンカーセグメントと検査試料（例えば、組織、胚など）から得られたゲノム断片の両方の配列読み取りデータである。

いくつかの実施形態において、ゲノムリンカーセグメントは（ヒトゲノム中に）天然に存在しないので、参照ゲノムへの連結された断片読み取りデータのアライン中に、アルゴリズムによって除去される。すなわち、アライメントツールは、ゲノムリンカーセグメントと関連する既知の配列を差し引き、連結された断片読み取りデータのゲノム断片部分と関連する配列を参照ゲノムにアラインするに過ぎない。

アライメントツールは、アラインスコアおよびゲノム断片読み取りデータに対して複数のアラインが存在するかどうかを含むがこれらに限定されない一組のパラメータまたは因子７０６に基づいて、各ゲノム断片配列読み取りデータに対する最良のアラインを選択する。いくつかの実施形態において、ゲノム断面読み取りデータアラインに対するアラインスコアは、マッチ基準（例えば、参照ゲノムに合致するゲノム断片配列読み取りデータの連続する多数の塩基、参照ゲノムに合致するゲノム断片配列読み取りデータからの塩基の絶対数、配列間のパーセント配列同一性およびゲノム中でのその合致など）、ミスマッチ基準およびギャップペナルティの関数として、（式１を用いて）計算することができる。式１の構成物のうち、アライン中のミスマッチおよびギャップは、総アラインスコアからペナルティを課される。
式１：アラインスコア＝ｆ（マッチ基準）−ｆ（ミスマッチ基準）−ｆ（ギャップペナルティ）

いくつかの実施形態において、参照ゲノム上の複数の場所に等しく良好にアラインする（例えば、同じアラインスコアを有するなど）ゲノム断片配列読み取りデータは自動的に捨てられ、ゲノムの特徴の識別には使用されない。

ゲノム断片配列読み取りデータ７０２が参照ゲノムにアラインされた後、アラインされた配列７０８上のゲノムの特徴を識別するために、様々な分析ツールまたはコーラーを使用することができる。様々な実施形態において、これらのツールまたはコーラーは、ゲノムの特徴を識別するために、様々な公的な（例えば、ＲｅｆＧｅｎｅデータベース（ＵＣＳＣ）、ＡｌｔｅｒｎａｔｉｖｅＳｐｌｉｃｉｎｇデータベース（ＥＢＩ）、ｄｂＳＮＰデータベース（ＮＣＢＩ）、ＧｅｎｏｍｉｃＳｔｒｕｃｔｕｒａｌＶａｒｉａｔｉｏｎデータベース（ＮＣＢＩ）、ＧＥＮＣＯＤＥデータベース（ＵＣＳＣ）、ＰｏｌｙＰｈｅｎデータベース（ハーバード）、ＳＩＦＴデータベース（ＮＣＢＩ）、３０００ＧｅｎｏｍｅｓＰｒｏｊｅｃｔデータベース、ＤａｔａｂａｓｅｏｆＧｅｎｏｍｉｃＶａｒｉａｎｔｓデータベース（ＥＢＩ）、Ｂｉｏｍａｒｔデータベース（ＥＢＩ）、ＧｅｎｅＯｎｔｏｌｏｇｙデータベース（公共）、ＢｉｏＣｙｃ／ＨｕｍａｎＣｙｃデータベース、ＫＥＧＧパスウェイデータベース、Ｒｅａｃｔｏｍｅデータベース、ＰａｔｈｗａｙＩｎｔｅｒａｃｔｉｏｎデータベース（ＮＩＨ）、Ｂｉｏｃａｒｔａデータベース、ＰＡＮＴＨＥＲデータベースなど）および／または私的なデータベースにアクセスするように設計することができる。

様々な実施形態において、ＳＮＰは、ハプロタイプ７１０の局所的デノボアセンブリ（ｄｅ−ｎｏｖｏａｓｓｅｍｂｌｙ）を介して呼び出すことができる。様々な実施形態において、異数性（ａｎｅｕｐｌｏｉｄａｙ）は、異数性コーラー７１４を用いて呼び出すことができる。様々な実施形態において、コピー数バリアントＣＮＶ（ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｎｔ））は、修正されたＣＮＶコーラー７１２を用いて識別することができる。修正されたＣＮＶコーラーは、正常な試料に対する標準化によって、生物的変動と技術的変動を識別するように設計することができる。技術的変動は、技術におけるバイアスに起因して起こり得る、例えば、ゲノム中のいくつかの領域は、高ＧＣ含量バイアス（すなわち、領域中のＧおよびＣ塩基の割合ならびに領域にマッピングされる断片の数）、増幅バイアス、リンカーライゲーションなどのために、配列決定されたときにより多いまたはより少ない読み取りデータを有することができ、そのため、本当のＣＮＶ欠失または重複でなく、単に実験上の人為現象である。他方、生物学的変動は、ゲノム中の実際のＣＮＶ欠失／重複によるものである。例えば、検査されている試料（例えば、組織、胚など）のゲノム領域（すなわち、染色体上の位置）がＣＮＶ欠失を有する場合、その領域中により少ない読み取りデータを有し、ゲノムがＣＮＶ重複を有する場合、その領域中により多くの読み取りデータを有することを意味する。様々な実施形態において、技術的変動からのバイアスを除去し、「本当の」生物学的変動を「偽の」技術的変動と識別することを可能にするために、サーキュラー・バイナリー・セグメンテーション（ＣＢＳ）をベースとするアルゴリズムが適用され、内挿された一変量平滑化モデルを用いてスプライン標準化が行われる。

すなわち、ある試料の領域を以前に検査された全ての他の試料と比較するために、標準化が行われる。技術的変動が存在すれば、試料検査バッチ内の全ての試料（すなわち、増幅および配列決定ワークフロー工程を一緒に通過する試料）に影響を及ぼし、試料のバッチ内の１つの試料だけに影響を及ぼすのではないという論理である。試料が、同じ試料バッチの他の試料中にも見られる、領域中の読み取りデータの量の低下を示す場合には、技術的変動であったと結論付けるのが安全である。しかしながら、低下が、試料バッチ中のある試料中でのみ見られ、同じ試料バッチ中の別の試料中では見られない場合には、生物学的変動である可能性が極めて高い。この比較は、全ての試料が同一の尺度に標準化されている場合にのみ行うことができる。これを行うために、目的の遺伝子領域は、通例、約１００ｂｐの多くの小さな区間に分割され、各領域に対して、試料の平均深度（すなわち、アラインされた読み取りデータの量）が計算される。個別の区間が変動を示すとしても、各領域中の著しい変動のみが検出可能であるようにより小さな誤差を除去するように、スプライン標準化が領域に対する円滑化を行った。次いで、主成分分析（ＰＣＡ）などの技法を用いて有意性を測定することによって、ＣＮＶを識別することができる。

様々な実施形態において、ＣＢＳアルゴリズムは、試料中のＣＮＶに対して、開始および終了位置を識別するように構成されている。すなわち、ＣＢＳアルゴリズムは、試料を通じて複数のパスを実行し、第一のパスでは、アルゴリズムは、試料全体を検索し、読み取りデータ深度の統計的に有意な変化が起こったと思われる（開始、終了）位置タプルのリストを編纂する。これらのタプルのうち、最も劇的な変化を含むタプルがＣＮＶとして識別され、次いで、このタプルの両側の試料２個に対してアルゴリズムが再帰的に再適用される。現在評価されている試料のいずれの部分にも、統計的に有意な読み取りデータ深度の変化が起こらないときに、アルゴリズムが終結する。

換言すれば、全ての小さな区画について、ＣＢＳアルゴリズムはその区画の前および後の区画を比較し、両方が同じ低下／増加を示せば、次の区画に移動する。変動の境界では、一方の側はシグナルを有するが、他方の側は有さず、これは、境界を画するのに役立つ。

様々な実施形態において、ＣＮＶに関して検査されている試料のゲノム中のゲノム領域（すなわち、染色体上の位置）のスプライン標準化の間に、所定の試料に対する読み取りデータを深度によって分割して、各ゲノム領域に対して低い、平均および深い読み取りデータ深度を何が構成するかを確かめるために、分位関数（ｑｕａｎｔｉｌｉｎｇｆｕｎｃｔｉｏｎ）が使用される。次いで、バッチ中の全ての試料にわたって、ゲノム中の各ゲノム領域で中央値読み取りデータ深度を得るために同じ手法が繰り返される。

特定の試料に対して、低い、平均、深いなどによって、これらの読み取りデータ深度を分割する分断点がｘ軸上にプロットされ、試料全体の中央値に対して読み取りデータ深度を分割する分断点がｙ軸上にプロットされる。次いで、これらの（ｘ、ｙ）値は曲線で内挿される。

次に、特定の試料に対して、当該試料中の特定の領域に対する読み取りデータ深度が、ｘ軸上のその領域に対応する曲線上の高さを見ることによって、曲線に対して評価される。これを行うことによって、試料全体の中央値と比較したときに、例えば、低カバレッジ領域の大きな百分率を有する試料は、その低カバリッジ領域の上方部分が平均のカバレッジであるとして再解釈されるように修正されるであろう。次に、試料が、他の試料中にも見られる、領域中の読み取りデータの低下を示す場合、技術的変動として分類することができるが、低下がある試料中でのみ見られ、バッチ中の他の試料中には見られない場合、生物学的変動として分類することができる。これは、特定領域での試料の読み取りデータ深度を、バッチ中の全ての試料にわたるその同じ領域での中央値読み取りデータ深度によって除することによって明らかにされる。

図８は、様々な実施形態にしたがい、胚候補中のコピー数変動を決定するための方法を示すフローチャートである。本明細書に図示されているように、方法８００は、胚候補中のコピー数変動を識別するための例示的ワークフローを詳述する。工程８０２では、複数の受精した胚から胚候補が単離され、容器中に配置される。例えば、胚候補は、それぞれがＩＶＦ移植のための候補であり得る複数の受精した胚から単離することができる。いくつかの実施形態において、胚候補は胚形成の胚盤胞段階にある。いくつかの実施形態において、胚候補はヒト胚である。

典型的には、単離された胚候補が誤った検査結果をもたらし得るゲノム物質で汚染されないことを確保するために、単離工程８０２は、慣用の無菌技術を用いて、または無菌フード（ｈｏｏｄ）中で行われる。

工程８０４では、胚候補は実質的にＤＮＡを含まない培地中でインキュベートされる。典型的には、コピー数変動分析が方法８００を用いて実施されるためのＤＮＡを含まない培地に、十分な量のＤＮＡ断片（すなわち、ゲノム断片）が胚候補から分泌または流出するために（人工授精移植のために胚候補をなお生き続けさせながら）必要とされる長さの期間にわたって、胚がインキュベートされる。いくつかの実施形態において、胚は、最低約１８時間、培養培地中でインキュベートすることができる。他の実施形態において、胚は、約１８時間〜約１４４時間、培養培地中でインキュベートすることができる。このワークフローにおいて使用することができる、ＤＮＡを含まない培地の例は、ＴｈｅＣｏｏｐｅｒＣｏｍｐａｎｉｅｓのＯＲＩＧＩＯＳＥＱＵＥＮＴＩＡＬＢＬＡＳＴ（商標）培養培地である。様々な実施形態において、誤った分析結果または増幅中の人為産物形成の機会を可能な限り低くするために、培地は、単にＤＮＡだけではなく、オリゴヌクレオチドを実質的に含まないことができる。

工程８０６では、培地の一部が増幅容器に移され、前記培地の一部は、胚候補から流出または分泌された１つまたはそれを超えるゲノム断片（すなわち、ＤＮＡ断片）を含む。使用することができる増幅容器の例には、試験管、ピペットチューブ、ペトリ皿または複数区画／ウェルプレート内のウェル／区画が含まれるが、これらに限定されない。

工程８０８では、複数のリンカーセグメントとリガーゼ酵素は、少なくとも１つのゲノムリンカーセグメントと（胚候補からの）少なくとも１つのゲノム断片とを含む連結されたゲノム断片の形成を触媒する条件で、増幅容器に添加される。典型的には、培地から得られるゲノム断片は、「短い」ゲノム断片と考えられる。いくつかの実施形態において、短いゲノム断片は、約３０塩基対（ｂｐ）〜約８００ｂｐの長さを有する。他の実施形態において、短いゲノム断片は、約１５０ｂｐ〜約４００ｂｐの長さを有する。さらに他の実施形態において、短いゲノム断片は、約１０００ｂｐ未満の長さを有する。

ゲノムリンカーセグメントは、既知の長さおよびヌクレオチド配列の、本質的に人工的に作製された二本鎖「結合した」オリゴヌクレオチドセグメントである。いくつかの実施形態において、ゲノムリンカーセグメントは、約３０〜１０００ｂｐの長さである。他の実施形態において、ゲノムリンカーセグメントは、約３０ｂｐ〜約５００ｂｐの長さである。さらに他の実施形態において、ゲノムリンカーセグメントは、約５０ｂｐ〜約１５０ｂｐである。いくつかの実施形態において、ゲノムリンカーセグメントは、ホモポリマーオリゴヌクレオチドセグメントである。他の実施形態において、ゲノムリンカーセグメントは、ヘテロポリマーオリゴヌクレオチドセグメントである。いくつかの実施形態において、ゲノムリンカーセグメントは、平滑末端化された二本鎖オリゴヌクレオチドセグメントである。いくつかの実施形態において、ゲノム断片は、ゲノムリンカーセグメントに連結される前に、上で先述された方法を用いて、酵素的に平滑末端化される。

ゲノムリンカーセグメントにゲノム断片を連結して、連結されたゲノム断片を形成するために、様々な種類の原核生物および真核生物の酵素（すなわち、リガーゼ）を使用することができる。ここで使用することができるリガーゼのいくつかの例には、Ｔ３、Ｔ４、Ｔ７またはリガーゼ１が含まれるがこれらに限定されない。

工程８１０では、連結されたゲノム断片は、増幅容器中で増幅される。様々な実施形態において、連結されたゲノム断片は、ＭＤＡ、ＭＡＬＢＡＣなどのＷＧＡ技術を用いて、サーマルサイクラー（または類似の装置）上で増幅される。

連結された断片はインキュベート培地から単離された元のゲノム断片より著しく長いので、（ゲノム断片を個別的に増幅することと比べると）増幅エラーは著しく低下される。

工程８１２では、増幅された連結されたゲノム断片からの配列情報は、ＮＧＳまたは同等のゲノム配列決定システム上で、連結された断片を配列決定することから取得される。いくつかの実施形態において、配列情報は、（胚候補から単離されたゲノム断片から得られる）ゲノム断片配列読み取りデータと（工程８１０での増幅前に、人工的に作製され、ゲノム断片に連結された）ゲノムリンカーセグメント配列読み取りデータの両方を含む。

工程８１４では、配列情報は、公に利用可能なまたは所有の配列アライメントツールを用いて、参照ゲノムに対してアラインされる。断片配列をアラインするために使用することができる公に利用可能な配列アライメントツールの例には、ＢＬＡＴ、ＢＬＡＳＴ、ＢＷＡ、Ｂｏｗｔｉｅ、ｄｒＦＡＳＴＬＡＳＴ、ＭＯＳＡＩＫ、ＮＥＸＴＧＥＮＭＡＰなどが含まれるが、これらに限定されない。いくつかの実施形態において、ゲノムリンカーセグメントは天然に存在しないので、それらの対応する配列読み取りデータは、参照ゲノムへの配列情報のアライン中に、アルゴリズムによって除去される。すなわち、アライメントツールは、ゲノムリンカーセグメントと関連する既知の配列を差し引き、連結された断片読み取りデータのゲノム断片部分と関連する配列を参照ゲノムにアラインするに過ぎない。

いくつかの実施形態において、アライメントツールは、各ゲノム断片配列読み取りデータに対して参照ゲノム上の最長の合致するアラインメント位置を決定することによって、各ゲノム断片配列読み取りデータに対して最良のアラインメントを選択する。すなわち、ゲノム断片配列読み取りデータ上の塩基の最長の連続する配列が参照ゲノムに合致するアラインメント場所。他の実施形態において、アライメントツールは、連続的であるか否かに関わらず、ゲノム断片配列読み取りデータからの塩基の最大数が合致する参照ゲノム上の位置を決定することによって、各ゲノム断片配列読み取りデータに対して最良のアラインメントを選択する。いくつかの実施形態において、参照ゲノム上の複数の場所に等しく良好にアラインするゲノム断片配列読み取りデータは自動的に捨てられ、使用されない。

工程８１６では、参照ゲノム上の染色体上の位置にアラインされたゲノム断片配列読み取りデータの頻度が頻度閾値から逸脱するときに、胚候補のゲノム中のコピー数変動が識別される。様々な実施形態において、染色体上の位置にアラインされたゲノム断片配列の頻度が頻度閾値（すなわち、正常なゲノム中の断片アラインメント頻度）を下回るときに、逸脱が発生する。すなわち、検査されている試料（例えば、組織、胚など）の染色体上の位置がＣＮＶ欠失を有する場合、正常なゲノム中より、当該位置においてより少ない読み取りデータ（すなわち、アラインされた読み取りデータの頻度）を有するであろう。様々な実施形態において、染色体上の位置にアラインされたゲノム断片配列の頻度が頻度閾値を上回るときに、逸脱が発生する。すなわち、染色体上の位置がＣＮＶ重複を有する場合、正常なゲノム中より、当該領域中により多い読み取りデータを有することを意味する。

図９は、様々な実施形態にしたがい、胚候補中のゲノムの特徴を識別する方法を示すフローチャートである。本明細書に図示されているように、方法９００は、胚候補中のゲノムの特徴を識別するための例示的なワークフローを詳述する。工程９０２において、１つの胚候補が、複数の胚候補から単離される。例えば、胚候補は、それぞれがＩＶＦ移植のための候補であり得る複数の受精した胚から単離することができる。いくつかの実施形態において、胚候補は胚形成の胚盤胞段階にある。いくつかの実施形態において、胚候補はヒト胚である。

工程９０４では、胚候補は実質的にＤＮＡを含まない培地中でインキュベートされる。典型的には、方法９００を用いてコピー数変動分析を実施するためのＤＮＡを含まない培地に、十分な量のＤＮＡ断片（すなわち、ゲノム断片）が胚候補から分泌または流出するために（人工授精移植のために胚候補をなお生き続けさせながら）必要とされる長さの期間にわたって、胚がインキュベートされる。このワークフローにおいて使用することができる、ＤＮＡを含まない培地の例は、ＴｈｅＣｏｏｐｅｒＣｏｍｐａｎｉｅｓのＯＲＩＧＩＯＳＥＱＵＥＮＴＩＡＬＢＬＡＳＴ（商標）培養培地である。様々な実施形態において、誤った分析結果または増幅中の人為産物形成の機会を可能な限り低くするために、培地は、単にＤＮＡだけではなく、オリゴヌクレオチドを実質的に含まないことができる。

工程９０６では、培地の一部が増幅容器に移され、前記培地の一部は、胚候補から流出または分泌された１つまたはそれを超えるゲノム断片（すなわち、ＤＮＡ断片）を含む。使用することができる増幅容器の例には、試験管、ピペットチューブ、ペトリ皿または複数区画／ウェルプレート内のウェル／区画が含まれるが、これらに限定されない。

工程９０８では、複数のリンカーセグメントとリガーゼ酵素は、少なくとも１つのゲノムリンカーセグメントと胚候補からの少なくとも１つのゲノム断片とを含む連結されたゲノム断片の形成を触媒する条件で、増幅容器に添加される。典型的には、培地から単離されるゲノム断片は、「短い」ゲノム断片と考えられる。いくつかの実施形態において、短いゲノム断片は、約３０塩基対（ｂｐ）〜約８００ｂｐの長さを有する。他の実施形態において、短いゲノム断片は、約１５０ｂｐ〜約４００ｂｐの長さを有する。さらに他の実施形態において、短いゲノム断片は、約１０００ｂｐ未満の長さを有する。

ゲノムリンカーセグメントは、既知の長さおよびヌクレオチド配列の、本質的に人工的に作製された二本鎖「結合した」オリゴヌクレオチドセグメントである。いくつかの実施形態において、ゲノムリンカーセグメントは、約３０〜約１０００ｂｐの長さである。他の実施形態において、ゲノムリンカーセグメントは、約３０ｂｐ〜約５００ｂｐの長さである。さらに他の実施形態において、ゲノムリンカーセグメントは、約５０ｂｐ〜約１５０ｂｐである。いくつかの実施形態において、ゲノムリンカーセグメントは、ホモポリマーオリゴヌクレオチドセグメントである。他の実施形態において、ゲノムリンカーセグメントは、ヘテロポリマーオリゴヌクレオチドセグメントである。いくつかの実施形態において、ゲノムリンカーセグメントは、平滑末端化された二本鎖オリゴヌクレオチドセグメントである。いくつかの実施形態において、ゲノム断片は、ゲノムリンカーセグメントに連結される前に、上で先述された方法を用いて、酵素的に平滑末端化される。

工程９１０では、連結されたゲノム断片は、増幅容器中で増幅される。様々な実施形態において、連結されたゲノム断片は、ＭＤＡ、ＭＡＬＢＡＣなどのＷＧＡ技術を用いて、サーマルサイクラー（または類似の装置）上で増幅される。

工程９１２では、増幅された連結されたゲノムの特徴からの配列情報は、ＮＧＳまたは同等のゲノム配列決定システム上で、連結された断片を配列決定することから取得される。いくつかの実施形態において、配列情報は、（胚候補から単離されたゲノム断片から得られる）ゲノム断片配列読み取りデータと（工程９１０での増幅前に、人工的に作製され、ゲノム断片に連結された）ゲノムリンカーセグメント配列読み取りデータの両方を含む。

工程９１４では、配列情報は、公に利用可能なまたは所有の配列アライメントツールを用いて、参照ゲノムに対してアラインされる。断片配列をアラインするために使用することができる公に利用可能な配列アライメントツールの例には、ＢＬＡＴ、ＢＬＡＳＴ、ＢＷＡ、Ｂｏｗｔｉｅ、ｄｒＦＡＳＴＬＡＳＴ、ＭＯＳＡＩＫ、ＮＥＸＴＧＥＮＭＡＰなどが含まれるが、これらに限定されない。いくつかの実施形態において、ゲノムリンカーセグメントは天然に存在しないので、それらの対応する配列読み取りデータは、参照ゲノムへの配列情報のアライン中に、アルゴリズムによって除去される。すなわち、アライメントツールは、ゲノムリンカーセグメントと関連する既知の配列を差し引き、連結された断片読み取りデータのゲノム断片部分と関連する配列を参照ゲノムにアラインするに過ぎない。

工程９１６では、様々な公に利用可能なまたは専売のゲノムの特徴分析ツールまたはコーラーを用いて、アラインされたゲノム断片配列上にゲノムの特徴が識別される。様々な実施形態において、これらのツールまたはコーラーは、ゲノムの特徴を識別するために、様々な公的な（例えば、ＲｅｆＧｅｎｅデータベース（ＵＣＳＣ）、ＡｌｔｅｒｎａｔｉｖｅＳｐｌｉｃｉｎｇデータベース（ＥＢＩ）、ｄｂＳＮＰデータベース（ＮＣＢＩ）、ＧｅｎｏｍｉｃＳｔｒｕｃｔｕｒａｌＶａｒｉａｔｉｏｎデータベース（ＮＣＢＩ）、ＧＥＮＣＯＤＥデータベース（ＵＣＳＣ）、ＰｏｌｙＰｈｅｎデータベース（ハーバード）、ＳＩＦＴデータベース（ＮＣＢＩ）、３０００ＧｅｎｏｍｅｓＰｒｏｊｅｃｔデータベース、ＤａｔａｂａｓｅｏｆＧｅｎｏｍｉｃＶａｒｉａｎｔｓデータベース（ＥＢＩ）、Ｂｉｏｍａｒｔデータベース（ＥＢＩ）、ＧｅｎｅＯｎｔｏｌｏｇｙデータベース（公共）、ＢｉｏＣｙｃ／ＨｕｍａｎＣｙｃデータベース、ＫＥＧＧパスウェイデータベース、Ｒｅａｃｔｏｍｅデータベース、ＰａｔｈｗａｙＩｎｔｅｒａｃｔｉｏｎデータベース（ＮＩＨ）、Ｂｉｏｃａｒｔａデータベース、ＰＡＮＴＨＥＲデータベースなど）および／または私的なデータベースにアクセスするように設計することができる。

図１０は、様々な実施形態にしたがい、連結されたゲノム断片配列読み取りデータからのゲノムの特徴を識別するための方法を示すフローチャートである。本明細書に図示されているように、方法１０００は、増幅され、ＮＧＳまたは同等のゲノム配列決定システム上でその後配列決定された（組織試料から抽出されたゲノム断片に人工的なゲノムリンカーセグメントを連結することによって作製された）連結された断片から得られたゲノム断片配列読み取りデータ上のゲノムの特徴を識別するための例示的なワークフローを詳述する。工程１００２では、ゲノム断片の塩基配列情報を決定するように構成されたゲノム配列決定システムによって生成されたゲノム配列情報（配列読み取りデータ）を分析するために、指示（ソフトウェアまたはハードウェア）がプログラムされた演算装置／サーバ上で、少なくとも１つのゲノムリンカーセグメント配列と組織試料からの少なくとも１つのゲノム断片配列とを含む連結されたゲノム断片読み取りデータが受領される。

ゲノムリンカーセグメントは人工的に作製されているので、その長さおよび塩基配列は既知である（ｉｓｎｋｎｏｗｎ）。いくつかの実施形態において、ゲノムリンカーセグメント読み取りデータは、約３０〜約１０００ｂｐの長さである。他の実施形態において、ゲノムリンカーセグメント読み取りデータは、約３０ｂｐ〜約５００ｂｐの長さである。さらに他の実施形態において、ゲノムリンカーセグメント読み取りは、約５０ｂｐ〜約１５０ｂｐである。いくつかの実施形態において、ゲノムリンカーセグメント読み取りデータは、ホモポリマー配列である。他の実施形態において、ゲノムリンカーセグメント読み取りデータは、ヘテロポリマー配列である。

工程１００４では、工程１００６において、連結されたゲノム断片配列読み取りデータが参照ゲノムにアラインされる前に、連結されたゲノム断片配列読み取りデータのゲノムリンカーセグメント配列部分が差し引かれる。すなわち、ゲノムリンカーセグメントと関連する既知の配列は、まず、連結されたゲノム断片配列読み取りデータから差し引かれ、次いで、連結された断片読み取りデータのゲノム断片部分のみが参照ゲノムにアラインされる。

工程１００８では、様々な公に利用可能なまたは専売のゲノムの特徴分析ツールまたはコーラーを用いて、アラインされたゲノム断片配列上でゲノムの特徴が識別される。様々な実施形態において、これらのツールまたはコーラーは、ゲノムの特徴を識別するために、様々な公的な（例えば、ＲｅｆＧｅｎｅデータベース（ＵＣＳＣ）、ＡｌｔｅｒｎａｔｉｖｅＳｐｌｉｃｉｎｇデータベース（ＥＢＩ）、ｄｂＳＮＰデータベース（ＮＣＢＩ）、ＧｅｎｏｍｉｃＳｔｒｕｃｔｕｒａｌＶａｒｉａｔｉｏｎデータベース（ＮＣＢＩ）、ＧＥＮＣＯＤＥデータベース（ＵＣＳＣ）、ＰｏｌｙＰｈｅｎデータベース（ハーバード）、ＳＩＦＴデータベース（ＮＣＢＩ）、３０００ＧｅｎｏｍｅｓＰｒｏｊｅｃｔデータベース、ＤａｔａｂａｓｅｏｆＧｅｎｏｍｉｃＶａｒｉａｎｔｓデータベース（ＥＢＩ）、Ｂｉｏｍａｒｔデータベース（ＥＢＩ）、ＧｅｎｅＯｎｔｏｌｏｇｙデータベース（公共）、ＢｉｏＣｙｃ／ＨｕｍａｎＣｙｃデータベース、ＫＥＧＧパスウェイデータベース、Ｒｅａｃｔｏｍｅデータベース、ＰａｔｈｗａｙＩｎｔｅｒａｃｔｉｏｎデータベース（ＮＩＨ）、Ｂｉｏｃａｒｔａデータベース、ＰＡＮＴＨＥＲデータベースなど）および／または私的なデータベースにアクセスするように設計することができる。

いくつかの実施形態において、ゲノムの特徴は、挿入／欠失（ＩＮＤＥＬ）、コピー数変動（ＣＮＶ）、一塩基多型（ＳＮＰ）、重複、反転、転座などのゲノムバリアントであり得る。他の実施形態において、ゲノムの特徴は、遺伝子、タンパク質コード配列、ｍＲＮＡ、ｔＲＮＡ、ｒＲＮＡ、反復配列、逆方向反復、ｍｉＲＮＡ、ｓｉＲＮＡなどの何らかの注釈付けられた機能を有するゲノム領域であり得る。さらに別の実施形態において、ゲノムの特徴は、遺伝子発現および活性に影響を及ぼすことができる、ゲノム上の後成的変化（例えば、メチル化、アセチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、シトルリン化など）であり得る。
実験の結果

以下の例示的な例は、本明細書に記載されているソフトウェアアプリケーション、システムおよび方法の代表的な実施形態であり、決して限定することを意図していない。

表１に示されているように、旧来の胚栄養外胚葉生検法と上に開示された胚培養培地法の新規非侵襲性試料採取の両方を用いて、染色体異常（すなわち、ＣＮＶ）に対して２６個の胚を分析した。試料は、直ちに分析されたか、または−２０℃〜−８０℃の範囲の温度条件で保存されたかのいずれかであった。

ＩＬＬＵＭＩＮＡのＶＥＲＩＳＥＱ（商標）ＰＧＳワークフローおよび分析を用いて、それぞれの伝統的な胚生検のＤＮＡを分析した。それぞれの各胚のためのＩＶＦ培養培地を、新規増幅法を用いる非侵襲性分析に供し、ＩＬＬＵＭＩＮＡＮＧＳ配列決定装置上で配列決定し、特注のバイオインフォマティクスパイプラインを用いて、それらの染色体コピー数を計算した。結果は、産業で受容された栄養外胚葉生検法と上に開示されている非侵襲性胚培養培地法との間で、異数性（ａｎｅｕｐｏｌｏｉｄｙ）（染色体異常）および正倍数性（正常な遺伝子構成）において高い一致を明確に示している。さらに、それぞれの各試料にわたって比較された２４個の染色体のそれぞれに対して、高い一致率が存在した。

本明細書に記載されている方法論は、用途に応じて、様々な手段によって実施され得る。例えば、これらの方法論は、ハードウェア、ファームウェア、ソフトウェアまたはこれらのあらゆる組み合わせで実施され得る。ハードウェア実装については、処理ユニットは、１つまたはそれを超える特定用途向け集積回路（ＡＳＩＣ）、デジタルシグナルプロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子機器、本明細書に記載されている機能を実行するために構成されたその他の電子ユニットまたはこれらの組み合わせ内に実装され得る。

様々な実施形態において、本教示の方法は、Ｃ、Ｃ＋＋、Ｐｙｔｈｏｎなどの従来のプログラミング言語で書かれた、ファームウェアおよび／またはソフトウェアプログラムおよびアプリケーションとして実装され得る。ファームウェアおよび／またはソフトウェアとして実装される場合、本明細書に記載された実施形態は、コンピュータに上記方法を実行させるためのプログラムがその中に記憶されている非持続性コンピュータ読み取り可能な媒体上に実装することができる。本明細書に記載されている様々なエンジンは、プロセッサ４０４がこれらのエンジンによって与えられた分析および決定を実行し、メモリ構成要素４０６／４００８／４１０および入力装置４１４を介して与えられたユーザ入力のいずれか１つまたはこれらの組み合わせによって与えられる指示を受ける、図４のコンピュータシステム４００などのコンピュータシステム上に与えることができることが理解されるべきである。

本教示は様々な実施形態とともに記載されているが、本教示がこのような実施形態に限定されることは意図されない。反対に、本教示は、当業者によって理解されるように、様々な代替物、改変物および均等物を包含する。

さらに、様々な実施形態を記述する際に、本明細書は、特定の工程の順序として方法および／または過程を提示し得る。しかしながら、方法または過程が本明細書に記載されている工程の具体的な順序に依存しない程度まで、方法または過程は、記載されている具体的な工程の順序に限定されるべきではない。当業者が理解可能であるように、工程の他の順序が可能であり得る。したがって、本明細書に記載されている工程の具体的な順番は、特許請求の範囲に対する限定として解釈されるべきではない。さらに、方法および／または過程を対象とする請求項は、記載された順番でのそれらの工程の実施に限定されるべきではなく、当業者は、順序が変動され得、様々な実施形態の精神および範囲内にとどまり得ることを容易に理解できる。

本明細書に記載されている実施形態は、携帯用機器（ｈａｎｄ−ｈｅｌｄｄｅｖｉｃｅｓ）、マイクロプロセッサシステム、マイクロプロセッサをベースとするまたはプログラム可能な家庭用電気製品、小型コンピュータ（ｍｉｎｉｃｏｍｐｕｔｅｒｓ）、大型汎用コンピュータ（ｍａｉｎｆｒａｍｅｃｏｍｐｕｔｅｒｓ）などを含む他のコンピュータシステム構成を用いて実施することができる。実施形態は、ネットワークを通じてつながれている遠隔処理装置によって作業が実行される分散コンピューティング環境中でも実施することができる。

本明細書に記載されている実施形態は、コンピュータシステム中に保存されたデータを伴うコンピュータによって実行される様々な作業を使用することができることも理解すべきである。これらの作業は、物理量の物理的操作を必要とする作業である。必ずではないが、通常、これらの量は、保存され、伝達され、統合され、比較され、およびその他操作されることが可能な電気または磁気信号の形態を取る。さらに、実施される操作は、生成する、識別する、決定するまたは比較するなどの用語でしばしば表される。

本明細書に記載されている実施形態の一部を形成する作業のいずれもが、有用な機械作業である。本明細書に記載されている実施形態は、これらの作業を実行するための機器または装置に関する。本明細書に記載されているシステムおよび方法は、必要とされる目的のために特別に構築することができ、またはコンピュータ中に保存されているコンピュータプログラムによって、選択的に起動または設定される汎用コンピュータであり得る。特に、様々な汎用機器は本明細書中の教示に従って記述されたコンピュータプログラムとともに使用され得、または必要とされる作業を実行するためのより特殊化された装置を構築することがより便利であり得る。

ある種の実施形態は、コンピュータ読み取り可能な媒体上のコンピュータ読み取り可能なコードとして具体化されることもできる。コンピュータ読み取り可能な媒体は、データを保存することができるあらゆるデータ記憶装置であり、データはその後コンピュータシステムによって読み取られることができる。コンピュータ読み取り可能な媒体の例には、ハードドライブ、ネットワーク接続ストレージ（ＮＡＳ）、読み出し専用メモリ、ランダムアクセスメモリ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープおよびその他の光学的、フラッシュメモリおよび非光学的データ記憶装置が含まれる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能なコードが分散型様式で保存および実行されるように、ネットワークに接続されたコンピュータシステム上に分散されることもできる。
選択された実施形態の列挙

実施形態１。人工授精（ＩＶＦ）移植のための胚候補中のコピー数変動を決定するための方法が提供され、開示されている。１つの胚候補が、複数の胚から単離される。この胚候補は、実質的にＤＮＡを含まない培地中でインキュベートされる。培地の一部が増幅容器に移され、前記培地の一部は、胚候補から流出または分泌されたゲノム断片を含む。複数のゲノムリンカーセグメントとリガーゼ酵素は、少なくとも１つのゲノムリンカーセグメントと単離された胚候補からの少なくとも１つのゲノム断片とを含む連結されたゲノム断片の形成を触媒する条件で、増幅容器に添加される。連結されたゲノム断片は、増幅容器中で増幅される。配列情報が、増幅された連結されたゲノム断片から取得される。配列情報は、参照ゲノムに対してアラインされる（マッピングされる）。参照ゲノム上の染色体上の位置にアラインされたゲノム断片配列読み取りデータの頻度が頻度閾値から逸脱するときに、胚候補中で、コピー数変動が識別される。

実施形態２。前記連結されたゲノム断片配列を前記参照ゲノムにアラインさせる前に、前記連結されたゲノム断片配列から前記ゲノムリンカーセグメントに関連する配列情報を差し引くことをさらに含む、実施形態１に記載の方法。

実施形態３。各染色体上の位置にアラインされたゲノム断片配列読み取りデータの前記頻度を標準化すること、および各染色体上の位置に対して頻度閾値を決定することをさらに含む、実施形態２に記載の方法。

実施形態４。前記識別された頻度閾値からの前記識別された逸脱が技術的バイアスに起因するかどうかを決定するために、サーキュラー・バイナリー・セグメンテーション（ＣＢＳ）分析を適用することをさらに含む、実施形態３に記載の方法。

実施形態５。前記標準化が、スプライン標準化法を用いて実施される、実施形態３に記載の方法。

実施形態６。ゲノム断片末端を前記ゲノムリンカーセグメントに連結する前に、改変されたポリメラーゼを用いて、前記ゲノム断片末端を平滑末端化することをさらに含む、実施形態１に記載の方法。

実施形態７。前記改変されたポリメラーゼがクレノウＴ４ＤＮＡポリメラーゼである、実施形態６に記載の方法。

実施形態８。前記リガーゼ酵素が、Ｔ３、Ｔ４またはＴ７原核生物ＤＮＡリガーゼの１つである、実施形態１に記載の方法。

実施形態９。前記胚候補がヒト胚である、実施形態１に記載の方法。

実施形態１０。前記胚候補が胚盤胞である、実施形態１に記載の方法。

実施形態１１。前記頻度閾値が、正常な染色体にマッピングされるゲノム断片読み取りデータの頻度である、実施形態１に記載の方法。

実施形態１２。胚候補中のゲノムの特徴を識別するための方法が提供され、開示されている。１つの胚候補が、複数の胚候補から単離される。この胚候補は、実質的にＤＮＡを含まない培地中でインキュベートされる。培地の一部が増幅容器に移され、前記培地の一部は、胚候補から流出または分泌されたさらに１つのゲノム断片を含む。複数のゲノムリンカーセグメントとリガーゼ酵素は、少なくとも１つのゲノムリンカーセグメントと単離された胚候補からの少なくとも１つのゲノム断片とを含む連結されたゲノム断片の形成を触媒する条件で、増幅容器に添加される。連結されたゲノム断片は、増幅容器中で増幅される。配列情報が、連結されたゲノム断片から取得される。配列情報は、参照ゲノムに対してアラインされる。ゲノムの特徴は、アラインされたゲノム断片配列上に識別される。

実施形態１３。前記連結されたゲノム断片配列を前記参照ゲノムにアラインさせる前に、前記連結されたゲノム断片配列から前記ゲノムリンカーセグメントに関連する配列情報を差し引くことをさらに含む、実施形態１２に記載の方法。

実施形態１４。ゲノム断片末端をゲノムリンカーセグメントに連結する前に、改変されたポリメラーゼを用いて、前記ゲノム断片末端を平滑末端化することをさらに含む、実施形態１２に記載の方法。

実施形態１５。前記改変されたポリメラーゼがクレノウＴ４ＤＮＡポリメラーゼである、実施形態１４に記載の方法。

実施形態１６。前記リガーゼ酵素が、Ｔ３、Ｔ４またはＴ７原核生物ＤＮＡリガーゼの１つである、実施形態１２に記載の方法。

実施形態１７。前記胚候補がヒト胚である、実施形態１２に記載の方法。

実施形態１８。前記胚候補が胚盤胞である、実施形態１２に記載の方法。

実施形態１９。前記ゲノムの特徴が一塩基多型である、実施形態１２に記載の方法。

実施形態２０。前記ゲノムの特徴がインデルである、実施形態１２に記載の方法。

実施形態２１。前記ゲノムの特徴が反転である、実施形態１２に記載の方法。

実施形態２２。胚候補中のゲノムの特徴を識別するためのシステムが提供される。システムは、ゲノミクス配列決定装置と、演算装置と、ディスプレイとを備える。

前記ゲノム配列決定装置は、胚候補に由来する連結されたゲノム断片から配列情報を取得するように構成されている。連結されたゲノム断片はそれぞれ、少なくとも１つのゲノムリンカーセグメントと胚候補からの少なくとも１つのゲノム断片とを含む。

前記演算装置はゲノム配列決定装置に通信可能に接続されており、配列アラインメントエンジンとゲノムの特徴識別エンジンとを備える。配列アラインメントエンジンは、連結されたゲノム断片のゲノムリンカーセグメント部分と関連する配列情報を差し引き、ゲノム断片配列を参照ゲノムにアラインさせるように構成されている。ゲノムの特徴識別エンジンは、アラインされたゲノム断片配列中のゲノムの特徴を識別するように構成されている。ディスプレイは、演算装置に通信可能に接続されており、識別されたゲノムの特徴を含む報告を表示するように構成されている。

実施形態２３。前記ゲノムの特徴がコピー数変動である、実施形態２２に記載のシステム。

実施形態２４。前記ゲノムの特徴識別エンジンが、参照ゲノム上の各染色体上の位置にアラインされたゲノム断片配列の頻度を標準化し、各染色体上の位置に対して、コピー数変動コールを作るために、ゲノム断片配列アラインメント頻度閾値を決定し、および前記頻度閾値から逸脱するゲノム断片配列アラインメント頻度を有する各染色体上の位置（ｐｏｓｉｔｏｎ）に対してコピー数変動コールを作るように、さらに構成されている、実施形態２３に記載のシステム。

実施形態２５。前記識別された頻度閾値からの前記識別された逸脱が技術的バイアスに起因するかどうかを決定するために、サーキュラー・バイナリー・セグメンテーション（ＣＢＳ）分析を適用するように、前記ゲノムの特徴識別エンジンが、さらに構成されている、実施形態２４に記載のシステム。

実施形態２６。前記標準化が、スプライン標準化法を用いて実施される、実施形態２４に記載のシステム。

実施形態２７。逸脱が、染色体上の位置にアラインされたゲノム断片配列の頻度が頻度閾値を下回るときに発生する、実施形態２４に記載のシステム。

実施形態２８。逸脱が、染色体上の位置にアラインされたゲノム断片配列の頻度が頻度閾値を上回るときに発生する、実施形態２４に記載のシステム。

実施形態２９。前記胚候補がヒト胚である、実施形態２２に記載のシステム。

実施形態３０。前記胚候補が胚盤胞である、実施形態２２に記載のシステム。

実施形態３１。前記ゲノムの特徴が一塩基多型である、実施形態２２に記載のシステム。

実施形態３２。前記ゲノムの特徴がインデルである、実施形態２２に記載のシステム。

実施形態３３。前記ゲノムの特徴が反転である、実施形態２２に記載のシステム。

実施形態３４。前記ゲノムリンカーセグメント配列が既知の配列である、実施形態２２に記載のシステム。

実施形態３５。組織試料中のゲノムの特徴を識別するための方法が提供され、開示されている。少なくとも１つのゲノムリンカーセグメント配列と組織試料からの少なくとも１つのゲノム断片配列とを含む連結されたゲノム断片配列読み取りデータが受領される。連結されたゲノム断片配列読み取りデータのゲノムリンカーセグメント配列部分が差し引かれる。連結されたゲノム断片配列読み取りデータは、参照ゲノムにアラインされる（マッピングされる）。ゲノムの特徴は、アラインされたゲノム断片配列上に識別される。

実施形態３６。参照ゲノム上の１を超える場所にマッピングされる連結されたゲノム断片配列読み取りデータを削除することをさらに含む、実施形態３５に記載の方法。

実施形態３７。前記ゲノムの特徴がコピー数変動である、実施形態３５に記載の方法。

実施形態３８。各染色体上の位置にアラインされたゲノム断片配列の頻度を標準化すること、各染色体上の位置に対して、コピー数変動コールを作るために、ゲノム断片配列アラインメント頻度閾値を決定すること、および前記頻度閾値から逸脱するゲノム断片配列アラインメント頻度を有する各染色体上の位置（ｐｏｓｉｔｏｎ）に対してコピー数変動コールを作ることをさらに含む、実施形態３７に記載の方法。

実施形態３９。前記頻度閾値からの識別された逸脱が技術的バイアスに起因して識別されているかどうかを決定するために、サーキュラー・バイナリー・セグメンテーション（ＣＢＳ）分析を適用することをさらに含む、実施形態３８に記載の方法。

実施形態４０。逸脱が、染色体上の位置にアラインされたゲノム断片配列の頻度が頻度閾値を下回るときに発生する、実施形態３８に記載の方法。

実施形態４１。逸脱が、染色体上の位置にアラインされたゲノム断片配列の頻度が前記頻度閾値を上回るときに発生する、実施形態３８に記載の方法。

実施形態４２。前記組織試料が胚組織である、実施形態３５に記載の方法。

実施形態４３。前記組織試料が胚盤胞である、請求項３５に記載の方法。

実施形態４４。前記ゲノムの特徴が一塩基多型である、請求項３５に記載の方法。

実施形態４５。前記ゲノムの特徴がインデルである、請求項３５に記載の方法。

実施形態４６。前記ゲノムの特徴が反転である、請求項３５に記載の方法。

実施形態４７。組織試料中のゲノムの特徴を識別するための方法をコンピュータに実行させるためのプログラムがその中に保存されている非一時的なコンピュータ読み取り可能な媒体が提供される。少なくとも１つのゲノムリンカーセグメント配列と組織試料からの少なくとも１つのゲノム断片配列とを含む連結されたゲノム断片配列読み取りデータが受領される。連結されたゲノム断片配列読み取りデータのゲノムリンカーセグメント配列部分が差し引かれる。連結されたゲノム断片配列読み取りデータは、参照ゲノムにアラインされる（マッピングされる）。ゲノムの特徴は、アラインされたゲノム断片配列上に識別される。

実施形態４８。参照ゲノム上の１を超える場所にマッピングされる連結されたゲノム断片配列読み取りデータを削除することをさらに含む、実施形態４７に記載の方法。

実施形態４９。ゲノムの特徴がコピー数変動である、実施形態４７に記載の方法。

実施形態５０。前記ゲノムの特徴がインデルである、実施形態４７に記載の方法。

実施形態５１。前記ゲノムの特徴が反転である、実施形態４７に記載の方法。

実施形態５２。各染色体上の位置にアラインされたゲノム断片配列の頻度を標準化すること、各染色体上の位置に対して、コピー数変動コールを作るために、ゲノム断片配列アラインメント頻度閾値を決定すること、および前記頻度閾値から逸脱するゲノム断片配列アラインメント頻度を有する各染色体上の位置（ｐｏｓｉｔｏｎ）に対してコピー数変動コールを作ることをさらに含む、実施形態４９に記載の方法。

実施形態５３。前記頻度閾値からの識別された逸脱が技術的バイアスに起因して識別されているかどうかを決定するために、サーキュラー・バイナリー・セグメンテーション（ＣＢＳ）分析を適用することをさらに含む、実施形態５２に記載の方法。

実施形態５４。逸脱が、染色体上の位置にアラインされたゲノム断片配列の頻度が頻度閾値を下回るときに発生する、実施形態５２に記載の方法。

実施形態５５。逸脱が、染色体上の位置にアラインされたゲノム断片配列の頻度が頻度閾値を上回るときに発生する、実施形態５２に記載の方法。

実施形態５６。前記組織試料が胚組織である、実施形態４７に記載の方法。

実施形態５７。前記組織試料が胚盤胞である、実施形態４７に記載の方法。

実施形態５８。前記ゲノムの特徴が一塩基多型である、実施形態４７に記載の方法。

実施形態５９。前記ゲノムの特徴がインデルである、実施形態４７に記載の方法。

実施形態６０。前記ゲノムの特徴が反転である、実施形態４７に記載の方法。

Claims

人工授精（ＩＶＦ）移植のための胚候補中のコピー数変動を決定するための方法であって、
複数の胚から胚候補を単離すること、
実質的にＤＮＡを含まない培地中で前記胚候補をインキュベートすること、
前記培地の一部であって前記胚候補から流出または分泌されたゲノム断片を含む前記培地の一部を増幅容器に移すこと、
少なくとも１つのゲノムリンカーセグメントと前記単離された胚候補からの少なくとも１つのゲノム断片とを含む連結されたゲノム断片の形成を触媒する条件で、複数のゲノムリンカーセグメントとリガーゼ酵素とを前記増幅容器に添加すること、
前記増幅容器中の前記連結されたゲノム断片を増幅すること、
前記増幅された連結されたゲノム断片から配列情報を取得すること、
前記配列情報を参照ゲノムに対してアラインさせること、および
前記参照ゲノム上の染色体上の位置にアラインされたゲノム断片配列読み取りデータの頻度が頻度閾値から逸脱しているときに、前記胚候補中のコピー数変動を識別すること
を含む、方法。
前記連結されたゲノム断片配列を前記参照ゲノムにアラインさせる前に、前記連結されたゲノム断片配列から前記ゲノムリンカーセグメントに関連する配列情報を差し引くことをさらに含む、請求項１に記載の方法。
各染色体上の位置にアラインされたゲノム断片配列読み取りデータの前記頻度を標準化すること、および
各染色体上の位置に対して頻度閾値を決定すること
をさらに含む、請求項２に記載の方法。
前記識別された頻度閾値からの識別された逸脱が技術的バイアスに起因するかどうかを決定するために、サーキュラー・バイナリー・セグメンテーション（ＣＢＳ）分析を適用することをさらに含む、請求項３に記載の方法。
前記標準化が、スプライン標準化法を用いて実施される、請求項３に記載の方法。
ゲノム断片末端をゲノムリンカーセグメントに連結する前に、改変されたポリメラーゼを用いて、前記ゲノム断片末端を平滑末端化することをさらに含む、請求項１に記載の方法。
前記改変されたポリメラーゼがクレノウＴ４ＤＮＡポリメラーゼである、請求項６に記載の方法。
前記リガーゼ酵素が、Ｔ３、Ｔ４またはＴ７原核生物ＤＮＡリガーゼの１つである、請求項１に記載の方法。
前記胚候補がヒト胚である、請求項１に記載の方法。
前記胚候補が胚盤胞である、請求項１に記載の方法。
前記頻度閾値が、正常な染色体にマッピングされるゲノム断片読み取りデータの頻度である、請求項１に記載の方法。
胚候補中のゲノムの特徴を識別するための方法であって、
複数の胚候補から１つの胚候補を単離すること、
実質的にＤＮＡを含まない培地中で前記胚候補をインキュベートすること、
前記培地の一部であって前記胚候補から流出または分泌されたさらに１つのゲノム断片を含む前記培地の一部を増幅容器に移すこと、
少なくとも１つのゲノムリンカーセグメントと前記単離された胚候補からの少なくとも１つのゲノム断片とを含む連結されたゲノム断片の形成を触媒する条件で、複数のゲノムリンカーセグメントとリガーゼ酵素とを前記増幅容器に添加すること、
前記増幅容器中の前記連結されたゲノム断片を増幅すること、
前記連結されたゲノム断片から配列情報を取得すること、
前記配列情報を参照ゲノムに対してアラインさせること、および
前記アラインされたゲノム断片配列上のゲノムの特徴を識別すること
を含む、方法。
前記連結されたゲノム断片配列を前記参照ゲノムにアラインさせる前に、前記連結されたゲノム断片配列から前記ゲノムリンカーセグメントに関連する配列情報を差し引くことをさらに含む、請求項１２に記載の方法。
ゲノム断片末端をゲノムリンカーセグメントに連結する前に、改変されたポリメラーゼを用いて、前記ゲノム断片末端を平滑末端化することをさらに含む、請求項１２に記載の方法。
前記改変されたポリメラーゼがクレノウＴ４ＤＮＡポリメラーゼである、請求項１４に記載の方法。
前記リガーゼ酵素が、Ｔ３、Ｔ４またはＴ７原核生物ＤＮＡリガーゼのうちの１つである、請求項１２に記載の方法。
前記胚候補がヒト胚である、請求項１２に記載の方法。
前記胚候補が胚盤胞である、請求項１２に記載の方法。
前記ゲノムの特徴が一塩基多型である、請求項１２に記載の方法。
前記ゲノムの特徴がインデルである、請求項１２に記載の方法。
前記ゲノムの特徴が反転である、請求項１２に記載の方法。
胚候補中のゲノムの特徴を識別するためのシステムであって、
胚候補に由来する連結されたゲノム断片であって、それぞれが少なくとも１つのゲノムリンカーセグメントと前記胚候補からの少なくとも１つのゲノム断片とを含む連結されたゲノム断片から配列情報を取得するように構成されたゲノム配列決定装置と、
前記連結されたゲノム断片の前記ゲノムリンカーセグメント部分と関連する配列情報を差し引き、前記ゲノム断片配列を参照ゲノムにアラインさせるように構成された配列アラインメントエンジンと、
前記アラインされたゲノム断片配列中のゲノムの特徴を識別するように構成されたゲノムの特徴識別エンジンと
を備える、前記ゲノム配列決定装置に通信可能に接続された演算装置と、ならびに
前記演算装置に通信可能に接続され、および前記識別されたゲノムの特徴を含む報告を表示するように構成されたディスプレイと
を備える、システム。
前記ゲノムの特徴がコピー数変動である、請求項２２に記載のシステム。
前記ゲノムの特徴識別エンジンが、
参照ゲノム上の各染色体上の位置にアラインされたゲノム断片配列の頻度を標準化し、
各染色体上の位置に対して、コピー数変動コールを作るために、ゲノム断片配列アラインメント頻度閾値を決定し、および
前記頻度閾値から逸脱するゲノム断片配列アラインメント頻度を有する各染色体上の位置に対してコピー数変動コールを作るように、
さらに構成されている、請求項２３に記載のシステム。
前記ゲノムの特徴識別エンジンが、
前記識別された頻度閾値からの識別された逸脱が技術的バイアスに起因しているかどうかを決定するために、サーキュラー・バイナリー・セグメンテーション（ＣＢＳ）分析を適用するように、
さらに構成されている、請求項２４に記載のシステム。
前記標準化が、スプライン標準化法を用いて実施される、請求項２４に記載のシステム。
逸脱が、染色体上の位置にアラインされたゲノム断片配列の頻度が前記頻度閾値を下回るときに発生する、請求項２４に記載のシステム。
逸脱が、染色体上の位置にアラインされたゲノム断片配列の頻度が前記頻度閾値を上回るときに発生する、請求項２４に記載のシステム。
前記胚候補がヒト胚である、請求項２２に記載のシステム。
前記胚候補が胚盤胞である、請求項２２に記載のシステム。
前記ゲノムの特徴が一塩基多型である、請求項２２に記載のシステム。
前記ゲノムの特徴がインデルである、請求項２２に記載のシステム。
前記ゲノムの特徴が反転である、請求項２２に記載のシステム。
前記ゲノムリンカーセグメント配列が既知の配列である、請求項２２に記載のシステム。
組織試料中のゲノムの特徴を識別するための方法であって、
少なくとも１つのゲノムリンカーセグメント配列と組織試料からの少なくとも１つのゲノム断片配列とを含む連結されたゲノム断片配列読み取りデータを受領すること、
前記連結されたゲノム断片配列読み取りデータのゲノムリンカーセグメント配列部分を差し引くこと、
前記連結されたゲノム断片配列読み取りデータを参照ゲノムにアラインすること、および
前記アラインされたゲノム断片配列上のゲノムの特徴を識別すること
を含む、方法。
参照ゲノム上の１を超える場所にマッピングされる連結されたゲノム断片配列読み取りデータを削除することをさらに含む、請求項３５に記載の方法。
前記ゲノムの特徴がコピー数変動である、請求項３５に記載の方法。
各染色体上の位置にアラインされたゲノム断片配列の頻度を標準化すること、
各染色体上の位置に対して、コピー数変動コールを作るために、ゲノム断片配列アラインメント頻度閾値を決定すること、および
前記頻度閾値から逸脱するゲノム断片配列アラインメント頻度を有する各染色体上の位置（ｐｏｓｉｔｏｎ）に対してコピー数変動コールを作ること
をさらに含む、請求項３７に記載の方法。
前記頻度閾値からの前記識別された逸脱が技術的バイアスに起因して識別されているかどうかを決定するために、サーキュラー・バイナリー・セグメンテーション（ＣＢＳ）分析を適用することをさらに含む、請求項３８に記載の方法。
逸脱が、染色体上の位置にアラインされたゲノム断片配列の頻度が前記頻度閾値を下回るときに発生する、請求項３８に記載の方法。
逸脱が、染色体上の位置にアラインされたゲノム断片配列の頻度が前記頻度閾値を上回るときに発生する、請求項３８に記載の方法。
前記組織試料が胚組織である、請求項３５に記載の方法。
前記組織試料が胚盤胞である、請求項３５に記載の方法。
前記ゲノムの特徴が一塩基多型である、請求項３５に記載の方法。
前記ゲノムの特徴がインデルである、請求項３５に記載の方法。
前記ゲノムの特徴が反転である、請求項３５に記載の方法。
組織試料中のゲノムの特徴を識別するための方法をコンピュータに実行させるためのプログラムがその中に保存されている非一時的なコンピュータ読み取り可能な媒体であって、前記方法が、
少なくとも１つのゲノムリンカーセグメント配列と組織試料からの少なくとも１つのゲノム断片配列とを含む連結されたゲノム断片配列読み取りデータを受領すること、
前記連結されたゲノム断片配列読み取りデータのゲノムリンカーセグメント配列部分を差し引くこと、
前記連結されたゲノム断片配列読み取りデータを参照ゲノムにアラインすること、および
前記アラインされたゲノム断片配列上のゲノムの特徴を識別すること
を含む、媒体。
参照ゲノム上の１を超える場所にマッピングされる連結されたゲノム断片配列読み取りデータを削除することをさらに含む、請求項４７に記載の方法。
前記ゲノムの特徴がコピー数変動である、請求項４７に記載の方法。
前記ゲノムの特徴がインデルである、請求項４７に記載の方法。
前記ゲノムの特徴が反転である、請求項４７に記載の方法。
各染色体上の位置にアラインされたゲノム断片配列の頻度を標準化すること、
各染色体上の位置に対して、コピー数変動コールを作るために、ゲノム断片配列アラインメント頻度閾値を決定すること、および
前記頻度閾値から逸脱するゲノム断片配列アラインメント頻度を有する各染色体上の位置に対してコピー数変動コールを作ること
をさらに含む、請求項４９に記載の方法。
前記頻度閾値からの前記識別された逸脱が技術的バイアスに起因して識別されているかどうかを決定するために、サーキュラー・バイナリー・セグメンテーション（ＣＢＳ）分析を適用することをさらに含む、請求項５２に記載の方法。
逸脱が、前記染色体上の位置にアラインされたゲノム断片配列の頻度が前記頻度閾値を下回るときに発生する、請求項５２に記載の方法。
逸脱が、前記染色体上の位置にアラインされたゲノム断片配列の頻度が頻度閾値を上回るときに発生する、請求項５２に記載の方法。
前記組織試料が胚組織である、請求項４７に記載の方法。
前記組織試料が胚盤胞である、請求項４７に記載の方法。
前記ゲノムの特徴が一塩基多型である、請求項４７に記載の方法。
前記ゲノムの特徴がインデルである、請求項４７に記載の方法。
前記ゲノムの特徴が反転である、請求項４７に記載の方法。