JP2022549737A

JP2022549737A - Ｉｎｖｉｔｒｏ受精に関する多遺伝子リスクスコア

Info

Publication number: JP2022549737A
Application number: JP2022519991A
Authority: JP
Inventors: クマル，アカシュ; エム．イム，ケイト; べコール，エラン; ガルハルド，ルイーザ; ラオ，アブハイラム; エヌジー，ポーリン; ラビノヴィッチ，マシュー
Original assignee: マイオーム，インコーポレイテッド
Priority date: 2019-09-30
Filing date: 2020-09-30
Publication date: 2022-11-28
Also published as: EP4041307A4; US20220367063A1; WO2021067417A1; EP4041307A1; CN114728069A

Abstract

胚に関連する疾患リスクを決定するための方法であって、（ｉ）胚における１つ以上の遺伝的バリアント、（ｉｉ）父方ハプロタイプ、（ｉｉｉ）母方ハプロタイプ、（ｉｖ）父方ハプロタイプの伝播確率、および（ｖ）母方ハプロタイプの伝播確率に基づいて胚のゲノムを構築することと；胚の構築されたゲノムに基づいて、多遺伝子リスクスコアを胚に割り当てることと；多遺伝子リスクスコアに基づいて、胚に関連する疾患リスクを決定することと；父方ゲノムおよび／または母方ゲノムから胚への、疾患を引き起こす遺伝的バリアントおよび／またはハプロタイプの伝播を決定することと；を含む方法が提供される。また、母親と将来の精子提供者との将来の複数の子供の疾患のリスクの範囲を決定する方法も提供される。また、個人における疾患のリスクを決定する方法も提供される。【選択図】図１

Description

関連出願との相互参照
本出願は、２０１９年９月３０日に出願された米国仮出願第６２／９０８，３７４号、および２０２０年８月６日に出願された米国仮出願第６３／０６２，０４４号の利益を主張し、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。
技術分野

疾患のリスクを決定する方法について記載する。

現在、ＩＶＦ診療機関では、家族内で発生することが知られている異数性および単一遺伝子性障害について検査を行っている。しかし、２組に１組のカップルは、遺伝的、環境的、ライフスタイルのリスク因子の組み合わせによって影響を受ける一般的な疾患の家族歴を有する。さらに、現在、精子提供者診療機関は、単一遺伝子性障害によって引き起こされる疾患のサブセットを発症する傾向について検査を行っている。当技術分野では、個人および将来の予想される子供における遺伝性疾患のリスクを予測する能力を改善する必要がある。

胚に関連する疾患リスクを決定するための方法が提供され、本方法は、父方対象に関連するゲノムを特定するために、父方対象から得られた生物学的サンプルに対して全ゲノム配列決定を実施することと；母方対象に関連するゲノムを特定するために、母方対象から得られた生物学的サンプルに対して全ゲノム配列決定を実施することと；父方ハプロタイプを特定するために、父方対象に関連するゲノムのフェージングを行うことと；母方ハプロタイプを特定するために、母方対象に関連するゲノムのフェージングを行うことと；胚における１つ以上の遺伝的バリアントを特定するために、胚に対してスパース遺伝子型決定（ｓｐａｒｓｅｇｅｎｏｔｙｐｉｎｇ）を実施することと；（ｉ）胚における１つ以上の遺伝的バリアント、（ｉｉ）父方ハプロタイプ、（ｉｉｉ）母方ハプロタイプ、（ｉｖ）父方ハプロタイプの伝播確率、および（ｖ）母方ハプロタイプの伝播確率に基づいて胚のゲノムを構築することと；胚の構築されたゲノムに基づいて、多遺伝子リスクスコアを胚に割り当てることと；多遺伝子リスクスコアに基づいて、胚に関連する疾患リスクを決定することと；父方ゲノムおよび／または母方ゲノムから胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび／またはハプロタイプの伝播を決定することと；多遺伝子性疾患リスク、ならびに父方ゲノムおよび／または母方ゲノムから胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび／またはハプロタイプの伝播に基づいて、胚に関連する複合疾患リスクを決定することと、を含む。

胚に関連する疾患リスクスコアを出力するための方法も提供され、本方法は、父方ゲノムデータおよび母方ゲノムデータを含む第１のデータセットを受信することと；リファレンスゲノムに対して配列リードをアラインし、父方ゲノムデータおよび母方ゲノムデータを使用して、ゲノムの遺伝子型を決定することと；父方スパースゲノムデータおよび母方スパースゲノムデータを含む第２のデータセットを受信することと；父方ハプロタイプおよび母方ハプロタイプを特定するために、父方のゲノムデータおよび母方のゲノムデータのフェージングを行うことと；胚のスパースゲノムデータ、父方伝播確率および母方伝播確率を含む第３のデータセットを受信することと；胚再構築アルゴリズムを（ｉ）父方ハプロタイプおよび母方ハプロタイプ、（ｉｉ）胚のスパースゲノムデータ、ならびに（ｉｉｉ）父方ハプロタイプおよび母方ハプロタイプのそれぞれの伝播確率に適用して、胚の構築されたゲノムを決定することと；胚の構築されたゲノムに、多遺伝子モデルを適用することと；胚に関連する疾患リスクを出力することと；父方ゲノムおよび／または母方ゲノムから胚への、疾患を引き起こす遺伝的バリアントおよび／またはハプロタイプの伝播を決定することと；胚において疾患を引き起こすバリアントおよび／またはハプロタイプの有無を出力することと、を含む。いくつかの方法は、多遺伝子性疾患リスク、ならびに父方ゲノムおよび／または母方ゲノムから胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび／またはハプロタイプの伝播に基づいて、胚に関連する複合疾患リスクを出力することをさらに含む。

いくつかの態様では、本方法は、祖父方ゲノムデータおよび／または祖母方ゲノムデータを使用して、父方ハプロタイプおよび／または母方ハプロタイプを決定することをさらに含む。いくつかの態様では、本方法は、集団の遺伝子型データおよび／または集団の対立遺伝子頻度を使用して、胚の疾患リスクを決定することをさらに含む。いくつかの態様では、方法は、疾患の家族歴および／または他のリスク因子を使用して、疾患リスクを予測することをさらに含む。

いくつかの態様では、全ゲノム配列決定は、標準的な、ＰＣＲフリーの、リンクドリード（すなわち、合成ロングリード）、またはロングリードプロトコルを使用して実施される。いくつかの態様では、スパース遺伝子型決定は、マイクロアレイ技術、胚生検の次世代配列決定技術、または細胞培養培地の配列決定を使用して実施される。いくつかの態様では、フェージングは、集団ベースおよび／または分子ベースの方法（例えば、リンクドリード）を使用して実施される。いくつかの態様では、多遺伝子リスクスコアは、疾患モデルにおいて部位全体にわたる影響を合計することによって決定される。

いくつかの態様では、集団の遺伝子型データは、ＵＫＢｉｏｂａｎｋにおける少なくとも約３００，０００人の無関係な個人の対立遺伝子頻度および個人の遺伝子型を含む。いくつかの態様では、集団の表現型データは、ＵＫＢｉｏｂａｎｋにおける少なくとも約３００，０００人の無関係な個人についての自己報告および臨床報告された（例えば、ＩＣＤ－１０コード）表現型の両方を含む。いくつかの態様では、集団の遺伝子型データは、ＵＫＢｉｏｂａｎｋにおける少なくとも約３００，０００人の無関係な個人の自己報告データ、およびＵＫＢｉｏｂａｎｋにおけるそれらの個人の親族から得られた情報を含む集団の家族歴データを含む。いくつかの態様では、疾患リスクは、罹患した個人によって共有される遺伝情報の割合によってさらに決定される。

また、１人以上の将来の子供の疾患リスクを決定するための方法も提供され、本方法は、（ｉ）予想される母親と１人以上の将来の精子提供者、または（ｉｉ）予想される父親と１人以上の将来の卵子提供者に対して全ゲノム配列決定を実施することと；（ｉ）予想される母親と１人以上の将来の精子提供者、または（ｉｉ）予想される父親と１人以上の将来の卵子提供者のゲノムのフェージングを行うことと；組換え率の推定に基づいて配偶子をシミュレートすることと；シミュレートされた配偶子を組み合わせて、１人以上の将来の子供のゲノムを生成することと；多遺伝子リスクスコアを割り当てることと；多遺伝子リスクスコアに基づいて、疾患確率の分布を決定することと、を含む。

将来の子供の疾患リスクの確率分布を出力するための方法も提供され、本方法は、予想される母親由来のゲノムデータを含む第１のデータセットを受信することと；１人以上の予想される精子提供者からのゲノムデータを含む１つ以上のデータセットを受信することと；（例えば、ＨａｐＭａｐコンソーシアムから得られる）推定された組換え率を使用して、配偶子をシミュレートすることと；配偶子の将来の組み合わせを使用して、１人以上の将来の子供のゲノムを生成することと；１人以上の将来の子供のそれぞれのゲノムの多遺伝子リスクスコアを推定することと；多遺伝子リスクスコアに基づいて、疾患確率の分布を出力することと、を含む。

また、（ｉ）予想される母親および将来の精子提供者、または（ｉｉ）予想される父親および将来の卵子提供者の将来の子供の疾患リスクの範囲を決定するための方法も提供され、本方法は、（ａ）（ｉ）母方の遺伝子型と１人以上の精子提供者（複数可）の遺伝子型を得るために、予想される母親と１人以上の将来の精子提供者（複数可）に対して、または（ｉｉ）父方の遺伝子型と１人以上の卵子提供者（複数可）の遺伝子型を得るために、予想される父親と１人以上の将来の卵子提供者（複数可）に対して、全ゲノム配列決定を実施することと；（ｂ）（ｉ）母方の遺伝子型と将来の精子提供者の遺伝子型（複数可）、または（ｉｉ）予想される父方の遺伝子型と将来の卵子提供者の遺伝子型（複数可）を使用して、１人以上の将来の子供の可能性のある遺伝子型を推定することと；（ｃ）将来の子供の可能性のある遺伝子型を使用して、将来の子供の可能性のある最も低い多遺伝子リスクスコアを推定することと；（ｄ）将来の子供の可能性のある遺伝子型を使用して、将来の子供の可能性のある最も高い多遺伝子リスクスコアを推定することと、を含む。

また、（ｉ）予想される母親および将来の精子提供者、または（ｉｉ）予想される父親および将来の卵子提供者の将来の子供の疾患リスクの範囲を出力するための方法も提供され、本方法は、（ａ）予想される母親のゲノムデータまたは予想される父親のゲノムデータを含む第１のデータセットを受信することと；（ｂ）１人以上の予想される精子提供者または１人以上の予想される卵子提供者からのゲノムデータを含む１つ以上のデータセットを受信することと；（ｃ）（ｉ）予想される母親と将来の精子提供者（複数可）、または（ｉｉ）予想される父親と将来の卵子提供者（複数可）の遺伝子型を使用して、将来の子供の可能性のある遺伝子型を導出することと；（ｄ）スコアを最小化するモデルにおいて、各部位で、遺伝子型（（ｃ）で導出されたものの）を選択することにより、将来の子供の最低の多遺伝子リスクスコアを推定することと；（ｅ）スコアを最大化するモデルにおいて、各部位で、遺伝子型（（ｃ）で導出されたものの）を選択することにより、将来の子供の最高の多遺伝子リスクスコアを推定することと；（ｆ）（ｄ）および（ｅ）で算出された最低スコアおよび最高スコアを使用して、疾患のリスクの範囲を出力することと、を含む。

いくつかの態様では、本方法は、精子提供者（複数可）に関して高密度の遺伝子型決定アレイを使用し、その後、直接遺伝子型決定されていない目的の部位に遺伝子型の補完を行う。いくつかの態様では、方法は、疾患の家族歴および他の関連するリスク因子を使用して、疾患リスクを決定する。

いくつかの態様では、全ゲノム配列決定は、標準的な、ＰＣＲフリーの、リンクドリード（すなわち、合成ロングリード）、またはロングリードプロトコルを使用して実施される。いくつかの態様では、フェージングは、集団ベースおよび／または分子ベースの方法（例えば、リンクドリード）を使用して実施される。いくつかの態様では、多遺伝子リスクスコアは、疾患モデルにおけるすべての部位全体にわたる影響を合計することによって決定される。

いくつかの態様では、集団の遺伝子型データは、ＵＫＢｉｏｂａｎｋにおける少なくとも約３００，０００人の無関係な個人の対立遺伝子頻度および個人の遺伝子型を含む。いくつかの態様では、集団の表現型データは、ＵＫＢｉｏｂａｎｋにおける少なくとも約３００，０００人の無関係な個人についての自己報告および臨床報告された（例えば、ＩＣＤ－１０コード）表現型の両方を含む。いくつかの態様では、集団の家族歴は、ＵＫＢｉｏｂａｎｋの少なくとも約３００，０００人の無関係な個人の自己報告データと、ＵＫバイオバンクのそれらの個人の親族から得られた情報を含む。

疾患のリスクを予測および低減するための例示的な方法論を示す図である。多遺伝子リスクスコアを決定するための例示的な方法論を提供するフローチャートを示す図である。子供における疾患リスクを決定するための例示的な方法論を示す図である。疾患の確率を決定するために使用できる例示的な入力を示す図である。疾患の尤度に基づいて、胚を選択するための例示的な方法論を示すフローチャートを示す図である。特定の疾患に関連するリスク低減曲線をグラフで表す図である。精子提供者を選択するための例示的な方法論を提供するフローチャートを示す図である。いくつかの自己免疫障害の複数の提供者に対して作成されたリスク低減曲線をグラフで表す図である。様々な精子提供者に関連する疾患リスク分布の例を示す図である。前立腺がんのリスクの決定に関連する予測能力の改善を示すＲＯＣ曲線をグラフで表す図である。胚に関連する疾患リスクを予測する例示的な方法を示す図である。関節リウマチのＨＬＡタイピングに関連する例示的な疾患リスク伝播予測チャートを示す図である。疾患リスク予測能力を改善するための染色体長でフェージングされたブロックを特定するための例示的な足場を提供することを示す図である。関節リウマチの症例および対照のＰＲＳの分布（平均値を０にスケーリングし、標準偏差を１にしたもの）をグラフで表した図である。関節リウマチの十分位数あたりのＯＲを示す図である。いくつかの胚における様々な状態の生涯リスクを示す図である。図１６Ａは、第１の胚（「胚２」と呼ばれる）のリスクを示し、図１６Ｂは、第２の胚（「胚３」と呼ばれる）のリスクを示し、図１６Ｃは、第３の胚（「胚４」と呼ばれる）のリスクを示している。一般的な集団リスクと比較した、いくつかの胚における生涯リスクおよびリスク比を示す図である。多遺伝子リスクスコアの関数としての胚の生涯リスクを示す図である。胚の疾患のリスクを決定するための例示的なペアレントサポート法（ｐａｒｅｎｔａｌｓｕｐｐｏｒｔｍｅｔｈｏｄ）の図解を提供する図である。胚の全ゲノム予測の将来のワークフローを示す図である。個人、そのパートナー、および２人以上の子の全ゲノム配列決定を実施すること、および各子がいずれの遺伝子座を受け継いだかを決定することにより、個人の染色体全体のフェーズを得ることができる方法を示す図である。例示的なコンピューティングデバイスのブロック図である。

他に定義されない限り、本明細書で使用されるすべての技術用語および科学的用語は、本発明が属する技術分野の当業者によって一般的に理解されるのと同じ意味を有する。以下の説明および実施例で参照されている材料は、特に明記されていない限り、販売元から入手可能である。

本明細書で使用される場合、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、単数形のみを指定するように明示的に述べられていない限り、単数形および複数形の両方を示す。

「約」という用語は、理解される数が、本明細書に記載されるまさにその数に限定されないことを意味し、本発明の範囲から逸脱することなく、引用された数の実質的に周囲の数を指すことを意図する。本明細書で使用される場合、「約」は、当業者によって理解され、それが使用される文脈によってある程度変化するであろう。使用される文脈を考えたときに、当業者にとって明らかでない用語の使用がある場合、「約」は、特定の用語の最大±１０％を意味する。

「遺伝子」という用語は、ポリペプチドをコードする、または生物において機能的な役割を果たす一連のＤＮＡまたはＲＮＡに関する。遺伝子は、野生型遺伝子、または野生型遺伝子のバリアントまたは突然変異であり得る。「目的の遺伝子」とは、特定の表現型、または特定の表現型のリスクに関連することが公知であってもなくてもよい遺伝子または遺伝子のバリアントを指す。

「発現」は、ポリヌクレオチドがＤＮＡ鋳型から（例えば、ｍＲＮＡまたは他のＲＮＡ転写物に）転写されるプロセス、および／または転写されたｍＲＮＡがその後ペプチド、ポリペプチド、もしくはタンパク質に翻訳されるプロセスを指す。遺伝子の発現は、細胞の遺伝子発現のみでなく、クローニングシステムおよび他の任意の文脈における核酸（複数可）の転写および翻訳も包含する。核酸配列が、ペプチド、ポリペプチド、またはタンパク質をコードする場合、遺伝子発現は、核酸（例えば、ｍＲＮＡなどのＤＮＡまたはＲＮＡ）および／またはペプチド、ポリペプチド、もしくはタンパク質の産生に関連する。したがって、「発現レベル」は、サンプル中の核酸（例えば、ｍＲＮＡ）またはタンパク質の量を指すことができる。

「ハプロタイプ」とは、単一の祖先（父、母、祖父、祖母など）から一緒に受け継がれる、または一緒に受け継がれることが期待される遺伝子または対立遺伝子のグループを指す。「祖先」という用語は、対象がそこから伝わる人、または胚の場合は、将来の対象がそこから伝わる胚を指す。好ましい態様では、祖先は、ヒト対象などの哺乳動物対象を指す。

疾患および方法
遺伝学によって全体的または部分的に引き起こされた疾患、または疾患を有するかもしくは疾患を受け継ぐリスクを特定する方法が提供される。遺伝性障害は、１つの遺伝子の突然変異（単一遺伝子性障害）、複数の遺伝子の突然変異（多遺伝子性障害）、遺伝子突然変異と環境因子との組み合わせ（多因子性障害）、または染色体異常（染色体全体の数または構造の変化、遺伝子を保有する構造）によって引き起こされ得る。いくつかの態様では、疾患は、多遺伝子性障害、多因子性状態、またはまれな単一遺伝子性障害（例えば、家族において以前に特定されていない障害）である。

いくつかの態様は、胚が遺伝性障害を保有しているかを決定することを含む。いくつかの態様は、胚が遺伝性障害を有する、または有する可能性がある対象に発達するか否かを決定することを含む。いくつかの態様は、胚が遺伝性障害に関連する１つ以上の表現型を有する、または有する可能性がある対象に発達するか否かを決定することを含む。

いくつかの態様は、胚の遺伝的構成に基づいて胚を選択することを含む。例えば、いくつかの態様は、遺伝性障害を保有しているリスクが低い胚を選択することを含む。いくつかの態様は、胚が子供または大人に成長した場合、遺伝性疾患を有するリスクが低い胚を選択することを含む。いくつかの態様は、選択された胚を対象の子宮に移植することを含む。そのような方法は、例えば、Ｂａｌａｂａｎら、「ＬａｂｏｒａｔｏｒｙＰｒｏｃｅｄｕｒｅｓｆｏｒＨｕｍａｎＩｎＶｉｔｒｏＦｅｒｔｉｌｉｚａｔｉｏｎ」、Ｓｅｍｉｎ．Ｒｅｐｒｏｄ．Ｍｅｄ．，３２（４）：２７２－８２（２０１４年）により詳細に記載され、これは、その全体が参照により本明細書に組み込まれる。

いくつかの態様は、１人以上の精子提供者を使用して形成された胚に関連する疾患リスクを評価することを含む。いくつかの態様は、疾患のリスクに基づいて精子提供者を選択することを含む。いくつかの態様は、選択された精子を用いてｉｎｖｉｔｒｏで卵子を受精させることを含む。

いくつかの態様は、例えば、多遺伝子またはまれな単一遺伝的バリアントの有無に基づいて、個人の健康報告を決定することを含む。いくつかの態様は、例えば、多遺伝子リスクスコアに基づいて、疾患確率の分布を決定することを含む。

スクリーニングできる疾患は、限定されていない。いくつかの態様では、疾患は、自己免疫状態である。いくつかの態様では、疾患は、特定のＨＬＡ型に関連している。いくつかの態様では、疾患は、がんである。例示的な状態としては、冠動脈疾患、心房細動、ＩＩ型糖尿病、乳がん、加齢黄斑変性症、乾癬、大腸がん、深部静脈血栓症、パーキンソン病、緑内障、関節リウマチ、セリアック病、白斑、潰瘍性大腸炎、クローン病、狼瘡、慢性リンパ性白血病、Ｉ型糖尿病、統合失調症、多発性硬化症、家族性高コレステロール血症、甲状腺機能亢進症、甲状腺機能低下症、黒色腫、子宮頸がん、うつ病、および片頭痛が挙げられる。いくつかの例示的な疾患は、単一遺伝子性障害（例えば、鎌状赤血球症、嚢胞性線維症）、染色体コピー数の障害（例えば、ターナー症候群、ダウン症候群）、リピート伸長障害（例えば、脆弱性Ｘ症候群）、またはより複雑な多遺伝子性障害（例えば、Ｉ型糖尿病、統合失調症、パーキンソン病など）を含む。他の例示的な疾患は、Ｐｈｙｓｉｃｉａｎｓ’ＤｅｓｋＲｅｆｅｒｅｎｃｅ（ＰＲＤＮｅｔｗｏｒｋ７１ｓｔｅｄ．２０１６年）；およびＴｈｅＭｅｒｃｋＭａｎｕａｌｏｆＤｉａｇｎｏｓｉｓａｎｄＴｈｅｒａｐｙ（Ｍｅｒｃｋ第２０版、２０１８年）に記載されており、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。遺伝形質が定義上複雑である疾患は、疾患リスクの一因となる複数の遺伝子座を有する。これらの状況では、多遺伝子リスクスコアを計算し、これを使用して、胚を高リスクおよび低リスクのカテゴリに階層化することができる。

胚ゲノムの構築
胚ゲノムの構築に関連する新規の独創的方法が提供される。いくつかの態様では、構築は、染色体長の親のハプロタイプならびに親および胚のスパース遺伝子型決定を使用して（例えば、ＳＮＰアレイまたは低カバレッジＤＮＡ配列決定を使用して）、胚における全ゲノム予測を可能にする。このようなハイブリッドアプローチでは、分子法（例えば、ＬｏｎｇＦｒａｇｍｅｎｔＲｅａｄｔｅｃｈｎｏｌｏｇｙ，１０ＸＣｈｒｏｍｉｕｍｔｅｃｈｎｏｌｏｇｙ，Ｍｉｎｉｏｎｓｙｓｔｅｍ）を使用して、親および可能であれば他の親族（例えば、祖父母および兄弟）からの遺伝情報、ならびにＤＮＡから直接得たハプロタイプ（高密度ハプロタイプブロックなど）を組み合わせることができる。染色体長ハプロタイプを使用して、ｉｎ－ｖｉｔｒｏ受精の状況で胚のゲノムを予測することができる。このような予測されたゲノム配列を使用して、メンデル遺伝病を引き起こすバリアントの伝播を直接測定すること、および疾患のリスクを予測するための多遺伝子リスクスコアを構築することの両方によって、疾患のリスクを予測することができる。

いくつかの態様では、胚ゲノムは、２つ以上の祖先からのハプロタイプを使用して構築される。いくつかの態様では、胚ゲノムは、父方ハプロタイプおよび母方ハプロタイプの両方を使用して構築される。いくつかの態様では、ハプロタイプは、祖父方ハプロタイプである。いくつかの態様では、ハプロタイプは、祖母方ハプロタイプである。いくつかの態様では、胚ゲノムは、父方ハプロタイプ、母方ハプロタイプ、ならびに祖父方ハプロタイプおよび祖母方ハプロタイプの一方または両方を使用して構築される。いくつかの態様では、スパース胚遺伝子型は、胚培養培地、胞胚腔液内の無細胞ＤＮＡ、または胚の栄養外胚葉細胞生検から得られたＤＮＡの配列決定を行うことから得られる。

いくつかの態様は、胚ゲノムを構築するために使用される１つ以上のハプロタイプを決定することを含む。そのようなハプロタイプは、例えば、祖先対象のゲノム配列に基づいて決定することができる。いくつかの態様は、祖先対象に関連するゲノムを特定することを含む。いくつかの態様は、祖先対象のゲノムを特定するために、祖先対象から得られた生物学的サンプルに対して全ゲノム配列決定を実施することを含む。いくつかの態様には、１つ以上の兄弟胚を使用して、ハプロタイプを決定することが含まれる。このような全ゲノム配列決定は、標準、ＰＣＲフリー、リンクドリード（例えば、合成ロングリード）、またはロングリードプロトコルなどの様々な手法のいずれかを使用して実施できる。例示的な配列決定技術は、例えば、Ｈｕａｎｇら、「ＲｅｃｅｎｔＡｄｖａｎｃｅｓｉｎＥｘｐｅｒｉｍｅｎｔａｌＷｈｏｌｅＧｅｎｏｍｅＨａｐｌｏｔｙｐｉｎｇＭｅｔｈｏｄｓ」Ｉｎｔ’ｌ．Ｊ．Ｍｏｌ．Ｓｃｉ．，１８（１９４４年）：１－１５（２０１７年）：１－１５（２０１７）；Ｇｏｏｄｗｉｎら、「Ｃｏｍｉｎｇｏｆａｇｅ：ｔｅｎｙｅａｒｓｏｆｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｔｅｃｈｎｏｌｏｇｉｅｓ」、Ｎａｔ．Ｒｅｖ．Ｇｅｎｅｔ．，１７：３３３－３５１（２０１６年）；Ｗａｎｇら、「Ｅｆｆｉｃｉｅｎｔａｎｄｕｎｉｑｕｅｃｏｂａｒｃｏｄｉｎｇｏｆｓｅｃｏｎｄ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｒｅａｄｓｆｒｏｍｌｏｎｇＤＮＡｍｏｌｅｃｕｌｅｓｅｎａｂｌｉｎｇｃｏｓｔ－ｅｆｆｅｃｔｉｖｅａｎｄａｃｃｕｒａｔｅｓｅｑｕｅｎｃｉｎｇ，ｈａｐｌｏｔｙｐｉｎｇ，ａｎｄｄｅｎｏｖｏａｓｓｅｍｂｌｙ」、ＧｅｎｏｍｅＲｅｓ．，２９（５）：７９８－８０８（２０１９年）；およびＣｈｅｎら、「Ｕｌｔｒａｌｏｗ－ｉｎｐｕｔｓｉｎｇｌｅ－ｔｕｂｅｌｉｎｋｅｄ－ｒｅａｄｌｉｂｒａｒｙｍｅｔｈｏｄｅｎａｂｌｅｓｓｈｏｒｔ－ｒｅａｄｓｅｃｏｎｄ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｓｙｓｔｅｍｓｔｏｒｏｕｔｉｎｅｌｙｇｅｎｅｒａｔｅｈｉｇｈｌｙａｃｃｕｒａｔｅａｎｄｅｃｏｎｏｍｉｃａｌｌｏｎｇ－ｒａｎｇｅｓｅｑｕｅｎｃｉｎｇｉｎｆｏｒｍａｔｉｏｎ」、ＧｅｎｏｍｅＲｅｓ．，３０（６）：８９８－９０９（２０２０年）に記載され、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。

ゲノムフェージング
いくつかの態様は、１つ以上のハプロタイプを特定するために、祖先ゲノムのフェージングまたは推定を行うこと含む。そのようなフェージングは、例えば、集団ベースおよび／または分子ベースの方法（リンクドリード法など）を使用して実施することができる。例示的なフェージング技術は、例えば、Ｃｈｏｉら、「Ｃｏｍｐａｒｉｓｏｎｏｆｐｈａｓｉｎｇｓｔｒａｔｅｇｉｅｓｆｏｒｗｈｏｌｅｈｕｍａｎｇｅｎｏｍｅｓ」、ＰＬｏＳＧｅｎｅｔｉｃｓ，１４（４）：ｅ１００７３０８（２０１８年）Ｗａｎｇら「Ｅｆｆｉｃｉｅｎｔａｎｄｕｎｉｑｕｅｃｏｂａｒｃｏｄｉｎｇｏｆｓｅｃｏｎｄ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｒｅａｄｓｆｒｏｍｌｏｎｇＤＮＡｍｏｌｅｃｕｌｅｓｅｎａｂｌｉｎｇｃｏｓｔ－ｅｆｆｅｃｔｉｖｅａｎｄａｃｃｕｒａｔｅｓｅｑｕｅｎｃｉｎｇ，ｈａｐｌｏｔｙｐｉｎｇ，ａｎｄｄｅｎｏｖｏａｓｓｅｍｂｌｙ」ＧｅｎｏｍｅＲｅｓ．，２９（５）：７９８－８０８（２０１９）；およびＣｈｅｎらｍ「Ｕｌｔｒａｌｏｗ－ｉｎｐｕｔｓｉｎｇｌｅ－ｔｕｂｅｌｉｎｋｅｄ－ｒｅａｄｌｉｂｒａｒｙｍｅｔｈｏｄｅｎａｂｌｅｓｓｈｏｒｔ－ｒｅａｄｓｅｃｏｎｄ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｓｙｓｔｅｍｓｔｏｒｏｕｔｉｎｅｌｙｇｅｎｅｒａｔｅｈｉｇｈｌｙａｃｃｕｒａｔｅａｎｄｅｃｏｎｏｍｉｃａｌｌｏｎｇ－ｒａｎｇｅｓｅｑｕｅｎｃｉｎｇｉｎｆｏｒｍａｔｉｏｎ」、ＧｅｎｏｍｅＲｅｓ．，３０（６）：８９８－９０９（２０２０）に開示されており、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。

いくつかの態様では、フェージングは、リンクドリード配列決定（ｌｉｎｋｅｄ－ｒｅａｄｓｅｑｕｅｎｃｉｎｇ）、ロングフラグメントリード（ｌｏｎｇｆｒａｇｍｅｎｔｒｅａｄｓ）、フォスミドプールベースのフェージング（ｆｏｓｍｉｄ－ｐｏｏｌ－ｂａｓｅｄｐｈａｓｉｎｇ）、隣接保存トランスポゾン配列決定（ｃｏｎｔｉｇｕｉｔｙｐｒｅｓｅｒｖｉｎｇｔｒａｎｓｐｏｓｏｎｓｅｑｕｅｎｃｉｎｇ）、全ゲノム配列決定、Ｈｉ－Ｃ方法論、希釈ベース配列決定（ｄｉｌｕｔｉｏｎ－ｂａｓｅｄｓｅｑｕｅｎｃｉｎｇ）、ターゲット配列決定（ＨＬＡタイピングなど）またはマイクロアレイから生成されたデータを使用する。

いくつかの態様には、フェージングを誘導するための足場を提供するために、独立して得られたスパースフェーズド遺伝子型を使用することが含まれる。ＨａｐＣＵＴ、ＳＨＡＰＥＩＴ、ＭａＣＨ、ＢＥＡＧＬＥ、またはＥＡＧＬＥなどのコンピュータソフトウェアを使用して、祖先の遺伝子型をフェージングさせることができる。場合によっては、コンピュータプログラムは、１０００人ゲノムまたはハプロタイプリファレンスコンソーシアムなどのリファレンスパネルを使用して、遺伝子型のフェージングを行う。場合によっては、祖父母、兄弟、または子供などの親族の遺伝子型データを追加することにより、フェージング精度が改善され得る。

胚のゲノム配列の予測
いくつかの態様は、胚のスパースフェーズド遺伝子型決定と組み合わせてフェージングされた親ゲノムを使用して、胚のゲノムを予測することを含み、これにより、親および胚で特定された臨床的に関連するバリアントの有無の決定が可能になる。これを拡張して、親およびＨＬＡ型において特定されたリスク／感受性対立遺伝子を含めることができる。いくつかの態様では、スパース遺伝子型決定は、次世代配列決定を使用して得られる。スパース遺伝子型決定は、Ｋｕｍａｒら、「Ｗｈｏｌｅｇｅｎｏｍｅｐｒｅｄｉｃｔｉｏｎｆｏｒｐｒｅｉｍｐｌａｎｔａｔｉｏｎｇｅｎｅｔｉｃｄｉａｇｎｏｓｉｓ」、ＧｅｎｏｍｅＭｅｄ．，７（１）：Ａｒｔｉｃｌｅ３５，１－８ページ（２０１５年）；Ｓｒｅｂｎｉａｋら、「ＧｅｎｏｍｉｃＳＮＰａｒｒａｙａｓａｇｏｌｄｓｔａｎｄａｒｄｆｏｒｐｒｅｎａｔａｌｄｉａｇｎｏｓｉｓｏｆｆｏｅｔａｌｕｌｔｒａｓｏｕｎｄａｂｎｏｒｍａｌｉｔｉｅｓ」、ＭｏｌｃｅｕｌａｒＣｙｔｏｇｅｎｅｔ．，５：Ａｒｔｉｃｌｅ１４，ｐａｇｅｓ１－４（２０１２年）；およびＢｅｊｊａｎｉら、「ＣｌｉｎｉｃａｌＵｔｉｌｉｔｙｏｆＣｏｎｔｅｍｐｏｒａｒｙＭｏｌｅｃｕｌａｒＣｙｔｏｇｅｎｅｔｉｃｓ」、Ａｎｎｕ．Ｒｅｖ．ＧｅｎｏｍｉｃｓＨｕｍ．Ｇｅｎｅｔ．，９：７１－８６（２００８年）に詳細に記載されており、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。

スパース遺伝子型決定は、胚の抽出部分で実施できる。したがって、いくつかの態様は、胚から１つ以上の細胞を抽出または得ることを含む（例えば、生検を介して）。いくつかの態様は、胚から、または胚の１つ以上の細胞から、核酸（例えば、ＤＮＡ）を抽出または得ることを含む。いくつかの態様は、胚培養培地から胚材料を抽出することを含む。

いくつかの態様は、祖先対象ゲノムのフェージングのための足場として、スパース胚の遺伝子型を使用する。いくつかの態様は、１つ以上の祖父母対象（例えば、祖父母および／または祖母対象（複数））からの情報を使用して、親ゲノムのフェージングを行う。いくつかの態様は、大規模なリファレンスパネルからの情報（例えば、集団ベースのデータ）を使用して、親ゲノムのフェージングを行う。

いくつかの態様では、胚は、１つ以上の祖先対象（複数可）から得られた生物学的サンプル（複数可）を使用して再構築される。例示的な生物学的サンプルには、脳、心臓、肺、腎臓、肝臓、筋肉、骨、胃、腸、食道、および皮膚組織から選択される１つ以上の組織、ならびに／または尿、血液、血漿、血清、唾液、精液、痰、脳脊髄液、粘液、汗、硝子体液、および乳汁から選択される体液のうちの１つ以上が含まれる。いくつかの態様は、対象から生物学的サンプルを得ることを含む。

いくつかの態様は、１つ以上の祖先ハプロタイプの伝播確率を決定することを含む。いくつかの態様では、１つ以上の母方ヘテロ接合部位からのバリアントの伝播は、母方ゲノムの配列決定、胚からの１つ以上の生検の配列決定または遺伝子型決定、母方ＤＮＡサンプルのハプロタイプブロックへのアセンブルまたはフェージング、親の染色体長ハプロタイプを構築するために複数の胚からの情報（例えば、ペアレントサポート技術）の利用、およびＨＭＭのような統計的方法を使用してこれらのハプロタイプブロックの受け継ぎまたは伝播の予測を含み得る。いくつかの態様では、ＨＭＭは、ハプロタイプブロック間の遷移を予測すること、または母方のフェージングでのエラーを修正することも可能である。

１つ以上の父方ヘテロ接合部位からのバリアントの伝播を予測するアプローチは、父方ゲノムの配列決定を行うことと；胚からの１つ以上の生検の配列決定または遺伝子型決定を行うことと；父方ＤＮＡサンプルのハプロタイプブロックへのアセンブルまたはフェージングを行うことと；ハプロタイプブロックの染色体長への隣接性を改善するために複数の胚からの情報を利用することと；ＨＭＭのような統計的方法を使用して、これらのハプロタイプブロックの受け継ぎまたは伝播を予測することと、を含み得る。いくつかの態様では、ＨＭＭは、ハプロタイプブロック間の遷移を予測すること、または母方のフェージングでのエラーを修正することも可能である。

母親および父親の両方がヘテロ接合である状況は、上記の方法で予測することができる。胚の遺伝子型は、両方の親が同じ対立遺伝子または異なる対立遺伝子のいずれかに関してホモ接合である場合に簡単に予測される。

いくつかの態様では、伝播確率は、米国特許出願第１１／６０３，４０６号；同第１２／０７６，３４８号；または同１３／１１０，６８５号；または、ＰＣＴ出願ＰＣＴ／ＵＳ０９／５２７３０号またはＰＣＴ／ＵＳ１０／０５０８２４号（これらのそれぞれは、参照によりその全体が本明細書に組み込まれる）に記載されている方法を使用して決定される。いくつかの態様では、９５％以上の伝播確率を有する領域を、胚ゲノムを構築するために使用する。

いくつかの態様では、胚ゲノムは、胚における１つ以上の遺伝子または遺伝的バリアントを使用して構築される。いくつかの態様では、１つ以上の遺伝子または遺伝的バリアントは、胚でのスパース遺伝子型決定を使用して特定される。いくつかの態様では、スパース遺伝子型決定は、マイクロアレイ技術を使用して実施される。

いくつかの態様では、胚ゲノムは、（ｉ）胚における１つ以上の遺伝的バリアント、（ｉｉ）１つ以上の祖先ハプロタイプ（複数可）（例えば、父方ハプロタイプおよび母方ハプロタイプ、ならびに（ｉｉｉ）１つ以上のハプロタイプ（例えば、父方ハプロタイプおよび母方ハプロタイプ）の伝播確率を使用して構築される。いくつかの態様では、スパース遺伝子型決定は、次世代配列決定を使用して実施される。

いくつかの態様は、１）家族のそれぞれの側の両方の祖父母の全ゲノム配列、２）各親からのフェージングされた全ゲノム配列、３）親のアレイによって測定されたスパース遺伝子型、および４）胚のスパース遺伝子型を使用する胚ゲノム予測を含む。理論に束縛されるものではないが、胚ゲノムの９６．９％に対する９９．８％という予測精度は、十分に研究されたＣＥＰＨファミリーに対してそのような方法を使用して達成できると考えられている。

いくつかの態様には、１）片方の祖父母のＷＧＳ、２）アレイによって測定されたスパース親遺伝子型、および３）ハプロタイプ分解リファレンスパネルを使用して、親ゲノムのフェージングを行うことが含まれる。いくつかの態様には、１）アレイによって測定されたスパース親遺伝子型、および２）ハプロタイプ分解リファレンスパネル（例えば１０００人ゲノム）を使用して親ゲノムのフェージングを行うことが含まれる。いくつかの態様には、ハプロタイプ分解リファレンスパネル（１０００人ゲノムなど）のみを使用して、親ゲノムのフェージングを行うことが含まれる。

リスクの決定
胚に関連する疾患リスクを決定する方法も提供される（例えば、胚に関して構築されたゲノムに基づいて）。いくつかの態様は、祖先ゲノムからの疾患を引き起こす遺伝的バリアントが胚に伝播されているか否かを決定することを含む。いくつかの態様は、ハプロタイプ（例えば、疾患を引き起こす遺伝的バリアントに関連する）が胚に伝播されているか否かを決定することを含む。いくつかの態様は、（これらに限定されないが、）一塩基多型（ＳＮＶ）、小さい挿入／欠失、およびコピー数多型（ＣＮＶ）を含む疾患を引き起こすまたは疾患感受性の増加を引き起こす遺伝的バリアントの有無を決定することを含む。いくつかの態様は、胚における疾患関連ＨＬＡ型の有無を決定することを含む。

いくつかの態様では、胚における表現型リスクは、発症年齢および疾患の重症度に基づいてランク付けすることができる１つ以上の疾患（例えば、一連の疾患）を使用して決定することができる。いくつかの態様では、疾患のランク付けを多遺伝子リスク予測と組み合わせて、将来の疾患リスクによって胚をランク付けすることができる。

いくつかの態様は、胚が１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、またはそれ以上の疾患リスクを有すると決定することを含む。いくつかの態様は、胚が９０％、８０％、７０％、６０％、５０％、４０％、３０％、２０％、１０％、５％、１％、またはそれ以下の疾患リスクを有すると決定することを含む。いくつかの態様は、疾患リスクに基づいて（例えば、比較的低い疾患リスクを有する胚を選択すること）、および／または特定の遺伝的バリアント（例えば、ＳＮＶ、ハプロタイプ、挿入／欠失、および／またはＣＮＶ）の有無に基づいて、胚を選択することを含む。

いくつかの態様では、胚に関連する疾患リスクは、多遺伝子リスクスコアを使用して決定される。いくつかの態様では、多遺伝子リスクスコア（「ＰＲＳ」とも呼ばれる）は、疾患モデルにおける部位全体の影響を合計することによって決定される。いくつかの態様では、多遺伝子リスクスコアは、集団データを使用して決定される。例えば、集団データは、対立遺伝子頻度、個人の遺伝子型、自己報告表現型、臨床報告表現型（例えば、ＩＣＤ－１０コード）、および／または家族歴（例えば、１つ以上の集団データベース内の親族の個人から得られる）情報を含み得る。このような集団データは、英国（ＵＫ）Ｂｉｏｂａｎｋ（約３００，０００人の無関係な個人に関する情報を有する）、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ（ＮＣＢＩ）、ＴｈｅＥｕｒｏｐｅａｎＧｅｎｏｍｅ－ｐｈｅｎｏｍｅＡｒｃｈｉｖｅ；ＯＭＩＭ；ＧＷＡＳｄｂ；ＰｈｅＧｅｎｌ；ＧｅｎｅｔｉｃＡｓｓｏｃｉａｔｉｏｎＤａｔａｂａｓｅ（ＧＡＤ）；およびＰｈｅｎｏｍｉｃＤＢによって維持されている遺伝子型および表現型のデータベース（ｄｂＧａＰ）の一部である様々な遺伝子型－表現型データセットなど、様々なデータベースのいずれかから得ることができる。

いくつかの態様では、疾患リスクは、多遺伝子リスクスコアのカットオフ値に基づいて決定される。例えば、このようなカットオフには、ＰＲＳ分布で最高約１％、ＰＲＳ分布で最高約２％、ＰＲＳ分布で最高約３％、ＰＲＳ分布で最高約４％、またはＰＲＳ分布で最高４％が含まれ得る。好ましくは、カットオフは、ＰＲＳ分布で最高３％に基づく。多遺伝子リスクスコアのカットオフは、例えば、約５％、約１０％、または約１５％の絶対リスクの増加に基づいて決定することもできる。好ましくは、多遺伝子リスクスコアのカットオフは、１０％の絶対リスク増加に基づいて決定される。

いくつかの態様は、表現型のリスクを推定するために、予測された胚ゲノムを使用することを含む。いくつかの態様では、リスク推定は、１）胚の予測されたゲノム、２）胚では予測が行われない目的の部位（すなわち、多遺伝子リスクスコアに含まれるバリアント）における親の遺伝子型、および３）胚では予測が行われない目的の部位（例えば、多遺伝子リスクスコアに含まれるバリアント）におけるリファレンスコホート（例えば、ＵＫＢＢ）内の対立遺伝子頻度を使用する。

いくつかの態様は、１つ以上の遺伝的バリアントの伝播確率に基づいて（例えば、祖先ハプロタイプに基づいて）リスクを決定することを含む。いくつかの態様は、多遺伝子性疾患のリスクおよび１つ以上の遺伝的バリアントの伝播確率（例えば、父方のゲノムおよび／または母方のゲノムから胚への、単一遺伝子性疾患を引き起こす遺伝的バリアント（複数可）および／またはハプロタイプの伝播）に基づいて、胚に関連する複合リスクを決定することを含む。

疾患のリスクを予測および低減するための非限定的な例示的なシステムを図１に示す。非限定的な例示的な多遺伝子リスクスコアワークフローを図２に示す。

提供者の選択
精子および／または卵子提供者を選択する方法も提供される。対象が子孫に疾患を引き継ぐリスクの推定値は、仮想の子供たちのゲノムをシミュレートすることと、各子供の疾患リスクを算出することによってコンピュータで計算することができる。いくつかの態様は、予想される母親および１人以上の将来の精子提供者の疾患リスクを決定することを含む。いくつかの態様は、予想される父親および１人以上の将来の卵子提供者の疾患のリスクを決定することを含む。

いくつかの態様は、例えば、ＨａｐＭａｐデータベースを使用して決定するとおり、フェージングされた親ゲノムおよびシミュレートされたハプロタイプ組換え部位を使用して、将来の母親および父親からの配偶子をシミュレートすることを含む。いくつかの態様は、これらの配偶子の生成における減数分裂中のそれぞれの組換え率を考慮に入れている。いくつかの態様では、これらのシミュレートされた配偶子は、互いに組み合わされて、将来の子供のゲノムの範囲を概算するための多数の組み合わせの可能性をもたらす。このような子供のゲノムのアレイを、疾患確率のアレイに転送して、各子供での疾患リスクの分布を予測することができる。図３を参照されたい。

本明細書に記載されているリスク推定値（例えば、胚ゲノム構築の節および／または実施例の節）は、ＩＶＦサイクル中の胚選択および／または精子提供者選択における家族計画の文脈で使用することができる。いくつかの実施形態では、将来の親は、利用可能なすべての胚における複数の表現型の個々のリスク推定値、または各将来の精子提供者のリスク値の範囲のいずれかを含むレポートを受け取る。いくつかの態様では、精子提供者は、ある状態または一連の状態の疾患リスクに基づいて、ランク付けされる。いくつかの態様では、提供者は、２０２０年８月６日に出願された米国仮出願第６３／０６２，０４４号に開示されているｐｙｔｈｏｎスクリプト、またはその修正を使用して選択される。

いくつかの態様は、リスクスコアに基づいて胚を選択することを含む。いくつかの態様は、リスクスコアに基づいて卵子提供者を選択することを含む。いくつかの態様は、リスクスコアに基づいて精子提供者を選択することを含む。

実装システム
本明細書で説明する方法は、様々なシステムに実装できる。例えば、いくつかの態様では、システム（例えば、ゲノム胚構築、提供者選択、リスク決定、および／または健康報告の実施のために）は、メモリに連結された１つ以上のプロセッサを備える。これらの方法は、１つ以上の電子デバイスに保存し、実施されるコードおよびデータを使用して実装できる。そのような電子デバイスは、非一時的コンピュータ可読記憶媒体（例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリデバイス、位相変更メモリ）、および一時的コンピュータ可読転送媒体（例えば、電気、光学、音響、または他の形式の伝搬信号（キャリア波、赤外線信号、デジタル信号など）などのコンピュータ可読媒体を使用して、コードおよびデータを保存し、（内部および／またはネットワークを介して他の電子デバイスと）通信することができる。

必要に応じてモデルをトレーニングするために（例えば、疾患のリスクを特定するために）、メモリにコンピュータ命令をロードできる。いくつかの態様では、システムは、コンピュータ、例えば、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、スーパーコンピュータ、大規模並列コンピューティングプラットフォーム、テレビ、メインフレーム、サーバファームなどのコンピュータ、広く分散された緩いネットワークコンピュータのセット、または任意の他のデータ処理システムまたはユーザーデバイス上に実装される。

この方法は、ハードウェア（例えば、回路、専用ロジックなど）、ファームウェア、ソフトウェア（例えば、非一時的コンピュータ可読媒体上に具現化される）、または両方の組み合わせを含む論理を処理することによって実施され得る。説明されている操作は、任意の順序で実施することも、並行して実施することもできる。

一般に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令およびデータを受信できる。コンピュータは一般に、命令に従ってアクションを実施できるプロセッサと、命令およびデータを保存するための１つ以上のメモリデバイスを備える。一般に、コンピュータはまた、データを受信するか、またはデータを転送するために、例えば、磁気ディスク、磁気光ディスク、光ディスク、またはソリッドステートドライブなど、データを保存するための１つ以上のマスストレージデバイスを備えるか、またはそれらのデバイスに動作可能に連結される。しかし、コンピュータはそのようなデバイスを有する必要はない。さらに、コンピュータを、別のデバイス、ほんの数例を挙げると、例えば、スマートフォン、モバイルオーディオまたはメディアプレーヤー、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、またはポータブルストレージデバイス（例えば、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブ）内に組み込むことができる。コンピュータプログラムの命令およびデータを保存するのに好適であるデバイスには、例えば、半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス、磁気ディスク、例えば、内蔵ハードディスクまたはリムーバブルディスク；光磁気ディスク；およびＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクなど、あらゆる形態の不揮発性メモリ、メディアおよびメモリデバイスが含まれる。プロセッサおよびメモリは、特別な目的の論理回路によって補充するかまたは組み込むことができる。

１台以上のコンピュータのシステムを、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせをシステムにインストールして、操作中にシステムにアクションを実施させることにより、特定の操作またはアクションを実施するように構成できる。データ処理装置によって実施されたときに、この装置にアクションを実施させる命令を含めることによって、特定の操作またはアクションを実施するように１つ以上のコンピュータプログラムを構成することができる。

例示的な実装システムを図２１に示す。このようなシステムは、ここで説明する操作のうちの１つ以上を実施するために使用できる。コンピューティングデバイスは、ＬＡＮ、イントラネット、エクストラネット、および／またはインターネット内の他のコンピューティングデバイスに接続されてもよい。コンピューティングデバイスは、クライアントサーバーネットワーク環境のサーバーマシンの容量内で、またはピアツーピアネットワーク環境のクライアントの容量内で動作し得る。

以下の実施例は、本発明を説明するために提供されているが、本発明は、これらの実施例の特定の条件または詳細に限定されないことを理解されたい。

実施例
実施例１：着床前の遺伝子検査のための胚における親の再発リスク評価および疾患予測のための親のゲノムのフェージング－ｉｎｖｉｔｒｏ受精（ＩＶＦ）における胚のゲノム配列の予測での使用。

胚のカバレッジおよび精度は、３つの異なるプロトコルを使用して計算した。第１のプロトコルに従って、胚ゲノム予測は、１）家族のそれぞれの側の両方の祖父母の全ゲノム配列、２）各親からのフェージングされたＷＧＳ、３）親のアレイによって測定されたスパース遺伝子型、および４）胚のスパース遺伝子型を使用した（図４）。このプロトコルは、十分に研究されたＣＥＰＨファミリーの胚ゲノムの９６．９％において、予測精度９９．８％を達成した（同様に、１）１人の祖父母のＷＧＳ、２）アレイによって測定された親のスパース遺伝子型、および３）ハプロタイプ分解リファレンスパネルを使用するプロトコルも企図されている）。

第２のプロトコルに従って、胚の予測は、１）アレイによって測定された親のスパース遺伝子型、および２）ハプロタイプ分解リファレンスパネル（例えば、１０００人ゲノム）を使用した。

第３のプロトコルに従って、胚の予測は、ハプロタイプ分解リファレンスパネル（例えば、１０００人ゲノム）のみを使用した。

３つのプロトコルすべての結果を以下の表１に示す。ＰＲＳは、疾患リスクの予測に重要な約１４０万の部位の結果を示している。

実施例２：予測された胚ゲノムを使用して表現型のリスクを推定する
親の遺伝子型（Ｍ、Ｄ）が与えられた場合の可能性のある遺伝子型（ＡＡ、ＡＢ、ＢＢ）の確率は、胚のゲノム内で予測されていない部位で使用される（以下の式１を参照）。親の遺伝子型が利用できない場合、コホート影響対立遺伝子頻度（ＡＦ_ＥＡ）を使用する（式２）

３０のモデルのうち２７（９０％）のモデルで胚が真のスコアの３％以内に入るリスクスコアのパーセンタイルを予測した。

別のプロセスでは、１）胚の予測ゲノム、および２）胚では予測が行われない目的の部位（すなわち、多遺伝子リスクスコアに含まれるバリアント）でのリファレンスコホート（ＵＫＢＢなど）内の対立遺伝子頻度を使用することを伴う。対立遺伝子頻度は、上記の式２で示したとおりに使用した。このプロセスを使用して、胚が３０モデル中２３（７７％）モデル内に入るリスクスコアパーセンタイルを予測した。親の遺伝子型が組み込まれた場合、３０の予測スコアはすべて真のスコアの５％以内に入る。

実施例３：多遺伝子リスクモデルを使用した表現型リスク推定の推定および改善
統計的枠組み
疾患シミュレーションおよび経験的分析の主力モデルは、閾値易罹病性モデルである。疾患は、遺伝的要素ｇ～Ｎ（０,ｈ^２）を有すると考えられ、ここで、ｈ^２は、狭義の遺伝率およびエラー要素∈～Ｎ（０，１－ｈ^２）である。仮定された易罹病性ｌは、以下によって求められ、

これは、潜在的易罹病性と呼ばれ、サンプルは、潜在的易罹病性スケールにおいて、リスクを有すると仮定される。閾値Ｔは、Ｐ（ｌ＞Ｔ）＝ｐなど、標準正規確率変数の分布から計算されるような、疾患有病率ｐから推定される。理論に束縛されるものではないが、この疾患に罹患しているすべての人々がｌ＞Ｔを有すると考えられる。

家族のシミュレーションは、次の３つの要素：２つの遺伝的要素－ＰＲＳによって測定される部分、単に残存する遺伝的リスクである「測定されない」部分、および既約の非遺伝的エラーの合計としてモデル化される遺伝的易罹病性のシミュレーションが含まれる。上記の潜在的遺伝的リスクｇは、

まで分解することができ、

のように定義された。

この最後の要素は、家族メンバー間において相関はない。一方、易罹病性スケールでＰＲＳによって説明される分散が、σ^２であり、ｇ_Ｒ,_ｉおよびｇ_Ｒ,_ｊが、２人の一親等親族の易罹病性のＰＲＳ要素であるとすると、共分散は、次式によって求められる；

ｇ_Ｕ,_ｉおよびｇ_Ｕ,_ｊは、２人の一親等親族の易罹病性の残りの測定されていない要素であり、ｈ^２が、形質の遺伝率である場合、共分散は次式で求められる；

ｇ_ｉが、ｇ_１およびｇ_２の子供である場合は、

である。

易罹病性を有する２人の一親等親族ｉおよびｊの場合、

であり、
エラー項は、無相関であるため、

を確認することができる。

ＩＶＦ胚選択シミュレーション
ＩＶＦシミュレーションを、次の質問に回答するために実施した。ｎ個の胚のセットと目的の臨床表現型が得られた場合、ランダムに選択された胚よりも、最小の多遺伝子リスクスコアを有する胚が、生涯にわたって疾患を発症する可能性はどれくらい低いか。換言すれば、選択の相対リスクが、どのぐらい減少するか。

この質問に回答するために、２段階の手順を使用して、親およびその後の子供のパラメータを生成した。この手順またはその修正は、提供者選択およびＩＶＦ胚選択の有効性を検査するシミュレーションにおいて使用される。

胚選択モデルでは、次の入力値を使用した：σ^２、易罹病性スケールの多遺伝子リスクスコアによって説明される分散；ｈ^２、易罹病性スケールでの形質の相加的遺伝率；ｐ、形質の生涯有病率。

このシミュレーションからの出力は、利用可能な様々な数の胚でのリスクの低減である。これにより、ＩＶＦを行う予想されるカップルが、いずれの疾患を有意義にスクリーニングできるかを標的にすることができる。

手順
ステップ１。各親について、家族歴からのリスクの上昇を表すために、一般集団から抽出した場合は分布Ｎ（０，σ^２）、または平均のシフトもしくは切断正規など、いくつかの他の分布を有するＰＲＳｇ_Ｒを生成する。残っている未測定の遺伝的リスクｇ_ｕは、分布Ｎ（０，ｈ^２－σ^２）または上記の他のいずれかを伴う。
ステップ２。ｌ_１，…，ｌ_ｎのコンピュータによる計算によって、ｎ人の子供をシミュレートする：
２人の親からの中間親（ｍｉｄｐａｒｅｎｔ）の平均ＰＲＳ：

をコンピュータで計算する。
中間親の平均残留遺伝的リスク：

をコンピュータで計算する。
各子供について、分布Ｎ（０，１―ｈ^２）を用いて、独立したエラー∈_ｉをコンピュータで計算する。
各子供について、以下の独立したＰＲＳ組換えをコンピュータで計算する。

各子供について、独立した測定されていない／残っているリスクを組換えにより、以下のように、コンピュータで計算する：

以下のように合計して、子供の易罹病性ｉをコンピュータで計算する。

ステップ３。リスクの低減を決定するために、何百万もの家族の範囲ｎ＝３，４，…，１０においてシミュレートする。各家族について、最小のＰＲＳを有する胚の易罹病性ｌ_ｍｉｎが、閾値ｔ＝Φ^－１（１－ｐ）を超えているかを確認する。ここで、Φは、標準正規分布の累積分布関数である。

統計的注記
補遺として、Ｒ_ｐ，ｉおよびＲ_Ｕ，ｉの形式を正当化することができる。兄弟間および子供と親との間の共分散が正確であることを示すために、次のことに留意されたい：

後の２つの項は、０である。同じ計算が、未測定遺伝的リスクに対しても機能する、すなわち、

であり、そのため、ｇ_ｉ＝ｇ_Ｒ，ｉ＋ｇ_Ｕ，ｉでは、

である。

同様の一連の計算は、親‐子供の共分散も正しい方程式を満たすことを示している。

この手順は、図５で概略的に見ることができる。入力を使用したリスク低減曲線の例を図６に示す。多遺伝子リスクスコアによって説明される分散を以下の表２に示す。ここで、「ｈ２＿ｌｅｅ」は分散である。

シミュレーションによる提供者家族
リスクの低い提供者を特定するために、以下を実施した。（１）予想される母親の多遺伝子リスクスコアを計算する、（２）Ｎ人の提供者における多遺伝子リスクスコアを計算する、および（３）最も低い多遺伝子リスクスコアを有する提供者を選択する。手順は、２つのステップが変更されていることを除いて、本質的に上記と同じある：最初に、提供者の数をシミュレートし（ｎ＝１０、２０、３０、…、１００）、組換えを最小化するのではなく、多遺伝子リスクスコアを提供者の多遺伝子リスクスコアよりも最小化させる。この方法のフローチャートを図７に示す。

次の入力値を使用した：σ^２、易罹病性スケールでＰＲＳによって説明される分散；ｈ^２、易罹病性スケールでの形質の相加的遺伝率；ｐ、形質の生涯有病率。このシミュレーションからの出力は、最小化するために利用可能である様々な数の提供者におけるリスクの低減であり、これにより、クライアントは精子または卵子提供者を使用して、いずれの疾患を有意義にスクリーニングできるかを目標にできる。上記と同じ入力例を使用して、いくつかの自己免疫障害の様々な数の提供者についてリスク低減曲線を作成した。これを図８に示す。

提供者選択後の追加の胚選択
提供者選択の追加の適用は、最初に提供者を選択し、その後疾患リスクの低い胚を選択することを含む。より具体的には、疾患リスク情報は、子供のために提供者精子を用いることに関心のある対象（例えば、女性対象）に提供される。第１に、この女性の遺伝子検査結果および家族歴を使用して、複数の配偶子をシミュレートし、シミュレートされた精子サンプルと組み合わせて、心臓病の既知の遺伝的原因のリスクを得る。これは、この状態を有する子供を有する女性の「個人リスク」であり、「ベースラインリスク」を細分したものである。第２に、様々な提供者からの遺伝情報、ならびにいずれのバリアントを互いにフェージングするかに関する情報を使用して、個々の提供者からの配偶子を想定した疾患確率の範囲が算出される。最後に、提供者が選択されたと想定すると、複数の胚（Ｅ１、Ｅ２、Ｅ３）が疾患リスクの分布内に入る。図９を参照されたい。

この方法は、家族計画の文脈で精子提供者の選択時に使用することができる。将来の親は、彼らにとって特に関心のある表現型を示すことができ、それらの表現型のリスクスコアを、提供者の各々について生成することができる。これらのスコアは、精子提供者の各々の将来の子供たちにおける疾患のリスクを予測するために使用される。これらのリスク値を含むレポートを親に提供することで、親は関心のある表現型のリスクを低減する提供者を選択するという選択肢が可能となり得る。

家族歴
家族歴を、疾患のリスクの予測に組み込むことができる。ＵＫＢｉｏｂａｎｋには、糖尿病、心臓病、アルツハイマー病、パーキンソン病、乳がん、および他の様々なものなど、親および兄弟の自己報告によるいくつかの疾患の状態がある。さらに、１０，０００を超える兄弟ペアと、多数の半兄弟または他の二親等親族のペアがある。モデルを、家族歴のバイナリ変数を使用して構築し、これは、次のことを意味する：（ｉ）自己報告による家族歴のあるＵＫＢｉｏｂａｎｋの一連の疾患、その疾患を有する兄弟もしくは親；または（ｉｉ）任意の他の疾患の場合、ＵＫＢｉｏｂａｎｋの一親等親族のすべてのサンプル。適切なコホートの各状態について、「ｈａｓ＿ｆａｍｉｌｙ＿ｈｉｓｔｏｒｙ」ダミーのこの定義を前提として、次式を使用してロジスティック回帰を実施した：
log（P/（1-P））=beta_1*PRS+beta_2*sex_male+beta_3*has_family_history

要約すると、入力には次のものが含まれる：自己報告による疾患の家族歴、および医療記録を有する一親等親族のペアを含むバイオバンクからのデータ。出力には次のものが含まれる：本発明者らの予測の精度を高めるためにＰＲＳおよび家族歴を組み込んだロジスティック回帰モデル。モデルを使用して、いずれの患者が生涯において疾患を発症するリスクが高いか優先順位を付けた。以下の表３に例示的出力を示す。ここでは、ｂｅｔａ＿１（ＰＲＳ）、ｂｅｔａ＿２（性別ダミー）、およびｂｅｔａ＿３（家族歴ダミー）がいくつかの状態で推定されている。

図１０に示すとおり、ｈａｓ＿ｆａｍｉｌｙ＿ｈｉｓｔｏｒｙダミーがロジスティック回帰に追加された場合の予測の改善を、前立腺がんのＲＯＣ曲線で定量化した。

モデルの複雑化の向上
二親等および三親等の親族、より複雑な家系、および／または関連する表現型を組み込むことによって、モデルをより複雑化する。近親者をシミュレートする方法を上に示した。二親等の家族歴の組み込みを可能にするために、各親について２人の追加の家族メンバーをシミュレートすることもできる。Ｐ_１が、親族Ｒ_１，ｉを有する親である場合、次のように想定することにより、二親等家族メンバーを生成できる：

ここで、σ^２は、ＰＲＳまたは未測定遺伝的リスクｇ_Ｕの潜在的易罹病性スケール分散要素である。

シミュレーションにさらに複雑なレイヤー、すなわち年齢および性別に基づく閾値を追加することもできる。この疾患の発生率がこれらの変数によって異なる場合、疾患を有する家族におけるサンプルが判断される閾値を調整することができる。例として、ＩＩ型糖尿病を仮定する場合、８０歳以上の男性の有病率は２０％であるのに対し、５５歳の女性の有病率は４％である。上記のモデルで疾患の経験的生涯リスクを置き換えることにより、生涯有病率を生涯リスクに置き換えることができる。このようなサンプルの閾値は、それぞれ１―Φ（０．２０）および１―Φ（０．０４）となり、ここで、Φは、標準正規ランダム変数の累積分布関数である。家系図に関して条件付けを行う場合、サンプルセットについての条件付けであり

となり、年齢および性別固有の閾値Ｔ_ｉを超える。

疾患を有する父親および父親の祖父、疾患を有さない３人の兄弟などの病歴に関する情報を有する家系図Ｐｅｄが与えられる場合：以下をコンピュータで計算することができる；

目標は、量に関する理論的予測を検証することである：

これにより、オッズ比の計算が可能になる。

ＨＬＡ表現型
リスクの決定は、強力なＨＬＡ成分を有し、関連するＨＬＡ対立遺伝子がＳＮＶによって十分にタグ付けされていない表現型を含み得る。しかし、この方法は、有意な効果量のＨＬＡ対立遺伝子との既知の疾患関連があり、追加の遺伝子座が関係しているあらゆる状態に適用できる。ＨＬＡの関与を含む複雑な表現型の例としては、乾癬、多発性硬化症、Ｉ型糖尿病、炎症性腸疾患、クローン病、潰瘍性大腸炎、白斑、セリアック病、および全身性エリテマトーデスが挙げられる（しかし、これらに限定されない）。

この方法は、これらに限定されないが、個々の疾患リスク予測、胚の選択および精子提供者の選択の両方のシナリオでのリスクの低減、ＨＬＡ型などの複数の遺伝的因子が応答の尤度または薬剤の副作用に影響を与える特定の医薬品の処方に関するガイダンスなど、複数の状況で適用できる。

ＨＬＡタイピングの結果は、サンガー配列決定ベースのタイピングなどのＤＮＡベースの方法から得られるか、または全ゲノム配列決定（ＷＧＳ）から導出される。第１に：多遺伝子リスクスコアは、例えば、ゲノムワイド関連解析（ＧＷＡＳ）の効果量を使用して決定される。一例は、ＭＨＣ領域にはないすべての関連するバリアントの効果量および効果対立遺伝子の用量の積を合計することである。次に、関連するＨＬＡ対立遺伝子を、次の方法のいずれか１つを使用して、ＨＬＡタイピングの結果（タグＳＮＰではない）に基づいて組み合わせるかまたは組み込む。

ＰＲＳとＨＬＡとのＯＲの組み合わせ：検証コホートのすべての個人について多遺伝子リスクスコアを計算し、メタデータ（例えば、平均、標準偏差など）を得る。オッズ比（ＯＲ）は、目的の表現型との関連が確立されているＨＬＡ対立遺伝子について得られる。検証コホートおよびＨＬＡタイピングと比較した個人のＰＲＳから導出されたＯＲは、次のように組み合わされる：

リスク比（ＲＲ）は、上記で導出されたＯＲおよび検証コホートにおける疾患の有病率を使用して算出される。次に、これを使用して、疾患の生涯リスクを推定する。

ＨＬＡをＰＲＳに直接組み込む：ＨＬＡ効果対立遺伝子は、効果量と各効果対立遺伝子の用量の積をベースＰＲＳに追加することにより、多遺伝子リスクスコアに直接組み込む。これは、ＰＲＳ_ＨＬＡ＋と称する。ＰＲＳ_ＨＬＡ＋を、検証コホートのすべての個人について計算し、メタデータ（例えば、平均、標準偏差など）を得る。ＲＲは、ＰＲＳＨＬＡ＋モデルから導出されたＯＲ、および検証コホートにおける疾患の有病率を使用して算出される。これは、疾患の生涯リスクを推定するために使用される。

実施例４：胚および精子提供者の選択への適用を伴う疾患リスクプロファイルをランク付けする方法
図１１に示すような、疾患リスクプロファイルをランク付けする例示的な方法が提供される。最初に、重みｗ_ｄが、一連の疾患ｄの各疾患について算出され、これは、発症年齢ｗ_ａおよび疾患重症度ｗ_ｓの重みの合計である。ｗ_ａは、冠状動脈疾患のように成人期まで一般的に現れない疾患よりも、例えばセリアック病などの出生時に発症する疾患の方が大きくなる。同様に、ｗ_ｓは、白斑のようなより軽度の表現型を有する疾患よりも、乳がんのようなより重症の疾患の方が大きくなる。

次に、家族歴と多遺伝子リスクスコアとを組み合わせて、各胚に関して目的の各状態の予測リスクを生成する。

最後に、疾患のランク付けとリスク予測とを組み合わせて、次式を使用して各胚の単一のスコアＳ_Ｔを生成する。ここでＲＲは、特定の疾患の家族歴と多遺伝子リスクスコアとの組み合わせから導出される相対リスクである。

成人期、小児期、または出生時の発症について、それぞれｗ_ｓ＝０．５、１、または２と想定する。同様に、軽度、中等度、または重度の疾患表現型に対してそれぞれｗ_ａ＝０．５、１、または２と想定し、これにより、多様な表現型を有する疾患の中間値を選択できる。次の表４に、これらの値に基づく小さいセット状態の重み付けを示す：

上記の状態のそれぞれについて次のＲＲを有する３つの胚を想定し、各胚について全スコアが算出され、それに応じてランク付けされる。胚１の場合、スコアは次のように計算される：

３つの胚のそれぞれの疾患リスクを表５に示す。

同じ手順が精子提供者の選択に適用され、各提供者は目的のすべての疾患でのランク付けを受ける。胚および提供者の選択の両方の文脈において、スコアは、疾患のサブセット（例えば、予想される親が家族歴を有する状態）について、または多遺伝子モデルが実装されているすべての疾患において計算する。

あるいは、この方法は、目的のすべての状態を合計することなく使用して、単一の胚／個人の結果に優先順位を付けることができる。各状態は、スコアを受け、最も高いスコア（複数可）を有する状態が優先されるであろう。上記の胚１を例として使用して、表６に示すスコアおよびランク付けを生成した。

実施例５：胚への疾患感受性バリアントの伝播の予測。
大腸がん感受性バリアント（ＡＰＣｃ．３９２０Ｔ＞Ａ）（および／または挿入、欠失、および／またはコピー数バリアント）の１つのコピーが父親のＷＧＳに見られる。対立遺伝子は、母親には存在しない。このバリアントは、胚のスパース遺伝子型決定では直接測定されない。親の全染色体のハプロタイプは、上記の方法の任意の１つまたはそれらの組み合わせから得られる。胚のゲノムの再構築により、リスク対立遺伝子を含むハプロタイプブロックが父親から胚の１つに伝播されることが決定する。リスク対立遺伝子は、胚内に「存在する」と記す。

実施例６：胚予測を使用した一般的な疾患の多遺伝子リスク。
乳がんは、一般的な遺伝的要素を有する。遺伝的リスクスコアは、６９のバリアントを使用して乳がんのリスクを評価する。これらのバリアントのうち、１３％（９／６９）のみが胚内で直接遺伝子型決定されている。これらのバリアントに基づく胚の遺伝的リスクスコアのパーセンタイルは、８４．６％である。胚の再構築後、胚の遺伝子型の９８．６％（６８／６９）が推定／推測され、胚の遺伝的リスクスコアの新しいパーセンタイルは７７．７％である。胚が生まれた後、子供のＤＮＡの遺伝子型が特定され、ＰＲＳパーセンタイルは７６．２％であった。これは、全ゲノム胚再構築からの遺伝的リスクスコアが、追加のバリアントに関する情報により、より高い精度を有し、不確実性が低いことを示している。

実施例７：胚への疾患関連ＨＬＡ型の伝播の予測。
母親は、関節リウマチ（ＲＡ）に罹患している。ＨＬＡタイピングの結果（ＷＧＳ、ＰＣＲ＋サンガー配列決定、または他の任意の適切な方法から）から、母親がこの状態のリスクの増加に関連するＨＬＡ－ＤＲＢ１＊０１：０２対立遺伝子の１つのコピーを保有していることが明らかになっている。父親は、ＨＬＡ－ＤＲＢ１＊０４：０２のホモ接合体であり、これは、ＲＡのリスク増加と関連していることが知られていない対立遺伝子である。各親の第６染色体の完全なフェージングおよび胚ゲノムの再構築に基づいて、母親のハプロタイプ２（ＨＭ２）および父親のハプロタイプ２（ＨＦ２）が胚に伝播されることが決定される。ＲＡリスク対立遺伝子は、母親のハプロタイプ１（ＨＭ１）上で保有されるため、胚は、リスク対立遺伝子を保有しないことが予測される。例えば、図１２を参照されたい。

実施例８：家族に子供におけるある範囲の疾患のリスクを提供する。
２人の親が、予想される子供における様々な遺伝病のリスクに関心があることを医師に提示する。上記の方法を使用して、中間親（ｍｉｄｐａｒｅｎｔ）の平均値および組換えを具体的に算出して、２人の親のゲノムを考慮した場合の子供の疾患のリスクの範囲を予測し、予想されるＩＶＦ治療を導く。図９を参照されたい。

同様に、精子提供の場合、母親と将来の精子提供者（複数可）のＷＧＳに基づく多遺伝子リスクスコアの分布を、組換えによってシミュレートすることができる（図９を参照）。

実施例９：リスク推定を改善するための家族歴（ＦＨｘ）の組み込み
乾癬を発症するリスクは、疾患の家族歴に基づいて１０～３０％と推定される。片方の親が乾癬に罹患している胚において、多遺伝子モデルを単独で使用すると、胚間のリスクに軽微な差のみを示す。表７に示すとおり、家族歴を組み込むことにより、胚１と胚２および３の分離が大幅に改善され、胚２および３が、ＦＨｘ以外の追加のリスク因子を有することは明らかである。

同様に、家族歴を組み込んで、疾患に関連するＨＬＡ型の伝播を予測する際のリスク推定を改善することができる。

実施例１０：乾癬疾患のリスク推定値へのＨＬＡタイピングの組み込み
乾癬を発症するリスクに関連する２つのＨＬＡ型の有無は、胚に対する疾患リスク全体に明らかな影響を及ぼす。この例は、表８に示すとおり、精子提供者の選択または個人のゲノムレポートの文脈に拡張できる。

家族歴を組み込んで、疾患に関連するＨＬＡ型の伝番を予測する際のリスク推定をさらに改善することができる。この技術は、結果として生じる胎児のＲｈ状態を含む胚ゲノムから血液型を予測するために拡張することができる。

実施例１１：形質予測精度の改善
多遺伝子モデルでのバリアントの遺伝子型が胚内で不明である場合は、親の遺伝子型を使用して、形質予測の精度を改善することができる。集団の対立遺伝子頻度（ＡＦ）または推定遺伝子型の代わりに、その部位（複数可）での親遺伝子型を考慮して、可能性のある遺伝子型の確率を使用する。以下の表９の確率を使用して、可能性のある各遺伝子型の用量を、リスクスコアに追加する。実際には、４つのバリアントが胚では予測されなかったクローン病の多遺伝子モデルの予測の改善を示す以下の表１０に示すとおり、これにより、多遺伝子リスクの予測パーセンタイルによって測定される予測精度が改善される。真の多遺伝子リスクスコアパーセンタイル（「真」）は、ＷＧＳからの直接遺伝子型決定を使用して決定される。

実施例１２：ハプロタイプ疾患リスク
一部の疾患リスクは、個々のバリアントではなく、フェージングされたハプロタイプに基づく。形質リスクのより精度の高い予測を行うために、胚の再構築により、フェージングされたハプロタイプを生成する。以下の表１１は、ＡＰＯＥ遺伝子のハプロタイプおよびアルツハイマー病の関連リスクを示している（Ｃｏｒｄｅｒら、１９９４年）。

２つのバリアントは、ＡＰＯＥ遺伝子内で、１３８ｂｐ離れている。胚内のスパース測定では、ｒｓ４２９３５８もｒｓ７４１２も測定されていない。これは、胚におけるアルツハイマー病のリスクを推定することを含まない。しかし、胚再構築法は、親の遺伝子型を使用して、胚がε３／ε３であることを推測するために使用できる完全にフェージングされた胚ゲノムを予測する。この結果は、生まれた子供の全ゲノム配列決定によって後に検証される。

したがって、胚の再構築により、ＡＰＯＥハプロタイプおよびアルツハイマー病、一般に、ハプロタイプに基づく疾患状態のリスク予測が可能になる。

実施例１３：スパース遺伝子型の足場
ゲノム全体のフェージングを行う際の足場としてスパース遺伝子型決定を使用することにより（例えば、図１３を参照）、スイッチエラー率（ＳＥＲ）によって測定した場合、リファレンスパネルのみよりも成績が改善される。この手法を十分に研究されたサンプルＮＡ１２８７８に適用することにより、全体的なＳＥＲが、１０００人ゲノムリファレンスパネルのみを使用した場合の０．６％から、リファレンスパネルと組み合わせた足場として約１４０ｋの高信頼性フェージング遺伝子型のセットを使用した場合の０．５４％まで低下したことがわかった。この差は、主にロングスイッチエラーの減少によるものである。例えば、１番染色体では、ロングスイッチエラーの生の数データが６０％より多く減少する（１６９対６０）。全体として、組み合わせたアプローチ（足場＋リファレンスパネル）により、ロングスイッチのエラー率が０．１２％から０．０４％に減少した。ロングスイッチエラーは、伝播されることが予測される誤ったブロックをもたらすため、胚の再構築において重要である。

実施例１４：多遺伝子リスクスコア
大規模なゲノムワイド関連解析（ＧＷＡＳ）により、幅広い様々な疾患に関連する遺伝的バリアントが特定されている。これらの関連性は、疾患生物学の機能研究、創薬ターゲットの発見、および疾患リスク予測の改善への道を開いた。個々の一般的な遺伝的バリアントは、ほとんど予測値を有さない可能性があるが、これらのバリアントを遺伝的リスクスコアに組み合わせることにより、疾患の遺伝的リスクのより大きな割合を説明できる。これらの多遺伝子座の遺伝的リスクスコアは、多遺伝子リスクスコア（ＰＲＳ）とも呼ばれ、最も一般的には、疾患関連遺伝子型の加重和としてコンピュータで計算される。

ここで、ＰＲＳ_ｉｎｄは特定の個人およびｎ個の関連するバリアントを有する疾患の多遺伝子リスクスコアであり、Ｗ_ｉは通常、ＧＷＡＳ効果量から導き出される、ｉ番目のバリアントの重みであり、Ｇ_ｉは、ｉ番目のバリアントのリスク対立遺伝子に対する個人の遺伝子型である。ＰＲＳは、近年、心血管疾患、乳がん、およびＩＩ型糖尿病など、様々な疾患のリスクを予測する可能性について調査されている。これらのアプローチは、これらの疾患のリスクによって個人を層別化する能力を実証した。

多遺伝子モデルを検証し、実装し、消費者レポートでリスク推定値を可視化する方法について記載する。

多遺伝子リスクモデルの選択
幅広い集団からの少なくとも１０００名の個人について検査が行われている目的の各状態について、以前に公開された多遺伝子モデルを優先した。これは、統計学的検出力が限られている小規模な研究、および他の集団に変換され得ない孤立した集団で試験を行った研究を除外した。ＵＫＢＢ研究環境での個人からのデータを使用したモデルも除外した。０．６５を超える曲線下面積（ＡＵＣ）、および／または上位分位数と下位分位数（詳細については以下を参照）の個人のオッズ比（ＯＲ）が２を超えることが報告されたモデルを選択した。公開モデルの特性およびその評価統計の一覧を表１３に示す。

公開モデルが利用できない場合、ＧＷＡＳカタログからゲノムワイドの有意なｐ値の閾値（ｐ＜５ｅ－８）を満たすＳＮＰを使用して、前述のとおりスコアを構築した（ＰＭＩＤ：３０３０９４６４）

ＵＫＢｉｏｂａｎｋでの各表現型の定義
ＵＫＢｉｏｂａｎｋコホートのデータを使用して、各モデルの検証および標準化を行った。このリソースには、５００，０００人の個人に関する遺伝情報および疾患情報が両方とも含まれている。以下の分析には、無関係の個人のみを使用した。表１４に示すとおり、ＩＣＤ－９コードとＩＣＤ－１０コードとの組み合わせ、ならびに自己報告による疾患、および目的の各表現型を定義するための手順コードを使用した。

疾患のサブセットを以下の表１５に示す。

個人を、多遺伝子リスクスコア（ＰＧＳ）によって層別化し、この集団における疾患の発生率を調査した。

ＵＫＢＢデータセットを使用したモデルの評価。
多遺伝子リスクスコアを、疾患に関連する遺伝子型の加重和として算出した。ＵＫＢＢでの各個人のスコアを算出し、モデルの成績を評価するために様々なメトリクスを使用した。

症例および対照全体におけるＰＲＳの分布：
データセットを、各形質に関して症例および対照に分割し、スコアの分布を、症例および対照に対して別々に生成した。これらの分布の視覚的検査を行うことにより、各モデルが症例および対照をどのぐらい適切に区別できるかについての一般的な考えが得られた。例として、図１４は、関節リウマチの症例および対照に関するＰＲＳの分布（平均値を０に、標準偏差を１にスケーリングした）を示している。

受信者動作曲線（ＲＯＣ）：
ＲＯＣおよび曲線下面積（ＡＵＣ）は、様々なリスク閾値でのモデルの感度および特異度をプロットすることによって算出した。

ＰＲＳの十分位数への階層化：
ＵＫＢｉｏｂａｎｋの個人を、異なる疾患のリスクプロファイルを有する群に階層化した。最も高いリスクの個人（ＰＲＳの上位１０分の１）を、リスク中央値を有する個人（ＰＲＳが分布の中央の４０～６０パーセンタイルにある個人）と比較した。十分位数の各疾患の疾患有病率をプロットし、リスクの中央値に対する高リスクの比率を疾患全体で算出した。図１５は、関節リウマチの十分位数あたりのＯＲを示している。

年齢および性別を組み込んだ回帰分析：
ＵＫｂｉｏｂａｎｋデータセット内のすべての無関係な個人のＰＲＳを算出後、ロジスティック回帰を各モデルに適用した。β_ＰＧＳは、ＰＲＳの回帰係数であり、ＰＲＳを平均０および標準偏差１に標準化した場合のオッズ比に対応する。年齢および性別は、利用可能かつ適用可能な場合に組み込んだ。

次に、オッズ比を使用して、報告することを目的として、高リスクおよび中間結果の閾値を決定した。

疾患ごとのＯＲ／ＳＤ（平均中心対ｚ変換）
上記のロジスティックモデルに従って、ＰＲＳのＯＲ／ＳＤは、効果量をコンピュータで計算する前にＰＲＳ変数（平均０、ＳＤ１）を標準化することによって得た。このプロセスは、２つの目標を達成するのに有用である。最初に、ＰＲＳのリスク層別化能力を疾患間で直接比較することができる。様々な疾患のＰＲＳは、ＳＮＰの数およびそれぞれの効果量が異なるため、大きく異なるスケールである。それらの対応する効果量は、標準化されていない場合、直接比較することもできない。すべてのＰＲＳを標準化することにより、モデルをＯＲ／ＳＤに基づいて直接ランク付けでき、これにより、疾患リスクに基づいて集団を分離する能力を反映したランク付けが得られる。第２に、米国の集団へのＵＫＢＢ効果推定の統計的に正確な適用が可能になることである。ＵＫＢＢを使用して効果量を推定し、それをオッズ比に変換した。これらのオッズ比から相対リスクを推定した場合（以下を参照）、米国での集団の疾患有病率を使用して、米国での特定のＰＲＳを有する個人の相対リスクを正確に把握した。ＵＫＢＢＰＲＳの標準化（ＵＫＢＢ平均およびＳＤを使用）により、（米国のＰＲＳ平均およびＳＤで調整した後）米国の個人のＰＲＳをモデルで使用できるようになる。遺伝学のランダムな組み合わせにより、少なくとも欧州の祖先を有する個人については、集団でのＰＲＳの同様の平均およびＳＤが期待できる。分析結果を表１６に示す。

疾患対年齢のＰＲＳ層別化：
個人を異なるリスク群に階層化した後、ＵＫＢＢデータを使用して、これらの様々な群内で疾患と診断された集団の割合を推定した。この情報を、高リスク群（ＰＲＳによる個人の上位５％）および平均リスク群（集団全体）など、様々な層において視覚的にプロットした。目的の個人が７５パーセンタイルにおいてＰＲＳを有すると想定して、本発明者らの特定の目的の個人と類似の遺伝的リスクを有する個人の群について診断された予測パーセンテージを示した。

このプロットは、疾患のリスクに基づいて個人を層別化する際のＰＲＳの有用性を説明するのに有用である。異なるＰＲＳ層内で診断された集団の割合が明確に分離していることを確認することにより、リスクに基づいて個人を分離するモデルの能力が確認される。

個人の調整された生涯リスクのコンピュータによる計算：
米国での人々の性別の平均生涯リスクから開始できる。次に、ゲノム内のリスクマーカーを評価して、そのマーカーに基づいて、多遺伝子スコアを算出する。この情報を、上記のＵＫＢＢのデータを使用して「オッズ比」に変換する。最後に、式を使用してこのオッズ比と平均生涯リスクを因数分解し、この変化を伴う個人の生涯リスクを推定する：

ここで、Ｐ_０は、ＵＫＢＢにおける状態の有病率であり、Ｃ_０は、米国の状態の平均生涯リスク、ＯＲは、上記で計算されたオッズ比である。結果は、集団の平均と比較した個人自身の生涯リスクの推定値である。一部の状態では、平均生涯リスクは利用できない。これらの場合、分析された遺伝学がリスクの増加を示すか否かが示される。

「高リスク」の閾値の定義
場合によっては、既知のリスク因子に基づいて、高い遺伝的リスクの閾値を設定した。例えば、一親等親族が罹患している個人のＩ型糖尿病を発症する相対リスクは、６．６である。したがって、その相対リスクに対応するＩ型糖尿病のＰＲＳに対する高リスク閾値を設定した。これを利用できない、またはこのモデルにより閾値を達成できなかった表現型については、相対リスクが２倍または絶対リスクが１０％増加した個人を高リスクとして指定した。ライフスタイルまたは臨床的因子が高リスク閾値を示した表現型のサブセットの評価メトリクスを表１７に示す。

実施例１５：多因子状態（多遺伝子リスクスコア）
提出されたサンプルから得られたゲノムＤＮＡを、ＩｌｌｕｍｉｎａまたはＢＧＩｔｅｃｈｎｏｌｏｇｙのいずれかを使用して配列決定を行った。リードを、リファレンス配列（ｈｇ１９）にアラインし、配列の変化を特定した。一部の遺伝子については、特定の変化のみを分析した。上記に別段の記載がない限り、欠失および重複については、調査しなかった。一部のシナリオでは、ＨＬＡ型の独立した検証が外部研究所によって実施されていてもよい。選択されたバリアントを、ＡＣＭＧ（ＡｍｅｒｉｃａｎＣｏｌｌｅｇｅｏｆＭｅｄｉｃａｌＧｅｎｅｔｉｃｓ）ガイドラインに従って注釈を付け、解釈した。病原性または病原性の可能性のあるバリアントのみを報告する。胚および親の遺伝子型決定およびその後の「ペアレントサポート」分析を行った。胚のゲノムを、胚の遺伝子型を使用して再構築し、親の全ゲノム配列を、ゲノム再構築アルゴリズムを使用して再構築した。胚に影響を有することが予測される親のゲノムで観察されたバリアントのみを、再構築された胚のゲノムで調べた。状態のサブセットについて、多遺伝子リスクスコアを算出した。各状態のモデルを、ＵＫＢｉｏｂａｎｋ集団で評価した。いくつかの多遺伝子リスクスコアを、ＨＬＡ型を使用して精密化してもよい。個人の生涯リスクは、人口統計情報および多遺伝子リスクスコアに従ってベースラインリスク（米国の人口）を調整することによって計算した。上下の十分位数が１０％の生涯リスクの差または生涯リスクの１．９倍の増加をもたらしたモデルをレポートに含めた。モデルおよびゲノム再構築の性能の利用可能なエビデンスに基づいて、研究者の裁量に従って、特定の状態（例えば、双極性障害）を実験の節で維持した。特定の胚の様々な状態の生涯リスクを図１６Ａ～Ｃに示す。

特定の例として、乾癬を使用して、図１７Ａ～Ｂは、３つの例示的な胚における乾癬の素因に関連するリスクスコアを示している。

実施例１６：ハプロタイプ分解ゲノム配列決定を使用した胚の全ゲノム予測
ハプロタイプ分解ゲノム配列決定を、胚の全ゲノム配列を予測するために、胚からの単一または少数の細胞胚生検からの遺伝子型のスパースセットと組み合わせた。具体的には、ｓｔＬＦＲ技術を、父親のハプロタイプ分解ゲノム配列決定に使用した。成績を、まれなヘテロ接合体の位置（１％以下の対立遺伝子頻度として定義）で評価した。２３０，１１７の部位の遺伝は、胚において精度８９．５％で予測された。

この研究で使用された材料は、着床前遺伝子診断で以前にＩＶＦのラウンドが成功している参加者から遡及的に入手した（表１６）。合計１０個の胚（５日目）からの栄養外胚葉生検を、迅速な２４時間マイクロアレイプロトコルを使用して、３００，０００の一般的なＳＮＰのパネルに対してそれぞれ遺伝子型を決定した。さらに、各親および４人の祖父母すべてを同じパネルで遺伝子型を決定した。

ゲノムＤＮＡを、全血または唾液サンプルから抽出した。新生児および母方のＤＮＡを、ＢＧＩプラットフォームで３０ＸＷＧＳを使用して処理した。父方のサンプルを、ｓｔＬＦＲを使用して処理した。１０個の５日目の胚からの栄養外胚葉生検を、すべてのサンプルにおいてＩｌｌｕｍｉｎａＣｙｔｏＳＮＰ－１２チップを使用する高速マイクロアレイプロトコルを使用して、親および祖父母とのＤＮＡ抽出、増幅、および遺伝子型決定を行った。Ｋｕｍａｒら２０１５に詳述されているとおり、兄弟胚および親ＳＮＰアレイの測定値は、「ペアレントサポート」（ＰＳ）法（図１８、１９）を使用して組み合わせた。胚の全ゲノム配列は、ＰＳ胚の遺伝子型を親のハプロタイプブロックと組み合わせることによって予測した（図１８を参照）。

実施例１７：ハプロタイプブロックおよび親情報からの全染色体のハプロタイプの構築
ＩＶＦ設定で染色体長ハプロタイプを構築するために、両方の親のハプロタイプ分解ゲノム配列決定を、兄弟胚由来のスパース遺伝子型からの情報と組み合わせた。「ペアレントサポート」（ＰＳ）法の一部として、各親のヘテロ接合ＳＮＶの最大尤度推定値（ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＥｓｔｉｍａｔｅ（ＭＬＥ））フェーズを、ＨａｐＭａｐデータベースからの組換え頻度を親からのＳＮＰアレイ測定値および兄弟胚からのＳＮＰアレイ測定値と組み合わせることによって作成する。このスパース染色体長のハプロタイプは、胚のゲノムの予測には十分ではなかったが、受け継がれるゲノム配列を予測するために、親サンプルから分子的に得られた高密度ハプロタイプ（例えば、ロングフラグメントリード技術、１０ｘゲノミクス、ＣＰＴ－ｓｅｑ、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ、Ｈｉ－Ｃを使用する）と組み合わせることができる。

いくつかのデータストリームを使用して情報を得た。高密度ハプロタイプブロックを生成するために、最初のショットガン配列決定を、母親および父親のそれぞれ中央値３４ｘおよび３０ｘのカバレッジで実施した。次に、ｉｎｖｉｔｒｏ希釈プール増幅によって得られたゲノムＤＮＡの半数体サブセットの配列決定を行うことにより、母親の１９４万のヘテロ接合ＳＮＶの９４．２％および父親の１８９万のヘテロ接合ＳＮＶの９２．４％を長いハプロタイプブロックに直接フェージングさせた。これらの分子的に得られた「高密度ハプロタイプブロック」を、スパースであるが染色体長のハプロタイプと組み合せて、親の染色体長ハプロタイプ分解ゲノム配列を構築させた。この配列情報は、その後、胚の受け継がれるゲノム配列を予測するために使用されたが、２人の親の将来の子孫を予測するためにも使用できるであろう（例えば、将来の子供をもたらす将来の卵子および精子をシミュレートすることによって）。

胚の全ゲノム予測の将来のワークフローを図１９に示す。最初の訪問時に、患者の採血を行い、この血液は、各親の全ゲノム配列を生成するために使用され、かつカップルがそのリスクにある可能性のある障害を予測するために使用される。カウンセリング後、親はＩＶＦを受け、従来のＩＶＦＰＧＤ技術を使用して胚の遺伝子型を決定し、この情報を親の全ゲノム配列情報（ハプロタイプ分解）と組み合わされて、胚の受け継がれるゲノムを予測し、疾患リスクを評価する。

兄弟の胚および親の遺伝子型は、染色体長の親のハプロタイプを構築するために使用される。統計的アプローチ（最尤推定など）を使用して、各兄弟胚から得られたノイズの多い情報および減数分裂組換え頻度のデータベースから親フェーズを決定する。

全染色体ハプロタイプの構築
全染色体ハプロタイプは、親、祖父母、または子供を含むがこれらに限定されない、個人の親族のゲノムを配列決定することによって構築される。同じ人の子供を２人以上有する個人の場合は、個人、そのパートナー、および２人以上の子供の全ゲノム配列決定を実施することによって、ならびに各子供によって受け継がれた遺伝子座を決定することによって、個人の全染色体のフェーズを得ることができる（図２０）。これにより、ＤＮＡ配列決定プロセスを変更することなく、全染色体ベースのハプロタイプ情報が提供される。これは、例えば、カップルがすでに２人の子供を有し、もう１人の子供を求めていて、いかなる祖父母のＤＮＡサンプルもない場合に行う例では適切であろう。

個々の精子からの染色体ハプロタイプ
実施例１７の方法は、個々の精子から得られたＤＮＡを配列決定することによって得られた全染色体ハプロタイプを用いて実施される。

実施例１８：胚ゲノム予測を使用して、遺伝的に複雑な疾患の多遺伝子リスクスコアを算出する。
ゲノムワイド関連研究により、Ｉ型糖尿病、統合失調症、クローン病、セリアック病、アルツハイマー病などの状態の多遺伝子リスクスコアモデルの構築が可能になった。これらのアプローチには、疾患に関連付けられたＳＮＰの観察されたオッズ比を含むゲノムワイドの有意なＳＮＰのリストを取得することと、その個人に見られるＳＮＰの配位に応じて、各個人の「リスクスコア」を算出することとを含む。このアプローチを使用して、兄弟の多遺伝子リスクスコアを算出し、ＩＶＦサイクルで兄弟胚を比較する際に見られる多遺伝子リスクスコアをシミュレートした。１２人の兄弟、２人の親、４人の祖父母の、公的に利用可能な家系からのゲノム配列を使用した。各ゲノムバリアントファイル（ＶＣＦファイル）を、ＰＬＩＮＫファイルに変換し、ｐｌｉｎｋ‐スコアコマンドをバリアントの表で使用し、家族における各個人の多遺伝子リスクスコアを算出した。多遺伝子リスクスコアを、兄弟のそれぞれおよび２人の親について算出した。多遺伝子リスクスコアは、１０００人ゲノムコホートの各個人（約２５００人）、および白人である個人のサブセット（約２００～３００人）についても算出した。家族の各メンバーの多遺伝子リスクスコアを、集団が一致した（欧州の）個人グループの多遺伝子リスクスコアと比較して、その個人が高リスクか低リスクかを判断した。

セリアック病の多遺伝子リスクスコアは、複数のＳＮＰを組み込んだ白人集団内で開発されている（Ａｂｒａｈａｍら、２０１４；ＰＭＣＰＭＣ３９２３６７９）。このモデルは、セリアック病に対する感度が高く、特定のＰＲＳ閾値でこのアプローチの負の予測値を算出できる。セリアック病の家族歴を想定して、本発明者らは、特定のＰＲＳ（－１未満）で９９．４％の負の予測値を推定する。各個人のＰＲＳを算出した後、２人の個人のＰＲＳは、この閾値未満であった。ＩＶＦの文脈では、本発明者らは、これらの２つの胚を、着床のために選択でき、疾患のリスクが約１０分の１減少すると推定する。

アルツハイマー病の多遺伝子リスクスコアは、以前に開発されており、アルツハイマー病の早期発症と関連していることがわかっている（Ｄｅｓｉｋａｎら、２０１７年；ＰＭＣ５３６０２１９；表２）。親のＰＲＳは、濃青色の破線で示されている。胚ＰＲＳの各々は、灰色の破線で示されている。各個人のＰＲＳを算出した後、最も低い多遺伝子リスクスコアを有する個人は、最も高い多遺伝子リスクスコアを有する胚と比較して、アルツハイマー病のリスクが低下していると予測される（発症年齢中央値は、８０歳ではなく８７歳）。

実施例１９：関連性の計算
胚の遺伝子型を使用して、望ましくない遺伝的性質を有する個人との関連性指数を算出する。例えば、統合失調症の母方の祖父母を考える。ステップ１：実施例１および実施例２から胚のゲノムを推測した後、各胚と罹患した個人のゲノムとの関連性を算出する。ステップ２：罹患した個人と最も低い関連性を有する胚を選択する。

実施例２０：家系による同一性（ＩｄｅｎｔｉｔｙｂｙＤｅｓｃｅｎｔ）を介して算出された遺伝的関連性を使用して、疾患リスクを予測する
実施例３の拡張型であり、疾患予測において、罹患した個人との遺伝的関連性の代わりに、家系による同一性（ＩＢＤ）を使用する。様々な兄弟胚は、罹患した家族の親族とは異なるＩＢＤを有するため、ＰＲＳスコアに加えてこの情報を使用して、胚の疾患リスクの確率をさらに高めることができる。以下の例では、疾患のリスクが罹患した個人のゲノム全体に均等に広がっていることを前提としている。したがって、リスクは、罹患した個人のＩＢＤの程度に比例する。
log(P/(1-P))=beta_1*PRS+beta_2*sex_male+beta_3*has_family_history+beta_4*IBD_affected_individual.

実施例２１：共有ゲノム情報の領域
２人の個人間での共有される遺伝情報の領域を特定し、メンデルの法則の可能性を高め得るホモ接合性の領域を含まない胚を選択する。近親のカップルまたは遺伝的背景を共有しているカップルでは、子孫が、疾患を引き起こす領域に対してホモ接合である可能性がある。既知の疾患関連性を有する遺伝子は、ゲノム全体に不均一に広がっているため、既知の疾患を引き起こすゲノム領域内のホモ接合性の領域を回避することにより、疾患を最小限に抑えることができる。ステップ１：２人の親の間で共有される遺伝情報の領域を決定する。ステップ２：各胚のホモ接合領域の割合を算出する。ステップ３：疾患を引き起こすことが知られている領域の合計または領域全体でホモ接合性の最も低い領域を有する胚を選択する。

Claims

胚に関連する疾患リスクを決定するための方法であって、
（ａ）父方対象に関連するゲノムを特定するために、前記父方対象から得られた生物学的サンプルに対して全ゲノム配列決定を実施することと；
（ｂ）母方対象に関連するゲノムを特定するために、前記母方対象から得られた生物学的サンプルに対して全ゲノム配列決定を実施することと；
（ｃ）父方ハプロタイプを特定するために、前記父方対象に関連するゲノムのフェージングを行うことと；
（ｄ）母方ハプロタイプを特定するために、前記母方対象に関連するゲノムのフェージングを行うことと；
（ｅ）前記胚内の１つ以上の遺伝的バリアントを特定するために、前記胚に対してスパース遺伝子型決定（ｓｐａｒｓｅｇｅｎｏｔｙｐｉｎｇ）を実施することと；
（ｆ）（ｉ）前記胚における前記１つ以上の遺伝的バリアント、（ｉｉ）前記父方ハプロタイプ、（ｉｉｉ）前記母方ハプロタイプ、（ｉｖ）前記父方ハプロタイプの伝播確率、および（ｖ）前記母方ハプロタイプの伝播確率に基づいて、前記胚の前記ゲノムを構築することと；
（ｇ）前記胚の前記構築されたゲノムに基づいて、多遺伝子リスクスコアを前記胚に割り当てることと；
（ｈ）前記多遺伝子リスクスコアに基づいて、前記胚に関連する前記疾患リスクを決定することと；
（ｉ）前記父方ゲノムおよび／または前記母方ゲノムから前記胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび／またはハプロタイプの伝播を決定することと；
（ｊ）前記多遺伝子性疾患リスク、ならびに前記父方ゲノムおよび／または母方ゲノムから前記胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび／またはハプロタイプの前記伝播に基づいて、前記胚に関連する複合疾患リスクを決定することと、を含む、方法。
胚に関連する疾患リスクを出力するための方法であって、
（ａ）父方ゲノムデータおよび母方ゲノムデータを含む第１のデータセットを受信することと；
（ｂ）リファレンスゲノムに対して配列リードをアラインし、前記父方ゲノムデータおよび前記母方ゲノムデータを使用して、前記ゲノムの遺伝子型を決定することと；
（ｃ）父方スパースゲノムデータおよび母方スパースゲノムデータを含む第２のデータセットを受信することと；
（ｄ）父方ハプロタイプおよび母方ハプロタイプを特定するために、前記父方のゲノムデータおよび前記母方のゲノムデータのフェージングを行うことと；
（ｅ）前記胚の父方伝播確率および母方伝播確率のスパースゲノムデータを含む第３のデータセットを受信することと；
（ｆ）胚再構築アルゴリズムを（ｉ）前記父方ハプロタイプおよび前記母方ハプロタイプ、（ｉｉ）前記胚のスパースゲノムデータ、ならびに（ｉｉｉ）前記父方ハプロタイプおよび前記母方ハプロタイプのそれぞれの伝播確率に適用して、前記胚の構築されたゲノムを決定することと；
（ｇ）前記胚の前記構築されたゲノムに、多遺伝子モデルを適用することと；
（ｈ）前記胚に関連する前記疾患リスクを出力することと；
（ｉ）前記父方ゲノムおよび／または前記母方ゲノムから前記胚への、疾患を引き起こす遺伝的バリアントおよび／またはハプロタイプの伝播を決定することと；
（ｊ）前記胚において疾患を引き起こすバリアントおよび／またはハプロタイプの有無を出力することと、を含む、方法。
前記多遺伝子性疾患リスク、ならびに前記父方ゲノムおよび／または母方ゲノムから前記胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび／またはハプロタイプの前記伝播に基づいて、前記胚に関連する複合疾患リスクを出力することをさらに含む、請求項２に記載の方法。
祖父母方のゲノムデータおよび／または祖母方のゲノムデータを使用して、父方ハプロタイプおよび／または母方ハプロタイプを決定することをさらに含む、請求項１～３のいずれか一項に記載の方法。
集団の遺伝子型データおよび／または集団の対立遺伝子頻度をさらに使用して、前記胚の前記疾患リスクを決定する、請求項１～４のいずれか一項に記載の方法。
疾患の家族歴および／または他のリスク因子をさらに使用して、疾患リスクを予測する、請求項１～５のいずれか一項に記載の方法。
前記全ゲノム配列決定が、標準的な、ＰＣＲフリーの、リンクドリード（例えば、合成ロングリード）、またはロングリードプロトコルを使用して実施される、請求項１または４～６のいずれか一項に記載の方法。
前記スパース遺伝子型決定が、マイクロアレイ技術、胚生検の次世代配列決定技術、または細胞培養培地の配列決定を使用して実施される、請求項１または４～７のいずれか一項に記載の方法。
前記フェージングが、集団ベースおよび／または分子ベースの方法（例えば、リンクドリード）を使用して実施される、請求項１～８のいずれか一項に記載の方法。
前記多遺伝子リスクスコアが、疾患モデルにおいて部位全体にわたる影響を合計することによって決定される、請求項１～９のいずれか一項に記載の方法。
前記集の団表現型データが、ＵＫＢｉｏｂａｎｋにおける少なくとも約３００，０００人の無関係な個人についての対立遺伝子頻度および個人の遺伝子型を含む、請求項４～１１のいずれか一項に記載の方法。
前記集団の表現型データが、ＵＫＢｉｏｂａｎｋにおける少なくとも約３００，０００人の無関係な個人についての自己報告および臨床報告された（例えば、ＩＣＤ－１０コード）表現型の両方を含む、請求項４～１１のいずれか一項に記載の方法。
前記集団の遺伝子型データが、ＵＫＢｉｏｂａｎｋにおける少なくとも約３００，０００人の無関係な個人についての自己報告データ、およびＵＫＢｉｏｂａｎｋにおけるそれらの個人の親族から得られた情報を含む集団の家族歴データを含む、請求項４～１１のいずれか一項に記載の方法。
前記疾患リスクが、罹患した個人によって共有される遺伝情報の割合によってさらに決定される、請求項１３に記載の方法。
１人以上の将来の子供たちの疾患のリスクを決定するための方法であって、
（ａ）（ｉ）予想される母親と１人以上の将来の精子提供者、または（ｉｉ）予想される父親と１人以上の将来の卵子提供者に対して全ゲノム配列決定を実施することと；
（ｂ）（ｉ）前記予想される母親と前記１人以上の将来の精子提供者、または（ｉｉ）前記予想される父親と前記１人以上の将来の卵子提供者の前記ゲノムのフェージングを行うことと；
（ｃ）組換え率の推定に基づいて配偶子をシミュレートすることと；
（ｄ）前記シミュレートされた配偶子を組み合わせて、１人以上の将来の子供のゲノムを生成することと；
（ｅ）多遺伝子リスクスコアを前記１人以上の将来の子供のそれぞれに割り当てることと；
（ｆ）前記多遺伝子リスクスコアに基づいて、疾患確率の分布を決定することと、を含む、方法。
将来の子供の疾患リスクの確率分布を出力するための方法であって、
（ａ）予想される母親のゲノムデータを含む第１のデータセットを受信することと；
（ｂ）１人以上の予想される父親（例えば、精子提供者（複数可））からのゲノムデータを含む１つ以上のデータセットを受信することと；
（ｃ）（例えば、ＨａｐＭａｐコンソーシアムから得られる）推定された組換え率を使用して、配偶子をシミュレートすることと；
（ｄ）配偶子の将来の組み合わせを使用して、１人以上の将来の子供のゲノムを生成することと；
（ｅ）前記１人以上の将来の子供のそれぞれの前記ゲノムの多遺伝子リスクスコアを推定することと；
（ｆ）前記多遺伝子リスクスコアに基づいて、疾患確率の分布を出力することと、を含む、方法。
（ｉ）予想される母親および将来の精子提供者、または（ｉｉ）予想される父親および将来の卵子提供者の将来の子供の疾患リスクの範囲を決定するための方法であって、
（ａ）（ｉ）母親の遺伝子型と１人以上の精子提供者の遺伝子型を得るために、前記予想される母親と前記１人以上の将来の精子提供者に対して、または（ｉｉ）父親の遺伝子型と１人以上の卵子提供者の遺伝子型を得るために、前記予想される父親と前記１人以上の将来の卵子提供者に対して、全ゲノム配列決定を実施することと；
（ｂ）（ｉ）前記母方の遺伝子型と前記将来の精子提供者の遺伝子型（複数可）、または（ｉｉ）前記予想される父方の遺伝子型と前記将来の卵子提供者の遺伝子型（複数可）を使用して、１人以上の将来の子供の可能性のある遺伝子型を推定することと；
（ｃ）前記将来の子供の前記可能性のある遺伝子型を使用して、前記将来の子供の可能性のある最も低い多遺伝子リスクスコアを推定することと；
（ｄ）前記将来の子供の前記可能性のある遺伝子型を使用して、前記将来の子供の可能性のある最も高い多遺伝子リスクスコアを推定することと、を含む、方法。
（ｉ）予想される母親および１人以上の将来の精子提供者、または（ｉｉ）予想される父親および１人以上の将来の卵子提供者の将来の子供の疾患リスクの範囲を出力するための方法であって、
（ａ）予想される母親のゲノムデータまたは予想される父親のゲノムデータを含む第１のデータセットを受信することと；
（ｂ）前記１人以上の予想される精子提供者または前記１人以上の予想される卵子提供者からのゲノムデータを含む１つ以上のデータセットを受信することと；
（ｃ）（ｉ）前記予想される母親と前記将来の精子提供者（複数可）、または（ｉｉ）前記予想される父親と前記将来の卵子提供者（複数可）の前記遺伝子型を使用して、将来の子供の可能性のある遺伝子型を導出することと；
（ｄ）前記スコアを最小化するモデルにおいて、各部位で、前記遺伝子型（（ｃ）で導出されたもの）を選択することにより、前記将来の子供の最も低い多遺伝子リスクスコアを推定することと；
（ｅ）前記スコアを最大化するモデルにおいて、各部位で、前記遺伝子型（（ｃ）で導出されたもの）を選択することにより、前記将来の子供の最も高い多遺伝子リスクスコアを推定することと；
（ｆ）（ｄ）および（ｅ）で算出された前記最も低いスコアおよび前記最も高いスコアを使用して、疾患のリスクの範囲を出力することと、を含む、方法。
前記精子提供者（複数可）のために高密度の遺伝子型決定アレイを使用し、その後、直接遺伝子型決定されていない目的の部位に遺伝子型の補完を行う、請求項１５～１８のいずれか一項に記載の方法。
疾患の家族歴および／または他の関連するリスク因子をさらに使用して、疾患リスクを決定する、請求項１５～１９のいずれか一項に記載の方法。
前記全ゲノム配列決定が、標準的な、ＰＣＲフリーの、リンクドリード（すなわち、合成ロングリード）、またはロングリードプロトコルを使用して実施される、請求項１５、１７、１９、または２０のいずれか一項に記載の方法。
前記フェージングが、集団ベースおよび／または分子ベースの方法（例えば、リンクドリード）を使用して実施される、請求項１５、１９～２１のいずれか一項に記載の方法。
前記多遺伝子リスクスコアが、前記疾患モデルにおいてすべての部位全体にわたる影響を合計することによって決定される、請求項１５～２２のいずれか一項に記載の方法。
前記集団の遺伝子型データが、ＵＫＢｉｏｂａｎｋにおける少なくとも約３００，０００人の無関係な個人の対立遺伝子頻度および個人の遺伝子型を含む、請求項２２または２３に記載の方法。
前記集団の表現型データが、ＵＫＢｉｏｂａｎｋにおける少なくとも約３００，０００人の無関係な個人についての自己報告および臨床報告された（例えば、ＩＣＤ－１０コード）表現型の両方を含む、請求項２２～２４のいずれか一項に記載の方法。
前記集団の家族歴が、ＵＫＢｉｏｂａｎｋの少なくとも約３００，０００人の無関係な個人の自己報告データ、およびＵＫＢｉｏｂａｎｋのそれらの個人の親族から得られた情報を含む、請求項２２～２５のいずれか一項に記載の方法。