JP2023541193A

JP2023541193A - ゲノム配列データセット生成

Info

Publication number: JP2023541193A
Application number: JP2023516815A
Authority: JP
Inventors: マスモントセラト，ダニエル; イオアニディス，アレクサンダー; ブスタマンテ，カルロス
Original assignee: CZ Biohub SF LLC
Current assignee: CZ Biohub SF LLC
Priority date: 2020-09-14
Filing date: 2021-09-14
Publication date: 2023-09-28
Also published as: US20230326542A1; EP4211271A1; AU2021340886A1; KR20230074178A; WO2022056438A1

Abstract

一実施例では、方法は、形質インジケータを受信することと、形質インジケータに基づいて、潜在空間における埋め込みベクトルの確率分布を取得することであって、確率分布は、訓練された生成的機械学習モデルの分布生成サブモデルによって、形質インジケータに関連付けられた変異体セグメントを表す入力ベクトルから生成され、入力ベクトルは、潜在空間よりも大きい数の次元を有する変異体セグメント空間において定義される、取得することと、確率分布をサンプリングすることによってサンプルベクトルを取得することと、訓練された生成的機械学習モデルの配列生成サブモデルによって、かつ形質インジケータに基づいて、サンプルベクトルから出力ベクトルを再構築することであって、出力ベクトルは、変異体セグメント空間において定義される、再構築することと、出力ベクトルに基づいて、シミュレートされたゲノム配列を生成することと、を含む。【選択図】図３－２

Description

関連出願の相互参照
本出願は、２０２０年９月１４日に出願された“ＧｅｎｏｍｉｃＳｅｑｕｅｎｃｅＤａｔａｓｅｔＧｅｎｅｒａｔｉｏｎ”と題された米国仮出願第６３／０７８，１４８号の優先権を主張し、このＰＣＴ出願であり、その全内容は、あらゆる目的のために参照により本明細書に組み込まれる。

連邦政府が後援する研究開発下で行われた発明の権利に関する声明
本発明は、国立衛生研究所によって付与された助成番号ＨＧ００９０８０の下で政府の支援を受けて行われた。政府は、本発明に一定の権利を有する。

人のデオキシリボ核酸（ＤＮＡ）配列中のほとんどの部位は、個体間で変動しないが、約２パーセント（５００万の位置）変動する。これらは、一塩基多型（ＳＮＰ）と称される。ヒトの集団は全て、アフリカで共通の古代起源を共有し、共通の可変部位のセットを共有しているが、現代のヒトの集団は、これらの集団のゲノムにおけるＤＮＡ配列の各部位でのＳＮＰ変異体の頻度に明らかな差異を呈する。ＤＮＡは、各世代において、（２つの親ＤＮＡ配列間の）祖先における希少でランダムなスワップのみを有するインタクトな配列として遺伝されるため、祖先ＳＮＰは、連続したセグメントを形成する。結果として、典型的には一括して遺伝されるゲノムに沿った隣接する部位間の相関が、世界中の亜集団間で異なる。

ゲノムに沿った隣接部位間の相関から、様々な情報を推断することができる。例えば、局所的祖先推論は、個体のゲノムに沿った様々な部位で観察された変動のパターンを使用して、個体のＤＮＡの祖先起源を推定する。加えて、ゲノムに沿った相関は、多遺伝子リスクスコア（ＰＲＳ）、ゲノムワイド関連解析（ＧＷＡＳ）、及び精密医療の他の多くの態様に影響を与える可能性がある。近傍の遺伝子変異体間の相関が祖先依存性であることを考えると、個体のゲノムにこれらの分析の結果を適用することは、ゲノムに沿った各部位における個体の祖先に関する知識を必要とし得る。

残念なことに、世界の亜集団の多くは、現代の遺伝子調査研究に含められておらず、これらの研究の８０％超が、ヨーロッパ祖先の個体のみを含む。これにより、世界の集団の残りに対して正確な予測を行う能力が、厳しく制限される。局所的祖先推論を使用して混合個体の祖先を解析することは、このギャップを埋め、かつ非ヨーロッパ祖先の遺伝的アーキテクチャ及び関連性を理解することに貢献し、したがって、医学的遺伝学の恩恵が地球の集団の大部分に生じることを可能にする。

混合祖先における多型の隠れマルコフモデル（ＨＭＭ）ベースの分析（ＨＡＰＡＡ）、ＨＡＰＭＩＸ、及びＳＡＢＥ、スライディング窓を用いた確率最大化を使用する混合集団における局所的祖先（ＬＡＭＰ）、窓内でランダムフォレストを使用するＲＦＭｉｘ、及びニューラルネットワークを使用する局所的祖先推論ネットワーク（ＬＡＩ－Ｎｅｔ）などの、局所的祖先推論のための様々な方法が存在する。しかしながら、これらのアルゴリズムは、それぞれの染色体の祖先セグメントを認識するために、各祖先からのアクセス可能な訓練データを必要とする。主な課題は、ヒトゲノム参照を含む多くのデータセットがプライバシー制限によって保護されており、かつ私有のものであるか、又は別様に公衆にアクセス可能でないことである。訓練データセットの欠如は、正確な局所的祖先推論を実行する際のこれらのアルゴリズムの能力を低下させる可能性がある。

したがって、種々の祖先起源についての遺伝的変異体のより多様なセットを有するゲノム配列データセットを生成するための技術が望ましい。

本開示の実施例は、生成的機械学習モデルを使用して、所定の形質（例えば、祖先起源）の遺伝子変異体（例えば、ＳＮＰ）のセグメントを有するシミュレートされたゲノム配列を生成するための方法、システム、及び装置を提供する。生成的機械学習モデルは、単倍体又は二倍体ＤＮＡ配列中の入力変異体（例えば、ＳＮＰ）セグメントを表すデータ、及びセグメントの形質を示す情報を受信することができる。ＤＮＡ配列を、例えば、対象のゲノム配列を提供するゲノム配列決定演算、ＤＮＡのセグメントを含むＤＮＡマイクロアレイなどから得ることができる。入力変異体セグメントを表すデータは、入力ベクトルを含むことができ、入力ベクトルの各次元は、ゲノム内のヘテロ接合部位を表し、変異体を示す値に関連付けられる。変異体の入力セグメントから、かつ形質に基づいて、生成的機械学習モデルは、多次元確率分布に基づいて、シミュレートされた変異体セグメントを表す出力ベクトルのセットをランダムに生成することができる。出力ベクトルは、入力変異体セグメントと比較して、ゲノム内の部位に異なるパターンの変異体を有し得る。シミュレートされた変異体セグメントは、入力変異体セグメントの変異体であり得、多次元確率分布に基づく特定の形質についての入力変異体セグメントに統計的に関連している。

いくつかの実施例によれば、生成的機械学習モデルの特定の演算を、削減された、すなわち、セグメント中の変異体の数から削減された、次元空間（例えば、潜在空間）において実行することができる。例えば、初期マッピングは、Ｎ個の変異体を、Ｍ個の次元を有する埋め込みベクトルに変換することができ、ここで、Ｍ（例えば、４０）は、Ｎ（例えば、５００）未満である。入力変異体セグメント（例えば、５００個のＳＮＰ又は他の変異体を有する）について、生成的機械学習モデルは、多次元確率分布の表現（例えば、削減された空間の各次元についての１つの確率分布）を決定し、次いで、１つの入力変異体セグメントから、多次元確率分布からの埋め込みベクトルのサンプルを取得することができる。次いで、サンプルは、シミュレートされた変異体セグメントとして再構築される。一実施例では、確率分布を、多次元平均及び多次元分散を有するガウス分布としてモデル化することができる。いくつかの実施例では、確率分布は、削減された空間の各次元について異なる平均値及び分散値を有することができる。いくつかの実施例では、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ（ＫＬ）発散に基づく訓練演算を介して、ゼロ平均及び単位分散ガウス分布（例えば、等方性ガウス分布）を達成することができる。特定の確率分布（又は１つの多次元分布）の決定を、パラメータが訓練演算で学習されるマッピングに基づいて行うことができる。したがって、入力変異体セグメントの変異体値を、分布のセット（又は多次元分布）にマッピングすることができる。次いで、生成的機械学習モデルは、多次元ガウス分布からサンプルを取得することができ、この場合に、サンプルは、出力ベクトルを生成するために再構築される。

いくつかの実施例では、生成的機械学習モデルは、クラス条件付き変分オートエンコーダ（ＣＶＡＥ）として構成されたエンコーダ及びデコーダを含む。エンコーダ及びデコーダの両方をニューラルネットワークモデルとして実装することができる。エンコーダは、例えば、削減された数の次元の各々についての分布の平均及び幅（分散）へのマッピングによって、変異体セグメント空間における入力ベクトルを、削減された数の次元を有する潜在空間における埋め込みベクトルの多次元確率分布に変換することができる。等方性分布の場合、分散は、各次元について同じになる。削減された空間における分布は、入力変異体セグメントの変動を表すことができる。デコーダは、確率分布から埋め込みベクトルのサンプルを取得することができ、次いで、埋め込みベクトルを、サンプルから出力ベクトルを形成するように再構築し、出力ベクトルは、入力ベクトルと同じ次元を有し、シミュレートされた変異体セグメントを表す。

ＣＶＡＥのエンコーダ及びデコーダの両方を、変異体セグメント空間から潜在空間へのマッピングにおける情報損失を低減しながら、変異体の異なるパターンを目標の多次元確率分布にフィッティングさせるように訓練することができる。このことは、デコーダによって生成されたシミュレートされた変異体セグメントが、多次元確率分布に従って入力変異体セグメントに統計的に関連し、変異体セグメント中のランダムな変動の効果をシミュレートすることができることを確実にすることができる。エンコーダ及びデコーダの訓練は、（入力ベクトルと出力ベクトルの各々との間の）再構築誤差と、目標確率分布からの発散に対するペナルティとを組み合わせた損失関数を最小化することに基づくことができる（例えば、多次元確率分布と目標確率分布の目標値と、のパラメータ（例えば、平均及び分散）の差分に基づいて）。訓練演算を実行して、再構築誤差及び分布発散のペナルティを低減又は最小化して、エンコーダによって生成された変異体セグメントの分布を、ゼロ平均単位分散ガウス分布であり得る目標確率分布に（ある程度）マッチするように強制することができる。変異体セグメントの分布の中心（平均）及び分散を、再構築誤差及び分布発散のペナルティの低減／最小化に基づいて設定することができる。

シミュレートされた変異体セグメントが目標確率分布により密接に従い得るように、分布誤差を更に低減するために、ＣＶＡＥを、前述の訓練演算におけるデコーダ及び判別器を含むクラス条件付き敵対的生成ネットワーク（ＣＧＡＮ）を使用して訓練することができる。判別器をニューラルネットワークモデルとして実装することもでき、判別器は、デコーダによって出力された変異体セグメントが実際の変異体セグメントであるか、又はシミュレートされた変異体セグメントであるかを分類することができる。判別器は、シミュレートされた変異体セグメントが目標確率分布に従うとき、実際の変異体セグメントをシミュレートされた変異体セグメントから区別することができない場合があり、この時点で、判別器の分類誤差率が最大に達する場合があり、このことは、デコーダの再構築が最適であることを意味する。敵対的訓練演算であって、デコーダのパラメータを、削減された次元での確率分布が目標確率分布に近づくように分類誤差率を増加させるように調整し、一方で、判別器のパラメータを、分類誤差率を低減するように調整する、敵対的訓練演算を実行することができる。訓練演算は、出力ベクトルのおよそ５０％が実際の変異体セグメントを表し、かつ出力ベクトルのおよそ５０％が偽物の／シミュレートされた変異体セグメントを表すときに停止し得る。

開示された実施例を用いて、生成的機械学習モデルを使用して、多数のランダムであるが統計的にシミュレートされた変異体セグメントを生成することができる。例えば、訓練演算を通じて、入力変異体配列を異なる祖先についての埋め込み空間にマッピングするエンコーダのパラメータ、及び埋め込みベクトルを異なる祖先についての再構築された配列にもマッピングするデコーダのパラメータを取得することができる。生成的機械学習モデルは、目標祖先を入力として受信することができる。次いで、その目標祖先についての特定の確率分布（例えば、ガウス分布）を選択することができ、埋め込みベクトルの複数のサンプルを、その特定の確率分布から取得することができる。次いで、埋め込みベクトル及び目標祖先をデコーダに入力して、シミュレートされた変異体セグメントを生成することができる。別の実施例として、入力変異体セグメント及びこの入力変異体セグメントの形質をエンコーダに入力して、確率分布のパラメータを生成することもでき、そこから埋め込みベクトルをサンプリングすることができ、次いで、サンプリングされた埋め込みベクトル及び形質をデコーダに入力して、シミュレートされた変異体セグメントを生成することができる。

シミュレートされた変異体セグメントを、様々な用途に使用することができる。一実施例では、シミュレートされた変異体セグメントを使用して、局所的祖先推論機械学習モデルを訓練することができる。シミュレートされた変異体セグメントは、異なる形質についての統計的に関連する変異体パターンの多様なセットを含むことができるため、シミュレートされた変異体セグメントで訓練された局所的祖先推論機械学習モデルは、それらの変異体パターンから学習し、変異体セグメントの形質をより正確に予測することができる。

別の実施例では、シミュレートされた変異体セグメントを、ゲノムワイド関連研究（ＧＷＡＳ）における追加データとして提供することもできる。例えば、様々な統計技術を使用して、ゲノム配列、形質、及び特定の目標医学的／生物学的形質間の基礎的関係を検出することができる。訓練演算のカバ－範囲を改善するために、目標の医学的／生物学的形質及びそれらの形質を有する（又は有していない）シミュレートされた個体についての追加の変異体セグメントを、生成的機械学習モデルを使用して生成することができ、追加の変異体セグメントを提供して、モデルを訓練することができる。追加の変異体セグメントを使用して、例えば、目標の医学的／生物学的形質を有していないシミュレートされた個体の変異体セグメントを表す制御データ、及び目標の医学的／生物学的形質であるが異なる形質を有するシミュレートされた個体の変異体セグメントを表す制御データなどを提供することができる。

加えて、生成的機械学習モデルは、追加の変異体セグメントデータ（訓練用、ＧＷＡＳ用など）を生成するための移植性を有し、かつ公にアクセス可能なメカニズムを提供することができる。具体的には、実際のヒトゲノム参照を含むデータセットは、私有のものであり、プライバシー制限によって保護されている。対照的に、生成的機械学習モデルの関数／モデルパラメータは、任意の個体を識別することができ、かつ公に利用可能にすることができるデータを搬送しない。結果として、生成的機械学習モデルを公に利用可能にして、シミュレートされた変異体セグメントを生成して、局所的祖先推論機械学習モデルの訓練を改善し、ＧＷＡＳ用などの制御データを提供することができる。

いくつかの実施例は、本明細書に記載されている方法と関連付けられたシステム及びコンピュータ可読媒体を対象とする。

以下の詳細な説明及び添付の図面を参照して、本開示の実施例の性質及び利点のより良好な理解を得ることができる。

図１Ａ及び図１Ｂは、ゲノムにおける一塩基多型（ＳＮＰ）及びＳＮＰの祖先起源の実施例を例示する。同上。

図２Ａ、図２Ｂ、及び図２Ｃは、本開示の実施例によって促進されるＳＮＰ配列の例示的な分析を例示する。同上。同上。

図３Ａ、図３Ｂ、図３Ｃ、図３Ｄ、及び図３Ｅは、本開示の実施例による、シミュレートされたＳＮＰ配列を生成するための生成的機械学習モデルの例示的な構成要素を例示する。同上。同上。同上。同上。

図４は、本開示の実施例による、図３Ａ～図３Ｅの生成的機械学習モデルの例示的な訓練演算を例示する。

図５Ａ及び図５Ｂは、本開示の実施例による、図３Ａ～図３Ｅの生成的機械学習モデルの別の例示的な訓練演算を例示する。同上。

図６は、いくつかの実施例による、別の生成的機械学習モデルを例示する。

図７は、本開示の実施例による、種々の変異体セグメント間の関係を提供する機械学習モデルのサンプルアーキテクチャを示す。

図８は、いくつかの実施例による、シミュレートされたＳＮＰ配列を生成する例示的な方法を例示する。

図９は、本開示の実施例が実装され得るコンピュータシステムを例示する。

ゲノムに沿った隣接部位間の相関から、様々な情報を推断することができる。例えば、局所的祖先推論は、個体のゲノムに沿った様々な部位で観察された変動のパターンを使用して、個体のＤＮＡの祖先起源を推定する。加えて、ゲノムに沿った相関は、多遺伝子リスクスコア（ＰＲＳ）、ゲノムワイド関連解析（ＧＷＡＳ）に影響を与え、精密医療の他の多くの態様を推断することができる。

ゲノムの各セグメントについて、形質（例えば、祖先起源、生物医学的形質、人口統計学的形質、又は他の表現型）を割り当てることができる。実施例は、祖先起源について提供されるが、本明細書に記載される技術は、他の形質にも適用される。入力配列に基づく所与の形質に対応する生成する合成配列を生成することができ、これらの合成配列を、形質を有する対象の細胞ＤＮＡ又は無細胞ＤＮＡ（例えば、血漿から）を配列決定することによって取得することができる。

前述の局所的祖先推論演算、並びにＰＲＳ及びＧＷＡＳの計算などのゲノム関連医学研究は、種々の祖先起源についての遺伝子変異体の多様なセットを有する大規模なゲノム配列データセットで促進され得る。例えば、局所的祖先推論機械学習モデルを、種々の祖先起源の統計的に関連するＳＮＰパターンの多様なセットを使用して訓練することができ、これにより、機械学習モデルが、それらのＳＮＰパターンから学習し、ＳＮＰセグメントの祖先起源をより正確に予測することが可能になる。更に、既知の形質を有する対象のＳＮＰパターンをＧＷＡＳ研究のためのデータとしても使用して、例えば、統計分析がゲノム配列、祖先起源、並びに特定の生物学的／医学的形質及び祖先起源間の基礎的関係を検出するためのデータを提供することができる。しかしながら、実際のヒトゲノム参照を含むデータセットの利用可能性は、典型的には、それらのデータが私有のものであり、かつプライバシー制限によって保護されているため、限られている。

本開示の実施例は、生成的機械学習モデルを使用して、所定の祖先起源の遺伝子変異体（例えば、ＳＮＰ）のセグメントを有するシミュレートされたゲノム配列を生成するための方法、システム、及び装置を提供する。生成的機械学習モデルは、単倍体又は二倍体ＤＮＡ配列中の入力ＳＮＰセグメントを表すデータ、及びセグメントの祖先起源を示す情報を受信することができる。ＤＮＡ配列を、例えば、対象のゲノム配列を提供するゲノム配列決定演算、ＤＮＡのセグメントを含むＤＮＡマイクロアレイなどから得ることができる。入力ＳＮＰセグメントを表すデータは、入力ベクトルを含むことができ、入力ベクトルの各次元は、ゲノム内の部位を表し、ＳＮＰ変異体を示す値に関連付けられる。ＳＮＰの入力セグメントから、かつ祖先起源に基づいて、生成的機械学習モデルは、シミュレートされたＳＮＰセグメントを表す１つ以上の出力ベクトルを生成することができる。出力ベクトルは、入力ＳＮＰセグメントと比較して、ゲノム内の部位に異なるパターンのＳＮＰ変異体を有し得る。シミュレートされたＳＮＰセグメントは、特定の祖先起源の入力ＳＮＰセグメントに統計的に関連する入力ＳＮＰセグメントの変異体であり得る。

いくつかの実施例によれば、生成的機械学習モデルは、入力ＳＮＰセグメントの変異体から縮小空間（埋め込み／潜在空間）への変換に基づいて、多次元の確率分布の表現（例えば、平均及び分散）を生成し、次いで、確率分布から埋め込みベクトルのサンプルを取得することができる。次に、シミュレートされたＳＮＰセグメントは、シミュレートされたＳＮＰセグメントとして（例えば、デコーダによって）、埋め込みベクトルサンプルから再構築される。一実施例では、多次元の確率分布は、入力ＳＮＰセグメントのマッピングから決定された計算された平均及び分散を有するガウス分布であり得、再構築の正解率を比較する訓練に基づいて、マッピング関数のパラメータを決定することができる。次いで、生成的機械学習モデルは、ガウス分布から、その後に出力ベクトルを形成するように再構築される埋め込みベクトルを生成するためのサンプルを取得することができる。

いくつかの実施例では、生成的機械学習モデルは、第１のサブモデル及び第２のサブモデルを含み、これらの両方を、ニューラルネットワークモデルとして実装することができる。第１のサブモデルは、潜在空間における埋め込みベクトルの多次元の確率分布を入力ベクトルにマッピングするように構成されたエンコーダを含むことができる。潜在空間は、入力ＳＮＰセグメントに表されたＳＮＰ部位の数に対して削減された次元の数を有することができる。次元の数を減少させながら、マッピングは、依然として、埋め込みベクトルにおける入力ベクトルのＳＮＰ変異体のパターンを示す情報を保持することができる。確率分布がガウス分布を含む場合、エンコーダは、入力ベクトルにおけるＳＮＰ変異体のパターンに基づいて、埋め込みベクトルの各次元の分布についての平均及び分散を決定することができる。種々のＳＮＰ配列について、種々の確率分布（例えば、潜在空間の種々の次元について種々の平均及び分散を有する種々のガウス分布）を決定することができる。いくつかの実施例では、祖先起源を入力ベクトルとともにエンコーダに入力して、その祖先起源についての埋め込みベクトルの分布のパラメータを生成することができる。種々の祖先起源についてエンコーダによって、複数の確率分布を生成することができる。

加えて、第２のサブモデルは、デコーダを含むことができる。デコーダは、確率分布から埋め込みベクトルのサンプルを取得することができる。確率分布を、入力ＳＮＰセグメント及び祖先起源を符号化することに基づいてエンコーダから、又は他の入力ＳＮＰセグメントに基づいてエンコーダから事前に生成され、かつ祖先起源及びＳＮＰ部位に基づいて選択された確率分布から、出力することができる。次いで、デコーダは、埋め込みベクトルのサンプルから、入力ＳＮＰセグメントを表す入力ベクトルと同じ次元を有する出力ベクトルを再構築することができる。サンプリング演算の一部として、埋め込みベクトルのランダムなサンプルを生成するためのパラメータに基づいて、ランダム関数を実装することができる。ランダム関数は、デコーダの一部又は外部であり得る。再構築演算の一部として、デコーダは、入力ＳＮＰセグメントの祖先起源に基づいて、潜在空間における埋め込みベクトルのサンプルをＳＮＰセグメント空間における出力ベクトルにマッピングするための再構築関数を実装することができる。次いで、出力ベクトルは、祖先起源のシミュレートされたＳＮＰセグメントを表すことができる。

エンコーダ及びデコーダの両方を訓練して、潜在空間におけるＳＮＰ変異体の種々のパターンの表現を最大化することができる。いくつかの実施例では、エンコーダ及びデコーダは、種々の祖先起源が種々のクラスとして表されるクラス条件付き変分オートエンコーダ（ＣＶＡＥ）の一部であり得る。ＣＶＡＥを、訓練演算における所与の祖先起源に対する実際のＳＮＰ配列を表す訓練入力ベクトルを使用して訓練することができる。訓練演算は、順伝播演算及び逆伝播演算を含むことができる。順伝播演算の一部として、エンコーダは、関数パラメータの初期セットを有するマッピング関数を使用して、入力ベクトルの埋め込みベクトルの確率分布を決定することができる。確率分布を、例えば、潜在空間の各次元についての平均及び分散によって表すことができる。デコーダは、確率分布に基づいて、埋め込みベクトルのサンプルを計算し、再構築関数（関数パラメータの初期セットを有する）を使用して、出力ベクトルを計算することができる。

訓練演算の逆伝播は、マッピング関数及び再構築関数の初期関数パラメータを調整して、第１の損失関数を最小化することができる。第１の損失関数は、再構築誤差成分及び分布誤差成分を含むことができる。再構築誤差を、入力ベクトルと出力ベクトルとの差分に基づいて生成することができるのに対して、分布誤差を、埋め込みベクトルの確率分布と目標確率分布との差分に基づいて生成することができる。いくつかの実施例では、分布誤差を、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ発散（ＫＬ発散）に基づいて計算することができる。勾配下降スキームを介して、第１の損失関数を最小化する目的で、エンコーダ及びデコーダの関数パラメータを、関数パラメータに対する第１の損失関数の変化に基づいて調整することができる。この訓練を、種々の祖先起源のための訓練入力ベクトルについて繰り返して、種々のクラスを表す種々の祖先起源についてのマッピング関数及び再構築関数の種々の関数パラメータを決定することができる。

再構築誤差と分布誤差との組み合わせに基づいて、エンコーダ及びデコーダの訓練は、エンコーダが、分布誤差を低減することに基づいて、入力ＳＮＰセグメントを（例えば、等方性である）目標特性を有する確率分布にマッピングすることを可能にする一方、再構築誤差を低減することに基づいて、入力ＳＮＰセグメントの埋め込みベクトルに基づいて、確率分布の中心を定めることができる。そのような構成では、シミュレートされたＳＮＰセグメント（例えば、祖先起源を与えられた入力ＳＮＰセグメントからＣＶＡＥによって生成されるか、又は祖先起源に基づいて選択された入力確率分布に基づいてデコーダによって生成される）は、ＳＮＰパターン変異体の多様なセットを含むことができるが、ＳＮＰパターン変異体は、目標確率分布に基づいて統計的に関連したままである。

シミュレートされたＳＮＰセグメントが目標確率分布により密接に従うことができるように分布誤差を更に低減するために、ＣＶＡＥを、デコーダ及び判別器を含むクラス条件付き敵対的生成ネットワーク（ＣＧＡＮ）を使用して訓練することができる。このＣＧＡＮの訓練を、前述の訓練演算、エンコーダからの別個の訓練演算、又は訓練の別個のループで実行することができる（例えば、ＶＡＥについて複数の訓練反復が行われ、次いで、ＣＧＡＮについて複数の訓練反復が行われ、ＶＡＥに戻るなど）。判別器を、生成的機械学習モデルの第３のサブモデルとすることができ、ニューラルネットワークモデルとして実施することもできる。訓練演算中、順伝播演算の一部として、デコーダは、埋め込みベクトルのランダムなサンプルを計算し、シミュレートされたＳＮＰセグメントを表す出力ベクトルを再構築することができる。更に、判別器は、出力ベクトルが実際のＳＮＰセグメントを表すかどうかを判定することができる。判別器は、シミュレートされたＳＮＰセグメントが目標確率分布に従うとき、実際のＳＮＰセグメントをシミュレートされたＳＮＰセグメントから区別することができない場合があり、この時点で、分類誤差率は、５０％に近づく。

ＣＧＡＮにおける訓練演算の目標は、出力ベクトルが目標確率分布（例えば、等方性ガウス分布）に適合することである。目標に到達するために、敵対的訓練演算を実行し、（シミュレートされたＳＮＰセグメントを実際のＳＮＰセグメントにより類似させることに基づいて）分類誤差を増加させるようにデコーダのパラメータを調整する一方で、分類誤差を減少させるように判別器のパラメータを調整する。デコーダの再構築関数パラメータを、判別器での分類誤差が増加すると減少する第２の損失関数に従って調整することができる。更に、判別器のモデルパラメータを、分類誤差が減少すると減少する第３の損失関数に従って、同じ訓練演算で調整することもできる。分類誤差率が５０％に近づくと、敵対的訓練演算を停止することができる。

一塩基多型（ＳＮＰ）以外の他の変異体を使用することができる。変異体を、遺伝子位置又は位置の範囲に対応し得る、部位における任意の遺伝子データとすることができる。様々なタイプの変異体の実施例としては、塩基、欠失、（例えば、短いタンデム反復の）増幅、挿入、反転、及びメチル化ステータスが挙げられる。ある部位が、２つ以上の値、例えば、ＳＮＰの特定の対立遺伝子及び特定のメチル化ステータスを含むことが可能である。これらを、同じ変異体部位で生じる異なる変異体値とみなすことができるか、又はこれらの部位を、これらの部位が異なるタイプの変異体に関連するため、異なるとみなすことができる。いずれにせよ、変異体値のベクトルは、同じ全長を有するであろう。したがって、変異体セグメントは、変異体部位の任意のセット（例えば、連続的な）を含むことができ、変異体部位は、１つ以上のタイプの変異体について異なる変異体値を有することができる。

Ｉ．ＳＮＰ配列の実施例
一塩基多型（ＳＮＰ）は、ゲノムにおける一塩基のアデニン（Ａ）、チミン（Ｔ）、シトシン（Ｃ）、又はグアニン（Ｇ）が種のメンバー間で異なる場合に生じるＤＮＡ配列変動を指し得る。

図１Ａは、ＳＮＰの一実施例を例示する。図１Ａは、異なる個体由来の２つの配列決定されたＤＮＡ断片１０２及び１０４を例示している。配列決定されたＤＮＡ断片１０２は、塩基対ＡＴ－ＡＴ－ＣＧ－ＣＧ－ＣＧ－ＴＡ－ＡＴの配列を含むのに対して、配列決定されたＤＮＡ断片１０４は、塩基対ＡＴ－ＡＴ－ＣＧ－ＣＧ－ＴＡ－ＴＡーＡＴの配列を含む。図１Ａに示されるように、ＤＮＡ断片１０２及び１０４は、ヌクレオチドの一塩基対（ＣＧ対ＴＡ、典型的には、Ｃ及びＴと称される）の差分を含有する。差分を、単一のＳＮＰとしてカウントすることができる。ＳＮＰが一般的な変異体であるか、又は少数の変異体であるかに基づいて、ＳＮＰを値に符号化することができる。一般的な変異体は、集団においてより一般的であり得る（例えば、８０％）のに対して、少数の変異体は、より少ない個体で発生するであろう。いくつかの実施例では、一般的な変異体を－１の値として符号化することができるのに対して、少数の変異体を＋１の値として符号化することができる。

異なる大陸及び異なる亜大陸地域に由来する現代のヒト集団は、過去５万年にわたる遺伝的浮動及び異なる人口統計学的歴史（ボトルネック、拡大、及び混合）に起因して、これらのヒト集団のゲノムにおけるＤＮＡ配列の各部位におけるＳＮＰ変異体の頻度、及び異なる近傍部位におけるこれらの変異体間の相関の、識別可能な差異を呈する。ＤＮＡは、各世代において、（２つの親ＤＮＡ配列間の）祖先における希少でランダムなスワップのみを有するインタクトな配列として遺伝されるため、祖先ＳＮＰは、連続したＳＮＰ変異体のパターンに基づく強力な祖先推論を可能にする、連続したセグメントを形成する。

図１Ｂは、個体の各親由来のものである、個体の混合された染色体対のＳＮＰのセグメント間の祖先起源の例示的なグループを例示する。グループ１１２は、固体のゲノムを分析することによって決定されるように、個体の異なるＳＮＰ部位における遺伝物質の真の祖先起源を例示している。個体のゲノムを、個体の組織からのＤＮＡを配列決定することによって決定することができる。図１Ｂの実施例では、ＳＮＰセグメントの祖先起源は、アフリカ、東アジア、及びヨーロッパを含み得る。

グループ１１２を、ＳＮＰセグメントの祖先起源の分類の第１の段階とすることができる。第２の段階として、平滑化を行うことができる。グループ１１４は、セグメント１１８（東アジア）の不連続部１１６（アフリカ）、セグメント１２２（アフリカ）の不連続部１２０（東アジア）などの、セグメントの祖先起源不連続部を除去するために、グループ１１２の全体にわたって平滑化演算を実行することから導出され得る、ＳＮＰの復号化された祖先起源を例示している。

高分解能でゲノムに沿って祖先を正確に推測する能力は、特定の疾病の素質、特定の生物医学的形質（例えば、血圧、コレステロールレベルなど）などの複雑形質に対する遺伝現象及び環境の役割を理解するために重要である。このことは、複雑な身体的及び医学的形質を共有する共通の祖先を有する集団に起因し得る。例えば、特定の民族は、比較的高い喘息の死亡率を有し得るのに対して、別の民族は、比較的低い喘息の死亡率を有し得る。特定の疾病及び生物医学的形質の素質のための集団内の遺伝的関連性を明らかにすることは、治療の発展に情報を提供し、多遺伝子リスクスコアとして知られる疾患リスクの予測因子の構築を可能にすることができる。しかしながら、近傍の遺伝子変異体（例えば、ＳＮＰ）間の相関は、祖先依存性であるため、個体のゲノムにこれらのリスクスコアを適用することは、ゲノムに沿った各部位における個体の祖先に関する知識を必要とする。

この形質は、任意の表現型のためのものであり得る。他のタイプの形質については、対象のゲノムを依然として混合することができる。例えば、がんに関連付けられた変異体（例えば、配列変異体、コピー数変異体、又は構造変異体）を有するセグメントを、がんに対応する形質インジケータで標識することができ、他のセグメントを、がんでない形質インジケータで標識することができる。更に他の形質については、対象のゲノムは、混合されない場合がある。例えば、自己免疫障害を有する対象は、障害の形質インジケータで標識されたセグメントの全てを有することができる。例えば、医師による観察、病理検査、ゲノム検査、又は他のタイプの検査に基づいて、形質を多様な方途で対象に割り当てることができる。

対象は、複数の形質、例えば、祖先起源、人口統計学的形質（例えば、身長）、及び生物医学的形質（例えば、糖尿病などの病気の存在）を有し得る。対象を、これらの対象が有する形質に基づいて、クラスタ化することができる。対象を、任意の数の方途で、様々な形質で標識することができる。例えば、ワンホットエンコーディングを使用して、各形質がセグメントに対して存在するかどうかを指定することができる。いくつかの形質をグループ化することができ（例えば、病気が存在するか否か、又は異なる年齢範囲）、グループからの１つの形質インジケータのみが陽性（例えば、１）である。

実施形態を使用して、特定の人のゲノムを使用する必要なく、これらの形質のうちのいずれか１つ以上に関連付けられたゲノム配列をシミュレートすることができ、それによって、プライバシーを維持する。例えば、病院は、２型糖尿病を有し、ネイティブアメリカンの部族のメンバーであり、かつ／又は他の形質を有する対象についてのゲノム配列を有することができ、人々は、これらの対象のＤＮＡを非公開にすることを望む。実施形態は、これらの人々についての同じ特性を有するが、これらの人々の個人的なゲノムではない合成ゲノムを作成することができる。これらの合成ゲノムを使用して、他の対象における形質を予測する別のモデルを訓練することができる。

ＩＩ．ＳＮＰ配列の例示的な分析
機械学習モデルを使用して、対象のゲノムデータの祖先固有の分析を実行することができる。混合祖先における多型の隠れマルコフモデル（ＨＭＭ）ベースの分析（ＨＡＰＡＡ）、ＨＡＰＭＩＸ、及びＳＡＢＥ、スライディング窓を用いた確率最大化を使用する混合集団における局所的祖先（ＬＡＭＰ）、及び窓内でランダムフォレストを使用するＲＦＭｉｘなどの、局所的祖先推論のための様々な機械学習モデルが存在する。

図２Ａは、いくつかの実施例による、局所的祖先推論を実行するための機械学習モデル２００の一般のトポロジーを例示する。図２Ａに示されるように、機械学習モデル２００は、対象（例えば、人）の入力ゲノム配列を表すデータ２０２を受け取ることができる。入力ゲノム配列は、対象のゲノムの複数の一塩基多型（ＳＮＰ）部位を各々が含む複数のセグメントを包含し得る。各セグメントを、データ２０２において、各ＳＮＰ値がＳＮＰ部位における変異体を特定する、ＳＮＰ部位におけるＳＮＰ値の配列によって表し得る。

データ２０２は、ＳＮＰセグメント２０４ａ、２０４ｂ、２０４ｃ、２０４ｎなどを含むことができる。各セグメントについて、機械学習モデル２００は、セグメント内のＳＮＰ値、及びこれらの値の関連付けられたＳＮＰ部位のパターンに基づいて、各ＳＮＰセグメントについての祖先起源予測（例えば、ＳＮＰセグメントがアフリカ、ヨーロッパ、又は東アジアに由来するかどうか）を生成することができる。図２Ａでは、機械学習モデル２００は、ＳＮＰセグメント２０４ａについての祖先起源予測２０６ａ、ＳＮＰセグメント２０４ｂについての祖先元の予測２０６ｂ、ＳＮＰセグメント２０４ｃについての祖先起源予測２０６ｃ、及びＳＮＰセグメント２０４ｎについての祖先起源予測２０６ｎを生成することができる。祖先起源予測を連結して、例えば、図１Ｂのグループ１１２及び／又は１１４を提供することができる。各セグメントは、同じ又は異なる量の変異体（例えば、ＳＮＰ）を含むことができる。セグメント内の変異体の例示的な数は、５０個、１００個、１５０個、２００個、２５０個、３００個、４００個、５００個、１０００個、５０００個、及び１００００個の部位を含む。

機械学習モデル２００を、既知の祖先起源を有する個体のゲノムデータを使用して訓練して、ＳＮＰの様々な祖先固有のパターンを学習し、及び学習を適用して、入力ゲノムデータからＳＮＰの祖先固有のパターンをより正確な様式で識別することができる。

図２Ｂは、例示的な訓練演算を例示する。図２Ｂに示されるように、機械学習モデル２００は、ＳＮＰセグメント２１４ａ、２１４ｂ、２１４ｃ、及び２１４ｎ、並びに各セグメントの既知の祖先起源２１６ａ、２１６ｂ、２１６ｃ、及び２１６ｎを含む訓練データ２１２を受信することができる。機械学習モデル２００は、モデルパラメータの初期セットを適用して、ＳＮＰセグメント２１４ａについての祖先起源予測２１８ａ、ＳＮＰセグメント２１４ｂについての祖先起源予測２１８ｂ、ＳＮＰセグメント２１４ｃについての祖先起源予測２１８ｃ、及びＳＮＰセグメント２１４ｎについての祖先起源予測２１８ｎを生成することができる。訓練モジュール２３０は、各ＳＮＰセグメントについての祖先起源予測及び既知の祖先起源を比較し、比較結果に基づいて、モデルパラメータを調整することができる。調整は、訓練データ２０４内のＳＮＰセグメント間の一致する祖先起源予測のパーセンテージを最大化することに基づくことができる。

局所的祖先推論は、ゲノムワイド関連研究（ＧＷＡＳ）に役立ち得る。ＧＷＡＳは、任意の変異体が、特定の疾病の素因、特定の生物医学的形質（例えば、血圧、コレステロールレベルなど）などの形質に関連付けられているかどうかを確認するための、異なる個体における遺伝的変異体のゲノムワイドセットの研究である。したがって、そのような研究は、特異的な遺伝的変動を特定の疾患と関連付けることができる。特定の疾患の特定の祖先起源の素因を知ることは、特定の変動が特定の疾患と関連付けられているかどうかを識別するのに役立ち得る。

図２Ｃは、ＧＷＡＳ２４０の一実施例を例示する。図２Ｃでは、集団２４２は、形質Ｘを有するのに対して、対照群であり得る集団２４４は、形質Ｘを有しない。次いで、両方の集団におけるゲノム配列を分析し、各部位のＳＮＰ（存在する場合）を決定する。図２Ｃでは、ＳＮＰがカウントされることは、典型的には、Ｔ－Ａ塩基対を有するＤＮＡ部位におけるＣ－Ｇ塩基対の出現である（又は、１つの鎖のみ、例えば、ワトソン鎖が使用されている場合、Ｃ対Ｔのみである）。生物学的／医学的形質Ｘを有する集団２４２のうち、個体の５０％は、第１のＤＮＡ部位（「ＳＮＰ１」と標記されている）にＣ－Ｇ塩基対を有する。対照的に、形質Ｘを有していない集団２４４のうち、個体の５％のみが、第１のＤＮＡ部位にＣ－Ｇ塩基対を有する。一方、集団２４２及び２４４の両方のうちの１％のみが、第２のＤＮＡ部位（ＳＮＰ２と標記されている）にＣ－Ｇ塩基対を有する。この研究から、ＳＮＰ１としてのＣ－Ｇ塩基対を有する個体は、集団２４２の中に過剰に存在していると判定することができ、このことは、ＳＮＰ１としてのＣ－Ｇ塩基対の出現と形質Ｘとの間の強い関連性を示唆し得る。更に、近隣の遺伝的変異体間の相関が典型的に祖先依存性であることを考えると、研究に含まれるＳＮＰパターンが種々の祖先起源と関連付けられていることも望ましく、形質と祖先起源との間の関連性を見出すこともできる。

種々の祖先起源についてのＳＮＰパターンの多様なセットを有する大規模なＳＮＰ配列データのセットは、図２Ａ及び図２Ｂの機械学習モデル２００を訓練し、かつ図２ＣのＧＷＡＳ２４０の基礎を提供するのに有用であり得る。具体的には、機械学習モデル２００の性能を改善するために、訓練データは、各祖先起源についてのＳＮＰパターンの多様なセットを含むことができる。モデルパラメータは、入力ＳＮＰセグメント間の一致する祖先起源予測のパーセンテージを最大化することに基づいて調整されるため、ＳＮＰパターンの多様なセットを使用してモデルパラメータを訓練することは、機械学習モデル２００がより広範な種類のＳＮＰパターンを検出／区別することを可能にし、祖先起源予測の正解率を向上させることができる。

更に、ＧＷＡＳ２４０では、集団２４２（形質Ｘを有する）及び集団２４４（形質Ｘを有していない）の両方が、多種多様なＳＮＰパターンを有する個体を含むべきである。これは、ＧＷＡＳからの結論（例えば、ＳＮＰ１としてのＣ－Ｇ塩基対の出現と形質Ｘとの間の強い関連性）が、集団２４２及び２４４に対してだけではなく、一般の集団にも適用可能であるように、両方の集団が一般の集団を代表することを確実にするためである。更に、集団２４２及び２４４の両方に、多種多様なＳＮＰパターンを有する個体を含めることによって、様々なより低頻度のＳＮＰパターンが分析に含まれ、かつ考慮されることを確実にすることができる。このことは、他のＳＮＰ変異体ではなく、ＳＮＰ１としてＣ－Ｇ塩基対の出現が形質Ｘに支配的に関連性を有するという結論を更に支持し得る。これにより、種々の祖先起源の個体に対するＧＷＡＳ２４０の特異性を改善することができる。例えば、集団２４２及び２４４内の個体をこれらの個体の祖先起源に従って更に細分化することによって、ＧＷＡＳ２４０は、例えば、ＳＮＰ１におけるＣ－Ｇ塩基対と形質Ｘとの間の強い関連性が、特定の祖先起源を有する個体の特定のグループにのみ適用可能であるが、種々の祖先起源を有する個体の他のグループには適用可能でないことを示し得る。いくつかの実施例では、個体のＳＮＰセグメント、個体の祖先の起源、及びこれらの個体の生物学的／医学的形質に基づいて、統計的分析を実行して、ゲノム配列、祖先起源、及び特定の生物学的／医学的形質間の関係を検出することができる。

異なる祖先起源についてのＳＮＰパターンの多様なセットを有する大規模なＳＮＰ配列データセットを使用して、局所的祖先推論モデルを訓練し、かつＧＷＡＳの基礎を提供することが望ましいが、そのようなデータセットの利用可能性は、典型的には限られている。具体的には、ＳＮＰ配列のデータセットは、典型的には、ヒトから収集され、かつヒトゲノム参照を含む実際のＤＮＡ配列から取得される。そのようなデータセットは、典型的には、プライバシー制限によって保護されており、私有のものであるか、又は別様に公衆にアクセス可能でない。十分なサービスを受けていない集団又は感受性が高い集団などの特定の集団に対するＳＮＰ配列データセットの利用可能性は、ＧＷＡＳへのこれらの集団の登録の欠如などの様々な理由に起因して、特に制限され得る。結果として、図２Ａの機械学習モデル２００を訓練するためのＳＮＰセグメントデータ、及びそれらのモデルの正解率を改善するためのＧＷＡＳの機械学習モデルが欠如し得る。

ＩＩＩ．機械学習を使用するゲノム配列生成
種々の祖先起源についてのＳＮＰパターンのより多いかつ多様なセットを提供するために、シミュレートされたゲノム配列が提供される。そのようなシミュレートされたＳＮＰパターンを、特定の様式で生成して、現実的なＳＮＰパターンを作成することができ、それによって、これらのＳＮＰパターンを、正確な局所的祖先推論機械学習モデルを提供することとなる訓練セットとして使用することが可能になる。

この目的のために、生成的機械学習モデルを使用して、所定の祖先起源の遺伝的変異体（例えば、ＳＮＰ）のセグメントを有するシミュレートされたゲノム配列を生成することができる。生成的機械学習モデルは、単倍体又は二倍体ＤＮＡ配列中の入力ＳＮＰセグメントを表すデータ、及びセグメントの祖先起源を示す情報を受信することができる。ＳＮＰの入力セグメントから、かつ祖先起源に基づいて、生成的機械学習モデルは、確率分布に基づいて、ＳＮＰ変異体の異なるパターンを含むことができる、シミュレートされたＳＮＰセグメントのセットをランダムに生成することができる。シミュレートされたＳＮＰセグメントは、入力ＳＮＰセグメントの変動であり得、確率分布に基づいて、特定の祖先起源についての入力ＳＮＰセグメントに統計的に関連している。シミュレートされたＳＮＰセグメントを使用して、例えば、局所的祖先推論機械学習モデルを訓練し、ゲノムワイド関連研究（ＧＷＡＳ）において制御データを提供することができる。

生成的機械学習モデルを使用して、ランダムなＳＮＰパターンを有するシミュレートされたＳＮＰセグメントのセットを生成することができる。ランダムな性質に起因して、シミュレートされたＳＮＰセグメントは、ＳＮＰパターンの多様なセットを含むことができるが、ＳＮＰパターンは、シミュレートされたＳＮＰセグメントがＳＮＰパターンの現実的な変異体を提供することができるように、実際のＤＮＡ配列からの実際のＳＮＰパターンのものと統計的に関連している。そのようなシミュレートされたＳＮＰセグメントを使用して、局所的祖先推論モデル（例えば、機械学習モデル２００）を改善し、かつＧＷＡＳ（例えば、ＧＷＡＳ２４０）のための制御データを提供することができる。具体的には、シミュレートされたＳＮＰセグメントを使用して、機械学習モデル２００は、より広いが現実的な範囲のＳＮＰパターンから学習して祖先起源予測を行うことができ、これにより、機械学習モデル２００が実際のＤＮＡ配列から実際のＳＮＰパターンの正確な予測を生成する尤度を向上させることができる。更に、シミュレートされたＳＮＰセグメントは、ＧＷＡＳを改善することもできる。例えば、シミュレートされたＳＮＰパターンを、特定の形質に関連付けることができる。

Ａ．一般のトポロジー
図３Ａは、所定の祖先起源の遺伝的変異体（例えば、ＳＮＰ）のセグメントを有するシミュレートされたゲノム配列を生成するための生成的機械学習モデル３００の一般のトポロジーを例示する。図３Ａに示されるように、生成的機械学習モデル３００は、配列内のゲノム変動について、対象（例えば、人）の入力ゲノム配列及び既知の祖先起源のグループを表すデータ３０２を受信することができる。入力ゲノム配列は、入力ＳＮＰセグメント３０３ａ、３０３ｂ、３０３ｃ、３０３ｎなどを含む、各々が対象のゲノムの複数の一塩基多型（ＳＮＰ）部位を含む複数の非重複セグメントに分割される。各セグメントは、データ３０２において、ＳＮＰ部位でのＳＮＰ値の配列によって表され得、各ＳＮＰ値は、ＳＮＰ部位での変異体（例えば、Ａ、Ｃ、Ｔ、又はＧ）を指定する。加えて、各セグメントはまた、セグメントの祖先起源を示す祖先起源インジケータに関連付けられる。例えば、入力ＳＮＰセグメント３０３ａは、祖先起源インジケータ３０４ａに関連付けられ、入力ＳＮＰセグメント３０３ｂは、祖先起源インジケータ３０４ｂに関連付けられ、入力ＳＮＰセグメント３０３ｃは、祖先起源インジケータ３０４ｃに関連付けられ、一方で、入力ＳＮＰセグメント３０３ｎは、祖先起源インジケータ３０４ｎに関連付けられる。

各入力ＳＮＰセグメント（例えば、入力ＳＮＰセグメント３０３ｂ）について、かつ各入力ＳＮＰセグメントの祖先起源インジケータに基づいて、生成的機械学習モデル３００は、シミュレートされたＳＮＰセグメント３０５ａ、３０５ｂ、３０５ｍを含む複数のシミュレートされたＳＮＰセグメントを生成することができる。各シミュレートされたＳＮＰセグメントは、入力ＳＮＰセグメント３０３ｂの変動を表すことができ、入力ＳＮＰセグメント３０３ｂに静的に関連する。各入力ＳＮＰセグメントについてのシミュレートされたＳＮＰセグメントを連結して、種々の架空の個体に対応し得る複数のシミュレートされたゲノム配列を形成することができる。

データ３０２を、単倍体又は二倍体ＤＮＡ配列から取得することができる。データ３０２を、例えば、対象のゲノム配列を提供するゲノム配列決定演算、ＤＮＡのセグメントを含有するＤＮＡマイクロアレイなどから取得することができる。ハプロタイプ情報を、例えば、特定のＳＮＰがＳＮＰ部位における多数の変異体であることを表す第１の値（例えば、－１の値）、ＳＮＰがＳＮＰ部位における少数の変異体であることを表す第２の値（例えば、＋１の値）、又はＳＮＰ部位におけるゲノム情報が欠落していることを表す第３の値（例えば、０の値）を含むように符号化することができる。入力ＳＮＰセグメント３０３ｂなどのＳＮＰセグメントは、各次元が、ＳＮＰ部位に対応し、かつ－１、＋１、又は０のうちの１つの値を有する、多次元ベクトルを含むことができる。加えて、祖先起源インジケータ３０４は、様々な形態をとることができる。一実施例では、祖先起源インジケータは、候補祖先起源のセット（例えば、アフリカ、ヨーロッパ、東アジアなど）からの祖先起源ロケールを示すコードのセットを含むことができる。別の実施例では、祖先起源インジケータは、祖先起源ロケールの地理的座標（例えば、経度及び緯度）を含むことができる。データ３０２におけるＳＮＰセグメントは、同じ数のＳＮＰ値（例えば、５００）、又は異なる数のＳＮＰ値を有することができる。

いくつかの実施例では、生成的機械学習モデル３００は、分布生成サブモデル３０６及び配列生成サブモデル３０８を含む２つのサブモデルを含み得る。分布生成サブモデル３０６は、入力ＳＮＰセグメント（例えば、入力ＳＮＰセグメント３０３ｂ）及び入力ＳＮＰセグメントの関連付けられた祖先起源インジケータ（例えば、祖先起源インジケータ３０４ｂ）を表す入力ベクトルを受け入れることができる。入力ベクトル及び祖先起源インジケータに基づいて、分布生成サブモデル３０６は、削減された次元の空間（潜在空間）における多次元確率分布３１０を決定することができる。確率分布３１０は、入力ＳＮＰセグメントの変動に対応し得る。確率分布３１０に基づいて、配列生成サブモデル３０８は、各々が確率分布３１０に従って入力ＳＮＰセグメントに統計的に関連するＳＮＰのランダムサンプルを表す、シミュレートされたＳＮＰセグメント３０５ａ、３０５ｂ、３０５ｍなどを含む複数のシミュレートされたＳＮＰセグメントを生成することができる。

各シミュレートされたＳＮＰセグメントを、例えば、対象の入力ゲノム配列としての、実際のＤＮＡサンプルから抽出された入力ＳＮＰセグメントとは対照的に、入力ＳＮＰセグメントにおけるランダムな変動のシミュレーションとみなすことができる。以下で詳細に説明するように、分布生成サブモデル３０６は、訓練演算におけるＳＮＰ配列へのランダムな変動の導入を学習し、ＳＮＰパターンとＳＮＰパターンの変異体の確率分布との間の関係を反映するサブモデルパラメータを決定することができる。訓練演算の後、分布生成サブモデル３０６は、入力ＳＮＰ配列中のＳＮＰパターンにサブモデルパラメータを適用して、ＳＮＰパターンの確率分布３１０のパラメータを決定することができるのに対して、配列生成サブモデル３０８は、シミュレートされたＳＮＰ配列としての確率分布３１０のパラメータに基づいて、ＳＮＰパターンの変異体のランダムなサンプルを計算することができる。

いくつかの実施例では、分布生成サブモデル３０６はまた、入力ＳＮＰセグメント３０３なしの入力として祖先起源インジケータ３０４及びＳＮＰ部位情報を受信し、祖先起源インジケータ３０４に基づいて、確率分布３１０を出力し得る。そのような実施例では、分布生成サブモデル３０６は、各々が祖先起源インジケータ及び種々のＳＮＰ部位に関連付けられた確率分布３１０の複数のセットを格納し、入力祖先起源インジケータ及び入力ＳＮＰ部位に対応する確率分布３１０を取り出し得る。複数の確率分布３１０のセットを、他の入力ＳＮＰセグメントからの分布生成サブモデル３０６によって事前に生成することができる。

Ｂ．生成的機械学習モデルの例示的なコンポーネント
いくつかの実施例では、生成的機械学習モデル３００の分布生成サブモデル３０６をエンコーダとして構成することができるのに対して、生成的機械学習モデル３００の配列生成サブモデル３０８をデコーダとして構成することができる。エンコーダとデコーダとが組み合わさって、クラス条件付き変分オートエンコーダ（ＣＶＡＥ）として動作することができる。

図３Ｂは、分布生成サブモデル３０６及び配列生成サブモデル３０８のレ例示的な演算を例示する。具体的には、分布生成サブモデル３０６は、ＳＮＰセグメントを表す入力ベクトル３２０を、潜在空間における埋め込みベクトルの多次元の確率分布３１０（一次元分布３１０ａ～３１０ｃとして表されている）にマッピングするマッピング関数３２４を実装することができる。マッピングは、（入力ＳＮＰセグメントに表されたＳＮＰ部位の数に基づいて定義される）ある数の次元を有するＳＮＰセグメント空間における入力ベクトルから、削減された数の次元を有する潜在空間における埋め込みベクトルへの変換を表すことができる。

いくつかの実施例（図３Ｂには示されていない）では、分布生成サブモデル３０６は、各々が、祖先起源を表すクラスに関連付けられた、複数のマッピング関数を含むことができる。分布生成サブモデル３０６は、ＳＮＰセグメントに関連付けられた祖先起源インジケータに基づいて入力ベクトルをその祖先起源の確率分布３１０に変換するためのマッピング関数３２４を選択することができる。いくつかの実施例では、分布生成サブモデル３０６は、祖先起源を入力ベクトル３２０の一部として受信し、かつ入力ベクトル３２０に表された祖先起源及びＳＮＰセグメントの両方に基づいて確率分布３１０を生成する、マッピング関数３２４を実装することもできる。

加えて、配列生成サブモデル３０８は、サンプル埋め込みベクトル３３２からＳＮＰセグメント空間における出力ベクトル３２６を再構築するための再構築関数３２５を実装することができる。配列生成サブモデル３０８は、入力ベクトル３２０に基づいて分布生成サブモデル３０６によって出力された確率分布３１０から、又は他の入力ＳＮＰセグメントからの分布生成サブモデル３０６によって事前に生成された別の確率分布のセットから、サンプル埋め込みベクトル３３２を取得することができる。サンプリングを、配列生成サブモデル３０８によって実行することができるか、又は配列生成サブモデル３０８とは別個のサンプリング関数によって実行することができる。出力ベクトルは、入力ＳＮＰセグメント中のＳＮＰパターンのランダムな変動の効果をモデル化するための、図３ＡのシミュレートされたＳＮＰセグメント３０５ａ、３０５ｂ、３０５ｍなどを表すことができる。

図３Ｂの実施例では、入力ベクトル３２０は、ＳＮＰセグメント空間における５００個の次元に対応する５００個のＳＮＰ値（ｓｉ_０、ｓｉ_１、．．．ｓｉ_４９９）を含むことができる一方、出力ベクトル３２６は、ＳＮＰセグメント空間における５００個の次元に対応する５００個のＳＮＰ値（ｓｏ_０、ｓｏ_１、．．．ｓｏ_４９９）を含むことができる。一方、潜在空間は、削減された数の次元（例えば、図３Ｂに示されるような三次元）を有することができる。例えば、サンプル埋め込みベクトル３３２は、各値が潜在空間における次元に対応する３つの値（ｉｓ_０、ｉｓ_１、及びｉｓ_２）を含むことができる。複数のマッピング関数を含む分布生成サブモデル３０６と同じく、配列生成サブモデル３０８は、複数の再構築関数を含むこともできる。配列生成サブモデル３０８は、ＳＮＰセグメントに関連付けられた祖先起源インジケータに基づいて、サンプルベクトル３３２から出力ベクトルを再構築するための再構築関数３２５を選択することができる。いくつかの実施例では、配列生成サブモデル３０８は、祖先起源及びサンプルベクトル３３２を入力として受信し、かつ祖先起源及びサンプルベクトル３３２に基づいて出力ベクトル３２６を生成する１つの再構築関数３２５を実装することもできる。

次元の削減及び復元を伴う、エンコーダとデコーダとの間の変換演算及び再構築演算は、埋め込みベクトルにおけるＳＮＰパターンを表す入力ベクトル３２０における最も関連する情報のみを保持するためのボトルネックを作成することができ、この情報を、出力ベクトル３２６の再構築において回復することができる。一方、ＳＮＰパターンを表すために必要ではないノイズ情報を、変換演算中に破棄することができ、ノイズ情報は、再構築された出力ベクトルに存在しない。

分布生成サブモデル３０６を再度参照すると、確率分布３１０は、多次元であり、確率分布３１０ａ、３１０ｂ、及び３１０ｃを含む、潜在空間の各次元についての確率分布を含む。いくつかの実施例では、確率分布３１０は、各次元について同じ分散を有する多次元等方性ガウス分布に近づくことができ、各次元を、潜在空間の次元間で異なり得る平均値を中心とする独立した一次元ガウス分布として見ることができる。等方性ガウス分布は、以下のような共分散行列を含むことができる：Σ＝σ^２Ｉ（式１）。

式１において、Σは、等方性ガウス分布の共分散行列であり、σ^２は、次元間の共通分散であり、一方で、Ｉは、恒等行列である。確率分布３１０が等方性ガウス分布と正確に一致しない場合、確率分布３１０ａ、３１０ｂ、及び３１０ｃの各々は、異なる分散及び異なる平均を有し得る。

以下に記載するように、マッピング関数３２４のパラメータを、確率分布３１０が目標分布に適合するように調整することができる。そのような構成は、ＳＮＰセグメント空間から潜在空間への変換を目標確率分布に適合するように制限し、潜在空間が連続していることと、潜在空間が、例えば、入力ＳＮＰセグメントに基づく中心を有する、種々のＳＮＰパターンの分布を提供することと、を確実にすることができる。両方の特性は、デコーダが、現実的なＳＮＰ配列を提供する埋め込みベクトルのランダムなサンプルを取得することを可能にする一方、確率分布３１０に従って定義されるいくつかの変動を可能にする。これにより、ランダムなサンプルは、実際のＤＮＡサンプル中のＳＮＰ配列のランダムな変動の効果をモデル化することが可能になる。分布生成サブモデル３０６は、各々が、祖先起源を表すクラスに関連付けられた、複数の分布生成関数を含むことができる。分布生成サブモデル３０６は、ＳＮＰセグメントに関連付けられた祖先起源インジケータに基づいて確率分布を生成するための分布生成関数を選択することができる。

Ｃ．生成的機械学習モデルのニューラルネットワーク実装態様
図３Ｃ、図３Ｄ、及び図３Ｅは、分布生成サブモデル３０６及び配列生成サブモデル３０８の追加の詳細を例示する。図３Ｃは、分布生成サブモデル３０６と配列生成サブモデル３０８との間の埋め込みベクトルのランダムサンプリング演算の一実施例を例示している。図３Ｃに示されるように、分布生成関数３３０は、確率分布３１０の表現３４０ａ、３４０ｂ、及び３４０ｃを含む表現３４０を生成することができる。表現３４０ａ、３４０ｂ、及び３４０ｃは、それぞれ、潜在空間の各次元についての確率分布３１０ａ、３１０ｂ、及び３１０ｃの平均及び分散を含むことができる。例えば、表現３４０ａは、確率分布３１０ａの平均μ_０及び分散σ_０を含むことができ、表現３４０ｂは、確率分布３１０ｂの平均μ１及び分散σ_１を含むことができるのに対して、表現３４０ｃは、確率分布３１０ｃの平均μ２及び分散σ_２を含むことができる。

加えて、配列生成サブモデル３０８は、確率分布３１０のサンプリングを実行してサンプル埋め込みベクトル３３２を生成するためのランダム関数３４２及びサンプリング関数３４４を実装することができる。いくつかの実施例では、ランダム関数３４２及びサンプリング関数３４４は、配列生成サブモデル３０８の外部にあり得る。ランダム関数３４２は、ゼロ平均及び単位分散を有する等方性ガウス分布に基づいて、ランダム行列Ｒを生成することができる。サンプリング関数３４４は、ＣＶＡＥの再パラメータ化に基づいて、ランダム関数３４２からの出力ランダム行列Ｒに表現３４０からの分散のベクトルを乗算し、かつ乗算の結果を同じく表現３４０からの平均のベクトルに加算することに基づいて、確率分布３１０からの埋め込みベクトルのサンプルであるサンプル埋め込みベクトル３３２を生成することができる。例えば、サンプルベクトル３３２のサンプルを、以下のようにサンプリング関数３４４を使用して生成することができる：

式２において、サンプルベクトル３３２の第１の次元の値は、ｉｓ_０であり、この値を、平均μ０を分散σ０とランダム行列Ｒの乱数ｒ０との積と加算することによって計算することができる。更に、サンプルベクトル３３２の第２の次元の値は、ｉｓ_１であり、この値を、平均μ_１を分散σ_１とランダム行列Ｒの乱数ｒ１との積と加算することによって計算することができる。更に、サンプルベクトル３３２の第３の次元の値は、ｉｓ_２であり、この値を、平均μ_２を分散σ_２とランダム行列Ｒの乱数ｒ２との積と加算することによって計算することができる。配列生成サブモデル３０８は、複数のランダム行列Ｒを生成し、これらのランダム行列Ｒを表現３４０の平均及び分散表現と組み合わせて、埋め込みベクトルの複数のランダムなサンプルを生成し、次いで、サンプルベクトルに基づいて、出力ベクトルを再構築することができる。

分布生成サブモデル３０６のマッピング関数３２４及び分布生成関数３３０、並びに配列生成サブモデル３０８の再構築関数３２５を、ニューラルネットワークモデルを使用して実装することができる。

図３Ｄは、マッピング関数３２４及び分布生成関数３３０を実装するための分布生成サブモデル３０６の例示的なニューラルネットワークモデル３５０を例示している。ニューラルネットワーク３５０は、入力層３５２、隠れ層３５４、及び出力層３５６を含む。入力層３５２は、入力層のノードのサブセットであり得るノード３５２ａ、３５２ｂ、及び３５２ｎなどの複数のノードを含む。隠れ層３５４は、ノード３５４ａ、３５４ｂ、及び３５４ｍなどの複数のノードを含む。出力層３５６は、ノード３５６ａ、３５６ｂ、及び３５６ｃなどの複数のノードを含む。出力層３５６の各ノードは、図３Ｂの潜在空間における三次元の次元に対応し得る。

入力層３５２及び隠れ層３５４は、ＳＮＰセグメント空間における入力ベクトルを潜在空間における埋め込みベクトルに変換するためのマッピング関数３２４を実装することができる。入力層３５２のノードのうちのいくつかは、分類器によって受信された、セグメントの特定のＳＮＰ部位におけるＳＮＰ値の符号化された値（例えば、１、１、－１）を受信することができる。例えば、入力ノード３５２ａは、符号化された値ｓｉ_０を受信し、入力ノード３５２ｂは、符号化された値ｓｉ_１を受信し、両方とも入力ベクトル３２０のものである。加えて、ノード３５２ｎなどの入力層３５２のノードのうちのいくつかは、入力ベクトル３２０に関連付けられた、関連付けられた祖先起源インジケータ（図３Ｄではｃと標記されている）を受信する。

入力層３５２の各ノードは、エンコーダ重みの第１のセットに関連付けられている。例えば、ノード３５２ａは、エンコーダ重みのセット［ＷＥ１ａ］に関連付けられており、ノード３５２ｎは、エンコーダ重みのセット［ＷＥ１ｎ］に関連付けられている。各ノードは、入力値（ＳＮＰ値、祖先起源インジケータなど）を、重みの関連付けられたセットでスケーリングして、スケーリングされた値（スケーリングされたＳＮＰ値）のセットを生成し、スケーリングされた値を隠れ層３５４のノードに送信することができる。入力層３５２のより大きいエンコーダ重みは、ＳＮＰセグメント空間における特定の次元がＳＮＰ配列に関する重要な情報を含むことと、したがって、その特定の次元が潜在空間においてよく表されることと、を示すことができる。

１つ以上の層を含むことができる隠れ層３５４の各ノードは、入力層３５２の各ノードからスケーリングされた値を受信し、スケーリングされた値を総和して、中間値（中間和とも称される）を生成する。中間和を使用して、出力層３５６において、埋め込みベクトルの確率分布３１０を計算することができる。例えば、ノード３５４ａは、以下のように、中間和である和３５４ａを計算することができる：

式３において、ＷＥ１ｊは、ＳＮＰ値（例えば、ｓｉ_０、ｓｉ_１など）又は祖先起源インジケータｃのいずれかであり得る入力値ｉｎｊをスケーリングするために入力層３５２の各ノードによって使用される重みの各セット（例えば、［ＷＥ１ａ］、［ＷＥ１ｎ］など）の重み値を表すことができる。中間和を計算する際の祖先起源インジケータとＳＮＰ値との組み合わせは、異なる祖先起源に対して異なるマッピング関数を選択することと同等であり得る。

隠れ層３５４の各ノードはまた、中間和を与えられるそのノードの出力を定義する非線形活性化関数を実装している。活性化関数は、生物学的ニューラルネットワークの意思決定を模倣することができる。活性化関数の一例として、以下の式に従って定義される正規化線形ユニット（ＲｅＬＵ）関数が挙げられ得る：

ＲｅＬＵに加えて、例えば、ｓｏｆｔｍａｘ関数、ｓｏｆｔｐｌｕｓ関数（ＲｅＬＵ関数の滑らかな近似であり得る）、双曲線正接関数（ｔａｎｈ）、逆正接関数（ａｒｃｔａｎ）、シグモイド関数、ガウス関数などを含む他の形態の活性化関数を使用することもできる。活性化関数は、マッピング関数３２４の一部であるとともに、ＳＮＰセグメント空間から潜在空間への非線形変換を提供することができ、これにより、ノイズ情報のフィルタリングを改善することができる。

総和及び活性化関数処理に加えて、隠れ層３５４の各ノードは、バッチ正規化プロセスを実行して、隠れ層の出力を正規化して、例えば、ニューラルネットワークモデル３５０の速度、性能、及び安定性を増加させることもできる。正規化プロセスは、例えば、隠れ層ノードの各出力から出力の平均を減算し、減算結果を出力の標準偏差によって除算して、各隠れ層ノードに正規化された出力を生成することを含むことができる。いくつかの実施例では、正規化演算を、活性化関数を適用する前に実行することができる。活性化関数処理及びバッチ正規化処理に基づいて、ノード３５４ａは、中間出力ｉｅ０を生成し、ノード３５４ｂは、中間出力ｉｅ１を生成するのに対して、ノード３５４ｍは、中間出力ｉｅｍを生成する。

隠れ層３５４の各ノードは、エンコーダ重みの第２のセットに関連付けられている。例えば、ノード３５４ａは、エンコーダ重みのセット［ＷＥ２ａ］に関連付けられており、ノード３５４ｍは、エンコーダ重みのセット［ＷＥ２ｍ］に関連付けられている。各ノードは、活性化関数／バッチ正規化演算の出力値（例えば、ノード３５４ａについてはｉｅ０、ノード３５４ｂについてはｉｅ_１、ノード３５４ｍについてはｉｅ_ｍなど）を、重みの関連付けられたセットでスケーリングして、スケーリングされた値のセットを生成し、スケーリングされた値を出力層３５６のノードに送信することができる。

出力層３５６の各ノードは、潜在空間における次元に対応し得る。出力層３５６の各ノードは、隠れ層３５４からスケーリングされた値を受信し、潜在空間の対応する次元の表現３４０の一部としての、確率分布３１０についての平均及び分散を計算することができる。例えば、ノード３５６ａは、表現３４０ａを計算することができ、ノード３５６ｂは、表現３４０ｂを計算することができ、また、ノード３５６ｃは、表現３４０ｃを計算することができる。各ノードは、例えば、上記の式３に基づいて、隠れ層３５４の各ノードから受信されたスケーリングされた出力値を総和することに基づいて、平均及び分散を計算することができる。

いくつかの実施例では、祖先起源インジケータｃは、入力層３５２への入力として提供されない。代わりに、分布生成サブモデル３０６は、各々が祖先起源に関連付けられたエンコーダ重み［ＷＥ１］及び［ＷＥ２］の複数のセットを含むことができる。祖先起源インジケータｃを使用して、ニューラルネットワークモデル３５０のためのエンコーダ重みのセットを選択することができる。

図３Ｅは、再構築関数３２５を実装するための配列生成サブモデル３０８のニューラルネットワークモデル３６０の実施例を例示している。ニューラルネットワークモデル３６０は、図３Ｄのニューラルネットワークモデル３５０と同様であるが反転されたアーキテクチャを有することができる。ニューラルネットワーク３６０は、入力層３６２、隠れ層３６４、及び出力層３６６を含む。入力層３６２は、入力層のノードのサブセットであり得るノード３６２ａ、３６２ｂ、３６２ｃ、及び３６２ｄを含む複数のノードを含む。ノード３６２ａ、３６２ｂ、及び３６２ｄの各々は、潜在空間における次元に対応し、対応する次元についてのサンプルベクトルの要素（サンプルベクトル値）（例えば、サンプルベクトル３３２のｉｓ_０、ｉｓ_１、及びｉｓ_２である）を受信することができるのに対して、ノード３６２ｄは、祖先起源インジケータｃを受信する。隠れ層３６４は、（分布生成サブモデル３０６の）ニューラルネットワークモデル３５０の隠れ層３５４及び１つ又は複数の層と同じ数のノードを含むことができるのに対して、出力層３６６は、ノード３６４ａ、３６４ｂ、及び３６４ｎなどの複数のノードを含む。出力層３６６の各ノードは、ＳＮＰセグメント空間における次元に対応する。

入力層３６２の各ノードは、デコーダ重みの第１のセットに関連付けられている。例えば、ノード３６２ａは、デコーダ重みのセット［ＷＤ１ａ］に関連付けられており、ノード３６２ｎは、デコーダ重みのセット［ＷＤ１ｎ］に関連付けられている。各ノードは、入力値（埋め込みベクトルの要素、祖先起源インジケータなど）を、関連付けられた重みセットでスケーリングして、スケーリングされた値のセットを生成し、スケーリングされた値を出力層３６４の出力ノードに送信することができる。デコーダ重みの第１のセットを、隠れ層３５４によってマッピング関数３２４の第２の段階を反転させるように構成することができる。祖先起源インジケータと、中間和（中間値とも称される）を計算する際の埋め込みベクトル値と、の組み合わせは、異なる祖先起源について異なる再構築関数を選択することと同等であり得る。

隠れ層３６４の各ノードは、入力層３６２の各ノードからスケーリングされた値を受信し、式３に基づいてスケーリングされた値を総和して、中間和を生成する。次いで、中間和を、非線形活性化関数（例えば、ＲｅＬＵ）、及び図３Ｄの隠れ層３５４におけるようなバッチ正規化演算を使用して処理して、中間出力を生成することができる。例えば、ノード３６４ａは、中間出力ｉｄ_０を生成し、ノード３６４ｂは、中間出力ｉｄ_１を生成し、ノード３６４ｍは、中間出力ｉｄ_ｍを生成する。隠れ層３６４の各ノードはまた、デコーダ重みの第２のセットに関連付けられている。例えば、ノード３５４ａは、エンコーダ重みのセット［ＷＤ２ａ］に関連付けられており、ノード３５４ｍは、エンコーダ重みのセット［ＷＤ２ｍ］に関連付けられている。各ノードは、活性化関数／バッチ正規化演算の出力値（例えば、ノード３６４ａについてはｉｄ_０、ノード３６４ｂについてはｉｄ_１、ノード３６４ｍについてはｉｄ_ｍなど）を、重みの関連付けられたセットでスケーリングして、スケーリングされた値（スケーリングされたサンプルベクトル値とも称される）のセットを生成し、スケーリングされた値を出力層３６６のノードに送信することができる。デコーダ重みの第２のセットを、隠れ層３５４によってマッピング関数３２４の第１の段階を反転させるように構成することができる。

次いで、出力層３６６の各ノードは、隠れ層３６４の各ノードからのスケーリングされた値を総和することに基づいて、ＳＮＰセグメント空間の一次元に対応する出力ベクトルの値を生成する。例えば、ノード３６６ａは、出力ベクトル３２６のｓｏ_０を生成することができるのに対して、ノード３６６ｂは、出力ベクトル３２６のｓｏ_１を生成することができる。

いくつかの実施例では、祖先起源インジケータｃは、入力層３６２への入力として提供されない。代わりに、配列生成サブモデル３０８は、各々が祖先起源に関連付けられたデコーダ重み［ＷＤ１］及び［ＷＤ２］の複数のセットを含むことができる。祖先起源インジケータｃを使用して、ニューラルネットワークモデル３６０のためのデコーダ重みのセットを選択することができる。

Ｄ．クラス条件付き変分オートエンコーダの訓練
ＣＶＡＥとして構成された分布生成サブモデル３０６及び配列生成サブモデル３０８を、潜在空間におけるＳＮＰ変異体の種々のパターンの表現を最大化するように訓練することができる。

図４は、所与の祖先起源についての実際のＳＮＰ配列を表す訓練入力ベクトルを使用して、訓練モジュール４００によってエンコーダ及びデコーダを訓練することができる例示的な訓練演算を例示する。

訓練演算は、順伝播演算及び逆伝播演算を含むことができる。順伝播演算の一部として、分布生成サブモデル３０６は、訓練入力ベクトル４２０を受信し、訓練入力ベクトル４２０にマッピング関数３２４のパラメータの初期のセット（例えば、エンコーダ重み［ＷＥ１］及び［ＷＥ２］）を適用して、埋め込みベクトルの確率分布３１０のパラメータの初期のセット（例えば、平均及び分散）を生成することができる。配列生成サブモデル３０８は、サンプリング関数３４４を使用して、確率分布に基づいてサンプル埋め込みベクトル３３２のセットを計算し、サンプル埋め込みベクトルに再構築関数３２５のパラメータの初期のセット（例えば、デコーダ重みＷＤ１及びＷＤ２）を適用して、訓練出力ベクトル４２６のセットを生成することができる。

訓練演算の逆伝播は、マッピング関数３２４及び分布生成関数３３０の初期関数パラメータを、第１の損失関数を最小化するように調整することができる。第１の損失関数は、再構築誤差モジュール４０２によって計算された再構築誤差成分、及び分布誤差モジュール４０４によって計算された分布誤差成分を含むことができ、これらは両方とも、訓練モジュール４００の一部である。再構築誤差を、訓練入力ベクトル４２０と訓練出力ベクトル４２６の各々との間の平均二乗誤差などの差分に基づいて、再構築誤差モジュール４０２によって生成することができる。分布誤差を、埋め込みベクトルの確率分布と目標確率分布（表現３４０によって表される）との間の差分に基づいて、分布誤差モジュール４０４によって生成することができる。いくつかの実施例では、分布誤差を、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ発散（ＫＬ発散）に基づいて計算することができる。第１の損失関数の一実施例は、以下のとおりであり得る：

式５において、
は、第１の損失関数を表し、
は、入力ベクトル（例えば、訓練入力ベクトル４２０）を表すことができ、
は、入力ベクトル（例えば、訓練出力ベクトル４２６）から構築された出力ベクトルを表すことができ、一方で、第１の式
は、再構築誤差モジュール４０２によって計算された再構築誤差を表すことができる。更に、Ｊは、潜在空間の最後の次元（例えば、図３Ａ～図３ＣのＪ＝２）を表すことができるのに対して、μ_ｊ及びσ_ｊは、それぞれ、潜在空間のｊ番目の次元の平均及び分散である。第２の式
は、表現３４０によって表されるガウス分布と、分布誤差モジュール４０４によって計算された目標等方性ガウス分布と、の間のＫＬ発散を表すことができる。

加えて、パラメータ調整モジュール４０６は、第２の損失関数を最小化することに基づいて、再構築関数３２５の初期関数パラメータを調整することもできる。第２の損失関数は、再構築誤差モジュール４０２によって出力される、式
によって表される再構築誤差を含むことができる。以下に記載されるように、第２の損失関数は、配列生成サブモデル３０８も敵対的生成ネットワーク（ＧＡＮ）を使用して訓練される場合に、敵対的損失成分を含むことができる。

勾配下降スキームを介して、パラメータ調整モジュール４０６は、第１の損失関数及び第２の損失関数を最小化する目的で、関数パラメータに対する第１の損失関数及び第２の損失関数の変化に基づいて、マッピング関数３２４、再構築関数３２５、及び分布生成関数３３０（例えば、［ＷＥ１］、［ＷＥ２］、［ＷＤ１］、［ＷＤ２］など）の関数パラメータを調整することができる。例えば、パラメータ調整モジュール４０６は、第１の損失関数及び第２の損失関数の縮小（したがって勾配降下）を達成するために、関数パラメータを調整することができる。訓練を、種々の祖先起源についての入力ベクトルを訓練するために繰り返して、種々のクラスを表す種々の祖先起源について種々の関数パラメータを決定することができる。

再構築誤差と分布誤差との組み合わせに基づく、エンコーダを実装するマッピング関数３２４及び再構築関数３２５の訓練は、分布誤差を低減することに基づいて、エンコーダが入力ＳＮＰセグメントをＳＮＰセグメント変異体の目標確率的分布にマッピングすることを可能にする。更に、ＳＮＰパターンの確率分布は、訓練演算における再構築誤差を低減することに基づいて、入力ＳＮＰセグメントを表す埋め込みベクトルに基づいて中心が定められ得る。そのような構成を用いて、祖先起源が与えられた入力ＳＮＰセグメントから生成的機械学習モデル３００によって生成されたシミュレートされたＳＮＰセグメントは、目標確率分布に基づいて定義されるＳＮＰパターン変異体の多様なセットを含むことができる。しかし、ＳＮＰパターン変異体は、入力ＳＮＰセグメントに基づいて目標確率分布の中心が定められるため、入力ＳＮＰセグメントのＳＮＰパターンに密接に関連したままである。

Ｅ．クラス条件付き敵対的生成ネットワークを使用する訓練
シミュレートされたＳＮＰセグメントが目標確率分布により密接に従い得るように分布誤差を更に低減するために、配列生成サブモデル３０８（例えば、ＣＶＡＥのデコーダとして構成されている）を、デコーダ及び判別器を含むクラス条件付き敵対的生成ネットワーク（ＣＧＡＮ）を使用して訓練することができる。判別器は、実際のＳＮＰセグメントとシミュレートされたＳＮＰセグメントとの差分を判定しようとする。

ＣＧＡＮでは、デコーダ及び判別器を、同じ訓練演算で、ただし反対の目的のために、訓練することができる。具体的には、判別器は、ＳＮＰセグメントを表すベクトルを入力として受信し、入力を、配列生成サブモデル３０８によって生成されたシミュレートされたＳＮＰセグメント（例えば、図４の訓練出力ベクトル４２６）、又は実際のＤＮＡ配列からの実際のＳＮＰセグメント（例えば、訓練入力ベクトル４２０）のいずれかとして分類する。判別器を、分類誤差率を最小化するように訓練することができる（例えば、実際のＳＮＰセグメントをシミュレートされたＳＮＰセグメントとして分類するか、又はその逆）。

シミュレートされたＳＮＰセグメントが、目標確率分布（例えば、等方性ガウス）に従って実際のＳＮＰセグメントに統計的に関連し、かつシミュレートされたＳＮＰセグメントが、実際のＳＮＰセグメントと非常に類似したＳＮＰパターンを有する（すなわち、低い再構築誤差を有する）場合、判別器は、シミュレートされたＳＮＰセグメントを実際のＳＮＰセグメントから区別することができず、結果として分類誤差率が増加する可能性が高くなる。一方、デコーダを、再構築誤差を最小化し、かつ目標確率分布に適合するように、シミュレートされたＳＮＰセグメントを生成し、判別器の分類誤差率を実効的に最大化するように訓練することができる。デコーダに、シミュレートされたＳＮＰをよりいっそう多くするようにデコーディング重みを調整することによって分類誤差を復元させる、判別器が分類誤差を低減する、反復的な敵対的訓練演算を介して、シミュレートされたＳＮＰセグメントの目標確率分布への適合性を更に改善することができる。

ＣＧＡＮを、別個のプロセス又は組み合わされたプロセスで、エンコーダ及びデコーダを含むＶＡＥとして訓練することができる。組み合わされたプロセスの実施例を以下に記載するが、様々な訓練手順が使用され得る。例えば、種々の入力ベクトルを、ＧＡＮを訓練するためではなく、ＶＡＥを訓練するために使用することができる。また、ＶＡＥの訓練から学習された分布は、ＧＡＮを訓練するときにのみランダムにサンプリングされ得る。

図５Ａは、敵対的訓練演算を実行するための追加のコンポーネントを例示する。図５Ａに示されるように、生成的機械学習モデル３００の一部又は外部であり得る判別器５０２は、配列生成サブモデル３０８を有するＣＧＡＮを形成することができ、ＣＧＡＮは、分布生成サブモデル３０６と組み合わさって、ＣＶＡＥ－ＣＧＡＮモデルを形成する。訓練演算中、順伝播演算の一部として、分布生成サブモデル３０６は、訓練入力ベクトル４２０を受信し、潜在空間における確率分布表現３４０を生成することができるのに対して、再構築関数３２５は、確率分布表現３４０及び再構築関数３２５に基づいて、出力ベクトル４２６のサンプルを計算することができる。次いで、判別器５０２は、分類演算を実行して、訓練入力ベクトル４２０及び訓練出力ベクトル４２６などの実際のＳＮＰセグメント（例えば、実際のＤＮＡ配列から抽出されたＳＮＰセグメント）を表すベクトルを含むベクトルのセットを、各ベクトルが、シミュレートされたＳＮＰセグメント又は実際のＳＮＰセグメントを表すかどうかを分類し、分類出力５０４を生成することができる。ＳＮＰセグメントを、対象の入力ゲノム配列である実際のＤＮＡ配列から抽出することができる。

いくつかの実施例では、判別器５０２をニューラルネットワークとして実装することができる。図５Ｂは、判別器５０２の一部であり得るニューラルネットワークモデル５２０の実施例を例示する。ニューラルネットワーク５２０は、入力層５２２、隠れ層５２４、及び出力層５２６を含む。入力層５２２は、ノード５２２ａ、５２２ｂ、５２２ｎなどを含む複数のノードを含む。入力層５２２は、ＳＮＰセグメント空間におけるＳＮＰセグメントを表す入力ベクトルを受信するためのノード（例えば、ノード５２２ａ）は、ｓ０を受信し、ノード５２２ｂは、ｓ_１を受信するなど）、及び祖先起源インジケータを受信するためのノード（例えば、ノード５２２ｎ）を含む。隠れ層５２４は、入力ベクトルと中間出力との間の非線形マッピングを提供することができ、図３Ｄの隠れ層３５４及び図３Ｅの隠れ層３６４と同じ数のノードを含むことができる。出力層５２６は、隠れ層５２４からの中間出力に基づいて、実際のＳＮＰセグメントを表す入力ベクトルの確率を計算するための単一のノードを含む。確率が閾値を超える場合に、入力ベクトルが実際のＳＮＰセグメントを表し、かつ確率が閾値を下回る場合に、入力ベクトルがシミュレートされたセグメントを表すことを示すように、確率を分類出力５０４に含めることができる。

入力層５２２の各ノードは、判別器重みの第１のセットに関連付けられている。例えば、ノード５２２ａは、判別器重みのセット［ＷＸ１ａ］に関連付けられており、ノード３６２ｎは、判別器重みのセット［ＷＸ１ｎ］に関連付けられている。各ノードは、入力値（入力ベクトル値、祖先起源インジケータなど）を、重みの関連付けられたセットでスケーリングして、スケーリングされた値のセットを生成し、スケーリングされた値を隠れ層３６４のノードに送信することができる。重みは、例えば、ＳＮＰセグメントが実際のものであるか、又はシミュレートされたものであるかの分類決定への、ＳＮＰセグメント中の各ＳＮＰ部位の寄与を表すことができる。祖先起源インジケータｃと入力ベクトルとの組み合わせは、判別器５０２が種々の祖先起源についての種々の基準に基づいて分類演算を実行することを可能にする。

隠れ層５２４の各ノードは、入力層５２２の各ノードからスケーリングされた値を受信し、式３に基づいてスケーリングされた値を総和して、中間和を生成する。次いで、中間和を、非線形活性化関数（例えば、ＲｅＬＵ）、並びに図３Ｄの隠れ層３５４及び図３Ｅの隠れ層３６４におけるようなバッチ正規化演算を使用して処理して、中間出力を生成することができる。例えば、ノード５２４ａは、中間出力ｉｘ_０を生成し、ノード５２４ｂは、中間出力ｉｘ_１を生成し、また、ノード５２４ｍは、中間出力ｉｄ_ｍを生成する。隠れ層５２４はまた、各ノードが重みセット中の重みに関連付けられている、判別器重みの第２のセット［ＷＸ２］に関連付けられている。隠れ層５２４のノードに関連付けられた重みは、確率出力に対するノードの寄与を示すことができる。各ノードは、活性化関数／バッチ正規化演算の出力値（例えば、ノード５２４ａについてはｉｘ_０、ノード５２４ｂについてはｉｘ_１、ノード５２４ｍについてはｉｘ_ｍなど）を、関連付けられた重みでスケーリングし、スケーリングされた値を出力層５２６の単一のノードに送信することができ、次いで、出力層５２６は、スケーリングされた値を総和することによって、確率出力（ｐ）を生成することができる。

いくつかの実施例では、祖先起源インジケータｃは、入力層５２２への入力として提供されない。代わりに、判別器５０２は、各々が祖先起源に関連付けられた、判別器重みの複数のセット［ＷＸ１］及び［ＷＸ２］を含むことができる。祖先起源インジケータｃを使用して、ニューラルネットワークモデル５２０のための判別器重みのセットを選択することができる。

図５Ａを再度参照すると、訓練モジュール４００は、分類誤差モジュール５０６を含むことができる。逆伝播演算中、分類誤差モジュール５０６は、分類出力５０４が誤差を含むかどうかを判定することができる。分類誤差モジュール５０６は、例えば、分類出力５０４に示される確率が閾値（ベクトルが実際のＳＮＰセグメントであることを示す）を超えているが、ベクトルが配列生成サブモデル３０８によって生成される場合、又はベクトルが訓練入力ベクトルであり、かつ実際のＳＮＰセグメントを含む場合に確率が閾値（ベクトルがシミュレートされたＳＮＰセグメントであることを示す）を下回っている場合、分類出力５０４が誤差であると判定することができる。判別器５０２のモデルパラメータは、分類出力５０４における分類誤差を最小化するように調整することができるのに対して、再構築関数３２５の関数パラメータ（例えば、デコーダ重み［ＷＤ１］、［ＷＤ２］など）を、分類出力５０４の分類誤差を最大化するように調整することができる。

具体的には、パラメータ調整モジュール４０６は、再構築誤差成分
及び敵対的損失成分を含む第２の損失関数を最小化することに基づいて、再構築関数３２５（［ＷＤ１］、［ＷＤ２］など）の初期関数パラメータを以下のように調整することができる：

式６において、
は、第２の損失関数を表し、
は、再構築誤差を表し、ｚは、配列生成サブモデル３０８によって出力された訓練出力ベクトル４２６を表し、一方で、Ｄ（ｚ）は、分類出力５０４に示されるように、実際のＳＮＰセグメントを表す訓練出力ベクトル４２６の確率を表す。式（１－Ｄ（ｚ））は、分類誤差が増加すると減少する敵対的損失を表す。例えば、判別器５０２が訓練出力ベクトル４２６（ｚ）について誤った分類を行う場合、Ｄ（ｚ）の出力確率は、閾値よりも高く、式（１－Ｄ（ｚ））は、低下する。一方、訓練出力ベクトル４２６の正しい分類については、式（１－Ｄ（ｚ））は、増加する。λ_１は、いくつかの実施例では０．１に設定され得るパラメータである。勾配降下スキームを介して、パラメータ調整モジュール４０６は、デコーダ重み（例えば、［ＷＤ１］、［ＷＤ２］など）を調整することができる。例えば、パラメータ調整モジュール４０６は、第２の損失関数の縮小（したがって、勾配降下）を達成するために、分類誤差を増加させながら再構築誤差を低減するように、関数パラメータを調整することができる。

加えて、パラメータ調整モジュール４０６は、以下のように、バイナリ交差エントロピー損失関数の形態であり得る第３の損失関数を最小化することに基づいて、判別器５０２の初期モデルパラメータを調整することもできる：

式７において、
は、第３の損失関数を表し、式Ｄ（ｘ）は、分類出力５０４に示されるように、実際のＳＮＰセグメントを表す訓練入力ベクトル４２０の確率を表し、一方で、式（１－Ｄ（ｚ））は、式６におけるように、敵対的損失を表す。パラメータ調整モジュール４０６は、
を低減することによって、勾配下降スキームに基づいて判別器５０２の初期モデルパラメータを調整することができ、このことを、Ｄ（ｘ）の値を増加させ、かつ／又は（１－Ｄ（ｚ））の値を増加させることによって達成することができる。（１－Ｄ（ｚ））の増加は、第２の損失関数における（１－Ｄ（ｚ））の減少と反対であり、このことは、敵対的訓練演算につながる。

図５Ａの訓練演算を複数のフェーズで実行して、（分布生成サブモデル３０６についての）式５の第１の損失関数、（再構築関数３２５についての）式６の第２の損失関数、及び（判別器５０２についての）式７の第３の損失関数を最小化することができる。具体的には、第１のフェーズでは、関数／モデルパラメータの初期のセット（例えば、エンコーダ重み［ＷＥ１］及び［ＷＥ２］、デコーダ重み［ＷＤ１］及び［ＷＤ２］、並びに判別器重み［ＷＸ１］及び［ＷＸ２］）を使用して、訓練入力ベクトル４２０に対して完全な順伝播演算を実行することができる。訓練出力ベクトル４２６、並びに訓練出力ベクトル４２６及び訓練入力ベクトル４２０の分類出力５０４を、生成することができる。次いで、完全な逆伝播を実行することができ、ここで、再構築誤差、分布誤差、及び分類誤差は、訓練モジュール４００によって判定され、判別器５０２、再構築関数３２５、分布生成関数３３０、及びマッピング関数３２４のパラメータを調整するために逆伝播される。分布生成サブモデル３０６の第１の損失関数（再構築誤差及びＫＬ発散）を最小化することに基づいて、調整された関数／モデルパラメータの第１のセットを決定することができる。

次いで、再構築関数３２５と判別器５０２との間の敵対的訓練演算を含む、訓練演算の第２のフェーズを開始することができる。敵対的訓練演算中、デコーダ重み［ＷＤ１］及び［ＷＤ２］、並びに判別器重み［ＷＸ１］及び［ＷＸ２］は、再構築関数３２５についての第２の損失関数及び判別器５０２についての第３の損失関数の両方を最小化するように（調整されたパラメータの第１のセットから）調整することができるが、このことは、分類誤差の矛盾する目標につながる。敵対的訓練演算を、新しい訓練出力ベクトル（例えば、出力ベクトル３２６に対応する）を計算するための低減された順伝播演算、並びに調整されたパラメータを使用する新しいサンプルについての分類出力５０４、及び再構築関数３２５及び判別器５０２のパラメータのみを調整するための低減された逆伝播演算を、各々が含む、複数回の反復で実行することができる。敵対的訓練演算は、例えば、分類出力５０４のおよそ５０％が正しいときに停止することができ、このことは、およそ５０％の誤差率につながる。このことは、訓練出力ベクトル４２６が訓練入力ベクトル４２０に非常に近いために、判別器５０２がベクトルを区別することができず、分類演算がランダムなコイン反転演算に近づき、このことが５０％の誤差率につながることを示し得る。

訓練入力ベクトル４２０は、判別器５０２を訓練するために使用されるように示されているが、他の実際のＳＮＰセグメントを、この目的のために使用することができる。更に、所与の出力ベクトル４２６を複数の実際のＳＮＰセグメントとともに使用して、分類誤差を判定することができる。また、ランダムサンプリングを使用して複数の出力ベクトルを生成することができ、これらの出力ベクトルを使用して、実際のＳＮＰセグメントのセットに対する分類誤差を判定することができる。

判別器５０２において５０％の誤差率が達成されると、訓練演算の第２のフェーズを停止することができ、再構築関数３２５の調整されたパラメータの第２のセットを取得することができる。次いで、訓練演算の第１のフェーズを再開して、再構築誤差及び分布誤差を低減するために、再構築関数３２５のデコーダ重みの調整を分布生成サブモデル３０６に伝播して戻すことができる。訓練演算を、種々の祖先起源に関連付けられた種々の訓練入力ベクトルについて繰り返して、例えば、祖先起源インジケータと、確率分布出力、再構築出力、及び分類出力と、の間の関係を取得して、種々の祖先起源についての種々の関数／モデルパラメータなどを取得することができる。

図４及び図５Ａ～図５Ｂでは、生成的機械学習モデル３００を、単倍体配列を生成するように、単倍体配列を含む訓練入力ベクトル４２０を使用して訓練することができる。シミュレートされた二倍体染色体を生成するために、生成的機械学習モデル３００を、単倍体配列の対の各配列の変異体を生成するように、訓練二倍体配列の一対の単倍体配列の各々を使用して別個に訓練することができる。次いで、変異体単倍体配列を対合して、シミュレートされた二倍体染色体を生成することができる。

加えて、いくつかの実施例では、生成的機械学習モデル３００によって生成されたシミュレートされたＳＮＰ配列を後処理して、配列中のＳＮＰパターンの多様性を更に改善することができる。例えば、いくつかの異なる個体を表すためのシミュレートされたＳＮＰ配列を生成するために、生成的機械学習モデル３００を動作させて、個体の数のＮ倍のシミュレートされたＳＮＰ配列を生成することができる。生成されたＳＮＰ配列の対の相関を判定することができ、最低の平均相関を有するシミュレートされたＳＮＰ配列のセットの１／Ｎを出力として選択することができる。いくつかの実施例では、Ｎを２に設定することができる。

ＩＶ．実験結果
Ａ．実験的な生成的機械学習モデル
図６に例示される実験的な生成的機械学習モデル６００を開発及び訓練する。生成的機械学習モデル６００は、エンコーダ６０２、デコーダ６０４、及び判別器６０６を含むことができる。エンコーダ６０２、デコーダ６０４、及び判別器６０６は、それぞれ、図５Ａ及び図５Ｂの分布生成サブモデル３０６、配列生成サブモデル３０８、及び判別器５０２に対応し得る。生成的機械学習モデル６００は、図５Ａ～図５Ｂ（ＣＶＡＥ～ＣＧＡＮとして訓練される）の訓練演算に基づいて訓練される。図６では、「ｚ」は、図３Ｃに記載されるように、サンプリング関数３４４による確率分布３１０のサンプリングから取得されたサンプルベクトル３３２を表す。生成的機械学習モデル６００は、２つの異なる実験のために２つの異なるデータセットを使用して訓練される。各実験において、生成的機械学習モデル６００は、シミュレートされたＳＮＰ配列のセットを生成する。ＲＦＭｉｘなどの局所的祖先推論モデルは、シミュレートされたＳＮＰ配列及び実際のＳＮＰ配列（実際のＤＮＡ配列から抽出されたＳＮＰ配列）の両方を用いて訓練され、局所的祖先推論モデルの性能は、実際のＳＮＰ配列に対するシミュレートされたＳＮＰ配列の品質を調べるために評価される。

Ｂ．アフリカ出処のシミュレーションデータセット
第１の実験では、アフリカ出処のシミュレーションに基づくシミュレートされたデータセットを生成及び使用して、生成的機械学習モデル６００及びＲＦＭｉｘ局所的祖先推論モデルを訓練する。アフリカ出処シミュレーションは、アフリカ大陸に瞬時に増大した単一の祖先集団としての人間の起源及び広がりをモデル化する。この集団は、現在に至るまで一定の規模を保っていた。過去のある時点で、個体の少数のグループがアフリカから移住し、後に、２つの方向に分裂し、あるものは現在のヨーロッパ集団の基礎となり、別のものは、現在の東アジア集団の基礎となった。両集団は、分離後に指数関数的に増大した。

上記のアフリカ出処モデルに続いて、各々が単一祖先の個体を表す、１００個のシミュレートされた二倍体配列の３つのグループが生成され、アフリカ、ヨーロッパ、及び東アジアの祖先の各々に１つのグループが生成され、３００個のシミュレートされた個体が生成される。３００個のシミュレートされた二倍体配列は、それぞれ２４０個、３０個、及び３０個の二倍体配列を有する訓練セット、検証セット、及び試験セットに分けられる。その後、検証及び試験の二倍体配列を使用して、一連の世代にわたってライト・フィッシャー順シミュレーションを使用して混合子孫を生成した。単一祖先個体の３０個の二倍体配列から、１００個の混合個体を表す合計１００個の二倍体配列を、過去８世代にわたって発生した混合事象で生成して、検証セット及び試験セットの両方を作成した。

２４０個の単一祖先個体を表す２４０個の二倍体配列を使用して、ＲＦＭｉｘを訓練した。同じ二倍体配列を使用して、生成的機械学習モデル６００をＣＶＡＥ－ＣＧＡＮモデル（入力配列ｘ及び実際の配列ｘｒｅａｌとして提供される）として訓練する。更に、ライト・フィッシャー順シミュレーションを使用して生成された、１００個の混合個体を表す１００個の二倍体配列を使用して、訓練後のＲＦＭｉｘを評価した。この実験では、染色体２０の二倍体配列がシミュレートされる。

実験から、祖先ごとに８０個のシミュレートされたサンプルが、生成的機械学習モデル６００を使用して生成され、ＲＦＭｉｘを訓練するために使用される。次いで、ＲＦＭｉｘを、混合個体の１００個の二倍体配列で評価する。ＲＦＭｉｘはまた、アフリカ出処のデータセットを表す２４０個の単一祖先個体を表す２４０個の二倍体配列を用いて訓練され、次いで、混合個体の同じ１００個の二倍体配列で再び評価される。次いで、２つの異なるデータセットを用いて訓練されたＲＦＭｉｘによる局所的祖先推論の推論正解率を比較する。以下の表１は、実験結果を例示する：

上記の表１に示されるように、ＲＦＭｉｘは、生成的機械学習モデル６００によって生成されたアフリカ出処のデータ及びデータセットを用いて訓練されたときに同等の正解率を得る。正解率の結果はまた、判別器及び敵対的損失を加えることは、ネットワークが、アフリカ出処のデータセットにより類似しているヒト染色体配列をシミュレートすることを学習するのに役立ち、したがって、ＲＦＭＩｘなどの局所的祖先推論モデルを訓練し、それによって、正解率の著しい増加を提供するのにより有用であることを示す。

Ｃ．グローバルデータセット
第２の実験では、ＲＦＭｉｘ及び生成的機械学習モデル６００は、東アジア（ＥＡＳ）、アフリカ（ＡＦＲ）、及びヨーロッパ（ＥＵＲ）の祖先からの合計２５８個の単一集団個体のＳＮＰ配列を使用して訓練される。具体的には、中国の北京の８３個の漢族（ＣＨＢ）、ナイジェリアのイバダンの８８個のヨルバ族（ＹＲＩ）、スペインの８７個のイベリア人（ＩＢＳ）のＳＮＰ配列が、第２の実験で使用される。加えて、祖先ごとに１０人の単一個体を使用して、一連の世代にわたってライト・フィッシャー順シミュレーションを使用して、試験及び検証のための混合子孫を生成する。３０個の単一祖先個体のＳＮＰ配列から、合計１００人の混合個体のＳＮＰ配列を、過去１２世代にわたって発生した混合事象で生成して、検証セット及び試験セットの両方を作成した。２５８個の単一祖先個体のＳＮＰ配列を使用して、ＲＦＭｉｘ及びクラス条件付きＶＡＥ－ＧＡＮ（ＣＶＡＥ－ＣＧＡＮ）を訓練するのに対して、検証セット及び試験セットの２００個の混合個体のＳＮＰ配列を使用して、訓練後のＲＦＭｉｘを評価する。この実験では、各個体の染色体２０が使用される。

２５８個の単一祖先個体のＳＮＰ配列を使用して、各祖先についてＣＶＡＥ－ＣＧＡＮを訓練する。訓練後、祖先ごとに合計１００個のシミュレートされたＳＮＰ配列が生成され、ＲＦＭｉｘを訓練するために使用される。次いで、ＲＦＭｉｘを、検証セット中の１００個の混合個体のＳＮＰ配列で評価する。Ｗ（１セグメント当たりのＳＮＰの数）、Ｈ（隠れ層のサイズ）、Ｊ（潜在空間の次元の数）を含むＣＶＡＥ－ＣＧＡＮのハイパーパラメータ、及び学習速度、バッチサイズ、エポックなどの訓練パラメータを選択して、ＲＦＭｉｘの最高の検証正解率を提供する。具体的には、Ｗ＝４０００、Ｈ＝１００、及びＪ＝１０が選択される。加えて、３つの祖先起源（Ｃ＝３）のうち１つを選択するためのワンホットエンコーディングと、祖先起源ロケールの座標（Ｃ＝２）と、の２つのタイプの祖先起源インジケータが使用される。

実験から、祖先ごとに１００個のシミュレートされたサンプルが、生成的機械学習モデル６００を使用して生成され、ＲＦＭｉｘを訓練するために使用される。次いで、ＲＦＭｉｘを、混合個体の２００個のＳＮＰ配列で評価する。ＲＦＭｉｘはまた、２５８個の単一祖先個体のＳＮＰ配列で訓練され、次いで、混合個体の同じ２００個のＳＮＰ配列で再び評価される。次いで、２つの異なるデータセットを用いて訓練されたＲＦＭＩｘによる局所的祖先推論の推論正解率を比較する。以下の表２は、実験結果を例示する：

上記の表２に示されるように、ＲＦＭｉｘは、生成的機械学習モデル６００によって生成されたアフリカ出処のデータ及びデータセットを用いて訓練されたときに同等の正解率を得る。正解率の結果はまた、判別器及び敵対的損失を加えることは、ネットワークが、アフリカ出処のデータセットにより類似しているヒト染色体配列をシミュレートすることを学習するのに役立ち、したがって、ＲＦＭｉｘなどの局所的祖先推論モデルを訓練し、それによって、正解率の著しい増加を提供するのにより有用であることを示す。

加えて、シミュレートされたＳＮＰ配列（２５８個の単一祖先個体からの生成的機械学習モデル６００によって生成される）と、２５８個の単一祖先個体の実際のＳＮＰ配列と、の間の類似度の分析が実行される。シミュレートされたＳＮＰ配列の広範なサンプリングを実行し、９９．９％、９９．９９％、９９．９９９％、及び１００％の閾値を有する２５８個の単一祖先個体のうちの１つのＳＮＰ配列にマッチするシミュレートされた個体の頻度を判定する。以下の表３は、祖先ごとに１０，０００個の個体を表す１０，０００個のＳＮＰ配列を生成した後のマッチ数を示す：

Ｖ．セグメントの結合
図６の実施例では、エンコーダ６０２及びデコーダ６０４を、ゲノムの特定の窓について訓練することができる。次いで、入力配列を形質インジケータとともに提供して、同じ形質を有する実際の配列と区別できないシミュレートされた配列を生成することができる。各ゲノム窓について、別個のモデルを訓練することができる。したがって、シミュレートされたゲノムの各窓を、独立に生成することができる。しかしながら、窓を、窓にまたがる入力配列に基づいて、集合的に生成される複数の窓（セグメント）のシミュレートされた配列と相互接続することが望ましい場合がある。

相互接続を提供するために、実施形態は、入力ベクトルを受信するモデルの１つ以上の層、及び／又は複数の窓についての埋め込みベクトルを追加することができる。例えば、種々の窓についてのニューラルネットワークを相互接続するニューラルネットワークについて余分な層が存在し得る。このようにして、シミュレートされた配列は、窓を種々の形質に関連付けることによって影響を受ける組み合わされたゲノムを、より現実的にシミュレートすることができる。遠位部位間の長い関係を、所与の形質について捕捉することができる。例えば、ある窓は、スペイン人の祖先を有することができ、別の窓は、ネイティブアメリカンの祖先起源を有することができ、相互接続は、現実世界の現代のラテン系の人をシミュレートすることができる。

図７は、本開示の実施形態による、種々の変異体セグメント間の関係を提供する機械学習モデル７００のサンプルアーキテクチャを示す。機械学習モデル７００は、入力配列が非常に長い場合、又は部分配列としてのセグメントのモデリングが所望される場合に使用され得る（例えば、混合形質を有する個体をシミュレートするために）。入力配列全体を、窓の単一のセグメント又は複数のセグメントとして見ることができ、各セグメントは、異なる窓に対応する。後者のシナリオでは、セグメントは、より大きな領域又はスーパーセグメントを形成することができる。

入力配列は、シミュレートされた配列が所望される窓の配列全体である。実施例として、０又は１の変異体値は、非野生型対立遺伝子が部位に存在するかどうか（例えば、参照配列とは異なる対立遺伝子）であり得る。異なる部位を、異なるタイプの変異体に関連付けることができる。窓処理された配列は、各々が変異体部位のそれぞれのセットに対応する、異なる変異体セグメント（窓）によってグループ化された変異体値を示す。

所与の変異体セグメントの変異体値の各セットは、それぞれのエンコーダ７０２への入力として提供される。示されるように、エンコーダ１～４に対応する４つの変異体セグメントがある。加えて、各形質インジケータベクトル７１２（Ｐ１～Ｐ４）は、それぞれのエンコーダ７０２へのそれぞれの入力を提供する。形質インジケータベクトル７１２は、入力配列の所与の窓について、例えば、１つ以上の形質を有する対象（例えば、窓配列が取得される）の結果として、１つ以上の形質（例えば、表現型、祖先インジケータ、．．．）が存在するかどうかの指示を提供することができる。これらのインジケータ／表現型／形質の記述子は、医師、又はアンケート、又はバイオバンク作成のための他の技術によって提供され得るか、又は外部アルゴリズムによって取得され得る（例えば、祖先インジケータは、局所的祖先推論方法によって自動的に取得され得る）。

各形質インジケータベクトル７１２（Ｐ１、Ｐ２、．．）は、エンコーダシステムの各エンコーダ７０２及びデコーダシステムのデコーディング相互接続モジュール７０８（示されるようなＲＮＮ２モジュール）に入力される。したがって、各エンコーダ７０２（１、２、．．．）は、窓処理された対応する配列及びそれぞれの形質ベクトルを受信することができる。２つの入力は、連結されてから入力され得る。デコーディング相互接続モジュール７０８は、形質インジケータベクトルと連結されたガウス埋め込みの配列を入力として受信することができる。

各エンコーダ７０２は、各窓（例えば、変異体セグメント）についてのエンコーダ隠れ層を出力する。エンコーダ隠れ層の各部分（例えば、ｈｅ１）は、例えば、分布生成サブモデル３０６についての、以前のセクションに記載されたエンコーダの出力に対応し得る。したがって、エンコーダ隠れ層の各部分は、潜在空間に存在し得る。

エンコーディング相互接続モジュール７０６は、エンコーダの出力をエンコーダ隠れ層として受信する。示される実施例では、エンコーディング相互接続モジュール７０６は、再帰型ニューラルネットワーク（ＲＮＮ）である。エンコーディング相互接続モジュール７０６は、エンコーダの各々（すなわち、窓の各々）の潜在空間における値の全てに作用し、したがって、集合的に作用する。エンコーディング相互接続モジュール７０６は、入力配列に含まれるセグメント（窓）の各々についての潜在空間のサイズと同じであり得るか又は異なり得る出力を提供する。

本明細書、例えばセクションＩＩＩに記載されているのと同様の様式で、埋め込みベクトル７３２を決定することができる。示されるように、埋め込みベクトル７３２は、ガウス分布を使用して決定される。分布のサンプリングを、例えば、他のセクションについて本明細書に記載されるように、埋め込みベクトル７３２の生成の一部としてのエンコーディング相互接続モジュール７０６の後に実行することができる。デコーディング相互接続モジュール７０８は、埋め込みベクトル７３２を受信し、デコーダ隠れ層を出力する。デコーディング相互接続モジュール７０８は、潜在空間にあり得る埋め込みベクトル７３２の値の全てに作用し、また、窓の各形質インジケータ７１２の入力を受信し、したがって、異なる窓の値に集合的に作用することもできる。エンコーディング隠れ層及びデコーディング隠れ層は、同じ又は異なる量のデータ（例えば、同じ数の次元）を有し得、埋め込みベクトル７３２は、隠れ層と同じ又は異なるサイズであり得る。

各デコーダ７０４は、デコーダ隠れ層の一部分（ｈｄ１－ｈｄ４）を受信し、再構築／シミュレートされた、窓処理された配列におけるそれぞれの窓についての変異体値を出力し、これにより、最終的な再構築／シミュレートされた配列がもたらされる。各デコーダ７０４は、以前のセクションに記載されたデコーダ、例えば、配列生成サブモデル３０８に対応し得る。

相互接続モジュール７０６及び７０８は、各ｈｅ＊及びｈｄ＊を、配列の１つのエントリとして取り扱うことができる。したがって、実施形態は、配列をモデル化することができるネットワーク層を含むことができる。相互接続モジュールはＲＮＮと命名されているが、再帰型ニューラルネットワーク（ＲＮＮ）である必要はない。１ｄ配列をモデル化することができる任意のニューラルアーキテクチャを適用することができるか、又は他の微分可能な関数を適用することができる。そのような例としては、長・短期記憶ネットワーク（ＬＳＴＭ）及びゲート付き再帰型ユニット（ＧＲＵ）などの再帰型ニューラルネットワーク（ＲＮＮ）、ＲｅｓＮｅｔスタイルのアーキテクチャを含む１ｄ畳み込みニューラルネットワーク（ＣＮＮ）、自己注目層及びトランスフォーマの任意の高速の変形を有するネットワークなどのトランスフォーマベース、多層パーセプトロンネットワーク（ＭＬＰ）－ミキサ、及びグラフＭＬＰ（ｇＭＬＰ）などのネットワークを含む全結合配列モデリングが挙げられる。

上述したように、相互接続モジュール７０６及び７０８は、任意選択である。含まれない場合、各サブ配列（窓）は独立に処理されるようになっており、サブ配列間の可能な相関は、機械学習モデル７００によって捕捉されないようになっている。削除されると、機械学習モデル７００は、図３Ｂ～図６に記載されるのと同様の様式で、例えば、あらゆる異なるサブ配列で独立して作用するように動作することができる。

ＶＩ．方法
図８は、シミュレートされたゲノム配列を生成する方法８００を例示する。シミュレートされたゲノム配列は、複数の変異体（例えば、ＳＮＰ）部位についての変異体（例えば、ＳＮＰ）値の配列を含み得る。方法８００は、例えば、生成的機械学習モデル３００などの生成的機械学習モデルを実装するコンピュータシステムによって実行され得る。

ステップ８０２において、コンピュータシステムは、形質インジケータを入力として受信する。形質インジケータは、例えば、図３Ａの祖先起源インジケータ３０４又は他の形質インジケータを含むことができる。コンピュータシステムは、他の入力を受信してもよい。例えば、コンピュータシステムは、形質インジケータに関連付けられた形質を有する対象のゲノムの複数の変異体部位（例えば、ＳＮＰ部位）についての入力変異体セグメント（例えば、ＳＮＰセグメント）を受信してもよい。

変異体セグメントは、変異体部位での変異体値の配列（例えば、ＳＮＰ値、他の対立遺伝子、又はメチル化ステータス）によって表され得る。変異体値の配列は、入力ベクトルとも称され得る。各変異体値は、変異体部位で変異体を指定することができる。変異体セグメントを、形質インジケータに関連付け、例えば、形質インジケータとともに記憶し、変異体セグメントが形質を有する対象由来であることに基づいて関連付けることができる。別の実施例として、コンピュータシステムは、変異体値の配列が生成される複数の変異体部位を識別する情報を受信し得る。

実施例として、形質を、本明細書に記載されている祖先起源、生物医学的形質、人口統計学的形質、又は他の表現型とすることができる。更に、２つ以上の形質インジケータを入力することができる。このような状況では、変異体セグメントを、提供される複数の形質インジケータを有する１人以上の被験者に関連付けることができる。したがって、対象が１つ以上の追加の形質も有する場合、１つ以上の追加の形質インジケータに対応する１つ以上の追加の形質インジケータを受信することができる。

ステップ８０４において、コンピュータシステムは、形質インジケータに基づいて、潜在空間における埋め込みベクトルの確率分布を取得する。確率分布を、訓練された生成的機械学習モデルの分布生成サブモデルによって、形質を有する対象のゲノムの複数の変異体部位における変異体値の配列を表す（例えば、入力変異体セグメントの）入力ベクトルから生成することができる。例えば、入力ベクトル及び形質インジケータが、分布生成サブモデルに入力されて、確率分布を生成することができる。

各変異体値は、変異体部位における特定の変異体（例えば、特定の塩基（Ａ、Ｃ、Ｇ、Ｔ）、特定のメチル化ステータス（メチル化又は非メチル化）など）を指定することができる。いくつかの実装態様では、０は、参照ゲノムにおける参照値（例えば、対立遺伝子）又は集団における他の一般的であるものを識別することができ、１は、特定のタイプの変異体の存在を示すことができる。入力ベクトルを、各々が変異体部位に対応する第１の数の次元を有する変異体セグメント空間において定義することができる。潜在空間は、第１の数の次元よりも小さい第２の数の次元を有することができる。確率分布を、第２の数の次元を有する多次元とみなすことができる。

変異体のタイプは、部位における変異体値のクラス又は特性に対応し得る。例えば、１つのタイプの変異体は、変異体値が、異なるヌクレオチドであるか、又は場合によっては欠失したヌクレオチドである、一塩基多型（ＳＮＰ）である。欠失、（例えば、短いタンデム反復の）増幅、挿入、反転、及びメチル化ステータスなどの変異型の他の例が、本明細書に提供される。複数の変異体部位は、複数のタイプの変異体を有し、例えば、いくつかの部位は、ＳＮＰのものであり得、他の部位は、メチル化ステータスのものであり得る。

いくつかの実施例では、ステップ８０４の一部として、コンピュータシステムは、分布生成サブモデル３０６などの分布生成サブモデルを採用して、入力変異体セグメントを表す入力ベクトルに基づいて、確率分布を計算することができる。分布生成サブモデル（例えば、エンコーダとして作用する）は、例えば、削減された数の次元の各々についての分布の平均及び幅（分散）へのマッピングによって、変異体セグメント空間における入力ベクトルを、削減された数の次元を有する潜在空間における埋め込みベクトルの多次元確率分布に変換することができる。等方性分布の場合、分散は、各次元について同じになる。削減された空間における分布は、入力変異体セグメントの変動を表すことができる。エンコーダは、入力として入力ベクトル及び祖先インジケータをとり、かつ入力に基づいて多次元確率分布を決定するニューラルネットワークモデルを含み得る。

いくつかの実施例では、コンピュータシステムはまた、各々が特定の形質（例えば、祖先起源）及び変異体（例えば、ＳＮＰ）部位のセットに関連付けられた複数の確率分布から、潜在空間における埋め込みベクトルの確率分布を選択し得る。確率分布を、以前の時点における異なる形質（例えば、祖先起源）の入力変異体セグメントに基づいて、分布生成サブモデルによって計算することができる。したがって、複数の確率分布の各々を、異なる形質インジケータに関連付けることができる。

ステップ８０６において、コンピュータシステムは、潜在空間における第２の数の次元の各々における確率分布をサンプリングすることによって、サンプルベクトルを取得する。具体的には、図３Ａ～図３Ｅに関して記載されているように、サンプリングを実行するために、ランダム関数及びサンプリング関数を実装することができる。ランダム関数は、ゼロ平均及び単位分散を有する等方性ガウス分布に基づいて、ランダム行列を生成することができる。サンプリング関数は、再パラメータ化演算において、（ランダム関数からの）出力ランダム行列を確率分布の分散ベクトルと乗算し、かつ乗算の結果を確率分布の平均ベクトルに加算することに基づいて、サンプルベクトルを生成することができる。

確率分布は、ガウス分布（例えば、セクションＩＩＩ．Ｃに記載されているような）を含むことができ、ここで、確率分布は、潜在空間の各次元の平均及び分散によって表される。サンプルベクトルを取得することは、第２の数の次元の各々について、以下のステップを含むことができる：乱数を生成し、乱数をそれぞれの平均及びそれぞれの分散と組み合わせて、次元の値を生成すること。次いで、サンプルベクトルを、潜在空間の第２の数の次元について生成された値に基づいて形成することができる。

ステップ８０８では、コンピュータシステムは、訓練された生成的機械学習モデルの配列生成サブモデルを使用して、形質インジケータに基づいて、サンプルベクトルからの出力ベクトルを再構築する。いくつかの実施例では、配列生成サブモデルは、再構築関数を実装するためのデコーダを含み得るか、又はデコーダであり得る。再構築マップは、入力変異体セグメントの形質に基づいて、潜在空間における埋め込みベクトルのサンプルを変異体セグメント空間における出力ベクトルに逆にマッピングすることができる。次いで、出力ベクトルは、形質のシミュレートされた変異体セグメントを表すことができる。デコーダは、ニューラルネットワークモデルを含むこともできる。

方法８００を、（例えば、図１Ｂ、図２Ａ、及び図２Ｂに示されるように）複数のセグメントについて繰り返すことができる。コンピュータシステムは、形質を有する１つ以上の対象の入力ゲノム配列から抽出された複数の入力変異体セグメントを受信することができる。複数の入力変異体セグメントの各々を、そのセグメントについての変異体部位における変異体値を含む別個のベクトルとすることができる。入力変異体セグメントは、プロセスが各セグメントに対して繰り返されるように、入力ベクトルを含むことができる。各入力変異体セグメントについて、分布生成サブモデルは、確率分布を決定することができる。確率分布をサンプリングすることによって、それぞれのサンプルベクトルを取得し、それによって複数のそれぞれのサンプルベクトルを取得することができる。配列生成サブモデルは、セグメントのそれぞれの形質インジケータに基づいて、それぞれのサンプルベクトルからのそれぞれの出力ベクトルを再構築し、それによって、複数のそれぞれの出力ベクトルを決定することができる。次いで、シミュレートされたゲノム配列を、それぞれの出力ベクトル（例えば、連結させる）に基づいて生成することができる。分布生成サブモデル及び配列生成サブモデルは、クラス条件付き変分オートエンコーダ（ＣＶＡＥ）を形成することができ、ここで、入力変分セグメントの形質は、ＣＶＡＥについての種々のクラスを表すことができる。

ステップ８１０において、コンピュータシステムは、出力ベクトルに基づいて、シミュレートされたゲノム配列を生成する。いくつかの実施例では、コンピュータシステムは、複数の入力変異体セグメントを受信し、シミュレートされた変異体セグメントを表す複数の出力ベクトルを生成し得る。いくつかの実施例では、コンピュータシステムはまた、種々の変異体部位について、各出力ベクトルが特定の形質について生成される、複数の出力ベクトルを生成し得る。両方の場合において、出力ベクトルを連結して、シミュレートされたゲノム配列を形成することができる。

Ａ．ニューラルネットワークの実装態様
本明細書のセクションＩＩＩ．Ｃ及びＩＩＩ．Ｅ並びに他のセクションに記載されているように、分布生成サブモデルは、第１の入力層、第１の隠れ層、及び第１の出力層を含む第１のニューラルネットワークを含むことができる。第１の入力層のノードの第１のサブセットの各ノードは、入力変異体セグメント中の変異体部位に対応し得、対応する変異体部位の変異体値を受信することができ、変異体値を複数の第１の重みのうちの第１の重みでスケーリングすることができる。第１の隠れ層の各ノードは、第１の入力層のノードの第１のサブセットからのスケーリングされた変異体値の和に基づいて、第１の中間値を生成することができ、複数の第２の重みのうちの第２の重みに基づいて、第１の中間値をスケーリングして、スケーリングされた第１の中間値を取得することができる。第１の出力層の各ノードは、第１の隠れ層の各ノードからのスケーリングされた第１の中間値の和に基づいて、潜在空間の次元の平均及び分散を出力することができる。複数の第１の重み及び複数の第２の重みを、入力変異体セグメントの形質に基づいて選択することができる。

第１の入力層のノードの第２のサブセットの各ノードは、入力変異体セグメントの形質を表す値を受信することができる。第１の隠れ層における各ノードは、第１の入力層のノードの第１のサブセットからのスケーリングされた変異体値の和と、第１の入力層のノードの第２のサブセットからの形質を表すスケーリングされた値の和と、に基づいて、第１の中間値を生成することができる。

本明細書のセクションＩＩＩ．Ｃ及びＩＩＩ．Ｅ並びに他のセクションに更に記載されているように、配列生成サブモデルは、第２の入力層、第２の隠れ層、及び第２の出力層を含む第２のニューラルネットワークを含むことができる。第２の入力層のノードの第１のサブセットの各ノードは、潜在空間の次元に対応し、対応する次元のサンプルベクトル値を受信し、サンプルベクトル値を第３の重みでスケーリングすることができる。第２の隠れ層における各ノードは、第２の入力層のノードの第１のサブセットからのスケーリングされたサンプルベクトル値の和に基づいて、第２の中間値を生成することができ、第４の重みに基づいて、第２の中間値をスケーリングすることができる。第２の出力層の各ノードは、シミュレートされた変異体セグメントを表すそれぞれの出力ベクトルのベクトル値を出力することができる。第３の重み及び第４の重みを、入力変異体セグメントの形質に基づいて選択することができる。

第２の入力層のノードの第２のサブセットの各ノードは、入力変異体セグメントの形質を表す値を受信することができる。第２の隠れ層における各ノードは、第２の入力層のノードの第１のサブセットからのスケーリングされた変異体値の和と、第２の入力層のノードの第２のサブセットからの形質を表すスケーリングされた値の和と、に基づいて、第２の中間値を生成することができる。

本明細書のセクションＩＩＩ．Ｃ及びＩＩＩ．Ｅ並びに他のセクションに更に記載されているように、判別器は、第３の入力層、第３の隠れ層、及び第３の出力層を含む第３のニューラルネットワークを含むことができる。第３の入力層のノードの第１のサブセットの各ノードは、変異体部位に対応し得、出力ベクトルにおける対応する変異体部位の変異体値を受信し、変異体値を第５の重みでスケーリングすることができる。第３の隠れ層における各ノードは、第３の入力層のノードの第１のサブセットからのスケーリングされた変異体値の和に基づいて、第３の中間値を生成することができ、第６の重みに基づいて、第３の中間値をスケーリングして、スケーリングされた第３の中間値を取得することができる。第３の出力層は、第３の隠れ層からのスケーリングされた第３の中間値に基づいて、出力ベクトルが実際の変異体セグメントを表す確率を計算するためのノードを含むことができる。第５の重み及び第６の重みを、入力変異体セグメントの形質に基づいて選択することができる。

第３の入力層のノードの第２のサブセットの各ノードは、入力変異体セグメントの形質を表す値を受信することができる。第３の隠れ層における各ノードは、第３の入力層のノードの第１のサブセットからのスケーリングされた変異体値の和と、第３の入力層のノードの第２のサブセットからの形質を表すスケーリングされた値の和と、に基づいて、第３の中間値を生成することができる。

Ｂ．訓練
本明細書のセクションＩＩＩ．Ｅ及び他のセクションに記載されているように、エンコーダ（例えば、分布生成サブモデル）及びデコーダ（例えば、配列生成サブモデル）を、ＣＶＡＥの一部とすることができ、変異体セグメント空間から潜在空間へのマッピングにおける情報損失を低減しながら、変異体の種々のパターンを目標多次元確率分布にフィッティングさせるように訓練することができる。このことは、デコーダによって生成されたシミュレートされた変異体セグメントが、多次元確率分布に従って入力変異体セグメントに統計的に関連し、変異体セグメント中のランダムな変動の効果をシミュレートすることができることを確実にすることができる。図４に記載されているように、エンコーダ及びデコーダの訓練は、（入力ベクトルと出力ベクトルの各々との間の）再構築誤差と、目標確率分布からの発散に対するペナルティとを組み合わせた損失関数を最小化することに基づくことができる（例えば、多次元確率分布と、例えば、目標確率分布の目標値と、のパラメータ（例えば、平均及び分散）の差分に基づいて）。訓練演算を実行して、再構築誤差及び分布発散のペナルティを低減又は最小化して、エンコーダによって生成された変異体セグメントの分布を、ゼロ平均単位分散ガウス分布であり得る目標確率分布に（ある程度）マッチするように強制することができる。変異体セグメントの分布の中心（平均）及び分散を、再構築誤差及び分布発散のペナルティの低減／最小化に基づいて設定することができる。

シミュレートされた変異体セグメントが目標確率分布により密接に従い得るように、分布誤差を更に低減するために、ＣＶＡＥを、例えば、図５Ａ及び図５Ｂに記載されているように、前述の訓練演算におけるデコーダ及び判別器を含むクラス条件付き敵対的生成ネットワーク（ＣＧＡＮ）を使用して訓練することができる。判別器をニューラルネットワークモデルとして実施することもでき、判別器は、デコーダによって出力された変異体セグメントが実際の変異体セグメントであるか、又はシミュレートされた変異体セグメントであるかを分類することができる。判別器は、シミュレートされた変異体セグメントが目標確率分布に従うとき、実際の変異体セグメントをシミュレートされた変異体セグメントから区別することができない場合があり、この時点で、判別器の分類誤差率が最大に達する場合があり、このことは、デコーダの再構築が最適であることを意味する。敵対的訓練演算であって、デコーダのパラメータを、削減された次元での確率分布が目標確率分布に近づくように分類誤差率を増加させるように調整することができ、かつ判別器のパラメータを、分類誤差率を低減するように調整する、敵対的訓練演算を実行することができる。訓練演算は、出力ベクトルのおよそ半分が実際の変異体セグメントを表し、かつ出力ベクトルのおよそ半分が偽物の／シミュレートされた変異体セグメントを表すときに停止し得る。

本明細書のセクションＩＩＩ．Ｄ及びＩＩＩ．Ｅ並びに他のセクションに記載されているように、分布生成サブモデルを、再構築誤差成分及び分布誤差成分を含む第１の損失関数に基づいて訓練することができる。再構築誤差成分は、出力ベクトルと入力ベクトルとの差分に基づくことができる。分布誤差成分は、埋め込みベクトルの確率分布と目標確率分布との差分に基づくことができる。分布生成サブモデルのパラメータを、第１の損失関数を減少させるように調整することができる。分布誤差成分は、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ発散に基づくことができる。

配列生成サブモデルを、再構築誤差成分を含む第２の損失関数に基づいて訓練することができる。配列生成サブモデルを、入力変異体セグメントの形質に基づいて、配列生成サブモデルによって出力された出力ベクトルが、実際の変異体配列又はシミュレートされた変異体配列を表すかどうかを分類する判別器を用いる敵対的訓練演算で訓練することができる。第２の損失関数は、判別器における分類誤差率が増加すると減少する敵対的損失成分を更に含むことができる。判別器を、分類誤差率が減少すると減少する第３の損失関数に基づいて訓練することができる。配列生成サブモデル及び判別器のパラメータを、それぞれ、第２の損失関数及び第３の損失関数を減少させるように調整することができる。

Ｃ．配列の窓の集合的分析
セクションＶに記載されているように、複数のそれぞれの出力ベクトルを、複数のそれぞれのサンプルベクトルから集合的に再構築することができる。例えば、確率分布を、複数の入力変異体セグメントについて集合的に決定することができる。

複数の入力変異体セグメントの各々について、配列生成サブモデルのそれぞれのエンコーダは、入力変異体セグメントの変異体値及び１つ以上のそれぞれの形質インジケータを受信することができる。１つ以上のそれぞれの形質インジケータを使用して、それぞれのエンコーダは、入力変異体セグメントの変異体値に作用し、それぞれのエンコーダ隠れベクトルを出力することができる（例えば、変異体セグメント空間と潜在空間との間のサイズの空間に）。複数のエンコーダ隠れベクトルを取得することができる。次いで、エンコーディング相互接続モジュールは、複数のエンコーダ隠れベクトルを受信することができる。エンコーディング相互接続モジュールは、複数の入力変異体セグメントの各々についての潜在空間における第２の数の次元の各々についての確率分布を定義することができる埋め込みベクトルを生成することができる。

複数のそれぞれの出力ベクトルを再構築することを、埋め込みベクトルを使用して集合的に実行することができる。デコーディング相互接続モジュールは、埋め込みベクトル及び１つ以上のそれぞれの形質インジケータを受信することができる。複数の入力変異体セグメントについての形質インジケータを使用して、デコーディング相互接続モジュールは、埋め込みベクトルに作用し、複数の入力変異体セグメントの各々についてのそれぞれのデコーダ隠れベクトルを出力することができる。複数の入力変異体セグメントの各々について、配列生成サブモデルのそれぞれのデコーダは、それぞれのデコーダ隠れベクトルに作用して、入力変異体セグメントについてのそれぞれの出力ベクトルを取得することができる。

ＶＩＩ．コンピュータシステム
本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用し得る。コンピュータシステム１０におけるそのようなサブシステムの実施例を、図９に示す。いくつかの実施形態では、コンピュータシステムが、単一のコンピュータ装置を含み、サブシステムを、コンピュータ装置のコンポーネントとすることができる。他の実施形態では、コンピュータシステムは、各々が内部コンポーネントを有するサブシステムである、複数のコンピュータ装置を含むことができる。コンピュータシステムとして、デスクトップコンピュータ及びラップトップコンピュータ、タブレット、携帯電話、並びに他の携帯デバイスを挙げることができる。いくつかの実施形態では、クラウドインフラストラクチャ（例えば、ＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓ）、グラフィック処理ユニット（ＧＰＵ）などを使用して、開示された技法を実装することができる。

図９に示されるサブシステムは、システムバス７５を介して相互接続されている。プリンタ７４、キーボード７８、記憶デバイス７９、ディスプレイアダプタ８２に結合されているモニタ７６などのような、追加のサブシステムが示されている。Ｉ／Ｏコントローラ７１に結合する周辺機器及び入力／出力（Ｉ／Ｏ）デバイスを、入力／出力（Ｉ／Ｏ）ポート７７（例えば、ＵＳＢ、ＦｉｒｅＷｉｒｅ（登録商標））などの当該技術分野において知られている任意の数の手段によって、コンピュータシステムに接続することができる。例えば、Ｉ／Ｏポート７７又は外部インターフェース８１（例えば、Ｅｔｈｅｒｎｅｔ、Ｗｉ－Ｆｉなど）を使用して、コンピュータシステム１０を、インターネットなどの広域ネットワーク、マウス入力デバイス、又はスキャナに接続することができる。システムバス７５を介した相互接続は、中央プロセッサ７３が、各サブシステムと通信すること、及びシステムメモリ７２又は記憶デバイス７９（例えば、ハードドライブ又は光ディスクなどの固定ディスク）からの複数の命令の実行、及びサブシステム間の情報のやり取りを制御することを可能にする。システムメモリ７２及び／又は記憶デバイス７９は、コンピュータ可読媒体を具現化し得る。別のサブシステムは、カメラ、マイクロホン、及び加速度計などのような、データ収集デバイス８５である。本明細書で言及されるデータのうちの任意のものを、あるコンポーネントから別のコンポーネントに出力することができ、ユーザに対して出力することができる。

コンピュータシステムは、例えば外部インターフェース８１によって又は内部インターフェースによって互いに接続された複数の同じコンポーネント又はサブシステムを含むことができる。いくつかの実施形態では、コンピュータシステム、サブシステム、又は装置が、ネットワークを介して通信することができる。そのような事例では、あるコンピュータをクライアントと、及び別のコンピュータをサーバとみなすことができ、各々を、同じコンピュータシステムの一部とすることができる。クライアント及びサーバは各々、複数のシステム、サブシステム、又はコンポーネントを含むことができる。

実施形態の態様を、ハードウェア（例えば、特定用途向け集積回路又はフィールドプログラマブルゲートアレイ）を使用して、及び／又はモジュール式の若しくは集積された様式で一般にプログラム可能なプロセッサを有するコンピュータソフトウェアを使用して、制御ロジックの形態で実装することができる。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、又は単一の回路基板上若しくはネットワーク化された複数の処理ユニットを含む。本明細書に提供される本開示及び教示に基づいて、当業者は、ハードウェア、及びハードウェアとソフトウェアとの組み合わせを使用して、本開示の実施形態を実装するための他の方式及び／又は方法を認識及び理解するであろう。

本出願で記載されるソフトウェアコンポーネント又は関数のうちの任意のものを、例えば、Ｊａｖａ、Ｃ、Ｃ＋＋、Ｃ＃、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｓｗｉｆｔなどの任意の好適なコンピュータ言語、又は例えば、従来の技術若しくはオブジェクト指向の技法を使用するＰｅｒｌ若しくはＰｙｔｈｏｎなどのスクリプト言語を使用する、プロセッサによって実行されるソフトウェアコードとして実装してもよい。ソフトウェアコードを、記憶及び／又は伝送のためのコンピュータ可読媒体上に一連の命令又はコマンドとして記憶してもよい。好適な非一時的コンピュータ可読媒体として、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、ハードドライブ若しくはフロッピーディスクなどの磁気媒体、又はコンパクトディスク（ＣＤ）若しくはＤＶＤ（デジタル多用途ディスク）などの光学媒体、フラッシュメモリなどを挙げることができる。コンピュータ可読媒体は、そのような記憶デバイス又は伝送デバイスの任意の組み合わせであってもよい。

そのようなプログラムを、符号化し、インターネットを含む多様なプロトコルに従う有線ネットワーク、光ネットワーク、及び／又は無線ネットワークを介した伝送に適合された搬送波信号を使用して伝送してもよい。したがって、そのようなプログラムで符号化されたデータ信号を使用して、コンピュータ可読媒体を作成してもよい。プログラムコードで符号化されたコンピュータ可読媒体を、互換性のあるデバイスとパッケージ化するか、又は（例えば、インターネットダウンロードを介して）他のデバイスとは別個に提供してもよい。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品（例えば、ハードドライブ、ＣＤ、又はコンピュータシステム全体）上又はその内部に存在してもよく、及びシステム又はネットワーク内の異なるコンピュータ製品上又はその内部に存在してもよい。コンピュータシステムは、モニタ、プリンタ、又は本明細書で言及される結果のうちのいずれかをユーザに提供するための他の好適なディスプレイを含んでもよい。

本明細書に記載される方法のうちの任意のものを、ステップを実行するように構成され得る１つ以上のプロセッサを含むコンピュータシステムを用いて、全体的又は部分的に実行することができる。したがって、実施形態は、本明細書に記載される方法のうちの任意のもののステップを実行し、場合によっては、異なるコンポーネントがそれぞれのステップ又はそれぞれのステップのグループを実行するように構成されたコンピュータシステムを対象とすることができる。番号付けされたステップとして提示されているが、本明細書における方法のステップを、同時に又は異なる順序で実行することができる。追加的に、これらのステップの部分を、他の方法からの他のステップの部分と併用してもよい。また、ステップの全て又は部分は、任意選択であってもよい。追加的に、方法のうちの任意のもののステップのうちの任意のものを、モジュール、ユニット、回路、又はこれらのステップを実行するための他の手段で実行することができる。

特定の実施形態の具体的な詳細を、本開示の実施形態の趣旨及び範囲から逸脱することなく、任意の好適な様式で組み合わせてもよい。ただし、本開示の他の実施形態は、各個々の態様、又はこれらの個々の態様の具体的な組み合わせに関する具体的な実施形態を対象としてもよい。

本開示の例示的な実施形態の上記の説明は、例示及び説明の目的で提示されている。包括的であること、又は本開示を記載された形態そのものに限定することは意図されておらず、多くの修正及び変更が、上記の教示に鑑みて可能である。

「ａ」、「ａｎ」、又は「ｔｈｅ」の記述は、それに反するように特段示されない限り、「１つ以上」を意味することが意図されている。「又は」の使用は、それに反するように特段示されない限り、「排他的な又は」ではなく「包含的な又は」を意味することが意図されている。「第１」の構成要素への言及は、第２の構成要素が提供されることを必ずしも必要としない。更に、「第１」又は「第２」の構成要素への言及は、明示的に述べられない限り、言及される構成要素を特定の場所に限定しない。

本明細書で言及される全ての特許、特許出願、公報、及び説明は、全ての目的のために参照によりそれらの全体が組み込まれる。いかなるものも、先行技術であるとは認められていない。

本明細書には、特定の実施形態に関する追加の情報を含む付属書が添付されている。付属書で使用される他の用語は、（まだ）業界で一般的に使用される用語ではない場合もある。

Claims

シミュレートされたゲノム配列を生成するためのコンピュータ実装方法であって、
形質インジケータを受信することと、
前記形質インジケータに基づいて、潜在空間における埋め込みベクトルの確率分布を取得することであって、前記確率分布は、前記形質インジケータに関連付けられた形質を有する対象のゲノムの複数の変異体部位における変異体値の配列を表す入力ベクトルから、訓練された生成的機械学習モデルの分布生成サブモデルによって生成され、各変異体値は、変異体部位に存在する特定の変異体を指定し、前記入力ベクトルは、前記複数の変異体部位に対応する第１の数の次元を有する変異体セグメント空間において定義され、前記潜在空間は、前記第１の数の次元よりも小さい第２の数の次元を有し、前記確率分布は、前記第２の数の次元を有する多次元である、取得することと、
前記潜在空間の前記第２の数の次元の各々における前記確率分布をサンプリングすることによって、サンプルベクトルを取得することと、
前記訓練された生成的機械学習モデルの配列生成サブモデルによって、かつ前記形質インジケータに基づいて、前記サンプルベクトルから出力ベクトルを再構築することであって、前記出力ベクトルは、前記変異体セグメント空間において定義される、再構築することと、
前記出力ベクトルに基づいて、前記シミュレートされたゲノム配列を生成することと、を含む、コンピュータ実装方法。
前記複数の変異体部位のうちの少なくとも１つに対する変異体のタイプは、一塩基多型（ＳＮＰ）である、請求項１に記載の方法。
前記複数の変異体部位は、複数のタイプの変異体を有する、請求項２に記載の方法。
前記形質は、祖先起源である、請求項１に記載の方法。
前記形質は、生物医学的形質又は人口統計学的形質である、請求項１に記載の方法。
１つ以上の追加の形質に対応する１つ以上の追加の形質インジケータを受信することであって、前記対象は、前記１つ以上の追加の形質も有する、受信することを更に含む、請求項１に記載の方法。
前記確率分布を取得することは、異なる形質インジケータに各々が関連付けられた複数の確率分布から前記確率分布を選択することを含む、請求項１に記載の方法。
前記確率分布を取得することは、前記確率分布を生成するために、前記分布生成サブモデルに前記入力ベクトル及び前記形質インジケータを入力することを含む、請求項１に記載の方法。
前記対象の入力ゲノム配列から抽出された複数の入力変異体セグメントを受信することであって、前記複数の入力変異体セグメントの各々は、変異体部位における変異体値を含み、前記複数の入力変異体セグメントは、前記入力ベクトルを含む、受信することと、
前記複数の入力変異体セグメントの各々について、
前記分布生成サブモデルによって、確率分布を決定すること、
前記確率分布をサンプリングすることによって、それぞれのサンプルベクトルを取得し、それによって、複数のそれぞれのサンプルベクトルを取得すること、及び
前記配列生成サブモデルによって、かつそれぞれの形質インジケータに基づいて、前記それぞれのサンプルベクトルからそれぞれの出力ベクトルを再構築し、それによって、複数のそれぞれの出力ベクトルを決定すること、を行うことと、
前記それぞれの出力ベクトルに基づいて、前記シミュレートされたゲノム配列を生成することと、を更に含む、請求項８に記載の方法。
前記複数のそれぞれの出力ベクトルは、前記複数のそれぞれのサンプルベクトルから集合的に再構築される、請求項９に記載の方法。
前記確率分布を決定することは、前記複数の入力変異体セグメントについて集合的に実行され、
前記複数の入力変異体セグメントの各々について、
前記配列生成サブモデルのそれぞれのエンコーダによって、前記入力変異体セグメントの前記変異体値と、１つ以上のそれぞれの形質インジケータと、を受信すること、及び
前記それぞれのエンコーダが前記１つ以上のそれぞれの形質インジケータを使用することによって、前記入力変異体セグメントの前記変異体値に作用し、それぞれのエンコーダ隠れベクトルを出力し、それによって、複数のエンコーダ隠れベクトルを取得すること、を行うことと、
エンコーディング相互接続モジュールによって、前記複数のエンコーダ隠れベクトルを受信することと、
前記エンコーディング相互接続モジュールによって、前記複数の入力変異体セグメントの各々について、前記潜在空間における前記第２の数の次元の各々についての前記確率分布を定義する埋め込みベクトルを生成することと、を含む、請求項１０に記載の方法。
前記複数のそれぞれの出力ベクトルを再構築することは、前記埋め込みベクトルを使用して集合的に実行され、
デコーディング相互接続モジュールにおいて、前記埋め込みベクトル及び前記１つ以上のそれぞれの形質インジケータを受信することと、
前記デコーディング相互接続モジュールが前記複数の入力変異体セグメントの形質インジケータを使用することによって、前記埋め込みベクトルに作用し、前記複数の入力変異体セグメントの各々についてそれぞれのデコーダ隠れベクトルを出力することと、
前記複数の入力変異体セグメントの各々について、
前記配列生成サブモデルのそれぞれのデコーダによって、それぞれのデコーダ隠れベクトルに作用して、前記入力変異体セグメントの前記それぞれの出力ベクトルを取得することと、を含む、請求項１１に記載の方法。
前記確率分布は、ガウス分布を含み、前記確率分布は、前記潜在空間の各次元についての平均及び分散によって表され、前記サンプルベクトルを取得することは、
前記第２の数の次元の各々について、
乱数を生成すること、及び
前記乱数を前記それぞれの平均及び前記それぞれの分散と組み合わせて、前記次元の値を生成すること、を行うことと、
前記潜在空間の前記第２の数の次元について生成された前記値に基づいて、前記サンプルベクトルを形成することと、を含む、請求項９に記載の方法。
前記分布生成サブモデルは、第１のニューラルネットワークを含み、前記第１のニューラルネットワークは、第１の入力層、第１の隠れ層、及び第１の出力層を含み、
前記第１の入力層のノードの第１のサブセットの各ノードは、入力変異体セグメントにおける変異体部位に対応し、対応する変異体部位の変異体値を受信し、前記変異体値を複数の第１の重みのうちの第１の重みでスケーリングし、
前記第１の隠れ層における各ノードは、前記第１の入力層のノードの前記第１のサブセットからのスケーリングされた変異体値の和に基づいて、第１の中間値を生成し、複数の第２の重みのうちの第２の重みに基づいて、前記第１の中間値をスケーリングして、スケーリングされた第１の中間値を取得し、
前記第１の出力層の各ノードは、前記第１の隠れ層の各ノードからの前記スケーリングされた第１の中間値の和に基づいて、前記潜在空間の次元の前記平均及び前記分散を出力する、請求項１３に記載の方法。
前記第１の入力層のノードの第２のサブセットの各ノードは、前記入力変異体セグメントの前記形質を表す値を受信し、
前記第１の隠れ層における各ノードは、前記第１の入力層のノードの前記第１のサブセットからのスケーリングされた変異体値の前記和と、前記第１の入力層のノードの前記第２のサブセットからの前記形質を表すスケーリングされた値の和と、に基づいて、前記第１の中間値を生成する、請求項１４に記載の方法。
前記入力変異体セグメントの前記形質に基づいて、前記複数の第１の重み及び前記複数の第２の重みを選択することを更に含む、請求項１４に記載の方法。
前記配列生成サブモデルは、第２のニューラルネットワークを含み、前記第２のニューラルネットワークは、第２の入力層、第２の隠れ層、及び第２の出力層を含み、
前記第２の入力層のノードの第１のサブセットの各ノードは、前記潜在空間の次元に対応し、対応する次元のサンプルベクトル値を受信し、前記サンプルベクトル値を第３の重みでスケーリングし、
前記第２の隠れ層における各ノードは、前記第２の入力層のノードの前記第１のサブセットからのスケーリングされたサンプルベクトル値の和に基づいて、第２の中間値を生成し、第４の重みに基づいて、前記第２の中間値をスケーリングし、
前記第２の出力層の各ノードは、シミュレートされた変異体セグメントを表す前記それぞれの出力ベクトルのベクトル値を出力する、請求項１３に記載の方法。
前記第２の入力層のノードの第２のサブセットの各ノードは、入力変異体セグメントの前記形質を表す値を受信し、
前記第２の隠れ層における各ノードは、前記第２の入力層のノードの前記第１のサブセットからのスケーリングされた変異体値の和と、前記第２の入力層のノードの前記第２のサブセットからの前記形質を表すスケーリングされた値の和と、に基づいて、前記第２の中間値を生成する、請求項１７に記載の方法。
入力変異体セグメントの前記形質に基づいて、前記第３の重み及び前記第４の重みを選択することを更に含む、請求項１７に記載の方法。
前記分布生成サブモデル及び前記配列生成サブモデルは、クラス条件付き変分オートエンコーダ（ＣＶＡＥ）を形成し、複数の入力変異体セグメントの複数の形質は、前記ＣＶＡＥの異なるクラスを表す、請求項８に記載の方法。
前記分布生成サブモデルは、再構築誤差成分及び分布誤差成分を含む第１の損失関数に基づいて訓練され、
前記再構築誤差成分は、前記出力ベクトルと前記入力ベクトルとの差分に基づき、
前記分布誤差成分は、前記埋め込みベクトルの確率分布と目標確率分布との差分に基づき、
前記分布生成サブモデルのパラメータは、前記第１の損失関数を減少させるように調整される、請求項８に記載の方法。
前記分布誤差成分は、Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ発散に基づく、請求項２１に記載の方法。
前記配列生成サブモデルは、前記再構築誤差成分を含む第２の損失関数に基づいて訓練される、請求項２１に記載の方法。
前記配列生成サブモデルは、入力変異体セグメントの前記形質に基づいて、前記配列生成サブモデルによって出力された前記出力ベクトルが、実際の変異体配列又はシミュレートされた変異体配列を表すかどうかを分類する判別器を用いる敵対的訓練演算で訓練される、請求項２３に記載の方法。
前記第２の損失関数は、前記判別器における分類誤差率が増加すると低下する敵対的損失成分を更に含み、
前記判別器は、前記分類誤差率が減少すると減少する第３の損失関数に基づいて訓練され、
前記配列生成サブモデル及び前記判別器のパラメータは、それぞれ、前記第２の損失関数及び前記第３の損失関数を減少させるように調整される、請求項２４に記載の方法。
前記判別器は、第３のニューラルネットワークを含み、前記第３のニューラルネットワークは、第３の入力層、第３の隠れ層、及び第３の出力層を含み、
前記第３の入力層のノードの第１のサブセットの各ノードは、変異体部位に対応し、前記出力ベクトルにおける対応する変異体部位の変異体値を受信し、前記変異体値を第５の重みでスケーリングし、
前記第３の隠れ層における各ノードは、前記第３の入力層のノードの前記第１のサブセットからのスケーリングされた変異体値の和に基づいて、第３の中間値を生成し、第６の重みに基づいて、前記第３の中間値をスケーリングして、スケーリングされた第３の中間値を取得し、
前記第３の出力層は、前記第３の隠れ層からの前記スケーリングされた第３の中間値に基づいて、前記出力ベクトルが実際の変異体セグメントを表す確率を計算するためのノードを含む、請求項２５に記載の方法。
前記第３の入力層のノードの第２のサブセットの各ノードは、前記入力変異体セグメントの前記形質を表す値を受信し、
前記第３の隠れ層における各ノードは、前記第３の入力層のノードの前記第１のサブセットからのスケーリングされた変異体値の前記和と、前記第３の入力層のノードの前記第２のサブセットからの前記形質を表すスケーリングされた値の和と、に基づいて、前記第３の中間値を生成する、請求項２６に記載の方法。
前記入力変異体セグメントの前記形質に基づいて、前記第５の重み及び前記第６の重みを選択することを更に含む、請求項２６に記載の方法。
前記配列生成サブモデル及び前記判別器は、クラス条件付き敵対的生成ネットワーク（ＣＧＡＮ）を形成する、請求項２４に記載の方法。
実行されると、コンピュータシステムに、先行請求項のいずれか一項に記載の方法を実行させる複数の命令を記憶している非一時的コンピュータ可読媒体を備える、コンピュータ製品。
システムであって、
請求項３０に記載のコンピュータ製品と、
前記非一時的コンピュータ可読媒体上に記憶された命令を実行するための１つ以上のプロセッサと、を備える、システム。
先行請求項のいずれか一項に記載の方法を実行するための手段を備える、システム。
先行請求項のいずれか一項に記載の方法を実行するように構成された１つ以上のプロセッサを備える、システム。
先行請求項のいずれか一項に記載の方法のステップをそれぞれ実行するモジュールを備える、システム。