JP2023510400A

JP2023510400A - 病原性モデルの適用およびそのトレーニング

Info

Publication number: JP2023510400A
Application number: JP2022543395A
Authority: JP
Inventors: モルガネラ，サンドロ; ダーマン，ヤシーン; ポンティング，ローラ; マッカイ，エミリー
Original assignee: コンジェニカリミテッド
Priority date: 2020-01-16
Filing date: 2021-01-15
Publication date: 2023-03-13
Also published as: WO2021144578A1; WO2021144579A1; EP4091171A1; EP4091170A1; US20230068937A1; CN115280415A; AU2021208684A1; CA3164716A1; CA3164718A1; US20230050513A1; JP2023510399A; CN115335911A; AU2021208683A1

Abstract

患者についてのバリアントの病原性を評価するためのものである、コンピュータ実装方法。バリアントを受信する。学習済みバリアントのコレクションに基づいて、病原性メトリックに関連してバリアントについての少なくとも１つの確率を決定する。病原性メトリックは、バリアントについての少なくとも１つの確率を決定するための少なくとも１つの遺伝的状態クラスターのデータ表現を含む。患者についてのバリアントの少なくとも１つの確率の統合された表現が出力される。
【選択図】図１ｂ

Description

本出願は、患者についてのバリアントの病原性を評価するためのシステム、装置および方法、ならびにその評価のためのモデルのトレーニングに関する。

医療および計算技術の進歩により、表現型属性に基づいた生物学的試料のゲノム配列決定の分析が可能になってきている。これらの属性に基づいて、疾患の原因となるＤＮＡ変異を予測するためのゲノム解析は、研究開発の強力な分野になってきている。ゲノムデータの固有の複雑さおよび多くのノイズのために、これらの予測には多くの不確実性が残っている。例えば、複雑さは、配列決定プロセス中のノイズにもかかわらず、一塩基バリアント（ＳＮＶ）から大きくて複雑な再配列までの範囲の変異に起因する可能性がある。これらの変異の予測における不確実性は、特に、特定のバリアントまたは変異を分析するために、非効率的で不正確な既存の技術または計算ツールに難題をもたらす。

ただし、遺伝的バリアントに関する洞察を得るために、ゲノムデータの分析および解釈のためにいくつかの計算ツールが開発されてきている。しかしながら、これらのツールは、実行時間が長く、資源集約的な組み込み機械学習アルゴリズムを動作させるために、大量のラベル付きおよび／またはラベルなしのトレーニングデータを使用して、基礎的モデルの広範なトレーニングが必要である。例えば、従来の機械学習または人工知能モデルは、対象の以前の入力に関連する新しい入力がそのようなモデルに入力されると、完全な再トレーニングを受け、これは、診断テストの結果および対象に関連する他の情報が通常は利用可能ではない場合、望ましくなく、診断テストが実施される場合、および患者に関連する追加データが利用可能である場合にのみ通常は取得される。したがって、そのような場合の従来のモデルの再トレーニングは、対象に関連するゲノムデータの評価にタイムラグを生じさせるだけでなく、ゲノム解釈における不確実性を、関連する誤解のリスクを伴って増大させる。上記の例では、配列決定されている所与の患者の血液サンプル間で、および数年後に新しい関連する科学情報が発見される所与の患者の血液サンプル間でタイムラグが発生する可能性があり、新しい関連する科学情報は、特定の遺伝子が発現したときに何をするかに関するものである。タイムラグの結果として、所与の患者の医療記録が「未解決」としてマークされる可能性があり、後に詳細情報が利用可能になった場合に所与の患者の記録が再検討されない可能性がある。

したがって、上述の議論に照らして、ゲノムデータを処理、分析、または解釈するための従来の方法に関連する上述の欠点を克服して、ノイズの影響を低減し、過剰適合を防止する必要がある。より具体的には、バリアントの病原性に関して患者の生物学的配列におけるバリアントまたは変異を正確に評価するために、本質的に複雑である大量の複雑なゲノムデータを処理するプロセスが必要である。

以下に記載の実施形態は、上に記載の既知のアプローチの欠点のいずれかまたはすべてを解決する実装形態に限定されるものではない。

本概要は、以下の詳細な説明でさらに記載される概念の選択を簡略化した形態で紹介するために提供されるものである。本概要は、特許請求される主題の主要な特徴または本質的な特徴を識別することを意図せず、特許請求される主題の範囲を決定するために使用されることも意図しておらず、本発明の働きを容易にし、かつ／または実質的に同様の技術的効果を達成するために機能する変形例および代替的特徴は、本明細書に開示される本発明の範囲内に収まるとみなされるべきである。

本開示は、患者のゲノムプロファイルおよび特定の表現型属性が与えられた原因ＤＮＡ変異の同定を可能にするアルゴリズムフレームワークを提供する。

第１の態様では、本開示は、患者についてのバリアントの病原性を評価するためのコンピュータ実装方法であって、バリアントを受信することと、学習済みバリアントのコレクションに基づいて、病原性メトリックに関連してバリアントについての少なくとも１つの確率を決定することであって、病原性メトリックが、バリアントについての少なくとも１つの確率を決定するための少なくとも１つの遺伝的状態クラスターのデータ表現を含む、決定することと、患者についてのバリアントの少なくとも１つの確率の統合された表現を出力することと、を含む、コンピュータ実装方法を提供する。

第２の態様では、本開示は、病原性メトリックに関連してバリアントの少なくとも１つの確率を決定するための少なくとも１つの遺伝的状態クラスターを生成するためのコンピュータ実装方法であって、バリアントのコレクションに関連付けられた少なくとも１人の患者の注釈付きデータを受信することであって、注釈付きデータが、病原性メトリックに対応する関連付けられた観察による解釈情報を含む、受信することと、少なくとも１人の患者の注釈付きデータのデータ表現を決定することであって、データ表現が、１つ以上の生成モデルを使用して導出される、決定することと、データ表現に基づいて、少なくとも１つの遺伝的状態クラスターを生成することと、を含むコンピュータ実装方法を提供する。

第３の態様では、本開示は、サイド情報のセットを使用して、患者についての未知のバリアントの病原性を評価するためのコンピュータ実装方法であって、未知のバリアントを受信することであって、未知のバリアントが、学習済みバリアントのコレクションにおいて識別されていない、受信することと、教師あり学習フレームワークをトレーニングするために、学習済みバリアントのコレクションのサブセットの各々に対応するサイド情報のセットを使用することと、トレーニングされた教師あり学習フレームワークに基づいて、未知のバリアントの病原性を評価することと、を含む、コンピュータ実装方法を提供する。

第４の態様では、本開示は、患者についてのバリアントの病原性を決定するための装置であって、装置が、バリアントが学習済みバリアントのコレクション内にあるかどうかを決定するように構成された処理コンポーネントと、バリアントが学習済みバリアントのコレクション内に存在するという決定に応答して、病原性メトリックに関連してバリアントについての少なくとも１つの確率を生成するように構成された予測コンポーネントであって、病原性メトリックが、バリアントについての少なくとも１つの確率を決定するための少なくとも１つの遺伝的状態クラスターのデータ表現を含む、予測コンポーネントと、病原性メトリックに関してバリアントの少なくとも１つの確率を表示するように構成された表示コンポーネントであって、少なくとも１つの確率が正規化されている、表示コンポーネントと、を含む、装置を提供する。

第５の態様では、本開示は、サイド情報のセットを使用して、未知の遺伝子バリアントの病原性の確率分布を決定するためのコンピュータ実装方法であって、コンピュータ実装方法が、患者の未知のバリアントを受信することであって、未知のバリアントが、複数の患者に関連付けられた学習済みバリアントのコレクションにおいて識別されていないか、またはそれに対して新しいものではない、受信することと、サイド情報のセットに基づく教師あり学習フレームワークを使用することによって、未知の遺伝子バリアントの病原性を評価することと、評価に基づいて、病原性の確率分布を決定することと、を含む、コンピュータ実装方法を提供する。

本明細書に記載された方法は、有形記録媒体または非一時的な記録媒体上の機械可読形態のソフトウェアによって、例えば、プログラムがコンピュータで実行される場合、およびコンピュータプログラムがコンピュータ可読媒体で具現化されている場合に、本明細書に記載された方法のいずれかのすべてのステップを実行するように適合されたコンピュータプログラムコード手段を含むコンピュータプログラムの形態で、実行され得る。有形（または非一時的）記憶媒体の例には、ディスク、サムドライブ、メモリカードなどが含まれ、伝播信号は含まれない。ソフトウェアは、方法のステップを任意の好適な順序で、または同時に実行され得るように、並列プロセッサまたは直列プロセッサでの実行に好適であり得る。

本出願は、ファームウェアおよびソフトウェアが価値を有し、個別に取引可能な商品である可能性があることを認めている。「ダム」または標準ハードウェアで実行または制御するソフトウェアを包含して、目的の機能を実行することを目的としている。また、シリコンチップの設計またはユニバーサルプログラマブルチップの構成に使用されるＨＤＬ（ハードウェア記述言語）ソフトウェアなどのハードウェアの構成を「記載」または定義して、目的の機能を実行するソフトウェアも包含することも目的としている。

好ましい特徴は、当業者にとって明らかであるように、適切に組み合わせられ得、本発明の任意の態様と組み合わせられ得る。

本発明の実施形態は、例として、以下の図面を参照して記載される。

本発明による患者についてのバリアントの病原性を評価する例を示す流れ図である。本発明による表現型およびサイド情報に関連して、患者についてのバリアントの病原性が評価される例を示す概略図である。本発明による病原性メトリックに関連してバリアントの少なくとも１つの確率を決定するための遺伝的状態クラスターを生成する例を示す流れ図である。本発明によるバリアントの確率を決定するための遺伝的状態クラスターの例の概略図である。本発明によるサイド情報のセットを使用して、患者についての未知のバリアントの病原性を評価する例を示す流れ図である。本発明による病原性メトリックが与えられた場合にバリアントの確率を予測するために注釈付きデータから抽出された遺伝的状態クラスターの例を示す概略図である。本発明の実施形態を実施するのに好適なコンピュータシステムの概略図である。

共通の参照符号は、同様の特徴を示すために図面全体を通して使用される。

本発明の実施形態は、例としてのみ以下に記載される。これらの例は、本発明を達成することができる唯一の方法ではないが、出願人にとって現在既知の本発明を実施する最良の方法を表す。本明細書は、例の機能と、例を構築および操作するための一連のステップを説明する。しかしながら、同じまたは同等の機能および配列は、異なる例によって達成され得る。

本発明者らは、関心のある患者についての特定のバリアント（例えば、遺伝子バリアント）の病原性を評価または予測するためのプロセスを提案する。このプロセスは、好適な評価または予測を行うために、潜在変数のセットを導出するためにコンパイルされた表現型および／または解釈情報の注釈付きトレーニングデータを使用してトレーニングされた少なくとも１つの予測モデルを利用する。次に、潜在変数のセットは、（隠された）遺伝的状態クラスターのデータ表現として認識される可能性がある。遺伝的状態クラスターは、モデルによって学習済みバリアントのコレクションに基づいて、バリアントの確率のセットを決定するように適合される。確率は、病原性メトリックの観点から評価され、各メトリックは、決定された１つの確率に帰する。確率のセットの統合された表現は、コンピューティングインターフェースまたはデバイスを介してユーザに出力される。したがって、入力バリアントが病原性（例えば、開始または病原性）であるか、またはその病原性であるかどうかの可能性が出力された確率によって決定またはそれに従って考慮され得る。

このプロセスは繰り返され得、予測モデルは、表現型および／または解釈情報のより多くの入力の流入とともに増加し続け得る。表現型および／または解釈情報は、多次元データ行列として具体化された過去の患者解釈からの患者、バリアント、および対応する観測に関連付けられたデータポイントを含む。データポイントは、データ行列の観測が約９９．９６％存在しないという点で、行列のサイズに関して非常にまばらである可能性がある。これは、少なくとも、バリアントプールのサイズおよび各バリアントに関連付けられた限られた観測の利用可能性によるものである。それにもかかわらず、方法、システム、媒体、または装置として本明細書に記載されるプロセスは、遺伝的状態クラスターの適用を通じてデータのまばらさのジレンマを克服するための少なくとも解決策を提示する。実際には、遺伝的状態クラスターは、要約すると、本明細書に記載されている他の技術的問題の中でもデータのまばらさの客観的問題を解決する程度まで、バリアントをその根底にある病原性に対してマッピングする。

本明細書における病原性は、特定の疾患を引き起こす性質を指す。バリアントの病原性は、疾患を引き起こすバリアントの能力である。バリアントの病原性は、バリアントの定性的および定量的評価、ならびにバリアントの可能性および疾患の原因への寄与度の両方である。バリアントが病原性である可能性は、確率として提示され得る。これらの確率は、バリアントに関連付けられており、その病原性の観点からバリアントの定量的評価を提供する。

バリアントは、遺伝子バリアントまたは他の配列変異を含む、遺伝子（ＤＮＡ）配列およびその転写物（ＲＮＡ）の変異である。特に、遺伝子バリアントは、一塩基多型（ＳＮＰ）、コピー数バリアント（ＣＮＶ）、遺伝子再配列、インデルなどを指す。一般に、バリアントを有する患者は、患者がＳＮＰまたはゲノムＤＮＡの変異を受け継ぐ程度まで、疾患によって引き起こされる病態または疾病を有する可能性がある。そのような患者は、例えば、コピー数バリアント（ＣＮＶ）、インデル、一塩基バリアント（ＳＮＶ）、および遺伝性疾患の原因となる他の変異を含むがこれらに限定されない１つ以上のバリアントを有し得る。このように、バリアントは、遺伝子スクリーニングの文脈における健康な個人と患者との間のゲノムＤＮＡにおけるいずれかの違いである。

例えば、遺伝子「Ｘ」は、２つのバリアント「Ａ」および「Ｂ」を有し得る。「Ａ」と「Ｂ」の両方のバリアントは、遺伝子「Ｘ」の異なる遺伝子座に位置し、疾患「Ｄ」の原因である。遺伝子の特定のコード領域に存在する場合、特定のＤＮＡ変異（例えば、予想される「Ａ」ヌクレオチドが「Ｃ」ヌクレオチドに置き換えられる場合）がそのような遺伝子を潜在的に病原性にする場合、バリアント「Ａ」の遺伝子座にこのＤＮＡのストレッチが存在することによって、同じＤＮＡ配列を示さないバリアント「Ｂ」とは対照的に、新しい患者についてのバリアント「Ａ」を疾患「Ｄ」と容易に関連付けることができる。遺伝子「Ｘ」に関連付けられたバリアントおよびそれらの疾患「Ｄ」との対応する関係は、以下のセクションで説明するモデルに、本明細書で記載される方法、システム、媒体または装置の学習済みバリアントとして適合され得る。

さらに、遺伝子の特定のコード領域（例えば、「ＡＡ」から「ＣＣ」）にバリアントとして存在する場合、遺伝子の特定の例のストレッチ（例えば、「ＡＡＡＡＡＴＡＡＡＡＡＴ」）は、遺伝子を潜在的に病原性にする（言い換えれば、繰り返し要素「ＡＡＣＣＡＴ」は、患者に病気の症状を引き起こす可能性があり。したがって、遺伝子の同じストレッチ（例えば、ＡＡＡＡＡＴＡＡＡＡＡＴ）を有する、遺伝子「Ｘ」のいずれかの他の近いバリエーション（つまり、バリアント「Ａ」と「Ｂ」以外）が場合、それは、いずれかの新しい患者についての疾患「Ｄ」と容易に関連付けられ得る。遺伝子「Ｘ」に関連付けられたバリアントは、本明細書に記載の方法、システム、媒体、または装置の学習済みバリアントのうちの１つであり得る。

バリアントの他の例には、転写物除去、スプライスドナーバリアント、スプライスアクセプターバリアント、ストップゲイン、フレームシフトバリアント、スタートロスト、イニシエーターコドンバリアント、転写増幅、フレーム内挿入、フレーム内欠失、ミスセンスバリアント、タンパク質改変バリアント、スプライス領域バリアント、不完全末端コドンバリアント、同義バリアント、コーディング配列バリアント、成熟ｍｉＲＮＡバリアント、５プライムＵＴＲバリアント、３プライムＵＴＲバリアント、非コーディング転写バリアント、イントロンバリアント、上流バリアント、下流バリアント、転写因子（ＴＦ）結合部位バリアント、調節領域アブレーション、転写因子結合部位（ＴＦＢＳ）アブレーションなどが挙げられ得るが、これらに限定されない。

学習済みバリアントまたはそのコレクションは、計算モデルによって認識または学習されてきたバリアントを指す。言い換えると、学習済みバリアントのコレクションは、モデルが既知であると分かったもしくはみなした、またはモデルによってトレーニングされたバリアントまたはバリアントの配列で構成される。したがって、注釈付きバリアントまたは注釈付きデータを有するトレーニング済みモデルには、各バリアントの解釈情報（すなわち、定量化された、患者およびバリアントの注釈付けに基づいて、病原性を決定するための）の基礎となる学習済みバリアントのデータ表現が含まれ、注釈付けは、バリアントが表現型的には病原性（すなわち、所与の病態／疾患を引き起こす）、良性（すなわち、無害）、または病原性メトリックのセットの文脈で病原性の程度であるかを評価するための各バリアントに関連する特定の観察を示す。より具体的には、注釈付けは、モデルが与えられた場合にバリアントが病原性である可能性を評価するための基礎を提供する。可能性は、示された表現型に関連する確率または確率分布によって表され得る。

これにより、上記の計算モデルは、病原性メトリックのセットに基づいて、任意のバリアントを評価するように構成されており、病原性メトリックは、学習済みバリアントのコレクションとして知られている、またはその後の注釈付きバリアントによってトレーニングされる。病原性メトリックは、病原性の程度に関連してバリアントを表現型的に分類され得る分類スキームを提供する。これらのカテゴリーの例には、Ｂ（良性）、ＬＢ（良性の可能性がある）、ＬＰ（病原性の可能性がある）、およびＰ（病原性）が含まれるが、これらに限定されない。各カテゴリーには、指し示す確率が決定される可能性が提供される。したがって、計算モデルは、トレーニングセットのデータ分布を学習して、出力確率に関していくつかの変動を伴うさらなるデータポイントまたは予測を生成するように構成された生成モデルであり得る。

既知のバリアントまたは任意のバリアント配列は、例えば、ゲノムデータバンク、公的科学データベース、研究組織のデータベース（例えば、ゲノムバリアントのデータベース（ＤＧＶ）、ＯｎｌｉｎｅＭｅｎｄｅｌｉａｎＩｎｈｅｒｉｔａｎｃｅｉｎＭａｎ（ＯＭＩＭ）、ＭＯＲＢＩＤ、ＤＥＣＩＰＨＥＲ、研究文献（例えば、ＰｕｂＭｅｄ文献）、およびその他のサポート情報など）を含むが、これらに限定されない様々なデータソースから取得され得る。

例えば、ＯＭＩＭの場合、遺伝子名（例えば、「ＢＩＣＤ２」遺伝子）およびＯＭＩＭ識別子（ＩＤ）（例えば、「６０９７９７」）がバリアントに割り当てられる。ＯＭＩＭには、約１５，０００個の遺伝子の既知のメンデル性疾患に関する公開情報が含まれている場合があり、これは定期的に更新され、表現型および遺伝子型の関係が含まれている。「ＭＯＲＢＩＤＩＤ」（例えば、６１５２９０）も割り当てられ得る。「ＭＯＲＢＩＤＩＤ」は、疾患、および疾患が関連する遺伝子の染色体上の位置のチャートまたは図を示す。罹患マップは、染色体およびそれらの染色体上の特定のサイトにマッピングされた遺伝子が列挙されているＯＭＩＭナレッジベースにおいて提供される。さらに、遺伝子（例えば、ＢＩＣＤ２）遺伝子に関連付けられた既知の病態（例えば、病態：染色体優性遺伝を伴う近位脊髄性筋萎縮症）にも注釈付けされ得る。バリアントへのこれらの注釈付けは、モデルをトレーニングするための基礎として機能する。

モデルのトレーニングでは、注釈付きのバリアントを使用して、本明細書で遺伝的状態クラスターとして作成された潜在的なパラメータを導出または生成することができる。これらの遺伝的状態クラスターは、病原性メトリックに基づいて、目的の遺伝子の評価を決定し得る病原性カテゴリーの抽象的な概念を捉えている。より具体的には、遺伝的状態クラスターは、特定のバリアントが表現型カテゴリー：病原性のＢ（良性）、ＬＢ（良性の可能性がある）、ＬＰ（病原性の可能性がある）、およびＰ（病原性）メトリックの各々に関連する可能性のある抽象的なマッピングを提供する。要約すると、遺伝的状態クラスターにより、所与のバリアントの病原性の特定の確率を予測することができる。

これらの遺伝的状態クラスターを導出するために、様々な計算技術を使用することができる。これらの計算技術は、本明細書で説明されるように、１つ以上の機械学習（ＭＬ）技術を含み得る。これらの技術には、潜在パラメータを使用してリレーショナルデータをモデル化することを目的とした協調フィルタリングおよびレコメンダーシステムアプリケーションに適用され得る１つ以上の行列因数分解アルゴリズムも含まれる場合がある。これらの好適な方法の例には、潜在的ディリクレ配分法、非負行列因子分解、ベイジアンおよび非ベイジアン確率的行列因数分解、主成分分析、ニューラルネットワーク行列因子分解などが含まれるが、これらに限定されない。

遺伝的状態クラスターを適用する際に、表現型カテゴリー（すなわち、良性）についての証拠またはメトリックを評価して、特定のカテゴリーに関連付けられた確率を生成することができる。モデルは、患者について関心のあるバリアントの表現型カテゴリーに関連付けられた確率の各々の統合された表現を出力し得る。この統合された表現は、図１ｂに示すように、ヒストグラムの形式、またはモデルの結果の確率を統合させて表示するのに好適な他のグラフィック表現の形式であり得る。

遺伝的状態クラスターは、関連する表現型への特定の寄与度を調整することによってモデルを微調整するための表現型情報のセットによって重み付けされるが、患者に関連付けられた表現型情報の追加入力は、表現型情報のセットに基づいて、より正確な予測を返す。特に、表現型情報のセットは、表現型データ、例えば、患者のコホートの、利用可能なデータソースからの表現型のヒト表現型オントロジー（ＨＰＯ）用語または他のコーディングを含む行列であり得る。表現型データが割り当てられ、これは、人間の疾患で遭遇する表現型の異常を表す標準化された方法を提供する。ＨＰＯ用語の場合、それらは、遺伝子配列（例えば、ＢＩＣＤ２）が以前に病原性かつ学習済みバリアントのコレクションの一部として報告されているかどうかを自動的に検索され得る。ＨＰＯ用語には、例えば、「ＨＰ：００００３４７」「小顎症」、ＨＰ：０００１５６１「羊水過多症」、ＨＰ：０００１９８９「胎児無動症シーケンス」、ＨＰ：０００１７９０「非免疫性胎児水腫」、ＨＰ：０００２８０３「先天性拘縮」が含まれる。これらのＨＰＯ用語は、病原性メトリックに基づく予測中に遺伝的状態クラスターと組み合わせて使用される。より具体的には、ＨＰＯ用語、またはより一般的には表現型データは、遺伝的状態クラスターの各々に関連付けられた重みのトレーニングに使用される。このトレーニングは、本明細書に記載される１つ以上のＭＬ技術を使用してか、様々なペナルティ項（すなわち、ＬＡＳＳＯ、ＲＩＤＧＥ、ＥｌａｓｔｉｃＮｅｔ）を用いた線形回帰の使用を含むがこれらに限定されないカーブフィッティングアルゴリズムを介して達成される。

表現型情報に加えて、未知の遺伝子バリアント、すなわち、学習済みバリアントのコレクションの一部ではないバリアントの病原性を特徴づけるために、サイド情報のセットが導入され得る。サイド情報またはサイド情報のセットは、本明細書に記載される１つ以上の遺伝子バリアントに関連付けられた指標を参照することができる。

特に、サイド情報のセットは、モデルによって学習済みの１つ以上の既知のバリアントに関係する。サイド情報の例には、様々な表現型および遺伝子型の指標が含まれる。これらの指標には、ＧＥＲＰスコア（中立期待値と比較した複数種の配列アラインメントにおける置換数の低減を定義する）、ＳＩＦＴスコア（アミノ酸置換がタンパク質機能に影響を与えるかどうかを予測する）、バリアント効果予測子（ＶＥＰ）結果（バリアントの配位およびその効果に関連するヌクレオチドの変化）、ＭＶＰスコア（深層学習ＭＬモデルを介してミスセンスバリアントの病原性を予測する）が含まれるが、これらに限定されない。代替的に、ＨＩスコアおよびＡＤＡスコアがまた、使用され得る。例えば、ＨＩスコア（例えば、０．１７６）は、既知のバリアントに注釈付けされたＶＥＰの結果とともに接合状態を示す遺伝子のバリアントに割り当てられ得る。

未知の遺伝子バリアントの病原性の予測は、教師あり学習フレームワークを使用して実行され得る。未知の遺伝子バリアントおよびそのサイド情報が与えられると、フレームワークの基礎となる予測モデルは、各病原性メトリック（例えば、良性、良性の可能性がある、病原性の可能性がある、および病原性）の確率を生成するように構成される。すなわち、少なくとも１つのモデル（Ｍ）は、そのサイド情報（ＳＩ）が与えられた場合、またはＭ＝Ｐ（Ｖｍ｜ＳＩ）の場合、これらの病原性メトリック（Ｖｍ）の各々に関連付けられたバリアントの確率を計算する。

教師あり学習フレームワークまたは基礎となる予測モデルのいずれかは、サイド情報を独立変数および病原性メトリック（例えば、良性、良性の可能性がある、病原性の可能性がある、および病原性）として使用することによってトレーニングされ得る。教師あり学習フレームワークには、ノンパラメトリック分類器が含まれ得る。フレームワークには、線形回帰、ロジスティック回帰、ニューラルネットワーク、サポートベクターマシン（ＳＶＭ）なども含まれるが、これらに限定されない。これらのモデルは、予測を解釈するのに使用され得る様々なサイド情報に対して様々な重みを生成する（例えば、ＧＥＲＰスコアはＳＩＦＴスコアよりも高い重みを有し得、これは、病原性を計算する場合にＳＩＦＴスコアよりも大きな影響を及ぼすＧＥＲＰスコアをもたらす）。

機械学習（ＭＬ）技術を使用して、例えば、表現型および解釈情報に関連付けられたトレーニングデータと呼ばれる入力データに基づく１つ以上の生成ＭＬモデルまたは分類器などのトレーニング済みモデルを、制限なしに、生成することができる。入力データはまた、本明細書に記載されるサイド情報を含み得る。バイオインフォマティクスなどの分野で正しく注釈付けされたトレーニングデータセットを用いると、技術を使用して、さらなるトレーニング済みＭＬモデル、分類器、および／または創薬、識別、および最適化ならびに情報学および／またはバイオインフォマティクス分野での他の関連する生物医学製品、処理、分析、および／またはモデリングなど（例としてのものであって、これらに限定されない）のダウンストリームプロセスで使用するための生成モデルを生成し得る。

本明細書で記載されるように、本発明によって使用され得るトレーニング済みモデルを生成するためのＭＬ技術の例には、例としてのみであり、ただしこれらに限定されない、トレーニング済みモデルを生成するのに使用できる１つ以上の任意のＭＬ技術またはアルゴリズム／方法、１つ以上の教師ありＭＬ技術、半教師ありＭＬ技術、教師なしＭＬ技術、線形および／または非線形ＭＬ技術、分類に関連するＭＬ技術、回帰などに関連するＭＬ技術および／またはそれらの組み合わせが含まれ得る。ＭＬ技術／モデル構造のいくつかの例は、例としてのみであり、限定されないが、能動学習、マルチタスク学習、伝達学習、神経メッセージ解析、ワンショット学習、次元削減、ディシジョンツリー、関連ルール学習、類似度学習、データマイニングアルゴリズム／方法、人工ニューラルネットワーク（ＮＮ）、自動エンコーダー／デコーダー構造、ディープＮＮ、ディープラーニング、ディープラーニングＡＮＮ、誘導論理プログラミング、サポートベクターマシン（ＳＶＭ）、スパース辞書学習、クラスタリング、ベイジアンネットワーク、強化学習、表現学習、類似度およびメトリック学習、スパース辞書学習、遺伝的アルゴリズム、ルールベースの機械学習、学習分類システム、および／またはそれらの１つ以上の組み合わせなどのうちの１つ以上を含むか、またはそれに基づき得る。

トレーニングデータまたは注釈付きデータの種類には、患者ＩＤ、患者表現型、バリアントＩＤ、病原性メトリック、およびサイド情報に関連付けられたデータセットが含まれるが、これらに限定されない。患者ＩＤは、各患者の一意の識別子であり得、図２ｂの行列２２２ａおよび２２２ｂの行ＩＤとして示され得る。患者表現型は、患者に見られる表現型であり、ＨｕｍａｎＰｈｅｎｏｔｙｐｅＯｎｔｏｌｏｇｙ（ＨＰＯ）の用語として表され得る。ＨＰＯ用語の一例は、自閉症の行動表現型を有する患者のためのＨＰ：００００７２９であり、別の例は、四肢短縮表現型の患者のためのＨＰ：０００９８６である。ＨＰＯ用語は、図２ｂの二値行列２２２ａにおける列ＩＤとして示されている。バリアントＩＤは、バリアントごとに一意であり得る。バリアントＩＤは、下線で連結および分離された機能を提示し得る。例えば、バリアントＩＤ２＿１７６５３４２＿Ｃ＿Ｔ＿ＮＭ＿００１９３４５６は、転写物ＮＭ＿００１９３４５６の変異Ｃ＞Ｔを含む、塩基対位置１７６５３４２から始まる２番染色体上のバリアントを一意に識別する。ここで、バリアントＩＤ２＿１７６５３４２＿Ｃ＿Ｔ＿ＮＭ＿００１９３４５６は、染色体、開始、参照対立遺伝子、代替対立遺伝子、および転写物ＩＤを識別する。バリアントＩＤは、図２ｂの行列２２２ｂおよび２２２ｃにおける列ＩＤとして示されている。病原性メトリックは、ＡｍｅｒｉｃａｎＣｏｌｌｅｇｅｏｆＭｅｄｉｃａｌＧｅｎｅｔｉｃｓによって指定されたバリアント病原性のレベルによって表され得る。例えば、良性の病原性メトリックＢ、良性の可能性があるＬＢ、病原性の可能性があるＬＰ、病原性のＰ、および不確実な重要性のＶＵＳが存在する場合がある。これらは、例えば、行列因子分解アルゴリズムおよび図２ｂの行列２２２ｂに示されているエントリに適合した代替トレーニングラベルであり得る。サイド情報は、コサイン類似度で使用されるバリアントの注釈として提示されるか、教師あり学習フレームワークで使用される任意の好適な形式で編成される。それらは、図２ｂの行列２２２ｃの列ＩＤとして示されている。

トレーニングデータまたは注釈付きデータは、病原性モデルをトレーニングして、患者についてのバリアントの病原性を評価するために、遺伝子バリアントの確率分布を評価および計算するために使用される。具体的には、トレーニングデータまたは注釈付きデータは、１つ以上のモデル、フレームワーク、アルゴリズム、手法、および本明細書で記載される方法論での処理に好適な実数、二進数、カテゴリー、識別子、一覧表、および文字列の形式を含むがこれらに限定されない、コンピュータで読み取り可能な形式で編成され得る。

トレーニングデータの種類に関連するトレーニングデータまたは注釈付きデータの実際の例を、以下の表１に示す。この表には、所与のバリアントについてのサイド情報に関連付けられた特徴も示されている。例えば、１つの特徴は、患者についての最大対立遺伝子頻度であり得、別の特徴は、同じ患者についての機能的タンパク質ドメインにおける非同義のアミノ酸変化であり得る。（機能１～１１の）各特徴は、患者ＩＤ、患者表現型、バリアントＩＤ、および病原性メトリックに関連して表に示されている。これらの特徴は、ＧＥＲＰスコア、ＳＩＦＴスコア、バリアント効果予測子（ＶＥＰ）の結果、ＭＶＰスコアを含むがこれらに限定されない、上記の表現型指標および遺伝子型指標にも対応し得る。トレーニングデータの他の提示には、表１の例が含まれるが、この例に限定されない。トレーニングデータは、適用されるモデル、フレームワーク、アルゴリズム、技術、または方法論に関連して提示および変性され得る。トレーニングデータは、本明細書に記載されるように病原性モデルをトレーニングするための入力として適応させるために提示され得る。

図１ａは、本発明による患者についてのバリアントの病原性を評価するプロセス１００の例を示す流れ図である。病原性のレベルは、注釈付きデータを使用してトレーニングされた少なくとも１つの予測モデルによって評価され得る。プロセス１００によってバリアントの病原性を評価するステップは以下の通りである。

ステップ１０２では、バリアントが、患者に関連付けられて受け取られる。バリアントは、モデルに既知のバリアントまたは不明なバリアントのいずれかであり得る。追加的または代替的に、バリアントとともに、患者の表現型情報もまた、病原性の評価のために使用され得る。

ステップ１０４では、バリアントについての少なくとも１つの確率が、予測モデルの病原性メトリックに関連して決定される。予測モデルは、バリアントのコレクションまたはモデルによって学習済みバリアントのデータ表現を保持するようにトレーニングされている。学習済みバリアントのコレクションは、バリアント自体の少なくとも１つの確率を決定する際の少なくとも１つの遺伝的状態クラスターのデータ表現を含む。追加的または代替的に、少なくとも１つの遺伝的状態クラスターのデータ表現は、学習済みバリアントのコレクションから導出され、患者の表現型情報のセットに関連して重み付けされる。患者の表現型情報がない場合にある程度評価および決定された患者の表現型情報の利用可能性、統合された表現を出力するための少なくとも１つの遺伝的状態クラスターへの調整が考慮され得る。選択肢として、表現型メトリックの各々について生成された確率を組み合わせた表現は、それぞれの確率に対して１００％または１に正規化され得る。

ステップ１０６では、患者についてのバリアントの少なくとも１つの確率が出力される。出力は、生成された確率の統合された表現であり得る。一例では、出力は、ユーザがレビューのためにユーザの解釈を準備する自動化されたアシスタントを有するものとして基礎となる確率を考慮することができるインターフェースの一部であり得る。より具体的には、確率の統合された表現とともに、インターフェースは、病原性のレベル、表現型への寄与度、報告カテゴリーなどに対応する特定のラベルを含むがこれらに限定されない少なくとも１つの出力を促すことができる。統合された出力の一部として、さらなる説明情報が提示され得る。

追加的または代替的に、バリアントが少なくとも１つの予測モデルに対して既知であるとみなされる範囲でバリアントが学習済みバリアントのコレクションに含まれている場合に、患者の表現型情報が受信されると、患者の表現型情報に基づく少なくとも１つの遺伝的状態クラスターの各々に関連付けられた寄与度が決定され得る。この決定では、オプションとして、少なくとも１つの遺伝的状態クラスターの各々が、少なくとも１つの予測モデルの１つ以上の回帰モデルを使用して分割される。１つ以上の回帰モデルは、患者の表現型情報が与えられた少なくとも１つの遺伝的状態クラスターの各々への寄与度を予測する。それに応じて、バリアントの少なくとも１つの確率が、少なくとも１つの遺伝的状態クラスターのデータ表現に関連する寄与度に基づいて調整される。実際には、寄与度は、提供された表現型情報と整合した改善された精度を提供する。

未知のバリアントが少なくとも１つの予測モデルに提示され、そのバリアントが学習済みバリアントのコレクションに含まれない場合、教師あり学習フレームワークを使用して、１つ以上の表現型および／またはゲノム指標を含み得る未知のバリアントのサイド情報のセットが与えられた病原性メトリックの確率分布を計算する。実際には、予測モデルに未知のまたは見られないいずれもバリアントも、それに応じて、既知のまたは学習済みバリアントのリザーバーまたはコレクションに基づいて評価され得る。

図１ｂは、図１ａを参照して記載される例示的なプロセス１００に基づいて、本発明による表現型１２６およびサイド情報１２４に関連して患者についてのバリアントの病原性が評価される例示的なプロセス１２０を示す概略図である。受信されたバリアントが学習済みバリアントのコレクション内にあるかどうかの決定１２２が行われる。「はい」の場合、受信されたバリアントが予測モデルに対して知られており、潜在変数または遺伝的状態クラスターへの寄与度を決定する際に、患者の表現型情報が適用される。１つ以上の生成モデルまたはＭＬモデルによって導出された、または本明細書に記載されるＭＬ技術を適用した遺伝的状態クラスターは、病原性メトリックに基づいた病原性についての経験的評価を提供する。

一例では、患者のＨＰＯの用語１２６ａは、線形回帰モデル１２６ｂに従って使用されて、潜在変数の各々についての寄与度１２６ｃを決定することができる。潜在変数は、行列分解が実行されるＬＤＡを使用して導出される。それに従って、入力されたバリアントが良性であるかまたは別の病原性メトリックであるかの証拠または確率が、患者の追加の表現型情報を使用して、および／または潜在変数または隠れた遺伝的状態クラスターを適用することによって受信済みバリアントを用いて決定され得る。類似度の確率は、例えば、良性、良性の可能性がある、病原性の可能性がある、および病原性などの病原性メトリックに基づいて決定され得る。すなわち、病原性メトリックは、病原性の程度またはレベルを示す少なくとも１つの分類を含み得る。少なくとも１つの分類は、少なくとも１つの遺伝的状態クラスターの異なる最適なセットに関連付けられ、良性１２８ａ、良性の可能性がある１２８ｂ、病原性の可能性がある１２８ｃ、および病原性１２８ｄについての基礎となる確率を有するこれらのメトリックの統合された表現１２８が提示および出力される。

「いいえ」の場合、受信されたバリアントは予測モデルに対して不明であり、１つ以上の表現型および／またはゲノム指標に帰するさらなるサイド情報１２４を、教師あり学習フレームワークに関連して使用することができる。教師あり学習フレームワークは、受信されたサイド情報１２４ａに基づいて、病原性メトリック１２４ｂの確率分布を計算するように適用され得る。サイド情報は、病原性メトリックに関連付けられた、病原性の程度を示す得られた確率を評価するのに役立つ。実際には、サイド情報の適用は、未知のバリアントが予測モデルに対して提示されるというジレンマを克服する。

図２ａは、本発明による病原性メトリックに関連してバリアントの少なくとも１つの確率を決定するための遺伝的状態クラスターを生成する例示的なプロセス２００を示す流れ図である。この例では、注釈付きデータを使用して、予測モデルをトレーニングする。具体的には、注釈付きデータを使用して、少なくとも１つの生成モデルまたはＭＬモデルに関連付けられた隠れた遺伝的状態クラスターを導出するか、本明細書で記載される１つ以上のＭＬ技術を適用する。この例では、遺伝子クラスターを生成するプロセス２００は、以下のステップを含み得る。

ステップ２０２では、バリアントのコレクションに関連付けられた少なくとも１人の患者の注釈付きデータが受信される。受信された注釈付きデータは、病原性メトリックに対応する解釈情報および観察を含み得る。解釈情報は、本質的に遺伝子型であり得る。追加的または代替的に、注釈付きデータは、少なくとも１人の患者に関連する解釈情報に関連付けられた患者の表現型情報のセット、および／または、サイド情報のセットがバリアントのコレクションに関連付けられた指標のデータ表現を含む程度にバリアントのコレクションに関連する解釈情報に関連付けられるサイド情報のセットをさらに含み得る。

特に、一連のサイド情報のセットを使用して、バリアントがバリアントのコレクションに含まれていない場合、または注釈付きデータの一部として受信されていない場合に、教師あり学習フレームワークを使用して病原性メトリック全体にわたって確率分布が計算される。

選択肢として、少なくとも１つの遺伝的状態クラスターに関連付けられた重みのセットが、表現型情報のセットに基づいて調整され得る。重みのセットは、表現型情報のセットへの少なくとも１つの遺伝的状態クラスターの寄与度に対応し得る。１つ以上の回帰モデルが、調整された重みのセットに基づいて構成されて、病原性指標に関連する寄与度を決定し得る。１つ以上のＭＬモデルまたは技術を代替的または追加的にまた、適用して、遺伝的状態クラスターへの寄与度を達成し得る。

ステップ２０４では、少なくとも１人の患者の受信された注釈付きデータのデータ表現は、１つ以上の生成モデルもしくは対応するＭＬモデル、または本明細書に記載のＭＬ技術を使用して決定および導出され得る。１つ以上の生成モデルは、病原性メトリックに関連して注釈付きデータのデータ提示を分解するように構成される。例えば、ＬＤＡなどの行列因子分解アルゴリズムを適用することができる。

この例では、ＬＤＡの隠れた遺伝的状態クラスターは、患者、バリアントおよび対応する観察の多次元データ行列の分解を使用して導出された抽象的なパラメータである。構成された遺伝的状態クラスターは、所与のバリアントの病原性を評価するために使用され得る確率の編集を可能にする。多次元データ行列の分解または因子分解に続いて、遺伝的状態クラスターの最適な数が、例えば、期待値最大化を使用することによって、決定され得る。そのため、予測モデルがより多くのデータで増加するにつれて、遺伝的状態クラスターの数が変化する可能性がある。ｋ－分割交差検証（例えば、ｋ＝５）などの代替技術はまた、評価スコアとしてパープレキシティの概念を使用して、遺伝的状態クラスターの最適な数を決定およびスコアリングできるという点で適用可能であり得、最適なソリューションは、パープレキシティを最小化するソリューションである。この場合、表現型メトリックに関連付けられた二値行列ごとに異なる分解を実行して、各分解が異なる最適数の遺伝的状態クラスターまたは潜在変数を有し得るようにする必要がある。

ステップ２０６では、少なくとも１つの遺伝的状態クラスターが、データ表現に基づいて生成される。データ表現は、本明細書で記載されるように、抽象的なパラメータ、あるいは１つ以上のＭＬモデルのＭＬ特徴であり得る。１つ以上のＭＬモデルまたは技術を使用して、本出願の実施例のいずれかに記載される技術に加えて、またはそれと組み合わせて、注釈付きデータに基づいて、少なくとも１つの遺伝的状態クラスターの最適なセットを決定することもできる。次に、少なくとも１つの遺伝的状態クラスターの最適なセットを使用して、病原性メトリックに関連してバリアントの少なくとも１つの確率を予測することができる。追加的または代替的に、少なくとも１つの遺伝的状態クラスターの最適なセットは、新しいまたは追加の注釈付きデータで反復的に更新されるように構成され得る。

図２ｂは、図２ａを参照して記載される例示的なプロセス２００に基づいて、本発明によるバリアントの確率を決定するための遺伝的状態クラスターの例示的なプロセス２２０の概略図である。遺伝的状態クラスター２２８を生成するために、多次元データ行列２２２のデータ表現は、クラスターの決定のための入力２２４として機能し得る。特に、データ行列２２２は、患者、バリアント、および対応する観察（過去の患者の解釈からの「ラベル付きデータ」）の情報を組み込んでいる。行列内の観測値は、行列のサイズに比べて非常にまばらであることがよくあり、可能なバリアントが非常に多いために、観測「セル」の約９９．９６％が空である。

より具体的には、多次元データ行列２２２は、患者、バリアントおよび対応する観察に関連付けられたデータに関して、表現型情報行列２２２ａ、解釈情報行列２２２ｂ、およびサイド情報行列２２２ｃに関して提示され得る。特に、解釈情報行列２２２ｂは、遺伝的状態クラスターを生成するために分解され得る。表現型情報の例には、ＨＰＯ用語（患者１～４に存在するＨＰＯ１～３）が含まれ得、解釈情報には、バリアントまたはそのコレクションが含まれ得る（例えば、患者１は病原性としてラベル付けされた２つのバリアントを有し、患者３は病原性バリアントを有しない）。一方、サイド情報行列は、ＧＲＥＰスコア、ＳＩＦＴスコア、ＶＥＰ結果、ＭＶＰスコア、ＨＩスコア、ＡＤＡスコアなどの表現型および遺伝子型指標に対応する。例えば、サイド情報行列２２２ｃは、実数（すなわち、最大対立遺伝子頻度）を含む列と、カテゴリー変数（すなわち、ＶＥＰ結果）を含む列とで構成され得る。カテゴリー変数は、ダミーのコーディングスキームを使用して整数（二進）表現に変換され得る。したがって、各患者は、患者の表現型（または兆候／症状）をＨＰＯ用語として記述したり、他の表現型コーディングスキーマ（例えば、ＯＭＩＭ、ＩＤＣ１０など）を適用したりするサイド情報（または二値ベクトル）を有する。データセット内のすべての患者についてのＨＰＯまたはその定量値を含む行列を使用して、例えば、遺伝的状態クラスターを決定するための回帰モデルをトレーニングすることができる。

さらに図２ｂでは、病原性メトリック（例えば、Ｂ、ＬＢ、Ｐ、ＬＰ）に関連する解釈情報行列が分解されている（すなわち、Ｈ２２６ｂとＷ２２６ｃとに分解され、これらが一緒に乗算されてＶ２２６ａが得られる）。解釈情報行列の分解により、病原性メトリックの数に等しい数の二値行列が生成される。ここで、行列Ｗ２２６ｃは、トレーニングデータセットにおける各患者内の各遺伝的状態クラスター２２８の割合を表すために使用される。行列Ｈ２２６ｂは、各バリアントが各遺伝的状態クラスター２２８に関連付けられる数を含む。したがって、遺伝的状態クラスターは、行列分解の一次元にすぎない。次に、期待値最大化を介したＬＤＡなどの行列因子分解アルゴリズムを適用して、遺伝的状態クラスターの有限セットを最適化し得る。遺伝的状態クラスターの有限集合は、検証技術（例えば、ｋ－ｆｏｌｄ）を使用して決定され得る。遺伝的状態クラスター２２８の有限セットの最適な数（例えば、５、６、７…２５）は、保存され、検証技術の間に異なる数の遺伝的状態クラスターが最適になるかまたは最適であるように決定されるにつれて更新され続けられ得る。実際には、４つの病原性レベルに対応する４つの分解が与えられると、学習済みバリアントのコレクションに含まれる任意のバリアントについての予測が決定され得る。

図３は、本発明によるサイド情報のセットを使用して、患者についての未知のバリアントの病原性を評価する例示的なプロセス３００を示す流れ図である。いずれの未知のバリアントも、予測モデルが学習した学習済みバリアントのコレクションに含まれていないバリアントである。未知のバリアントについてのサイド情報に基づいて、教師あり予測モデルを使用した病原性メトリックの確率分布。

ステップ３０２では、学習済みバリアントのコレクションにおいて識別されていない、未知のバリアントが受信される。受信された未知のバリアントは、予測モデルで確認されていない、または遺伝的状態クラスターによって具体的に分類されていない患者のいずれかのバリアントである可能性がある。

ステップ３０４では、未知のバリアントの病原性が評価され得る。この評価は、１つ以上の教師あり予測モデルを含む教師あり学習フレームワークを使用して行われ、これにより、バリアントのサイド情報が与えられた場合に、各病原性メトリックについての確率が生成される。例えば、出力は、各メトリックについての正規化された確率を表示するヒストグラムの形式であってもよい。

別の選択肢として、学習済みバリアントのコレクションのサブセットの各々に対応するサイド情報のセットが比較されて、最も近いバリアントが決定される。別の選択肢として、学習済みバリアントのコレクションのサブセットの各々に対応するサイド情報のセットが、類似度スコアに関連して比較される。例えば、類似度スコアは、学習済みバリアントのコレクションのサブセットを評価して最も近いバリアントを決定するように適合されたコサイン類似度スコアまたは他の好適なスコアリング方法であり得る。

別の選択肢として、最も近いバリアントの病原性に関連して、未知のバリアントの病原性が評価され得る。特に、学習済みバリアントのコレクションに基づいて最も近いバリアントの少なくとも１つの確率が決定され得る。この決定は、少なくとも１つの遺伝的状態クラスターのデータ表現を構成する病原性メトリックに関連して行われる。すなわち、最後の１つの遺伝的状態クラスターを適用して、最も近いバリアントについての少なくとも１つの確率が計算され得る。計算された少なくとも１つの確率は、統合された表現を導入するために適合され得、統合された表現は、病原性メトリックに関して出力される。出力は、例えば、各メトリックについての正規化された確率を表示するヒストグラムの形式であってもよい。追加的または代替的に、統合された表現は、最も近いバリアントを決定できないように学習済みバリアントのコレクションのサブセットが同等の類似度スコアを有する２つ以上のバリアントを含むことに応答して、学習済みバリアントのコレクションのサブセットの各バリアントについて少なくとも１つの確率を平均することによって生成され得る。

別の選択肢として、本明細書に記載の実施例のいずれかの病原性メトリックは、病原性の程度を示す少なくとも１つの分類を含み得る。少なくとも１つの分類の各々は、少なくとも１つの遺伝的状態クラスターの異なる最適なセットにさらに関連付けられ得る。遺伝的状態の最適なセットは、例えば、期待値最大化と組み合わせて、あるいは本明細書に記載の１つ以上のＭＬモデルまたは技術を介して、ＬＤＡを適用する場合に決定され得る。具体的には、好適な検証技術は、例えば、各分解が異なる最適な数の遺伝的状態クラスターを有することができるように、例えば、パープレキシティを最小化することによって、最適なセットで遺伝的状態クラスターの数を決定するために適用可能であり得る。本明細書に記載の最適な数の遺伝的状態クラスターを決定するための任意の技術を使用することにより、表現型メトリックに関連付けられた二値行列ごとに、異なる最適な数の遺伝的状態が導出され得る。

別の選択肢として、重み付け類似度メトリックを使用して、最良の最も近いバリアント、または重み付け類似度メトリックに関して未知のバリアントに最も類似しているバリアントを識別または決定することができる。重み付け類似度メトリックは、異なるサイド情報に対して異なるまたは類似の重みを保持し得る。具体的には、サイド情報の１つのスコアが別のスコアよりも高い重み有し得、スコアが高いほど、最も近いバリアントを計算する際の影響が大きくなる。重み付け類似度メトリックを使用する目的は、各サイド情報に固有の予測力を考慮に入れ、最良の最も近い学習済みバリアントの識別プロセスを強化することである。これらの重みは、本明細書に記載の１つ以上のＭＬ技術に関連する線形モデルおよび非線形モデルの両方を使用して推測され得る。

図４は、図１ａ～３を参照して、本発明による病原性メトリックが与えられた場合にバリアントの確率を予測するために注釈付きデータから抽出された遺伝的状態クラスターの例示的なプロセス４００を示す概略図である。この例では、予測モデルの基礎となる潜在もしくは隠れた遺伝子クラスターまたは潜在変数が、このモデルのトレーニングデータセットとして使用される注釈付きデータから抽出され得る。データセットは、患者、バリアント、および行列において数値で提示された対応する観測に関連付けられたデータポイントを含む多次元データ行列の形式であってもよい。抽出された遺伝的状態クラスターは、分解手順で生成された行列の単一次元（ベクトル）であってもよい。図に示すように、各分解は、病原性メトリック（Ｂ、ＬＰ、Ｐ、およびＬＰ）に関連付けられている。示されているメトリック以外に、病原性の程度が異なる代替の病原性メトリックも適用可能であり得る。４つの分解が推定されると、注釈付きデータに存在する任意のバリアントについての病原性の予測が行われ得る。この図では、分解は、病原性メトリックごとに結果として得られる分解を有する行列に対してＬＤＡを実行することによって達成される。分解手順は、データの次元を低減することを目的として記載される１つ以上のＭＬ技術を含む、多くの他の技術を使用して代替的に達成され得る。したがって、結果として得られる遺伝的状態クラスターのベクトルは、注釈付きデータを効果的に具体化する。

さらに、この例では、遺伝的状態クラスターは、表現型情報４０２ｂに関連して重み付けされ得る。遺伝的状態クラスターの重み付けにより、表現型が異なる患者について予測が同じであることが判明する状況が解決される。したがって、予測モデルの精度は、患者の表現型がモデルのフレームワークの一部として含まれている可能性があるという事実のために向上し、結果として得られる予測は、各患者の特定の特性にリンクされ得る。図に示すように、線形回帰モデルが、例として、患者のＨＰＯ用語などの表現型情報が与えられた場合に各遺伝的状態クラスターの寄与度４０８を予測または計算することを目的として使用されている。ＨＰＯ用語のこれらの例は、各遺伝的状態クラスターに重みを関連付けることにより、生成されたプロファイルの全体的な確率を調整するために使用され得る。選択肢として、ＨＰＯ用語が入力として提供されていない場合、遺伝的状態クラスターに重み付けは適用されない。各患者および特定のバリアントについて生成されたプロファイルは、病原性メトリック４１０に基づく正規化された確率として示され得る。

代替的または追加的に、サイド情報４０２ａは、患者の入力バリアントが注釈付きデータ、または遺伝的状態クラスターに関連付けられた学習済みバリアントの一部に存在しない場合に使用され得る。言い換えれば、新しいまたは未知の変形が予測モデルに対して提示される場合、教師あり予測モデル４０６は、サイド情報４０２ａを使用して、既知の解釈に関して予測モデルを再トレーニングする必要なしに、未知のメトリックについての病原性メトリック全体にわたる確率分布を決定することができる。

一例として、教師あり学習フレームワークを使用して、本明細書に記載のサイド情報４０２ａを使用することによって病原性を計算することができる。したがって、この予測モデルは、未知のバリアントを満たし、モデルの持続可能性を強化する際に必要な精度のために再トレーニングされることなく、既知のバリアントおよび未知のバリアントの両方を予測することに勝っている。

別の選択肢として、患者の入力バリアントが注釈付きデータ、または遺伝的状態クラスターに関連付けられた学習済みバリアントの一部に存在しない場合に、サイド情報が使用され得る。言い換えると、新しいまたは未知のバリアントが予測モデルに対して提示された場合、既知の解釈で予測モデルを再トレーニングする（および新しい遺伝的状態クラスターを生成／更新する）ことなく、サイド情報を使用して最も近いバリアントを決定する。

別の選択肢では、コサイン類似度を使用して、多次元チャート上にバリアントをプロットし得る。本明細書に記載の１つ以上のサイド情報を使用して、学習済みバリアントのコレクションに（コサイン類似性スコアに基づいて）距離が小さい最も近いまたはバリアントを、予測されたバリアントとして決定することができる。特に、コサインスコアが最も類似している、またはバリアントのサイド情報が類似しているバリアントは、多次元チャートから識別される。予測されたバリアントは、各患者についてのプロファイルおよび入力されたバリアントを生成する目的で、入力されたバリアントを置き換える。すなわち、行列Ｈの最近傍のエントリは、未知のバリアントのプロキシとして使用され、バリアントが既知である場合と同じ方法で確率予測を生成する。２つ以上のバリアントが同じ（ａｒｇｍａｘ）コサイン類似度スコアを有している場合、最終的な確率は、すべての選択されたバリアントの結果を平均することによって計算される。したがって、予測モデルは、未知のバリアントに遭遇したときに必要な精度について再トレーニングする必要なしに、既知のバリアントおよび未知のバリアントの両方を予測することに勝っており、モデルの持続可能性を強化する。

図５は、予測モデル、装置、方法、および／もしくはそれらのプロセスの組み合わせ、それらの修正、ならびに／または図１ａから４を参照して記載されているような、ならびに／または本明細書に記載されているような、１つ以上の態様を実施するために使用され得る例示的なコンピューティング装置／システム５００を示す概略図である。コンピューティング装置／システム５００は、１つ以上のプロセッサユニット５０２が入力／出力ユニット５０４、通信ユニット／インターフェース５０６、およびメモリユニット５０８に接続されている、１つ以上のプロセッサユニット５０２、入力／出力ユニット５０４、通信ユニット／インターフェース５０６、メモリユニット５０８を含む。いくつかの実施形態では、コンピューティング装置／システム５００は、サーバ、または一緒にネットワーク化された１つ以上のサーバであり得る。いくつかの実施形態では、コンピューティング装置／システム５００は、病原性評価システム、装置、方法および／もしくはそれらのプロセスの組み合わせ、それらの修正のための、ならびに／または図１ａ～４を参照して記載されているような、ならびに／または本明細書に記載されているような、予測モデルの１つ以上の態様を処理または実行するのに好適なコンピュータまたはスーパーコンピュータ／処理施設またはハードウェア／ソフトウェアであり得る。通信インターフェース５０６は、本明細書に記載の本発明を実施するために、通信ネットワークを介して、コンピューティング装置／システム５００を、１つ以上のサービス、デバイス、サーバーシステム、クラウドベースのプラットフォーム、主題データベースおよび／または知識グラフを実装するためのシステムと接続することができる。メモリユニット５０８は、図１ａ～４を参照して記載される様々なプロセス／方法の評価に関連付けられたオペレーティングシステムおよび／もしくはコード／コンポーネント、本明細書に記載の本発明を実施するための病原性評価プロセス／方法／システム、装置、機構および／もしくはシステム／プラットフォーム／アーキテクチャのための、ならびに／または図１ａ～４の少なくとも１つを参照して記載される、予測モデルをホストするデバイス、サービス、および／もしくはサーバの１つ以上の方法および／もしくはプロセスに関連付けられた機能性および／もしくは１つ以上の機能もしくは機能性を実施することに関連付けられた追加のデータ、アプリケーション、アプリケーションファームウェア／ソフトウェアおよび／もしくはさらなるプログラム命令、コードおよび／もしくはコンポーネント、それらの組み合わせ、それらの修正などの、１つ以上のプログラム命令、コードまたはコンポーネントを、例のみとしてであるが、限定されずに、記憶することができる。

この実施形態では、病原性評価プロセス、方法、システム、および／または装置についえの予測モデルなどの上記の本発明の例は、１つ以上のクラウドプラットフォーム、１つ以上のサーバまたはコンピューティングシステムもしくはデバイス上に実装され得る。サーバは、単一のサーバまたはサーバのネットワークを含んでもよく、クラウドプラットフォームは、複数のサーバまたはサーバのネットワークを含んでもよい。いくつかの例では、サーバおよびクラウドプラットフォームの機能は、サーバの世界的な分散ネットワークなどの地理的領域全体にわたって分散されたサーバのネットワークによって提供されてもよく、ユーザは、ユーザロケーションなどに基づいて、サーバのうちのネットワークの適切なサーバに接続されてもよい。

図１ａ～４に関連する態様では、コンピュータ実装方法は、患者についてのバリアントの病原性を評価するためのものであり、バリアントを受信することと、学習済みバリアントのコレクションに基づいて、病原性メトリックに関連してバリアントについての少なくとも１つの確率を決定することであって、病原性メトリックが、バリアントについての少なくとも１つの確率を決定するための少なくとも１つの遺伝的状態クラスターのデータ表現を含む、決定することと、患者についてのバリアントの少なくとも１つの確率の統合された表現を出力することと、を含む。

別の態様では、コンピュータ実装方法は、病原性メトリックに関連してバリアントの少なくとも１つの確率を決定するための少なくとも１つの遺伝的状態クラスターを生成するためものであり、バリアントのコレクションに関連付けられた少なくとも１人の患者の注釈付きデータを受信することであって、注釈付きデータが、病原性メトリックに対応する関連付けられた観察による解釈情報を含む、受信することと、少なくとも１人の患者の注釈付きデータについてデータ表現を決定することであって、データ表現が、１つ以上の生成モデルを使用して導出される、決定することと、データ表現に基づいて、少なくとも１つの遺伝的状態クラスターを生成することと、を含む。

さらに別の態様では、コンピュータ実装方法は、サイド情報のセットを使用して、患者についての未知のバリアントの病原性を評価するためのものであり、未知のバリアントを受信することであって、未知のバリアントが、学習済みバリアントのコレクションにおいて識別されていない、受信することと、教師あり学習フレームワークをトレーニングするために、学習済みバリアントのコレクションのサブセットの各々に対応するサイド情報のセットを使用することと、教師あり学習フレームワークに基づいて、未知のバリアントの病原性を評価することと、を含む。

さらに別の態様では、コンピュータ可読媒体は、コンピュータ可読コードまたはそれに記憶された命令を含み、プロセッサ上で実行される場合、プロセッサに、以下で任意選択で記載される任意のステップに従って、コンピュータ実装方法を実施させる。

さらに別の態様では、システムは、以下に任意選択で記載される任意のステップに従ってコンピュータ実装方法を実行するように構成されている少なくとも１つの回路を含む。

さらに別の態様では、装置は、プロセッサ、メモリ、および通信インターフェースを含み、プロセッサは、メモリおよび通信インターフェースに接続されており、装置は、以下に任意選択で記載されるステップを実施するように適合または構成される。

さらに別の態様では、装置は、患者についてのバリアントの病原性を決定するためのものであり、装置は、バリアントが学習済みバリアントのコレクション内にあるかどうかを決定するように構成された処理コンポーネントと、バリアントが学習済みバリアントのコレクション内に存在するという決定に応答して、病原性メトリックに関連してバリアントについての少なくとも１つの確率を生成するように構成された予測コンポーネントであって、病原性メトリックが、バリアントについての少なくとも１つの確率を決定するための少なくとも１つの遺伝的状態クラスターのデータ表現を含む、予測コンポーネントと、病原性メトリックに関連してバリアントについての少なくとも１つの確率を表示するように構成された表示コンポーネントであって、少なくとも１つの確率が正規化されている、表示コンポーネントと、を含む。

さらに別の態様では、コンピュータ実装方法は、サイド情報のセットを使用して未知の遺伝子バリアントについての病原性の確率分布を決定するためのものであり、方法は、患者の未知のバリアントを受信することであって、未知のバリアントが、複数の患者に関連付けられた学習済みバリアントのコレクションにおいて識別されていないか、またはそれに対して新しいものではない、受信することと、サイド情報のセットに基づいて、教師あり学習フレームワークを使用することによって未知の遺伝子バリアントの病原性を評価することと、評価に基づいて、病原性の確率分布を決定することと、を含む。

次の選択肢のステップは、必要に応じて、上記の１つ以上の側面に関係する。

任意選択で、予測コンポーネントは、バリアントが学習済みバリアントのコレクションに存在しないという決定に応答して、サイド情報のセットを受信するように構成されており、サイド情報は、バリアントに関連して、少なくとも１つの確率を生成するためのバリアントとして適用される最も近いバリアントを識別するために使用される。

任意選択で、入力コンポーネントは、患者に関連付けられた表現型情報を受信するように構成されており、表現型情報は、少なくとも１つの遺伝的状態クラスターに関連してバリアントの少なくとも１つの確率を調整するために適用される。

任意選択で、少なくとも１つの遺伝的状態クラスターのデータ表現は、学習済みバリアントのコレクションから導出され、患者の表現型情報のセットに関連して重み付けされる。

任意選択で、バリアントは、学習済みバリアントのコレクションに含まれており、患者の表現型情報を受信することと、患者の表現型情報に基づいて、少なくとも１つの遺伝的状態クラスターの各々に関連付けられた寄与度を決定することと、少なくとも１つの遺伝的状態クラスターのデータ表現に従って決定された寄与度に基づいて、バリアントについての少なくとも１つの確率を調整することと、をさらに含む。

任意選択で、コンピュータ実装方法は、患者の表現型情報の利用可能性を評価することと、利用可能性に基づいて、統合された表現を出力するために少なくとも１つの遺伝的状態クラスターを調整するかどうかを決定することと、をさらに含む。

任意選択で、患者の表現型情報に基づいて、少なくとも１つの遺伝的状態クラスターの各々に関連付けられた寄与度を決定することは、１つ以上の回帰モデルを使用して少なくとも１つの遺伝的状態クラスターの各々を分割することであって、１つ以上の回帰モデルが、患者の表現型情報が与えられる場合に、少なくとも１つの遺伝的状態クラスターの各々への寄与度を予測する、分割することをさらに含む。

任意選択で、バリアントは、学習済みバリアントのコレクションに含まれておらず、バリアントに関連して学習済みバリアントのコレクションから少なくとも１つの近位バリアントを識別することと、少なくとも１つの近位バリアントの各々に対応するサイド情報のセットを受信することであって、サイド情報のセットが、１つ以上の指標を含む、受信することと、サイド情報のセットに基づいて、最も近いバリアントを識別することと、病原性メトリックに関連してバリアントについての少なくとも１つの確率を決定する場合に、最も近いバリアントをバリアントとして適用することと、をさらに含む。

任意選択で、サイド情報のセットに基づいて、少なくとも１つの近位バリアントに関連付けられた類似性メトリックを適用することにより、最も近いバリアントが識別される。

任意選択で、類似性メトリックは、サイド情報のセットに関連して重み付けされる。

任意選択で、類似性メトリックは、学習済みバリアントのコレクションから少なくとも１つの他のバリアントを識別して、同等の類似性スコアを有する場合、バリアントについての少なくとも１つの確率は、少なくとも１つの近位バリアントの各々を平均することによって決定される。

任意選択で、注釈付きデータは、患者の表現型情報のセットおよび／またはサイド情報のセットをさらに含む。

任意選択で、表現型情報のセットは、少なくとも１人の患者に関連して解釈情報に関連付けられ、および／または、サイド情報のセットは、バリアントのコレクションに関連して解釈情報に関連付けられる。

任意選択で、コンピュータ実装方法は、表現型情報のセットに基づいて、少なくとも１つの遺伝的状態クラスターに関連付けられた重みのセットを調整することであって、重みのセットが、表現型情報のセットへの少なくとも１つの遺伝的状態クラスターの寄与度に対応する、調整することと、調整された重みのセットに基づいて、１つ以上の回帰モデルを構成して、病原性メトリックに関連して寄与度を決定することと、をさらに含む。

任意選択で、サイド情報のセットは、バリアントのコレクションに関連付けられた指標のデータ表現を含む。

任意選択で、バリアントがバリアントのコレクションに含まれていない場合に、バリアントの少なくとも１つの確率を決定するために使用されるバリアントのコレクションから最も近いバリアントを識別するために、サイド情報のセットが適用される。

任意選択で、バリアントは、最も近いバリアントに関連付けられた注釈を適用することにより、少なくとも１つの遺伝的状態クラスターを更新するためのバリアントのコレクションに含まれる。

任意選択で、コンピュータ実装方法は、注釈付きデータに基づいて、少なくとも１つの遺伝的状態クラスターの最適なセットを決定することと、予測中に少なくとも１つの遺伝的状態クラスターの最適なセットを適用して、病原性メトリックに関連してバリアントの少なくとも１つの確率を決定することと、をさらに含む。

任意選択で、少なくとも１つの遺伝的状態クラスターの最適なセットは、新しい注釈付きデータで繰り返し更新されるように構成される。

任意選択で、学習済みバリアントのコレクションの各サブセットに対応するサイド情報のセットは、学習済みバリアントのコレクションのサブセットに関連付けられた類似度スコアに関連して比較される。

任意選択で、最も近いバリアントの病原性に関連して未知のバリアントの病原性を評価することは、学習済みバリアントのコレクションに基づいて、病原性メトリックに関連して最も近いバリアントについての少なくとも１つの確率を決定することであって、病原性メトリックが、最も近いバリアントについての少なくとも１つの確率を計算するための少なくとも１つの遺伝的状態クラスターのデータ表現を含む、決定することと、少なくとも１つの確率の統合された表現を生成することであって、統合された表現が、病原性メトリックに関連して出力される、生成することと、をさらに含む。

任意選択で、コンピュータ実装方法は、学習済みバリアントのコレクションのサブセットが最も近いバリアントを決定できないような同等の類似性スコアを有する２つ以上のバリアントを含むことに応答して、学習済みバリアントのコレクションのサブセットの各バリアントについての少なくとも１つの確率を平均することによって統合された表現を生成すること、をさらに含む。

任意選択で、表現型情報は、１つ以上の疾患に関連付けられた表現型オントロジーを含む。

任意選択で、１つ以上の生成モデルは、病原性メトリックに関連して注釈付きデータのデータ提示を分解するように構成される。

任意選択で、１つ以上の生成モデルは、行列因子分解アルゴリズムに基づく少なくとも１つの定式化を含む。

任意選択で、病原性メトリックは、病原性の程度を示す少なくとも１つの分類を含む。

任意選択で、少なくとも１つの分類の各々は、少なくとも１つの遺伝的状態クラスターの異なる最適なセットに関連付けられる。

任意選択で、サイド情報のセットが与えられた場合に、病原性メトリックのセットに関連付けられた未知のバリアントの確率をさらに計算する。

任意選択で、学習済みバリアントのコレクションに基づいて、病原性メトリックに関連して未知のバリアントについての少なくとも１つの確率をさらに決定し、少なくとも１つの確率の統合された表現を生成し、統合された表現は、病原性メトリックに関連して出力される。

任意選択で、病原性メトリックは、最も近いバリアントについての少なくとも１つの確率を計算するための少なくとも１つの遺伝的状態クラスターのデータ表現を含む。

任意選択で、教師あり学習フレームワークは、１つ以上の予測モデルを含む。

任意選択で、教師あり学習フレームワークは、ノンパラメトリック分類器を含む。

任意選択で、サイド情報のセットは、未知の遺伝子バリアントに関連付けられる。

上述した説明は、明確にするために単一のユーザを参照して本発明の実施形態を記載している。実際には、システムは、複数のユーザによって共有されてもよく、非常に多数のユーザによって同時に共有される可能性があることが理解されよう。

上記の実施形態は、半自動であるように構成され得、および／または完全自動であるように構成され得る。いくつかの例では、病原性評価システム／プロセス／方法ついての予測モデルのユーザまたはオペレータは、実行されるプロセス／方法のいくつかのステップを手動で指示することができる。

本発明の記載された実施形態では、本発明による、および／または本明細書に記載される病原性評価システム、プロセス、方法および／または装置などのための予測モデルは、任意の形態のコンピューティングおよび／または電子機器として実装され得る。そのようなデバイスは、ルーティング情報を収集および記録するためにデバイスの動作を制御するコンピュータ実行可能命令を処理するためのマイクロプロセッサ、コントローラまたは任意の他の好適なタイプのプロセッサであり得る１つ以上のプロセッサを含むことができる。いくつかの例では、例えば、システムオンチップアーキテクチャが使用される場合、プロセッサは、プロセス／方法の一部をハードウェア（ソフトウェアまたはファームウェアではなく）に実装する１つ以上の固定機能ブロック（アクセラレータとも称される）を含んでもよい。オペレーティングシステムまたは任意の他の好適なプラットフォームソフトウェアを含むプラットフォームソフトウェアは、アプリケーションソフトウェアがデバイス上で実行されることを可能にするために、コンピューティングベースのデバイスに提供されてもよい。

本明細書で説明される様々な機能は、ハードウェア、ソフトウェア、またはそれらの任意の組み合わせで実装されてもよい。ソフトウェアで実装される場合、機能は、コンピュータ可読媒体上の１つ以上の命令またはコードに記憶または送信されることができる。コンピュータ可読媒体は、例えば、コンピュータ可読記憶媒体を含むことができる。コンピュータ可読記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するための任意の方法または技術で実装される揮発性または不揮発性、取り外し可能または取り外し不可能媒体を含むことができる。コンピュータ可読記憶媒体は、コンピュータによってアクセスされることができる任意の利用可能な記憶媒体とすることができる。限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくは他のメモリデバイス、ＣＤ－ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または命令もしくはデータ構造の形態で所望のプログラムコードを担持または記憶するために使用されることができ、コンピュータによってアクセスされることができる任意の他の媒体を含むことができる。本明細書で使用されるディスク（ｄｉｓｃ）およびディスク（ｄｉｓｋ）は、コンパクトディスク（ＣＤ）、レーザディスク、光ディスク、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク、およびブルーレイディスク（ＢＤ）を含む。さらに、伝播された信号は、コンピュータ可読記憶媒体の範囲内には含まれない。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体も含む。接続または結合は、例えば、通信媒体であってもよい。例えば、ソフトウェアがウェブサイト、サーバ、または他のリモートソースから伝送される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、ラジオ、マイクロ波などの無線技術を使用することが、通信媒体の定義に含まれる。上記の組み合わせもコンピュータ可読媒体の範囲内に含まれるべきである。

代替的に、または追加して、本明細書で説明される機能は、少なくとも部分的に、１つ以上のハードウェア論理コンポーネントによって実行されることができる。例えば、限定されるものではないが、使用可能なハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラム固有集積回路（ＡＳＩＣ）、プログラム固有標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑プログラマブルロジックデバイス（ＣＰＬＤ）などを含むことができる。

単一のシステムとして示されているが、コンピューティングデバイスは、分散システムとすることができることを理解されたい。したがって、例えば、いくつかのデバイスは、ネットワーク接続を介して通信してもよく、コンピューティングデバイスによって実行されるものとして記載されているタスクを集合的に実行してもよい。

ローカルデバイスとして例示されているが、コンピューティングデバイスは、リモートに配置され、ネットワークまたは他の通信リンクを介して（例えば、通信インターフェースを使用して）アクセスされることができることが認識されよう。

「コンピュータ」という用語は、本明細書では、命令を実行することができるような処理能力を備えた任意のデバイスを指すために使用される。当業者は、そのような処理能力が多くの異なるデバイスに組み込まれ、したがって、「コンピュータ」という用語が、ＰＣ、サーバ、ＩｏＴデバイス、携帯電話、携帯情報端末、および他の多くのデバイスに組み込まれることを理解するであろう。

当業者は、プログラム命令を記憶するために利用されるストレージデバイスがネットワークにわたって分散されることができることを認識するであろう。例えば、リモートコンピュータは、ソフトウェアとして説明されたプロセスの例を記憶することができる。ローカルまたはターミナルコンピュータは、リモートコンピュータにアクセスし、プログラムを実行するためにソフトウェアの一部またはすべてをダウンロードすることができる。代替的に、ローカルコンピュータは、必要に応じてソフトウェアの一部をダウンロードするか、ローカル端末でいくつかのソフトウェア命令を実行し、リモートコンピュータ（またはコンピュータネットワーク）でいくつかを実行することができる。当業者はまた、当業者に知られている従来の技術を利用することにより、ソフトウェア命令のすべてまたは一部分がＤＳＰ、プログラマブルロジックアレイなどの専用回路によって実行されてもよいことを認識するであろう。

上述の利益および利点は、一実施形態に関係する場合もあれば、いくつかの実施形態に関係する場合もあることが理解されよう。実施形態は、述べられた課題のいずれかまたはすべてを解決するもの、または述べられた利益および利点のいずれかまたはすべてを有するものに限定されるものではない。変形例は、本発明の範囲に含まれるとみなされるべきである。

「ａｎ」という項目への任意の言及は、それらの項目の１つ以上を指す。「含む／備える（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、本明細書では、識別された方法ステップまたは要素を含むことを意味するために使用されるが、そのようなステップまたは要素は、排他的リストを含まず、方法または装置は、追加のステップまたは要素を含むことができる。

本明細書で使用される場合、「コンポーネント」および「システム」という用語は、プロセッサによって実行されたときに特定の機能を実行させるコンピュータ実行可能命令を有して構成されているコンピュータ可読データストレージを包含するものとする。コンピュータ実行可能命令は、ルーチン、関数などを含むことができる。また、コンポーネントまたはシステムは、単一のデバイスにローカライズすることも、いくつかのデバイスに分散させることもできることを理解されたい。さらに、本明細書で使用される場合、「例示的」、「例」または「実施形態」という用語は、「何らかの例証または例示としての役割を果たす」ことを意味することが意図されている。さらに、「含む（ｉｎｃｌｕｄｅｓ）」という用語が詳細な説明または特許請求の範囲のいずれかで使用されている限り、そのような用語は、「含む／備える（ｃｏｍｐｒｉｓｉｎｇ）」が請求項の中で移行語として用いられた場合に解釈される「含む／備える（ｃｏｍｐｒｉｓｉｎｇ）」という用語と同様の様式で包含的であることが意図されている。

図は、例示的な方法を示している。これらの方法は、特定の配列で実行される一連の動作として示され、記載されているが、これらの方法は、配列の順序によって限定されないことを理解および認識されたい。例えば、いくつかの動作は、本明細書に記載されているものとは異なる順序で発生する可能性がある。追加して、ある動作は、別の動作と同時に発生する可能性がある。さらに、いくつかの例では、本明細書で説明される方法を実施するためにすべての動作が必要とされるわけではない場合がある。

さらに、本明細書に記載される動作は、１つ以上のプロセッサによって実装され、かつ／または１つ以上のコンピュータ可読媒体に記憶されることができるコンピュータ実行可能命令を含むことができる。コンピュータ実行可能命令は、ルーチン、サブルーチン、プログラム、実行スレッドなどを含むことができる。さらに、方法の動作の結果は、コンピュータ可読媒体に記憶され、表示デバイスに表示され、かつ／または同様のものとすることができる。

本明細書に記載される方法のステップの順序は例示的なものであるが、これらのステップは、任意の好適な順序で、または必要に応じて同時に実行されてもよい。追加的に、本明細書に記載される主題の範囲から逸脱することなく、ステップを追加または置換することができ、または個々のステップを、これらの方法のいずれかから削除することができる。上述した例のいずれかの態様を、記載された他の例のいずれかの態様と組み合わせて、求められる効果を失うことなく、さらなる例を形成することができる。

好ましい実施形態の上記の説明は、例としてのみ与えられており、当業者によって様々な変更が行われることができることが理解されるであろう。

上記で説明したものは、１つ以上の実施形態の例を含む。もちろん、前述の態様を記載する目的で、上記のデバイスまたは方法の考えられるすべての変更および代替を記載することは不可能であるが、当業者は、様々な態様の多くのさらなる変更および置換が可能であることを認識することができる。したがって、記載される態様は、添付の特許請求の範囲の範囲内に含まれるそのようなすべての変更、修正、および変形を包含することが意図されている。

Claims

患者についてのバリアントの病原性を評価するためのコンピュータ実装方法であって、
バリアントを受信することと、
学習済みバリアントのコレクションに基づいて、病原性メトリックに関連して前記バリアントについての少なくとも１つの確率を決定することであって、前記病原性メトリックが、前記バリアントについての前記少なくとも１つの確率を決定するための少なくとも１つの遺伝的状態クラスターのデータ表現を含む、決定することと、
前記患者についての前記バリアントの前記少なくとも１つの確率の統合された表現を出力することと、を含む、コンピュータ実装方法。
前記少なくとも１つの遺伝的状態クラスターの前記データ表現が、前記学習済みバリアントのコレクションから導出され、かつ患者の表現型情報のセットに関連して重み付けされる、請求項１に記載のコンピュータ実装方法。
前記バリアントが、前記学習済みバリアントのコレクションに含まれており、
前記患者の表現型情報を受信することと、
前記患者の前記表現型情報に基づいて、前記少なくとも１つの遺伝的状態クラスターの各々に関連付けられた寄与度を決定することと、
前記少なくとも１つの遺伝的状態クラスターの前記データ表現に従って決定された前記寄与度に基づいて、前記バリアントについての前記少なくとも１つの確率を調整することと、をさらに含む、請求項１または２に記載のコンピュータ実装方法。
前記患者の前記表現型情報の利用可能性を評価することと、
前記利用可能性に基づいて、前記統合された表現を出力するために前記少なくとも１つの遺伝的状態クラスターを調整するかどうかを決定することと、をさらに含む、請求項２または３に記載のコンピュータ実装方法。
前記患者の前記表現型情報に基づいて、前記少なくとも１つの遺伝的状態クラスターの各々に関連付けられた寄与度を前記決定することが、
１つ以上の回帰モデルを使用して前記少なくとも１つの遺伝的状態クラスターの各々を分割することであって、前記１つ以上の回帰モデルが、前記患者の前記表現型情報が与えられた場合に前記少なくとも１つの遺伝的状態クラスターの各々への前記寄与度を予測する、分割することをさらに含む、請求項３または４に記載のコンピュータ実装方法。
前記バリアントが、前記学習済みバリアントのコレクションに含まれておらず、
前記バリアントに関連して前記学習済みバリアントのコレクションから少なくとも１つの近位バリアントを識別することと、
前記少なくとも１つの近位バリアントの各々に対応するサイド情報のセットを受信することであって、前記サイド情報のセットが、１つ以上の指標を含む、受信することと、
前記サイド情報のセットに基づいて、最も近いバリアントを識別することと、
前記病原性メトリックに関連して前記バリアントについての前記少なくとも１つの確率を決定する場合に、前記最も近いバリアントを前記バリアントとして適用することと、をさらに含む、請求項１または２に記載のコンピュータ実装方法。
前記最も近いバリアントが、前記サイド情報のセットに基づいて、前記少なくとも１つの近位バリアントに関連付けられた類似性メトリックを適用することによって識別され、かつ／または、前記類似性メトリックが、前記サイド情報のセットに関連して重み付けされる、請求項６に記載のコンピュータ実装方法。
前記類似性メトリックが、前記学習済みバリアントのコレクションから少なくとも１つの他のバリアントを識別して、同等の類似性スコアを有する場合に、前記バリアントについての前記少なくとも１つの確率が、前記少なくとも１つの近位バリアントの各々を平均することによって決定される、請求項７に記載のコンピュータ実装方法。
病原性メトリックに関連してバリアントの少なくとも１つの確率を決定するための少なくとも１つの遺伝的状態クラスターを生成するためのコンピュータ実装方法であって、
バリアントのコレクションに関連付けられた少なくとも１人の患者の注釈付きデータを受信することであって、前記注釈付きデータが、前記病原性メトリックに対応する関連付けられた観察による解釈情報を含む、受信することと、
前記少なくとも１人の患者の注釈付きデータについてのデータ表現を決定することであって、前記データ表現が、１つ以上の生成モデルを使用して導出される、決定することと、
前記データ表現に基づいて、前記少なくとも１つの遺伝的状態クラスターを生成することと、を含む、コンピュータ実装方法。
前記注釈付きデータが、患者の表現型情報のセットおよび／またはサイド情報のセットをさらに含む、請求項９に記載のコンピュータ実装方法。
前記表現型情報のセットが、前記少なくとも１人の患者に関連して前記解釈情報に関連付けられており、かつ／または、前記サイド情報のセットが、前記バリアントのコレクションに関連して前記解釈情報に関連付けられている、請求項１０に記載のコンピュータ実装方法。
前記表現型情報のセットに基づいて、前記少なくとも１つの遺伝的状態クラスターに関連付けられた重みのセットを調整することであって、前記重みのセットが、前記表現型情報のセットに対する前記少なくとも１つの遺伝的状態クラスターの寄与度に対応する、調整することと、
前記調整された重みのセットに基づいて、１つ以上の回帰モデルを構成して、前記病原性メトリックに関連して前記寄与度を決定することと、をさらに含む、請求項１０または１１に記載のコンピュータ実装方法。
前記サイド情報のセットが、前記バリアントのコレクションに関連付けられた指標のデータ表現を含む、請求項１０～１２のいずれか一項に記載のコンピュータ実装方法。
前記サイド情報のセットが、前記バリアントが前記バリアントのコレクションに含まれていない場合に、前記バリアントの前記少なくとも１つの確率を決定するために使用される前記バリアントのコレクションから最も近いバリアントを識別するために適用され、かつ／または、前記バリアントの前記少なくとも１つの確率が、前記サイド情報のセットが提供された教師あり学習フレームワークを使用して決定される、請求項１０～１３のいずれか一項に記載のコンピュータ実装方法。
前記バリアントが、前記最も近いバリアントに関連付けられた注釈を適用することによって前記少なくとも１つの遺伝的状態クラスターを更新するために前記バリアントのコレクションに含まれる、請求項１４に記載のコンピュータ実装方法。
前記注釈付きデータに基づいて、前記少なくとも１つの遺伝的状態クラスターの最適なセットを決定することと、
予測中に前記少なくとも１つの遺伝的状態クラスターの前記最適なセットを適用して、前記病原性メトリックに関連してバリアントの前記少なくとも１つの確率を決定することと、をさらに含む、請求項９～１５のいずれか一項に記載のコンピュータ実装方法。
前記少なくとも１つの遺伝的状態クラスターの前記最適なセットが、新しい注釈付きデータで反復的に更新されるように構成されている、請求項１６に記載のコンピュータ実装方法。
サイド情報のセットを使用して、患者についての未知のバリアントの病原性を評価するためのコンピュータ実装方法であって、
前記未知のバリアントを受信することであって、前記未知のバリアントが、学習済みバリアントのコレクションにおいて識別されていない、受信することと、
前記学習済みバリアントのコレクションのサブセットの各々に対応する前記サイド情報のセットを使用して、教師あり学習フレームワークをトレーニングすることと、
前記トレーニングされた教師あり学習フレームワークに基づいて、前記未知のバリアントの前記病原性を評価することと、を含む、コンピュータ実装方法。
前記学習済みバリアントのコレクションのサブセットの各々に対応する前記サイド情報のセットを比較することであって、前記学習済みバリアントの前記コレクションの各サブセットに対応する前記サイド情報のセットが、前記学習済みバリアントのコレクションの前記サブセットに関連付けられた類似性スコアと関連して比較される、比較することと、をさらに含む、請求項１８に記載のコンピュータ実装方法。
最も近いバリアントの病原性に関連して前記未知のバリアントの前記病原性を評価することであって、
学習済みバリアントのコレクションに基づいて、病原性メトリックに関連して前記最も近いバリアントについての少なくとも１つの確率を決定することであって、前記病原性メトリックが、前記最も近いバリアントの前記少なくとも１つの確率を計算するための少なくとも１つの遺伝的状態クラスターのデータ表現を含む、決定することと、
前記少なくとも１つの確率の統合された表現を生成することであって、前記統合された表現が、前記病原性メトリックに関連して出力される、生成することと、をさらに含む、評価することをさらに含む、請求項１８または１９に記載のコンピュータ実装方法。
前記最も近いバリアントが決定され得ないように前記学習済みバリアントのコレクションのサブセットが同等の類似度スコアを有する２つ以上のバリアントを含むことに応答して、前記学習済みバリアントのコレクションの前記サブセットの各バリアントについての前記少なくとも１つの確率を平均することにより、前記統合された表現を生成すること、および／または
前記サイド情報のセットが与えられる場合に前記学習済みバリアントのコレクションのサブセットの各バリアントについての少なくとも１つの確率に基づいて、前記教師あり学習フレームワークを使用して前記統合された表現を生成することであって、前記教師あり学習フレームワークが、１つ以上の教師あり予測モデルを含む、生成すること、をさらに含む、請求項２０に記載のコンピュータ実装方法。
前記表現型情報が、１つ以上の疾患に関連付けられた表現型オントロジーを含む、請求項１～８および１０～１７のいずれか一項に記載のコンピュータ実装方法。
前記１つ以上の生成モデルが、前記病原性メトリックに関連して注釈付きデータのデータ提示を分解するように構成されている、請求項９～１７のいずれか一項に記載のコンピュータ実装方法。
前記１つ以上の生成モデルが、行列因子分解アルゴリズムに基づく少なくとも１つの定式化を含む、請求項９～１７、２２、および２３のいずれか一項に記載のコンピュータ実装方法。
前記病原性メトリックが、病原性の程度を示す少なくとも１つの分類を含む、請求項１～１７および２０～２４のいずれか一項に記載のコンピュータ実装方法。
前記少なくとも１つの分類の各々が、前記少なくとも１つの遺伝的状態クラスターの異なる最適なセットに関連付けられている、請求項２５に記載のコンピュータ実装方法。
コンピュータ可読コードまたはそれに記憶された命令を含むコンピュータ可読媒体であって、プロセッサで実行される場合に、前記プロセッサに、請求項１乃至２６のいずれか一項に記載のコンピュータ実装方法を実施させる、コンピュータ可読媒体。
請求項１～２６のいずれか一項に記載のコンピュータ実装方法を実行するように構成されている少なくとも１つの回路を含む、システム。
プロセッサと、メモリと、通信インターフェースと、を含む装置であって、前記プロセッサが、前記メモリおよび通信インターフェースに接続されており、前記装置が、請求項１～２６のいずれか一項に記載のコンピュータ実装方法を実施するように適応または構成されている、装置。
患者についてのバリアントの病原性を決定するための装置であって、前記装置が、
前記バリアントを受信するように構成された入力コンポーネントと、
前記バリアントが学習済みバリアントのコレクション内にあるかどうかを決定するように構成された処理コンポーネントと、
前記バリアントが前記学習済みバリアントの前記コレクション内に存在するという決定に応答して、病原性メトリックに関連して前記バリアントについての少なくとも１つの確率を生成するように構成された予測コンポーネントであって、前記病原性メトリックが、前記バリアントについての前記少なくとも１つの確率を決定するための少なくとも１つの遺伝的状態クラスターのデータ表現を含む、予測コンポーネントと、
前記病原性メトリックに関して前記バリアントについての前記少なくとも１つの確率を表示するように構成された表示コンポーネントであって、前記少なくとも１つの確率が正規化されている、表示コンポーネントと、を含む、装置。
前記予測コンポーネントが、前記バリアントが前記学習済みバリアントの前記コレクションに存在しないという決定に応答して、サイド情報のセットを受信するように構成されており、前記サイド情報が、前記バリアントに関連して、前記少なくとも１つの確率を生成するために前記バリアントとして適用される最も近いバリアントを識別するように使用される、請求項３０に記載の装置。
前記入力コンポーネントが、前記患者に関連付けられた表現型情報を受信するように構成されており、前記表現型情報が、前記少なくとも１つの遺伝的状態クラスターに関連して前記バリアントについての前記少なくとも１つの確率を調整するように適用される、請求項３０に記載の装置。
サイド情報のセットを使用して、未知の遺伝子バリアントについての病原性の確率分布を決定するためのコンピュータ実装方法であって、前記方法が、
患者の前記未知のバリアントを受信することであって、前記未知のバリアントが、複数の患者に関連付けられた学習済みバリアントのコレクションにおいて識別されていないか、またはそれに対して新しいものである、受信することと、
前記サイド情報のセットに基づいて、教師あり学習フレームワークを使用して、前記未知の遺伝子バリアントの前記病原性を評価することと、
前記評価に基づいて、前記病原性の確率分布を決定することと、を含む、コンピュータ実装方法。
前記サイド情報のセットが与えられた場合に、病原性メトリックのセットに関連付けられた前記未知のバリアントの確率を計算することをさらに含む、請求項３３に記載のコンピュータ実装方法。
学習済みバリアントのコレクションに基づいて、病原性メトリックに関連して前記未知のバリアントについての少なくとも１つの確率を決定することと、
前記少なくとも１つの確率の統合された表現を生成することであって、前記統合された表現が、前記病原性メトリックに関連して出力される、生成することと、をさらに含む、請求項３３または３４に記載のコンピュータ実装方法。
前記教師あり学習フレームワークが、１つ以上の予測モデルを含む、請求項３３～３５のいずれか一項に記載のコンピュータ実装方法。
前記教師あり学習フレームワークが、ノンパラメトリック分類器を含む、請求項３３～３５のいずれか一項に記載のコンピュータ実装方法。
前記サイド情報のセットが、前記未知の遺伝子バリアントに関連付けられている、請求項３３～３７のいずれか一項に記載のコンピュータ実装方法。
前記方法が、請求項２７～３２のいずれか一項に記載のコンピュータ可読媒体、システム、または装置に関連してプロセッサ上で実施される、請求項３３～３８のいずれか一項に記載のコンピュータ実装方法。