JP2024501141A - 遺伝子データを分析するためのコンピュータ実施方法および装置 - Google Patents

遺伝子データを分析するためのコンピュータ実施方法および装置 Download PDF

Info

Publication number
JP2024501141A
JP2024501141A JP2023533234A JP2023533234A JP2024501141A JP 2024501141 A JP2024501141 A JP 2024501141A JP 2023533234 A JP2023533234 A JP 2023533234A JP 2023533234 A JP2023533234 A JP 2023533234A JP 2024501141 A JP2024501141 A JP 2024501141A
Authority
JP
Japan
Prior art keywords
genetic
input units
variant
effect size
variants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023533234A
Other languages
English (en)
Inventor
ムーア,レイチェル
ヤン マリー プラグノル,ヴィンセント
リベロス-マッケイ,フェルナンド
ウィール,マイケル
ウェルス,ダニエル
チャールズ アラン スペンサー,クリストファー
Original Assignee
ゲノミクス ピーエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ゲノミクス ピーエルシー filed Critical ゲノミクス ピーエルシー
Publication of JP2024501141A publication Critical patent/JP2024501141A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Ecology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

複数の入力単位を受け取ることを含む、有機体についての遺伝子データを分析する方法が開示される。各入力単位は、ゲノムの領域における遺伝的バリアントとターゲット表現型との間の関連についての情報を含む。各バリアントについて、バリアントがターゲット表現型の原因であるか否かを決定することを含む、1つまたは複数の反復が実行される。バリアントが原因である場合、入力単位、および領域における複数の遺伝的バリアントの間の相関に基づいて、サンプリング済み効果量が各入力単位について決定される。サンプリング済み効果量は、入力単位の全てについて非ゼロである。各バリアントについて、入力単位についてのサンプリング済み効果量の反復にわたる、またはサンプリング済み効果量を用いて算出される入力単位についての事後効果量の平均に基づいて、予測効果量が各入力単位について決定される。

Description

本発明は、特に対象の表現型について向上した多遺伝子リスクスコア(PRS)を得ることを可能とすることに関連して、有機体についての遺伝子データおよび表現型データを分析して有機体についての情報を得ることに関する。
PRSは、有機体の遺伝DNAの、それが呈し得る表現型に対する寄与の定量的要約である。PRSは、その計算において、対象の表現型に(直接的または間接的に)関連する全てのDNAバリアントを含む場合もあり、または、その構成部分が有機体の生態(細胞、組織、もしくは他の生物学的単位、機構またはプロセスを含む)の特定の態様により強く関連している場合には、それらの構成部分を用いる場合もある。PRSは、有機体の過去、現在、および未来の生態の態様を推測するために、直接用いることもでき、または有機体についての複数の測定または記録の一部として用いることもできる。
PRSは、疾患予防、層別化および診断のためのツールとして注目を集めている。ヒトの健康および健康管理を向上させることに関して、PRSは、限定されるものではないが、疾患または表現型を発現するリスクの予測、表現型の発症年齢の予測、疾患の重症度の予測、疾患サブタイプの予測、処置に対する反応の予測、個体についての適切なスクリーニング戦略の選択、適切な薬物療法介入の選択、および他の予測アルゴリズムについての事前確率の設定を含む、様々な実用的用途を有する。
PRSは、他の高次元入力データ(例えばイメージング)から予測または分類を行うことへの人工知能および機械学習アプローチの適用における入力源としての直接的な用途を有し得る。例えば非遺伝子データに基づく予測測定を特定するために、これらのアルゴリズムを訓練する一助として用いられる場合がある。個体についての予測的記述を行うことにおける有用性を有するとともに、多数の個体についてPRSを算出し、次いでPRSに基づいて個体をグルーピングすることにより、個体のコホートを特定するために用いることもでき、これは上記の応用例に含まれるが限定されない。
PRSは、例えば関連する疾患または表現型を発現する可能性がより高い個体を採用することにより試験設計を最適化し、それにより新たな治療法の有効性の評価を向上させるために、臨床試験のための個体の選択を助けることもできる。PRSは、算出の対象とする個体に加え、(その遺伝DNAの一部を共有する)その親族についての情報も保持する。表現型に対する個体のDNAの影響についての情報は、DNAバリアントの任意の特定の組み合わせを保持することの潜在的影響の任意の関連する評価から導出することができる。
以下では、遺伝子関連研究(GAS)から導出される最近の豊富な情報の分析に着目する。これらの研究は、表現型の遺伝的基盤に対するDNAバリアントの潜在的寄与を系統的に評価する。
2000年代中頃から、GAS(典型的にはゲノムワイド関連研究:GWAS、または単一バリアント、もしくはゲノムの領域におけるバリアントを対象とした関連研究、またはゲノムの特定の領域に制限されたGWAS)が数百万の個体における何千もの(主にヒトの)表現型について行われてきており、遺伝子型と表現型との間の数十億の潜在的な関連付けをもたらしている。結果として得られる生データは次いで、要約統計データを生成するために単純化される場合が多い。GAS要約統計データは、(帰属されたものかまたは観測されたものかに関わらず)各遺伝的バリアントについて、GASの表現型に対する遺伝的バリアントの推測効果量、および推測効果量の標準誤差からなる。他の場合においては、研究における個体の完全な遺伝子プロファイルおよびその表現型についての情報からなる個体レベルデータが、直接利用可能であり得る。しかしながら、個体レベルデータは、通常、個体のデータのプライバシーに対する要件に起因して、より利用可能性が低い。
PRSは、対象の形質についての集合的予測量を構築するための、典型的には各々が小さい個々の効果を有する、多数の遺伝的バリアントの効果の集合からなる。PRSは、GWASから決定されるバリアントの効果量を用いて算出することができる。そのようなスコアに含まれるバリアントは、バリアントが(弱くしかし直接に)形質に直接的に影響するという意味において「原因バリアント」であるか、または「タグバリアント」であり得、これは、原因となる他の未知のバリアントと強く相関しているが、タグバリアント自体は表現型に直接的効果を有しないことを意味する。
PRS構築のための戦略は拡大しつつあるが、高精度なPRSを構築するための広く受け入れられている一般的アプローチは、基礎となる生物学的関連を最良に捉えるバリアントの組み合わせを調査することにより、全ての関連領域における信号のデコンボリューションを行うことからなる。関連の数は様々であり、多くのゲノム領域は単一の潜在的関連を含むが、一部のゲノム領域は複数の独立した関連を含む(稀ではあるが最大10が報告されている)。
領域における全ての関連の原因となるバリアントの正しい組み合わせを特定することにおける技術的課題は、これらのバリアントが互いに相関し得ることである。相関が大きいほど、これらの相関を分解するために多数のサンプルが必要となる。
PRSを構築するための一部のツールは、要約統計量データを利用するように設計される。LDpred softwareにより一般化された1つのアプローチ(Vilhjalmssonら、2015年、https://github.com/bvilhjal/ldpred)は、単一のGWASに基づいてゲノムワイドに妥当なバリアントの複数のランダムな選択を反復し、バリアントが選定または除外されることに伴って、残留信号を推定する。
要約統計量データに基づく戦略の強みは、個体レベルデータの共有における制限がないことにより、より大幅に大きいサンプルサイズが科学界に対して利用可能となり得るということを意味する。この理由から、現在のPRS設計の大部分は、これらの大きな要約統計量データセットに基づいている。
しかしながら、全ての要約統計量データに基づく方法に関して、バリアント間の相関がどのようなものであると期待されるかを表す外部データ源を参照することにより、相関するバリアントが扱われる。遺伝的バリアント間の相関パターンは、連鎖不平衡(LD)と称される。LDパターンを表すために外部データセットに依拠することの制限は、異なる部分母集団は別個のLDパターンを有するという点である。例えば、ヨーロッパ系祖先の個体は、東南アジア系祖先の個体とは異なるLDパターンを有する場合がある。真の原因バリアントの識別情報は通常、確実に分かることは決してないとすると、LDにおけるこれらの差異は、異なる祖先におけるPRSの予測精度の差異につながり得る。加えて、表現型に対する特定のバリアントの効果が、部分母集団の間で異なる場合がある。例えば、所与の原因遺伝的バリアントは、女性よりも男性において所与の表現型に対して大きい効果を有する、または若年者よりも高齢者において小さい効果を有する場合がある。したがって、1つの部分母集団について行われる、または複数の部分母集団の混合の個体からのデータに基づいて行われる推論は、異なる部分母集団についてはそれほど高精度でない可能性が高い。例えば、PRSの構築をサポートするデータセットは、ヨーロッパ系祖先の大規模なコホートに基づく場合が多い。結果として、これらのスコアは、非ヨーロッパ系祖先においては性能が不十分である場合が多い。
この課題に対処するための既存の方法は、適切な部分母集団からの訓練データセットを用いてPRSを作成することに基づく。しかしながら、特定の部分母集団について利用可能なデータの量は、大きく異なる場合がある。したがって、これらの方法は、その予測力を制限することになるより大幅に小さいサンプルサイズで問題を来す。より小規模な研究の検定力の低下に起因して、利用可能なデータが少ない特定の部分母集団についてPRSを算出する試みは、利用可能データがより多い異なる部分母集団から得られる結果を単に用いるよりも信頼性の低い結果をもたらす場合がある。例えば、多くの場合、ヨーロッパ系祖先からのコホートのより大きいサンプルサイズは、非合致の訓練セットを用いることに伴う偏りを克服する場合があり、ヨーロッパ系祖先に対して訓練されたPRSは実際に、非ヨーロッパ系のコホートにおいて最良のPRSの選択肢を提供し得るものの、これは原則として最適には及ばない。
本発明の目的は、有機体についての遺伝子データの分析を向上させ、かつ/または、特定の部分母集団に属する個体についてより堅牢かつ/または高精度なPRSを得ることを可能とすることである。
本発明の一態様によれば、有機体についての遺伝子データを分析するコンピュータ実施方法が提供される。当該方法は、複数の入力単位を受け取ることであって、各入力単位が、有機体のゲノムの対象の領域における複数の遺伝的バリアントと有機体のターゲット表現型との間の関連についての情報を含む、受け取ることと、複数の遺伝的バリアントの各々について、複数の入力単位に基づいて、遺伝的バリアントがターゲット表現型の原因であるか否かを決定すること、および、遺伝的バリアントが原因であると決定された場合に、複数の入力単位、および対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて、入力単位の各々についてのターゲット表現型に対する遺伝的バリアントのサンプリング済み効果量を決定することであって、ターゲット表現型に対する遺伝的バリアントのサンプリング済み効果量が入力単位の全てについて非ゼロである、決定することを含む1つまたは複数の反復を実行することと、各遺伝的バリアントについて、入力単位についての遺伝的バリアントのサンプリング済み効果量の反復の少なくとも部分集合にわたる、またはサンプリング済み効果量を用いて算出される入力単位についての遺伝的バリアントの事後効果量の平均に基づいて、入力単位の各々についてのターゲット表現型に対する遺伝的バリアントの予測効果量を決定することとを含む。
複数の入力単位からのデータを用いてどのバリアントが原因であるかを決定することにより、原因バリアントをより高い信頼性で特定することができる。その一方で、各入力単位について別々に予測効果量を決定することにより、方法が、異なる部分母集団についての異なる効果量の可能性を考慮することも可能となる。それにより、大規模なデータセットを用いる検定力を、部分母集団別の結論を生成する能力と組み合わせることができる。より高精度な予測効果量を得ることにより、結果としてより高精度なPRSを算出することができる。
いくつかの実施形態において、遺伝的バリアントが原因であるか否かを決定することは、遺伝的バリアントが原因であると仮定した場合の複数の入力単位からの情報の確率、および遺伝的バリアントが原因でないと仮定した場合の複数の入力単位からの情報の確率を算出することと、遺伝的バリアントが原因であると仮定した場合の入力データの確率、および遺伝的バリアントが原因でないと仮定した場合の入力データの確率の比に依存する確率で、遺伝的バリアントが原因であると確率的に決定することとを含む。確率的サンプリングを用いることにより、方法が原因バリアントの多数の異なる組み合わせを検討して、観測データを最良に説明する全体的効果を特定することが可能となる。
いくつかの実施形態において、遺伝的バリアントが原因であると仮定した場合の複数の入力単位からの情報の確率は、原因であることが期待される複数の遺伝的バリアントの割合、複数の入力単位、および入力単位の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関に依存する。いくつかの実施形態において、遺伝的バリアントが原因でないと仮定した場合の複数の入力単位からの情報の確率は、原因であることが期待される複数の遺伝的バリアントの割合、および複数の入力単位に依存する。これらの項により、原因であるバリアントの割合についての既存の情報を分析に組み込むことが可能となり、入力単位間の予測効果量を異ならせることが可能となる。原因でない場合、効果量はゼロであるため、効果間の相関はいずれも適切でない。
いくつかの実施形態において、原因であることが期待される複数の遺伝的バリアントの割合は、予め定められる。いくつかの実施形態において、入力単位の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関は、予め定められる。パラメータの予め定められた値を用いることにより、計算効率の高い方式で既存の知識を方法に組み込むことが可能となる。
いくつかの実施形態において、原因であることが期待される複数の遺伝的バリアントの割合は、各反復において更新される。いくつかの実施形態において、入力単位の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関は、各反復において更新される。パラメータを各反復において学習および更新することにより、真のパラメータ値に方法を収束させることが可能となり、これはより高精度な結果を提供し得るが、より計算コストの高いものであり得る。
いくつかの実施形態において、入力単位は、それぞれの個体群から決定され、遺伝的バリアントが原因であると仮定した場合の複数の入力単位からの情報の確率は、それぞれの入力単位の対の間の個体群における重複を定量化する1つまたは複数のパラメータに依存する。用いられるデータによっては、一部の個体が複数の入力単位に存在する場合があり、これは導き出される結論を歪ませることがある。これを考慮するためのパラメータを追加することで、結果として得られる効果量の精度が向上する。
いくつかの実施形態において、遺伝的バリアントのサンプリング済み効果量を決定することは、入力単位についてのターゲット表現型に対する遺伝的バリアントの効果量の確率分布を算出することと、確率分布から入力単位についての効果量の値をサンプリングすることとを含む。確率分布を用いることにより、正しい可能性が最も高いと考えられる範囲において値が選定されるように促しつつも、方法が複数の異なる効果量をサンプリングすることが可能となる。
いくつかの実施形態において、確率分布は、多変量正規分布である。多変量正規分布を用いることは、異なる入力単位についての異なるサンプリング済み効果量を可能とする簡便な方法を提供する。
いくつかの実施形態において、各反復における効果量の値のサンプリングは、1つまたは複数の以前の反復からのサンプリング済み効果量に依存する。このタイプの依存性により、サンプリングが可能な値の空間を効率的に探索することを可能とすることができる。いくつかの実施形態において、効果量の値のサンプリングは、モンテカルロギブスサンプラを用いて行われる。このタイプのサンプリングアルゴリズムは、本出願に特に適している。
いくつかの実施形態において、確率分布は、入力単位の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関に依存する。これにより、精度および計算効率を向上させるために、入力単位間における効果量の差異の可能性の高い範囲を制御することが可能となる。
いくつかの実施形態において、入力単位の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関は、予め定められる。パラメータの予め定められた値を用いることにより、計算効率の高い方式で既存の知識を方法に組み込むことが可能となる。
いくつかの実施形態において、入力単位の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関は、各反復において更新される。パラメータを各反復において学習および更新することにより、真のパラメータ値に方法を収束させることが可能となり、これはより高精度な結果を提供し得るが、より計算コストの高いものであり得る。
いくつかの実施形態において、1つまたは複数の反復の各々は、原因であると決定された各遺伝的バリアントについて、各入力単位の他の各遺伝的バリアントとターゲット表現型の間の関連についての情報から重み付き効果量を減算することをさらに含み、重み付き効果量は、遺伝的バリアントと他の各遺伝的バリアントとの間のそれぞれの相関係数により重み付けされた、入力単位についてのターゲット表現型に対する遺伝的バリアントのサンプリング済み効果量であり、相関係数は、対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて決定される。原因であると決定されたバリアントの効果を関連付けられたバリアントから減算することにより、単一の原因関係に基づいて複数の原因バリアントが誤って特定されないことが確実になる。入力単位別の相関係数を用いることにより、方法が部分母集団間での遺伝的相関のばらつきを考慮することが可能となる。
いくつかの実施形態において、入力単位は、それぞれの個体群から決定され、遺伝的バリアントと他の各遺伝的バリアントとの間の相関係数は、入力単位の個体群の祖先に依存する。いくつかの実施形態において、入力単位のうちの少なくとも1つの個体群は、共通の祖先を有する個体を含み、相関係数は、共通の祖先を有する個体についての対象の領域における遺伝的バリアントの間の相関に基づいて決定される。異なる祖先を有する個体は、多くの場合遺伝的バリアント間の相関の異なるパターンを有するため、祖先に基づく相関係数を用いることは特に有用である。
いくつかの実施形態において、入力単位のうちの少なくとも1つの個体群が異なる祖先を有する個体を含む場合、相関係数は、異なる祖先の各々を有する個体についての対象の領域における遺伝的バリアントの間の相関の平均に基づいて決定される。一部の入力単位は、祖先で層別化されていない研究から生じてよい。相関係数の混合セットを用いることにより、このデータが依然として方法に組み込まれ、結果を向上させることが可能となる。
いくつかの実施形態において、入力単位のうちの少なくとも1つの個体群は、同じ値の特性を有する個体を含む。いくつかの実施形態において、入力単位のうちの少なくとも1つの個体群は、異なる値の特性を有する個体を含む。いくつかの実施形態において、特性は、性別、年齢、重量、分子バイオマーカー、または挙動的特性のうちの1つである。部分母集団が特性に基づいて定義されてもよく、それらの特性を有する個体からのデータに基づく入力単位により、異なる部分母集団の間での効果量の差異についての結論を導き出すことが可能となる。
いくつかの実施形態において、1つまたは複数の反復を実行することは、予め定められた数の反復を実行することを含む。予め定められた数の反復を実行することは、計算効率を高く維持しつつ、既知のタイプの課題について十分な結果を提供し得る。
いくつかの実施形態において、1つまたは複数の反復の各々は、収束パラメータを評価するステップをさらに含み、1つまたは複数の反復を実行することは、収束パラメータに対する予め定められた条件が満たされるまで反復を実行することを含む。収束パラメータを算出することは、反復の適切な数が不明な場合に有利であり得る。
いくつかの実施形態において、複数の遺伝的バリアントとターゲット表現型との間の関連についての情報は、複数の遺伝的バリアントの各々について、遺伝的バリアントとターゲット表現型との間の関連の強さの推定値、および関連の強さの推定値の誤差を含む。上記で述べたように、このタイプの要約統計データを用いることは、大量のデータが利用可能であるという利点を有する。
別の態様によれば、ターゲット個体についてターゲット表現型についての多遺伝子リスクスコアを決定する方法であって、ターゲット個体のゲノムの対象の領域についての遺伝情報を受け取ることと、遺伝子データを分析する方法を用いて決定される、対象の領域における複数の遺伝的バリアントのターゲット表現型に対する予測効果量を受け取ることと、ターゲット個体についての遺伝情報および予測効果量に基づいて多遺伝子リスクスコアを決定することとを含む方法が提供される。上記で述べたように、多遺伝子リスクスコアの算出は、遺伝的バリアントについて決定される予測効果量の特に望ましい用途であり、様々な臨床アプリケーションに用いることができる。いくつかの実施形態において、遺伝子データを分析する方法において受け取られた入力単位は、それぞれの個体群から決定され、個体についての多遺伝子リスクスコアは、ターゲット個体に最も類似する個体群から決定される入力単位についての予測効果量を用いて決定される。個体に対して最も適切な入力単位についての予測効果量を用いることにより、層別化されていないデータについて決定される一般の効果量を用いて決定されるものに対して、多遺伝子リスクスコアの精度を向上させることができる。
本発明の別の態様によれば、有機体についての遺伝子データを分析するための装置が提供される。当該装置は、複数の入力単位を受け取るように構成される受信ユニットであって、各入力単位が、有機体のゲノムの対象の領域における複数の遺伝的バリアントと有機体のターゲット表現型との間の関連についての情報を含む、受信ユニットと、複数の遺伝的バリアントの各々について、複数の入力単位に基づいて、遺伝的バリアントがターゲット表現型の原因であるか否かを決定すること、および、遺伝的バリアントが原因であると決定された場合に、複数の入力単位、および対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて、入力単位の各々についてのターゲット表現型に対する遺伝的バリアントのサンプリング済み効果量を決定することであって、ターゲット表現型に対する遺伝的バリアントのサンプリング済み効果量が入力単位の全てについて非ゼロである、決定することを含む1つまたは複数の反復を実行し、各遺伝的バリアントについて、入力単位についての遺伝的バリアントのサンプリング済み効果量の反復の少なくとも部分集合にわたる、またはサンプリング済み効果量を用いて算出される入力単位についての遺伝的バリアントの事後効果量の平均に基づいて、入力単位の各々についてのターゲット表現型に対する遺伝的バリアントの予測効果量を決定するように構成されるデータ処理ユニットとを備える。
本発明は、当該方法をコンピュータに実行させる命令を含むコンピュータプログラム、またはコンピュータにより実行された場合に当該方法をコンピュータに実行させる命令を含むコンピュータ可読媒体において具現化されてもよい。
添付の図面を参照して、本発明の実施形態を単に例としてさらに説明する。
本発明に係る、有機体についての遺伝子データを分析する方法のフローチャートである。 図1の方法における反復を実行するステップにおける各反復のステップを示すフローチャートである。 本発明に係る多遺伝子リスクスコアを決定する方法のフローチャートである。 遺伝子データを分析する従来技術の方法を用いて2つの異なる部分母集団について推定される効果量を示すグラフである。 本発明に係る方法を用いて2つの異なる部分母集団について推定される効果量を示すグラフである。
図1は、有機体についての遺伝子データを分析するコンピュータ実施方法を示す。通常、有機体はヒトであるが、当該方法は、他の有機体に適用されてもよい。当該方法は「有機体」について言及するが、これは特定の個々の有機体を指すのではなく、有機体または有機体の群を総称するものであってもよい。
当該方法は、複数の入力単位10を受け取るステップS10を含む。入力単位10は、有機体のゲノムの対象の領域における複数の遺伝的バリアントと有機体のターゲット表現型との間の関連についての情報を含む。ターゲット表現型は、対象となり得る任意の物理的な、挙動的な、または他の表現型を含んでよい。遺伝的バリアントは通常、一塩基多型であるが、有機体のゲノムの一部分の挿入または欠失などの他のタイプの遺伝的バリエーションを含んでもよい。
各入力単位10は、1つまたは複数のゲノムワイド関連研究(GWAS)から導出されてよく、よって研究またはGWASと称されてもよい。各入力単位10は、個体、例えば対応するGWASに関与する個体の群についての、複数の遺伝的バリアントとターゲット表現型との間の関連についての情報を含む。
入力単位10の少なくとも部分集合は、特定の部分母集団の個体群から決定される。例えば、入力単位10のうちの少なくとも1つの個体群は、共通の祖先を有する個体を含んでよい。代替的にまたは追加的に、入力単位10のうちの少なくとも1つの個体群は、同じ値の特性を有する個体を含んでよい。特性は、例えば、性別、年齢、体重、分子バイオマーカー、または個体が喫煙するか否かなどの挙動的特性のうちの1つであってよい。年齢または体重などの連続的形質の場合、離散的な数のカテゴリを形成し、データが利用可能な個体を、入力単位10を定義するための対応する離散的な群に分割するために、特性の値が任意のビンに分割されてよい。
ビンの定義は、生態により固定されるのではなく任意であるため、当該方法のいくつかの実施形態は、当該方法のステップを異なるビン定義(およびそれに対応して変更された入力単位10)で複数回実行し、異なるビン定義で生成された効果量の予測力を比較することを含んでよい。次いで、最大の予測力を有する効果量が、方法の出力として返されてよい。
入力単位10の全てが、特定の部分母集団の個体群から決定されなくてもよい。例えば、入力単位10のうちの少なくとも1つの個体群は、異なる祖先を有する個体を含んでよい。代替的にまたは追加的に、入力単位10のうちの少なくとも1つの個体群は、異なる値の特性を有する個体を含んでよい。部分母集団で層別化されていない研究からの1つまたは複数の追加の入力単位10を含めることにより、方法が、部分母集団間での分離が不可能な個体群からの追加の情報を利用することを可能とすることができる。これは、例えば、基礎となるデータが研究における個体の特定の特性についての情報を含んでいなかったことから、それらを層別化することが不可能なためであり得る。
本明細書に記載の実施形態において、複数の遺伝的バリアントとターゲット表現型との間の関連についての情報は、複数の遺伝的バリアントの各々について、遺伝的バリアントとターゲット表現型との間の関連の強さの推定値、および関連の強さの推定値の誤差を含む。したがって、各入力単位10は、1~nの番号を付した各バリアントiについて、バリアントiとターゲット表現型との間の関連の強さの推定値
、および、推定値の標準誤差
として表現されるその推定値についての精度を含む。このタイプのデータは、通常、要約統計データと称される。ただし、他の実施形態においては、他のタイプの情報、例えば入力単位10が決定される元となる群における全ての個体についての個体レベルデータが用いられてもよい。
各入力単位10における関連の強さの推定値
は、GWAS研究において各バリアントから独立に推定される限界効果量である。主要な課題は、母集団における遺伝的バリアント間の相関の結果である。限界効果量は、実際には対象の領域内における他の相関する遺伝的バリアントに起因する寄与を含んでよい。例えば、バリアントaおよびバリアントbが高頻度でともに出現し、バリアントbがターゲット表現型のリスクを増大させる(すなわちターゲット表現型の原因である)場合、バリアントaがターゲット表現型とともに個体に頻繁に出現するため、効果がバリアントaに帰属されてもよい。したがって、単一の原因バリアントが、それら自体は原因でなく原因バリアントに相関するのみである多数の他のバリアントにおける顕著な関連を生じさせる。
近傍のバリアントとの相関を有するように調整される所与の各バリアントiにおける未知の真の効果量β(または関連の強さ)を決定することが望ましい。遺伝的予測の課題は、その真の効果量βの集合を推定することにある。全ての
の値は通常0とは異なるが、非ゼロのβの値の数は通常、より大幅に少ない。したがって、遺伝子データを分析する多数の方法が直面する課題は、K個の真の原因バリアントXの部分集合およびそれらの真の関連の強さβを特定することにある。原因バリアントの数Kは、一般に未知である。この、原因バリアントおよびそれらの対応する真の効果量の集まり(X,β)は、ターゲット表現型についての多遺伝子リスクスコアを算出するために用いられ得る。
本方法において、どのバリアントが原因であるかおよびそれらの対応する効果量の推定は、1つまたは複数の反復を実行するステップS12において可能な(X,β)の空間を探索することにより実現される。このステップの詳細については、下記でさらに論じる。いくつかの実施形態において、1つまたは複数の反復を実行することは、予め定められた数の反復を実行することを含む。これは、高精度な結果を得るためにおおよそどれだけの数の反復が必要であるかが既知である場合に有利であり得る。いくつかの実施形態において、1つまたは複数の反復の各々は、収束パラメータを評価するステップをさらに含み、1つまたは複数の反復を実行することは、収束パラメータに対する予め定められた条件が満たされるまで反復を実行することを含む。これは、高精度な結果をもたらすためにどれだけの数の反復が必要とされるかが不明な場合に有利であり得る。
上記で述べたように、遺伝子データを分析するための現在利用可能な方法論(LDpredなど)は、一度に1つのGWASを考え、例えばモンテカルロサンプリングにより、どのバリアントが原因であるかのランダムサンプリングを行う。LDpredは、1つの研究および1つの遺伝的バリアントについてベイズ計算を解くことが可能なことに依拠している。これは次いで、ギブスサンプリング技法を用いて、1つから複数の相関バリアントに方法論を拡張する。厳密には、所与の遺伝的バリアントについて、LDpredは以下の事前仮定を用いる。
- 確率(1-p)で、表現型に対する遺伝的バリアントの効果が0である(すなわち、バリアントは原因でない)。
- 確率pで、結果に対する効果が平均0および分散σで正規分布する(すなわち、バリアントは原因であり、0を中心とする効果量の分布を有する)。
これらの仮定、および関連表現型についての訓練GWASにおける要約統計量
により、ターゲット表現型に対する真の効果量βの事後分布についての解析公式を導出し、真の効果量を推定するためにこの分布からサンプリングすることが可能である。
しかしながら、このアプローチには、特に一部の部分母集団について不十分な結果をもたらし得るより小規模な研究に関して、制限がある。例えば、非ヨーロッパ系祖先の個体に対する研究は、ヨーロッパ系祖先についてのものよりも一般的でなく、典型的にはより小規模であるため、非ヨーロッパ系祖先の個体について不十分な予測結果をもたらす。
同じターゲット表現型についての複数の研究を考える場合、現在利用可能な方法は、複数の研究を単一のメタ分析に組み合わせ、そのメタ分析に対するさらなる処理、例えばPRSの決定を行うことからなる。複数の研究に基づいてバリアントとターゲット表現型との間の関連の根拠を考慮するツールの一例として、GWASの多形質分析(MTAG、Turleyら、2018年)がある。MTAGは、GWASの集合を組み合わせ、各入力GWASについて、入力GWASごとの更新された要約統計量をもたらす一種のメタ分析を生成する。これらの更新された要約統計量は、LDPred(Craigら、Nature Genetics、2020年)を含む任意の標準的なPRS構築方法論に供給することができる。しかしながら、MTAGは、LD情報を同時に考慮することなく限界効果量および標準誤差を用い、これは、この方法が利用可能な入力データセットの豊富さを完全に利用していないことを意味する。複数の研究を組み合わせるための別の既存のアプローチとして、別の背景において開発された単一バリアントのベイズ計算がある(Trochetら、Genetic Epidemiology、2019年)。この方法においては、目的は効果量の予測ではなく、遺伝的関連を検出する力を向上させるために複数の研究を組み合わせることにある。したがって、遺伝的バリアントは個別に検討され、それらの間の相関パターンを制御する動機づけはない。
既存のアプローチの制限は、いくつかの例示的なユースケースによって示すこともできる。
第1の状況においては、歴史的事情から、良好な効力のGWASが第1の祖先、典型的にはヨーロッパ系祖先の個体において存在する。第2のより効力の低い研究が、同じターゲット表現型について別の祖先において存在する。既存の方法を用いて、良好な効力の研究を第2の研究と容易に組み合わせることはできない。第1に、バリアント間の相関パターンが祖先によって異なるため、2つの研究の組み合わせは、分析が困難な不確定の研究をもたらす。第2に、研究を通して遺伝的および環境的差異により、母集団に特有のバリアント、またはこれらの母集団間での効果量の差異が生じ得る。既存の方法は、これを考慮することができない。
第2の状況においては、母集団の部分集合に特有のリスク因子を捉える予測アルゴリズムが生成されることになる。現在の方法は、基礎となる遺伝子データを最大限利用することができない場合がある。これは、個人の年齢、性別、民族または任意の他の健康の社会的決定因子)に特有の効果量を用いて算出される「コンテキスト別の」PRSが、より高精度な場合があるということであり得る。例えば、心血管疾患(CVD)の決定因子は、BMI、血圧、アルコール摂取および運動パターンの差異により、性ごとに異なる。
既存の方法は、部分母集団別の研究に既に層別化されたサンプルを取得し、次いでこれらからPRSを別々に導出することにより、この課題を解決する。例えば、上記のCVDの例において、現在の方法は、2つの性別別コホート(男性および女性)についてGWASを別々に分析し、これらのコホートの各々を用いてPRSを生成する。しかしながら、遺伝的決定因子の多くは、性を越えて共有される。したがって、性別差を考慮し、性別別のPRSを生成する、男性および女性のコホートの共同分析は、予測力を最大化するためにより適切である。例えば、非喫煙者における肺がんのPRSに関心がある場合、1)喫煙者を含む多数のサンプルを有する、または2)非喫煙者のみからなるより小規模な研究を用いる、という既存の方法での同様の選択肢がある。
しかしながら、PRSの予測能力は、基礎となる研究の規模にも依存する。したがって、研究サンプルをデータの部分集合に制限することは一般に好ましくない。喫煙の例において、第1の選択肢は、偏りのある研究(PRSは、喫煙者である参加者の割合からの依存症関連バリアントについてより大きい効果量を示唆する)を用いるが、第2の選択肢は、効力不足である可能性が高い(肺がん患者の80%は喫煙者であるため)。これは、部分母集団別のPRSとは対立する議論をもたらす。
これらのユースケースは、互いに排他的ではない。例えば、ある性別または所与の民族の社会的に規定される部分集合における臨床転帰を予測するために、PRSを決定したい場合がある。
これらの制限を克服するために、本方法は、原因バリアントおよびその効果量を決定する場合に複数の研究からの情報を組み合わせることを可能とするが、重要なことには、各遺伝的バリアントの決定された効果量が入力単位10の間で異なることを可能とする。これにより、より小規模な研究におけるどのバリアントが原因であるかの推定を向上させるために、より大規模な研究のより大きい検定力をより小規模な研究からのデータとともに用いることが可能となるが、一方で異なる部分母集団について異なる効果量を決定することができる。
これは、LDPred(Vilhjalmssonら、2015年)のベイズ計算を、1つの研究から、同じ表現型についてであるが別個の部分母集団における任意の数の研究に拡張することを伴う。そうすることにより、Trochetらの単一バリアント・複数研究の成果と、Vilhjalmssonらの複数バリアント・単一研究の成果との間の関連付けが得られる。両方の方法論的アプローチの間の関係を理解することにより、複数の研究をフレキシブルに統合し、単一の研究ではなく複数のGWASに基づいて予測アルゴリズムを作成することが可能となる。
図2に示すように、本方法のステップS12における各反復は、複数の遺伝的バリアントの各々について、複数の入力単位10に基づいて遺伝的バリアントがターゲット表現型の原因であるか否かを決定することを含む。既存の方法では、他の選択肢も可能であるが例えば物理的順序でまたはランダムサンプリングにより、遺伝的バリアントが1つずつ検討される。しかしながら、各バリアントにおいて、本方法は、単一の研究ではなく複数の研究を組み込み、(例えば、下記でさらに論じるように、ベイズ分析により)入力単位10の各々に対するバリアントの原因性および効果量のモデルの確率を評価する。したがって、本方法は、既存の方法のように入力単位10を一度に1つずつ検討する、または入力単位10を単一のメタ分析に組み合わせるのではなく、入力単位10の全てをともに分析することにより、各遺伝的バリアントが原因であるか否かを決定する。
遺伝的バリアントが原因であると決定された場合、複数の入力単位10、および対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて、入力単位10の各々についてターゲット表現型に対する遺伝的バリアントのサンプリング済み効果量12を決定するステップが行われる。したがって、原因バリアントおよび合同効果量の空間の探索において、あるバリアントが原因として選択された場合、各研究について異なる効果量がサンプリングされる。
図1の実施形態において、遺伝的バリアントが原因であるか否かを決定することは、遺伝的バリアントが原因であると仮定した場合の複数の入力単位からの情報の確率、および遺伝的バリアントが原因でないと仮定した場合の複数の入力単位からの情報の確率を算出するステップS120と、遺伝的バリアントが原因であると仮定した場合の複数の入力単位からの情報の確率、および遺伝的バリアントが原因でないと仮定した場合の複数の入力単位からの情報の確率の比に依存する確率で、遺伝的バリアントが原因であると確率的に決定するステップS122とを含む。
ステップS120において、遺伝的バリアントが原因であると仮定した場合の複数の入力単位からの情報の確率は、原因であることが期待される複数の遺伝的バリアントの割合、複数の入力単位10、および入力単位10の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関に依存してよい。遺伝的バリアントが原因でないと仮定した場合の複数の入力単位からの情報の確率は、原因であることが期待される複数の遺伝的バリアントの割合、および複数の入力単位10に依存してよい。確率は、事前値を用いて算出されてよい。
例えば、一実施形態においては、任意の所与のバリアントについて、2つの事前モデルが検討される。
・確率(1-p)で、バリアントが全ての入力単位10について0の効果量を有するという帰無仮説
・確率pで、入力単位10に対する遺伝的バリアントの効果量が多変量ガウス分布に従うという対立仮説
パラメータpは、原因であることが期待される複数の遺伝的バリアントの割合である。いくつかの実施形態において、原因であることが期待される複数の遺伝的バリアントの割合は、予め定められる。これは、推定値が利用可能である場合に、より計算効率が高いものであり得る。いくつかの実施形態において、原因であることが期待される複数の遺伝的バリアントの割合は、各反復において更新される。これにより、方法をpの真の値に収束させることが可能となり、精度が潜在的に向上する。
帰無仮説の下では、サンプリング済み効果量12の値は、全ての入力単位10について0に等しい。したがって、バリアントiのサンプリング済み効果量βについての共分散行列は、パラメータの値における不確実性(入力単位jからのバリアントiの限界効果量の標準誤差についてSEi,jと称される)のみにより決定付けられる。それ自体は研究のサンプルサイズに依存し、入力単位10の要約統計量において規定される。厳密には、以下の通りである。
式中、SEi,jは、バリアントiおよび入力単位jについての標準誤差を指し、ここでは合計m個の入力単位10が存在する。
対立仮説の下では、バリアントiのサンプリング済み効果量βは非ゼロであり、多変量ガウシアンの各次元について平均0および複数の未知の分散
の多変量ガウシアンとして分布する。
対立仮説においては、新たな指定が存在する。
式中、
であり、ρは、m個の入力単位10の各々についての、ターゲット表現型に対する遺伝的バリアントiの効果量の間の相関である。いくつかの実施形態において、入力単位10の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関は、予め定められる。原因であることが期待されるバリアントの割合と同様に、これはより計算効率が高いものであり得る。予め定められた値は、異なる部分母集団における効果がどれだけ強く相関しているかのアプリオリ推定が可能となる場合、既存の外部データに基づくものであってよい。
他の実施形態において、入力単位10の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関は、各反復において更新される。これにより、方法を真のパラメータ値に収束させることが可能となり、潜在的により高精度な結果をもたらす。代替的に、相関の値のグリッドを考えることができ、結果を有する個体レベルデータのデータセットにおける予測を最大化することにより、これらの相関についての最適なパラメータ値を選択することができる。ここで与えられる例では、効果量の間の相関は、入力単位10の全ての組み合わせについて同じである単一のパラメータである。
相関は、相関行列であってもよく、それにより、相関が入力単位10の異なる組み合わせの間で異なることが可能となる。例えば、年齢などの連続的形質について、変数のビン間での平滑化に相関を用いることができる。年齢のような連続的形質については、任意の所与のビンについての効果量および対応するPRSを向上させるために、隣接する年齢ビンから情報を流用することができる。隣接するまたは近くのビンは、より遠いビンよりも高い遺伝的相関を有するはずであるというアプリオリな期待があるので、これは、連続的変数の異なるビンの間の相関の異なる値を用いて考慮され得る。
これらの2つの事前モデルが定義されると、遺伝的バリアントが原因であると仮定した場合の複数の入力単位からの情報の確率、および遺伝的バリアントが原因でないと仮定した場合の複数の入力単位からの情報の確率を算出し、これらの事前モデルと組み合わせることができる。
ステップS122の一実施形態において、ステップS120において決定された確率を用いて、各バリアントiについてベイズ因子を算出することができる。
次いで、ベイズ因子に基づいて、バリアントが原因であるか否かの確率的サンプリングが行われる。これらの式におけるβは、次元mのベクトルであり、すなわち、m個の入力単位10の各々に対するバリアントiの効果を指定する。
原因である遺伝的バリアントは入力単位10(およびその対応する部分母集団)間で共有され、これらのバリアントの効果量は、入力単位10間で相関するが、変動すると仮定する。換言すれば、バリアントは、入力単位10の全てについて原因であるか、またはいずれについても原因でないかのいずれかである。したがって、遺伝的バリアントが原因であると決定された場合、ターゲット表現型に対する遺伝的バリアントのサンプリング済み効果量12は、入力単位10の全てについて非ゼロであると決定される。
入力単位10がそれぞれの個体群から決定される場合、また入力単位10を決定するために用いられる研究によっては、1つの潜在的課題は、研究間でのサンプル重複である。例えば、「性別合同」研究が、1つの入力単位10を導出するために用いられてよく、その結果、他の「男性のみ」および「女性のみ」の研究から導出される入力単位10と共同で分析される。男女別の研究は、より大規模な性別合同研究の集合の部分集合であってよいが、性別合同研究は、性情報が提供されなかった追加のサンプルを含んでもよく、または単に2つの性別別の研究の和集合であってもよい。これを考慮するために、いくつかの実施形態において、遺伝的バリアントが原因であると仮定した場合の複数の入力単位からの情報の確率は、それぞれの入力単位10の対の間の個体群における重複を定量化する1つまたは複数のパラメータに依存する。
例えば、その可能性を考慮するための1つの方法は、上記で示す共分散行列Vを以下のようになるように更新することである。
式中、係数rx,yは、研究間でのサンプルの重複を考慮し、また(下記でさらに論じるように)サンプルの共有に起因するサンプリング済み効果量12間の相関をモデル化する。表記を明確にするために、これらのrx,yは、バリアントレベルの相関を表す相関係数ri,j(下記でより詳細に論じる)とは無関係である。この追加(Trochetら、2019年に記載)は、高精度な結果を実現するために実用上重要であるが、不可欠ではなく、それなしでも十分な結果が実現され得る。
遺伝的バリアントが原因であると決定された場合、事後の平均および分散を、全ての入力単位10にわたる合同効果量について計算することができる。遺伝的バリアントのサンプリング済み効果量12を決定するステップは、入力単位10についてのターゲット表現型に対する遺伝的バリアントの効果量の確率分布を算出するステップS124と、確率分布から入力単位10についての効果量の値をサンプリングするステップS126とを含む。
実用上、妥当な時間内に全ての可能な原因バリアントおよび全ての可能な対応する効果量の空間を完全に探索することは不可能であるため、サンプリング済み効果量12が用いられる。したがって、原因バリアントおよびその対応する効果量の空間を探索するために、サンプリング技法、例えばモンテカルロシミュレーションが用いられる。いくつかの実施形態において、各反復における効果量の値のサンプリングは、1つまたは複数の以前の反復からのサンプリング済み効果量12に依存する。これは、可能な値の空間を十分に探索するようにサンプリング技法を誘導するために用いられ得る。いくつかの実施形態において、効果量の値のサンプリングは、モンテカルロギブスサンプラを用いて行われる。
好ましい実施形態において、確率分布は、多変量正規分布である。確率分布は、入力単位10の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関に依存してよい。上記で確率について論じたように、入力単位10の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関は、予め定められてよい。代替的に、入力単位10の各々についてのターゲット表現型に対する遺伝的バリアントの効果量の間の相関は、各反復において更新されてよく、それにより、方法が相関の好適な値を学習することが可能となる。
特定の例において、確率分布は、効果量についての事後平均であり、多変量正規分布として分布する。
PRSを算出することを目的として遺伝子データを分析するための方法のいくつかの実施形態における重要なステップは、遺伝的バリアントの間の相関を制御する能力である。上記で述べたように、バリアント間の相関により、一部のバリアントが、ターゲット表現型の原因でない場合であっても、大きい限界効果量を有するということが生じ得る。
これを考慮するために、いくつかの実施形態において、1つまたは複数の反復の各々は、原因であると決定された各遺伝的バリアントについて、各入力単位10の他の各遺伝的バリアントとターゲット表現型との間の関連についての情報から重み付き効果量を減算するステップS128をさらに含む。したがって、遺伝的バリアントiが原因であると決定され、サンプリング済み効果量βが遺伝的バリアントiについて決定された場合、その原因バリアントの効果は、周囲の相関バリアントから減算される。重み付き効果量は、遺伝的バリアントと他の各遺伝的バリアントとの間のそれぞれの相関係数により重み付けされた、入力単位10についてのターゲット表現型に対する遺伝的バリアントのサンプリング済み効果量12である。
特定の実施形態において、この結果として、以下の補正が他の遺伝的バリアントjの各々の限界効果量に適用される。
上記の式において、βは、現在原因であると決定されているバリアントの各々のサンプリング済み効果量12である。値ri,jは、バリアントiおよびjの各対の間の相関を表す相関係数である。相関係数は、参照配列の参照集合から推定され得る、対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて決定される。この補正式は、遺伝子型決定された各バリアントXが分散1を有するように正規化されており、その関連する限界効果量
がそれに応じて更新されていることを仮定する。これが当てはまらない場合、各推定効果量についての標準誤差を考慮するために、追加の補正を適用する必要がある。
この補正の効果は、あるバリアントが原因であるか否かが決定された場合に、その限界効果量が、その反復において原因であるとそれまでに決定されている全てのバリアントのサンプリング済み効果量に基づいて上記の式を用いて補正されることである。したがって、そのような実施形態において、式(4)および(6)において用いられる効果量βは、実際には式(7)を用いて算出される補正効果量となる。非常に微妙な点は、特定の遺伝的バリアントについてのこの減算ステップが、減算の行われる時点において他のバリアントのいずれが原因としてサンプリングされているかに依存する点である。したがって、遺伝的バリアントがサンプリングされる順序に応じて、βにおけるいくらかの差異が反復間で生じ得る。
重要なことには、多くの場合、データ自体から直接遺伝的バリアント間の相関係数(上記の例における値ri,j)を算出することは不可能であり、代わりに、1,000人ゲノムコンソーシアムにより生成されるデータなどの参照母集団から生じる必要がある。これらの相関係数の集合は、連鎖不平衡マップ(またはLDマップ)と称されてよく、遺伝的バリアント間の共分散構造を反映する。上記で述べたように、これらの相関係数は、部分母集団間で、例えば異なる祖先について、異なるものであってよい。単一の研究のみを分析する既存の方法においては、それらの相関係数は、研究の起点の母集団と合致する参照母集団LDマップから決定される。
しかしながら、本方法においては、バリアント相関の祖先別のパターンと整合するように遺伝的バリアント間の相関を考慮する効果量減算ステップS128を扱うことが課題である。この課題を克服するために、本方法は、適切な場合には、複数の参照LDマップを並列に扱ってよい。あるバリアントが原因であると決定されると、減算ステップS128が祖先別に適用される。したがって、入力単位10がそれぞれの個体群から決定される場合、遺伝的バリアントと他の各遺伝的バリアントとの間の相関係数は、入力単位10の個体群の祖先に依存する。各研究が行われた祖先とその合致するLDマップ(共分散構造)との間で、1対1マッピングが用いられてよい。
例えば、入力単位10のうちの少なくとも1つの個体群が共通の祖先を有する個体を含む場合、相関係数は、共通の祖先を有する個体についての対象の領域における遺伝的バリアントの間の相関に基づいて決定される。
別の例において、複数の入力単位10は、複数の祖先の混合からの個体を含む研究から導出される。入力単位10のうちの少なくとも1つの個体群が異なる祖先を有する個体を含む場合、相関係数は、異なる祖先の各々を有する個体についての対象の領域における遺伝的バリアントの間の相関の平均に基づいて決定される。当該方法は、混合の入力単位10についてのLDマップを、複数の「一次」LDマップの平均として決定し、これらの「一次」LDマップの各々は、遺伝的バリアントの間の相関の良好に規定された参照祖先集合から決定される。
入力単位10の個体群が共通の祖先を有するが、性などの別の特性の異なる値を有する場合、共通の祖先については単一のLDマップで十分であるため、複数のLDマップを同時に扱う必要はなくてよい。
用いられる入力データによっては、複数の遺伝的バリアントの全てが全ての祖先について有意な頻度で存在しない場合があることが考えられる。例えば、一部の遺伝的バリアントは、特定の祖先の個体のみにおいて見られる場合がある。これが当てはまり、原因効果がこれらの低頻度バリアントのうちの1つに割り当てられる場合、所与の祖先において存在しないこのバリアントは、同じ祖先についての他のバリアントと相関しないと見なされ得る。したがって、低頻度バリアントと全ての他のバリアントとの間の相関についてのri,jの相関係数は、ゼロに設定されてよい。
1つまたは複数の反復が完了すると、当該方法は、各遺伝的バリアントについて、入力単位10についての遺伝的バリアントのサンプリング済み効果量12の平均に基づいて、入力単位10の各々についてのターゲット表現型に対する遺伝的バリアントの予測効果量14を決定するステップS14を含む。予測効果量14は、サンプリング済み効果量12を用いて算出される、入力単位についての遺伝的バリアントの事後効果量の平均に基づくものであってもよい。いずれの場合も、平均は、反復の少なくとも部分集合にわたって取られる。平均のための任意の好適な方法が用いられてよい。複数の反復および平均を用いることで、結果が効果量サンプリングのランダム性に打ち勝つ。原因バリアントおよびその効果量14の集合が決定されると、効果量14に基づいてPRSを決定することが簡単になる。一実施形態において、サンプリング済み効果量の平均は、加重平均であってよく、原因であると決定された各バリアントのサンプリング済み効果量は、バリアントが原因である事後確率により重み付けされる。
例えば、バリアントiについての平均効果量
は、
として算出されてよい。式中、Lは、任意選択的に数回の初期バーンイン反復の後の、反復の合計数を示す。バリアントが原因である事後確率は、任意の好適な方法で決定されてよい。例えば、実行される反復の合計数の割合としての、バリアントが原因であると決定された反復の数を用いて決定されてよい。代替的に、バリアントが原因である事後確率は、例えば式(4)f(β,V+Σ)に示すように、確率の比を用いてベイズ因子を算出する場合に、バリアントが原因であると仮定した場合の複数の入力単位からの情報の確率から算出されてよい。
肺がんにおける喫煙の例に沿うと、本方法により、大規模な肺がんGWASから導出された入力単位10(喫煙状況により層別化されていない)を、非喫煙者におけるより小規模な肺がんGWASから導出された入力単位10と共同で分析することが可能となる。これにより、2つの部分母集団、すなわち非喫煙者および一般母集団における肺がんの表現型についての予測効果量14の2つの集合が効果的に得られる。ほとんどの遺伝的バリアントについて、予測効果量14は、2つの部分母集団に対応する両方の入力単位10で同じとなる。しかしながら、依存症関連バリアントについては、より小規模なGWASからの入力単位10についての効果量が、これらのバリアントが非喫煙者における肺がんに関連していないことを明らかに示すことになる。これにより、依存症関連バリアントが減算された肺がんPRSを得ることを可能とするという上述の目標が効果的に実現する。
通常、当該方法は、入力単位10が決定される元となる個体群の規模におけるばらつきが大きすぎない場合に、最大限の性能を果たす。例えば、より小規模な個体群およびより大規模な個体群から導出された2つの入力単位10が用いられる場合、一般に、より小規模な個体群がより大規模な個体群の規模の~約20%以上であると、著しい性能向上が見られる。
いくつかの実施形態において、各遺伝的バリアントについてのサンプリング済み効果量12の1つまたは複数は、破棄されてよく、予測効果量14を得るために用いられる平均に含まれなくてよい。含まれない数は、予め定められてもよく、またはサンプリング済み効果量12の値に基づくものであってもよい。破棄されるサンプリング済み効果量12は、方法の最初の反復、例えば最初の10回の反復、最初の20回の反復、または何らかの他の予め定められた回数の反復からのものであってよい。これらは、多くの場合「バーンイン」反復と称され、モンテカルロギブスサンプラなどのサンプリング技法は有用なサンプリングパターンに収束するまでに数回の反復を要するため、通常破棄される。
一般にPRSを決定することが望ましいことを考慮して、本発明は、図3に示すように、ターゲット個体についてターゲット表現型についての多遺伝子リスクスコアを決定する方法において用いることもできる。上述の方法を用いて得られる予測効果量の向上した推定により、より高精度なPRSの決定が可能となる。
PRSを決定する方法は、ターゲット個体のゲノムの対象の領域周辺の遺伝情報16を受け取るステップS20を含む。これは、対象の領域における個体により表現される遺伝的バリアントについての情報(一塩基多型、欠失または挿入など)を含んでよい。
当該方法は、上述の遺伝子データを分析する方法を用いて決定された、対象の領域における複数の遺伝的バリアントのターゲット表現型に対する予測効果量14を受け取るステップS22をさらに含む。
当該方法は、ターゲット個体16についての遺伝情報および効果量14に基づいて多遺伝子リスクスコア20を決定するステップS24をさらに含む。
一実施形態において、遺伝子データを分析する方法において受け取られた入力単位10は、それぞれの個体群から決定され、個体についての多遺伝子リスクスコア20は、ターゲット個体に最も類似する個体群から決定される入力単位10についての予測効果量14を用いて決定される。例えば、効果量14が、それぞれヨーロッパ系祖先および東アジア系祖先を有する個体群から決定された2つの入力単位10について決定される場合、個体は、東アジア系祖先のものであり、東アジアの入力単位10についての予測効果量14は、個体についてのPRS20を決定するために用いられることになる。
一実施形態において、PRS20は、以下のように算出される。
式中、Kは、PRS20に寄与するバリアントの数であり、xは、バリアントkについての遺伝子型であり、αは、ターゲット表現型に対するバリアントkの予測的影響を定量化する(すなわち、ターゲット表現型に対するバリアントlの関連の強さを定量化する)バリアントkについてのPRS重みである。通常、PRS重みαは、単に上記で算出されるバリアントkについての平均効果量、すなわち
である。
遺伝子データを分析する方法は、有機体についての遺伝子データを分析するための装置により実行されてよく、これも図1に示す。当該装置は、複数の入力単位10を受け取るように構成される受信ユニット200を備え、各入力単位は、有機体のゲノムの対象の領域における複数の遺伝的バリアントと有機体のターゲット表現型との間の関連についての情報を含む。装置は、複数の遺伝的バリアントの各々について、複数の入力単位に基づいてターゲット表現型について遺伝的バリアントが原因であるか否かを決定することと、遺伝的バリアントが原因であると決定された場合に、複数の入力単位10、および対象の領域における複数の遺伝的バリアントの間の相関についての情報に基づいて、入力単位10の各々についてのターゲット表現型に対する遺伝的バリアントのサンプリング済み効果量12を決定することとを含む1つまたは複数の反復を実行するように構成されるデータ処理ユニット210をさらに備える。ターゲット表現型に対する遺伝的バリアントのサンプリング済み効果量12は、入力単位10の全てについて非ゼロである。データ処理ユニット210はさらに、各遺伝的バリアントについて、入力単位10についての遺伝的バリアントのサンプリング済み効果量12の反復の少なくとも部分集合における、またはサンプリング済み効果量12を用いて算出される入力単位10についての遺伝的バリアントの事後効果量の平均に基づいて、入力単位10の各々についてのターゲット表現型に対する遺伝的バリアントの予測効果量14を決定するように構成される。
本発明は、プログラムがコンピュータにより実行された場合に、遺伝子データを分析する方法をコンピュータに実行させる命令を含むコンピュータプログラムにおいて具現化されてもよい。本発明は、コンピュータにより実行された場合に、遺伝子データを分析する方法をコンピュータに実行させる命令を含むコンピュータ可読媒体において具現化されてもよい。
結果
祖先横断
異なる祖先の部分母集団についての効果量を決定することにおける本方法の有効性を示すために、従来技術の方法を用いて決定される効果量の例を図4に示し、本方法を用いて決定される効果量を図5に示す。
ケース数の差異(表1)から分かるように、良好な効力の乳がんの要約統計量データがヨーロッパ系祖先の個体について存在し、より大幅に小規模なコホートが東アジア系女性について存在する。加えて、2つの良好な効力のコホート、すなわち、ヨーロッパ系祖先個体についてのUKバイオバンク(Bycroftら)、および東アジア系祖先の個体についての多民族コホート(MEC)が、様々な表現型についての効果量を評価するために利用可能である。
図4および図5の両方は、東アジア系祖先の個体(赤)およびヨーロッパ系祖先の個体(黒)における2つの乳がん研究から決定された2つの入力単位についての19番染色体における遺伝的バリアントの推測効果量を示す。図4は、従来技術の方法を用いて2つの入力単位について別々に決定される場合の効果量を示す。図5は、本方法を用いて2つの入力単位について共同で決定される場合の効果量を示す。
効果量が各入力単位を別々に分析することにより決定される場合(図4)、確定されたがん遺伝子座ELL(図4および図5の下部パネルにおける拡大挿入図)における遺伝的バリアントは、ヨーロッパ系について大きい重みを有する。しかしながら、東アジア系祖先の個体における研究のより小さいサンプルサイズは、この信号を検出するのに十分でない。効果量が入力単位を共同で分析することにより決定される場合(図5)、両方の研究の組み合わせは、東アジア系について十分な検定力を提供して、確定されたがん遺伝子座ELLにおいて大きい効果量も有する。
本方法を用いたゲノムワイド共同分析は、両方の祖先について予測性能を向上させる。加えて、共同分析は、原因バリアントが特定される精度を著しく変容させる。これは、図4および図5において見ることができる。ヨーロッパ系祖先および東アジア系祖先の両方における乳がんについての大きい非ゼロの効果量は、図4(個別分析)の上部パネルよりも図5(共同分析)の上部パネルにおいて、大幅に短い位置的距離にまたがる。これは、複数の祖先からのデータを組み合わせることにより得られる原因バリアントの位置特定のより良好な理解を反映している。
表1は、ヨーロッパ系祖先および東アジア系祖先の女性における乳がんPRSを決定するために用いられる訓練母集団を示す。
これらのコホートを用いて、PRS算出において用いられる予測効果量を決定する異なる方法、すなわちLDPred、MTAG、および本方法について、PRS予測能力を評価した。結果が表2に示されており、太字は各祖先についての最良の性能を示す。乳がんは二値形質であるため、曲線下面積(AUC)が、乳がんのケースおよびコントロールの間のPRSの分離を定量化するための予測精度の尺度として用いられる。最良の性能の方法は、複数の祖先からの研究からの入力単位を組み合わせ、各入力単位についての効果量に基づいてPRSの祖先別バージョンを生成する本方法であった。
コンテキスト別
上記で論じたように、本方法は、個体の他の特性に基づいて決定された部分母集団に特有の予測効果量を決定するために用いることもできる。異なる祖先と同様にして、母集団の異なる層を扱うことができ、これらの異なる層に特有のPRSを算出することもできる。下記の例においては、入力単位を決定するために用いられる研究が単一の母集団から生じると仮定される。したがって、各入力単位についての相関係数(すなわち遺伝的バリアント間の相関構造を表すLDマップ)の異なる集合を考慮する必要はない。しかしながら、上記で述べたように、研究間での個体のサンプルに重複があり得る可能性がある。
この例では、BMIに対する遺伝的バリアントの予測効果量が、GIANTコンソーシアムGWAS(152,893人の男性、171,977人の女性、または合同で332,154人)からの訓練データセットを用いて決定された入力単位に対して決定される。効果量から得られたPRSは次いで、評価データセットに適用される。BMIは量的形質であるため、分散説明率(r)が予測精度の尺度として用いられる。2つのアプローチ、すなわち、
- 両方の性を単一のメタ分析に組み合わせ、男性および女性の両方において評価される単一のPRSを生成する既存の方法を用いたアプローチ、および
- 男性におけるBMI研究および女性における別のBMI研究を共同で分析し、異なる効果量および2つの別個のPRS(性ごとに1つずつ)を生成する本方法
を用いて生成される効果量からのPRSの間で比較が行われる。
この比較の結果を表3に示す。太字は、2つの性の各々についての最良の性能の方法論を示す。
説明されるBMI分散は、性別で層別化された本アプローチからの男性の効果量を用いる場合、男性についてより高い。同様に、説明されるBMI分散は、性別で層別化された本アプローチからの女性の重みの効果量を用いる場合、女性についてより高い。両方の場合において、既存の方法を用いた男性および女性のメタ分析は、性能がそれほど良好でない。加えて、本方法からの男性および女性の効果量のいずれかを用いることで、既存のメタ分析ベースの方法よりも、性別合同の評価セットにおけるBMI分散の高い割合が説明される。
参考文献
Bayesian meta-analysis across genome-wide association studies of diverse phenotypes, Trochet H, Pirinen M, Band G, Jostins L, McVean G, Spencer C, Genetic Epidemiology 2019
Multi-trait analysis of genome-wide association summary statistics using MTAG, P Turley et al. Nature Genetics 2018
Vilhjalmsson BJ, Yang J, Finucane HK, et al. Modeling Linkage Disequilibrium Increases Accuracy of Polygenic Risk Scores. Am J Hum Genet 2015.
Variable prediction accuracy of polygenic scores within an ancestry group, Hakhamanesh Mostafavi, Arbel Harpak Ipsita Agarwal, Dalton Conley, Jonathan K Pritchard, Molly Przeworski, eLife, 2020
Bycroft et al, The UK Biobank resource with deep phenotyping and genomic data, Nature 2018
A correction for sample overlap in genome-wide association studies in a polygenic pleiotropy-informed framework, Marissa LeBlanc, Verena Zuber, Wesley K. Thompson, Ole A. Andreassen, Schizophrenia and Bipolar Disorder Working Groups of the Psychiatric Genomics Consortium, Arnoldo Frigessi, and Bettina Kulle Andreassen, 2018
Multitrait analysis of glaucoma identifies new risk loci and enables polygenic prediction of disease susceptibility and progression, Jamie E. Craig et al, Nature Genetics 2020
10 入力単位
12 サンプリング済み効果量
14 効果量
16 個体遺伝情報
20 PRS

Claims (31)

  1. 有機体についての遺伝子データを分析するコンピュータ実施方法であって、
    複数の入力単位を受け取ることであって、各入力単位が、前記有機体のゲノムの対象の領域における複数の遺伝的バリアントと前記有機体のターゲット表現型との間の関連についての情報を含む、受け取ることと、
    前記複数の遺伝的バリアントの各々について、
    前記複数の入力単位に基づいて、前記遺伝的バリアントが前記ターゲット表現型の原因であるか否かを決定すること、および、
    前記遺伝的バリアントが原因であると決定された場合に、前記複数の入力単位、および前記対象の領域における前記複数の遺伝的バリアントの間の相関についての情報に基づいて、前記入力単位の各々についての前記ターゲット表現型に対する前記遺伝的バリアントのサンプリング済み効果量を決定することであって、前記ターゲット表現型に対する前記遺伝的バリアントの前記サンプリング済み効果量が前記入力単位の全てについて非ゼロである、決定すること
    を含む1つまたは複数の反復を実行することと、
    各遺伝的バリアントについて、前記入力単位についての前記遺伝的バリアントの前記サンプリング済み効果量の前記反復の少なくとも部分集合にわたる、または前記サンプリング済み効果量を用いて算出される前記入力単位についての前記遺伝的バリアントの事後効果量の平均に基づいて、前記入力単位の各々についての前記ターゲット表現型に対する前記遺伝的バリアントの予測効果量を決定することと
    を含む方法。
  2. 前記遺伝的バリアントが原因であるか否かを決定することは、前記遺伝的バリアントが原因であると仮定した場合の前記複数の入力単位からの前記情報の確率、および前記遺伝的バリアントが原因でないと仮定した場合の前記複数の入力単位からの前記情報の確率を算出することと、前記遺伝的バリアントが原因であると仮定した場合の前記入力データの前記確率、および前記遺伝的バリアントが原因でないと仮定した場合の前記入力データの前記確率の比に依存する確率で、前記遺伝的バリアントが原因であると確率的に決定することとを含む、請求項1に記載の方法。
  3. 前記遺伝的バリアントが原因であると仮定した場合の前記複数の入力単位からの前記情報の前記確率は、
    原因であることが期待される前記複数の遺伝的バリアントの割合、
    前記複数の入力単位、および
    前記入力単位の各々についての前記ターゲット表現型に対する前記遺伝的バリアントの前記効果量の間の相関
    に依存する、請求項2に記載の方法。
  4. 前記遺伝的バリアントが原因でないと仮定した場合の前記複数の入力単位からの前記情報の前記確率は、
    原因であることが期待される前記複数の遺伝的バリアントの割合、および
    前記複数の入力単位
    に依存する、請求項2または3に記載の方法。
  5. 原因であることが期待される前記複数の遺伝的バリアントの前記割合は、予め定められる、請求項3または4に記載の方法。
  6. 前記入力単位の各々についての前記ターゲット表現型に対する前記遺伝的バリアントの前記効果量の間の前記相関は、予め定められる、請求項3から5のいずれか一項に記載の方法。
  7. 原因であることが期待される前記複数の遺伝的バリアントの前記割合は、各反復において更新される、請求項3、4、または6に記載の方法。
  8. 前記入力単位の各々についての前記ターゲット表現型に対する前記遺伝的バリアントの前記効果量の間の前記相関は、各反復において更新される、請求項3から5のいずれか一項、または7に記載の方法。
  9. 前記入力単位は、それぞれの個体群から決定され、前記遺伝的バリアントが原因であると仮定した場合の前記複数の入力単位からの前記情報の前記確率は、それぞれの入力単位の対の間の前記個体群における重複を定量化する1つまたは複数のパラメータに依存する、請求項2から8のいずれか一項に記載の方法。
  10. 前記遺伝的バリアントの前記サンプリング済み効果量を決定することは、前記入力単位についての前記ターゲット表現型に対する前記遺伝的バリアントの効果量の確率分布を算出することと、前記確率分布から前記入力単位についての前記効果量の値をサンプリングすることとを含む、請求項1から9のいずれか一項に記載の方法。
  11. 前記確率分布は、多変量正規分布である、請求項10に記載の方法。
  12. 各反復における前記効果量の値の前記サンプリングは、1つまたは複数の以前の反復からの前記サンプリング済み効果量に依存する、請求項10または11に記載の方法。
  13. 前記効果量の値の前記サンプリングは、モンテカルロギブスサンプラを用いて行われる、請求項10から12のいずれか一項に記載の方法。
  14. 前記確率分布は、前記入力単位の各々についての前記ターゲット表現型に対する前記遺伝的バリアントの前記効果量の間の相関に依存する、請求項10から13のいずれか一項に記載の方法。
  15. 前記入力単位の各々についての前記ターゲット表現型に対する前記遺伝的バリアントの前記効果量の間の前記相関は、予め定められる、請求項14に記載の方法。
  16. 前記入力単位の各々についての前記ターゲット表現型に対する前記遺伝的バリアントの前記効果量の間の前記相関は、各反復において更新される、請求項14に記載の方法。
  17. 前記1つまたは複数の反復の各々は、原因であると決定された各遺伝的バリアントについて、各入力単位の他の各遺伝的バリアントと前記ターゲット表現型との間の関連についての情報から重み付き効果量を減算することをさらに含み、
    前記重み付き効果量は、前記遺伝的バリアントと他の各遺伝的バリアントとの間のそれぞれの相関係数により重み付けされた、前記入力単位についての前記ターゲット表現型に対する前記遺伝的バリアントの前記サンプリング済み効果量であり、
    前記相関係数は、前記対象の領域における前記複数の遺伝的バリアントの間の相関についての前記情報に基づいて決定される、
    請求項1から16のいずれか一項に記載の方法。
  18. 前記入力単位は、それぞれの個体群から決定され、前記遺伝的バリアントと他の各遺伝的バリアントとの間の前記相関係数は、前記入力単位の前記個体群の祖先に依存する、請求項17に記載の方法。
  19. 前記入力単位のうちの少なくとも1つの前記個体群は、共通の祖先を有する個体を含み、前記相関係数は、前記共通の祖先を有する個体についての前記対象の領域における遺伝的バリアントの間の相関に基づいて決定される、請求項18に記載の方法。
  20. 前記入力単位のうちの少なくとも1つの前記個体群は、異なる祖先を有する個体を含み、前記相関係数は、前記異なる祖先の各々を有する個体についての前記対象の領域における遺伝的バリアントの間の相関の平均に基づいて決定される、請求項18または19に記載の方法。
  21. 前記入力単位のうちの少なくとも1つの前記個体群は、同じ値の特性を有する個体を含む、請求項1から20のいずれか一項に記載の方法。
  22. 前記入力単位のうちの少なくとも1つの前記個体群は、異なる値の特性を有する個体を含む、請求項1から21のいずれか一項に記載の方法。
  23. 前記特性は、性別、年齢、重量、分子バイオマーカー、または挙動的特性のうちの1つである、請求項21または22に記載の方法。
  24. 1つまたは複数の反復を実行することは、予め定められた数の反復を実行することを含む、請求項1から23のいずれか一項に記載の方法。
  25. 前記1つまたは複数の反復の各々は、収束パラメータを評価するステップをさらに含み、1つまたは複数の反復を実行することは、前記収束パラメータに対する予め定められた条件が満たされるまで反復を実行することを含む、請求項1から24のいずれか一項に記載の方法。
  26. 前記複数の遺伝的バリアントと前記ターゲット表現型との間の関連についての前記情報は、前記複数の遺伝的バリアントの各々について、前記遺伝的バリアントと前記ターゲット表現型との間の関連の強さの推定値、および関連の強さの前記推定値の誤差を含む、請求項1から25のいずれか一項に記載の方法。
  27. ターゲット個体についてターゲット表現型についての多遺伝子リスクスコアを決定する方法であって、前記ターゲット個体のゲノムの対象の領域についての遺伝情報を受け取ることと、請求項1から26のいずれか一項に記載の遺伝子データを分析する方法を用いて決定される、前記対象の領域における複数の遺伝的バリアントの前記ターゲット表現型に対する予測効果量を受け取ることと、前記ターゲット個体についての前記遺伝情報および前記予測効果量に基づいて前記多遺伝子リスクスコアを決定することとを含む方法。
  28. 遺伝子データを分析する前記方法において受け取られる前記入力単位は、それぞれの個体群から決定され、前記個体についての前記多遺伝子リスクスコアは、前記ターゲット個体に最も類似する個体群から決定される前記入力単位についての前記予測効果量を用いて決定される、請求項27に記載の方法。
  29. 有機体についての遺伝子データを分析するための装置であって、
    複数の入力単位を受け取るように構成される受信ユニットであって、各入力単位が、前記有機体のゲノムの対象の領域における複数の遺伝的バリアントと前記有機体のターゲット表現型との間の関連についての情報を含む、受信ユニットと、
    前記複数の遺伝的バリアントの各々について、
    前記複数の入力単位に基づいて、前記遺伝的バリアントが前記ターゲット表現型の原因であるか否かを決定すること、および、
    前記遺伝的バリアントが原因であると決定された場合に、前記複数の入力単位、および前記対象の領域における前記複数の遺伝的バリアントの間の相関についての情報に基づいて、前記入力単位の各々についての前記ターゲット表現型に対する前記遺伝的バリアントのサンプリング済み効果量を決定することであって、前記ターゲット表現型に対する前記遺伝的バリアントの前記サンプリング済み効果量が前記入力単位の全てについて非ゼロである、決定すること
    を含む1つまたは複数の反復を実行し、
    各遺伝的バリアントについて、前記入力単位についての前記遺伝的バリアントの前記サンプリング済み効果量の前記反復の少なくとも部分集合にわたる、または前記サンプリング済み効果量を用いて算出される前記入力単位についての前記遺伝的バリアントの事後効果量の平均に基づいて、前記入力単位の各々についての前記ターゲット表現型に対する前記遺伝的バリアントの予測効果量を決定する
    ように構成されるデータ処理ユニットと
    を備える装置。
  30. プログラムがコンピュータにより実行された場合に、請求項1から28のいずれか一項に記載の方法を前記コンピュータに実行させる命令を含むコンピュータプログラム。
  31. コンピュータにより実行された場合に、請求項1から28のいずれか一項に記載の方法を前記コンピュータに実行させる命令を含むコンピュータ可読媒体。
JP2023533234A 2020-12-01 2021-11-26 遺伝子データを分析するためのコンピュータ実施方法および装置 Pending JP2024501141A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB2018904.9 2020-12-01
GBGB2018904.9A GB202018904D0 (en) 2020-12-01 2020-12-01 Computer-implemented method and apparatus for analysing genetic data
PCT/GB2021/053068 WO2022117996A1 (en) 2020-12-01 2021-11-26 Computer-implemented method and apparatus for analysing genetic data

Publications (1)

Publication Number Publication Date
JP2024501141A true JP2024501141A (ja) 2024-01-11

Family

ID=74099973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023533234A Pending JP2024501141A (ja) 2020-12-01 2021-11-26 遺伝子データを分析するためのコンピュータ実施方法および装置

Country Status (10)

Country Link
US (1) US20240038330A1 (ja)
EP (1) EP4256563A1 (ja)
JP (1) JP2024501141A (ja)
KR (1) KR20230116029A (ja)
CN (1) CN116670770A (ja)
AU (1) AU2021393076A1 (ja)
CA (1) CA3203577A1 (ja)
GB (1) GB202018904D0 (ja)
IL (1) IL303326A (ja)
WO (1) WO2022117996A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024096618A1 (ko) * 2022-11-02 2024-05-10 주식회사 디시젠 암 발생 위험도 예측 방법

Also Published As

Publication number Publication date
IL303326A (en) 2023-07-01
WO2022117996A1 (en) 2022-06-09
US20240038330A1 (en) 2024-02-01
GB202018904D0 (en) 2021-01-13
KR20230116029A (ko) 2023-08-03
CA3203577A1 (en) 2022-06-09
AU2021393076A1 (en) 2023-06-22
EP4256563A1 (en) 2023-10-11
CN116670770A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
US7133856B2 (en) Binary tree for complex supervised learning
Cule et al. A semi-automatic method to guide the choice of ridge parameter in ridge regression
EP4022626B1 (en) Computer-implemented method and apparatus for analysing genetic data
US20200402614A1 (en) A computer-implemented method of analysing genetic data about an organism
JP2024501141A (ja) 遺伝子データを分析するためのコンピュータ実施方法および装置
CN110890131B (zh) 一种基于遗传性基因突变预测癌症风险的方法
US20240105280A1 (en) Computer-implemented method and apparatus for analysing genetic data
CN115769300A (zh) 变体致病性评分和分类及其用途
US20200105374A1 (en) Mixture model for targeted sequencing
Zgodic Sparse Partitioned Empirical Bayes ECM Algorithms for High-Dimensional Linear Mixed Effects and Heteroscedastic Regression
Depope et al. Light-speed whole genome association testing and prediction via Approximate Message Passing
CN117877573A (zh) 一种利用伊辛模型的多基因遗传风险评估模型的构建方法
Nam et al. Rare variant effect estimation and polygenic risk prediction
CN115715415A (zh) 变体致病性评分和分类及其用途
Alqahtani Survival analysis based on genomic profiles
Chung Bayesian parametric and nonparametric methods for multiple QTL mapping and SNP-set analysis
Hormozdiari Statistical Methods to Understand the Genetic Architecture of Complex Traits
Igl Application of Bayesian hierarchical generalized linear models using weakly informative prior distributions to identify rare genetic variant effects on blood pressure
Wang Efficient Statistical Models For Detecting And Analyzing Human Genetic Variations
Chen Low-Level and High-Level Microarray Data Analysis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230607