JP2022525638A - 非メンデル表現型に対する遺伝学的リスクを決定するための親類の情報の使用 - Google Patents
非メンデル表現型に対する遺伝学的リスクを決定するための親類の情報の使用 Download PDFInfo
- Publication number
- JP2022525638A JP2022525638A JP2021556270A JP2021556270A JP2022525638A JP 2022525638 A JP2022525638 A JP 2022525638A JP 2021556270 A JP2021556270 A JP 2021556270A JP 2021556270 A JP2021556270 A JP 2021556270A JP 2022525638 A JP2022525638 A JP 2022525638A
- Authority
- JP
- Japan
- Prior art keywords
- relatives
- subject
- data
- dis
- vec
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002068 genetic effect Effects 0.000 title abstract description 37
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 115
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 14
- 102000054767 gene variant Human genes 0.000 claims description 6
- 230000001052 transient effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 abstract description 2
- 201000010099 disease Diseases 0.000 description 46
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 46
- 230000035772 mutation Effects 0.000 description 41
- 238000013459 approach Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 18
- 230000014509 gene expression Effects 0.000 description 9
- 238000004088 simulation Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 210000001519 tissue Anatomy 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 108090000765 processed proteins & peptides Proteins 0.000 description 7
- 208000024891 symptom Diseases 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 102000004169 proteins and genes Human genes 0.000 description 5
- 210000001124 body fluid Anatomy 0.000 description 4
- 239000010839 body fluid Substances 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 108020004999 messenger RNA Proteins 0.000 description 4
- 229920001184 polypeptide Polymers 0.000 description 4
- 102000004196 processed proteins & peptides Human genes 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 150000007523 nucleic acids Chemical group 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 206010064571 Gene mutation Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000005713 exacerbation Effects 0.000 description 2
- 230000004777 loss-of-function mutation Effects 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 230000035699 permeability Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000069 prophylactic effect Effects 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- 108700039887 Essential Genes Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 210000001766 X chromosome Anatomy 0.000 description 1
- 210000002593 Y chromosome Anatomy 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 229940126534 drug product Drugs 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000005003 heart tissue Anatomy 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 210000005228 liver tissue Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000001151 non-parametric statistical test Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000001543 one-way ANOVA Methods 0.000 description 1
- 238000001769 parametric statistical test Methods 0.000 description 1
- 239000000825 pharmaceutical preparation Substances 0.000 description 1
- 210000002381 plasma Anatomy 0.000 description 1
- 230000003234 polygenic effect Effects 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 210000005084 renal tissue Anatomy 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- -1 urine Substances 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
第1のデータセットから(i)対象に対する遺伝子型データ及び(ii)関心のある遺伝子を有する対象の1人以上の血縁者に対する遺伝子型データ及び表現型データを受け取り;第2のデータセットから遺伝子型集団データ及び表現型集団データを受け取り、この集団が2人以上の血縁者を含み;1つ以上の関心のある非メンデル遺伝子と関連する対象において遺伝学的リスクを決定するために前記第1及び第2のデータセットにおいてモデルをトレーニングし;対象に対して表現型リスクスコアを出力することを含む、非メンデルリスクスコアを出力するための方法が提供される。対象に対して多遺伝子リスクスコアを出力するためのシステム及び非一時的な機械可読媒体も提供される。
【選択図】図1
【選択図】図1
Description
関連出願に対する相互参照
本願は、それらの全体において参照により本明細書中で組み込まれる2019年3月19日出願の米国特許仮出願第62/820,286号明細書の優先権を主張する。
本願は、それらの全体において参照により本明細書中で組み込まれる2019年3月19日出願の米国特許仮出願第62/820,286号明細書の優先権を主張する。
親類の遺伝学的情報を使用して非メンデル表現型の遺伝学的リスクを決定するための方法が記載される。
メンデル遺伝子の場合、突然変異遺伝子の0、1又は2のバージョンを対象が受け継ぐか否か及びこの遺伝子が顕性又は潜性遺伝を呈するか否かに依存して、表現型を発現する確率は、大まかに言って0又は1である。メンデル表現型に対して、対象に対するリスクは、明確に定義された方法で家系図及び対象の親類の病歴を分析することによって確立される。非メンデル遺伝子の場合、特定の遺伝子突然変異を有する対象が表現型を発現する確率は絶対的に0又は1ではない。さらに、非メンデル表現型は、一般的には複数の遺伝子により影響を受ける。複数遺伝子の影響は、一般的には多遺伝子リスクモデルにおいて捉えられ、これは不正確になりがちであり、各遺伝子の影響を較正するために集団レベルデータを使用する。当技術分野で、対象が非メンデル表現型に対するリスクを有するか否かを決定するためのより正確な方法、特に家族病歴を組み込み得る方法が必要とされている。
対象の親類の疾患又は表現型の状況を使用することによって各対象に対してより正確になる、非メンデル表現型リスクスコアを出力するための方法が提供される。いくつかの態様は、第1のデータセットから、(i)1つ以上の関心のある非メンデル遺伝子を有する対象に対する遺伝子型データ及び(ii)関心のある非メンデル遺伝子の1つ以上を有する対象の1人以上の血縁者に対する遺伝子型データ及び表現型データを受け取ることを含む。いくつかの態様は、第2のデータセットから、遺伝子型集団データ及び表現型集団データを受け取ることを含み、この集団は2人以上の血縁者の1つ以上のセットを含む。いくつかの態様は、関心のある非メンデル遺伝子の1つ以上と関連する対象においてリスクを決定するために、第1及び第2のデータセットにおいてモデルをトレーニングすることを含む。いくつかの態様は、対象に対する表現型リスクスコアを出力することを含む。
いくつかの態様では、第2のデータセットは、2人以上の血縁者の複数セットに対する遺伝子型集団データ及び表現型集団データを含む。
いくつかの態様では、第1のデータセット中の血縁者は、対象の母、父、兄弟、姉妹、息子、娘、祖父、祖母、叔母、叔父、姪、甥及び従兄弟姉妹(first cousin)の1人以上を含む。いくつかの態様では、第2のデータセットは、第1のデータセット中の対象と同じ血縁関係を有する2人以上の対象を含む。
いくつかの態様では、血縁者の1人以上は男性の親類である。いくつかの態様では、血縁者の1人以上は女性の親類である。
いくつかの態様では、第1のデータセットは、対象の複数の血縁者に対するデータを含む。いくつかの態様では、血縁者の1人以上は男性の親類であり、血縁者の1人以上は女性の親類である。
いくつかの態様では、関心のある遺伝子は関心のある遺伝子変異体である。
いくつかの態様では、第1のデータセット及び第2のデータセットは、表現型開始年齢と関連するデータを含む。
プロセッサと;プロセッサにより実行される際にこのプロセッサに対して演算を実施させる命令を格納するための、プロセッサと結合されるメモリと、を含むシステムも提供され、この演算は、第1のデータセットから、(i)1つ以上の関心のある非メンデル遺伝子を有する対象に対する遺伝子型データ及び(ii)関心のある遺伝子のうち1つ以上を有する前記対象の1人以上の血縁者に対する遺伝子型データ及び表現型データを受け取り;第2のデータセットから、遺伝子型集団データ及び表現型集団データを受け取り、この集団が2人以上の血縁者の1つ以上のセットを含み;関心のある非メンデル遺伝子の1つ以上と関連する対象におけるリスクを決定するために第1及び第2のデータセットにおいてモデルをトレーニングし、対象に対する表現型リスクスコアを出力することを含む。
プロセッサにより実行される際に、このプロセッサに対して演算を実施させる、そこに格納される命令を有する非一時的な機械可読媒体も提供され、この演算は、第1のデータセットから、(i)1つ以上の関心のある非メンデル遺伝子を有する対象に対する遺伝子型データ及び(ii)関心のある遺伝子のうち1つ以上を有する対象の1人以上の血縁者に対する遺伝子型データ及び表現型データを受け取り;第2のデータセットから、遺伝子型集団データ及び表現型集団データを受け取り、この集団が2人以上の血縁者の1つ以上のセットを含み;関心のある非メンデル遺伝子の1つ以上と関連する対象におけるリスクを決定するために第1及び第2のデータセットにおいてモデルをトレーニングし、対象に対する表現型リスクスコアを出力することを含む。
システム又は非一時的な機械可読媒体に関連するいくつかの態様では、第2のデータセットは、2人以上の血縁者に対する遺伝子型集団データ及び表現型集団データを含む。いくつかの態様では、第1のデータセット中の血縁者は、対象の母、父、兄弟、姉妹、息子、娘、祖父、祖母、叔母、叔父、姪、甥及び従兄弟姉妹(first cousin)のうち1人以上を含む。いくつかの態様では、第2のデータセットは、第1のデータセット中の対象と同じ血縁関係を有する2人以上の対象を含む。いくつかの態様では、この血縁者の1人以上は男性の親類である。いくつかの態様では、この血縁者の1人以上は女性の親類である。
システム又は非一時的な機械可読媒体に関連するいくつかの態様では、第1のデータセットは、対象の複数の血縁者に対するデータを含む。いくつかの態様では、この血縁者の1人以上は男性の親類であり、この血縁者の1人以上は女性の親類である。
システム又は非一時的な機械可読媒体に関連するいくつかの態様では、関心のある遺伝子は関心のある遺伝子変異体である。
システム又は非一時的な機械可読媒体に関連するいくつかの態様では、第1のデータセット及び第2のデータセットは、表現型開始年齢と関連するデータを含む。
多遺伝子リスクスコアを出力するための方法も提供され、この方法は、第1のデータセットから、(i)1つ以上の関心のある非メンデル遺伝子を有する対象に対する遺伝子型データ及び(ii)関心のある非メンデル遺伝子のうち1つ以上を有する対象の1人以上の血縁者に対する遺伝子型データ及び表現型データを受け取り;第2のデータセットから、遺伝子型集団データ及び表現型集団データを受け取り、この集団が2人以上の血縁者の1つ以上のセットを含み;1つ以上の関心のある非メンデル遺伝子に基づき、対象におけるリスクを決定するために第1及び第2のデータセットにおいてモデルをトレーニングし、対象に対する表現型リスクスコアを出力することを含む。いくつかの態様は、血縁者の表現型データが与えられたとき、対象におけるリスクと比較して、対象におけるリスクが1つ以上の関心のある非メンデル遺伝子によりどのように変化させられるかを予測するために、第1及び第2のデータセットにおいてモデルをトレーニングすることを含む。
表現型リスクスコアに基づいて対象を処置する方法も提供される。
本明細書中で使用される技術及び科学用語は、別段定められない限り、本発明が属する技術分野の当業者により一般的に理解される意味を有する。次の記載及び実施例において言及される物質は、別段示されない限り、市販供給源から入手可能である。
本明細書中で使用される場合、「a」、「an」及び「the」の単数形は、単数のみを示すことが明らかに述べられない限り、単数及び複数の両方を示す。
「約」という用語は、包含される数が本明細書中で示される正確な数に限定されないことを意味し、本発明の範囲から逸脱することなく、実質的に引用される数の前後の数を指すものとする。本明細書中で使用される場合、「約」は当業者により理解され、それが使用される文脈においてある程度まで変動する。それが使用される文脈が与えられるとき、当技術分野の熟練者にとって明確でない用語の使用がある場合、「約」は、特定の用語のプラス又はマイナス10%までを意味する。
「血縁者」という用語は、1人以上の共通祖先を有する2人以上の対象を指す。対象の血縁者の非限定例としては、対象の母、父、兄弟、姉妹、息子、娘、祖父、祖母、叔母、叔父、姪、甥及び/又は従兄弟姉妹(first cousin)が挙げられる。いくつかの態様では、血縁者は男性である。いくつかの態様では、血縁者は女性である。
「遺伝子」という用語は、ポリペプチドをコードするか又は生物において機能的役割を果たす一続きのDNA又はRNAに関する。遺伝子は、野生型遺伝子又は野生型遺伝子の変異体若しくは突然変異であり得る。「関心のある遺伝子」は、特定の表現型又は特定の表現型のリスクと関連することが知られていてもよいし、知られていなくてもよい、遺伝子又は遺伝子の変異体を指す。
「発現」は、DNA鋳型から(mRNA又は他のRNA転写物などへ)ポリヌクレオチドが転写される過程及び/又は転写されたmRNAが次にペプチド、ポリペプチド又はタンパク質へ翻訳される過程を指す。核酸配列がペプチド、ポリペプチド又はタンパク質をコードする場合、遺伝子発現は、核酸(例えばDNA又はRNA、例えばmRNAなど)及び/又はペプチド、ポリペプチド若しくはタンパク質の産生に関する。従って、「発現レベル」は、試料中の核酸(例えばmRNA)又はタンパク質の量を指し得る。
対象が表現型を有するリスクを決定するために遺伝学的情報を使用する、新規及び予想外の方法を記載する。非メンデル遺伝子の場合、対象が表現型を発現する確率は集団データから算出され得る。しかし、対象が、それらの親類と同じ突然変異である遺伝子突然変異を有する場合、及び親類がその表現型を有する場合、対象が表現型を発現する確率は、親類のデータなしで算出した集団リスクを用いる場合よりも正確に算出され得る。
遺伝子選択
関心のある遺伝子は、当技術分野で公知の何らかの手段により同定され得る。例えば,関心のある遺伝子は、対象の個人ゲノムに基づいて選択され得る。いくつかの態様では、関心のある遺伝子は既知の非メンデル遺伝子である。いくつかの態様では、関心のある遺伝子は、関心のある遺伝子変異体である。いくつかの態様では、関心のある遺伝子は独立に、観察される表現型と統計学的に有意に関連付けられていない。いくつかの態様では、関心のある遺伝子は、観察される表現型と関連付けられることが知られている。
関心のある遺伝子は、当技術分野で公知の何らかの手段により同定され得る。例えば,関心のある遺伝子は、対象の個人ゲノムに基づいて選択され得る。いくつかの態様では、関心のある遺伝子は既知の非メンデル遺伝子である。いくつかの態様では、関心のある遺伝子は、関心のある遺伝子変異体である。いくつかの態様では、関心のある遺伝子は独立に、観察される表現型と統計学的に有意に関連付けられていない。いくつかの態様では、関心のある遺伝子は、観察される表現型と関連付けられることが知られている。
データセット選択
リスクを判定するためのデータセットは、当技術分野で公知の何れかの手段により得られ得る。例えば、第1のデータセットは、対象に対する、及びまた対象の1人以上の血縁者に対する、遺伝子型データ及び表現型データを含み得る。遺伝子型データは、1つ以上の関心のある遺伝子に対する発現データを含み得る。表現型データは、疾患の特定の症状又は何れの疾患とも関連づけられない対象の観察可能な特徴を含め、観察可能な特徴又は疾患の形質を含み得る。
リスクを判定するためのデータセットは、当技術分野で公知の何れかの手段により得られ得る。例えば、第1のデータセットは、対象に対する、及びまた対象の1人以上の血縁者に対する、遺伝子型データ及び表現型データを含み得る。遺伝子型データは、1つ以上の関心のある遺伝子に対する発現データを含み得る。表現型データは、疾患の特定の症状又は何れの疾患とも関連づけられない対象の観察可能な特徴を含め、観察可能な特徴又は疾患の形質を含み得る。
第1のデータセットは、対象及び対象の1人以上の血縁者において1つ以上の関心のある遺伝子の発現を検出することによって、用意され得る。いくつかの態様では、対象からの及び対象の1人以上の血縁者からの遺伝子型データ及び/又は表現型データは、複数の供給源から獲得される。
いくつかの態様では、第1のデータセットは、対象及び/又は血縁者の年齢に関する情報をさらに含む。いくつかの態様では、第1のデータセットは、対象及び/又は対象の血縁者における、表現型(例えば疾患若しくは状態又は疾患若しくは状態が関連付けられる特定の症状)の開始年齢に関する情報を含む。
いくつかの態様では、対象は特定の表現型を有する。いくつかの態様では、対象はその表現型を持たない。いくつかの態様では、対象は1つ以上の関心のある遺伝子を保有する。いくつかの態様では、対象は関心のある遺伝子を保有しない。いくつかの態様では、対象の1人以上の血縁者は関心のある遺伝子の1つ以上を保有し、対象でも観察される表現型を示す。いくつかの態様では、対象の血縁者の1人以上が関心のある遺伝子の1つ以上を保有し、対象で観察されない表現型を示す。いくつかの態様では、対象の血縁者の1人以上は、関心のある遺伝子の1つ以上を保有し、対象でも観察される表現型を示す。いくつかの態様では、対象の血縁者の1人以上は、関心のある遺伝子の1つ以上を保有せず、対象で観察されない表現型を示す。
遺伝子型集団データ及び表現型集団データを有する第2のデータセットが使用され得る。非メンデル遺伝子に対するこのような集団データは、表現型を発現する対象の確率を決定するために使用され得る。いくつかの態様では、集団データは、2人以上の血縁者からのデータを含む。いくつかの態様では、集団データは、2人以上の血縁者の1つ以上のセット、例えば血縁者の、2セット、3セット、4セット、5セット、10セット以上からのデータを含む。血縁者間の関係は、第1のデータセット中の対象と血縁者との間の関連と同じであり得るか、異なり得るか又は重複し得る。いくつかの態様では、集団データからの2人以上の血縁者は、第1のデータセットに対して使用される対象に対する血縁者ではない。いくつかの態様では、第2のデータセットに対するデータは、1つ以上の公開データベースから収集される。このようなデータベースの非限定例としては、United Kingdom(UK)Biobank;National Center for Biotechnology Information(NCBI)により維持されるDatabase of Genotype and Phenotype(dbGaP)の一部である様々な遺伝子型-表現型データセット;The European Genome-phenome Archive;OMIM;GWASdb;PheGenl;Genetic Association Database(GAD);及びPhenomicDBが挙げられ得る。
データセットは、様々な組織又は体液の1つ以上からのデータを使用して収集され得る。例えば、第1及び/又は第2のデータセットは独立に、脳組織、心臓組織、肺組織、腎臓組織、肝臓組織、筋肉組織、骨組織、胃組織、腸組織、食道組織及び/又は皮膚組織又はこのような組織のあらゆる組み合わせと関連するデータを含み得る。さらに又は或いは、データセットは、体液、例えば尿、血液、血漿、血清、唾液、精液、痰、脳脊髄液、粘液、汗、硝子体液及び/又は乳汁又はこのような体液のあらゆる組み合わせなどと関連するデータを含み得る。
いくつかの態様では、データセットは、特定の状態及び/又は特定の症状を有する対象からのデータを使用して収集される。いくつかの態様では、データセットは、複数の組織及び/又は複数の体液からの試料を使用して収集される。
表現型リスクスコア
いくつかの態様は、対象に対する表現型リスクスコアを決定することを含む。表現型リスクスコアは、対象が特定の表現型(例えば疾患若しくは状態又は疾患若しくは状態の症状)を発現する見込みを示し得る。多遺伝子リスクスコアは、機械学習(教師あり及び/又は教師なし機械学習アルゴリズムを含む)を使用して決定され得る。いくつかの態様では、多遺伝子リスクスコアは、(例えば対象及び対象の1人以上の血縁者に対する遺伝子型データ及び表現型データを有する)第1のデータセット及び(例えば遺伝子型集団データ及び表現型集団データを有する)第2のデータセットにおいてモデルをトレーニングすることにより計算され得る。いくつかの態様では、トレーニングは、正規化(例えばハウスキーピング遺伝子の発現レベルに対して関心のある遺伝子の転写発現レベルを正規化する)及び/又は標準化段階(例えばゼロ平均に対して転写物の存在量をスケーリングするためにSVMを介する)を含む。
いくつかの態様は、対象に対する表現型リスクスコアを決定することを含む。表現型リスクスコアは、対象が特定の表現型(例えば疾患若しくは状態又は疾患若しくは状態の症状)を発現する見込みを示し得る。多遺伝子リスクスコアは、機械学習(教師あり及び/又は教師なし機械学習アルゴリズムを含む)を使用して決定され得る。いくつかの態様では、多遺伝子リスクスコアは、(例えば対象及び対象の1人以上の血縁者に対する遺伝子型データ及び表現型データを有する)第1のデータセット及び(例えば遺伝子型集団データ及び表現型集団データを有する)第2のデータセットにおいてモデルをトレーニングすることにより計算され得る。いくつかの態様では、トレーニングは、正規化(例えばハウスキーピング遺伝子の発現レベルに対して関心のある遺伝子の転写発現レベルを正規化する)及び/又は標準化段階(例えばゼロ平均に対して転写物の存在量をスケーリングするためにSVMを介する)を含む。
いくつかの態様では、表現型リスクスコアは、オーバーサンプリング又はアンダーサンプリングなど、リサンプリング技術を使用して決定される。いくつかの態様は、ビニング及び/又はバギング技術を使用することを含む。いくつかの態様では、パラメトリック及び/又は非パラメトリック統計学的検定を使用して、対象間の発現の相違を評価する。
いくつかの態様では、表現型のリスクがあるものとして対象を分類するために表現型リスクスコアが使用され得る。分類は、例えばSVM、ロジスティック回帰分析、ランダムフォレスト、ナイーブベイズ及び/又はアダブーストを使用して行われ得る。いくつかの態様では、表現型リスクスコアは、対象が表現型を発現する確率である。いくつかの態様では、表現型リスクスコアは、特定の年齢までに対象が表現型を発現する確率である。
いくつかの態様では、表現型リスクスコアは、曲線下面積(AUC)測定を使用して決定される。例えばAUCは、約0.5超、約0.55超、約0.6超、約0.65超、約0.7超、約0.75超、約0.8超、約0.85超、約0.9超、約0.95超、約0.97超、約0.98超又は約0.99超であり得る。
実行システム
本明細書中で記載される方法は、様々なシステム上で実行され得る。例えば、いくつかの態様では、表現型リスクスコアを決定するためのシステムは、メモリに結合される1つ以上のプロセッサを含む。本方法は、1つ以上の電子デバイス上で格納され実行されるコード及びデータを使用して実行され得る。このような電子デバイスは、非一時的なコンピュータ可読記憶媒体などのコンピュータ可読媒体(例えば磁気ディスク;光学ディスク;ランダムアクセスメモリ;読み取り専用メモリ;フラッシュメモリ装置;相変化メモリ)及び一時的コンピュータ可読伝送媒体(例えば電気的、光学的、音響的又は他の形態の伝播シグナル-搬送波、赤外線シグナル、デジタルシグナルなど)を使用して、コード及びデータを(内部に及び/又はネットワーク上の他の電子デバイスで)格納し、通信し得る。
本明細書中で記載される方法は、様々なシステム上で実行され得る。例えば、いくつかの態様では、表現型リスクスコアを決定するためのシステムは、メモリに結合される1つ以上のプロセッサを含む。本方法は、1つ以上の電子デバイス上で格納され実行されるコード及びデータを使用して実行され得る。このような電子デバイスは、非一時的なコンピュータ可読記憶媒体などのコンピュータ可読媒体(例えば磁気ディスク;光学ディスク;ランダムアクセスメモリ;読み取り専用メモリ;フラッシュメモリ装置;相変化メモリ)及び一時的コンピュータ可読伝送媒体(例えば電気的、光学的、音響的又は他の形態の伝播シグナル-搬送波、赤外線シグナル、デジタルシグナルなど)を使用して、コード及びデータを(内部に及び/又はネットワーク上の他の電子デバイスで)格納し、通信し得る。
メモリには、表現型リスクスコアを決定するためにモデルをトレーニングするためのコンピュータ命令が搭載され得る。いくつかの態様では、このシステムは、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、スーパーコンピュータ、超並列コンピュータプラットフォーム、テレビ、メインフレーム、サーバファーム、広範囲分散型の一連の緩やかにネットワーク化されたコンピュータ又は何らかの他のデータ処理システム又はユーザーデバイスなど、コンピュータ上で実行される。
本方法は、ハードウェア(例えば回路網、専用論理など)、ファームウェア、ソフトウェア(例えば非一時的コンピュータ可読媒体上で統合)又は両者の組み合わせを含むロジックを処理することによって行われ得る。あらゆる順序で又は平行して、記載される演算が行われ得る。
一般に、プロセッサは、読み取り専用メモリ又はランダムアクセスメモリ又は両方から命令及びデータを受信し得る。コンピュータは一般に、命令に従いアクションを行い得るプロセッサ及び命令及びデータを格納するための1つ以上の記憶装置を含有する。一般に、コンピュータは、そこからデータを受け取るか又はそこにデータを伝達するか又は両方のために、データを格納するための1つ以上の大容量記憶装置、例えば磁気ディスク、光磁気ディスク、光学ディスク又はソリッドステートドライブも含むか又はそれに操作可能に結合される。しかし、コンピュータは、このようなデバイスを有する必要はない。さらに、コンピュータは、別のデバイス、数例挙げると、例えばスマートフォン、携帯型オーディオ又はメディアプレーヤー、ゲームコンソール、全地球測位システム(GPS)受信機又はポータブル記憶装置(例えばユニバーサル・シリアル・バス(USB)フラッシュドライブ)に埋め込まれ得る。コンピュータプログラム命令及びデータを格納するのに適切な装置としては、例として半導体記憶装置、例えば、EPROM、EEPROM及びフラッシュメモリ装置;磁気ディスク、例えば内部ハードディスク又はリムーバブルディスク;光磁気ディスク;及びCD ROM及びDVD-ROMディスクを含む、不揮発性メモリ、媒体及び記憶装置の全ての形態が挙げられる。プロセッサ及びメモリは、特別な目的の理論回路により供給され得るか又はそれに組み込まれ得る。
1つ以上のコンピュータのシステムは、演算においてアクションを実行させるか又はシステムがアクションを実行するようにするシステム上にインストールされる、ソフトウェア、ファームウェア、ハードウェア又はそれらの組み合わせを有することにより、特定の演算又はアクションを行うために構成され得る。1つ以上のコンピュータプログラムは、データ処理装置により実行される際にその装置がアクションを実施するようにする命令を含むことによって特定の演算又はアクションを行うために構成され得る。
代表的な実行システムを図2で示す。このようなシステムは、本明細書中に記載の演算の1つ以上を実施するために使用され得る。計算装置は、LAN、イントラネット、エクストラネット及び/又はインターネットで他の計算装置と連結され得る。計算装置は、クライアントサーバーネットワーク環境でのサーバーマシンの容量において又はピアトゥピアネットワーク環境でのクライアントの容量において動作し得る。
診断及び処置
いくつかの態様では、対象(例えばヒト対象)は、表現型リスクスコアに基づき、状態若しくは疾患を有するものとして、又は状態若しくは疾患を有するリスクがあるものとして診断される。例えば、いくつかの態様では、特定の表現型リスクスコアを有する対象は、状態又は疾患を有すると診断される。いくつかの態様では、特定の表現型リスクスコアを有する対象は、状態若しくは疾患又は1つ以上のその症状を発現するリスクが上昇していると判定される。
いくつかの態様では、対象(例えばヒト対象)は、表現型リスクスコアに基づき、状態若しくは疾患を有するものとして、又は状態若しくは疾患を有するリスクがあるものとして診断される。例えば、いくつかの態様では、特定の表現型リスクスコアを有する対象は、状態又は疾患を有すると診断される。いくつかの態様では、特定の表現型リスクスコアを有する対象は、状態若しくは疾患又は1つ以上のその症状を発現するリスクが上昇していると判定される。
いくつかの態様は、状態若しくは疾患又は疾患若しくは状態の1つ以上の症状を有するか又はそのリスクが上昇していると判定された対象を処置することを含む。「処置する(treat)」という用語は、(1)疾患若しくは状態の発症若しくは進行を遅延させるか若しくは予防すること;(2)疾患若しくは状態の症状の進行、増悪若しくは悪化を遅延若しくは停止させること;(3)疾患若しくは状態の症状を寛解させること;又は(4)疾患若しくは状態を治癒させることを目的とする方法又は過程を特徴付けるために本明細書中で使用される。疾患又は状態の開始後に処置が施され得る。或いは、予防的又は予防行為のために、疾患又は状態の発症前に処置が施され得る。この場合、「予防」という用語が使用される。いくつかの態様では、この処置は、その全体において参照により本明細書中に組み込まれるFDA’s Orange Bookの最新バージョンで列挙される薬物製品を投与することを含む。代表的な状態及び処置も、それぞれがその全体において参照により本明細書中に組み込まれるPHYSICIANS’ DESK REFERENCE(PRD Network 71st ed.2016);及びTHE MERCK MANUAL OF DIAGNOSIS AND THERAPY(Merck 20th ed.2018)に記載されている。
次の実施例は、本発明を例示するために提供されるが、これらの実施例の具体的な条件又は詳細に本発明が限定されないことを理解されたい。
実施例
実施例1:親類の情報を使用したリスクの精密化
単純化した実施例として、遺伝子g上の可能性のある突然変異mを考え、Xgmは、突然変異が存在するときにXgm=1であり、突然変異がないときにXgm=0である、バイナリ指標変数とする。効率性のために、Xgmは、交換可能に、突然変異、突然変異の遺伝子座を指すために、及びその遺伝子座に突然変異が存在するか否かの指標として、使用される。突然変異Xgmがあるサブ集団において、表現型は、P(Xgm)=pgmの確率で生じる(この記号は続く実施例を通じて使用する)。一元配置pgmは試験から測定され得:
(式中、Ngm,affected及びNgm,unaffectedは、それぞれ表現型を有する及び有しない、突然変異Xgmがある対象(例えばヒト)の数である)である。
実施例1:親類の情報を使用したリスクの精密化
単純化した実施例として、遺伝子g上の可能性のある突然変異mを考え、Xgmは、突然変異が存在するときにXgm=1であり、突然変異がないときにXgm=0である、バイナリ指標変数とする。効率性のために、Xgmは、交換可能に、突然変異、突然変異の遺伝子座を指すために、及びその遺伝子座に突然変異が存在するか否かの指標として、使用される。突然変異Xgmがあるサブ集団において、表現型は、P(Xgm)=pgmの確率で生じる(この記号は続く実施例を通じて使用する)。一元配置pgmは試験から測定され得:
この実施例に対して、Xgmの他に1つのみ他の突然変異が表現型に影響を与えることが知られており(例えば突然変異n及び遺伝子h、Xhn)、XhnがXgmと連鎖不平衡ではないと仮定されるゲノムにおいて未知の位置にあると仮定する。この実施例に対して、Xhnは、Xgm及びXhnが突然変異している場合には対象が表現型を発現するが、Xgm又はXhnのみが突然変異している場合には対象が表現型を発現しないという、スイッチのように働くと仮定する。母及び子がXgm突然変異しており、母が表現型を有する場合、子のリスクは、pgmとしてサブ集団試験に基づいてリスクが決定される場合よりも、正確に予測され得る。この実施例に対して、突然変異Xhnは、複数コピーを有する父又は母からこの突然変異を受け取る確率を無視できるほど十分に稀であると仮定する。従って、子が母からXhn突然変異を受け継ぐ50%の見込みがあるので、子が表現型を発現する見込みはおよそ50%である。この実施例に対して、表現型について一般的集団リスクが1%前後であり、突然変異Xgmがリスクを50%上昇させる稀な突然変異であり、血縁者からのデータが含まれない突然変異Xgmを有する個体の場合、およそ1.5%までリスクを上昇させる、と仮定する。子がXgm突然変異しており、母がXgm突然変異していて、表現型を有することが分かっている場合、子のリスクはここで1.5%ではなく50%となる。つまり、50%の中程度のリスク上昇として考えても、XhnがXgmに対するスイッチとして働くという単純化したシナリオが与えられる場合、突然変異及び表現型を有する母の情報の影響は相当なものである。
Xgmと相互作用する突然変異全てが表現型に影響を与えること又はそれらの相互作用の機序について分からないというシナリオにおいて、血縁者が同じ突然変異及び関連付けられる表現型を有する場合、対象が表現型を発現する確率を経験的に推定するために、上で概説する概念を適用し得る。これは、特定の縁戚関係及び特定の突然変異又は遺伝子に対して固有のリスクを計算するために遺伝子型-表現型データベースから情報を抽出することを含む。対象は、血縁者r(rは母、父、兄弟、姉妹、息子、娘、祖父、祖母、叔母、叔父、姪、甥、従姉妹、従兄弟などであり得る)と突然変異Xgmを共有すると仮定する。ここで、対象が、表現型が発現されると思われる年齢よりも前の年齢であると仮定すると、対象の生涯リスクは、対象の現在の年齢の影響について調整せずに考え得る(以下で論じるように別々に組み込まれ得る)。突然変異Xgmを有しており、突然変異Xgm及び表現型がある親類rを有し、及び、その人において表現型が発現するであろう場合は、死亡しているか又は表現型が発現しているであろう年齢であるかの何れかである、データベースNgm,r中の者の人数を求める(そうすると完全な生涯リスクを計算し得るようになる)。次に、表現型により影響されたNgm,rからの人数Ngm,r,affectedを求める。対象が表現型を発現する推定確率は次のとおりである:
実施例2-限定データの管理
二項分布の正規近似に対して-小さい数に対して正確な二項を使用し得る-
の推定値の分散を求める:
pgmは、突然変異Xgmが与えられる場合、親類における情報とは独立に表現型を発現する確率を表す。十分な信頼性で、例えば2標準偏差分、pgmとは異なる場合、即ち
である場合、
を使用し得、
又は、pgmの経験的推定値も求められている場合:
である。次の基準:
を使用し得る
二項分布の正規近似に対して-小さい数に対して正確な二項を使用し得る-
又は、pgmの経験的推定値も求められている場合:
又は、控えめにする(conservatism)目的でpgmの方向でいくつかの標準偏差で、
を調整し得る:例えば2-シグマ調整を使用して、
である場合、
である。別のアプローチは、データベースを複数のサブデータベースに分割することであり、経験的に各サブデータベースについて、
を計算し、標本分散を算出することによって、
の推定値において分散を上に有界にする(upper-bounding)。
実施例3:類似の親類関係の組み合わせ
別のアプローチは、男性及び女性の親類におけるデータを組み合わせることであり、X染色体上に存在し、Y染色体上に存在しない遺伝子は、表現型の発現での影響が最小であると仮定する。
別のアプローチは、男性及び女性の親類におけるデータを組み合わせることであり、X染色体上に存在し、Y染色体上に存在しない遺伝子は、表現型の発現での影響が最小であると仮定する。
さらに、関心のある対象と同様の量の遺伝物質を共有する親類からの情報を組み合わせ得る。この場合、rは、対象と同量の遺伝情報を共有する親類の各群を表すこととする。各群rに対するカウントをプールする。即ち、上記と同様のアプローチを使用して、Ngm,rはここで、突然変異Xgmを有しており、突然変異Xgm及び表現型がある群r中の親類を有する、データベース中の人数を表し;Ngm,r,affectedはここで、影響される者の数を表す。例えばr=1/2は、対象の遺伝学的情報の半分がある群-母、父、兄弟、姉妹、息子、娘;r=1/4は遺伝学的情報の4分の1がある群-祖父、祖母、異父又は異母兄弟、異父又は異母姉妹、叔母、叔父、姪、甥、男の孫、女の孫など;r=1/8は遺伝学的情報の8分の1がある群を表す。このアプローチにおいて、Xgm及び表現型を有し、同じ親類群rにある親類を有する何れか2人の対象は、同じ
を有する。この同じアプローチは、親類が対象と同量の遺伝学的情報を共有し、群の他のメンバーと同じ性別であるか否かに従い、親類を群分けするために適用され得る。この場合、例えば対象の遺伝学的情報の1/4を有する群は、男性群:祖父、異父又は異母兄弟、叔父、甥、男の孫など及び女性群:祖母、異父又は異母姉妹、叔母、姪、女の孫など、に分けられる。rにより表される場合、親類の多くの異なる組み合わせ又はセットが使用され得、Xgを有するセット中の親類の多くの異なるサブセットは、カウントNgm,r中に対象を含むために、単に1つ以上というのではなく、表現型を有することを必要とされ得る。
実施例4:遺伝子レベル突然変異
別のアプローチは、切り離して各変異体を処理するのではなく、遺伝子レベルで突然変異の存在に対処することである。即ちXgが突然変異した遺伝子gに相当するものとし、これは例えば機能喪失など、機能遺伝子gにおいて同じ効果を有することが知られる突然変異Xgm,m=1...M全てを組み込む。この場合、機能遺伝子gにおいて機能喪失突然変異を有する人及び遺伝子gにおいて機能喪失突然変異など、そのタイプの突然変異をまた有する群r中の親類の数である、Ng,rをカウントし得る。次に遺伝子レベルでの確率を計算し得る:
別のアプローチは、切り離して各変異体を処理するのではなく、遺伝子レベルで突然変異の存在に対処することである。即ちXgが突然変異した遺伝子gに相当するものとし、これは例えば機能喪失など、機能遺伝子gにおいて同じ効果を有することが知られる突然変異Xgm,m=1...M全てを組み込む。この場合、機能遺伝子gにおいて機能喪失突然変異を有する人及び遺伝子gにおいて機能喪失突然変異など、そのタイプの突然変異をまた有する群r中の親類の数である、Ng,rをカウントし得る。次に遺伝子レベルでの確率を計算し得る:
実施例5:年齢の組み込み
別のアプローチは、データベース中の人々の年齢に対処し、Ngm,rの算出において死亡している人を考慮することのみ必要であることを取り除く。突然変異ではなく遺伝子レベルで作業するので、Ngm,rの代わりにNg,rを計算し得る。
別のアプローチは、データベース中の人々の年齢に対処し、Ngm,rの算出において死亡している人を考慮することのみ必要であることを取り除く。突然変異ではなく遺伝子レベルで作業するので、Ngm,rの代わりにNg,rを計算し得る。
基本的な概念を変更することなく、まだ表現型を発現していない対象に対してpg,r(A)を近似するための多くの他の方法があることに注意されたい。例えば、限定データに対して、pr(A)又はpg(A)を算出することによってpg,r(A)を近似し得、即ち彼らが突然変異Xgを有するか又は突然変異Xgがある親類rを有することを必要とすることに基づいてデータベース中で対象をフィルタリングしない。
限定データによる別のアプローチは、それらが突然変異Xg又は親類rを有するか否かとは独立に、表現型を発現したデータベース中の全員を考慮し、表現型が発現されたときのヒストグラムを算出することである。このような模擬例のヒストグラムを、平均発症年齢60歳の表現型について図1のバーにおいて示す。年齢の関数としての表現型を発現する個人の累積確率が算出され得、赤で示され、これは、表現型を発現する集団内頻度であるpに漸近し、この場合p=0.2である。pとは異なるリスクを有する個々の対象について、表現型が発現すると思われる年齢に対する相対確率は不変であると見積もり得る。その場合、推定生涯リスク
の対象について、
により、累積確率を単純にスケーリングし得る。この実施例において、対象に対する累積確率は、
に漸近する灰色の線で示される。近似仮定を使用して、これは、平均60歳の基礎的な確率分布に対する累積確率分布のままである。年齢Aの対象の場合、対象の生涯において対象がこれから蓄積する確率がさらにどの程度大きいかを決定することによって、
が求められ得、図面の例では、年齢A=40で垂直線として示され、
である。対象に対する年齢により調整される集団遺伝学及び疫学由来の他の仮定及び確率分布を用いて、基本的な概念を変化させることなく、このテーマにおける多くのバリエーションが可能である。
実施例6:複数の親類の効果の組み合わせ
別のアプローチは、対象が、変異体及び表現型がある複数の親類を有するという状況を含む。最も単純なアプローチは、上記と同じ方法を使用することであるが、データベースにおいて1人の親類のみを有する場合をカウントするのではなく、複数の親類の同じセットを有する全例をカウントし、この場合、親類は、対象と共通の遺伝学的データの同量を共有している、及び特定の性別であるなど、上記の群分けrに関して分類される。例えば、性別により、並びに共通する遺伝学的情報の量により群分けする場合、全てが変異体及び疾患を有する1人の父、1人の叔父及び1人の祖父を有する対象は、例えば変異体及び疾患を有する2人の息子及び1人の叔父を有する対象と一緒にカウントされ得る。別の例として、共通する遺伝学的情報の量によってのみ群分けする場合、全てが変異体及び疾患を有する1人の父、1人の叔母及び1人の祖母を有する対象は、例えば変異体及び疾患を有する2人の息子及び1人の叔父を有する対象と一緒にカウントされ得る。
別のアプローチは、対象が、変異体及び表現型がある複数の親類を有するという状況を含む。最も単純なアプローチは、上記と同じ方法を使用することであるが、データベースにおいて1人の親類のみを有する場合をカウントするのではなく、複数の親類の同じセットを有する全例をカウントし、この場合、親類は、対象と共通の遺伝学的データの同量を共有している、及び特定の性別であるなど、上記の群分けrに関して分類される。例えば、性別により、並びに共通する遺伝学的情報の量により群分けする場合、全てが変異体及び疾患を有する1人の父、1人の叔父及び1人の祖父を有する対象は、例えば変異体及び疾患を有する2人の息子及び1人の叔父を有する対象と一緒にカウントされ得る。別の例として、共通する遺伝学的情報の量によってのみ群分けする場合、全てが変異体及び疾患を有する1人の父、1人の叔母及び1人の祖母を有する対象は、例えば変異体及び疾患を有する2人の息子及び1人の叔父を有する対象と一緒にカウントされ得る。
限定データの場合、リスクを近似し得、この結果、一般的に、変異体及び疾患を有する対象の親類の一部を無視することにより下界が得られ、より多くのデータがプールされ得るようになる。この場合、一般的にはより多くの遺伝学的情報を対象と共有する親類を優先する。例えば、全てが変異体及び疾患を有する1人の父、1人の叔父及び1人の祖父を有する対象は、変異体及び疾患を有する唯一の親類、父、を有する対象として処理され得る。
別のアプローチは、親類のいくつかのカテゴリーにわたりデータを組み合わせることである。この概念に対して多くの経験的又はヒューリスティックなアプローチがある。例えば、ある代表的なアプローチは、Xgの浸透率に影響する遺伝子の数が非常に多く、これらの各遺伝子の個々の効果量が非常に小さい場合に適切である。
は、親類から関連がある突然変異遺伝子の全てを受け継ぐ場合の、確立された確率pgからの差を表すものとする。ここで、確率の変化が、受け継がれる関連突然変異遺伝子の数に対して比例して増減するという、非常に単純化した及び不正確な(non-accurate)仮定を作り得る。
(式中、各親類群に対して上で記載するように、r=1/2、1/4、1/8...である)。
実施例7:多遺伝子リスクスコアに対する本方法の適用
表現型を発現する確率を述べる多遺伝子リスクスコア又は回帰モデルという観点から、又は表現型の確率を決定するための他の機械学習モデルにおいて、上記の技術が使用され得る。例えば、突然変異又は遺伝子レベルで以下の多遺伝子又は多変量、回帰モデルに基づいて表現型をモデル化し得る:
表現型を発現する確率を述べる多遺伝子リスクスコア又は回帰モデルという観点から、又は表現型の確率を決定するための他の機械学習モデルにおいて、上記の技術が使用され得る。例えば、突然変異又は遺伝子レベルで以下の多遺伝子又は多変量、回帰モデルに基づいて表現型をモデル化し得る:
既に記載のように、遺伝子レベルで指標変数Xgを仮定し、機能喪失又は特定のタイプの機能獲得などの類似タイプの全ての突然変異Xgmを合わせる。遺伝子が突然変異を有する場合はXg=1であり、ない場合はXg=0である。この同じ概念は、機能喪失又は機能獲得突然変異の異なるクラスなどの突然変異の異なる分類に拡大され得る。
以下の例は普遍性を失うことなく突然変異レベルで有効である。上記などの回帰モデルは、本明細書中で概説する方法を使用して、特定の個体に対して誘導される確率に基づいて調整され得る。Pが、本来は確率ではないが、対象の遺伝学的リスクスコアがどのパーセンタイルに入るかを決定するためなど、他のスコアとの関連において意義を有する多遺伝子リスクスコア(PRS)である場合を考える。この場合、各遺伝子又は変異体の効果量に対してバイアスパラメータb0=0などを設定し得る。この効果量bgmは、突然変異Xgmあり及びなしで、疾患表現型Dを発現する確率の比率の対数をとることによって推定され得る。
P(D|Xgm)は、突然変異が与えられる場合の疾患の確率であり、上で計算した確率
により近似される。
を計算するために、展開:
を使用する。
を置き換え、上のものに
に代入し、
を得る(式中、P(Xgm)は、集団における突然変異の度数であり、P(D)は、pとして以前に定義された、集団における表現型の度数である。明確にするために、ここでP(D)を使用する。1つのアプローチは、オッズ比の対数に対してモデルパラメータを設定することである。集団において突然変異が稀である場合、即ちP(Xgm)が小さい場合、これは、
に単純化し、これが実際によく使用されるものである。
がpに近い場合、一般的な場合のように、特定の変異体Xgm効果量が小さく、
を使用し得る。
関心のある個体が、影響される親類rを有することが分かっているとき、影響される親類rが与えられる場合、表現型を発現する確率であるprに対して効果量を使用して、これを考慮に入れるためにパラメータを変化させ得る。
(式中、
は上記のとおりである)。発明者らは、これらのパラメータがなぜpではなくprに対して定められるか及びこのアプローチの長所が何であるかを以下に記載する。しかし、この概念の多くのバリエーションがあることにまず注意することである。例えば、発明者らは、それらの分散の逆数によりパラメータに重み付けし得る:
従って、
である。
なぜパラメータがpではなくprに対して定められるかを理解するために、多遺伝子モデルが、複数の遺伝学的変数から得られる表現型の確率をモデル化しようとしていることを考える。ここで次のように3つの遺伝学的変数X1、X2、X3があると仮定する。
しかし、X1、X2及びX3 がほぼ独立であると仮定する場合、
故に
となり、ここでP(DX2X3)は、独立仮定ゆえに分解され得る。
において置き換える。ここでベイズの規則P(X1|D)/P(X1)=P(D|X1)/P(D)を適用する:
この引数(argument)は、変数X1...XGの何れの数にも適用され得る。これらの独立変数は、遺伝学的表現型である必要がないだけでなく、ライフスタイル又は他の表現型でもあり得ることにも注意すべきである。
logP(D|X1...XG)を算出するための上の説明は、logP(D|X1...XG)を推定するために、各SNPに対する対数オッズ比又はそれに対する近似を合計する、多遺伝子予測モデルの背後の導出及び概念を概説する。
の形の因数のそれぞれは、多遺伝子リスクモデルにおける遺伝子座gに適用されるオッズ比の使用に対して理論的背景を与える。Xg=1である場合、ベースライン集団確率P(D)は
によりスケーリングされるが、Xg=0の場合、P(D)は、
によりスケーリングされる。これは、上記のように多くのPRSモデルで行われることと同様であり、効果量bg:
を算出し、次いで、個々の遺伝学的データに従い効果量を合計することによってPRSスコアを算出する:
Xg=1である場合、上記のように
によりスケーリングされるのではなく、logP(D|Xg=1)加算及びlogP(D|Xg=0)減算の両方を行っている。一般的には疾患の確率を直接推論するためにPRSを使用しないので、これらの2つのシナリオ間の相違は一般に、実際には有意ではない。むしろ、対象は一般的には、それらのPRSに基づきビンへとバケット化され、各ビンは、実際に疾患を有するビン中の個体の割合をカウントすることに基づいて個別に特定のリスクで特徴付けられる。言い換えると、マッピング-通常は線形マッピング-は一般的に、PRSと疾患を有する個体の実際のリスクとの間で作成される。結果的に、PRSの算出に適用される、スケーリングに関する問題の何れも又は効果量の増加は、重要ではない。
PRS又はP(D|X1...Xg)の推定の目的は、対象に対する疾患又は表現型の確率を可能な限り厳密に再現すること及び疾患の異なる確率を有する対象間で可能な限り徹底的な区別を行うことである。親類情報の使用の価値を示すために、下の説明及び以下で論じるMATLABシミュレーションコードにおいて、より理論的な確率の式を使用し得る。即ち、以下の説明は、一般的に行われるように、変数Xrにおいて得られる親類情報を組み込む疾患確率を推定する有効性と、親類情報を使用することなくP(D|X1...Xg)を推定する有効性を比較する。
上記P(D|X1...Xg)を推定するための導出において、変数X1...Xgの独立性に関する強い仮定に基づいていくつかの近似を行った。ここで、Xr変数は、親類又は親類のセットが関心のある疾患又は表現型を有するか否かを表すものとする。この変数は一般的にX1...XGと独立ではない。例えばこれらが遺伝学的変数である場合、影響される親類の存在は、対象が遺伝子を有する確率又はX1=1,...,XG=1である確率にかなりの影響を及ぼす。しかし、集団平均に対するリスク、P(D)を計算する代わりに、関心のある疾患又は表現型を有する確率に対するリスクを代わりに計算する場合、疾患又は表現型を有する親類のセットP(D|Xr)が与えられると、変数X1...XGを超える状況において独立仮説を拡張することなく、家族歴に含有される情報を利用して、より強力な多遺伝子予測モデルを作成し得る。Xrが与えられるとき、X1、X2及びX3の間で同様の独立仮説を使用して、Xr及びX1X2...X3の間の依存性を無視する必要なく、P(D|X1X2X3)に対して上記のように同じ導出引数(derivation argument)を使用して、リスクを計算し得る。
上で記載したことと同様に、あるアプローチは、次のように、PRSを作成して効果量bg,rを算出することである:
式中、P(D|XrXg=1)及びP(D|XrXg=0)は、経験的データから算出される。次に、合計することによって、関連する影響される親類又は一連の影響される親類を有する人に対してPRSスコアを算出する:
続く説明は、独立であるものとして近似される3つの遺伝学的変数の場合に焦点を当てる。P(D|X1X2X3)ではなくモデルP(D|XrX1X2X3)に対して親類Xrからの利用可能なデータを使用する価値を説明するために、MATLABシミュレーションを記載するが、これは、各個体に対する疾患の確率をモデル化するその能力において正確度がより低く、一般的にその結果、より多くの間違った結果、医療費増大、転帰の悪化などが起こる。続く説明は、PRSの代わりにPRSXrを算出するために上の式を同様に利用し得るが、これは、より一層理論的にP(D|X1X2X3Xr)の推定に基づいて使用する。
発明者らが、集団における個々の罹患率が1/20及び1/50である2つの遺伝子X1及びX2を有し、X2がX1に対するスイッチとして働き、対象が、X1=1及びX2=1の両方である場合、表現型を有するようになる例を考える。この実施例をより例示的にするために、これらだけが疾患を引き起こし得る因子ではなく、存在する場合に100%浸透率で疾患を引き起こす別の遺伝子X3があるとさらに仮定する。さらに発明者らは、この概念の一般性を失うことなく、各対象に対して考慮される親類のセットがその両親だけである、即ち、何れかの親が疾患を有する場合はXr=1、両親のどちらも疾患がない場合はXr=0と仮定する。付録AにおけるMATLABコードは、このシナリオに適用される発明概念を実行する。モデルを作成し、モデルを試験するために、シミュレーションが同じデータを使用することに注意すること。これは、シミュレーションされる対象の数と比較して推定されているパラメータが非常に少ないからであり、そのため、新しい試験データを生成させる概ね同じ結果を得る。即ちこのMATLABで実施するための削減は、限定されるデータの効果に焦点を当てるのではなく、モデル化アプローチのそれぞれの多用途性又は上で記載される及びデータにおいて捕捉される疾患確率を正確に推定するためのモデルの能力に焦点を当てる。
図3A及び3Bは、一般的な集団において遺伝子X3が1/100の度数を有する場合の対象のそれぞれに対する、y軸対数スケール上での、予測のヒストグラムを示し、関連遺伝子のサブセットのみがモデルにおいて利用可能である。即ち、図3Aは、遺伝学的変数X1及びX2のみを使用するモデルを記載し、図3Bは遺伝学的変数X1及びX3のみを使用するモデルを記載する。このようなシナリオは、例えば多遺伝子モデルが遺伝子のサブセットにおいてある一定の関連するSNPのみをカバーし、一方で他の関連遺伝子がそのモデル中に含まれない場合によくある。これが生じるのは、例えば、遺伝学的変数の効果及び独立性の線形性を仮定するモデルにおいて、排除される遺伝学的変数が統計学的有意性に到達しないから、又は排除される遺伝子が、有意な効果を一緒に有するがSNP又は「単ヌクレオチドポリモルフィズム」として認識されるのに十分高い度数を有する何れか1つの共通変異体と関連しない、多くの稀な変異体により影響を受けるからである。両図面において、対象のそれぞれに対する真実、即ち、それぞれ1又は0として捉えられる、各対象が疾患を実際に発現したか否か、が含まれる。図3Aは、P(D|X1X2)及びP(D|XrX1X2)を推定することによって、そのデータのモデル化を例示する。図3Bは、P(D|X1X3)及びP(D|XrX1X3)を推定することによって、そのデータのモデル化を例示する。大抵の場合、親類情報を含めることによって、モデルが正しい根本的な統計学的モデルをより厳密に捉え、真実をより正確に模倣することが可能になることが分かり得る。図3Cは、全ての遺伝学的変数、即ちX1X2及びX3が含まれる場合の正確度を例示し、その結果、推定値P(D|X1X2X3)及びP(D|XrX1X2X3)が得られる。図3CもP(X3)=1/100と仮定する。
表1は、この実施例において、両親である親類Xrに関する情報あり及びなしで多遺伝子リスクモデルにおいて遺伝子の異なる組み合わせが使用される場合の、遺伝学的変数の異なる組み合わせを用いた、シミュレーションからのいくつかのモデルの二乗平均平方根誤差(RMSE)を記載する。
図3Cにより表される後者のケースにおいて、両親の疾患歴、即ちXrの組み込みは、RMSEを0.0846から0.0312へ変化させるか又は63%低下させる。
図4A~Cは、P(X3)=1/500であることを除き、図3A~3Cと同様の状況を表す。図5A~Cは、P(X3)=1/2000であることを除き、図3A~3Cと同様の状況を表す。図3、4及び5で記載されるこれらのシナリオの全てに対するRMSEは、他のシナリオとともに表1で捉えられる。一般には、親類情報Xrの組み込みによって一般的に真実のデータとの一致において性能が向上するということに注意すること。
実施例8:表現型確率のモデル化に対する他のアプローチ
(リスクスコアそれ自身ではなく)表現型の確率をモデル化するとき、本明細書中に記載のアプローチを使用して、例えばロジスティック回帰分析に基づくアプローチを使用して、個体に対してパラメータを修正することもできる。遺伝子レベルでは、ロジスティック回帰分析モデルは:
であり得る。
(リスクスコアそれ自身ではなく)表現型の確率をモデル化するとき、本明細書中に記載のアプローチを使用して、例えばロジスティック回帰分析に基づくアプローチを使用して、個体に対してパラメータを修正することもできる。遺伝子レベルでは、ロジスティック回帰分析モデルは:
パラメータa0及びb0をデータにフィットさせ得る場合、bgを選択するために、上で概説される概念を使用している。
遺伝子又は変異体の非線形的組み合わせを使用してP(D|XrX1...XG)の推定に対して、同じ概念が適用され得る。ここで、再び一般性を失わずに、発明者らは変異体レべルではなく遺伝子において作業する。遺伝子間の相互作用を捉えたいと仮定し、2つの遺伝子相互作用に注目しているだけであると仮定する(データについて課題がある可能性があるものの、3つ以上の遺伝子相互作用に同じ概念が適用され得る)。2つの遺伝子X1及びX2の何らかの論理結合:
から回帰モデルに対して独立変数を作成し得る。回帰モデルについては、独立変数のセットにおけるX1及びX2の存在は、X1X2及び
などの独立変数のような2つの付加的な論理結合の使用のみを必要とすることを念頭に置くべきであるが、それは、
などの他の結合の独立変数は、既に含まれる変数に対して線形に依存するからである。限定されるデータを用いて、例えば標準的方法を使用して最初に線形回帰モデルを確立し、次に、有意であることが見出される全ての遺伝子g=1...Gをまとめ、これらの遺伝子の非線形相互作用を記載することによって、遺伝子相互作用を探すモデルを作成し得る。他の機械学習法、例えば、主成分、サポートベクター機器、ニューラルネットワーク、ディープラーニングニューラルネットワーク及び遺伝学的変数をモデルP(D|XrX1...XG)と組み合わせるための他の関数も使用し得る。
付録A: MATLAB式
% rel_sim
% simulates training polygenic prediction using relative relationships
% simulation parameters
n = 1000000; % 1000000; % number of families
p_x1 = 1/20; %1/20; % P(X1) the probability of X1 variant in the general population
p_x2 = 1/50; %1/50; % P(X2) the probability of X2 variant in the general population
p_x3 = 1/2000; %1/100; %1/500; %1/2000; % P(X3) the probability of X3 variant in the general population
% setting up variables
% assume no denovo variants
% assume no homozygotes of variant in parents
% ph_x1 = min(roots([1 -2 p_x1])); % probability per homolog; comment out if assume no homozygotes of variant in parents
% ph_x2 = min(roots([1 -2 p_x2])); % probability per homolog; comment out if assume no homozygotes of variant in parents
% create parents
par1_vec_x1 = (rand(n,1)<p_x1); % 1 if have variant 0 if don't
par1_vec_x2 = (rand(n,1)<p_x2); % 1 if have variant 0 if don't
par1_vec_x3 = (rand(n,1)<p_x3); % 1 if have variant 0 if don't
par2_vec_x1 = (rand(n,1)<p_x1); % 1 if have variant 0 if don't
par2_vec_x2 = (rand(n,1)<p_x2); % 1 if have variant 0 if don't
par2_vec_x3 = (rand(n,1)<p_x3); % 1 if have variant 0 if don't
par1_vec_dis = (par1_vec_x1 & par1_vec_x2) | par1_vec_x3;
par2_vec_dis = (par2_vec_x1 & par2_vec_x2) | par2_vec_x3;
par_vec_dis = par1_vec_dis | par2_vec_dis;
% create children
p_inh_x1 = 0.5*par1_vec_x1 + 0.5*par2_vec_x1 - 0.25*par1_vec_x1.*par2_vec_x1;
chi_vec_x1 = (rand(n,1)<p_inh_x1);
p_inh_x2 = 0.5*par1_vec_x2 + 0.5*par2_vec_x2 - 0.25*par1_vec_x2.*par2_vec_x2;
chi_vec_x2 = (rand(n,1)<p_inh_x2);
p_inh_x3 = 0.5*par1_vec_x3 + 0.5*par2_vec_x3 - 0.25*par1_vec_x3.*par2_vec_x3;
chi_vec_x3 = (rand(n,1)<p_inh_x3);
chi_vec_dis = (chi_vec_x1 & chi_vec_x2) | chi_vec_x3; % child gets sick if either (x1 and x2) or x3
%%%% train model for phenotype using standard method: P(D/X1X2) = P(D)*P(D/X1)/P(D)*P(D/X2)/P(D)*P(D/X3)/P(D)
% just using child data for now; can do this also for parents
p_dis_h = length(find(chi_vec_dis==1))/n
chi_vec_x1e1_ind = find(chi_vec_x1==1);
p_dis_x1e1_h=length( find(chi_vec_dis(chi_vec_x1e1_ind)==1) )/length(chi_vec_x1e1_ind);
chi_vec_x1e0_ind = find(chi_vec_x1==0);
p_dis_x1e0_h=length( find(chi_vec_dis(chi_vec_x1e0_ind)==1))/length(chi_vec_x1e0_ind);
chi_vec_x2e1_ind = find(chi_vec_x2==1);
p_dis_x2e1_h=length( find(chi_vec_dis(chi_vec_x2e1_ind)==1) )/length(chi_vec_x2e1_ind);
chi_vec_x2e0_ind = find(chi_vec_x2==0);
p_dis_x2e0_h=length( find(chi_vec_dis(chi_vec_x2e0_ind)==1) )/length(chi_vec_x2e0_ind);
chi_vec_x3e1_ind = find(chi_vec_x3==1);
p_dis_x3e1_h=length( find(chi_vec_dis(chi_vec_x3e1_ind)==1) )/length(chi_vec_x3e1_ind);
chi_vec_x3e0_ind = find(chi_vec_x3==0);
p_dis_x3e0_h=length( find(chi_vec_dis(chi_vec_x3e0_ind)==1) )/length(chi_vec_x3e0_ind);
% prediction on the training data
% can also implement this on test data
p_dis_x1_h = zeros(n,1);
p_dis_x1_h(chi_vec_x1e1_ind)=p_dis_x1e1_h;
p_dis_x1_h(chi_vec_x1e0_ind)=p_dis_x1e0_h;
p_dis_x2_h = zeros(n,1);
p_dis_x2_h(chi_vec_x2e1_ind)=p_dis_x2e1_h;
p_dis_x2_h(chi_vec_x2e0_ind)=p_dis_x2e0_h;
p_dis_x3_h = zeros(n,1);
p_dis_x3_h(chi_vec_x3e1_ind)=p_dis_x3e1_h;
p_dis_x3_h(chi_vec_x3e0_ind)=p_dis_x3e0_h;
% prediction using x1 and x2
p_dis_x1x2_h = p_dis_h*(p_dis_x1_h/p_dis_h).*(p_dis_x2_h/p_dis_h);
% prediction using x1 and x3
p_dis_x1x3_h = p_dis_h*(p_dis_x1_h/p_dis_h).*(p_dis_x3_h/p_dis_h);
% prediction using x1,x2 and x3
p_dis_x1x2x3_h=p_dis_h*(p_dis_x1_h/p_dis_h).*(p_dis_x2_h/p_dis_h).*(p_dis_x3_h/p_dis_h);
%%%% train model for phenotype using relative method: P(D/Xr/X1X2) = P(D/Xr) * P(D/XrX1)/P(D/Xr) * P(D/XrX2)/P(D/Xr)
% just using child data for now to train; can train and test also for parents
par_vec_dis_ind = find(par_vec_dis==1);
p_dis_xr_h=length( find(chi_vec_dis(par_vec_dis_ind)==1) )/length(par_vec_dis_ind);
% computing P(D/XrX1) for all states
chi_vec_xre1_x1e1_ind = find(par_vec_dis==1 & chi_vec_x1==1);
p_dis_xre1_x1e1_h=length( find(chi_vec_dis(chi_vec_xre1_x1e1_ind)==1) )/length(chi_vec_xre1_x1e1_ind);
chi_vec_xre0_x1e1_ind = find(par_vec_dis==0 & chi_vec_x1==1);
p_dis_xre0_x1e1_h=length( find(chi_vec_dis(chi_vec_xre0_x1e1_ind)==1) )/length(chi_vec_xre0_x1e1_ind);
chi_vec_xre0_x1e0_ind = find(par_vec_dis==0 & chi_vec_x1==0);
p_dis_xre0_x1e0_h=length( find(chi_vec_dis(chi_vec_xre0_x1e0_ind)==1) )/length(chi_vec_xre0_x1e0_ind);
chi_vec_xre1_x1e0_ind = find(par_vec_dis==1 & chi_vec_x1==0);
p_dis_xre1_x1e0_h=length( find(chi_vec_dis(chi_vec_xre1_x1e0_ind)==1) )/length(chi_vec_xre1_x1e0_ind);
% computing P(D/XrX2) for all states
chi_vec_xre1_x2e1_ind = find(par_vec_dis==1 & chi_vec_x2==1);
p_dis_xre1_x2e1_h=length( find(chi_vec_dis(chi_vec_xre1_x2e1_ind)==1) )/length(chi_vec_xre1_x2e1_ind);
chi_vec_xre0_x2e1_ind = find(par_vec_dis==0 & chi_vec_x2==1);
p_dis_xre0_x2e1_h=length( find(chi_vec_dis(chi_vec_xre0_x2e1_ind)==1) )/length(chi_vec_xre0_x2e1_ind);
chi_vec_xre0_x2e0_ind = find(par_vec_dis==0 & chi_vec_x2==0);
p_dis_xre0_x2e0_h=length( find(chi_vec_dis(chi_vec_xre0_x2e0_ind)==1) )/length(chi_vec_xre0_x2e0_ind);
chi_vec_xre1_x2e0_ind = find(par_vec_dis==1 & chi_vec_x2==0);
p_dis_xre1_x2e0_h=length( find(chi_vec_dis(chi_vec_xre1_x2e0_ind)==1) )/length(chi_vec_xre1_x2e0_ind);
% computing P(D/XrX3) for all states
chi_vec_xre1_x3e1_ind = find(par_vec_dis==1 & chi_vec_x3==1);
p_dis_xre1_x3e1_h=length( find(chi_vec_dis(chi_vec_xre1_x3e1_ind)==1) )/length(chi_vec_xre1_x3e1_ind);
chi_vec_xre0_x3e1_ind = find(par_vec_dis==0 & chi_vec_x3==1);
p_dis_xre0_x3e1_h=length( find(chi_vec_dis(chi_vec_xre0_x3e1_ind)==1) )/length(chi_vec_xre0_x3e1_ind);
chi_vec_xre0_x3e0_ind = find(par_vec_dis==0 & chi_vec_x3==0);
p_dis_xre0_x3e0_h=length( find(chi_vec_dis(chi_vec_xre0_x3e0_ind)==1) )/length(chi_vec_xre0_x3e0_ind);
chi_vec_xre1_x3e0_ind = find(par_vec_dis==1 & chi_vec_x3==0);
p_dis_xre1_x3e0_h=length( find(chi_vec_dis(chi_vec_xre1_x3e0_ind)==1) )/length(chi_vec_xre1_x3e0_ind);
% prediction on the training data
% could also implement this on separate test data
% computing P(D/XrX1)
p_dis_xr_x1_h = zeros(n,1);
p_dis_xr_x1_h(chi_vec_xre1_x1e1_ind)=p_dis_xre1_x1e1_h;
p_dis_xr_x1_h(chi_vec_xre0_x1e1_ind)=p_dis_xre0_x1e1_h;
p_dis_xr_x1_h(chi_vec_xre0_x1e0_ind)=p_dis_xre0_x1e0_h;
p_dis_xr_x1_h(chi_vec_xre1_x1e0_ind)=p_dis_xre1_x1e0_h;
% computing P(D/XrX2)
p_dis_xr_x2_h = zeros(n,1);
p_dis_xr_x2_h(chi_vec_xre1_x2e1_ind)=p_dis_xre1_x2e1_h;
p_dis_xr_x2_h(chi_vec_xre0_x2e1_ind)=p_dis_xre0_x2e1_h;
p_dis_xr_x2_h(chi_vec_xre0_x2e0_ind)=p_dis_xre0_x2e0_h;
p_dis_xr_x2_h(chi_vec_xre1_x2e0_ind)=p_dis_xre1_x2e0_h;
% computing P(D/XrX3)
p_dis_xr_x3_h = zeros(n,1);
p_dis_xr_x3_h(chi_vec_xre1_x3e1_ind)=p_dis_xre1_x3e1_h;
p_dis_xr_x3_h(chi_vec_xre0_x3e1_ind)=p_dis_xre0_x3e1_h;
p_dis_xr_x3_h(chi_vec_xre0_x3e0_ind)=p_dis_xre0_x3e0_h;
p_dis_xr_x3_h(chi_vec_xre1_x3e0_ind)=p_dis_xre1_x3e0_h;
%%% computing key results
% prediction using xr, x1 and x2
p_dis_xrx1x2_h=p_dis_xr_h*(p_dis_xr_x1_h/p_dis_xr_h).*(p_dis_xr_x2_h/p_dis_xr_h);
% prediction using xr, x1 and x3
p_dis_xrx1x3_h=p_dis_xr_h*(p_dis_xr_x1_h/p_dis_xr_h).*(p_dis_xr_x3_h/p_dis_xr_h);
% prediction using xr, x1, x2 and x3
p_dis_xrx1x2x3_h=
p_dis_xr_h*(p_dis_xr_x1_h/p_dis_xr_h).*(p_dis_xr_x2_h/p_dis_xr_h).*(p_dis_xr_x3_h/p_dis_xr_h);
%%% plotting key results
%%raw data
disp_vec = [1:10000];
% figure; plot(chi_vec_dis(disp_vec),'b.'); hold on; plot(chi_vec_dis(disp_vec),'b');
%%prediction using xr, x1
% plot(p_dis_xr_x1_h(disp_vec),'gx');
% prediction using x1
% plot(p_dis_x1_h(disp_vec),'ro');
%%prediction using x1 and x2
% plot(p_dis_x1x2_h(disp_vec),'ro');
% prediction using xr, x1 and x2
% plot(p_dis_xrx1x2_h(disp_vec),'gx');
%%histograms using x1, x2 (and xr)
figure; hold on;
[t1,c1] = hist(chi_vec_dis); bar(c1, log10(t1),'b');
[t2,c2] = hist(p_dis_xrx1x2_h); bar(c2, log10(t2),'g');
[t3,c3] = hist(p_dis_x1x2_h); bar(c3, log10(t3),'r');
legend('Truth', 'Estimate of P(D|XrX1X2)', 'Estimate of P(D|X1X2)');
ylabel('log10(count)');
xlabel('probability estimate');
title('histogram of estimates P(D|X1X2), P(D|XrX1X2)');
grid;
%%prediction using x1 and x3
% plot(p_dis_x1x3_h,'ro');
% prediction using xr, x1 and x3
% plot(p_dis_xrx1x3_h,'gx');
% histograms using x1, x3 (and xr)
figure; hold on;
[tmp3,c3] = hist(p_dis_x1x3_h); bar(c3, log10(tmp3),'r');
[tmp1,c1] = hist(chi_vec_dis); bar(c1, log10(tmp1),'b');
[tmp2,c2] = hist(p_dis_xrx1x3_h); bar(c2, log10(tmp2),'g');
legend('Estimate of P(D|X1X3)', 'Truth', 'Estimate of P(D|XrX1X3)');
ylabel('log10(count)');
xlabel('probability estimate');
title('histogram of estimates P(D|X1X3), P(D|XrX1X3)');
grid;
%%prediction using x1, x2 and x3
% plot(p_dis_x1x2x3_h,'ro');
% prediction using xr, x1, x2 and x3
% plot(p_dis_xrx1x2x3_h,'gx');
% histograms using x1, x2, x3 (and xr)
figure; hold on;
[tm3,c3] = hist(p_dis_x1x2x3_h); bar(c3, log10(tm3),'r');
[tm2,c2] = hist(p_dis_xrx1x2x3_h); bar(c2, log10(tm2),'g');
[tm1,c1] = hist(chi_vec_dis); bar(c1, log10(tm1),'b');
legend('Estimate of P(D|X1X2X3)','Estimate of P(D|XrX1X2X3)','Truth');
ylabel('log10(count)');
xlabel('probability estimate');
title('histogram of estimates P(D|X1X2X3), P(D|XrX1X2X3)');
grid;
%%% comparing RMSE accuracy of results
% prediction using x1 (and xr)
p_dis_xr_x1_h_e = p_dis_xr_x1_h-chi_vec_dis;
p_dis_x1_h_e = p_dis_x1_h-chi_vec_dis;
p_dis_xr_x1_h_RMSE = sqrt(p_dis_xr_x1_h_e'*p_dis_xr_x1_h_e/n)
p_dis_x1_h_RMSE = sqrt(p_dis_x1_h_e'*p_dis_x1_h_e/n)
% prediction using x1 and x2 (and xr)
p_dis_xrx1x2_h_e = p_dis_xrx1x2_h-chi_vec_dis;
p_dis_x1x2_h_e = p_dis_x1x2_h-chi_vec_dis;
p_dis_xrx1x2_h_RMSE = sqrt(p_dis_xrx1x2_h_e'*p_dis_xrx1x2_h_e/n)
p_dis_x1x2_h_RMSE = sqrt(p_dis_x1x2_h_e'*p_dis_x1x2_h_e/n)
% prediction using x1, x3 (and xr)
p_dis_xrx1x3_h_e = p_dis_xrx1x3_h-chi_vec_dis;
p_dis_x1x3_h_e = p_dis_x1x3_h-chi_vec_dis;
p_dis_xrx1x3_h_RMSE = sqrt(p_dis_xrx1x3_h_e'*p_dis_xrx1x3_h_e/n)
p_dis_x1x3_h_RMSE = sqrt(p_dis_x1x3_h_e'*p_dis_x1x3_h_e/n)
% prediction using x1, x2, x3 (and xr)
p_dis_xrx1x2x3_h_e = p_dis_xrx1x2x3_h-chi_vec_dis;
p_dis_x1x2x3_h_e = p_dis_x1x2x3_h-chi_vec_dis;
p_dis_xrx1x2x3_h_RMSE = sqrt(p_dis_xrx1x2x3_h_e'*p_dis_xrx1x2x3_h_e/n)
p_dis_x1x2x3_h_RMSE = sqrt(p_dis_x1x2x3_h_e'*p_dis_x1x2x3_h_e/n)
% rel_sim
% simulates training polygenic prediction using relative relationships
% simulation parameters
n = 1000000; % 1000000; % number of families
p_x1 = 1/20; %1/20; % P(X1) the probability of X1 variant in the general population
p_x2 = 1/50; %1/50; % P(X2) the probability of X2 variant in the general population
p_x3 = 1/2000; %1/100; %1/500; %1/2000; % P(X3) the probability of X3 variant in the general population
% setting up variables
% assume no denovo variants
% assume no homozygotes of variant in parents
% ph_x1 = min(roots([1 -2 p_x1])); % probability per homolog; comment out if assume no homozygotes of variant in parents
% ph_x2 = min(roots([1 -2 p_x2])); % probability per homolog; comment out if assume no homozygotes of variant in parents
% create parents
par1_vec_x1 = (rand(n,1)<p_x1); % 1 if have variant 0 if don't
par1_vec_x2 = (rand(n,1)<p_x2); % 1 if have variant 0 if don't
par1_vec_x3 = (rand(n,1)<p_x3); % 1 if have variant 0 if don't
par2_vec_x1 = (rand(n,1)<p_x1); % 1 if have variant 0 if don't
par2_vec_x2 = (rand(n,1)<p_x2); % 1 if have variant 0 if don't
par2_vec_x3 = (rand(n,1)<p_x3); % 1 if have variant 0 if don't
par1_vec_dis = (par1_vec_x1 & par1_vec_x2) | par1_vec_x3;
par2_vec_dis = (par2_vec_x1 & par2_vec_x2) | par2_vec_x3;
par_vec_dis = par1_vec_dis | par2_vec_dis;
% create children
p_inh_x1 = 0.5*par1_vec_x1 + 0.5*par2_vec_x1 - 0.25*par1_vec_x1.*par2_vec_x1;
chi_vec_x1 = (rand(n,1)<p_inh_x1);
p_inh_x2 = 0.5*par1_vec_x2 + 0.5*par2_vec_x2 - 0.25*par1_vec_x2.*par2_vec_x2;
chi_vec_x2 = (rand(n,1)<p_inh_x2);
p_inh_x3 = 0.5*par1_vec_x3 + 0.5*par2_vec_x3 - 0.25*par1_vec_x3.*par2_vec_x3;
chi_vec_x3 = (rand(n,1)<p_inh_x3);
chi_vec_dis = (chi_vec_x1 & chi_vec_x2) | chi_vec_x3; % child gets sick if either (x1 and x2) or x3
%%%% train model for phenotype using standard method: P(D/X1X2) = P(D)*P(D/X1)/P(D)*P(D/X2)/P(D)*P(D/X3)/P(D)
% just using child data for now; can do this also for parents
p_dis_h = length(find(chi_vec_dis==1))/n
chi_vec_x1e1_ind = find(chi_vec_x1==1);
p_dis_x1e1_h=length( find(chi_vec_dis(chi_vec_x1e1_ind)==1) )/length(chi_vec_x1e1_ind);
chi_vec_x1e0_ind = find(chi_vec_x1==0);
p_dis_x1e0_h=length( find(chi_vec_dis(chi_vec_x1e0_ind)==1))/length(chi_vec_x1e0_ind);
chi_vec_x2e1_ind = find(chi_vec_x2==1);
p_dis_x2e1_h=length( find(chi_vec_dis(chi_vec_x2e1_ind)==1) )/length(chi_vec_x2e1_ind);
chi_vec_x2e0_ind = find(chi_vec_x2==0);
p_dis_x2e0_h=length( find(chi_vec_dis(chi_vec_x2e0_ind)==1) )/length(chi_vec_x2e0_ind);
chi_vec_x3e1_ind = find(chi_vec_x3==1);
p_dis_x3e1_h=length( find(chi_vec_dis(chi_vec_x3e1_ind)==1) )/length(chi_vec_x3e1_ind);
chi_vec_x3e0_ind = find(chi_vec_x3==0);
p_dis_x3e0_h=length( find(chi_vec_dis(chi_vec_x3e0_ind)==1) )/length(chi_vec_x3e0_ind);
% prediction on the training data
% can also implement this on test data
p_dis_x1_h = zeros(n,1);
p_dis_x1_h(chi_vec_x1e1_ind)=p_dis_x1e1_h;
p_dis_x1_h(chi_vec_x1e0_ind)=p_dis_x1e0_h;
p_dis_x2_h = zeros(n,1);
p_dis_x2_h(chi_vec_x2e1_ind)=p_dis_x2e1_h;
p_dis_x2_h(chi_vec_x2e0_ind)=p_dis_x2e0_h;
p_dis_x3_h = zeros(n,1);
p_dis_x3_h(chi_vec_x3e1_ind)=p_dis_x3e1_h;
p_dis_x3_h(chi_vec_x3e0_ind)=p_dis_x3e0_h;
% prediction using x1 and x2
p_dis_x1x2_h = p_dis_h*(p_dis_x1_h/p_dis_h).*(p_dis_x2_h/p_dis_h);
% prediction using x1 and x3
p_dis_x1x3_h = p_dis_h*(p_dis_x1_h/p_dis_h).*(p_dis_x3_h/p_dis_h);
% prediction using x1,x2 and x3
p_dis_x1x2x3_h=p_dis_h*(p_dis_x1_h/p_dis_h).*(p_dis_x2_h/p_dis_h).*(p_dis_x3_h/p_dis_h);
%%%% train model for phenotype using relative method: P(D/Xr/X1X2) = P(D/Xr) * P(D/XrX1)/P(D/Xr) * P(D/XrX2)/P(D/Xr)
% just using child data for now to train; can train and test also for parents
par_vec_dis_ind = find(par_vec_dis==1);
p_dis_xr_h=length( find(chi_vec_dis(par_vec_dis_ind)==1) )/length(par_vec_dis_ind);
% computing P(D/XrX1) for all states
chi_vec_xre1_x1e1_ind = find(par_vec_dis==1 & chi_vec_x1==1);
p_dis_xre1_x1e1_h=length( find(chi_vec_dis(chi_vec_xre1_x1e1_ind)==1) )/length(chi_vec_xre1_x1e1_ind);
chi_vec_xre0_x1e1_ind = find(par_vec_dis==0 & chi_vec_x1==1);
p_dis_xre0_x1e1_h=length( find(chi_vec_dis(chi_vec_xre0_x1e1_ind)==1) )/length(chi_vec_xre0_x1e1_ind);
chi_vec_xre0_x1e0_ind = find(par_vec_dis==0 & chi_vec_x1==0);
p_dis_xre0_x1e0_h=length( find(chi_vec_dis(chi_vec_xre0_x1e0_ind)==1) )/length(chi_vec_xre0_x1e0_ind);
chi_vec_xre1_x1e0_ind = find(par_vec_dis==1 & chi_vec_x1==0);
p_dis_xre1_x1e0_h=length( find(chi_vec_dis(chi_vec_xre1_x1e0_ind)==1) )/length(chi_vec_xre1_x1e0_ind);
% computing P(D/XrX2) for all states
chi_vec_xre1_x2e1_ind = find(par_vec_dis==1 & chi_vec_x2==1);
p_dis_xre1_x2e1_h=length( find(chi_vec_dis(chi_vec_xre1_x2e1_ind)==1) )/length(chi_vec_xre1_x2e1_ind);
chi_vec_xre0_x2e1_ind = find(par_vec_dis==0 & chi_vec_x2==1);
p_dis_xre0_x2e1_h=length( find(chi_vec_dis(chi_vec_xre0_x2e1_ind)==1) )/length(chi_vec_xre0_x2e1_ind);
chi_vec_xre0_x2e0_ind = find(par_vec_dis==0 & chi_vec_x2==0);
p_dis_xre0_x2e0_h=length( find(chi_vec_dis(chi_vec_xre0_x2e0_ind)==1) )/length(chi_vec_xre0_x2e0_ind);
chi_vec_xre1_x2e0_ind = find(par_vec_dis==1 & chi_vec_x2==0);
p_dis_xre1_x2e0_h=length( find(chi_vec_dis(chi_vec_xre1_x2e0_ind)==1) )/length(chi_vec_xre1_x2e0_ind);
% computing P(D/XrX3) for all states
chi_vec_xre1_x3e1_ind = find(par_vec_dis==1 & chi_vec_x3==1);
p_dis_xre1_x3e1_h=length( find(chi_vec_dis(chi_vec_xre1_x3e1_ind)==1) )/length(chi_vec_xre1_x3e1_ind);
chi_vec_xre0_x3e1_ind = find(par_vec_dis==0 & chi_vec_x3==1);
p_dis_xre0_x3e1_h=length( find(chi_vec_dis(chi_vec_xre0_x3e1_ind)==1) )/length(chi_vec_xre0_x3e1_ind);
chi_vec_xre0_x3e0_ind = find(par_vec_dis==0 & chi_vec_x3==0);
p_dis_xre0_x3e0_h=length( find(chi_vec_dis(chi_vec_xre0_x3e0_ind)==1) )/length(chi_vec_xre0_x3e0_ind);
chi_vec_xre1_x3e0_ind = find(par_vec_dis==1 & chi_vec_x3==0);
p_dis_xre1_x3e0_h=length( find(chi_vec_dis(chi_vec_xre1_x3e0_ind)==1) )/length(chi_vec_xre1_x3e0_ind);
% prediction on the training data
% could also implement this on separate test data
% computing P(D/XrX1)
p_dis_xr_x1_h = zeros(n,1);
p_dis_xr_x1_h(chi_vec_xre1_x1e1_ind)=p_dis_xre1_x1e1_h;
p_dis_xr_x1_h(chi_vec_xre0_x1e1_ind)=p_dis_xre0_x1e1_h;
p_dis_xr_x1_h(chi_vec_xre0_x1e0_ind)=p_dis_xre0_x1e0_h;
p_dis_xr_x1_h(chi_vec_xre1_x1e0_ind)=p_dis_xre1_x1e0_h;
% computing P(D/XrX2)
p_dis_xr_x2_h = zeros(n,1);
p_dis_xr_x2_h(chi_vec_xre1_x2e1_ind)=p_dis_xre1_x2e1_h;
p_dis_xr_x2_h(chi_vec_xre0_x2e1_ind)=p_dis_xre0_x2e1_h;
p_dis_xr_x2_h(chi_vec_xre0_x2e0_ind)=p_dis_xre0_x2e0_h;
p_dis_xr_x2_h(chi_vec_xre1_x2e0_ind)=p_dis_xre1_x2e0_h;
% computing P(D/XrX3)
p_dis_xr_x3_h = zeros(n,1);
p_dis_xr_x3_h(chi_vec_xre1_x3e1_ind)=p_dis_xre1_x3e1_h;
p_dis_xr_x3_h(chi_vec_xre0_x3e1_ind)=p_dis_xre0_x3e1_h;
p_dis_xr_x3_h(chi_vec_xre0_x3e0_ind)=p_dis_xre0_x3e0_h;
p_dis_xr_x3_h(chi_vec_xre1_x3e0_ind)=p_dis_xre1_x3e0_h;
%%% computing key results
% prediction using xr, x1 and x2
p_dis_xrx1x2_h=p_dis_xr_h*(p_dis_xr_x1_h/p_dis_xr_h).*(p_dis_xr_x2_h/p_dis_xr_h);
% prediction using xr, x1 and x3
p_dis_xrx1x3_h=p_dis_xr_h*(p_dis_xr_x1_h/p_dis_xr_h).*(p_dis_xr_x3_h/p_dis_xr_h);
% prediction using xr, x1, x2 and x3
p_dis_xrx1x2x3_h=
p_dis_xr_h*(p_dis_xr_x1_h/p_dis_xr_h).*(p_dis_xr_x2_h/p_dis_xr_h).*(p_dis_xr_x3_h/p_dis_xr_h);
%%% plotting key results
%%raw data
disp_vec = [1:10000];
% figure; plot(chi_vec_dis(disp_vec),'b.'); hold on; plot(chi_vec_dis(disp_vec),'b');
%%prediction using xr, x1
% plot(p_dis_xr_x1_h(disp_vec),'gx');
% prediction using x1
% plot(p_dis_x1_h(disp_vec),'ro');
%%prediction using x1 and x2
% plot(p_dis_x1x2_h(disp_vec),'ro');
% prediction using xr, x1 and x2
% plot(p_dis_xrx1x2_h(disp_vec),'gx');
%%histograms using x1, x2 (and xr)
figure; hold on;
[t1,c1] = hist(chi_vec_dis); bar(c1, log10(t1),'b');
[t2,c2] = hist(p_dis_xrx1x2_h); bar(c2, log10(t2),'g');
[t3,c3] = hist(p_dis_x1x2_h); bar(c3, log10(t3),'r');
legend('Truth', 'Estimate of P(D|XrX1X2)', 'Estimate of P(D|X1X2)');
ylabel('log10(count)');
xlabel('probability estimate');
title('histogram of estimates P(D|X1X2), P(D|XrX1X2)');
grid;
%%prediction using x1 and x3
% plot(p_dis_x1x3_h,'ro');
% prediction using xr, x1 and x3
% plot(p_dis_xrx1x3_h,'gx');
% histograms using x1, x3 (and xr)
figure; hold on;
[tmp3,c3] = hist(p_dis_x1x3_h); bar(c3, log10(tmp3),'r');
[tmp1,c1] = hist(chi_vec_dis); bar(c1, log10(tmp1),'b');
[tmp2,c2] = hist(p_dis_xrx1x3_h); bar(c2, log10(tmp2),'g');
legend('Estimate of P(D|X1X3)', 'Truth', 'Estimate of P(D|XrX1X3)');
ylabel('log10(count)');
xlabel('probability estimate');
title('histogram of estimates P(D|X1X3), P(D|XrX1X3)');
grid;
%%prediction using x1, x2 and x3
% plot(p_dis_x1x2x3_h,'ro');
% prediction using xr, x1, x2 and x3
% plot(p_dis_xrx1x2x3_h,'gx');
% histograms using x1, x2, x3 (and xr)
figure; hold on;
[tm3,c3] = hist(p_dis_x1x2x3_h); bar(c3, log10(tm3),'r');
[tm2,c2] = hist(p_dis_xrx1x2x3_h); bar(c2, log10(tm2),'g');
[tm1,c1] = hist(chi_vec_dis); bar(c1, log10(tm1),'b');
legend('Estimate of P(D|X1X2X3)','Estimate of P(D|XrX1X2X3)','Truth');
ylabel('log10(count)');
xlabel('probability estimate');
title('histogram of estimates P(D|X1X2X3), P(D|XrX1X2X3)');
grid;
%%% comparing RMSE accuracy of results
% prediction using x1 (and xr)
p_dis_xr_x1_h_e = p_dis_xr_x1_h-chi_vec_dis;
p_dis_x1_h_e = p_dis_x1_h-chi_vec_dis;
p_dis_xr_x1_h_RMSE = sqrt(p_dis_xr_x1_h_e'*p_dis_xr_x1_h_e/n)
p_dis_x1_h_RMSE = sqrt(p_dis_x1_h_e'*p_dis_x1_h_e/n)
% prediction using x1 and x2 (and xr)
p_dis_xrx1x2_h_e = p_dis_xrx1x2_h-chi_vec_dis;
p_dis_x1x2_h_e = p_dis_x1x2_h-chi_vec_dis;
p_dis_xrx1x2_h_RMSE = sqrt(p_dis_xrx1x2_h_e'*p_dis_xrx1x2_h_e/n)
p_dis_x1x2_h_RMSE = sqrt(p_dis_x1x2_h_e'*p_dis_x1x2_h_e/n)
% prediction using x1, x3 (and xr)
p_dis_xrx1x3_h_e = p_dis_xrx1x3_h-chi_vec_dis;
p_dis_x1x3_h_e = p_dis_x1x3_h-chi_vec_dis;
p_dis_xrx1x3_h_RMSE = sqrt(p_dis_xrx1x3_h_e'*p_dis_xrx1x3_h_e/n)
p_dis_x1x3_h_RMSE = sqrt(p_dis_x1x3_h_e'*p_dis_x1x3_h_e/n)
% prediction using x1, x2, x3 (and xr)
p_dis_xrx1x2x3_h_e = p_dis_xrx1x2x3_h-chi_vec_dis;
p_dis_x1x2x3_h_e = p_dis_x1x2x3_h-chi_vec_dis;
p_dis_xrx1x2x3_h_RMSE = sqrt(p_dis_xrx1x2x3_h_e'*p_dis_xrx1x2x3_h_e/n)
p_dis_x1x2x3_h_RMSE = sqrt(p_dis_x1x2x3_h_e'*p_dis_x1x2x3_h_e/n)
Claims (22)
- 非メンデル表現型リスクスコアを出力するための方法であって、
第1のデータセットから、(i)1つ以上の関心のある非メンデル遺伝子を有する対象に対する遺伝子型データ及び(ii)前記関心のある遺伝子の1つ以上を有する対象の1人以上の血縁者に対する遺伝子型データ及び表現型データを受け取り、
第2のデータセットから、遺伝子型集団データ及び表現型集団データを受け取り、前記集団が2人以上の血縁者の1つ以上のセットを含み、
前記関心のある非メンデル遺伝子の1つ以上と関連がある前記対象においてリスクを決定するために、前記第1及び第2のデータセットにおいてモデルをトレーニングし、
前記対象に対する表現型リスクスコアを出力すること
を含む、方法。 - 前記第2のデータセットが、2人以上の血縁者の複数セットに対する遺伝子型集団データ及び表現型集団データを含む、請求項1に記載の方法。
- 前記第1のデータセット中の血縁者が、前記対象の母、父、兄弟、姉妹、息子、娘、祖父、祖母、叔母、叔父、姪、甥及び従兄弟姉妹(first cousin)のうち1人以上を含み、
前記第2のデータセットが、前記第1のデータセット中の前記対象と同じ血縁を有する2人以上の対象を含む、請求項1又は2に記載の方法。 - 前記血縁者の1人以上が男性の親類である、請求項1~3の何れか1項に記載の方法。
- 前記血縁者の1人以上が女性の親類である、請求項1~3の何れか1項に記載の方法。
- 前記第1のデータセットが、前記対象の複数の血縁者に対するデータを含む、請求項1~5の何れか1項に記載の方法。
- 前記血縁者の1人以上が男性の親類であり、前記血縁者の1人以上が女性の親類である、請求項1~6の何れか1項に記載の方法。
- 前記関心のある遺伝子が関心のある遺伝子変異体である、請求項1~7の何れか1項に記載の方法。
- 前記第1のデータセット及び第2のデータセットが、表現型の開始年齢と関連するデータを含む、請求項1~8の何れか1項に記載の方法。
- プロセッサと、
前記プロセッサにより実行される場合に、前記プロセッサに演算を実行させる命令を格納するための前記プロセッサと結合されるメモリと、
を含むシステムであって、前記演算が、
第1のデータセットから、(i)1つ以上の関心のある非メンデル遺伝子を有する対象に対する遺伝子型データ及び(ii)前記関心のある遺伝子のうち1つ以上を有する前記対象の1人以上の血縁者に対する遺伝子型データ及び表現型データを受け取り、
第2のデータセットから、遺伝子型集団データ及び表現型集団データを受け取り、前記集団が2人以上の血縁者の1つ以上のセットを含み、
前記関心のある非メンデル遺伝子のうち1つ以上と関連する前記対象においてリスクを決定するために前記第1及び第2のデータセットにおいてモデルをトレーニングし、
前記対象に対する表現型リスクスコアを出力すること
を含む、システム。 - プロセッサにより実行される場合、前記プロセッサに演算を実施させる、そこに格納される命令を有する非一時的な機械可読媒体であって、前記演算が、
第1のデータセットから、(i)1つ以上の関心のある非メンデル遺伝子を有する対象に対する遺伝子型データ及び(ii)前記関心のある遺伝子のうち1つ以上を有する前記対象の1人以上の血縁者に対する遺伝子型データ及び表現型データを受け取り、
第2のデータセットから、遺伝子型集団データ及び表現型集団データを受け取り、前記集団が2人以上の血縁者の1つ以上のセットを含み、
前記関心のある非メンデル遺伝子のうち1つ以上と関連する前記対象においてリスクを決定するために前記第1及び第2のデータセットにおいてモデルを前記プロセッサによりトレーニングし、
前記対象に対する表現型リスクスコアを出力すること
を含む、非一時的な機械可読媒体。 - 前記第2のデータセットが、2人以上の血縁者の複数セットに対する遺伝子型集団データ及び表現型集団データを含む、請求項11に記載の非一時的な機械可読媒体。
- 前記第1のデータセット中の血縁者が、前記対象の母、父、兄弟、姉妹、息子、娘、祖父、祖母、叔母、叔父、姪、甥及び従兄弟姉妹(first cousin)のうち1人以上を含み、
前記第2のデータセットが、前記第1のデータセット中の前記対象と同じ血縁関係を有する2人以上の対象を含む、請求項11又は12に記載の非一時的な機械可読媒体。 - 前記血縁者の1人以上が男性の親類である、請求項11~13の何れか1項に記載の非一時的な機械可読媒体。
- 前記血縁者の1人以上が女性の親類である、請求項11~13の何れか1項に記載の非一時的な機械可読媒体。
- 前記第1のデータセットが前記対象の複数の血縁者に対するデータを含む、請求項11~15の何れか1項に記載の非一時的な機械可読媒体。
- 前記血縁者の1人以上が男性の親類であり、前記親類の1人以上が女性の親類である、請求項11~16の何れか1項に記載の非一時的な機械可読媒体。
- 前記関心のある遺伝子が関心のある遺伝子変異体である、請求項11~17の何れか1項に記載の非一時的な機械可読媒体。
- 前記第1のデータセット及び第2のデータセットが、表現型の開始年齢に関連するデータを含む、請求項11~18の何れか1項に記載の非一時的な機械可読媒体。
- 多遺伝子リスクスコアを出力するための方法であって、
第1のデータセットから、(i)1つ以上の関心のある非メンデル遺伝子を有する対象に対する遺伝子型データ及び(ii)前記関心のある非メンデル遺伝子の1つ以上を有する前記対象の1人以上の血縁者に対する遺伝子型データ及び表現型データを受け取り、
第2のデータセットから、遺伝子型集団データ及び表現型集団データを受け取り、前記集団が2人以上の血縁者の1つ以上のセットを含み、
前記1つ以上の関心のある非メンデル遺伝子に基づき前記対象においてリスクを予測するために前記第1及び第2のデータセットにおいてモデルをトレーニングし、
前記対象に対する多遺伝子リスクスコアを出力すること
を含む、方法。 - 前記血縁者の表現型データが与えられたとき、前記対象におけるリスクと比較して、前記対象におけるリスクが1つ以上の関心のある非メンデル遺伝子によりどのように変化させられるかを予測するために、前記第1及び第2のデータセットにおいてモデルをトレーニングすること
を含む、請求項20に記載の方法。 - 前記リスクスコアに基づいて前記対象を処置することをさらに含む、請求項1~21の何れか1項に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962820286P | 2019-03-19 | 2019-03-19 | |
US62/820,286 | 2019-03-19 | ||
PCT/US2020/023633 WO2020191195A1 (en) | 2019-03-19 | 2020-03-19 | Using relatives' information to determine genetic risk for non-mendelian phenotypes |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022525638A true JP2022525638A (ja) | 2022-05-18 |
JPWO2020191195A5 JPWO2020191195A5 (ja) | 2023-03-29 |
Family
ID=72521208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021556270A Pending JP2022525638A (ja) | 2019-03-19 | 2020-03-19 | 非メンデル表現型に対する遺伝学的リスクを決定するための親類の情報の使用 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220157404A1 (ja) |
EP (1) | EP3941338A4 (ja) |
JP (1) | JP2022525638A (ja) |
CN (1) | CN113905660A (ja) |
WO (1) | WO2020191195A1 (ja) |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992002636A1 (en) * | 1990-08-02 | 1992-02-20 | Swift Michael R | Process for testing gene-disease associations |
CN1867922A (zh) * | 2003-10-15 | 2006-11-22 | 株式会社西格恩波斯特 | 疾病危险度判定用基因多态的确定方法、疾病危险度判定方法及判定用阵列 |
US20070027636A1 (en) * | 2005-07-29 | 2007-02-01 | Matthew Rabinowitz | System and method for using genetic, phentoypic and clinical data to make predictions for clinical or lifestyle decisions |
JP2012502398A (ja) * | 2008-09-12 | 2012-01-26 | ナビジェニクス インコーポレイティド | 複数の環境的リスク因子及び遺伝的リスク因子を組み込む方法及びシステム |
US10790041B2 (en) * | 2011-08-17 | 2020-09-29 | 23Andme, Inc. | Method for analyzing and displaying genetic information between family members |
WO2014110350A2 (en) * | 2013-01-11 | 2014-07-17 | Oslo Universitetssykehus Hf | Systems and methods for identifying polymorphisms |
US9128861B2 (en) * | 2013-01-17 | 2015-09-08 | Personalis, Inc. | Methods and systems for genetic analysis |
AU2015339260A1 (en) * | 2014-10-28 | 2017-06-15 | Tapgenes, Inc. | Methods for determining health risks |
AU2016256598A1 (en) * | 2015-04-27 | 2017-10-26 | Peter Maccallum Cancer Institute | Breast cancer risk assessment |
GB2561300B (en) * | 2015-09-07 | 2021-03-10 | Global Gene Corp Pte Ltd | Method and system for diagnosing disease and generating treatment recommendations |
EP3350721A4 (en) * | 2015-09-18 | 2019-06-12 | Fabric Genomics, Inc. | PREDICTION OF DISEASE LOAD FROM GENOME VARIANTS |
US20200118647A1 (en) * | 2018-10-12 | 2020-04-16 | Ancestry.Com Dna, Llc | Phenotype trait prediction with threshold polygenic risk score |
-
2020
- 2020-03-19 CN CN202080033145.5A patent/CN113905660A/zh active Pending
- 2020-03-19 JP JP2021556270A patent/JP2022525638A/ja active Pending
- 2020-03-19 US US17/440,548 patent/US20220157404A1/en active Pending
- 2020-03-19 WO PCT/US2020/023633 patent/WO2020191195A1/en unknown
- 2020-03-19 EP EP20774798.1A patent/EP3941338A4/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2020191195A1 (en) | 2020-09-24 |
EP3941338A1 (en) | 2022-01-26 |
US20220157404A1 (en) | 2022-05-19 |
EP3941338A4 (en) | 2022-12-28 |
CN113905660A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112888459B (zh) | 卷积神经网络系统及数据分类方法 | |
JP7487163B2 (ja) | がんの進化の検出および診断 | |
WO2020069501A1 (en) | Multimodal machine learning based clinical predictor | |
KR20200106179A (ko) | 서열분석 기반 어세이의 유효성을 보장하기 위한 품질 관리 주형 | |
WO2019023517A2 (en) | GENOMIC SEQUENCING CLASSIFIER | |
WO2020170052A1 (en) | Disease-gene prioritization method and system | |
Ochs et al. | Matrix factorization for transcriptional regulatory network inference | |
JP7041614B6 (ja) | 生体データにおけるパターン認識のマルチレベルアーキテクチャ | |
Han et al. | How does normalization impact RNA-seq disease diagnosis? | |
US20200327957A1 (en) | Detection of deletions and copy number variations in dna sequences | |
KR20170000744A (ko) | 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치 | |
US20200082910A1 (en) | Systems and Methods for Determining Effects of Genetic Variation of Splice Site Selection | |
US20190005192A1 (en) | Reliable and Secure Detection Techniques for Processing Genome Data in Next Generation Sequencing (NGS) | |
Qin et al. | Refining empiric subgroups of pediatric sepsis using machine-learning techniques on observational data | |
Thirimanne et al. | Meningioma transcriptomic landscape demonstrates novel subtypes with regional associated biology and patient outcome | |
JP2022525638A (ja) | 非メンデル表現型に対する遺伝学的リスクを決定するための親類の情報の使用 | |
Jin et al. | Mendelian randomization analysis using multiple biomarkers of an underlying common exposure | |
Izadi et al. | A comparative analytical assay of gene regulatory networks inferred using microarray and RNA-seq datasets | |
Zhang | Detecting rare haplotype-environmental interaction and nonlinear effects of rare haplotypes using Bayesian LASSO on quantitative traits | |
Qi et al. | Conformalized Survival Distributions: A Generic Post-Process to Increase Calibration | |
KR102630597B1 (ko) | 종양 정보를 활용한 미세 잔존 질환 탐지 방법 및 장치 | |
Arulanandham et al. | Role of Data Science in Healthcare | |
Kariotis | Unsupervised machine learning of high dimensional data for patient stratification | |
Malick et al. | Bioinformatics Analysis of Differentially Expressed Gene's in Breast Cancer Using DESeq2 | |
Bianchi et al. | Comparing HISAT and STAR-based pipelines for RNA-Seq Data Analysis: a real experience |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230320 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230320 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240514 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240809 |