JP7395675B2 - 遺伝子変異による機能喪失誘発に対する予測システム及びその方法 - Google Patents

遺伝子変異による機能喪失誘発に対する予測システム及びその方法 Download PDF

Info

Publication number
JP7395675B2
JP7395675B2 JP2022124353A JP2022124353A JP7395675B2 JP 7395675 B2 JP7395675 B2 JP 7395675B2 JP 2022124353 A JP2022124353 A JP 2022124353A JP 2022124353 A JP2022124353 A JP 2022124353A JP 7395675 B2 JP7395675 B2 JP 7395675B2
Authority
JP
Japan
Prior art keywords
loss
mutation
function
probability
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022124353A
Other languages
English (en)
Other versions
JP2023024374A (ja
Inventor
キョンヨル イ
ドンウク キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3billion
Original Assignee
3billion
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3billion filed Critical 3billion
Publication of JP2023024374A publication Critical patent/JP2023024374A/ja
Application granted granted Critical
Publication of JP7395675B2 publication Critical patent/JP7395675B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Organic Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)

Description

本発明は、遺伝子変異による機能喪失誘発に対する予測システム及びその方法に関し、より詳細には、ロジスティック回帰を通じて、特定の遺伝子変異による機能喪失誘発の確率を計算することができる、遺伝子変異による機能喪失誘発に対する予測システム及びその方法に関する。
日常化された遺伝子検査により、過去よりも多い誘電体データを遺伝変異の解釈に活用できるようになっており、これを通じて、遺伝子変異が人体に及ぶ影響を高正確度で解釈できるようになった。
特に、多数の誘電体データを活用したマシンランニング技術の発達により、病原性を有する変異を精巧に判別するのが可能になったところ、遺伝子が病気性を誘発する具体的な機作においては、未だ多くの部分が不明になっている。
遺伝子の機能の喪失(loss of function、LoF)を誘発する変異は、質病を誘発し得るということが広く知られている。
特定の遺伝子変異に対して、病原性を有する程度を、アルゴリズムなどを通じて数値化して予測するとしても、疾病誘発の変異として見られるような根拠が不足していることが多いところ、LoF確率を計算することができれば、疾病誘発の機作を特定することができるようになるため、さらに精密な診断が可能になる。
よって、多様な遺伝子に対して、遺伝子変異がLoFを誘発する確率を計算することができれば、遺伝疾患の患者から発見された遺伝子変異のLoF誘発の可否を確認することで、原因遺伝子の発掘及び診断へ活用できるようになるはずである。
但し、実験的及び臨床的にLoFを誘発するのが明かになった遺伝変異は極めて一部であり、人体内で遺伝子変異がLoFを誘発するか否かを評価した臨床的なデータがほとんど存在していないという点で、すべての遺伝子変異のLoF誘発の確率を推定することが難しいという問題がある。
本発明の技術的課題は、このような点から着目したものであって、本発明の目的は、遺伝子変異の病原性の程度を示すスコアと、遺伝子がLoFに不耐性(intolerant)を有している程度を示すスコアと、を用いて、遺伝子変異のLoF誘発の確率を計算することに活用できる遺伝子変異による機能喪失誘発に対する予測システム及びその方法を提供することである。
上述した本発明の目的を実現するための一実施例に係る遺伝子変異による機能喪失誘発に対する予測システム及びその方法は、対応遺伝子が機能の喪失(loss of function)に対して不耐性(intolerant)を有する第1確率、及び前記対応遺伝子に含まれたターゲット遺伝子変異が不耐性を有する第2確率を用いる第1式に対するロジスティック回帰(logistic regression)を通じて、前記ターゲット遺伝子変異が前記対応遺伝子に機能の喪失を誘発する確率を計算するLoF予測部を含む。
本発明の一実施例において、前記ターゲット遺伝子変異は、遺伝子の変異により発現されるタンパク質の長さが、正常の場合のタンパク質の長さよりも短くなるタンパク質切断型変異(Protein Truncated Variant)を含むことができる。
本発明の一実施例において、前記第1式は次式のように表現可能であり、
本発明の一実施例において、前記第1式に対するログ線形モデルは、次式を含むことができ、
本発明の一実施例において、前記第1特性点数は、pLIアルゴリズムまたはLOEUFアルゴリズムのうち、少なくとも何れか一つ以上を用いた点数を含むことができる。
上述した本発明の目的を実現するための一実施例に係る遺伝子変異による機能喪失誘発に対する予測方法は、対応遺伝子が機能の喪失(loss of function)に対して不耐性(intolerant)を有する第1確率、及び前記対応遺伝子に含まれたターゲット遺伝子変異が不耐性を有する第2確率を用いる第1式に対するロジスティック回帰(logistic regression)を通じて、前記ターゲット遺伝子変異が前記対応遺伝子に機能の喪失を誘発する確率を計算するステップを含む。
本発明の一実施例において、前記ターゲット遺伝子変異は、遺伝子の変異により発現されるタンパク質の長さが正常の場合のタンパク質の長さよりも短くなるタンパク質切断型変異(Protein Truncated Variant)を含むことができる。
本発明の一実施例において、前記第1式は、次式のように表現可能であり、
本発明の一実施例において、前記第1式に対するロジスティック回帰は、次式を含むことができ、
本発明の一実施例において、前記第1特性点数は、pLIアルゴリズムまたはLOEUFアルゴリズムのうち、少なくとも何れか一つ以上を用いた点数を含むことができる。
このような遺伝子変異による機能喪失誘発に対する予測システム及びその方法によると、遺伝子変異のLoF誘発の確率を計算することで疾病誘発の機作を特定することができるため、診断に対する正確性を高めることができる。
なお、遺伝子変異の位置に応じて変わるLoF点数を通じて、遺伝子の機能に重要な役割をする領域を特定できるようになって、人体のタンパク質を標的とする新薬の開発に活用できる重要な情報を提供することができる。
本発明の一実施例に係る遺伝子変異による機能喪失誘発に対する予測システムを示すブロック図である。 図1のLoF予測部を説明するための詳細なブロック図である。 本発明の一実施例に係る遺伝子変異による機能喪失誘発に対する予測方法を示すフローチャートである。 図3の対応遺伝子に機能の喪失を誘発する確率を計算するステップを説明するための詳細なフローチャートである。
以下で、添付した図面を参照して、本発明をより詳細に説明する。図面上の同じ構成要素に対しては同じ参照符号を付し、同じ構成要素に対して重複説明は省略する。
図1は、本発明の一実施例に係る遺伝子変異による機能喪失誘発に対する予測システムを示すブロック図である。図2は、図1のLoF予測部を説明するための詳細ブロック図である。図3は、本発明の一実施例に係る遺伝子変異による機能喪失誘発に対する予測方法を示すフローチャートである。
図1及び図2を参照すれば、本発明の一実施例に係る遺伝子変異による機能喪失誘発に対する予測システムは、遺伝子変異データベース10、LoF予測部20、第1特性点数の計算部30、及び第2特性点数の計算部40を含むことができる。
遺伝子変異データベース10は、本発明に係る遺伝子変異による機能の喪失誘発に対する予測システムにより、遺伝子に含まれた遺伝子変異が該遺伝子に機能の喪失を誘発する確率が計算されるターゲット遺伝子変異及び前記ターゲット遺伝子変異を含む対応遺伝子に対する情報を含むことができる。
DNAには生物の遺伝情報が含まれている。DNAの塩基序列の中、遺伝形質の発現に関与する塩基序列を遺伝子と称し、遺伝形質の発現に関与しない部分を非符号化DNAと称する。
遺伝子は、DNAの一定の区間に亘っている塩基序列の領域に対応され得る。遺伝子は、実際の遺伝情報が含まれているエクソン区間と、発現に関与しないイントロン区間と、を含むことができる。
塩基序列またはニュークレオタイド序列(base sequence or nucleotide sequence)とは、核酸DNAまたはRNA構成の基本単位であるニュークレオタイドの構成成分の一つである塩基を順に並べた手順の配列を意味する。
遺伝子変異または塩基序列変異とは、核酸塩基序列が比較対象である参照塩基序列と序列上の差を示す部分を意味し、序列を構成する塩基の置換、付加、または缺失を含むことができる。このような塩基の置換、付加、または缺失は、様々な原因、例えば、染色体の突然変異、切断、缺失、重複、逆位、または転座を含む構造的な差により発生することができる。
機能の喪失(LoF)とは、遺伝子変異により遺伝子が本来有するべき機能を失う現象を意味する。
LoF予測部20は、ターゲット遺伝子変異が対応遺伝子に機能の喪失を誘発する確率を計算することができる。
一実施例において、LoF予測部20は、第1確率及び第2確率を用いる第1式に対するロジスティック回帰(logistic regression)を通じて、ターゲット遺伝子変異が対応遺伝子に機能の喪失を誘発する確率を計算することができる。
第1確率は、対応遺伝子が機能の喪失に不耐性(intolerance)を有する確率を含むことができる。
第2確率は、ターゲット遺伝子変異が不耐性を有する確率を含むことができる。
ここで、遺伝子が機能の喪失に不耐性(LoF intolerance)を有するということは、特定の遺伝子で機能の喪失を誘発する遺伝子変異が起きた場合、生存に致命的な影響(高い確率で死滅または疾病と推定)を受ける程度を示すことができる。
これに関して、不耐性(intolerant)という表現が使われることができるところ、遺伝子において機能の喪失を誘発する遺伝子変異が、実際に発見される事例が少ないほど、高い点数を得ることができる。これは、機能の喪失を誘発する遺伝子変異が致命的に作用した場合、自然選択の原理により、既に自然界から消えてしまった可能性が高いからである。
遺伝子が機能の喪失に対して不耐性を有する程度に対応する数値化された第1特性点数(以下、第1特性点数と称する。)を算出する代表的な方法として、pLIアルゴリズムが使われ得る。pLIアルゴリズムは、6万余名の一般人の誘電体からLoF遺伝子変異が理論的に観測可能な数と、実際に観測された数との差の偏差を定量化した方法である。
pLIアルゴリズムは、次の先行技術文献を通じて具現可能である。
Lek、Monkol、et al.「Analysis of protein-coding genetic variation in 60、706 humans.」 Nature 536.7616(2016):285-291.(https://www.nature.com/articles/nature19057)
なお、第1特性点数を算出するために、pLIアルゴリズムと類似した方式のLOEUFアルゴリズムが使われ得る。
LOEUFアルゴリズムは、次の先行技術文献を通じて具現可能である。
Karczewski、et al.「The mutational constraint spectrum quantified from variation in 141、456 humans.」 Nature 581、434-443(2020).(https://doi.org/10.1038/s41586-020-2308-7)
または、第1特性点数を算出するために、単純に実際観測された機能の喪失を誘発する遺伝子変異の数を、理論的に予想される機能の喪失を誘発する遺伝子変異の数に割る方法も使われ得る。
第1特性点数は、遺伝子変異ではなく、遺伝子単位で定義される点数なので、それぞれの遺伝子変異が機能の喪失を誘発する程度は測定できないという問題がある。
上記のような第1特性点数を用いて、遺伝子が機能の喪失に対して不耐性を有する確率(第1確率)を定義することができる。
一方、不耐性を有するということは、生存に致命的な影響を受ける程度という点で、遺伝子変異が不耐性を有する確率は、遺伝子変異が疾病を誘発して致命的である確率とは高い連関性があり得る。
よって、遺伝子変異が不耐性を有する確率(第2確率)は、遺伝子変異がpathogenicする確率、すなわち、遺伝子変異が病原性変異である確率に比例し得る。
上記のような条件で、本発明では、第1確率及び第2確率を通じてターゲット遺伝子変異が対応遺伝子変異に機能の喪失を誘発する確率を逆に推定することができる。
具体的に、第1式は次の過程を通じて導出され得る。
先ず、全体確率法則により遺伝子変異が不耐性を有する確率である第2確率は、次式のように表現可能である。
続いて、一番目の仮定として、本発明に係る遺伝子変異による機能喪失誘発に対する予測システムにより、遺伝子変異が該遺伝子に機能の喪失を誘発する確率が計算されるターゲット遺伝子変異は、タンパク質切断型変異(Protein Truncated Variant、以下、PTV)に限定されるものと仮定する。
PTVは、遺伝子の変異により発現されるタンパク質の長さが正常の場合のタンパク質の長さよりも短くなる遺伝子変異を意味することができる。
具体的に、PTVは、フレームシフト変異(frameshift variant)、ナンセンス変異(nonsense variant)、開始喪失変異(start lost variant)、またはスプライシング変異(splicing variant)のうち、少なくとも何れか一つにより、遺伝子から発現されたタンパク質の長さ(例えば、アミノ酸序列の長さ)が既存よりも短くなる形態の遺伝変異を意味することができる。
ターゲット遺伝子変異がPTVに限定される場合、PTVが機能の獲得を誘発させる可能性は低いと評価され、機能の獲得が病原性を有する可能性も機能の喪失に比べて低いため、P(intolerant|GoF)*P(GoF|variant)は0に收斂すると仮定することができる。
続いて、二番目の仮定として、前述したように、対応遺伝子が機能の喪失に対して不耐性を有する確率(第1確率)は、対応遺伝子が機能の喪失に対して不耐性を有する程度に対応する数値化された第1特性点数を用いた単項式であって、次式のように表現可能である。
なお、ターゲット遺伝子変異が不耐性を有する確率(第2確率)は、ターゲット遺伝子変異が病原性変異である確率に比例することができるという点で、第2確率は、ターゲット遺伝子変異が病原性を有する程度に対応する数値化された第2特性点数を用いた単項式であって、次式のように表現可能である。
一番目の仮定を通じて、第1式は次式のように表現可能である。
二番目の仮定を通じて、第1式は次式のように表現可能である。
次に、第1式に対するロジスティック回帰(logistic regression)を通じて、前記ターゲット遺伝子変異が前記対応遺伝子に機能の喪失を誘発する確率を計算するために、ログ線形化(log linearity)を通じた第1式に対するログ線形モデル220は、次式のように表現可能である。
結論的に、ターゲット遺伝子変異が対応遺伝子に機能の喪失を誘発する確率(P(LoF|variant))は、対応遺伝子が機能の喪失に対して不耐性を有する程度に対応する数値化された第1特性点数、及びターゲット遺伝子変異が病原性を有する程度に対応する数値化された第2特性点数のロジスティック回帰を通じて算出され得る。
上記のような理論的な背景下で、LoF予測部20は、変数設定部210、ログ線形モデル220、及びLoF確率計算機230を含むことができる。
変数設定部210は、ターゲット遺伝子変異が対応遺伝子に機能の喪失を誘発する確率を従属変数として設定し、対応遺伝子が機能の喪失に対して不耐性を有する確率(第1確率)を第1独立変数として設定し、ターゲット遺伝子変異が不耐性を有する確率(第2確率)を第2独立変数として設定することができる。
ここで、第1確率は、第1特性点数を含むことができる。言い換えれば、第1確率は、第1特性点数を用いて表現され得る。第2確率は、第2特性点数を含むことができる。言い換えれば、第2確率は、第2特性点数を用いて表現され得る。
ログ線形モデル220は、従属変数、第1独立変数、及び第2独立変数で構成された第1式に対するロジスティック回帰分析を通じてモデリングされたログ線形モデルを含むことができる。
一実施例において、ログ線形モデル220は、次式を含むことができる。
ログ線形モデル220は、前述した点と同一なので、重複する詳細な説明は省略する。
LoF確率計算機230は、ログ線形モデル220の独立変数に第1特性点数及び第2特性点数を対入することで、ターゲット遺伝子変異が対応遺伝子に機能の喪失を誘発する確率を計算することができる。
第1特性点数の計算部30は、ターゲット遺伝子が機能の喪失に対して不耐性を有する程度に対応する数値化された第1特性点数を計算することができる。
一実施例において、第1特性点数は、コンピュータシミュレーションを用いたin silico toolを用いて算出され得る。in silico toolを用いた第1特性点数の算出には、一般人の誘電体においてLoF遺伝子変異が理論的に観測可能な数と、実際に観測された数との差の偏差を定量化するアルゴリズムを用いることができる。
例えば、第1特性点数の計算に用いられるアルゴリズムは、pLI、LOEUFのうち、少なくとも何れか一つ以上のアルゴリズムを含むことができる。
第2特性点数の計算部40は、ターゲット遺伝子変異が病原性を有する程度に対応する数値化された第2特性点数を計算することができる。
一実施例において、第2特性点数は、コンピュータシミュレーションを用いたin silico toolを用いて算出され得る。in silico toolを用いた第2特性点数の算出には、変異の病原性を数値化してくれるアルゴリズムを用いることができる。
例えば、変異の特性点数の算出に用いられるアルゴリズムは、REVEL、SIFT、PrimateAI、DANN、PolyPhen、PolyPhen-2、3CNET、MAPP、Logre、Mutation Assessor、Condel、GERP、CADD、MutationTaster、MutationTaster2、PROVEAN、PMuit、SNPeffect、fathmm、MSRV、Align-GVGD、Eigen、LRT、MetaLR、MetaSVM、MutPred、PANTHER、Parepro、phastCons、PhD-SNP、phyloP、PON-P、PON-P2、SiPhy、SNAP、SNPs&GO、VEST4、SNAP2、CAROL、PaPI、SInBaD、VAAST、CHASM、mCluster、nsSNPAnayzer、SAAPpred、HanSa、CanPredict、FISまたはBONGOのうち、少なくとも何れか一つ以上のアルゴリズムを含むことができる。
本発明に適用される遺伝子変異の病原性を数値化するアルゴリズムは、次の公知された先行技術文献により具現可能であり、関連した詳細な説明は省略可能である。
REVEL(Ioannidis、Nilah M.、et al. REVEL:an Ensemble Method for Predicting the Pathogenicity of Rare Missense Variants._AGHG 2016、https://sites.google.com/site/revelgenomics/)、SIFT(Sorting Intolerant From Tolerant、Pauline C et al.、Genome Res. 2001 May;11(5):863-874;Pauline C et al.、Genome Res. 2002 March;12(3):436-446;Jing Hul et al.、Genome Biol. 2012;13(2):R9)、PrimateAI(Illumina社のdeep learning model for pathogenicity prediction) DANN(Quang、Daniel、Yifei Chen、and Xiaohui Xie. DANN:a deep learning approach for annotating the pathogenicity of genetic variants. Bioinformatics 2014:btu703.、https://cbcl.ics.uci.edu/public_data/DANN/)、PolyPhen、PolyPhen-2(Polymorphism Phenotyping、Ramensky V et al.、Nucleic Acids Res. 2002 September 1;30(17):3894-3900;Adzhubei IA et al.、Nat Methods 7(4):248-249(2010))、3Cnet(3Cnet:Pathogenicity prediction of human variants using knowledge transfer with deep recurrent neural networks、Dhong-gun Won、Kyoungyeul Lee、bioRxiv 2020.09.27.302927;doi:https://doi.org/10.1101/2020.09.27.302927)、MAPP(Eric A. et al.、Multivariate Analysis of Protein Polymorphism、Genome Res. 2005;15:978-986)、Logre(Log R Pfam E-value、Clifford R.J et al.、Bioinformatics 2004;20:1006- 1014)、Mutation Assessor(Reva B et al.、Genome Biol. 2007;8:R232、http://mutationassessor.org/)、Condel(Gonzalez-Perez A et al.、The American Journal of Human Genetics 2011;88:440-449、http://bg.upf.edu/fannsdb/)、GERP(Cooper et al.、Genomic Evolutionary Rate Profiling、Genome Res. 2005;15:901- 913、http://mendel.stanford.edu/SidowLab/downloads/gerp/)、CADD(Combined Annotation-Dependent Depletion、http://cadd.gs.washington.edu/)、MutationTaster、MutationTaster2(Schwarz et al.、MutationTaster2:mutation prediction for the deep-sequencing age. Nature Methods 2014;11:361-362、http://www.mutationtaster.org/)、PROVEAN(Choi et al.、PLoS One. 2012;7(10):e46688)、PMuit(Ferrer-Costa et al.、Proteins 2004;57(4):811-819、http://mmb.pcb.ub.es/PMut/)、SNPeffect(Reumers et al.、Bioinformatics. 2006;22(17):2183-2185,http://snpeffect.vib.be)、fathmm(Shihab et al.、Functional Analysis through Hidden Markov Models、Hum Mutat 2013;34:57-65、http://fathmm.biocompute.org.uk/)、MSRV(Jiang,R.et al.Sequence-based prioritization of nonsynonymous single-nucleotide polymorphisms for the study of disease mutations. Am J Hum Genet 2007;81:346-360、http://msms.usc.edu/msrv/)、Align-GVGD(Tavtigian、Sean V.,et al.Comprehensive statistical study of 452 BRCA1 missense substitutions with classification of eight recurrent substitutions as neutral. Journal of medical genetics 2006:295-305.,http://agvgd.hci.utah.edu/)、Eigen(Ionita-Laza,Iuliana,et al. A spectral approach integrating functional genomic annotations for coding and noncoding variants. Nature genetics(2016):214-220.,http://www.columbia.edu/~ii2135/eigen.html)、LRT(Chun,Sung,and Justin C. Fay.Identification of deleterious mutations within three human genomes.Genome Res.2009:1553-1561.、http://www.genetics.wustl.edu/jflab/lrt_query.html)、MetaLR(Dong、Chengliang、et al. Comparison and integration of deleteriousness prediction methods for nonsynonymous SNVs in whole exome sequencing studies.Human molecular genetics 2015;24(8):2125-2137)、MetaSVM(Dong,Chengliang,et al.Comparison and integration of deleteriousness prediction methods for nonsynonymous SNVs in whole exome sequencing studies. Human molecular genetics 2015;24(8):2125-2137)、MutPred(Mort,Matthew,et al.MutPred Splice:machine learning-based prediction of exonic variants that disrupt splicing. Genome Biology 2014;(15)1:1,http://www.mutdb.org/mutpredsplice/about.htm)、PANTHER(Mi,Huaiyu,et al.The PANTHER database of protein families,subfamilies,functions and pathways. Nucleic Acids Research 2005;(33)suppl 1:D284-D288.,http://www.pantherdb.org/tools/csnpScoreForm.jsp)、Parepro(Tian,Jian,et al.Predicting the phenotypic effects of non-synonymous single nucleotide polymorphisms based on support vector machines. BMC bioinformatics 2007;8.1、http://www.mobioinfor.cn/parepro/contact.htm)、phastCons(Siepel,Adam,et al. Evolutionarily conserved elements in vertebrate、insect、worm、and yeast genomes.Genome Res.2005;915)8:1034-1050、http://compgen.cshl.edu/phast/)、PhD-SNP(Capriotti、E.、Calabrese、R.、Casadio、R. Predicting the insurgence of human genetic diseases associated to single point protein mutations with support vector machines and evolutionary information. Bioinformatics 2006;22:2729-2734.、http://snps.biofold.org/phdsnp/)、phyloP(Pollard、Katherine S.、et al. Detection of nonneutral substitution rates on mammalian phylogenies._Genome Res. 2010;(20)1:110-121.、http://compgen.cshl.edu/phast/background.php)、PON-P(Niroula、Abhishek、Siddhaling Urolagin、and Mauno Vihinen. PON-P2:prediction method for fast and reliable identification of harmful variants. PLoS One 2015;(10)2:e0117380.、http://structure.bmc.lu.se/PON-P2/)、SiPhy(Garber、Manuel、et al. Identifying novel constrained elements by exploiting biased substitution patterns. Bioinformatics 2009;(25)12:i54-i62、http://portals.broadinstitute.org/genome_bio/siphy/documentation.html)、SNAP(Bromberg,Y. and Rost,B. SNAP:predict effect of non-synonymous polymorphisms on function. Nucleic Acids Res. 2007;35:3823-3835,w http://www.rostlab.org/services/SNAP)、SNPs&GO(Remo Calabrese、Emidio Capriotti、Piero Fariselli、Pier Luigi Martelli、and Rita Casadio. Functional annotations improve the predictive score of human disease-related mutations in proteins. Human Mutatation 2009;30:1237-1244、http://snps.biofold.org/snps-and-go/)、VEST4(Carter H、Douville C、Stenson P、Cooper D、Karchin R Identifying Mendelian disease genes with the Variant Effect Scoring Tool BMC Genomics 2013;14(Suppl 3):S3)、SNAP2(Yana Bromberg、Guy Yachdav、and Burkhard Rost. SNAP predicts effect of mutations on protein function. Bioinformatics 2008;24:2397-2398、http://www.rostlab.org/services/SNAP)、CAROL(Lopes MC、Joyce C、Ritchie GR、John SL、Cunningham F et al. A combined functional annotation score for non-synonymous variants、http://www.sanger.ac.uk/science/tools/carol)、PaPI(Limongelli、Ivan、Simone Marini、and Riccardo Bellazzi. PaPI:pseudo amino acid composition to score human protein-coding variants. BMC bioinformatics 2015;(16)1:1、http://papi.unipv.it/)、SInBaD(Lehmann、Kjong-Van、and Ting Chen. Exploring functional variant discovery in non-coding regions with SInBaD. Nucleic Acids Research 2013;(41)1:e7-e7、http://tingchenlab.cmb.usc.edu/sinbad/)、VAAST(Hu、Hao、et al. VAAST 2.0:Improved variant classification and disease_]gene identification using a conservation_]controlled amino acid substitution matrix. Genetic epidemiology 2013;(37)6:622-634、http://www.yandell-lab.org/software/vaast.html)、CHASM(Carter H、Chen S、Isik L、Tyekucheva S、Velculescu VE、Kinzler KW、Vogelstein B、Karchin R Cancer-specific high-throughput annotation of somatic mutations:computational prediction of driver missense mutations Cancer Res 2009;69(16):6660-7、http://www.cravat.us)、mCluster(Yue P、Forrest WF、Kaminker JS、Lohr S、Zhang Z、Cavet G:Inferring the functional effects of mutation through clusters of mutations in homologous proteins. Human mutation. 2010;31(3):264-271. 10.1002/humu.21194.)、nsSNPAnayzer(Lei Bao、Mi Zhou、and Yan Cui nsSNPAnalyzer:identifying disease-associated nonsynonymous single nucleotide polymorphisms. Nucleic Acids Res 2005;33:480-482、http://snpanalyzer.uthsc.edu/)、SAAPpred(Nouf S Al-Numair and Andrew C R Martin. The SAAP pipeline and database:tools to analyze the impact and predict the pathogenicity of mutations. BMC Genomics 2013;14(3):1-11、www.bioinf.org.uk/saap/dap/)、HanSa(Acharya V. and Nagarajaram H.A. Hansa An automated method for discriminating disease and neutral human nsSNPs. Human Mutation 2012;2:332-337、hansa.cdfd.org.in:8080/)、CanPredict(Kaminker,J.S. et al. CanPredict:a computational tool for predicting cancer-associated missense mutations. Nucleic Acids Res.、2007;35:595:598、http://pgws.nci.nih.gov/cgi-bin/GeneViewer.cgi_)、FIS(Boris Reva、Yevgeniy Antipin、and Chris Sander. Predicting the functional impact of protein mutations:Application to cancer genomics. Nucleic Acids Res 2011;39:e118-e118.)、BONGO(Cheng T.M.K.、Lu Y-E、Vendruscolo M.、Lio P.、Blundell T.L. Prediction by graph theoretic measures of structural effects in proteins arising from non-synonymous single nucleotide polymorphisms. PLoS Comp Biology 2008;(4)7:e1000135、http://www.bongo.cl.cam.ac.uk/Bongo2/Bongo.htm)
以上、実施例を参照して説明したところ、該技術分野において熟練した当業者は、下記の特許請求の範囲に記載されている本発明の思想及び領域から脱しない範囲内で、本発明を多様に修正及び変更可能であることが理解できるはずである。
10・・・遺伝子変異データベース
20・・・LoF予測部
30・・・第1特性点数の計算部
40・・・第2特性点数の計算部
210・・・変数設定部
220・・・ログ線形モデル
230・・・LoF確率計算機

Claims (8)

  1. 対応遺伝子が機能の喪失(loss of function)に対して不耐性(intolerant)を有する第1確率、及び前記対応遺伝子に含まれたターゲット遺伝子変異が不耐性を有する第2確率を用いる第1式に対するロジスティック回帰(logistic regression)を通じて、前記ターゲット遺伝子変異が前記対応遺伝子に機能の喪失を誘発する確率を計算するLoF予測部を含み、
    前記ターゲット遺伝子変異は、
    遺伝子の変異により発現されるタンパク質の長さが正常の場合のタンパク質の長さよりも短くなるタンパク質切断型変異(Protein Truncated Variant)を含み、
    前記第1式は、次式に表現されることを特徴とする、遺伝子変異による機能喪失誘発に対する予測システム。
  2. 前記対応遺伝子が機能の喪失に対して不耐性を有する程度に対応する数値化された第1特性点数を計算する第1特性点数の計算部と、
    前記ターゲット遺伝子変異が病原性を有する程度に対応する数値化された第2特性点数を計算する第2特性点数の計算部と、
    をさらに含み、
    a、b、c及びdは、それぞれ予め定められた定数であることを特徴とする、請求項に記載の遺伝子変異による機能喪失誘発に対する予測システム。
  3. 前記第1式に対するログ線形モデルは、次式を含むことを特徴とする、請求項2に記載の遺伝子変異による機能喪失誘発に対する予測システム。
  4. 前記第1特性点数は、pLIアルゴリズムまたはLOEUFアルゴリズムのうち、少なくとも何れか一つ以上を用いた点数を含むことを特徴とする、請求項に記載の遺伝子変異による機能喪失誘発に対する予測システム。
  5. 対応遺伝子が機能の喪失(loss of function)に対して不耐性(intolerant)を有する第1確率、及び前記対応遺伝子に含まれたターゲット遺伝子変異が不耐性を有する第2確率を用いる第1式に対するロジスティック回帰(logistic regression)を通じて、前記ターゲット遺伝子変異が前記対応遺伝子に機能の喪失を誘発する確率を計算するステップを含み、
    前記ターゲット遺伝子変異は、
    遺伝子の変異により発現されるタンパク質の長さが正常の場合のタンパク質の長さよりも短くなるタンパク質切断型変異(Protein Truncated Variant)を含み、
    前記第1式は、次式に表現されることを特徴とする、遺伝子変異による機能喪失誘発に対する予測方法。
  6. 前記対応遺伝子が機能の喪失に対して不耐性を有する程度に対応する数値化された第1特性点数を計算する第1特性点数を計算するステップと、
    前記ターゲット遺伝子変異が病原性を有する程度に対応する数値化された第2特性点数を計算する第2特性点数を計算するステップと、
    をさらに含み、
    前記第2特性点数であり、a、b、c及びdは、それぞれ予め定められた定数であることを特徴とする、請求項に記載の遺伝子変異による機能喪失誘発に対する予測方法。
  7. 前記第1式に対するロジスティック回帰は、次式を含むことを特徴とする、請求項に記載の遺伝子変異による機能喪失誘発に対する予測方法。
  8. 前記第1特性点数は、pLIアルゴリズムまたはLOEUFアルゴリズムのうち、少なくとも何れか一つ以上を用いた点数を含むことを特徴とする、請求項に記載の遺伝子変異による機能喪失誘発に対する予測方法。
JP2022124353A 2021-08-04 2022-08-03 遺伝子変異による機能喪失誘発に対する予測システム及びその方法 Active JP7395675B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210102589A KR102351763B1 (ko) 2021-08-04 2021-08-04 유전자 변이의 기능 상실 유발 예측 시스템 및 방법
KR10-2021-0102589 2021-08-04

Publications (2)

Publication Number Publication Date
JP2023024374A JP2023024374A (ja) 2023-02-16
JP7395675B2 true JP7395675B2 (ja) 2023-12-11

Family

ID=80051490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022124353A Active JP7395675B2 (ja) 2021-08-04 2022-08-03 遺伝子変異による機能喪失誘発に対する予測システム及びその方法

Country Status (6)

Country Link
US (1) US20230045438A1 (ja)
JP (1) JP7395675B2 (ja)
KR (1) KR102351763B1 (ja)
DE (1) DE102022119636A1 (ja)
FR (1) FR3126057A1 (ja)
GB (1) GB2611617A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102440388B1 (ko) 2022-02-17 2022-09-05 주식회사 쓰리빌리언 유전자 변이 종류에 따른 병원성 예측 시스템 및 방법
WO2024064675A1 (en) * 2022-09-20 2024-03-28 Foundation Medicine, Inc. Methods and systems for determining variant properties using machine learning

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101325736B1 (ko) * 2010-10-27 2013-11-08 삼성에스디에스 주식회사 바이오 마커 추출 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ayal B. Gussow et al.,The intolerance to functional genetic variation of protein domains predicts the localization of pathogenic mutations within genes,Genome Biology volume 17, Article number: 9,[online],2016年01月18日,pages.1~11,<URL:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-0869-4>, [検索日:2023年9月20日]
Joao Fadista et al.,LoFtool: a gene intolerance score based on loss-of-function variants in 60706 individuals,Bioinformatics, Volume 33, Issue 4,[online],2016年08月23日,pages.471~474,<URL:https://academic.oup.com/bioinformatics/article/33/4/471/2525582>, [検索日:2023年9月20日]

Also Published As

Publication number Publication date
KR102351763B1 (ko) 2022-01-17
FR3126057A1 (fr) 2023-02-10
US20230045438A1 (en) 2023-02-09
DE102022119636A1 (de) 2023-02-09
JP2023024374A (ja) 2023-02-16
GB2611617A (en) 2023-04-12
GB202211353D0 (en) 2022-09-21

Similar Documents

Publication Publication Date Title
JP7395675B2 (ja) 遺伝子変異による機能喪失誘発に対する予測システム及びその方法
McCarroll et al. Genome-scale neurogenetics: methodology and meaning
Chiang et al. The impact of structural variation on human gene expression
DiPetrillo et al. Bioinformatics toolbox for narrowing rodent quantitative trait loci
Talbot et al. High-resolution mapping of quantitative trait loci in outbred mice
Botstein et al. Discovering genotypes underlying human phenotypes: past successes for mendelian disease, future approaches for complex disease
Edwards et al. Beyond GWASs: illuminating the dark road from association to function
Morton Linkage disequilibrium maps and association mapping
Teng et al. Approaches and resources for prediction of the effects of non-synonymous single nucleotide polymorphism on protein function and interactions
Liu et al. Development of genome-wide insertion and deletion polymorphism markers from next-generation sequencing data in rice
Amir et al. Structural and functional impact of non-synonymous SNPs in the CST complex subunit TEN1: Structural genomics approach
Reza et al. Pathogenic genetic variants from highly connected cancer susceptibility genes confer the loss of structural stability
Clifford et al. Bioinformatics tools for single nucleotide polymorphism discovery and analysis
Yang et al. Class balanced multifactor dimensionality reduction to detect gene–gene interactions
Lira et al. A comprehensive in silico investigation into the nsSNPs of Drd2 gene predicts significant functional consequences in dopamine signaling and pharmacotherapy
Azim et al. Complete genome sequencing and variant analysis of a Pakistani individual
WO2001036658A2 (en) Method for evaluating states of biological systems
KR102334761B1 (ko) 병원성 유전 변이 빈발 지도 구축 시스템 및 방법
Goswami Computational analyses prioritize and reveal the deleterious nsSNPs in human angiotensinogen gene
Masoodi et al. Structural prediction, whole exome sequencing and molecular dynamics simulation confirms p. G118D somatic mutation of PIK3CA as functionally important in breast cancer patients
Joly-Lopez et al. Developing maps of fitness consequences for plant genomes
Kelemen et al. Computational intelligence in bioinformatics: SNP/haplotype data in genetic association study for common diseases
Schwartz et al. Progress in detecting genetic alterations and their association with human disease
Wu et al. Exploring noncoding variants in genetic diseases: from detection to functional insights
Waheed et al. Identification and In-Silico study of non-synonymous functional SNPs in the human SCN9A gene

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231129

R150 Certificate of patent or registration of utility model

Ref document number: 7395675

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150