JP2005092719A - ハプロタイプ推定方法、推定装置、プログラム - Google Patents

ハプロタイプ推定方法、推定装置、プログラム Download PDF

Info

Publication number
JP2005092719A
JP2005092719A JP2003327943A JP2003327943A JP2005092719A JP 2005092719 A JP2005092719 A JP 2005092719A JP 2003327943 A JP2003327943 A JP 2003327943A JP 2003327943 A JP2003327943 A JP 2003327943A JP 2005092719 A JP2005092719 A JP 2005092719A
Authority
JP
Japan
Prior art keywords
diplotype
vertex
individual
score
haplotype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003327943A
Other languages
English (en)
Inventor
Toshio Furuta
利夫 古田
Masao Yanagisawa
政生 柳澤
Naoyuki Kamatani
直之 鎌谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
NEC Corp
Original Assignee
Waseda University
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, NEC Corp filed Critical Waseda University
Priority to JP2003327943A priority Critical patent/JP2005092719A/ja
Priority to US10/943,299 priority patent/US20050089906A1/en
Publication of JP2005092719A publication Critical patent/JP2005092719A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 実行時間を指数関数オーダから多項式オーダへと削減し、大きなデータへの対応を可能とすること。
【解決手段】 EMアルゴリズムとグラフ構造を組み合せることにより、取り得る全てのハプロタイプ情報を陰に保持し、ハプロタイプ推定を最大スコアを持つ完全グラフを探索する問題に変換する。
【選択図】 図9

Description

本発明は、ゲノム多型マーカを用いた研究に広く利用することができる、ハプロタイプ推定方法に関する。ここで、多型マーカを用いた研究とは、相関解析やテーラーメイド医療等を指す。
周知のように、ヒトゲノムの約30億塩基対の配列の決定が報告された。人の遺伝子の塩基の配列(DNA塩基配列)において、個体間に1%以上存在する変異の事を遺伝子多型(genetic polymorphism)と呼ぶ。遺伝子多型は単に多型とも呼ばれる。すなわち、多型とは、同じ種の個人個人の遺伝的違いのうち、遺伝子による違いのことをいう。多型にはさまざまなレベルのものがある。
尚、周知のように、DNAとはデオキシリボ核酸(deoxyribonucleic acid)の略称で、塩基成分はほとんどがアデニン(A)、グアニン(G)、シトシン(C)とチミン(T)の4種類である。
特に、1個の塩基について存在する多型を一塩基多型(Single Nucleotide Polymorphism,SNP)と呼び、遺伝子多型の中でも特に頻度が高いことから特に注目されている。SNPは数百塩基対から1,000塩基対に1か所程度の割合で存在していると推測されているので、ゲノムの中には、300万〜1,000万のSNPがあると考えられている。人における個人差は、このSNPの違いにより大部分が決定されることが推測されている。
SNPは、(1)ゲノム内に数百万コピー以上存在すること、(2)判定が非常に容易であり、また、結果を(0,1)信号化することができるため情報処理が容易であること、(3)高速・大量のSNPタイピング技術が実現化されつつあり、タイピングのオートメーション化も視野に入ってきていることから、多型マーカとして利用しやすく、臨床応用のための機器開発が比較的容易であると考えられている。
従って、以下では、多型マーカとして一塩基多型を用いる場合を例に挙げて説明するが、マイクロサテライト等の他の多型マーカにも適用可能である。
SNPの遺伝子機能や遺伝子発現に与える影響を解明することにより、病気にかかりやすい体質をつきとめたり、個人の体質に合わせたよりよい治療法、薬剤の選択や医薬品の開発が可能になると考えられている。
全SNPより遺伝子上に近接して存在する複数のSNPを、遺伝子の機能単位で一括抽出した組をハプロタイプ(haplotype)と呼ぶ。
X,Yを塩基とすると、SNPは1塩基部位に対してX/X,X/Y,Y/Yの3パターンを取る。ただし、X,YはA(アデニン),T(チミン),G(グアニン),C(シトシン)のいずれかの塩基を現す。
遺伝子を解析する方法では、主に機能的アプローチおよび遺伝統計的アプローチの2つのアプローチが採用される。前者は、遺伝子に含まれるSNPを分子生物学的に分析することによりSNPの機能を解析するアプローチである。後者は、SNPを臨床情報と組み合わせ、遺伝統計的に関連を抽出するアプローチである。遺伝統計学の分野において、遺伝子データベースおよび臨床データベースを対象として、両データベースに潜在する関連を統計的に抽出する方式が研究されている。遺伝統計学は、両データベースに潜在する関連の傾向を統計的に抽出することを可能としている。
遺伝統計学の基礎となる法則はメンデルの法則と連鎖の法則である。メンデルの法則を確率事象に関する法則として捉えることが重要である。メンデルは、人の認識できる生物の固体の属性としての「表現型」の奥に、より本質で、人には認識できない「遺伝子型」が存在すると考えた。そして、その「遺伝子型」も個体にとってのみ安定なのである。そして、世代を超えて安定なアレル(すなわち遺伝子)を発見した。メンデルの法則とは以上の「表現型」、「遺伝子型」、「アレル」の関係に関する法則と捉えることができる。そして、その3つの概念を定義できる場としての座位が定義される。メンデルの法則は、後述する「分離の法則」、「優劣の法則」、「独立の法則」に要約される。
個体レベルで観察される個体の性格を表す言葉に表現型(phenotype)と形質(trait)がある。形質とはカテゴリーのことを示しており、表現型はその形質において観察される個々のタイプを示す。個々の個体の形質の関係を解析するにはメンデルの考えたように座位、アレル、遺伝子型の概念を定義する必要がある。
1つの交配集団に対して、多数の座位(Locus)が存在すると考える。座位は種においてほぼ安定である。個体において安定な単位は遺伝子型(Genotype)である。1つの個体については、1つの座位に1つの遺伝子型が存在する。染色体による表現では座位は組換えが起きる最小単位の領域にはさまれた部分である。分子生物学的には座位は一塩基である。座位は遺伝子座とも呼ばれる。
遺伝子型は個体のレベルでは安定であるが、世代を超えると、もはや安定ではない。個体を超えて安定して伝えられるのは遺伝子型ではなくアレル(Allele)である。アレルは対立遺伝子とも呼ばれる。
メンデルの分離の法則は遺伝子型を構成する要素のうち、世代を超えて安定な単位に関する法則である。分離の法則は「遺伝子型は2つのアレルの組合わせであるが、世代交代の際に、遺伝子型を構成するアレルが1個だけ、等確率で次世代に伝えられる」ことを主張する(つまり確率論)。そのため、世代を超えてはアレルが最小の安定した単位である。もちろん、突然変異によりアレルは破壊されるが、メンデルの法則は突然変異の存在を想定していない。染色体のレベルではアレルは片方の染色体上の部位であり、分子生物学では片方の染色体上のSNP、またはSTRP(short tandem repeat polymorphism)、VNTR(variable number of tandem repeat)などの型である。例えばSNPではアレルはT(チミン)あるいはC(シトシン)などの塩基の一方である。
メンデルの優劣の法則は「遺伝子型と表現型の対応に関する法則であり、個体の表現型が遺伝子型の関数であることを主張し」、その関数に優性と劣性が(場合によっては共優性)が存在することを示す。染色体のレベルでは、遺伝子型は2つの相同染色体上の相同部分に存在する2つの相同部位の組合せである。分子生物学のレベルでは遺伝子型は多型のあるSNP、またはSTRP、VNTRなどの組合せである。
連鎖は複数の座位に関するメンデルの独立の法則の例外である。メンデルの独立の法則は複数の座位の間の関係に関する法則である。「異なる座位にあるアレルの、子への分配は互いに独立である」ことを主張する。染色体のレベルでは、これは2つの座位が異なった染色体上にあるときにのみ正しい。同じ染色体上の2つのアレルは物理的に結合しているので、つながったまま同じ配偶子に入り、子に伝わる。すなわち、独立の法則が成立しない。しかし、同じ染色体上に存在するアレルが完全に結合して世代交代を続けるとは限らない。減数分裂(miosis)のときに、染色体が交差して結合していたアレルの組合せ変化することがあるからである(組換え)。組換えの可能性は2つの座位間の距離が離れていればいるほど大きい。
座位の異なる遺伝子においては必ずしもメンデルの独立の法則が当てはまらないことを示したのはモルガンである。すなわち連鎖(Linkage)の発見である。しかし、異なった染色体上の座位では依然として独立の法則は正しく、しかも連鎖の概念が成立するためには独立の法則の概念が存在することが前提であることに注意が必要である。独立の法則はメンデルの誤りであるという解釈は間違っている。
ここで、独立という意味は2つの異なった事象が同時に起きる確率が、それぞれの事象が起きる確率の積で表されるということである。遺伝統計学では、独立という意味は、同じ染色体上にあるという意味ではない。すなわち、独立とは確率、統計的な意味である。
連鎖が定義されると、座位1、座位2の各アレルの組合わせが定義できる(haplotype,ハプロタイプ)。連鎖する複数の座位のアレルのうち、1つの配偶子に存在するものの組合せがハプロタイプである。ハプロタイプは減数分裂での組換えがない限り保存される。組換えが起きると新たなハプロタイプが形成され、それが配偶子により次世代に伝えられ、次の組換えが起きるまで変化しない。ハプロタイプの存在は、その前に親から伝えられた配偶子のハプロタイプと、各座位間で組換えが起きたか否かの事象の関数である。組換えが起こる事象は組換え割合により確率的に起こるので、ハプロタイプの遺伝は組換え割合を確率分布関数にもつ確率事象と考えられる。家系の形質と遺伝子型に関する観測データに最も適合する座位の順番と距離を計算するのが連鎖解析である。
個体は2つのハプロタイプをもつが、この2つのハプロタイプの組合わせをディプロタイプ形(diplotype configuration)ということもある。
1つの家系にn個の配偶子の伝達があるとし、m個の、連鎖した座位があるとする。この家系において起きた減数分裂における組換えの事象を表すm個の継承ベクトルを考える。1つの継承ベクトルは1つの座位に対応し、それはn個の因子をもつ列ベクトルである。それぞれの因子は、順番をつけた各減数分裂に対応する。継承ベクトルの因子は0か1であり、0はその減数分裂の起きた個体が、その父親から継承したアレルを配偶子により子に伝達したことを示す。1は母親から継承したアレルを配偶子により子に伝達したことを示す。すなわち、継承ベクトルで表した場合、本質はアレルではなく、親由来のアレルをどちらの子に伝達したかという事象にあると考える。
一般に、家系のすべての構成員の順位つき遺伝子型(順列遺伝子型)は、すべての創始者の順位つき遺伝子型と継承ベクトルによりすべて決定できる。順位つき遺伝子型とは、どちらのアレルが父親由来かという情報つき2つのアレルの組合わせ(すなわち順列)である。遺伝子型1/2と2/1は異なった順位つき遺伝子型ということになる。通常、遺伝子型とはアレルの順列ではなく、組合わせであることに注意する(組合わせ遺伝子型)。
連鎖不平衡(Linkage disequilibrium)の概念は遺伝統計学で最も大切な概念の1つである。連鎖と連鎖不平衡とはどう異なるか、など、正確に理解する必要がある。連鎖の概念は、メンデルの独立の法則の例外であることは前述した。そして、独立とは純粋に確率的な概念であることを述べた。真の連鎖不平衡は連鎖を前提とした概念である。
複数の連鎖する座位があると、それらの座位に遺伝子型が存在する。そして家系情報が十分に得られれば個人のディプロタイプ形(2つのハプロタイプの組合わせ)が確定できることは前述した。ハプロタイプとは、1つの染色体上に存在する(すなわち連鎖している)それぞれの座位に1つのアレルの組合わせである。家系情報の存在しない場合、個体の遺伝情報についての完全情報が個体のディプロタイプ形である。
連鎖不平衡とは、集団においてのハプロタイプの分布に関する法則である。ディプロタイプ形は2つのハプロタイプの組合わせなので、集団には個体数の2倍のハプロタイプが存在する。
連鎖不平衡とは、連鎖する2つ以上の遺伝子座で観察される現象である。簡単に言えば、連鎖不平衡とは、異なる遺伝子座間における対立遺伝子の分配が独立ではない現象、すなわち、ハプロタイプ頻度が各遺伝子座における対立遺伝子の頻度を掛け合わせて得られる頻度からずれている現象である。換言すれば、ハプロタイプ頻度がアレル頻度の積で表されるとき(すなわち独立のとき)、連鎖平衡という。連鎖平衡にない状態を連鎖不平衡という。
もし、集団が十分に大きく、すべての突然変異の起きた後に十分な時間が経ち、しかもアレル頻度に変化がなければ連鎖平衡が達成されているであろうと予想される。しかし、実際には集団は十分に大きくなく、十分な時間は経っておらず、しかもアレル頻度には変化がある。また、近い過去に2つの連鎖平衡が達成された集団が混合したなら、混合集団には強い連鎖不平衡があると予想される。一般に、近い遺伝的距離の中では世界のほとんどの集団で強い連鎖不平衡が存在する。距離が離れた多型であるほど連鎖不平衡の程度は低い。新しい突然変異に関係したハプロタイプほど強い連鎖不平衡があると予想され、集団の有効な大きさが大きいほど弱い連鎖不平衡があると予想される。
尚、遺伝的距離(Genetic(map) distance)は「2つの座位間で起きる交差の回数の期待値」と定義される。すなわち、遺伝的距離は組換えではなく、交差をもとに定義される距離の概念である。単位は、M(モルガン)。1Mは1回の減数分裂において1回の交差が期待できる距離として定義される。ここで、1Mの距離の間に必ず1回交差が起きるのではなく、確率的な概念であることに注意が必要である。また、交差(Crossover)とは減数分裂の過程で起こる相同染色体同士の部分的な乗り換え現象のことを指す。交差は顕微鏡で染色体の現象としてみることができる。これは動作を示す言葉である。1回の減数分裂において起こる交差の回数は1回とは限らない。
連鎖不平衡の存在は、遺伝統計学のための多くの手法を提供する。中でもcommon disease common variant common originという予想が正しければ、疾患の変異と周囲の変異に強い連鎖不平衡が存在し、連鎖不平衡を利用して疾患関連部位を探し出すことができると予想される。
連鎖不平衡の強い領域は、歴史的に組み換えが多い領域に挟まれた形で存在する。この領域はblockと呼ばれ、物理的距離で平均10〜15kb程度であるといわれている。しばしば100kbほどのblockもあることが分かっている。ただし、kbとは千塩基対(kilobase pair)であり、pkbとは、p千塩基対の距離を示す。尚、物理的距離(Physical(map) distance)は遺伝子の塩基配列を読んだときの2座位間の物理的な距離を表す。
相関解析等においては、通常等間隔に多型マーカを配置する。ここで、相関解析(association study)は通常、ケース−コントロール研究(case-control study,患者−対照研究)といわれているものを指す。これは、最も容易に行うことができる解析法である。相関解析も連鎖不平衡解析と同様に、家系データのない個体の集団を取り扱う。患者集団と一般集団のサンプルを独立に収集し、その間のアレル頻度の違い、あるいは特定のアレルを持つ個体の頻度の差を分析する。よって、100kbのblockには10〜15kbのblockと比較してより多くのマーカを配置することになる。例えば、100kb以上にわたる巨大blockには30個以上のSNPをタイピングしてしまうこともある。
しかし、block領域ではおよそ5種類以下のハプロタイプで累積頻度が95%以上となるため、1block当りに必要なSNP数は2=4、2=8より最低3個である。せいぜい5種類程度のハプロタイプを識別するために、30個のSNPは全く必要なく、無駄である。
SNPs(single nucleotide polymorphisms)は、ヒトゲノム中の250−350bpごとに分布する(例えば、非特許文献1参照)。マイナーアレルの頻度が0.1以上のSNPはおよそ600kbごとに存在する(例えば、非特許文献2参照)。SNPsは、突然変異率が低く、高スループットなタイピングが可能であるため、相関解析においてマイクロサテライトマーカより有効である。また、SNPのハプロタイプ情報は、連鎖不平衡の検定や疾患遺伝子の染色体へのマッピングなどに対して非常に有効である(例えば、非特許文献3、非特許文献4、非特許文献5参照)。SNPのハプロタイプ情報は、単体SNPよりも頑健かつ強力に連鎖不平衡(LD)の位置情報を推定することができる(例えば、非特許文献6、非特許文献7参照)。
分子レベルでハプロタイプを推定する手法としては、単分子希釈(single-molecular dilution)(例えば、非特許文献8参照)、広範囲PCR(long-range PCR)(非特許文献9参照)、等温円回転増幅(isothermal rolling-circle amplification)(例えば、非特許文献10参照)、倍数染色体から半数染色体への変換(例えば、非特許文献11参照)などがある。しかしながら、これらの手法は自動化が困難、高コスト、低スループットなど多くの問題がある。
そのため、分子レベルで推定を行う代わりに統計学的にハプロタイプを推定する手法が注目されている。家系データが与えられたときは、相またはハプロタイプを決定する手法としては、Linkage Package(例えば、非特許文献12参照)やGENEHUNTER(例えば、非特許文献13参照)のようなソフトウェアや、いくつかの規則に基づいて家系内で最小の組み換えハプロタイプを推定する手法(非特許文献14参照)などがある。
一方、家系データが存在しない場合は、Clarkのアルゴリズム(例えば、非特許文献15参照)やハーディ・ワインバーグ平衡(Hardy-Weinberg equilibrium: HWE)を仮定して遺伝子を数えることによる(例えば、非特許文献16参照)EMアルゴリズム(例えば、非特許文献17参照)を用いた最尤推定手法(例えば、非特許文献18、非特許文献19、非特許文献20、非特許文献21、非特許文献22、非特許文献23参照)、偽Gibbs Sampler (pseudo Gibbs Sampler)による手法(例えば、非特許文献24参照)、PL法によるもの(例えば、非特許文献25参照)など様々なものがある。
EMアルゴリズムによる推定は、最も精度がよいとされており現在主流となっている。
詳述すると、EMアルゴリズムによる推定は、ハプロタイプ頻度の初期値に適当な値を設定し、E-stepでHWEを仮定してハプロタイプの期待値を求め,M-stepでハプロタイプ頻度の更新を行うことを繰り返しハプロタイプ頻度の最尤推定値を得るという手法で、現在最も多く用いられている。
非特許文献22において、北村らは集団のハプロタイプ頻度を用いてベイズ法によって個体ごとのハプロタイプを決定する手法を提案している。非特許文献21において、伊藤らは複数の個体のDNAを含んだDNA poolから得られた遺伝子型より集団のハプロタイプ頻度およびDNA pool中のハプロタイプ(haplotype copies)の組合せを推定する手法を提案している。
EMアルゴリズムはE-stepをHWEに依存しているが、Fallinらはハーディ・ワインバーグ不平衡(Hardy-Weinberg disequilibrium: HWD)のもとでのEMアルゴリズムによるハプロタイプ推定の頻度を評価し、HWDによって推定精度が下がるが、HWDに伴うホモ接合度の増加によって推定精度が上がるため、両者の間にバランスが生じていると述べている(非特許文献26参照)。
EMアルゴリズムを用いた手法は、多くの種類のデータに対して精度の高い推定が期待できるため現在主流になっている。しなしながら、EMアルゴリズムを用いた手法では、取り得る全てのハプロタイプ頻度情報を保持しなければならず、計算量の問題から多座位の遺伝子型データを推定することが困難である。
その問題を解決するため、最近では、非特許文献24において、StephensらがPGS(pseudo Gibbs Sampler)を用いたPhase法を提案している。これはClarkのアルゴリズムの改良とcoalescence modelに基づいたシミュレーションを組み合せたGibbs Samplerで、EMアルゴリズムを用いたものと同等以上の精度を持ち、より多くの遺伝子座に対応している。
Zhangらは、SNPのうち、ハプロタイプを代表するtag SNPを用いることによってマーカ数を削減できることを示唆している。
ゲノムワイドはハプロタイプを考えたとき、ヒトゲノムはそれぞれ独立したハプロタイプブロックに分割することができることが知られている(例えば、非特許文献6、非特許文献28、非特許文献29、非特許文献30参照)。
Dalyらは、非特許文献6において、Crohn病に関係すると考えられるヒト染色体5p31の500kbの範囲、マイナーアレル頻度が5%以上のSNPを103個解析し、その範囲が11のブロックに分割できることを発見した。また、Johnsonらは、非特許文献30において、9遺伝子の135kbの範囲におけるSNPを122解析することにより、384人のヨーロッパ人のハプロタイプを特徴づけるためには34SNPsで十分であることを示した。Niuらは、非特許文献25において、PL(Partition-Ligation)法と呼ばれる、遺伝子座をハプロタイプブロックごとに区切りそれぞれについてハプロタイプを解析手法によって多くの遺伝子座を扱うことに成功している。
尚、連鎖不平衡は、一般的な集団において平均3kb以上になることはなく、全ゲノムを用いた相関解析には500,000以上のSNPがいると考えられている(例えば、非特許文献31参照)。
また、ヒト染色体5p31領域のIBD(Identity by descent)に関するSNPデータが知られている(例えば、非特許文献32参照)。尚、IBDとは、2人の間で対立遺伝子が先祖の同じものを共有する(これを同祖であるという)状態をいう。
一方、EMアルゴリズムによる遺伝統計学的手法とマルコフモデルにおける辺重み最大化の問題をあわせることで実行時間を大幅に削減する、ハプロタイプ推定アルゴリズムが提案されている(例えば、非特許文献33参照)。この提案されている手法は、入力データから同遺伝子座以外の任意の2遺伝子座のアレル間の遷移確率をEMアルゴリズムによって求める第1の処理と、患者の遺伝子型データから、各遺伝子座のアレルをノードと見たてて、マルコフモデルを作成し、その患者が尤も取り得るハプロタイプを推定する第2の処理とからなる。換言すれば、個体のディプロタイプを、アレルをノードとするグラフ構造として表していることになる。
また、ハプロタイプブロックによる分割とマルコフモデルにおける辺重み最大化により多遺伝子座の遺伝子型データに対応可能なハプロタイプ推定手法も提案されている(例えば、非特許文献34参照)。ハプロタイプブロックを分割する点を除いて、上記非特許文献33と同様な手法である。
L. Beaudet et al., "Homogenous assays for single-nucleotide polymorphism typing using AlphaScreen," Genome Res., Vol.11, pp.600-608, 2001 D. G. Wang et al., "Large scale identification, mapping and genotyping of single-nucleotide polymorphisms in the human genome," Science, vol.280, pp.1077-1082, 1998 S. E. Hodge, M. Boehnke and M. A. Spance, "Loss of information due to ambigunous haplotyping of SNPs," Nat. Genet., Vol.21, pp.360-361, 1999 M. J. Rieder, S. L. Taylor, A. G. Clark and D. A. Nickerson, "Sequence variation in the human angiotensin converting enzyme," Nat. Genet., vol.22, pp.59-62, 1999 N. Risch and K. Merikangas, "The future of genetics studies of complex human diseases," Science, vol.273, pp.1516-1517, 1996 M. J. Daly et al., "High-resolution haplotype structure in the human genome," Nat. Genet., vol.29, pp.229-232, 2001 J. K. Pritchard, "Are rare variants responsible for susceptibility to complex diseases?," Ann. Hum. Genet., vol.69, pp.124-137, 2001 G. Ruano, K. K. Kidd and J. C. Stephens, "Haplotype of multiple polymorphisms resolved by enzymatic amplification of single DNA molecules," in Proc. Natl. Acad. Sci. USA, vol.87, pp.6296-6300, 1990 S. Michalatos-Beloin et al., "Molecular haplotyping of genetic markers 10kb apart by allele-specific long-range PCR," Nucleic Acids Res., vol.24, pp.4841-4843, 1996 P. M. Lizardi et al., "Mutation detection and single-molecule counting using isothermal rolling-circle amplification," Nat. Genet., vol.19, pp.225-232, 1998 J. A. Dougles et al., "Experimentally-derived haplotypes substantially increase the efficiency of linkage disequilibrium studies," Nat. Genet., vol.28, pp.361-364, 2001 G. M. Lathrop et al., "Multilocus linkage analysis in humans: detection of linkage and estimation of recombination," Am. J. Hum. Genet., vol.37, pp.482-498, 1985 L. Kruglyak, M. J. Daly, M. P. Reeve-Daly and E. S. Lander, "Parametric and nonparametric linkage analysis: a unified multipoint approach," Am. J. Hum. Genet., vol.58, pp.1347-1363, 1996 M. Qian and L. Beckmann, "Minimum-Recombinant haplotyping in pedigrees," Am. J. Hum. Genet., vol.70, pp.1434-1445, 2002 A. G. Clark, "Inference of haplotypes form PCR-amplified samples of diploid populations," Mol Biol Evol, vol.7, pp.111-122, 1990 J. Ott, "Counting methods (EM algorithm) in human pedigree analysis: linkage and segregation analysis," Ann. Hum. Genet., vol.40, pp.443-454, 1977 A. P. Dempster, N. M. Laird and D. B. Rubin, "Maximum likelihood from incomplete data via the EM algorithm," J. Roy. Statist. Soc. Ser. B, vol.39, pp.1-38, 1977 M. N. Chiano and D. G. Clayton, "Fine genetic mapping using haplotype analysis and the missing problem," Ann. Hum. Genet., vol.62, pp.55-60, 1998 L. Excoffer and M. Slatkin, "Maximum-likelihood estimation of molecular haplotype frequencies in a diploid polulation," Mol. Biol. Evol. vol. 12, pp.921-927, 1995 M. Hawley and K. Kidd, "HAPLO: a program using the EM algorithm to estimate the frequencies of multi-cite haplotypes," J. Hered., vol.86, pp.409-411, 1995 T. Ito et al, "Estimation of haplotype frequencies, linkage-disequilibrium measures, and combination of haplotype copies in each pool by use of pooled DNA data," Am, J. Hum, Genet., vol.72, pp.384-398, 2003 Y. Kitamura et al., "Determination of probability distribution of diplotype configuration (diplotype distribution) for each subject from genotypic data using the EM algorithm," Ann, Hum. Genet., vol.66, pp.183-193, 2002 J. C. Long, R. C. Williams and M. Urbanek, "An E-M algorithm and testing strategy for multiple locus haplotytes," Am. J. Hum. Genet., vol.56, pp.799-810, 1995 M. Stephens, N. J. Smith and P. Donnely, "A new statistical method for haplotype reconstruction from population data," Am. J. Hum. Genet., vol.68, pp.978-989, 2001 T. Niu, Z. S. Qin, X. Xu and J. S. Liu, "Baysian haplotype inference for multiple linked single nucleotide polymorphisms," Am. J. Hum. Genet., vol.70, pp.157-169, 2002 D. Fallin and N. J. Schork, "Accuracy of haplotype frequency estimation for biallelic loci, via the expectation-maximization algorithm for unphased diploid genotype data," Am. J. Hum. Genet., vol.67, pp.947-959, 2000 K. Zhang, P. Calabrase, M. Nordborg and F. Sun, "Haplotype block structure and its applications to association studies: power and study designs," Am. J. Hum. Genet., vol.71, pp.1386-1394, 2002 E. Dawson et al., "A first-generation linkage disequilibrium map of human chromosome 22," Nature, vol.418, pp.544-548, 2002 S. B. Gabriel et al, "The structure of haplotype blocks in the human genome," Science, vol.296, pp.2225-2229, 2002 G. C. L. Johnson et al., "Haplotype tagging for the identification of common disease genes," Nat. Genet., vol.29, pp.233-237, 2001 L. Kruglyak, "Prospects for whole-genome linkage disequilibrium mapping of complex disease genes," Nat. Genet., vol.22, pp.139-144, 1999 URL:http://www-genome.wi.mit.edu/human/IDB5/ 下里二郎、甲藤二郎、"多遺伝子座対応可能なハプロタイプ推定アルゴリズム"、FIT(情報科学技術フォーラム)2002、A−15、第29−30頁 下里二郎、甲藤二郎、"ブロック分割を用いた多遺伝子座のハプロタイプ推定に関する一考察"、2003年 電子情報通信学会総合大会、D−12−41、第202頁
前述したように、EMアルゴリズムによる推定は、最も精度がよいとされており現在主流となっている。しかしながら、EMアルゴリズムには、次に述べるような欠点がある。すなわち、集団内で存在する可能性のあるハプロタイプを全て保持し、繰り返し計算時においてその全てを考慮して計算しなければならないため、座位数nに対して計算量がO(2)で増加する点が挙げられる。n<30であれば、計算機上でも実行可能であるが、n>30を超えると、既存のEMアルゴリズムによるハプロタイプ推定は計算機上で実行困難となる。すなわち、EMアルゴリズムでは集団のとりうるハプロタイプを全て保持するため、遺伝子座が増加すると、実行時間、メモリ使用量ともに指数関数的に増大するという欠点がある。
前述したように、全ゲノムを用いた相関解析には500,000以上のSNPがいると考えられているため、EMアルゴリズムによるゲノムワイドなハプロタイプ推定は不可能である。
換言すれば、ゲノム解析に対する需要の向上、シーケンスなどの技術的な向上により、解析規模が拡大し、一度に処理するデータ量は拡大していくものと考えられる。座位数nが30を超えるようなデータを解析するためにはMCMC法やEMアルゴリズムのように集団内のハプロタイプそれぞれに対して何かしらの値を持つ手法では、扱うデータ量が膨大となり、計算機上で実行することは困難になる。
また、前述したように、PL法により、遺伝子座をハプロタイプブロックごとに区切りそれぞれについてハプロタイプを解析することが提案されているが、現在ハプロタイプブロックの明確な分割法は確立されておらず、適切なブロックに分割するためアルゴリズムの開発が必要である。
更に、非特許文献33,34で提案された手法では、ノード(頂点)としてアレルを採用しているので、個体ごとのディプロタイプ形を一元的に扱うことが困難になるという問題がある。
本発明の課題は、上記のような背景に鑑みて、座位数nが大きい遺伝子型データに対応したハプロタイプ推定方法を提供することにある。
本発明の他の課題は、個体ごとのディプロタイプ形を一元的に扱うことができる、ハプロタイプ推定方法を提供することにある。
本発明者らは、EMアルゴリズムに代表されるハプロタイプ推定アルゴリズムの多くが抱える計算量の問題を改善する新たなアルゴリズム(ハプロタイプ推定方法)の提案を行った。提案手法では、EMアルゴリズムとグラフ構造を組み合せることにより、取り得る全てのハプロタイプ情報を陰に保持し、ハプロタイプ推定を最大スコアを持つ完全グラフを探索する問題に変換した。
具体的に述べると、本発明の第1の態様によれば、コンピュータシステムを用いて、座位数がnの遺伝子型データから各個体のディプロタイプ形を推定する方法であって、個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表すステップと、n部完全グラフ構造の各辺の重みを、遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とするステップと、所定のスコアを用いて、n部完全グラフ構造の頂点集合を選択するステップと、各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定するステップとを含むディプロタイプ形の推定方法が得られる。
上記ディプロタイプ形の推定方法において、最尤推定としてEMアルゴリズムを用いることができる。また、遺伝子型データとして欠測を含むデータを扱う個体については、欠測を除いてディプロタイプ形を推定し、その結果を用いて補完を行うステップを更に含んでも良い。
本発明の第2の態様によれば、コンピュータシステムを用いて、座位数がnの遺伝子型データからハプロタイプを推定する方法であって、個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表すステップと、n部完全グラフ構造の各辺の重みを、遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とするステップと、所定のスコアを用いて、n部完全グラフ構造の頂点集合を選択するステップと、各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定するステップと、その推定により得られた各個体のディプロタイプ形より集団のハプロタイプ頻度を求めるステップとを含むハプロタイプ推定方法が得られる。
上記ハプロタイプ推定方法において、最尤推定としてEMアルゴリズムを用いることができる。また、遺伝子型データとして欠測を含むデータを扱う個体については、欠測を除いてディプロタイプ形を推定し、その結果を用いて補完を行うステップを更に含でも良い。
本発明の第3の態様によれば、座位数がnの遺伝子型データから各個体のディプロタイプ形を推定する装置であって、個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表す手段と、n部完全グラフ構造の各辺の重みを、遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とする手段と、所定のスコアを用いて、n部完全グラフ構造の頂点集合を選択する手段と、各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定する手段とを含むディプロタイプ形推定装置が得られる。
上記ディプロタイプ形推定装置において、最尤推定としてEMアルゴリズムを用いることができる。また、遺伝子型データとして欠測を含むデータを扱う個体については、欠測を除いて前記ディプロタイプ形を推定し、その結果を用いて補完を行う手段を更に含むことが好ましい。
本発明の第4の態様によれば、座位数がnの遺伝子型データからハプロタイプを推定する装置であって、個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表す手段と、n部完全グラフ構造の各辺の重みを、遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とする手段と、所定のスコアを用いて、n部完全グラフ構造の頂点集合を選択する手段と、各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定する手段と、この推定により得られた各個体のディプロタイプ形より集団のハプロタイプ頻度を求める手段とを含むハプロタイプ推定装置が得られる。
上記ハプロタイプ推定装置において、最尤推定としてEMアルゴリズムを用いることができる。また、遺伝子型データとして欠測を含むデータを扱う個体については、欠測を除いて前記ディプロタイプ形を推定し、その結果を用いて補完を行う手段を更に含むことが好ましい。
本発明の第5の態様によれば、コンピュータに、座位数がnの遺伝子型データから各個体のディプロタイプ形を推定させるためのプログラムであって、コンピュータに、個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表す機能と、n部完全グラフ構造の各辺の重みを、遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とする機能と、所定のスコアを用いて、n部完全グラフ構造の頂点集合を選択する機能と、各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定する機能とを実現させるためのプログラムが得られる。
上記プログラムにおいて、最尤推定としてEMアルゴリズムを用いることができる。また、コンピュータに、遺伝子型データとして欠測を含むデータを扱う個体については、欠測を除いてディプロタイプ形を推定し、その結果を用いて補完を行う機能を更に実現させることが望ましい。
本発明の第6の態様によれば、コンピュータに、座位数がnの遺伝子型データからハプロタイプを推定させるためのプログラムであって、コンピュータに、個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表す機能と、n部完全グラフ構造の各辺の重みを、遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とする機能と、所定のスコアを用いて、n部完全グラフ構造の頂点集合を選択する機能と、各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定する機能と、この推定により得られた各個体のディプロタイプ形より集団のハプロタイプ頻度を求める機能とを実現させるためのプログラムが得られる。
上記プログラムにおいて、最尤推定としてEMアルゴリズムを用いることができる。また、コンピュータに、遺伝子型データとして欠測を含むデータを扱う個体については、欠測を除いてディプロタイプ形を推定し、その結果を用いて補完を行う機能を更に実現させることが望ましい。
本発明によれば、EMアルゴリズムの持つ推定精度の高さ、小さいデータでの実行時間の短さといった利点を生かしながら、実行時間を指数関数オーダから多項式オーダへと削減し、大きなデータへの対応が可能となる。また、頂点としてアレルではなく順列遺伝子座を採用しているので、個体ごとのディプロタイプ形を一元的に扱うことができる。
以下、本発明にかかるハプロタイプ推定方法について詳細に説明する。
EMアルゴリズムは少ない座位数であれば、高精度にハプロタイプ推定を高速に実行することが可能である。EMアルゴリズムの利点を生かすために、EMアルゴリズムを用いた既存のハプロタイプ推定手法をグラフ構造に組み込むことにより、時間計算量・空間計算量を削減し、同程度の推定精度を確保している。本発明により提案されたハプロタイプ推定方法を、ここでは“ldlight”と呼ぶことにする。
座位数n>30の遺伝子型データに対応するためには、既存のアルゴリズムのように集団内で考えられている全てのハプロタイプを考慮する方法では、必要となるメモリ量が爆発的に増加するため実現不可能である。
この問題を解決するためには、個々のハプロタイプに関する情報を持たずに、全てのハプロタイプ情報を考慮することのできる新たなデータ構造が必要となる。
遺伝子型データの各座位間には、連鎖不平衡が形成されている。連鎖不平衡は、連続した座位間のみに生じるものではなく、離れた領域間に強い連鎖不平衡が生じる場合もある。このため、ハプロタイプを推定するためには、全ての座位間に生じる連鎖不平衡を考慮する必要がある。
集団では1つの座位においてアレルは複数存在するため、データ構造は異なる座位のアレル間の連鎖不平衡を考慮する必要がある。よって、図1に示されるように、各座位のアレルを頂点(ノード)とし、異なる座位の頂点間を辺で結んだデータ構造が集団のハプロタイプを考慮する上で有効であると考えられる。
座位数をnとすると、集団が持つ新たなデータ構造はn部完全グラフとして扱うことができる。n部完全グラフは、下記の数13で表される。
Figure 2005092719
ここで、mとは座位iにおけるアレル数である。各座位の頂点には各座位で考えられるアレルを与え、頂点間を結ぶ各辺には辺が結ぶ頂点間の結びつきの強さを表す数値を辺の重みとして与える。結び付きの強さとしては、EMアルゴリズムによって2座位間を結ぶ辺に対応する集団のハプロタイプ頻度を用いる。これは、2座位にまたがるアレル間の結びつきの強さはもともと集団内に存在するアレルの割合、および連鎖不平衡の強さを考慮する必要があるためであり、EMアルゴリズムにより推定されたハプロタイプ頻度はアレル頻度、連鎖不平衡の強さの両方を考慮しているからである。
本発明よるハプロタイプ推定方法では、集団のハプロタイプ分布を直接求めるのではなく、集団内の各個体のハプロタイプをそれぞれ推定し、それらを集計することにより求める方法を採用している。よって個体のハプロタイプを推定するために集団の持つ特徴から構成された、数13で表されるグラフ構造から個人の持つディプロタイプ形を推定するためには、個人の持つ遺伝子型に合わせた新たなグラフ構造を数13から生成する必要がある。
各個人では1つの座位においてアレルは2つ存在するため、個体ごとのグラフ構造は集団のグラフ構造の座位ごとに2ずつアレルを抽出したものに相当する。そして個体ごとに相の特定された遺伝子型(順列遺伝子型)を考えると、順列遺伝子型はホモの場合1種類、ヘテロの場合2種類存在する。よって個体ごとに生成されるグラフ構造は、下記の数14で表されるn部完全グラフ構造となる。
Figure 2005092719
辺の重みとしては、集団のグラフ構造のようなハプロタイプ頻度ではなく、EMアルゴリズムによって求めた集団における2座位間でのディプロタイプ頻度(ディプロタイプ形の確率)を与える。
ノード(頂点)としてアレルではなく順列遺伝子型を採用することによって、個体ごとにディプロタイプ形を一元的に扱うことができ、個体の持つ遺伝子型データから、ある1つのディプロタイプ形を選択すると、グラフ構造ではn次完全グラフが1つ選択されたことになる。
図2に4座位のデータ構造から1つの4次完全グラフ構造を選択した場合を示す。
座位iの頂点をv=(vi1,vi2)と表すとすると、座位iの頂点vi1と座位jの頂点vj1とを結ぶ辺には個人がvi1とvj1を持つ同時確率p(vi1,vj1)が付加されていると考えることができる。個人が実際に持つディプロタイプ形を構成するn次完全グラフでは、どの辺も高い同時確率を持ち、低い同時確率を持つ辺がグラフ内に入ることはないと予想される。この予想より、頂点集合S={v’,v’,・・・,v’}を選択したときの評価値(スコア)として下記の数15を提案する。
Figure 2005092719
個人indが持つ実際のディプロタイプ形D(ind)は、予想から最大の評価値をとるはずであるから、個人のディプロタイプ形は最大の評価値を持つn次完全グラフを探索する問題に置き換えることが可能である。その問題は下記の数16で表される。
Figure 2005092719
グラフ構造から個人のディプロタイプ形を推定するために、頂点の全ての組み合わせ探索する方法では、座位数nに対して時間計算量がO(2)となってしまい、実行困難に陥ってしまうことが予想される。よって、問題を辺の持つ値を対数値とし、n部完全グラフから辺重みの和が最大となるn次完全グラフを求めるグラフ問題に変換し、高速にハプロタイプを推定する手法が必要である。
座位iの順列遺伝子型に相当する頂点をv、座位iと座位jの頂点を結ぶ辺をeijとし、辺集合Eは判定時に使用する辺集合Eと使用しない辺集合Eに分けられているものとする。辺eijはディプロタイプ頻度を持つため、ei1j1とei2j2、ei1j2とei2j1はそれぞれ同じ値を持つこととなる。尚、頂点vと辺eijは、それぞれ、下記の数17、数18で表される。
Figure 2005092719
Figure 2005092719
図3に、以下に個人の持つディプロタイプ形を推定するための、数14で表されるn部完全グラフ構造から辺の重みの和が最大となるn次完全グラフ構造を抽出するアルゴリズムを示す。
最初に、全てのeij(0≦j≦n−1、i+1≦j≦n)において(ei1j1,ei2j2)と(ei1j2,ei2j1)の値を比較し、大きい方をE、小さい方をEに追加する(Step-1)。
次に、頂点集合と辺集合Eで構成されるグラフ構造内にn次完全グラフが存在するかを判定する(Step-2)。詳述すると、まず、座位0と第2頂点のみを除き、全ての頂点をactiveにする(Step-2.1)。座位iと座位i+1において以下の操作を行う(初期値i=0)(Step-2.2)。
座位i+1の頂点のうち、座位iの頂点とEの辺で接続されていないものはpassiveとする(Step-2.2.1)。j>i+1なるvにおいて、接続関係にあるv,vi+1の両方に接続している頂点のみをactiveとし、残りをpassiveとする。その座位、ある座位のvが2つともpassiveとなったら、Step-3へと進む(Step-2.2.2)。i=i+1として、Step-2.2.2を繰り返す(Step-2.2.3)。
次に、i=nとし、Step-2.1の操作を逆順に行う。i=1まで終了したならばStep-4へ進む(Step-2.3)。
引続いて、Eの辺の中で最大値を持つ辺のペアをEに移動し、Step-2の判定を繰り返す(Step-3)。
最後に、残っている各座位の頂点集合から個人のディプロタイプ形を推定する。もし、同一座位の2頂点が残っている場合は、判定の繰り返し時に先に選択されたものを優先する(Step-4)。
このn次完全グラフ判定アルゴリズムにより、EMアルゴリズムによるハプロタイプ推定が座位数nのSNPデータに対して計算複雑度、空間複雑度ともO(2)であるのに対し、本発明によるハプロタイプ推定方法では計算複雑度をO(n)に、空間複雑度をO(n)に削減している。
以上のデータ構造、アルゴリズムでは個体中の欠測を考慮せずに説明を行った。しかしながら、実際に得られる大規模な遺伝子型データでは、すべての座位において遺伝子型が観測できることは稀であり、各個体において少なからず遺伝子型が観測できない部位が存在することになる。実際に得られるデータに対応するためには、欠測した部分を補完して推定する必要があると考えられる。
EMアルゴリズムによる推定では、欠測した座位において考えらえる全ての順列遺伝子型を仮定しハプロタイプ候補を上げることにより対応することが可能である。これに対して、本発明によるハプロタイプ推定方法では全ての順列遺伝子型を考慮すると個人の持つグラフ構造が数14ではなくなり、辺の重みが最大となる完全グラフ構造の探索が複雑になる問題点が存在する。
しかしながら、もし入力座位数に対して欠測数が十分に少ない数であると仮定できるならば、欠測を除いた状態で推定した結果と欠測を含めて推定した結果が異なることは極めて稀であると推測される。よって本発明によるハプロタイプ推定方法では、欠測を除いた状態で一度推定を行い、得られた結果を用いて補完を行う方法を考える。
簡単のため座位数がnであり、欠測数が1つであるとする。欠測を含まない座位ではldlightによる推定の結果から順列遺伝子型が決定しているとする。以上の仮定を図式化したものを図4に示す。
座位iを除いた座位では順列遺伝子型(グラフ中では頂点)が決定しているため、座位iに対して、下記の数19のように、それぞれの同時確率(グラフ中では辺の重み)を得ることが可能である。
Figure 2005092719
ldlightのアルゴリズムと同様に考えるならば、座位iとその他の各座位との同時確率は、推定結果が尤もらしならばどれも高くなり、1つでも極端に小さい値をとるならば推定結果が実際に個体が持つハプロタイプとは異なる可能性が高いと考えられる。以上から、欠測部分の順列遺伝子型を評価する評価値(スコア)score(V)として、下記の数20で表されるものを提案する。
Figure 2005092719
入力データにSNPを仮定すると、欠側座位において考えられる順列遺伝子型はアレル1,2に対して11,12,21,22の4種類存在することになる。この4種類の順列遺伝子型を示す頂点をそれぞれVi1,Vi2,Vi3,Vi4とするならば、補完するべき頂点は、下記の数21のように、上記数20の最大値をとるものとなる。
Figure 2005092719
入力データが、マルチアレルであればscoreの算出回数が増加することになるが、SNPデータの解析ならば1座位につき4回のscore算出のみで済むため、実行時間の面では大きく問題になることは無いと予想される。
次に、本発明によるハプロタイプ推定方法の有効性を示すために、本発明者らは、公開されている実データとシミュレーションデータの2種類のデータについて解析を行い、EMアルゴリズムによる手法と精度および実行時間の比較を行った。特に実行時間に関しては、他の多遺伝子座のハプロタイプ推定に対応したソフトウェアと比較を行った。
本発明者らは、非特許文献32に開示されているヒト染色体5q31領域のIBDに関するSNPデータを用いて実行時間の測定を行った。その測定結果を図5に示す。EMアルゴリズムを用いたソフトウェアとして、非特許文献22に記載されているLDSUPPORTを使用している。
図5から少ない座位数ではEMアルゴリズムの高速性が顕著に表れているが、遺伝子座数10以上のデータでは、本発明に係るハプロタイプ推定方法(idlight)の実行時間が常に短い結果となった。18座位のデータの処理時間の比較では約1350倍の高速性を実現している。
推定精度の比較実験として、本発明者らは、報告されているハプロタイプブロックのうち、最初の5ブロックに相当する部分のSNPデータを使用して、そのうちの100人分の解析を行った。集団をcase集団(罹患者集団)とcontrol集団(非罹患者集団)の2種類に分類し、そのそれぞれについて本発明に係るハプロタイプ推定方法とEMアルゴリズムによって推定したハプロタイプ頻度を比較した。その比較結果を下記の表1に示す。
Figure 2005092719
各ブロックにおいて集団内に10%以上存在するものをメジャーハプロタイプとして列挙し、その他のマイナーハプロタイプはothersとした。表1から、ブロックにおいては多少の差が生じているものの、EMアルゴリズムによる推定と比較しても遜色の無い推定が実現できていると考えられる。
次に、本発明者らは、本発明に係るハプロタイプ推定方法と従来の方法について、シミュレーションデータに対する実行時間及び推定精度の比較を行った。実行時間を比較するために、本発明者らは、染色体5q31領域のハプロタイプブロックのうち、3-7ブロックに相当する58遺伝子座のハプロタイプを用い、その中からサンプリングを行うことによってデータ生成を行った。また、多遺伝子座のハプロタイプを推定するためのソフトウェアとして、非特許文献24に開示されているPHASEおよび非特許文献25に開示されているPL-EMを比較対象に加えた。個体数を100として、遺伝子座数を5から50まで変化させたときの実行時間を図6に示す。
図6から、シミュレーションデータの場合、10遺伝子座以下ではオーバヘッドの少ないEMアルゴリズムによる推定の方が高速に実行できる。これは少ない遺伝子座ではとりうるハプロタイプ数が少なくなり、EMアルゴリズムのE-stepが高速に実行されることによるものである。それに対してldlightは、座位間の重みを求めて個体ごとにグラフ構造を構成するため、少ない座位ではそのオーバーヘッドが大きく出る。
一方、10遺伝子座より多い遺伝子座においては、本発明に係るハプロタイプ推定方法の効果が現れていることが分かる。これは遺伝子座が多くなると、とりうるハプロタイプが指数関数的に増大するためEMアルゴリズムは実行速度が指数関数的に増加するが、ldlightはグラフ構造を作った後の解析が非常に高速であるため、遺伝子座数15以降ではその差が顕著に表れている。
また、idlightと同じく多遺伝子座を扱うことができるPHASE、PL-EMと比較すると、50遺伝子座においておよそ100倍近くの高速化が達成されていることが分かる。これは、従来の高速化手法はEMアルゴリズムで考慮されていた集団全体のハプロタイプに対して、それを減らすというアプローチであったため、本質的にはEMアルゴリズムと同様の問題を抱えているからである。それに対して、本発明に係るハプロタイプ推定方法では、新しいデータ構造を用いることによって、集団の取り得るハプロタイプを考慮せず、完全グラフが発見されたときに初めてハプロタイプとして構成されるため、根本的に異なるアプローチである。
本発明に係るハプロタイプ推定方法では100遺伝子座以上のデータも高速に処理可能であり、100個体100座位の遺伝子型データからハプロタイプを推定した場合では、Celeron800MHzにおいて約4秒、6.6MByteのメモリ使用量で処理が可能である。
次に精度に関する比較を行うために、本発明者らは、coalescent with recombinationにもとづくシミュレーションによって、擬似的にSNPデータを生成して精度の比較を行った。個体数を100に固定して、遺伝子座数を2から16まで2ずつ変化させたときの平均エラー率を図7および下記の表2に示す。
Figure 2005092719
平均エラー率は1000個のデータセットを解析したときのエラー率の平均値である。
図7および表2より、idlightは、遺伝子座数8においてidsupportよりエラー率が高くなったが、その他の遺伝子座数では全てのidsupportよりも精度の高い結果が得られた。遺伝子座数2の場合では、idlightは全ての個体に対して正しいハプロタイプを推定することができた。
すなわち、本発明に係るハプロタイプ推定方法は、精度に関しては、5q31領域の解析においてEMアルゴリズムとほぼ同様の推定結果を示している。coalescent-based modelにおいては、本発明に係るハプロタイプ推定方法は、遺伝子座数14では0.2以下のエラー率で解析可能となっている。EMアルゴリズムと比較してもこれは遜色のない結果で、本発明に係るハプロタイプ推定方法は、平均的にはEMアルゴリズムよりよい結果を示している。coalescent-based modelは集団遺伝学の理論に基づいてシミュレーションデータを生成しているため、実際の集団を解析した場合についてもある程度高い精度を示すことが期待できる。従って、本発明に係るハプロタイプ推定方法は、精度の面でもEMアルゴリズムの代替となり得ることが示された。
このように、本発明に係るハプロタイプ推定方法は、EMアルゴリズムを用いたアルゴリズムとの実行時間、推定精度の比較により、EMアルゴリズムの持つ推定精度と同等の精度を確保し、大幅な実行時間の削減を実現していることが確認された。
次に、図8を参照して、本発明によるハプロタイプ推定方法を実現するコンピュータシステムについて説明する。
図8に示されるように、図示のコンピュータシステムは、CPU11と、主記憶装置12と、入力装置13と、出力装置14と、表示装置15と、記録媒体16とを備え、これらは中央伝送路17によって互いに接続されている。
入力装置13は、データを入力するための装置で、例えば、キーボードやマウスなどのポインティングデバイス等から成る。尚、入力するデータとしては、遺伝子型データがある。出力装置14はCPU11の実行により得られた結果を出力するための装置で、例えば、プリンタ等から成る。表示装置15はCPU11の実行に得られた結果を表示するための装置で、例えば、ディスプレイ等から成る。記録媒体16はハードディスク等からなる。
上述した本発明によるハプロタイプ推定方法を実施するためのプログラム(以下、本発明のプログラムともいう。)と入力データとは、記録媒体16に保存されている。CPU11は、入力装置13からの信号を受け、本発明のプログラムを主記憶装置12に呼び出し、実行する。
CPU11は、入力データを主記憶装置12に呼び出し、本発明のプログラムを実行する。得られた結果であるハプロタイプ推定結果を表示装置15に表示し、記録媒体16に保存する。得られた結果は、出力装置14から出力することもできる。
図9は、本発明のプログラムを説明するためのフローチャートである。
最初に、CPU11は、集団に関するグラフを作成する(ステップS1)。すなわち、個体のディプロタイプ形を、順列遺伝子型を頂点(ノード)に対応させたn部完全グラフ構造で表す。ここで、ノード(頂点)には順列遺伝子形が対応する。エッジ(辺)にはEMアルゴリズムによって求めたディプロタイプ頻度(ディプロタイプ形の確率)を付加する。
次に、CPU11は、集団に関するグラフより、未探索の個体に関するグラフを抽出する(ステップS2)。そして、CPU11は、個体に関するグラフより枝を抜き出して部分グラフを作成する(ステップS3)。このとき、CPU11は、2遺伝子座間でスコアの高い方の枝を抜き出す。CPU11は、部分グラフが完全グラフを含むか否かを判断する(ステップS4)。部分グラフが完全グラフを含まない場合(ステップS4のno)、CPU11は、選ばれていない枝のうち、最もスコアの高いものを部分グラフに加え(ステップS5)、ステップS4に戻る。
一方、部分グラフが完全グラフを含むなら(ステップS4のyes)、CPU11は、完全グラフに対応するディプロタイプ形を得る(ステップS6)。引続いて、CPU11は、欠測部分の推定を行う(ステップS7)。CPU11は、未探索の個体があるか否かを判断する(ステップS8)。未探索の個体がある場合(ステップS8のyes)、CPU11はステップS2に戻る。
未探索の個体がない場合(ステップS8のno)、CPU11は全ての個体のディプロタイプ形より各ハプロタイプの出現回数をカウントし、集団のハプロタイプ頻度を求める(ステップS9)。
詳述すると、集団のハプロタイプ頻度は、集団内の各個体のディプロタイプ形をそれぞれ推定し、ハプロタイプ毎に集計して割合を求めることによって得られる。例えば、集団の個体数がNの場合を考える。推定された各個体のディプロタイプ形の中に、あるハプロタイプがa本存在すれば、そのハプロタイプ頻度はa/(2×N)となる。
図9に示されたプログラムを図8に示されたコンピュータシステムが実行することで、本発明によるハプロタイプ推定装置が実現される。すなわち、本発明によるハプロタイプ推定装置は、座位数がnの遺伝子型データからハプロタイプを推定する装置である。ハプロタイプ推定装置は、個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表す手段と、n部完全グラフ構造の各辺の重みを、遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とする手段と、所定のスコアを用いて、n部完全グラフ構造の頂点集合を選択する手段と、各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定する手段と、この推定により得られた各個体のディプロタイプ形より集団のハプロタイプ頻度を求める手段とを含む。
このハプロタイプ推定装置において、最尤推定としてEMアルゴリズムを用いることができる。また、座位i(iは1からn−1までの整数)の頂点をv={vi1,vi2}と表し、座位iの頂点vi1と座位j(jはi+1からnまでの整数)の頂点vj1を結ぶ辺に個体が頂点vi1と頂点vj1を持つ同時確率p(vi1,vj1)が付加されていると考えた場合に、スコアscore(S)として上記数15を用いることができる。
また、本発明によるハプロタイプ推定装置は、遺伝子型データとして欠測を含むデータを扱う個体については、欠測を除いてディプロタイプ形を推定し、その結果を用いて補完を行う手段を更に含んでも良い。その場合、欠測した座位iに対してのそれぞれの同時確率をP(V,V),P(V,V),…,P(V,V)としたとき、欠側部分の順列遺伝子型のスコアscore(V)として上記数20を用いることができる。
以上、本発明について好ましい実施の形態によって説明してきたが、本発明は上述した実施の形態に限定しないのは勿論である。例えば、上述した実施の形態では、多型マーカがSNPである場合を例に挙げて説明したが、アレルが複数あるマイクロサテライト等の他の多型マーカに対しても当業者であれば容易に適用可能であることは明らかである。また、最尤推定としてEMアルゴリズムを用いた場合についてのみ説明しているが、他の最尤推定を用いても良いのは勿論である。更に、個体が取りうるディプロタイプ形の確率を推定することもできる。
グラフのデータ構造を示す図である。 4座位のデータ構造から1つの4次完全グラフ構造を選択した場合の例を示す図である。 個人の持つディプロタイプ形を推定するためのn部完全グラフ構造から辺の重みの和が最大となるn次完全グラフ構造を抽出するアルゴリズムを示す図である。 欠測した部分を補完して推定する例を説明するための図である。 ヒト染色体5q31領域のIBDに関するSNPデータを用いて実行時間の測定を行った結果を示す図である。 本発明に係るハプロタイプ推定方法と従来方法について、シミュレーションデータに対する実行時間を比較するために、個体数を100として、遺伝子座数を5から50まで変化させたときの実行時間を示す図である。 本発明に係るハプロタイプ推定方法と従来方法について、シミュレーションデータに対する推定精度を比較するために、個体数を100に固定して、遺伝子座数を2から16まで2ずつ変化させたときの平均エラー率を示す図である。 本発明によるハプロタイプ推定方法を実現するコンピュータシステムのハードウェア構成を示すブロック図である。 本発明によるハプロタイプ推定方法を図8に示すコンピュータシステムで実施するためのプログラムを説明するためのフローチャートである。
符号の説明
11 CPU
12 主記憶装置
13 入力装置
14 出力装置
15 表示装置
16 記録媒体
17 中央伝送路

Claims (30)

  1. コンピュータシステムを用いて、座位数がnの遺伝子型データから各個体のディプロタイプ形を推定する方法であって、
    個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表すステップと、
    前記n部完全グラフ構造の各辺の重みを、前記遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とするステップと、
    所定のスコアを用いて、前記n部完全グラフ構造の頂点集合を選択するステップと、
    各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定するステップと
    を含むディプロタイプ形の推定方法。
  2. 前記最尤推定としてEMアルゴリズムを用いることを特徴とする請求項1に記載のディプロタイプ形の推定方法。
  3. 座位i(iは1からn−1までの整数)の頂点をv={vi1,vi2}と表し、前記座位iの頂点vi1と座位j(jはi+1からnまでの整数)の頂点vj1を結ぶ辺に個体が前記頂点vi1と前記頂点vj1を持つ同時確率p(vi1,vj1)が付加されていると考えた場合に、前記スコアscore(S)として下記の数1
    Figure 2005092719
    を用いることを特徴とする請求項1又は2に記載のディプロタイプ形の推定方法。
  4. 前記遺伝子型データとして欠測を含むデータを扱う個体については、前記欠測を除いて前記ディプロタイプ形を推定し、その結果を用いて補完を行うステップを更に含む、請求項1に記載のディプロタイプ形の推定方法。
  5. 欠測した座位iに対してのそれぞれの同時確率をP(V,V),P(V,V),…,P(V,V)としたとき、前記欠側部分の順列遺伝子型のスコアscore(V)として下記の数2
    Figure 2005092719
    を用いることを特徴とする請求項4に記載のディプロタイプ形の推定方法。
  6. コンピュータシステムを用いて、座位数がnの遺伝子型データからハプロタイプを推定する方法であって、
    個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表すステップと、
    前記n部完全グラフ構造の各辺の重みを、前記遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とするステップと、
    所定のスコアを用いて、前記n部完全グラフ構造の頂点集合を選択するステップと、
    各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定するステップと、
    該推定により得られた各個体のディプロタイプ形より集団のハプロタイプ頻度を求めるステップと
    を含むハプロタイプ推定方法。
  7. 前記最尤推定としてEMアルゴリズムを用いることを特徴とする請求項6に記載のハプロタイプ推定方法。
  8. 座位i(iは1からn−1までの整数)の頂点をv={vi1,vi2}と表し、前記座位iの頂点vi1と座位j(jはi+1からnまでの整数)の頂点vj1を結ぶ辺に個体が前記頂点vi1と前記頂点vj1を持つ同時確率p(vi1,vj1)が付加されていると考えた場合に、前記スコアscore(S)として下記の数3
    Figure 2005092719
    を用いることを特徴とする請求項6又は7に記載のハプロタイプ推定方法。
  9. 前記遺伝子型データとして欠測を含むデータを扱う個体については、前記欠測を除いて前記ディプロタイプ形を推定し、その結果を用いて補完を行うステップを更に含む、請求項6に記載のハプロタイプ推定方法。
  10. 欠測した座位iに対してのそれぞれの同時確率をP(V,V),P(V,V),…,P(V,V)としたとき、前記欠側部分の順列遺伝子型のスコアscore(V)として下記の数4
    Figure 2005092719
    を用いることを特徴とする請求項9に記載のハプロタイプ推定方法。
  11. 座位数がnの遺伝子型データから各個体のディプロタイプ形を推定する装置であって、
    個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表す手段と、
    前記n部完全グラフ構造の各辺の重みを、前記遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とする手段と、
    所定のスコアを用いて、前記n部完全グラフ構造の頂点集合を選択する手段と、
    各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定する手段と
    を含むディプロタイプ形推定装置。
  12. 前記最尤推定としてEMアルゴリズムを用いることを特徴とする請求項11に記載のディプロタイプ形推定装置。
  13. 座位i(iは1からn−1までの整数)の頂点をv={vi1,vi2}と表し、前記座位iの頂点vi1と座位j(jはi+1からnまでの整数)の頂点vj1を結ぶ辺に個体が前記頂点vi1と前記頂点vj1を持つ同時確率p(vi1,vj1)が付加されていると考えた場合に、前記スコアscore(S)として下記の数5
    Figure 2005092719
    を用いることを特徴とする請求項11又は12に記載のディプロタイプ形推定装置。
  14. 前記遺伝子型データとして欠測を含むデータを扱う個体については、前記欠測を除いて前記ディプロタイプ形を推定し、その結果を用いて補完を行う手段を更に含む、請求項11に記載のディプロタイプ形推定装置。
  15. 欠測した座位iに対してのそれぞれの同時確率をP(V,V),P(V,V),…,P(V,V)としたとき、前記欠側部分の順列遺伝子型のスコアscore(V)として下記の数6
    Figure 2005092719
    を用いることを特徴とする請求項14に記載のディプロタイプ形推定装置。
  16. 座位数がnの遺伝子型データからハプロタイプを推定する装置であって、
    個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表す手段と、
    前記n部完全グラフ構造の各辺の重みを、前記遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とする手段と、
    所定のスコアを用いて、前記n部完全グラフ構造の頂点集合を選択する手段と、
    各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定する手段と、
    該推定により得られた各個体のディプロタイプ形より集団のハプロタイプ頻度を求める手段と
    を含むハプロタイプ推定装置。
  17. 前記最尤推定としてEMアルゴリズムを用いることを特徴とする請求項16に記載のハプロタイプ推定装置。
  18. 座位i(iは1からn−1までの整数)の頂点をv={vi1,vi2}と表し、前記座位iの頂点vi1と座位j(jはi+1からnまでの整数)の頂点vj1を結ぶ辺に個体が前記頂点vi1と前記頂点vj1を持つ同時確率p(vi1,vj1)が付加されていると考えた場合に、前記スコアscore(S)として下記の数7
    Figure 2005092719
    を用いることを特徴とする請求項16又は17に記載のハプロタイプ推定装置。
  19. 前記遺伝子型データとして欠測を含むデータを扱う個体については、前記欠測を除いて前記ディプロタイプ形を推定し、その結果を用いて補完を行う手段を更に含む、請求項16に記載のハプロタイプ推定装置。
  20. 欠測した座位iに対してのそれぞれの同時確率をP(V,V),P(V,V),…,P(V,V)としたとき、前記欠側部分の順列遺伝子型のスコアscore(V)として下記の数8
    Figure 2005092719
    を用いることを特徴とする請求項19に記載のハプロタイプ推定装置。
  21. コンピュータに、座位数がnの遺伝子型データから各個体のディプロタイプ形を推定させるためのプログラムであって、前記コンピュータに、
    個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表す機能と、
    前記n部完全グラフ構造の各辺の重みを、前記遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とする機能と、
    所定のスコアを用いて、前記n部完全グラフ構造の頂点集合を選択する機能と、
    各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定する機能と
    を実現させるためのプログラム。
  22. 前記最尤推定としてEMアルゴリズムを用いることを特徴とする請求項21に記載のプログラム。
  23. 座位i(iは1からn−1までの整数)の頂点をv={vi1,vi2}と表し、前記座位iの頂点vi1と座位j(jはi+1からnまでの整数)の頂点vj1を結ぶ辺に個体が前記頂点vi1と前記頂点vj1を持つ同時確率p(vi1,vj1)が付加されていると考えた場合に、前記スコアscore(S)として下記の数9
    Figure 2005092719
    を用いることを特徴とする請求項21又は22に記載のプログラム。
  24. 前記コンピュータに、前記遺伝子型データとして欠測を含むデータを扱う個体については、前記欠測を除いて前記ディプロタイプ形を推定し、その結果を用いて補完を行う機能を更に実現させる、請求項21に記載のプログラム。
  25. 欠測した座位iに対してのそれぞれの同時確率をP(V,V),P(V,V),…,P(V,V)としたとき、前記欠側部分の順列遺伝子型のスコアscore(V)として下記の数10
    Figure 2005092719
    を用いることを特徴とする請求項24に記載のプログラム。
  26. コンピュータに、座位数がnの遺伝子型データからハプロタイプを推定させるためのプログラムであって、前記コンピュータに、
    個体のディプロタイプ形を、順列遺伝子型を頂点に対応させたn部完全グラフ構造として表す機能と、
    前記n部完全グラフ構造の各辺の重みを、前記遺伝子型データから最尤推定によって推定したディプロタイプ形の確率とする機能と、
    所定のスコアを用いて、前記n部完全グラフ構造の頂点集合を選択する機能と、
    各個体のディプロタイプ形を、最大スコアを持つn次完全グラフ探索問題に置き換えて推定する機能と、
    該推定により得られた各個体のディプロタイプ形より集団のハプロタイプ頻度を求める機能と
    を実現させるためのプログラム。
  27. 前記最尤推定としてEMアルゴリズムを用いることを特徴とする請求項26に記載のプログラム。
  28. 座位i(iは1からn−1までの整数)の頂点をv={vi1,vi2}と表し、前記座位iの頂点vi1と座位j(jはi+1からnまでの整数)の頂点vj1を結ぶ辺に個体が前記頂点vi1と前記頂点vj1を持つ同時確率p(vi1,vj1)が付加されていると考えた場合に、前記スコアscore(S)として下記の数11
    Figure 2005092719
    を用いることを特徴とする請求項26又は27に記載のプログラム。
  29. 前記コンピュータに、前記遺伝子型データとして欠測を含むデータを扱う個体については、前記欠測を除いて前記ディプロタイプ形を推定し、その結果を用いて補完を行う機能を更に実現させる、請求項26に記載のプログラム。
  30. 欠測した座位iに対してのそれぞれの同時確率をP(V,V),P(V,V),…,P(V,V)としたとき、前記欠側部分の順列遺伝子型のスコアscore(V)として下記の数12
    Figure 2005092719
    を用いることを特徴とする請求項29に記載のプログラム。

JP2003327943A 2003-09-19 2003-09-19 ハプロタイプ推定方法、推定装置、プログラム Pending JP2005092719A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003327943A JP2005092719A (ja) 2003-09-19 2003-09-19 ハプロタイプ推定方法、推定装置、プログラム
US10/943,299 US20050089906A1 (en) 2003-09-19 2004-09-17 Haplotype estimation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003327943A JP2005092719A (ja) 2003-09-19 2003-09-19 ハプロタイプ推定方法、推定装置、プログラム

Publications (1)

Publication Number Publication Date
JP2005092719A true JP2005092719A (ja) 2005-04-07

Family

ID=34457671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003327943A Pending JP2005092719A (ja) 2003-09-19 2003-09-19 ハプロタイプ推定方法、推定装置、プログラム

Country Status (2)

Country Link
US (1) US20050089906A1 (ja)
JP (1) JP2005092719A (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100590538B1 (ko) * 2004-02-19 2006-06-15 삼성전자주식회사 측정 데이터에서 결측치 제거 방법
JP2007279999A (ja) * 2006-04-06 2007-10-25 Hitachi Ltd 薬物動態解析システム及び方法
US9158791B2 (en) 2012-03-08 2015-10-13 New Jersey Institute Of Technology Image retrieval and authentication using enhanced expectation maximization (EEM)
US9898575B2 (en) 2013-08-21 2018-02-20 Seven Bridges Genomics Inc. Methods and systems for aligning sequences
US9116866B2 (en) 2013-08-21 2015-08-25 Seven Bridges Genomics Inc. Methods and systems for detecting sequence variants
EP3680347B1 (en) 2013-10-18 2022-08-10 Seven Bridges Genomics Inc. Methods and systems for identifying disease-induced mutations
US10832797B2 (en) 2013-10-18 2020-11-10 Seven Bridges Genomics Inc. Method and system for quantifying sequence alignment
CA2927102C (en) 2013-10-18 2022-08-30 Seven Bridges Genomics Inc. Methods and systems for genotyping genetic samples
US11049587B2 (en) 2013-10-18 2021-06-29 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
US9063914B2 (en) 2013-10-21 2015-06-23 Seven Bridges Genomics Inc. Systems and methods for transcriptome analysis
US9817944B2 (en) 2014-02-11 2017-11-14 Seven Bridges Genomics Inc. Systems and methods for analyzing sequence data
WO2016141294A1 (en) 2015-03-05 2016-09-09 Seven Bridges Genomics Inc. Systems and methods for genomic pattern analysis
US10275567B2 (en) * 2015-05-22 2019-04-30 Seven Bridges Genomics Inc. Systems and methods for haplotyping
US10793895B2 (en) 2015-08-24 2020-10-06 Seven Bridges Genomics Inc. Systems and methods for epigenetic analysis
US10584380B2 (en) 2015-09-01 2020-03-10 Seven Bridges Genomics Inc. Systems and methods for mitochondrial analysis
US10724110B2 (en) 2015-09-01 2020-07-28 Seven Bridges Genomics Inc. Systems and methods for analyzing viral nucleic acids
US11347704B2 (en) 2015-10-16 2022-05-31 Seven Bridges Genomics Inc. Biological graph or sequence serialization
US20170199960A1 (en) 2016-01-07 2017-07-13 Seven Bridges Genomics Inc. Systems and methods for adaptive local alignment for graph genomes
US20200265920A1 (en) * 2016-01-07 2020-08-20 The Children's Mercy Hospital A system for determining diplotypes
US10364468B2 (en) 2016-01-13 2019-07-30 Seven Bridges Genomics Inc. Systems and methods for analyzing circulating tumor DNA
US10460829B2 (en) 2016-01-26 2019-10-29 Seven Bridges Genomics Inc. Systems and methods for encoding genetic variation for a population
US10262102B2 (en) 2016-02-24 2019-04-16 Seven Bridges Genomics Inc. Systems and methods for genotyping with graph reference
US10790044B2 (en) 2016-05-19 2020-09-29 Seven Bridges Genomics Inc. Systems and methods for sequence encoding, storage, and compression
US10600499B2 (en) 2016-07-13 2020-03-24 Seven Bridges Genomics Inc. Systems and methods for reconciling variants in sequence data relative to reference sequence data
US11289177B2 (en) 2016-08-08 2022-03-29 Seven Bridges Genomics, Inc. Computer method and system of identifying genomic mutations using graph-based local assembly
US11250931B2 (en) 2016-09-01 2022-02-15 Seven Bridges Genomics Inc. Systems and methods for detecting recombination
US10319465B2 (en) 2016-11-16 2019-06-11 Seven Bridges Genomics Inc. Systems and methods for aligning sequences to graph references
US10726110B2 (en) 2017-03-01 2020-07-28 Seven Bridges Genomics, Inc. Watermarking for data security in bioinformatic sequence analysis
US11347844B2 (en) 2017-03-01 2022-05-31 Seven Bridges Genomics, Inc. Data security in bioinformatic sequence analysis
CN110400603A (zh) * 2019-07-23 2019-11-01 中国石油大学(华东) 基于格局加权的ibd矩阵计算方法

Also Published As

Publication number Publication date
US20050089906A1 (en) 2005-04-28

Similar Documents

Publication Publication Date Title
JP2005092719A (ja) ハプロタイプ推定方法、推定装置、プログラム
Balding et al. Handbook of statistical genetics
Elworth et al. Advances in computational methods for phylogenetic networks in the presence of hybridization
Griffiths et al. Ancestral inference from samples of DNA sequences with recombination
Nordborg et al. Linkage disequilibrium: what history has to tell us
Long et al. The power of association studies to detect the contribution of candidate genetic loci to variation in complex traits
Nielsen et al. Correcting for ascertainment biases when analyzing SNP data: applications to the estimation of linkage disequilibrium
Korte et al. The advantages and limitations of trait analysis with GWAS: a review
Gaffney et al. Dissecting the regulatory architecture of gene expression QTLs
Salem et al. A comprehensive literature review of haplotyping software and methods for use with unrelated individuals
Li et al. Modeling linkage disequilibrium and identifying recombination hotspots using single-nucleotide polymorphism data
Slatkin Linkage disequilibrium—understanding the evolutionary past and mapping the medical future
Marchini et al. A comparison of phasing algorithms for trios and unrelated individuals
Yuan et al. An overview of population genetic data simulation
Zhang et al. HAPLORE: a program for haplotype reconstruction in general pedigrees without recombination
JP2007523600A (ja) 多重配列変異体解析を用いる遺伝子診断
Nakamichi et al. Detection of closely linked multiple quantitative trait loci using a genetic algorithm
AU2008263644A1 (en) Allelic determination
Kang et al. Incorporating genotyping uncertainty in haplotype inference for single-nucleotide polymorphisms
Morris A flexible Bayesian framework for modeling haplotype association with disease, allowing for dominance effects of the underlying causative variants
Lin et al. Pattern-recognition techniques with haplotype analysis in pharmacogenomics
Su et al. Inference of haplotypic phase and missing genotypes in polyploid organisms and variable copy number genomic regions
Liao et al. A novel method to select informative SNPs and their application in genetic association studies
Garrick et al. Development and application of three-tiered nuclear genetic markers for basal Hexapods using single-stranded conformation polymorphism coupled with targeted DNA sequencing
Bertolazzi et al. Solving haplotyping inference parsimony problem using a new basic polynomial formulation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090708

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091104