JP5129809B2 - ハプロタイプ推定装置、および、プログラム - Google Patents

ハプロタイプ推定装置、および、プログラム Download PDF

Info

Publication number
JP5129809B2
JP5129809B2 JP2009512892A JP2009512892A JP5129809B2 JP 5129809 B2 JP5129809 B2 JP 5129809B2 JP 2009512892 A JP2009512892 A JP 2009512892A JP 2009512892 A JP2009512892 A JP 2009512892A JP 5129809 B2 JP5129809 B2 JP 5129809B2
Authority
JP
Japan
Prior art keywords
haplotype
character string
copy
frequency
polymorphism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009512892A
Other languages
English (en)
Other versions
JPWO2008136210A1 (ja
Inventor
護 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RIKEN Institute of Physical and Chemical Research
Original Assignee
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RIKEN Institute of Physical and Chemical Research filed Critical RIKEN Institute of Physical and Chemical Research
Priority to JP2009512892A priority Critical patent/JP5129809B2/ja
Publication of JPWO2008136210A1 publication Critical patent/JPWO2008136210A1/ja
Application granted granted Critical
Publication of JP5129809B2 publication Critical patent/JP5129809B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Debugging And Monitoring (AREA)
  • Measuring Frequencies, Analyzing Spectra (AREA)

Description

本発明は、ハプロタイプ推定装置、および、プログラムに関し、特に、塩基多型を考慮したコピー数多型に関する実験データから、コンピュータによって効率的にコピー数多型のハプロタイプとその頻度を推定するハプロタイプ推定装置、および、プログラムに関する。
生活習慣病のような複雑な病気の原因となる遺伝子の解明や、さらには個別化医療の実現の為には、遺伝子型データなどの実験データから、ヒト等の個体のハプロタイプを推定する必要がある。
従来、1座位当たりの遺伝子型データから、複数座位に渡るハプロタイプを推定していた。ここで、1座位当たりの遺伝子型データとは、複数座位に渡る関連が分からない、座位毎に独立した(相(phase)が未知の)遺伝子型データのことである。ここで、図1は、1座位あたりの遺伝子型データの一例を示す図である。図1において、Lは座位(Locus)、Aはアレル(Allele)を表している。
図1に示すように、1座位当たりの遺伝子型データは、各個体、各座位における、各アレルのカウント数データを有している。ここで、カウント数データとは、個体において、各座位におけるアレルをカウントすることにより得られたカウント数のデータである。例えば、図1においては、個体1における座位(L1)におけるアレル(A1)のカウント数は「1」であり、座位(L3)におけるアレル(A1)のカウント数は「2」である。
ここで、上述のように、遺伝子型データは、直接的に相(phase)を特定するものではなく、座位間のアレルの関連は未知であり、図1の例(例えば、個体1)でいえば、カウント数データから、座位L1と座位L2の間での相を特定することはできず、座位L1におけるアレル(A1/A2)と座位L2におけるアレル(A1/A3)の関連は未知である。そのため、ハプロタイプを推定する(相を特定する)ための手法が必要となる。
ここで、非特許文献1〜4に記載のハプロタイプ推定方法は、1座位あたりの遺伝子型データから、複数座位に渡るハプロタイプを推定する。ここで、複数座位に渡るハプロタイプとは、複数座位に渡るアレルの組合せ(相を特定する組合せ)のことである。ここで、図2は、複数座位に渡るハプロタイプの組合せの一例を示す図である。図2において、A(L)は、座位Lに対応するアレルAを表している。
図2に示すように、例えば、ハプロタイプ1は、座位L1においてA1のアレルをもち、座位L2においてA1のアレルをもち、座位L3においてA1のアレルを持つことが特定されている。このように、従来のハプロタイプの推定方法においては、一般に2種類のアレルを想定し、一塩基多型(Single Nucleotide Polymorphism、「SNP」と略す。)などの遺伝子型データから、複数座位に渡るハプロタイプを推定していた。
ここで、SNPなどの塩基多型の他に、コピー数多型(Copy Number Polymorphism, あるいはCopy Number Variation、本明細書中で「CNP」と略す場合がある。)と呼ばれる多型が存在する。ここで、図3は、コピー数多型および塩基多型の一例を示す図である。図3において、Mは、蛍光色素プローブ等の標識で識別される個体間で違いのない配列部位(マーカー部位)、Fは、(異なる蛍光色素等で区別される)個体間で違いうる塩基(多型塩基)に、それぞれ対応する。
図3に示すように、コピー数多型においては、ある区間の配列(「コピー単位」と呼ぶ。)が繰り返し現れることがあり、そのコピー数に個体差がある。例えば、図3に示すように、互いに相同な染色体(染色体1〜4)において、染色体1ではコピー数が1であり、染色体2ではコピー数が0であり、染色体3ではコピー数が2であり、染色体4ではコピー数が3、とそれぞれ異なっている。
ここで、コピー単位上に多型塩基が存在する場合、コピー数多型がないゲノム領域における塩基多型とは異なり、その多型塩基のカウント数は、個体における2つのハプロタイプ(すなわちディプロタイプ)のコピー数に依存することになる。すなわち、コピー数多型がないゲノム領域における塩基多型では、カウント数は、基本的に0、1または2であるが(有性生殖をする個体は相同染色体として2本1組の染色体を持つため)、コピー数単位上に塩基多型がある場合、その多型塩基のカウント数は、0、1、2、3、4、5、・・・と、コピー数に依存して各個体で変化する。すなわち、コピー数単位上に塩基多型がある場合のカウント数は、従来技術におけるように1座位当たりの遺伝子型に直結するものではない。なお、コピー数多型におけるカウント数とは、コピー単位上の、標識によって特定されるマーカー部位に対応付けられた多型塩基をカウントすることにより得られたカウント数を意味する。
ここで、非特許文献5は、コピー数多型に対するハプロタイプ推定方法であり、アレルをコピー数が多いアレル、少ないアレルの2種類に分け、複数座位に渡るハプロタイプを推定する方法である。
また、コピー数多型に対するより一般的なハプロタイプ推定方法としては、コピー数をアレルの種類に対応させ、複数種類のアレルを想定し、複数座位に渡るハプロタイプを推定する方法がある。
また、特許文献1は、ハプロタイプの頻度を算出する方法として、EM(Expectation-Maximization)法を用いるものである。
特開2004−192018号公報 チアンフア ニウ(Tianhua Niu)著 「アルゴリズムズ フォー インファリング ハプロタイプス(Algorithms for inferring haplotypes)」 Genet Epidemiol.、2004年12月、27巻(4号)334−347頁 ジャオフイSキン、チアンフア ニウ、ジュンSリウ(Zhaohui S. Qin, Tianhua Niu, Jun S. Liu)著 「パーティション−ライゲーション−エクスペクテーション−マキシマイゼーション アルゴリズム フォー ハプロタイプ インフェアレンス ウィズ シングル−ヌクレオタイド ポリモーフィズムズ(Partition−ligation−expectation-maximization algorithm for haplotype inference with single-nucleotide polymorphisms)」Am J Hum Genet.、2002年11月、71巻(5号)1242−1247頁 ローレント エクスコファー、モンゴメリー スラキン(Laurent Excoffier, Montgomery Slatkin)著 「マキシマム−ライクリフッド エスティメーション オブ モレキュラー ハプロタイプ フロークェンシーズ イン ア ディプロイド ポピュレーション(Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population)」 Mol Biol Evol.、1995年9月、12巻(5号)、921−927頁 M.E.ホーリー、K.K.キッド(M. E. Hawley, K. K. Kidd)著 「ハプロ: ア プログラム ユージング ザ EM アルゴリズム トゥー エスティメイト ザ フリークェンシーズ オブ マルチ−サイト ハプロタイプズ(HAPLO: a program using the EM algorithm to estimate the frequencies of multi-site haplotypes)」 J Hered.、1995年9−10月、86巻(5号)、409−411頁 リチャード レンドン、シュンペイ イシカワ、カレンRフィッチ他、全43名(Richard Redon, Shumpei Ishikawa, Karen R. Fitch, et al.)著 「グローバル バリエーション イン コピー ナンバー イン ザ ヒューマン ゲノム(Global variation in copy number in the human genome)」 ネーチャー(Nature)出版 2006年11月23日、444巻(7118号)444−454頁
しかしながら、従来、塩基多型を考慮したコピー数多型に関する実験データから、コンピュータによってコピー数多型のハプロタイプとその頻度を推定する方法は開発されていない、という問題があった。
すなわち、従来技術においては、コピー数をアレルの種類と仮定することにより、個体はコピー数1の染色体を2本持つものとしてハプロタイプの推定を行うので、コピー数の概念は捨象されてしまうという問題がある。
また、従来のコピー数多型に対するハプロタイプ推定方法においては、コピー数をアレルの種類に対応付けるため、原理的に、塩基多型を考慮したコピー数多型に関する実験データから、ハプロタイプを推定することができない、という問題がある。
また、特許文献1に記載のEM法によるハプロタイプ頻度推定方法は、コピー数多型を考慮したハプロタイプの推定方法として応用することができない、という問題がある。
本発明は、上記に鑑みてなされたもので、1座位当たりの遺伝子型データに直結しない、塩基多型を考慮したコピー数多型に関する実験データから、ハプロタイプとその頻度を高精度で推定することができる、ハプロタイプ推定装置、および、プログラムを提供することを目的とする。
このような目的を達成するため、請求項1に記載のハプロタイプ推定装置は、集団における各個体のコピー数多型と塩基多型を含む遺伝子型データからハプロタイプを推定する、制御部と記憶部を少なくとも備えたハプロタイプ推定装置において、上記記憶部は、上記個体毎に、上記遺伝子型データを用いて、上記コピー数多型のコピー単位上の、標識によって特定されるマーカー部位に対応付けられた多型塩基をカウントすることにより得られたカウント数を、当該多型塩基の種類毎に記憶するカウント数テーブル、を備え、上記制御部は、上記カウント数テーブルに格納された上記個体の上記カウント数に基づいて、上記マーカー部位毎に上記カウント数の和を集計し、上記カウント数の和のうちの最大値を求める最大値算出手段と、上記多型塩基の種類に対応付けられた多型識別文字を、当該多型塩基の上記カウント数列挙する多型識別文字列挙手段と、上記コピー単位が上記最大値の回数繰り返される任意の文字列を作成するよう、列挙された上記多型識別文字を並び替える文字列作成手段と、上記文字列作成手段によって作成された上記文字列を、任意の上記コピー単位で2分し、ハプロタイプ文字列の組合せとして格納するハプロタイプ文字列格納手段と、上記集団において、同一である上記ハプロタイプ文字列の数を集計し、当該ハプロタイプ文字列の上記集団における頻度を求め、当該頻度が所定の条件を満たす上記各個体の上記ハプロタイプ文字列の上記組合せを、上記ハプロタイプの組合せとして推定するハプロタイプ推定手段と、を備えたことを特徴とする。
また、請求項2に記載のハプロタイプ推定装置は、請求項1に記載のハプロタイプ推定装置において、上記ハプロタイプ推定手段は、上記ハプロタイプ文字列の頻度を、ハーディ・ワインバーグの法則に基づいて算出し、上記所定の条件を、上記集団におけるハーディ・ワインバーグ平衡とすること、を特徴とする。
また、請求項3のハプロタイプ推定装置は、請求項1または2に記載のハプロタイプ推定装置において、上記多型識別文字列挙手段は、上記多型塩基の種類として塩基欠失を表す上記多型識別文字を、上記最大値から上記和を減じた数だけ列挙すること、を特徴とする。
また、請求項4のハプロタイプ推定装置は、請求項1乃至3のいずれか一つに記載のハプロタイプ推定装置において、上記文字列作成手段は、作成した上記文字列における、上記多型識別文字の文字数と、上記カウント数テーブルにおける、当該多型塩基の種類毎の上記カウント数と、が一致することを確認し、一致しない場合に当該文字列を除外すること、を特徴とする。
また、請求項5に記載のハプロタイプ推定装置は、請求項1乃至4のいずれか一つに記載のハプロタイプ推定装置において、上記制御部は、上記コピー単位を上記マーカー部位の単位で複数の区画に分け、上記区画に含まれる上記マーカー部位の上記塩基多型について、上記最大値算出手段、上記多型識別文字列挙手段、上記文字列作成手段、上記ハプロタイプ文字列格納手段、および、上記ハプロタイプ推定手段に、当該区画毎に処理を実行させるよう制御する区画化手段と、上記区画毎に上記ハプロタイプ推定手段により推定された上記ハプロタイプ文字列について、上記コピー単位の繰り返しパターンが同じ上記ハプロタイプ文字列同士で、上記コピー単位における上記各区画を互いに連結することにより、上記複数の上記区画から構成される上記ハプロタイプ文字列を再現する連結手段と、を備えたことを特徴とする。
また、請求項6に記載のハプロタイプ推定装置は、請求項1乃至5のいずれか一つに記載のハプロタイプ推定装置において、上記ハプロタイプ推定手段は、EM(Expectation-Maximization)法を用いて、上記集団における上記ハプロタイプ文字列の頻度を、当該ハプロタイプ文字列を少なくとも一方に有する上記組合せの頻度により重み付けして算出するMステップと、上記組合せの頻度を、当該組合せを構成する上記ハプロタイプ文字列の頻度の積により求め、当該組合せの頻度に基づいて上記重みを算出するEステップと、を上記頻度の値が収束するまで交互に繰り返すハプロタイプ頻度算出手段、を更に備えたことを特徴とする。
また、請求項7に記載のハプロタイプ推定装置は、請求項6に記載のハプロタイプ推定装置において、上記Mステップは、下記の数式1に基づいて、上記ハプロタイプ文字列の頻度を算出し、上記Eステップは、下記の数式2に基づいて上記ハプロタイプ文字列の上記組合せの頻度を求め、上記重みとして当該ハプロタイプ文字列の上記組合せの頻度を上記集団における上記組合せの頻度の総和で除して算出すること、を特徴とする。
Figure 0005129809
(ここで、P(hi)は上記ハプロタイプ文字列の頻度を表し、hは上記ハプロタイプ文字列を表し、iは上記ハプロタイプ文字列のインデックスを表す。また、nは上記集団を構成する上記個体の数、jは上記カウント数テーブルにおける上記カウント数のパターンのインデックス、kは上記ハプロタイプ文字列の組合せのインデックス、N(cj)は上記カウント数のパターンjを持つ上記個体の数を表す。また、δ(hi,djk)は、上記組合せdjkが一方に当該ハプロタイプ文字列hiを有する場合に1を返し、両方に当該ハプロタイプ文字列を有する場合に2を返し、当該ハプロタイプ文字列hiを持たない場合に0を返す関数であり、dは上記ハプロタイプ文字列の上記組合せを表す。また、wjkは上記ハプロタイプ文字列の上記組合せの頻度による上記重みである。)
Figure 0005129809
(ここで、P(djk)は、上記ハプロタイプ文字列の上記組合せの頻度を表す。また、hlおよびhmは当該組合せを構成する2つの上記ハプロタイプ文字列を表し、P(hl)およびP(hm)は、当該2つの上記ハプロタイプ文字列の頻度をそれぞれ表す。)
また、請求項8に記載のハプロタイプ推定装置は、請求項1乃至7のいずれか一つに記載のハプロタイプ推定装置において、上記記憶部は、上記各個体における上記コピー数多型のコピー数の総和を記憶するコピー数総和記憶手段、を更に備え、上記制御部は、上記コピー数総和記憶手段に記憶された上記各個体における上記コピー数の総和を、任意の一つの上記多型塩基の上記カウント数とした上記カウント数テーブルを作成するカウント数テーブル作成手段と、上記ハプロタイプ推定手段により推定された上記ハプロタイプの組み合わせにおいて、上記ハプロタイプ文字列中の上記一つの多型塩基に対応付けられた上記多型識別文字の数を算出し、算出した数を上記ハプロタイプにおける上記コピー数として設定するコピー数設定手段と、を更に備えたことを特徴とする。
また、本発明のハプロタイプ推定装置は、請求項6または7に記載のハプロタイプ推定装置において、上記ハプロタイプ頻度算出手段は、上記Mステップにおいて算出された上記ハプロタイプ文字列の頻度と、前回の上記Mステップにおいて算出された上記ハプロタイプ文字列の頻度と、の対数尤度差を求め、上記対数尤度差が所定の閾値以下となった場合に、上記頻度の値が収束したと判定すること、を特徴とする。
また、請求項9に記載のプログラムは、集団における各個体のコピー数多型と塩基多型を含む遺伝子型データからハプロタイプを推定する、制御部と記憶部を少なくとも備えたハプロタイプ推定装置にハプロタイプ推定方法を実行させるためのプログラムであって、上記記憶部は、上記個体毎に、上記遺伝子型データを用いて、上記コピー数多型のコピー単位上の、標識によって特定されるマーカー部位に対応付けられた多型塩基をカウントすることにより得られたカウント数を、当該多型塩基の種類毎に記憶するカウント数テーブル、を備えており、上記制御部において実行される、上記カウント数テーブルに格納された上記個体の上記カウント数に基づいて、上記マーカー部位毎に上記カウント数の和を集計し、上記カウント数の和のうちの最大値を求める最大値算出ステップと、上記多型塩基の種類に対応付けられた多型識別文字を、当該多型塩基の上記カウント数列挙する多型識別文字列挙ステップと、上記コピー単位が上記最大値の回数繰り返される任意の文字列を作成するよう、列挙された上記多型識別文字を並び替える文字列作成ステップと、上記文字列作成ステップにおいて作成された上記文字列を、任意の上記コピー単位で2分し、ハプロタイプ文字列の組合せとして格納するハプロタイプ文字列格納ステップと、上記集団において、同一である上記ハプロタイプ文字列の数を集計し、当該ハプロタイプ文字列の上記集団における頻度を求め、当該頻度が所定の条件を満たす上記各個体の上記ハプロタイプ文字列の上記組合せを、上記ハプロタイプの組合せとして推定するハプロタイプ推定ステップと、を含むハプロタイプ推定方法を実行させることを特徴とする。
また、本発明は、ハプロタイプ推定方法に関するものであり、集団における各個体のコピー数多型と塩基多型を含む遺伝子型データからハプロタイプを推定する、制御部と記憶部を少なくとも備えたハプロタイプ推定装置において実行されるハプロタイプ推定方法であって、上記記憶部は、上記個体毎に、上記遺伝子型データを用いて、上記コピー数多型のコピー単位上の、標識によって特定されるマーカー部位に対応付けられた多型塩基をカウントすることにより得られたカウント数を、当該多型塩基の種類毎に記憶するカウント数テーブル、を備えており、上記制御部において実行される、上記カウント数テーブルに格納された上記個体の上記カウント数に基づいて、上記マーカー部位毎に上記カウント数の和を集計し、上記カウント数の和のうちの最大値を求める最大値算出ステップと、上記多型塩基の種類に対応付けられた多型識別文字を、当該多型塩基の上記カウント数列挙する多型識別文字列挙ステップと、上記コピー単位が上記最大値の回数繰り返される任意の文字列を作成するよう、列挙された上記多型識別文字を並び替える文字列作成ステップと、上記文字列作成ステップにおいて作成された上記文字列を、任意の上記コピー単位で2分し、ハプロタイプ文字列の組合せとして格納するハプロタイプ文字列格納ステップと、上記集団において、同一である上記ハプロタイプ文字列の数を集計し、当該ハプロタイプ文字列の上記集団における頻度を求め、当該頻度が所定の条件を満たす上記各個体の上記ハプロタイプ文字列の上記組合せを、上記ハプロタイプの組合せとして推定するハプロタイプ推定ステップと、を含むことを特徴とする。
また、本発明は、上記ハプロタイプ推定方法において、上記ハプロタイプ推定ステップは、上記ハプロタイプ文字列の頻度を、ハーディ・ワインバーグの法則に基づいて算出し、上記所定の条件を、上記集団におけるハーディ・ワインバーグ平衡とすること、を特徴とする。
また、本発明は、上記ハプロタイプ推定方法において、上記多型識別文字列挙ステップは、上記多型塩基の種類として塩基欠失を表す上記多型識別文字を、上記最大値から上記和を減じた数だけ列挙すること、を特徴とする。
また、本発明は、上記ハプロタイプ推定方法において、上記文字列作成ステップは、作成した上記文字列における、上記多型識別文字の文字数と、上記カウント数テーブルにおける、当該多型塩基の種類毎の上記カウント数と、が一致することを確認し、一致しない場合に当該文字列を除外すること、を特徴とする。
また、本発明は、上記ハプロタイプ推定方法において、上記制御部において実行される、上記コピー単位を上記マーカー部位の単位で複数の区画に分け、上記区画に含まれる上記マーカー部位の上記塩基多型について、上記最大値算出ステップ、上記多型識別文字列挙ステップ、上記文字列作成ステップ、上記ハプロタイプ文字列格納ステップ、および、上記ハプロタイプ推定ステップにおいて、当該区画毎に処理が実行されるよう制御する区画化ステップと、上記区画毎に上記ハプロタイプ推定ステップにより推定された上記ハプロタイプ文字列について、上記コピー単位の繰り返しパターンが同じ上記ハプロタイプ文字列同士で、上記コピー単位における上記各区画を互いに連結することにより、上記複数の上記区画から構成される上記ハプロタイプ文字列を再現する連結ステップと、を含むことを特徴とする。
また、本発明は、上記ハプロタイプ推定方法において、上記ハプロタイプ推定ステップは、EM(Expectation-Maximization)法を用いて、上記集団における上記ハプロタイプ文字列の頻度を、当該ハプロタイプ文字列を少なくとも一方に有する上記組合せの頻度により重み付けして算出するMステップと、上記組合せの頻度を、当該組合せを構成する上記ハプロタイプ文字列の頻度の積により求め、当該組合せの頻度に基づいて上記重みを算出するEステップと、を上記頻度の値が収束するまで交互に繰り返すハプロタイプ頻度算出ステップ、を更に含むことを特徴とする。
また、本発明は、上記ハプロタイプ推定方法において、上記Mステップは、下記の数式1に基づいて、上記ハプロタイプ文字列の頻度を算出し、上記Eステップは、下記の数式2に基づいて上記ハプロタイプ文字列の上記組合せの頻度を求め、上記重みとして当該ハプロタイプ文字列の上記組合せの頻度を上記集団における上記組合せの頻度の総和で除して算出すること、を特徴とする。
Figure 0005129809
(ここで、P(hi)は上記ハプロタイプ文字列の頻度を表し、hは上記ハプロタイプ文字列を表し、iは上記ハプロタイプ文字列のインデックスを表す。また、nは上記集団を構成する上記個体の数、jは上記カウント数テーブルにおける上記カウント数のパターンのインデックス、kは上記ハプロタイプ文字列の組合せのインデックス、N(cj)は上記カウント数のパターンjを持つ上記個体の数を表す。また、δ(hi,djk)は、上記組合せdjkが一方に当該ハプロタイプ文字列hiを有する場合に1を返し、両方に当該ハプロタイプ文字列hiを有する場合に2を返し、当該ハプロタイプ文字列hiを持たない場合に0を返す関数であり、dは上記ハプロタイプ文字列の上記組合せを表す。また、wjkは上記ハプロタイプ文字列の上記組合せの頻度による上記重みである。)
Figure 0005129809
(ここで、P(djk)は、上記ハプロタイプ文字列の上記組合せの頻度を表す。また、hlおよびhmは当該組合せを構成する2つの上記ハプロタイプ文字列を表し、P(hl)およびP(hm)は、当該2つの上記ハプロタイプ文字列の頻度をそれぞれ表す。)
また、本発明は、上記ハプロタイプ推定方法において、上記記憶部は、上記各個体における上記コピー数多型のコピー数の総和を記憶するコピー数総和記憶手段、を更に備えており、上記制御部において実行される、上記コピー数総和記憶手段に記憶された上記各個体における上記コピー数の総和を、任意の一つの上記多型塩基の上記カウント数とした上記カウント数テーブルを作成するカウント数テーブル作成ステップと、上記ハプロタイプ推定ステップにおいて推定された上記ハプロタイプの組み合わせにおいて、上記ハプロタイプ文字列中の上記一つの多型塩基に対応付けられた上記多型識別文字の数を算出し、算出した数を上記ハプロタイプにおける上記コピー数として設定するコピー数設定ステップと、を更に含むことを特徴とする。
また、本発明は、上記ハプロタイプ推定方法において、上記ハプロタイプ頻度算出ステップは、上記Mステップにおいて算出された上記ハプロタイプ文字列の頻度と、前回の上記Mステップにおいて算出された上記ハプロタイプ文字列の頻度と、の対数尤度差を求め、上記対数尤度差が所定の閾値以下となった場合に、上記頻度の値が収束したと判定すること、を特徴とする。
本発明によれば、1座位当たりの遺伝子型データに直結しない、塩基多型を考慮したコピー数多型に関する実験データから、ハプロタイプとその頻度を高精度で推定することができる。
また、本発明によれば、カウント数が各マーカー部位間で一致しない場合であっても、不足するカウント数を塩基欠失に起因する結果であるとして処理を行うので、実験により検出することができない塩基欠失の多型も考慮して、精度の高いハプロタイプ推定装置を提供できる。
また、本発明によれば、文字列による取り得るハプロタイプ文字列の組合せの推定結果が、実験データと一致するか否かを検証するので、精度よく取り得るハプロタイプの組合せを算出することができる。
また、本発明によれば、パーティション−ライゲーション法(PL法)を用いて、コピー単位を複数の区画に分けて処理した結果を統合化するので、マーカー部位の数が増えた場合に取り得るハプロタイプの数が飛躍的に増大する場合でも、計算時間を節約することができる。
また、本発明によれば、EM法を用いて、高精度にハプロタイプの尤度を検定することができる。
また、本発明によれば、個体におけるコピー数多型のコピー数の総和データを用いて、ハプロタイプにおけるコピー数とその頻度を高精度で推定することができる。
図1は、1座位あたりの遺伝子型データの一例を示す図である。 図2は、複数座位に渡るハプロタイプの組合せの一例を示す図である。 図3は、コピー数多型および塩基多型の一例を示す図である。 図4は、塩基多型を考慮したコピー数多型の実験データの一例を示す図である。 図5は、本発明の概要を模式的に示したフロー図である。 図6は、本発明のハプロタイプ表現形式の一例を示す図である。 図7は、本発明が適用される本ハプロタイプ推定装置の構成の一例を示すブロック図である。 図8は、本ハプロタイプ推定装置100のハプロタイプ推定処理の一例を示す図である。 図9は、カウント数データの全パターンにおいて、そのカウント数パターンと矛盾しないディプロタイプを作成する処理の一例を示すフローチャートである。 図10は、コピー数多型を考慮しないハプロタイプ推定方法のPL法における連結(ligation)処理の一例を示す図である。 図11は、本実施の形態の、コピー数多型を考慮に入れたハプロタイプ推定方法のPL法における連結(ligation)処理の一例を示す図である。 図12は、連結ステップにおける合理的な連結の方法を示す図である。 図13は、本実施の形態2における処理の一例を示すフローチャートである。 図14は、各個体におけるコピー数の総和データと、作成されたカウント数テーブルの対応関係の一例を示す図である。 図15は、EM法によるハプロタイプ推定処理の一例を示すフローチャートである。 図16は、シミュレーションの枠組みを示すフローチャートである。 図17は、読込むハプロタイプ推定の結果の一例を表すデータ図である。 図18は、ハプロタイプとその確率と同様のデータを、さらに個体の数500を読み込み、出力されたカウント数データを示す図である。 図19は、ハプロタイプ推定装置100による、ハプロタイプとその頻度に関し出力された結果を示す図である。 図20は、本実装の枠組みを示すフローチャートである。 図21は、SF−5の、より詳しい処理の一例を示すフローチャートである。 図22は、シミュレーション実験に用いたハプロタイプとその頻度のデータの一例を示す図である。 図23は、読込まれたハプロタイプとその確率についての、作成された個体の数500のカウント数データを示す図である。 図24は、本実施例を適用した結果を示す図である。 図25は、本実施例において設定した、ハプロタイプに存在するコピー数(コピー単位の数)とそのハプロタイプの確率を示す図である。 図26は、図25に示すコピー数を仮の塩基Fのカウント数として表現した図である。 図27は、抽出された各個体におけるコピー数の総和を示す図である。 図28は、図27に示すコピー数の総和を仮の塩基Fのカウント数として表現した図である。 図29は、ハプロタイプ推定装置100により推定されたハプロタイプ文字列とその頻度を示す図である。 図30は、推定されたハプロタイプ文字列から算出された各コピー数のハプロタイプとその頻度を示す図である。
符号の説明
100 ハプロタイプ推定装置
102 制御部
102a 最大値算出部
102b 多型識別文字列挙部
102c 文字列作成部
102d ハプロタイプ文字列格納部
102e ハプロタイプ推定部
102f ハプロタイプ頻度算出部
102g 区画化部
102h 連結部
102j カウント数テーブル作成部
102k コピー数設定部
104 通信制御インターフェース部
106 記憶部
106a カウント数テーブル
106b ハプロタイプ文字列ファイル
106c 遺伝子型データファイル
106d コピー数総和ファイル
108 入出力制御インターフェース部
112 入力部
114 出力部
200 外部システム
300 ネットワーク
以下に、本発明にかかるハプロタイプ推定装置、ハプロタイプ推定方法、および、プログラム、並びに、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
[本発明の概要]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。まず、コピー数多型がある場合とない場合で、ハプロタイプの推定の上でどのような違いがあるかについて説明する。
コピー数多型がないゲノム領域上の塩基多型では、カウント数は、基本的に0、1または2である。すなわち、上記図3の例でいえば、全ての個体のハプロタイプが、染色体1のようにコピー数を1しか持たない場合である。すなわち、コピー数多型がないゲノム領域上の塩基多型においては、各マーカー部位において、異なる各多型塩基の種類どうしのカウント数を総計すると、総数は必ず2となる。
例えば、図3における染色体1を2本持つ場合の例では、ハプロタイプは、[F1(M1)F3(M2)F1(M3)/F1(M1)F3(M2)F1(M3)]("/"で2本の相同染色体を区別する。以下、(M)によるマーカー位置表示を省略する。)で表記され、M1, M2, M3 に、それぞれ[F1/F1], [F3/F3], [F1/F1]の多型塩基が対応している(1座位当たりの遺伝子型に直結している)。すなわち、実験によって各マーカー部位、各塩基のカウント数が、M1においてF1, F2, F3 はそれぞれ2, 0, 0、M2 においてそれぞれ0, 0, 2、M3においてそれぞれ2, 0, 0 と識別され、総数はいずれのマーカー部位でも2(M1 で2+0+0, M2 で0+0+2, M3で2+0+0)となる。
一方、コピー単位上に多型塩基が存在する場合では、1本の染色体に乗っているコピー単位の数は1以外の場合があるため、上記と異なり各マーカー部位において、各塩基のカウント数の総数が2以外となる場合がある。すなわち、カウント数の和は、個体における2つのハプロタイプのコピー数に依存し、0、1、2、3、4、5、・・・と、コピー数に依存的に各個体で変化する。このため、コピー数単位上に塩基多型がある場合のカウント数は、従来技術におけるように1座位当たりの遺伝子型に直結しないので、ハプロタイプの推定において工夫が必要となる。
例えば、図3における染色体1と染色体3とを相同染色体として持っている個体において、[F1F3F1/F1F3F1, F2F3F1]("," でコピー単位を区別する)が相同染色体に乗っており、M1, M2, M3 に、それぞれ[F1/F1, F2], [F3/F3, F3], [F1/F1, F1] が対応することになる。実験によって各マーカー部位、各塩基のカウント数が、M1 においてF1, F2, F3 はそれぞれ2, 1, 0、M2 においてそれぞれ0, 0, 3、M3 においてそれぞれ3, 0, 0 と識別され、総数は各マーカー部位で3 (M1 で2+1+0, M2 で0+0+3, M3で3+0+0)となり、ハプロタイプのコピー数の和と一致する。
ここで、もし図3における染色体1と染色体2を持ったときは、[F1F3F1/F0F0F0] (F0 は欠失を表し、実験的には塩基を識別できない。)となり、M1, M2, M3に、それぞれ[F1/F0], [F3/F0], [F1/F0] が対応することになる。M1においてF1, F2, F3 はそれぞれ1, 0, 0、M2 においてそれぞれ0, 0, 1、M3 においてそれぞれ1, 0, 0 と識別され、総数は各マーカー部位で1となり、ハプロタイプのコピー数と一致する。
ここで、図4は、塩基多型を考慮したコピー数多型の実験データから得られたコピー数データの一例を示す図である。Mは、蛍光色素プローブ等の標識で識別される個体間で違いのない配列部位(マーカー部位)、Fは、(異なる蛍光色素等で区別される)個体間で違いうる塩基(多型塩基)に、それぞれ対応する。
図4において、個体1においては、M1 で2+1+0, M2 で1+1+1, M3 で2+0+1で総数は3であり、上述の性質からコピー数の和は3と予測できる。一方、個体2においては、M1で0+0+0, M2 で0+3+0, M3 で2+2+0であり、一致していないが、塩基欠失があることを鑑みるとコピー数の和は4(M1では塩基欠失が4箇所、M2では塩基欠失が1箇所と予想)であると考えられる。
以上をまとめると、塩基多型を考慮したコピー数多型に関する実験データは、蛍光色素プローブ等の標識によって実験的に識別される多型塩基のカウント数を記したカウント数データを含む。そして、当該カウント数データは、コピー数多型がないゲノム領域上の塩基多型とは異なり、1座位当たりの遺伝子型データに直結するものではないが、カウント数の総数は2つのハプロタイプのコピー数の和と一致する(塩基欠失の場合を除く)。本発明は、この性質を利用して、塩基多型を考慮したコピー数多型に関する実験データから、ハプロタイプを推定するものである。すなわち、本発明は、多型塩基をカウントし得られたカウント数データからハプロタイプとその頻度を推定するために、カウント数データと矛盾しないディプロタイプ(ハプロタイプの組合せ)を見出し、カウント数データを利用してハプロタイプの頻度を計算する。ここで、「矛盾しない」とは、ディプロタイプから数えられる各マーカー部位、各多型塩基のカウント数が、カウント数データにおける各マーカー部位、各塩基のカウント数と一致する、ということである。カウント数データと矛盾しないディプロタイプが見出せれば、EM(Expectation-Maximization )法やGibbsサンプリング法などによって、カウント数データからハプロタイプの頻度が計算できる。以下に、本発明の概要を上記で各図の説明で用いた記号で補足しながら説明する。ここで、図5は、本発明の概要を模式的に示したフロー図である。
まず、本発明は、集団における各個体のコピー数多型と塩基多型を含む遺伝子型データからハプロタイプを推定する、制御部と記憶部を少なくとも備えたハプロタイプ推定装置または当該装置において実行される方法、そのプログラムである。
そして、本ハプロタイプ推定装置は、コピー数多型のコピー単位(u)上の、標識によって特定されるマーカー部位(M)に対応付けられた多型塩基(F)をカウントすることにより得られたカウント数(c1)を、当該多型塩基の種類(F1、F2)毎、および、個体(個体1、個体2、・・・)毎に記憶するカウント数テーブルを備える。ここで、本ハプロタイプ推定装置は、記憶部に記憶された各個体におけるコピー数多型のコピー数の総和を、任意の一つの多型塩基のカウント数としたカウント数テーブルを作成してもよい。図5<SA−1>は、ある個体についてのカウント数について表されたカウント数テーブルの例である。
そして、本ハプロタイプ推定装置は、カウント数テーブルに格納された個体(例えば、個体1)のカウント数(c1)に基づいて、マーカー部位(M1、M2、M3)毎にカウント数の和(2+1、1+1、0+1)を集計し、カウント数の和のうちの最大値(この場合、3)を求める。
そして、本ハプロタイプ推定装置は、多型塩基の種類に対応付けられた多型識別文字(例えば、F1、F2)を、多型塩基のカウント数(例えば、M1についてF1は2個)ずつ列挙する(図5<SA−2>参照)。ここで、図5<SA−2>に示すように、本ハプロタイプ推定装置は、多型塩基の種類として塩基欠失を表す多型識別文字(F0)を、最大値からカウント数の和を減じた数(例えば、M2については3-2=1個)だけ列挙してもよい。
そして、本ハプロタイプ推定装置は、図5<SA−3〜4>に示すように、コピー単位が最大値の回数(この場合3回)繰り返される任意の文字列(<SA−4>参照)を作成するよう列挙された多型識別文字を並び替える。
すなわち、本ハプロタイプ推定装置は、一例として、図5に示すように、マーカー部位(M)毎に列挙された多型識別文字群を、まずコピー単位(u)分、抽出し総当りの組合せを作ることにより、コピー単位(u)の文字列を作成する(SA−3)。つぎに、コピー単位が最大値の回数繰り返される任意の文字列を作成するために、作成されたコピー単位(u)の文字列を任意に組合せて、コピー単位(u)の文字列の集合を作成する(SA−4の","で区切られた個々の文字列がコピー単位の文字列であり、{ }で囲まれた文字列全体がコピー単位の文字列の集合である)。そして、本ハプロタイプ推定装置は、作成した文字列(コピー単位の文字列の集合)における、各多型塩基の種類を表す文字の文字数と、カウント数テーブルにおける、当該多型塩基の種類毎のカウント数と、が各マーカー部位において一致することを確認し、一致しない場合に当該文字列を除外する(SA−5)。
そして、本ハプロタイプ推定装置は、作成された文字列を、コピー単位で、任意の2つの文字列(「ハプロタイプ文字列」と呼ぶ。)に分離し、ハプロタイプ文字列の組合せとして格納する。例えば、図5<SA−4>最上段の文字列[F1F1F2, F1F1F0, F1F1F2]を分離する場合、[/F1F1F2, F1F1F0, F1F1F2][F1F1F2/ F1F1F0, F1F1F2][F1F1F2, F1F1F0/ F1F1F2][F1F1F2, F1F1F0, F1F1F2/]の4通りのハプロタイプ文字列の組合せを作ることができる。ここで、例えば、[F1F3F1/F1F3F1, F2F3F1] の"/"(スラッシュ)の両側の文字列は、[F1F3F1]、[F1F3F1, F2F3F1]のように各個体における取り得る2つのハプロタイプを表現している。すなわち、2群1組で表された文字列(例えば[F1F3F1/F1F3F1, F2F3F1])は、1組のそれぞれのハプロタイプを表現すると同時にディプロタイプ(ハプロタイプ/ハプロタイプ)をも表現している。ここで、図6は、本発明により出力されるハプロタイプ表現形式の一例を示す図である。
図6に示すように、ハプロタイプ表現形式は、塩基多型とコピー数多型とを同時に表現する。すなわち、コピー数多型を考慮しない従来法でのハプロタイプ表現形式(図2参照)とは異なり、コピー数多型と塩基多型の両者を扱う本発明のハプロタイプ表現形式は、図6のようにコピー単位で表現される。
そして、本ハプロタイプ推定装置は、集団において、同一であるハプロタイプ文字列の数を集計し、ハプロタイプ文字列の集団における頻度を求め、当該頻度が所定の条件を満たす各個体のハプロタイプ文字列の組合せを、ハプロタイプの組合せとして推定する。ここで、頻度はハーディ・ワインバーグ(Hardy-Weinberg)の法則に基づいて算出し、集団における頻度がハーディ・ワインバーグ平衡となる場合に所定の条件を満たすと判定してもよい。
また、ここで、本ハプロタイプ推定装置は、コピー単位(u)をマーカー部位(M)単位で複数の区画(パーティション)に分け、区画に含まれるマーカー部位の塩基多型について、上記の最大値の算出や、多型識別文字の列挙や、文字列の作成や、ハプロタイプ文字列の格納や、ハプロタイプの推定処理を、区画毎に実行させるよう制御してもよい。
この場合、本ハプロタイプ推定装置は、区画毎に算出されたハプロタイプ文字列について、コピー単位の繰り返しパターンが同じハプロタイプ文字列同士で、コピー単位における各区画を互いに連結(ライゲーション)することにより、複数の上記区画から構成されるハプロタイプ文字列を再現する。これにより、計算時間を短縮することができる。
また、本ハプロタイプ推定装置は、ハプロタイプの推定処理において、EM(Expectation-Maximization)法を用いて、集団におけるハプロタイプ文字列の頻度を、当該ハプロタイプ文字列を少なくとも一方に有する組合せの頻度により重み付けして算出するMステップと、組合せの頻度を、当該組合せを構成するハプロタイプ文字列の頻度の積により求め、当該組合せの頻度に基づいて重みを算出するEステップと、を頻度の値が収束するまで交互に繰り返すことにより所定の条件を満たす頻度を算出してもよい。EM法の詳細な処理については、後述する。また、本ハプロタイプ推定装置は、コピー数の総和が任意の一つの多型塩基のカウント数としたカウント数テーブルを用いてハプロタイプを推定する場合に、推定されたハプロタイプの組み合わせにおいて、ハプロタイプ文字列中の当該一つの多型塩基に対応付けられた多型識別文字の数を算出し、算出した数をハプロタイプにおけるコピー数として設定してもよい。以上で、本発明の概要の説明を終える。
[ハプロタイプ推定装置の構成]
まず、本ハプロタイプ推定装置の構成について説明する。図7は、本発明が適用される本ハプロタイプ推定装置の構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
図7において、ハプロタイプ推定装置100は、概略的に、ハプロタイプ推定装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力部112や出力部114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。
記憶部106に格納される各種のデータベースやテーブル(カウント数テーブル106a〜コピー数総和ファイル106d)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ等を格納する。
これら記憶部106の各構成要素のうち、カウント数テーブル106aは、個体毎に、遺伝子型データを用いて、コピー数多型のコピー単位上の、標識によって特定されるマーカー部位に対応付けられた多型塩基をカウントすることにより得られたカウント数を、当該多型塩基の種類毎に記憶するカウント数テーブルである。上述したように、図4や図5<SA−1>は、カウント数テーブル106aに格納されるカウント数データの一例を示す。このカウント数テーブル106aに格納される情報は、図4に示すように、個体毎、マーカー部位毎、および、多型塩基の種類毎のカウント数を定義している。
また、ハプロタイプ文字列ファイル106bは、カウント数テーブル106aに記憶された個体のカウント数データに基づいて算出された、取り得るハプロタイプ文字列の組合せを記憶するハプロタイプ文字列記憶手段である。ハプロタイプ文字列ファイル106bは、一例として、ハプロタイプ文字列を、図6に示したハプロタイプ表現形式で記憶する。
また、遺伝子型データファイル106cは、集団における各個体のコピー数多型と塩基多型を含む遺伝子型データを記憶する遺伝子型データ記憶手段である。ここで、遺伝子型データファイル106cは、コピー数多型のコピー単位上の、標識によって特定されるマーカー部位に対応付けられた多型塩基を示す実験データ(DNAチップやPCR等による実験データなど)を記憶してもよい。ここで、標識としては、蛍光色素プローブの他、蛍光特性を持たない色素や、放射性同位体、GFP・GRPなどのタンパク質、Hisタグ、ビオチン化などによって識別可能なプローブ等を用いてもよい。
また、コピー数総和ファイル106dは、各個体におけるコピー数多型のコピー数の総和(二本の相同染色体上のコピー単位の数の総和)を記憶するコピー数総和記憶手段である。
また、図7において、通信制御インターフェース部104は、ハプロタイプ推定装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
また、図7において、入出力制御インターフェース部108は、入力部112や出力部114の制御を行う。ここで、出力部114としては、モニタ(家庭用テレビを含む)の他、スピーカ等を用いることができる。また、入力部112としては、キーボード、マウス、およびマイク等を用いることができる。
また、図7において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、最大値算出部102a、多型識別文字列挙部102b、文字列作成部102c、ハプロタイプ文字列格納部102d、ハプロタイプ推定部102e、区画化部102g、連結部102h、カウント数テーブル作成部102j、コピー数設定部102kを備えて構成されている。なお、理解の容易のために上述した記号を用いて説明することがある。
このうち、最大値算出部102aは、カウント数テーブル106aに記憶された個体のカウント数データに基づいて、マーカー部位(M)毎にカウント数(c)の和を集計し、カウント数(c)の和のうちの最大値を求める最大値算出手段である。
また、多型識別文字列挙部102bは、多型塩基の種類に対応付けられた多型識別文字(F1、F2、F3など)を、当該多型塩基のカウント数(c)列挙する多型識別文字列挙手段である。ここで、多型識別文字列挙部102bは、多型塩基の種類として塩基欠失を表す多型識別文字(一例として、F0)を、最大値算出部102aで算出された、最大値から和を減じた数だけ列挙してもよい。
また、文字列作成部102cは、コピー単位(u)が最大値の回数繰り返される任意の文字列を作成するよう、多型識別文字列挙部102bによって列挙された多型識別文字を並び替える文字列作成手段である。ここで、文字列作成部102cは、作成した文字列における多型識別文字の文字数と、カウント数テーブル106aにおける当該多型塩基の種類毎のカウント数(c)と、が一致することを確認し、一致しない場合に当該文字列を除外してもよい。
また、ハプロタイプ文字列格納部102dは、文字列作成部102cによって作成された文字列を、任意のコピー単位で2分し、ハプロタイプ文字列の組合せとしてハプロタイプ文字列ファイル106bに格納するハプロタイプ文字列格納手段である。
また、ハプロタイプ推定部102eは、ハプロタイプ文字列ファイル106bを参照して、集団において、同一であるハプロタイプ文字列の数を集計し、当該ハプロタイプ文字列の集団における頻度を求め、当該頻度が所定の条件を満たす各個体のハプロタイプ文字列の組合せを、ハプロタイプの組合せとして推定するハプロタイプ推定手段である。ここで、ハプロタイプ推定部102eは、ハプロタイプ文字列の頻度を、ハーディ・ワインバーグの法則に基づいて算出し、所定の条件を、集団におけるハーディ・ワインバーグ平衡としてもよい。
ここで、ハプロタイプ推定部102eは、図7に示すように、ハプロタイプ頻度算出部102fを備えて構成されている。ハプロタイプ頻度算出部102fは、EM(Expectation-Maximization)法を用いて、集団におけるハプロタイプ文字列の頻度を、当該ハプロタイプ文字列を少なくとも一方に有する組合せの頻度により重み付けして算出するMステップと、ハプロタイプの組合せの頻度を、当該組合せを構成する2つのハプロタイプ文字列の頻度の積により求め、当該組合せの頻度に基づいて重みを算出するEステップと、を頻度の値が収束するまで交互に繰り返すハプロタイプ頻度算出手段である。ここで、ハプロタイプ頻度算出部102fは、Mステップにおいて算出されたハプロタイプ文字列の頻度と、前回のMステップにおいて算出されたハプロタイプ文字列の頻度と、の対数尤度差を求め、対数尤度差が所定の閾値以下となった場合に、頻度の値が収束したと判定してもよい。これにより、EM法の収束条件を適切に設定することができるので、精度を保証しながら計算時間を節約することができる。
また、ここで、ハプロタイプ頻度算出部102fは、Mステップにおいて、下記の数式1に基づいて、ハプロタイプ文字列の頻度P(hi)を算出し、Eステップにおいて、下記の数式2に基づいてハプロタイプ文字列の組合せの頻度P(djk)を求め、重みwjkとして当該ハプロタイプ文字列の組合せの頻度を集団における組合せの頻度の総和で除して算出してもよい。
Figure 0005129809
ここで、P(hi)はハプロタイプ文字列の頻度を表し、hはハプロタイプ文字列を表し、iはハプロタイプ文字列のインデックスを表す。また、nは集団を構成する個体の数、jはカウント数のパターンのインデックス、kはハプロタイプ文字列の組合せのインデックス、N(cj)はカウント数のパターンjを持つ個体の数を表す。また、δ(hi,djk)は、組合せdjkが一方に当該ハプロタイプ文字列hiを有する場合に1を返し、両方に当該ハプロタイプ文字列hiを有する場合に2を返し、当該ハプロタイプ文字列hiを持たない場合に0を返す関数であり、dはハプロタイプ文字列の組合せを表す。また、wjkはハプロタイプ文字列の組合せの頻度による重みである。
Figure 0005129809
ここで、P(djk)は、ハプロタイプ文字列の組合せの頻度を表す。また、hlおよびhmは当該組合せを構成する2つのハプロタイプ文字列を表し、P(hl)およびP(hm)は、当該2つのハプロタイプ文字列の頻度をそれぞれ表す。
再び図7に戻り、区画化部102gは、コピー単位(u)をマーカー部位(M)の単位で複数の区画(パーティション)に分け、区画毎に含まれるマーカー部位の塩基多型について、最大値算出部102a、多型識別文字列挙部102b、文字列作成部102c、ハプロタイプ文字列格納部102d、および、ハプロタイプ推定部102eに、処理を実行させるよう制御する区画化手段である。すなわち、区画化部102gは、PL(Partition-Ligation)法に基づくパーティション(Partition)ステップを実行する。
また、連結部102hは、区画毎にハプロタイプ推定部102eにより推定されたハプロタイプ文字列について、コピー単位(u)の繰り返しパターンが同じハプロタイプ文字列同士で、コピー単位(u)における各区画を互いに連結(ライゲーション)することにより、複数の区画から構成されるハプロタイプ文字列を再現する連結手段である。すなわち、連結部102hは、PL法に基づくライゲーション(Ligation)ステップを実行する。以上が本ハプロタイプ推定装置100の内部構成である。
また、カウント数テーブル作成部102jは、遺伝子型データファイル106cに記憶された個体毎の遺伝子型データを用いて、マーカー部位に対応付けられた多型塩基をカウントし、カウント数を多型塩基の種類毎に、カウント数テーブル106aに対応付けて格納するカウント数テーブル作成手段である。ここで、カウント数テーブル作成部102jは、コピー数総和ファイル106dに記憶された各個体におけるコピー数の総和を、任意の一つの多型塩基のカウント数としたカウント数テーブル106aを作成してもよい。
また、コピー数設定部102kは、ハプロタイプ推定部102eにより推定されたハプロタイプの組み合わせにおいて、ハプロタイプ文字列中の任意の一つの多型塩基に対応付けられた多型識別文字の数を算出し、算出した数をハプロタイプにおけるコピー数として設定するコピー数設定手段である。
ここで、本ハプロタイプ推定装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されてもよい。この場合、本システムは、概略的にハプロタイプ推定装置100と、カウント数データに関する外部データベースやハプロタイプ推定プログラム等の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成される。ここで、図7において、ネットワーク300は、ハプロタイプ推定装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
ここで、外部システム200は、ネットワーク300を介して、ハプロタイプ推定装置100と相互に接続され、利用者に対してカウント数データに関する外部データベースやハプロタイプ推定プログラム等の外部プログラム等を実行するウェブサイトを提供する機能を有する。ここで、外部システム200は、WEBサーバやASPサーバ等として構成していてもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成していてもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。以上で、本ハプロタイプ推定装置100の構成の説明を終える。
[本ハプロタイプ推定装置100の処理]
次に、このように構成された実施の形態における本ハプロタイプ推定装置100の処理の一例について、以下に図8〜図12を参照して詳細に説明する。
[ハプロタイプ推定処理]
本実施の形態1における本ハプロタイプ推定装置100のハプロタイプ推定処理の一例について、以下に説明する。ここで、図8は、本ハプロタイプ推定装置100のハプロタイプ推定処理の一例を示す図である。
図8に示すように、最大値算出部102aは、カウント数テーブル106aに記憶された個体のカウント数(c)データに基づいて、マーカー部位(M)毎にカウント数(c)の和を集計し、カウント数(c)の和のうちの最大値を求める(SB−1)。ここで、カウント数テーブル作成部102jは、予め、遺伝子型データファイル106cに記憶された各個体の遺伝子型データに基づいて、マーカー部位(M)に対応付けられた多型塩基をカウントし、カウント数(c)を多型塩基の種類毎に、カウント数テーブル106aに対応付けて格納してもよい。
そして、多型識別文字列挙部102bは、多型塩基の種類に対応付けられた多型識別文字(F1、F2、F3など)を、当該多型塩基のカウント数(c)ずつ列挙する(SB−2)。
そして、多型識別文字列挙部102bは、塩基欠失を表す多型識別文字(F0)を、最大値算出部102aで算出された最大値から和を減じた数だけ列挙する(SB−3)。このとき、列挙された多型識別文字は、コピー単位の数に最大値を乗じた数になる。
そして、文字列作成部102cは、コピー単位(u)が最大値の回数繰り返される任意の文字列を作成するよう、多型識別文字列挙部102bによって列挙された多型識別文字を並び替える(SB−4)。
そして、文字列作成部102cは、作成した文字列における各多型識別文字の文字数と、カウント数テーブル106aにおける当該多型塩基の種類毎のカウント数(c)と、が一致することを確認し、一致しない場合に当該文字列を除外する(SB−5)。このとき、カウント数テーブル106aには塩基欠失の多型の数のデータを記憶していないので、当然のことながら、塩基欠失を表す多型識別文字(F0)の数との一致を確認しなくともよい。
そして、ハプロタイプ文字列格納部102dは、文字列作成部102cによって作成された文字列を、任意のコピー単位で2分し、ハプロタイプ文字列の組合せとしてハプロタイプ文字列ファイル106bに格納する(SB−6)。例えば、コピー単位を3つ持つ文字列では4つの組合せを算出することができ、コピー単位を4つもつ文字列では5つの組合せを算出することができ、コピー単位をN個もつ文字列では(N+1)個の組合せを算出することができる。
そして、ハプロタイプ推定部102eは、文字列作成部102cにより個体毎に格納されたハプロタイプ文字列の組合せを記憶するハプロタイプ文字列ファイル106bを参照して、集団において、同一であるハプロタイプ文字列の数を集計する(SB−7)。
そして、ハプロタイプ推定部102eは、ハプロタイプ文字列の集団における頻度を計算する(SB−8)。ここで、ハプロタイプ推定部102eは、ハプロタイプ文字列の頻度をハーディ・ワインバーグの法則により算出してもよい。
そして、ハプロタイプ推定部102eは、ハプロタイプ文字列の頻度が所定の条件を満たす各個体のハプロタイプ文字列の組合せを抽出し、ハプロタイプの組合せとして推定する(SB−9)。ここで、ハプロタイプ推定部102eは、所定の条件として、集団におけるハーディ・ワインバーグ平衡を設定してもよい。
[最大値算出処理〜ハプロタイプ文字列格納処理]
取り得るハプロタイプの組合せを求めるための、最大値算出処理〜ハプロタイプ文字列格納処理の一例について図9を参照しながら詳細に説明する。
ここで、取り得るハプロタイプの組合せを過不足なく求める方法、すなわち、カウント数データと矛盾しないディプロタイプ(ハプロタイプの組合せ)を見出す方法の一例としては、まず、カウント数データと矛盾しないコピー単位(u)の集合を見出し(多型識別文字列挙部102bによる多型識別文字列挙手段に相当する)、つぎに、ディプロタイプ(ハプロタイプの組合せ)を構成する(ハプロタイプ文字列格納部102dによるハプロタイプ文字列格納手段に相当する)方法がある。ここで、カウント数データと矛盾しないコピー単位の集合とは、文字の集合(文字列)に属する全コピー単位(u)に渡って、コピー単位(u)の各マーカー部位(M)における各多型塩基のカウント数(c)を総計したとき、その各マーカー部位(M)、各多型塩基の総カウント数(c)が、カウント数テーブル106aに記憶されたカウント数データにおける各マーカー部位、各塩基のカウント数と一致する、ということである。ここで、図9は、カウント数データの全パターンにおいて、そのカウント数パターンと矛盾しないディプロタイプを作成する処理の一例を示すフローチャートである。
図9に示すように、まず、文字列作成部102cは、カウント数テーブル106aに記憶されたカウント数データから一意なカウント数パターン(ci)を算出する(SC−21)。
つぎに、ハプロタイプ推定装置100は、カウント数パターン(i)のイテレーション(iイテレーション)に入る。ここでiイテレーションは、最初iを1に初期化し、1イテレーション毎にiを1ずつ増加させ、"i<=カウント数パターンの個数"である限り繰り返すこととする。iイテレーション内において、最大値算出部102aは、カウント総数(和)sjkci(Mj, Fk) に対し、jに関する最大値を示すカウント総数(和)を見出し、これを最大コピー数ziとする(SC−22)。
そして、ハプロタイプ推定装置100は、マーカー部位(M)に関するイテレーション(jイテレーション)に入る(SC−23)。ここで、jイテレーションは、最初jを1に初期化し、1イテレーション毎に1ずつ増加させ、"j<=マーカー部位の個数"である限り繰り返すこととする。jイテレーション内において、多型識別文字列挙部102bは、各マーカー部位Mjに対し、カウント数ci(Mj, Fk)の個数分の多型識別文字Fkを全kに渡って列挙する。ここで、多型識別文字列挙部102bは、最大コピー数ziよりカウント総数sjが少ない場合に、塩基欠損を表す多型識別文字F0を不足分補う。そして、文字列作成部102cは、多型識別文字列挙部102bにより列挙された多型識別文字Fkの群から、あるマーカー部位(M)に含まれる多型識別文字の群を表すベクトルAjを作成する(例えば、図6に示したM1においては、A1=(F1, F1, F2)である)。このように、ハプロタイプ推定装置100は、jイテレーションを終了する。
次に、文字列作成部102cは、Ajにある多型識別文字群を、各jに渡って1文字ずつそれぞれ総当たりで拾い、j=1, 2, 3, …の順番で文字列を、総当たり分作る(SC−24)。例えば、ベクトルA1=(a1, a2), A2=(b1, b2), A3=(c1, c2) である場合、a1b1c1, a1b1c2, a1b2c1, a1b2c2, a2b1c1, a2b1c2, a2b2c1, a2b2c2のように、総当たり分文字列を作る。ここで文字列作成部102cにより作成された文字列1つは、コピー単位1つに相当する。
そして、文字列作成部102cは、得られたコピー単位を一意化する。ここで、一意化とは、重複する余分なものを取り除くことである(SC−25)。
そして、文字列作成部102cは、得られたコピー単位から、最大コピー数zi個分コピー単位をあらゆる組合せで抽出して、コピー単位の集合をあらゆる組合せで作る(SC−26)。これにより、コピー単位が最大値の回数(最大コピー数)繰り返された任意の文字列が得られる。
そして、文字列作成部102cは、得られた文字列(コピー単位の集合)を一意化する(SC−27)。
そして、文字列作成部102cは、得られた文字列から、カウント数データと矛盾しない集合だけを、下記の数式を使って選択する(SC−28)。すなわち、文字列作成部102cは、作成した文字列における多型識別文字の文字数と、カウント数テーブル106aにおける当該多型塩基の種類毎のカウント数と、が一致することを下記の数式(あるいはそれと数学的に同値なもの)を用いて確認し、一致しない場合に当該文字列を除外する。
Figure 0005129809
ここで、上記数式において、ciは、カウント数パターンを表す。ここでiはパターンを指すインデックスであり、個体(個人)を指すインデックスではない(異なる個体(個人)が同じカウント数パターンを持っている場合は、同一のciで表される)。また、ci(Mj, Fk) は、マーカー部位Mjにおける多型塩基Fkのカウント数を表す(例えば、上述した図4の個体1のパターンにおいては、c1(M1, F1)=2, c1(M2, F1)=1である)。ulはコピー単位を表し、ul(Mj)は、コピー単位のマーカー部位Mjにおける多型塩基(塩基欠失を意味するF0を含む)を表すとする(例えば、上述した図3においては、u1(M1)=F1, u2(M2)=F3, u3(M3)=F0, u0(M1)= F0 である)。
そして、ハプロタイプ文字列格納部102dは、得られた各文字列を、任意のコピー単位で、2つに分けて、2つのハプロタイプ文字列を1組として全文字列について作成し、ハプロタイプ文字列ファイル106bに格納する(SC−29)。例えば、"/"で2分するとして、[F1F1F2, F1F1F0, F1F2F2] に関しては、[/F1F1F2, F1F1F0, F1F2F2],[F1F1F2/ F1F1F0, F1F2F2], [F1F1F2, F1F1F0/ F1F2F2], [F1F1F2, F1F2F2, F1F1F0/] の4つの組を作る。ここで得られた2ハプロタイプ文字列1組が1ディプロタイプに相当する。ここで、ハプロタイプ文字列格納部102dは、特殊な組合せとして、全ての多型識別文字がF0である文字列と全コピー単位との組を、追加してもよい(一例として、[F0F0F0/ F1F1F2, F1F1F0, F1F2F2])。
ハプロタイプ推定装置100は、上記の処理を各カウント数パターンに対して行い、iイテレーションを終え、最終的に、カウント数データと矛盾しない全ディプロタイプを算出する。以上が、取り得るハプロタイプの組合せを求めるための、最大値算出処理〜ハプロタイプ文字列格納処理の一例についての詳細な説明である。上記の最大値算出処理〜ハプロタイプ文字列格納処理により得られたハプロタイプ文字列の組合せを用いて、ハプロタイプ推定部102eは、集団におけるハプロタイプ文字列の頻度を求めることとなる。
[EM法による処理]
ハプロタイプ推定部102eの処理によるEM法の詳細な処理の一例について説明する。すなわち、ハプロタイプ推定部102eは、ハプロタイプ頻度算出部102fの処理により、集団におけるハプロタイプ文字列の頻度を、EM(Expectation-Maximization)法を用いて、効率よく計算する。
ここで、EM法とは、得られたディプロタイプ(本実施の形態においては、ハプロタイプ文字列の組合せ)に対し、その存在の重みを割り付け、そのディプロタイプが含むハプロタイプの個数を、重み分を考慮して数え、ハプロタイプの頻度を計算し(Mステップ)、次にそのハプロタイプ頻度からハーディ・ワインバーグの法則を使って、ディプロタイプの存在の重みを更新し(Eステップ)、さらにその更新された重みから、Mステップ、次にEステップ、さらにMステップ、・・・と処理を繰り返して、頻度を更新していく方法である。例えば、下記の数式1に基づくMステップと、下記の数式2(数式2−1および数式2−2)に基づくEステップを交互に行うことにより、ハプロタイプの頻度の更新していく。
Figure 0005129809
また、P(hi)はハプロタイプ文字列の頻度を表し、hはハプロタイプ文字列を表し、iはハプロタイプ文字列のインデックスを表す。また、nは集団を構成する個体の数、jはカウント数のパターンのインデックス、kはハプロタイプ文字列の組合せのインデックス、N(cj)はカウント数のパターンjを持つ個体の数を表す。また、δ(hi,djk)は、組合せdjkが一方に当該ハプロタイプ文字列hiを有する場合に1を返し、両方に当該ハプロタイプ文字列hiを有する場合に2を返し、当該ハプロタイプ文字列hiを持たない場合に0を返す関数であり、dはハプロタイプ文字列の組合せを表す。また、wjkはハプロタイプ文字列の組合せの頻度による重みである。
Figure 0005129809
ここでP(djk)は、ハーディ・ワインバーグの法則を表す下記の数式2−2に基づいて計算する。
Figure 0005129809
ここで、上記の数式2−2は、ハーディ・ワインバーグの法則を示している。ハーディ・ワインバーグの法則とは遺伝学における自然法則であり、この法則によって、ディプロタイプを構成する2つのハプロタイプとその確率(あるいは頻度)が分かった時、そのディプロタイプの確率(あるいは頻度)が計算できる。なお、上記EM法においては、頻度の非常に低いハプロタイプは存在しないと解釈される。ハプロタイプ推定部102eは、ハプロタイプ頻度算出部102fの処理により、一例として上記のEM法を用いて、ハプロタイプの組合せとその頻度を推定する。ここで、ハプロタイプ頻度算出部102fは、下記の数式に基づいて、Mステップにおいて算出されたハプロタイプ文字列の頻度と、前回のMステップにおいて算出されたハプロタイプ文字列の頻度と、の対数尤度差を求め、対数尤度差が所定の閾値以下となった場合に、頻度の値が収束したと判定してもよい。
Figure 0005129809
[PL法による処理]
PL法による処理の一例について図10〜図12を参照しながら説明する。
最大値算出部102a〜ハプロタイプ推定部102eの処理により、カウント数テーブル106aに記憶されたカウント数データから、ハプロタイプ文字列の組合せとその頻度を合理的理由の下で推定できるが、マーカー部位(M)の数が増えると、取り得るハプロタイプの数が飛躍的に増大するため、計算時間が多大になる。このような場合、計算時間を節約する方法として、PL(Partition-Ligation)法が用いられる。ここで、図10は、コピー数多型を考慮しないハプロタイプ推定方法のPL法におけるligation の一例を示す図である。
図10に示すように、PL法は、複数の座位(L)を、より少数の区画(図10において、Partitioned Loci)に分割し(パーティション(partition)ステップ)、その区画(パーティション)内で区画毎にハプロタイプの組合せとその頻度を推定し、頻度が低いハプロタイプを取り除く(頻度以外の別の基準でハプロタイプを復帰させることもある)。そして、残ったハプロタイプに関し、区画(一般に隣り合った区画)間でハプロタイプをつなぎ(ライゲーション(ligation)ステップ、図10においてLigated loci)、つなぎ合わされたハプロタイプに対しつなぎ合わされた区画の遺伝子型データを使って、つなぎ合わされたハプロタイプの頻度の推定を行う、という方法である。ここで「ハプロタイプ同士をつなげる」とは、ハプロタイプを文字列(本実施の形態における「ハプロタイプ文字列」)と見たとき、文字列同士をつないでより長い文字列を作成することに相当する。なお、このPL法を、直接、本実施の形態のコピー数多型と塩基多型を含む遺伝子型データに適用することはできない。すなわち、ligation ステップにおいて、座位を隣り合う座位でつなげることは、本実施の形態においては、各マーカー部位がコピー単位で区切られているので、つなぎ合わせることが出来ないからである。ここで、図11は、本実施の形態の、コピー数多型を考慮に入れたハプロタイプ推定方法のPL法における連結(ligation)処理の一例を示す図である。ここで、h0はコピー単位の数が0の欠失ハプロタイプを表す。
図11に示すように、本実施の形態では、区画化部102gは、コピー単位(u)をマーカー部位(M)の単位で複数の区画(パーティション)に分け(Partitioned markers)、区画に含まれるマーカー部位(M)の塩基多型について、最大値算出部102a〜ハプロタイプ頻度算出部102fに対し当該区画毎に処理を実行させるよう制御する(区画化ステップ)。そして、連結部102hは、区画毎に算出されたハプロタイプ文字列について、コピー単位の繰り返しパターンが同じハプロタイプ文字列同士で(例えば、図11において、h1とh4同士、h2とh5同士)、コピー単位における各区画を互いに連結(ライゲーション)させることにより、複数の区画から構成されるハプロタイプ文字列を再現する(連結ステップ)。ここで、図12は、連結ステップにおける合理的な連結の方法を示す図である。
すなわち、図12に示すように、連結部102hは、異なる区画間でハプロタイプ文字列の連結ステップを行う際、同数のコピー単位(u)を持つハプロタイプ文字列に対し、コピー単位同士を余すことなくつなげ、新しいハプロタイプを作成する。ここで「コピー単位同士をつなげる」とは、コピー単位を文字列と見たとき、文字列同士をつないでより長い文字列を作成することに相当する。連結部102hは、ハプロタイプが持つコピー単位同士を余すことなくつなげる処理を、コピー単位同士のあらゆる組合せで行う(例えば、図12における染色体3を参照)。これには合理的理由があり、区画化ステップにおいて複数のマーカー部位(M)の単位で分割するとは、上述のコピー数多型を考慮しないPL法におけるようなハプロタイプを分割するというのではなく、本実施の形態においてはコピー単位を分割することに相当するからである。
[実施の形態2]
各個体におけるコピー数多型のコピー数の総和を用いた実施の形態2について、図13および図14を参照して説明する。
本実施の形態2においては、実施の形態1のように蛍光色素プローブ等の標識によって識別される多型塩基のカウント数データからハプロタイプを推定するだけではなく、何らかの実験手段によって得られるコピー数多型のコピー数の総和(二つの相同染色体上に渡る総和)データからもハプロタイプを推定する。すなわち、本ハプロタイプ推定装置100は、コピー数総和ファイル106dに記憶された各個体におけるコピー数多型のコピー数の総和データを用いて、ハプロタイプに存在するコピー数とそのハプロタイプの頻度を推定する。なお、本実施の形態2においては、ハプロタイプ推定の対象であるコピー単位上には必ずしも多型塩基が存在しなくてもよい。ここで、図13は、本実施の形態2における処理の一例を示すフローチャートである。
図13に示すように、コピー数総和ファイル106dは、各個体におけるコピー数多型のコピー数の総和を記憶する(SD−1)。ここで、「コピー数の総和」とは、二本の相同染色体にわたるコピー単位の数の総和のことである。
つぎに、カウント数テーブル作成部102jは、コピー数総和ファイル106dに記憶された各個体におけるコピー数の総和を、任意の一つの多型塩基のカウント数としたカウント数テーブル106aを作成する(SD−2)。ここで、図14は、各個体におけるコピー数の総和データと、作成されたカウント数テーブルの対応関係の一例を示す図である。
図14左図に示すように、カウント数テーブル作成部102jは、コピー数総和ファイル106dに記憶されたあるコピー数多型(CNP)領域における各個体1,2,3・・・のコピー数の総和データに基づいて、図14右図に示すように、コピー数の総和2,3,0・・・を、暫定的にマーカー部位(M)における1種類の多型塩基(F)のカウント数として扱い、カウント数テーブル106aを作成する。すなわち、図14の例では、カウント数テーブル作成部102jは、個体1のコピー数の総和が「2」、個体2のコピー数の総和が「3」であるので、個体1についてはマーカー部位Mにおける仮の多型塩基Fのカウント数「2」とし、個体2についてはマーカー部位Mにおける仮の多型塩基F1のカウント数「3」としたカウント数テーブル106aが作成されている。
そして、ハプロタイプ推定装置100は、作成されたカウント数テーブル106aに基づいて、実施の形態1において図8を用いて説明したハプロタイプ推定処理(SB−1〜9)を実行する(SD−3)。例えば、ハプロタイプ推定装置100は、図14の例では、個体1については、ハプロタイプ文字列の組合せとして[F0/F1, F1]と[F1/F1]を作成し、個体2については、ハプロタイプ文字列の組合せとして[F0/F1, F1, F1]と[F1/F1, F1] を作成し、ハプロタイプ推定処理を行う。ここで、Fは、上述の任意の一つの多型塩基に対応付けられた多型識別文字であり、Fは、コピー数が0であることを表す多型識別文字である。
そして、コピー数設定部102kは、ハプロタイプ推定部102eにより推定されたハプロタイプの組み合わせにおいて、ハプロタイプ文字列中の上述の任意の一つの多型塩基に対応付けられた多型識別文字(F)の数を算出し、算出した数をハプロタイプにおけるコピー数として設定する(SD−4)。例えば、コピー数設定部102kは、ハプロタイプ推定部102eの処理により推定されたハプロタイプの組み合わせにおいて、ハプロタイプ文字列[F0]、[F1]、[F1, F1]、[F1, F1, F1]における多型塩基Fを数え、それぞれコピー数「0」,「1」,「2」,「3」として設定する。これにより、目的であるハプロタイプに存在するコピー数(コピー単位の数)とそのハプロタイプの頻度を取得することができる。すなわち、例えば、コピー数が0, 1, 2, 3 であるコピー数多型のハプロタイプとその頻度が得られる。以上で、本実施の形態2の説明を終える。
[実施例]
上述の実施の形態をプログラミング言語Perlにて実装した実施例について、以下に図15〜図30を参照しながら説明する。
[EM法の実施例]
本実施例におけるEM法によるハプロタイプ推定処理の一例について説明する。ここで、図15は、EM法によるハプロタイプ推定処理の一例を示すフローチャートである。なお、以下の説明において、本実施の形態におけるハプロタイプ文字列を単に「ハプロタイプ」と、ハプロタイプ文字列の組合せを「ディプロタイプ」と述べる場合がある。
図15に示すように、まず、最大値算出部102aは、カウント数テーブル106aを参照してカウント数データを読み込む(SC−1)。このとき、ハプロタイプ頻度算出部102fの処理による収束判定の数値を読み込んでもよい。
次に、ハプロタイプ推定装置100は、[最大値算出処理〜ハプロタイプ文字列格納処理]の項で図9を用いて説明した処理(SC−21〜SC−29)を行う(SC−2)。
そして、以降のステップにおいて、ハプロタイプ推定部102eは、ハプロタイプ頻度算出部102fの処理により、EM法を用いて、ハプロタイプ文字列ファイル106bに記憶されたハプロタイプ文字列の組合せとカウント数テーブル106aに記憶されたカウント数データに基づいて、ハプロタイプ文字列の頻度を計算する。
すなわち、まず、ハプロタイプ頻度算出部102fは、各カウント数パターン(ci)に対し、各ハプロタイプの組合せの存在の重みを初期化する(SC−3)。本実施例においては、初期値として重みを平等に割り付けた。すなわち、初期値の重みは、wjk=1/njkである。ここでw, j, k は(発明の構成における)上述と同じであり(wは重み、jはカウント数パターン、kはカウント数パターン内でのディプロタイプ(ハプロタイプ文字列の組合せ)のインデックス)、njkはカウント数パターン内でのディプロタイプの総数である。
次にSC−4に移り、ハプロタイプ推定部102eは、EM法のMステップを数式1に基づいて行う。そして、対数尤度を下記の数式に従って計算し、記憶部106に保存する。下記の数式において、記号は上述と同様である。ここで対数尤度とは、計算されたディプロタイプの頻度がどれくらいカウント数データを説明しているかの指標であり、本実施例においては、これをEM法の収束の判定に用いる。ハプロタイプ推定部102eは、収束判定において、前回のSC−4イテレーションで保存された対数尤度と今回のSC−4イテレーションで計算された対数尤度との差を計算し、その差が一定値以内ならば、もはや対数尤度は改善されないと判定し、SC−5に処理を移す。そうでなければ、SC−4内にとどまり、ハプロタイプ推定部102eは、数式2に従って、EM法のEステップを行う。そしてSC−4のイテレーションを繰り返す。
Figure 0005129809
そして、ハプロタイプ推定部102eは、上記条件によってSC−5に処理を移した場合、ハプロタイプ及びその頻度を結果ファイルに出力する。
[EM法の実証シミュレーション]
本実施の形態により塩基多型を考慮したコピー数多型(CNP)に関するカウント数データから、コピー数多型のハプロタイプとその頻度を推定できるかどうかを確かめる為、シミュレーション実験を行った。すなわち、以下のシミュレーション実験においては、ハプロタイプ推定装置100は、ハプロタイプ推定処理とは逆の処理を行い、結果(ハプロタイプと確率(頻度))からカウント数データを導き出し、そのカウント数データを用いて、ハプロタイプ推定処理を行い元の結果を再現できるか否かを実証する。ここで、図16は、シミュレーションの枠組みを示すフローチャートである。
図16に示すように、ハプロタイプ推定装置100は、CNPのハプロタイプとその確率(頻度)が書かれたファイルを読み込む(SE−1)。これは、例えば図17に示すようなデータである(すなわち、本来、ハプロタイプ推定の結果を表すデータである)。また、ハプロタイプ推定装置100は、以降の処理で用いる個体の数も読み込む。
つぎに、ハプロタイプ推定装置100は、読み込んだハプロタイプから構成し得るあらゆる2つ1組(ハプロタイプ2つから構成される1組)を作成し、その1組を1つのディプロタイプとして、ハーディ・ワインバーグの法則(数式2−2参照)に基づいて、読み込んだハプロタイプの確率から全ディプロタイプの確率を計算する(SE−2)。
そして、ハプロタイプ推定装置100は、ディプロタイプとその確率から、ディプロタイプの多項分布を構成し、与えられた個体の数だけディプロタイプをランダムに抽出する(SE−3)。これは、例えば、R言語を使って、rmultinom(1, size=個体の数, prob=c(ディプロタイプ1の確率、ディプロタイプ2の確率、ディプロタイプ3の確率、…))のようなコマンドで簡単に実施できる。ここにおいて抽出されたディプロタイプの1つ1つが、1つ1つの個体(のディプロタイプ)に相当する。
そして、ハプロタイプ推定装置100は、各個体が持つディプロタイプからそれを構成するコピー単位(u)を全て取り出す(SE−4)。すなわち、ハプロタイプ推定装置100は、それらコピー単位(u)の各マーカー部位(M)における各Fk(k=1, 2, 3, …)の(全コピー単位に渡る)カウント総数を数え、カウント数データを作成する。例えば、ハプロタイプ推定装置100は、個体の持つディプロタイプが[F2F1/F2F2, F2F2]である場合に、全コピー単位[F2F1, F2F2, F2F2]を取り出し、各M1, M2 において、各F1, F2 のカウント総数を数え、この場合、M1 におけるF1, F2 の総数はそれぞれ0, 3となり、M2 におけるF1, F2 の総数はそれぞれ1, 2となる。
最後に、ハプロタイプ推定装置100は、カウント数データをファイル(カウント数テーブル106a)に出力する(SE−5)。
以上説明したシミュレーションの枠組みにおいて、ハプロタイプ推定装置100は、図17で示したハプロタイプとその確率と同様のデータを、さらに個体の数500を読み込み、カウント数データ(図18)を作成した。
つづいて、本実施の形態のハプロタイプ推定装置100が、出力した図18のカウント数データだけから、図17で示された元のハプロタイプとその確率を推定(再現)できるか試験した。これは言い換えれば、不完全な観測データからの母集団比率の推定問題である。本実施の形態を適用する際、EM法において収束判定に使われる対数尤度差の閾値は0.001未満とした。
そして本実施の形態を適用した結果、ハプロタイプ推定装置100は、ハプロタイプとその頻度に関し、図19に示す結果を出力した。図19(再現データ)にあって図17(元のデータ)にないハプロタイプの頻度は全て低い。すなわち、これらは存在しないと解釈される。逆に、図17にあるハプロタイプは全て図19に現れており、かつ、それら推定頻度も正解頻度とほぼ等しい。よって、本実施の形態はCNPのハプロタイプとその頻度を精度よく推定することが実証された。
[PL法の実施例]
本実施の形態のPL法を、階層型タイプのハプロタイプバッファ付PL法として、プログラミング言語Perlで実装した実施例について、以下に図20〜図22を参照しながら説明する。図20は、本実装の枠組みを示すフローチャートである。
図20に示すように、まず、区画化部102gは、カウント数データを読み込む(SF−1)。ここで、区画化部102gは、PL法において使われる区画(パーティション)内のマーカー数、区画内において取り除くべきハプロタイプの頻度(の閾値)、ハプロタイプ・バッファサイズも読み込む。また、区画化部102gは、EM法の実行に必要な上述のパラメータも読み込む。
そして、区画化部102gは、読込んだカウント数データを、読み込んだ区画内のマーカー部位(M)単位の個数ごとに、左側からx個の区画に分割する(SF−2)。この際、割り切れなかった最右端の区画は、この個数以下のマーカー部位(M)で構成される。
そして、区画化部102gは、イテレーション(iを1に初期化、1イテレーション毎にiを1ずつ増加させ、"i<=x"である限り繰り返す)に入る。イテレーション内で、区画化部102gは、各区画内でのカウント数データに対し、ハプロタイプ頻度算出部102fの処理による上述のEM法によってCNPのハプロタイプとその頻度を計算する(SF−3)。なお、以降のPL法による処理のため、ハプロタイプ頻度算出部102fの処理実行時に、各区画における各ハプロタイプの累積平均頻度を記録しておく。ここで、累積平均頻度とは、EM法での各イテレーションにおけるハプロタイプ頻度の、イテレーション開始時から収束時までの(イテレーションに渡る)平均値をいう。
そして、ハプロタイプ推定装置100は、連結部102hの処理による連結(ライゲーション)ステップに入る。これはSF−4、5、6とそれを取り囲むイテレーションである。まず、イテレーションの設定について説明する。
最初のイテレーション(図20におけるiイテレーション)は、階層型タイプのPL法における、層のイテレーションを指す。このiイテレーションにおいては、各層(即ち任意のi)において、次に深いイテレーション(図20におけるjイテレーション)での操作を、最終的に区画の数が1となるまで繰り返す。連結部102hは、次に深いイテレーション(jイテレーション)において、層にある区画を順次、連結(ライゲーション)する。連結し終えると、新たな区画の数はroundup(k/2)となる(ここで、kは連結する前の区画数であり、roundup()は切り上げを意味する)。すなわち、区画数は、連結し終えると、前の区画数が偶数ならば、連結し終えた後の区画数は前の1/2個となり、奇数ならば前の1/2+1個となる。このように、連結し終えると、区画の数は減る。すなわち、このiイテレーションでは、層において区画を順次、連結し、連結し終えると、区画の数は減り、次の層へ行く。次の層でも区画を順次、連結し、連結し終えるとまた区画の数は減り、次の層へ行く。連結部102hは、この処理を、最終的に区画の数が1になるまで繰り返す。
次に深いイテレーション(図20のjイテレーション)では、前述のように層にある全ての区画を連結する。連結は区画jと区画j+1の隣接する区画間で行う。ここで、連結部102hは、最初の層では、jを1から始め、イテレーション毎順次2ずつ増やし、j<iである限り繰り返す。一方、次の層では、連結部102hは、jを、層における全区画(全パーティション)の数−1(i-1)から始め、順次2ずつ減らし、j>=1である限り繰り返す。このように、最初の層では左から、次の層では右から、その次の層では左から、さらにその次の層では右から、...、と層が進む度(iイテレーションが繰り返される度)、連結の開始を左、右と交互に設定し、上記のようにjイテレーションを繰り返す。なお、区画数が奇数個の場合は、最後の区画は連結をせず、そのまま、次の層に持ち越す。
つぎに、イテレーション内部の処理の詳細について以下に説明する。
連結部102hは、区画jと区画j+1の両方の区画において、頻度が低いハプロタイプの除去と別条件によるハプロタイプの復帰を行う(SF−4)。別条件によるハプロタイプの復帰とは、除去後残ったハプロタイプの数が、与えられたハプロタイプ・バッファサイズ未満であった場合、EM法におけるハプロタイプの累積平均頻度が上位のものから順に、除去したハプロタイプをそのバッファ数まで復帰させる処理である。
そして、連結部102hは、区画jと区画j+1を合わせたより大きな区画に渡ってハプロタイプの連結処理を実行し、そのハプロタイプから構成され、かつカウント数データと矛盾しないディプロタイプ(ハプロタイプの組合せ)を作成する(SF−5)。ここで、図21は、SF−5の、より詳しい処理の一例を示すフローチャートである。
図21に示すように、まず、連結部102hは、区画jと区画j+1における全ハプロタイプのコピー数を数え、最大のコピー数を出す(SF−51)。そして、連結部102hは、コピー数kを1にセットし、この最大のコピー数に達するまで、kイテレーションを実行する。このイテレーションの中のSF−51において、連結部102hは、区画jと区画j+1にあるコピー数kのハプロタイプを選択する(両方の区画からハプロタイプが得られない場合は、すぐ次のkに行く)。そして、連結部102hは、それぞれの区画においてハプロタイプの個数を数え、lイテレーションとmイテレーションを、その個数分、実行する。ここで、lイテレーションは、最初lを1に初期化し、1イテレーション毎にlを1ずつ増加させ、"l<=区画jにおけるコピー数kのハプロタイプの数"である限り繰り返すこととする。また、mイテレーションは、最初mを1に初期化し、1イテレーション毎にlを1ずつ増加させ、"m<=区画j+1におけるコピー数kのハプロタイプの数"である限り繰り返すこととする。このイテレーションの中で、実施の形態において上述したように、同数のコピー単位を持つハプロタイプに対し、コピー単位同士を余すことなく連結し、新しいハプロタイプをあらゆる組合せで作成する。
すなわち、連結部102hは、ハプロタイプmをコピー単位という要素を持つベクトルと見なし、順列ベクトルを全て出す(SF−52)。ここで、順列ベクトルとは、要素を順列的に入れ替えたベクトルのことである。順列ベクトルを全て出すのは、あらゆる組合せで新しいハプロタイプを作り出すためである。そして、連結部102hは、ハプロタイプlをコピー単位という要素を持つベクトルと見なし、ハプロタイプlのコピー単位と、上で出した各順列ベクトルにおけるコピー単位との、ベクトル的な文字列結合を行って、新しい文字列ベクトルを出す(SF−52)。ベクトル的な文字列結合とは、実施の形態において上述したように、コピー単位を文字列と見なし、各要素独立に文字列を結合することである。こうして得られた文字列ベクトルを、次に(順序関係のない)文字列集合と見なす(本実施の形態におけるハプロタイプにおいてはコピー単位内に順序関係はない)。こうして、得られた文字列集合が、連結されたハプロタイプになる(SF−53)。そして、m,lイテレーションを終える。このようにして、それぞれのコピー数ごとに、コピー単位同士を余すことなくライゲートしたハプロタイプを、あらゆる組合せで作成する。
kイテレーションを終了すると、連結部102hは、連結されたハプロタイプを一意化する(重複する余分なハプロタイプを取り除く)(SF−54)。
そして、ハプロタイプ推定装置100は、各カウント数パターンに対するイテレーションに入る。すなわち、連結部102hは、連結されたハプロタイプから、2つ1組のディプロタイプをあらゆる組合せで作成する(SF−55)。ただし、2つのハプロタイプのコピー数を足すと、カウント数パターンckの総コピー数となるように作成する。総コピー数とは、カウント総数Σnck(Mp, Fn) (n=1, 2, 3, …; p=1, 2, 3, …)の(p に関する)最大のカウント総数のことであり、区画化前(即ちSF−2の処理前)に最大値算出部102aにより算出されているものである。例えば、総コピー数が3の場合、コピー数が0と3の2つのハプロタイプ、あるいはコピー数が1と2の2つのハプロタイプから、ディプロタイプを作成する。そして、連結部102hは、作成された全ディプロタイプから、区画jと区画j+1を合わせた区画内でのカウント数データと、矛盾しないディプロタイプのみを選択する(SF−56)。
再び図20の説明に戻り、連結部102hは、区画jと区画j+1を合わせた区画において、ハプロタイプ頻度算出部102fの処理によるEM法によるハプロタイプ頻度を計算させる(SF−6)。すなわち、ハプロタイプ頻度算出部102fは、区画jと区画j+1を合わせた区画におけるカウント数データ、SF−5で得られたディプロタイプを用い、MステップとEステップを実行してハプロタイプ頻度を計算する。このとき、ハプロタイプ頻度算出部102fは、各ハプロタイプの累積平均頻度を記録する。
そして、ハプロタイプ推定装置100は、iイテレーションを終了した後は、ハプロタイプ及びその頻度を結果ファイルに出力する(SF−7)。
[PL法の実証シミュレーション]
以上の本実施例により、区画化部102gおよび連結部102hの処理によるPL法により同一の結果(コピー数多型のハプロタイプとその頻度)を推定でき、且つ計算処理の短縮を図ることができるか否かを確かめる為、シミュレーション実験を行った。すなわち、以下のシミュレーション実験においては、ハプロタイプ推定装置100は、区画化処理および連結処理を行う場合と行わない場合の2通りのハプロタイプ推定処理を行い、区画化・連結処理を行わない場合と同様のハプロタイプ推定結果を再現でき、計算速度を速めることができることを実証する。図22は、シミュレーション実験に用いたハプロタイプとその頻度のデータの一例を示す図である。図23は、読込まれたハプロタイプとその確率についての、作成された個体の数500のカウント数データである。
本実施例により、図23のカウント数データだけから、図22で示されたハプロタイプとその確率を短時間で推定できるか、PL法によって試験した。比較のため、PL法を用いないブルートフォース法(上述のEM法の実施例と同じ方法)でも行った。ブルートフォース法及びPL法で使うEM法の設定は、上述の実施例の設定と同じとした。PL法において、マーカー部位(M)は、隣り合う4マーカー部位毎に分割した。区画内において取り除くべきハプロタイプの頻度は、10-5 以下とした。ハプロタイプ・バッファサイズは50とした。
本実施例を適用した結果、図24のような結果を得た。この結果において、ブルートフォース法とPL法の、計算時間とハプロタイプの推定頻度を示す。ブルートフォース法とPL法いずれも推定頻度はほぼ同じであって、それは図22の正解に近い。即ち、図24にあって図22にないハプロタイプの頻度は全て低く、図22にあるハプロタイプは全て図24に現れており、それら推定頻度は正解頻度とほぼ等しい。そして、PL法における計算時間はブルートフォース法より大幅に短い。これより、本発明のPL法によって、CNPのハプロタイプとその頻度をより短い時間で推定できることが実証された。
[コピー単位の数による実施形態2の実証シミュレーション]
各個体におけるコピー数多型のコピー数の総和を用いた実施の形態2が適用される実施例について、図25〜図30を参照して説明する。
上述の実施の形態2を適用した本実施例では、コピー数多型のコピー数の総和を用いたカウント数データから、コピー数多型のハプロタイプとその頻度を推定できるかどうかを確かめる為、シミュレーション実験を行った。すなわち、本実施例では、予め、設定した集団におけるコピー数多型のハプロタイプの確率(頻度)に基づいて、個体におけるコピー数の総和データを作成する。そして、このコピー数総和データに基づいて、実施の形態2の処理を実行し、元のハプロタイプの確率(頻度)を推定できるか試験を行った。ここで、図25は、本実施例において設定した、ハプロタイプに存在するコピー数(コピー単位の数)とそのハプロタイプの確率を示す図である。また、図26は、図25に示すコピー数を仮の塩基Fのカウント数として表現した図である。
すなわち、シミュレーション実験の設定として、図25に示すように、ハプロタイプのコピー数が0,1,2,3である場合の確率をそれぞれ0.25として設定した。なお、このコピー数は、図26に示すように、実施の形態2における処理において、仮の塩基Fのカウント数として扱われる。
つぎに、当該設定した確率に基づいて、ハプロタイプのコピー数の組合せを任意に500個体の抽出し、コピー数の総和(二本の相同染色体にわたるコピー数の総和)をコピー数総和ファイル106dに格納した。ここで、図27は、抽出された各個体におけるコピー数の総和を示す図である。また、図28は、図27に示すコピー数の総和を仮の塩基Fのカウント数として表現した図である。
つづいて、図27に示すコピー数の総和データを用いて、ハプロタイプ推定装置100が図25に示したようなハプロタイプの確率(頻度)を推定できるか試験を行った。すなわち、まず、カウント数テーブル作成部102jは、図27に示すようにコピー数総和ファイル106dに格納されたコピー数の総和を、図28に示すように仮の塩基Fのカウント数としたカウント数テーブルを作成した。
そして、ハプロタイプ推定装置100は、以降のハプロタイプ推定処理を実行し、ハプロタイプとその頻度を推定した。なお、ハプロタイプ推定処理実行の際、EM法の設定は、上述の設定と同じとした。ここで、図29は、ハプロタイプ推定装置100により推定されたハプロタイプ文字列とその頻度を示す図である。また、図30は、推定されたハプロタイプ文字列から算出された各コピー数のハプロタイプとその頻度を示す図である。
そこで、コピー数設定部102kは、図29のように推定されたハプロタイプにおいて、ハプロタイプ文字列中の仮の塩基に対応付けられた多型識別文字(F)の数を算出し、図30に示すように算出した数をハプロタイプにおけるコピー数として設定した。
図25で示したハプロタイプの設定確率と図30に示す推定結果であるハプロタイプの推定頻度を比較すると、コピー数が0,1,2,3であるハプロタイプの設定確率0.25とほぼ同等のハプロタイプ推定頻度(約0.245〜0.260)が得られたのに対し、設定確率0としたコピー数4、5、6のハプロタイプ推定頻度は、ほぼ0に近い値(1.05E−05以下)を示した。すなわち、推定頻度は、正解頻度(設定確率)とほぼ等しく、コピー数の総和データだけから、ハプロタイプに存在するコピー単位の数とそのハプロタイプの頻度を推定できることが実証された。以上で、コピー単位の数による実施形態2の実証シミュレーションの説明を終える。
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
例えば、ハプロタイプ推定装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、ハプロタイプ推定装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
また、実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
このほか、上記文献中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データ等のパラメータを含む情報、データベース構成については、特記する場合を除いて任意に変更することができる。
また、ハプロタイプ推定装置100に関して、図示の各構成要素は機能概略的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、ハプロタイプ推定装置100の各装置が備える処理機能、特に制御部102にて行われる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。尚、プログラムは、後述する記録媒体に記録されており、必要に応じてハプロタイプ推定装置100に機械的に読み取られる。すなわち、ROMまたはHDなどの記憶部106などは、OS(Operating System)として協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。
また、このコンピュータプログラムは、ハプロタイプ推定装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
また、本発明に係るプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
記憶部106に格納される各種のデータベース等(カウント数テーブル106a〜コピー数総和ファイル106d)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやデータベースやウェブページ用ファイル等を格納する。
また、ハプロタイプ推定装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。
以上詳述に説明したように、本発明によれば、塩基多型を考慮したコピー数多型に関する実験データから、ハプロタイプとその頻度を高精度で推定することができる、ハプロタイプ推定装置、ハプロタイプ推定方法、および、プログラムを提供することができ、バイオテクノロジー分野や医療分野において利用可能である。

Claims (9)

  1. 集団における各個体のコピー数多型と塩基多型を含む遺伝子型データからハプロタイプを推定する、制御部と記憶部を少なくとも備えたハプロタイプ推定装置において、
    上記記憶部は、
    上記個体毎に、上記遺伝子型データを用いて、上記コピー数多型のコピー単位上の、標識によって特定されるマーカー部位に対応付けられた多型塩基をカウントすることにより得られたカウント数を、当該多型塩基の種類毎に記憶するカウント数テーブル、
    を備え、
    上記制御部は、
    上記カウント数テーブルに格納された上記個体の上記カウント数に基づいて、上記マーカー部位毎に上記カウント数の和を集計し、上記カウント数の和のうちの最大値を求める最大値算出手段と、
    上記多型塩基の種類に対応付けられた多型識別文字を、当該多型塩基の上記カウント数列挙する多型識別文字列挙手段と、
    上記コピー単位が上記最大値の回数繰り返される任意の文字列を作成するよう、列挙された上記多型識別文字を並び替える文字列作成手段と、
    上記文字列作成手段によって作成された上記文字列を、任意の上記コピー単位で2分し、ハプロタイプ文字列の組合せとして格納するハプロタイプ文字列格納手段と、
    上記集団において、同一である上記ハプロタイプ文字列の数を集計し、当該ハプロタイプ文字列の上記集団における頻度を求め、当該頻度が所定の条件を満たす上記各個体の上記ハプロタイプ文字列の上記組合せを、上記ハプロタイプの組合せとして推定するハプロタイプ推定手段と、
    を備えたことを特徴とするハプロタイプ推定装置。
  2. 請求項1に記載のハプロタイプ推定装置において、
    上記ハプロタイプ推定手段は、
    上記ハプロタイプ文字列の頻度を、ハーディ・ワインバーグの法則に基づいて算出し、
    上記所定の条件を、上記集団におけるハーディ・ワインバーグ平衡とすること、
    を特徴とするハプロタイプ推定装置。
  3. 請求項1または2に記載のハプロタイプ推定装置において、
    上記多型識別文字列挙手段は、
    上記多型塩基の種類として塩基欠失を表す上記多型識別文字を、上記最大値から上記和を減じた数だけ列挙すること、
    を特徴とするハプロタイプ推定装置。
  4. 請求項1乃至3のいずれか一つに記載のハプロタイプ推定装置において、
    上記文字列作成手段は、
    作成した上記文字列における、上記多型識別文字の文字数と、上記カウント数テーブルにおける、当該多型塩基の種類毎の上記カウント数と、が一致することを確認し、一致しない場合に当該文字列を除外すること、
    を特徴とするハプロタイプ推定装置。
  5. 請求項1乃至4のいずれか一つに記載のハプロタイプ推定装置において、
    上記制御部は、
    上記コピー単位を上記マーカー部位の単位で複数の区画に分け、上記区画に含まれる上記マーカー部位の上記塩基多型について、上記最大値算出手段、上記多型識別文字列挙手段、上記文字列作成手段、上記ハプロタイプ文字列格納手段、および、上記ハプロタイプ推定手段に、当該区画毎に処理を実行させるよう制御する区画化手段と、
    上記区画毎に上記ハプロタイプ推定手段により推定された上記ハプロタイプ文字列について、上記コピー単位の繰り返しパターンが同じ上記ハプロタイプ文字列同士で、上記コピー単位における上記各区画を互いに連結することにより、上記複数の上記区画から構成される上記ハプロタイプ文字列を再現する連結手段と、
    を備えたことを特徴とするハプロタイプ推定装置。
  6. 請求項1乃至5のいずれか一つに記載のハプロタイプ推定装置において、
    上記ハプロタイプ推定手段は、
    EM(Expectation-Maximization)法を用いて、
    上記集団における上記ハプロタイプ文字列の頻度を、当該ハプロタイプ文字列を少なくとも一方に有する上記組合せの頻度により重み付けして算出するMステップと、
    上記組合せの頻度を、当該組合せを構成する上記ハプロタイプ文字列の頻度の積により求め、当該組合せの頻度に基づいて上記重みを算出するEステップと、
    を上記頻度の値が収束するまで交互に繰り返すハプロタイプ頻度算出手段、
    を更に備えたことを特徴とするハプロタイプ推定装置。
  7. 請求項6に記載のハプロタイプ推定装置において、
    上記Mステップは、
    下記の数式1に基づいて、上記ハプロタイプ文字列の頻度を算出し、
    Figure 0005129809
    (ここで、P(hi)は上記ハプロタイプ文字列の頻度を表し、hは上記ハプロタイプ文字列を表し、iは上記ハプロタイプ文字列のインデックスを表す。また、nは上記集団を構成する上記個体の数、jは上記カウント数テーブルにおける上記カウント数のパターンのインデックス、kは上記ハプロタイプ文字列の組合せのインデックス、N(cj)は上記カウント数のパターンjを持つ上記個体の数を表す。また、δ(hi,djk)は、上記ハプロタイプ文字列の組合せdjkが一方に当該ハプロタイプ文字列hiを有する場合に1を返し、両方に当該ハプロタイプ文字列を有する場合に2を返し、当該ハプロタイプ文字列hiを持たない場合に0を返す関数であり、dは上記ハプロタイプ文字列の上記組合せを表す。また、wjkは上記ハプロタイプ文字列の上記組合せの頻度による上記重みである。)
    上記Eステップは、
    下記の数式2に基づいて上記ハプロタイプ文字列の上記組合せの頻度を求め、上記重みとして当該ハプロタイプ文字列の上記組合せの頻度を上記集団における上記組合せの頻度の総和で除して算出すること、
    Figure 0005129809
    (ここで、P(djk)は、上記ハプロタイプ文字列の上記組合せの頻度を表す。また、hlおよびhmは当該組合せを構成する2つの上記ハプロタイプ文字列を表し、P(hl)およびP(hm)は、当該2つの上記ハプロタイプ文字列の頻度をそれぞれ表す。)
    を特徴とするハプロタイプ推定装置。
  8. 請求項1乃至7のいずれか一つに記載のハプロタイプ推定装置において、
    上記記憶部は、
    上記各個体における上記コピー数多型のコピー数の総和を記憶するコピー数総和記憶手段、
    を更に備え、
    上記制御部は、
    上記コピー数総和記憶手段に記憶された上記各個体における上記コピー数の総和を、任意の一つの上記多型塩基の上記カウント数とした上記カウント数テーブルを作成するカウント数テーブル作成手段と、
    上記ハプロタイプ推定手段により推定された上記ハプロタイプの組み合わせにおいて、上記ハプロタイプ文字列中の上記一つの多型塩基に対応付けられた上記多型識別文字の数を算出し、算出した数を上記ハプロタイプにおける上記コピー数として設定するコピー数設定手段と、
    を更に備えたことを特徴とするハプロタイプ推定装置。
  9. 集団における各個体のコピー数多型と塩基多型を含む遺伝子型データからハプロタイプを推定する、制御部と記憶部を少なくとも備えたハプロタイプ推定装置にハプロタイプ推定方法を実行させるためのプログラムであって、
    上記記憶部は、
    上記個体毎に、上記遺伝子型データを用いて、上記コピー数多型のコピー単位上の、標識によって特定されるマーカー部位に対応付けられた多型塩基をカウントすることにより得られたカウント数を、当該多型塩基の種類毎に記憶するカウント数テーブル、
    を備えており、
    上記制御部において実行される、
    上記カウント数テーブルに格納された上記個体の上記カウント数に基づいて、上記マーカー部位毎に上記カウント数の和を集計し、上記カウント数の和のうちの最大値を求める最大値算出ステップと、
    上記多型塩基の種類に対応付けられた多型識別文字を、当該多型塩基の上記カウント数列挙する多型識別文字列挙ステップと、
    上記コピー単位が上記最大値の回数繰り返される任意の文字列を作成するよう、列挙された上記多型識別文字を並び替える文字列作成ステップと、
    上記文字列作成ステップにおいて作成された上記文字列を、任意の上記コピー単位で2分し、ハプロタイプ文字列の組合せとして格納するハプロタイプ文字列格納ステップと、
    上記集団において、同一である上記ハプロタイプ文字列の数を集計し、当該ハプロタイプ文字列の上記集団における頻度を求め、当該頻度が所定の条件を満たす上記各個体の上記ハプロタイプ文字列の上記組合せを、上記ハプロタイプの組合せとして推定するハプロタイプ推定ステップと、
    を含むハプロタイプ推定方法を実行させることを特徴とするプログラム。
JP2009512892A 2007-04-26 2008-02-28 ハプロタイプ推定装置、および、プログラム Expired - Fee Related JP5129809B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009512892A JP5129809B2 (ja) 2007-04-26 2008-02-28 ハプロタイプ推定装置、および、プログラム

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2007117744 2007-04-26
JP2007117744 2007-04-26
JP2007237139 2007-09-12
JP2007237139 2007-09-12
PCT/JP2008/053567 WO2008136210A1 (ja) 2007-04-26 2008-02-28 ハプロタイプ推定装置、および、プログラム
JP2009512892A JP5129809B2 (ja) 2007-04-26 2008-02-28 ハプロタイプ推定装置、および、プログラム

Publications (2)

Publication Number Publication Date
JPWO2008136210A1 JPWO2008136210A1 (ja) 2010-07-29
JP5129809B2 true JP5129809B2 (ja) 2013-01-30

Family

ID=39943329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009512892A Expired - Fee Related JP5129809B2 (ja) 2007-04-26 2008-02-28 ハプロタイプ推定装置、および、プログラム

Country Status (4)

Country Link
US (1) US8401802B2 (ja)
EP (1) EP2141619A4 (ja)
JP (1) JP5129809B2 (ja)
WO (1) WO2008136210A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5134397B2 (ja) * 2008-02-28 2013-01-30 独立行政法人理化学研究所 ハプロタイプ推定装置、および、プログラム
US9892110B2 (en) * 2013-09-09 2018-02-13 Ayasdi, Inc. Automated discovery using textual analysis

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004192018A (ja) * 2002-10-16 2004-07-08 Japan Biological Informatics Consortium Dnaプールによるハプロタイプ頻度推定方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004192018A (ja) * 2002-10-16 2004-07-08 Japan Biological Informatics Consortium Dnaプールによるハプロタイプ頻度推定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6012056783; Ogino, S.: 'New insights on the evolution of the SMN1 and SMN2 region: simulation and meta-analysis for allele a' European Journal of Human Genetics Vol.12, 2004, p.1015-1023 *
JPN6012056784; Redon, R.: 'Global variation in copy number in the human genome' Nature Vol.444, 20061123, p.444-454 *

Also Published As

Publication number Publication date
WO2008136210A1 (ja) 2008-11-13
EP2141619A1 (en) 2010-01-06
JPWO2008136210A1 (ja) 2010-07-29
US8401802B2 (en) 2013-03-19
EP2141619A4 (en) 2011-01-19
US20100082262A1 (en) 2010-04-01

Similar Documents

Publication Publication Date Title
Huang et al. PCAP: a whole-genome assembly program
Forst et al. Evolutionary dynamics and optimization: Neutral networks as model-landscapes for RNA secondary-structure folding-landscapes
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
CN113555062B (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
Hossain et al. Crystallizing short-read assemblies around seeds
US12087403B2 (en) DNA alignment using a hierarchical inverted index table
Steinberg et al. Building and improving reference genome assemblies
JPWO2018168383A1 (ja) 最適解判定方法、最適解判定プログラム及び最適解判定装置
Mäkinen et al. Genome-scale algorithm design: bioinformatics in the era of high-throughput sequencing
JP5129809B2 (ja) ハプロタイプ推定装置、および、プログラム
US8032305B2 (en) Base sequence cluster generating system, base sequence cluster generating method, program for performing cluster generating method, and computer readable recording medium on which program is recorded and system for providing base sequence information
JP5134397B2 (ja) ハプロタイプ推定装置、および、プログラム
JPWO2004068398A1 (ja) Dnaコンピュータ及びそれを用いた計算方法
CN115440302A (zh) 基因组叠阵、基因组架构、基因组序列组装方法及系统
Das et al. Optimal haplotype assembly via a branch-and-bound algorithm
Pattabiraman et al. Are Profile Hidden Markov Models Identifiable?
Leonardsen Aligning reads against a graph based reference genome
Gibrat On the use of algebraic topology concepts to check the consistency of genome assembly
Eizenga Graph Methods for Computational Pangenomics
Warnke-Sommer et al. Parallel NGS assembly using distributed assembly graphs enriched with biological knowledge
JP2000057124A (ja) 組合せ最適化方法および組合せ最適化システム
Oehl A combinatorial approach for reconstructing rDNA repeats
Prybol Pan-Genome Modeling for Correcting Sequencing Errors, Advancing Bacteriophage Therapy, and Exploring Virus-Host Associations
Haider A new algorithm for de novo genome assembly
Haukness Using long reads to improve haplotype phasing, genome assembly, and gene annotation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121102

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees