JP2008165375A - 塩基配列を識別する変異セットの選別法 - Google Patents

塩基配列を識別する変異セットの選別法 Download PDF

Info

Publication number
JP2008165375A
JP2008165375A JP2006352404A JP2006352404A JP2008165375A JP 2008165375 A JP2008165375 A JP 2008165375A JP 2006352404 A JP2006352404 A JP 2006352404A JP 2006352404 A JP2006352404 A JP 2006352404A JP 2008165375 A JP2008165375 A JP 2008165375A
Authority
JP
Japan
Prior art keywords
mutation
haplotype
mutation set
diplotype
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006352404A
Other languages
English (en)
Inventor
慎一郎 ▲高▼濱
Shinichiro Takahama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006352404A priority Critical patent/JP2008165375A/ja
Publication of JP2008165375A publication Critical patent/JP2008165375A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ヘテロ型の「ハプロタイプ」の組に由来する「ディプロタイプ」相互の区別を可能とする、あるいは、区別不能な「ディプロタイプ」を最小限にするための、変異セットの選別法の提供。
【解決手段】識別すべき「ハプロタイプ」の種類NHに対して、変異セットの多型部位数Nを(NH−1)≦2N-1を満たす範囲に設定し、「ハプロタイプ」相互の識別が可能な「変異セット」候補を複数選別する第1の工程を具えている。さらに、第1の工程で選別される、複数の「変異セット」候補について、「ディプロタイプ」の表現型をも識別可能か否かの検証を行う第2の工程を設けている。この第1の工程、第2の工程の二つの関門を通過したものを、「最小数」の多型部位で構成される「変異セット」として、選定する方法としている。
【選択図】なし

Description

本発明は、複数の配列情報の中から特定配列を特徴づけている要素を抽出する情報処理方法に関する。特に、遺伝子多型情報の組み合わせ(以降、ハプロタイプと呼ぶ)を構成する変異セットを最適化する情報処理技術に関する。
分類学上は同一種に分類される生物群においても、個体間の比較を行うと、その遺伝子に起因する多様性を示す。具体的には、特定の遺伝子の塩基配列を個体間で比較すると、塩基配列の相違が離散的に存在する。特に、遺伝子の塩基配列中の特定部位の塩基が、個体群全体において、ある確率分布で相違している場合がある。この一塩基の変異は、「一塩基多型(SNP)」と称されている。一方、ゲノムDNA上には、多数の遺伝子が存在しているが、「一塩基多型」を示す遺伝子が複数個存在している。さらに、一つの遺伝子上に、「一塩基多型(SNP)」を示す部位が、複数箇所存在することも少なくない。
遺伝子の塩基配列中に「一塩基多型(SNP)」が存在する場合、該遺伝子の発現により産生される産物、例えば、タンパク質、ペプチド性生理物質、RNAに差違が生じることもある。あるいは、産生される産物自体には、差違は存在しないが、その産生量に差違が生じる場合もある。その結果として、個体を示す体質に相違が生じる場合も知られている。すなわち、個体の示す体質に影響する遺伝的要因として、遺伝子の多型(SNPs)が着目されている。個体の遺伝子多型を知ることで、例えば、薬剤の代謝に関連する情報から直接疾患要因を特定する情報まで、種々の情報が得られる。その目的で、個体から採取されたゲノムDNA試料を利用して、その個体が有する遺伝子の多型を検出し、特定するための、遺伝子検査薬、キット、装置が開発されている。
一方、既に判明している遺伝子の多型(SNPs)の総数は、膨大な数に達しつつある。また、薬剤代謝、疾患罹患の危険性など、個体の体質的要因の決定は、代謝酵素タンパク質群や疾患関連タンパク質群など、複数種のタンパク質が関与していることも少なくない。個々の遺伝子、例えば、代謝酵素遺伝子や、疾患関連遺伝子においても、それぞれの遺伝子中には、多数の多型が存在して、この「複数個の多型の組み合わせ」に依って、その遺伝子産物に顕著な差違が生じることが少なくない。すなわち、特定の遺伝子から発現されるタンパク質のアミノ酸配列を対比すると、複数種の変異体が存在しており、これらの変異体をコードする遺伝子は、特定の「複数個の多型の組み合わせ」を有することが多い。この「複数個の多型の組み合わせ」を構成する個々の多型は、「連鎖」しており、一つの「ハプロタイプ」を構成している。「ハプロタイプ」を構成する複数個の多型に関しては、その「連鎖マップ」に従って、系統的に多型を検出し、特定することが重要となっている。
従来、遺伝子の多型情報を抽出する方法としては、先ず、多数の個体の遺伝子の塩基配列をアライメントし、変異が見出される部位(多型部位)を特定する。次いで、該多型部位に変異を有する遺伝子に関連した表現系と、検出された多型との相関を検証した上で、該遺伝子のアレル(対立遺伝子)群を特定する。特定されたアレル(対立遺伝子)の種類が増えてくると、該遺伝子中に存在することが確認された多型部位の総数も増えてくる。しかしながら、各アレル(対立遺伝子)で見出される、複数個の特定の多型は、全部もしくは一部「連鎖」しており、個々のアレルを判別する際に、全ての多型部位を調査する必要がない場合も少なくない。
この点に着目し、対象の遺伝子において、既に確認され、また、その塩基の出現頻度も確定している、多数の多型部位の中で、特定の「ハプロタイプ」の決定に必須な「最小数」の多型部位を含む変異セットを選択する手法が開発されている。例えば、特許文献1に開示される「配列を同定するための変異要素のセット抽出方法」を、該遺伝子の塩基配列に応用すると、特定の「ハプロタイプ」の決定に必須な「最小数」の多型部位のセット(変異セット)が取得される。
特開2005−190427号公報
特許文献1に開示される手法により取得される、「最小数」の多型部位のセット(変異セット)は、評価対象の核酸分子が、該遺伝子の既知の「ハプロタイプ」のいずれに属するかを決定する目的としては、十分なものである。一方、個体のゲノムが、2個一組の相同染色体n組からなる2倍体型の構成である場合、一組の相同染色体上の、相同の遺伝子座に、一対のアレル(対立遺伝子)が存在している。すなわち、対象の遺伝子Cには、複数種(NH種)のアレル(対立遺伝子){Ci:i=1〜NH}が存在しており、各個体は、ホモ型の(Ci、Ci)、あるいは、ヘテロ型の(Ci、Cj)の組み合わせを有することになる。ホモ型の(Ci、Ci)の場合には、前記「最小数」の多型部位のセット(変異セット)を用いて、その「ハプロタイプ」を特定することが可能である。一方、ヘテロ型の(Ci、Cj)の場合には、その組み合わせによっては、「最小数」の多型部位のセット(変異セット)により判定される多型の種類を比較する限り、同一の「ディプロタイプ」を表現することがある。従って、そのような場合には、前記「最小数」の多型部位のセット(変異セット)を用いて、検出される多型情報のみからは、該個体の「ハプロタイプ」、すなわち、(Ci、Cj)の組み合わせを確定できない。その際には、対象とする個体の属する家系、集団(人種、民族)における各アレルの出現頻度(確率分布)を考慮して、該「ディプロタイプ」を表現する複数種の「ハプロタイプ」の組み合わせ(Ci、Cj)間で、その確率を統計的に推定する。例えば、各個体の有する「ハプロタイプ」の組み合わせ(Ci、Cj)は、両親由来の2種の配偶子に由来することを考慮して、両家系における各アレルの出現頻度(確率分布)に基づき、各(Ci、Cj)の組み合わせが出現する確率を統計的に推定する。その推定結果において、最も高い確率を示す(Ci、Cj)の組み合わせを、対象の個体は有すると推断していた。
一方、対象とする遺伝子において、確認されている多型部位の総数を、NSNPとし、その多型部位(ck:k=1〜NSNP)における、塩基の出現パターン(c1,…,ck,…,cNSNP)を考える。各多型部位(ck:k=1〜NSNP)に出現する塩基の種類が2である場合、可能な出現パターン(c1,…,ck,…,cNSNP)の総数は、2の(NSNP)乗となる。しかしながら、実際に、アレル(対立遺伝子)として、確認されている、出現パターン(c1,…,ck,…,cNSNP)の種類は、前記の最大数(2NSNP)よりも、格段に少ない数(NH)である。この点を利用して、「最小数」の多型部位のセット(変異セット)、すなわち、NSNPより遥かに小さな「最小数」:Nmin個の多型部位のみで、NH種類のアレル(対立遺伝子){Ci:i=1〜NH}の区別を行っている。すなわち、NH<2Nminとなっている。
さらに、ホモ型の(Ci、Ci)、あるいは、ヘテロ型の(Ci、Cj)の組み合わせの総数は、{NH+1/2NH×(NH−1)}=1/2NH×(NH+1)である。従って、少なくとも、{1/2NH×(NH+1)}<1/2(2Nmin)×(2Nmin+1)となっている。1/2(2Nmin)×(2Nmin+1)<2NSNPの条件が満たされる場合、変異セットを構成する、多型部位の数:Nsetを増し、その多型部位:ckの組み合わせを適正に選別すると、ヘテロ型(Ci、Cj)を区別することが可能となる場合もある。
しかしながら、ヘテロ型(Ci、Cj)の「ハプロタイプ」の組に由来する「ディプロタイプ」相互の区別を可能とする、あるいは、区別不能な「ディプロタイプ」を最小限にするための、変異セットの選別法は、未だ具現化されていなかった。
本発明は、前記課題を解決するものである。本発明の目的は、ヘテロ型(Ci、Cj)の「ハプロタイプ」の組に由来する「ディプロタイプ」相互の区別を可能とする、あるいは、区別不能な「ディプロタイプ」を最小限にするための、変異セットの選別法を提供することにある。
本発明では、各「ハプロタイプ」が、複数箇所の多型部位において、観測される塩基配列が、野生型アレル(W)か、変異型アレル(M)かの差違によって、相互に識別できる点に着目する。例えば、各「ハプロタイプ」:Ci:i=1〜NHは、複数箇所の多型部位:ck:k=1〜NSNPにおける塩基配列の区分:ck(i):k=1〜NSNPを示す、行ベクトル(…,ck(i),…)を利用して、表記できる。その際、各「ハプロタイプ」:Ciを示す行ベクトル(…,ck(i),…)は、該多型部位:ck:k=1〜NSNPの総数、「NSNP次元のベクトル空間」上で、互いに相違する行ベクトル群を構成している。一方、二つの「ハプロタイプ」の組み合わせ(Ci,Cj)に起因する「ディプロタイプ」の表現型も、「NSNP次元のベクトル空間」上で、行ベクトル(…,{ck(i)+ck(j)},…)と表記できる。
この表記法を採用する際、各「ハプロタイプ」、ならびに「ハプロタイプ」の組(Ci,Cj)に起因する「ディプロタイプ」の表現型の識別も可能な、「最小数」の多型部位で構成される「変異セット」は、下記の手順で選別できることを見出した。
すなわち、本発明にかかる変異セットの選別法では、
ハプロタイプの組み合わせであるディプロタイプを識別する変異セットの選別法において、下記の二つの工程を有することを特徴としている。
・ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する第一の工程。
・前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する第二の工程。
本発明にかかる方法により選別される「最小数」の多型部位で構成される「変異セット」は、複数の「ハプロタイプ」相互の識別に加えて、相同染色体上に一組の「ハプロタイプ」を有する個体が示す「ディプロタイプ」相互の識別も可能である。すなわち、個体が示す「ディプロタイプ」相互の識別により、該「ディプロタイプ」の表現を与える、一組の「ハプロタイプ」の組み合わせを特定することが可能である。有性生殖による繁殖を行う生物では、各個体の有する遺伝子型は、二つの配偶子の由来する相同染色体上に存在するアレル(対立遺伝子)の組み合わせに因って決定される。該相同の遺伝子座に存在するアレル(対立遺伝子)は、父系と母系の二つの系統に由来している。この二つのアレル(対立遺伝子)に起因する発現がなされると、例えば、mRNA中には、両者の塩基配列を有する2種のmRNA分子が共存している「ディプロタイプ」の表現型を示す。該遺伝子中に存在する多型部位の塩基配列を判定すると、「ディプロタイプ」の表現型においては、一組の「ハプロタイプ」が示す多型部位の情報が総合された状態で観測される。該「最小数」の多型部位で構成される「変異セット」は、一組の「ハプロタイプ」の組み合わせの相違に起因する、「ディプロタイプ」の表現型の相違を識別することで、その個体における「ハプロタイプ」の組み合わせを特定することを可能にする。加えて、一組の「ハプロタイプ」の組み合わせの相違に起因する、「ディプロタイプ」の表現型の相違を識別する上で、測定すべき多型部位の個数を「最小数」とする利点を有している。この「最小数」の多型部位で構成される「変異セット」を採用すると、各「ハプロタイプ」が示す多型部位を検出用のプローブ・セットや、プライマー・セットの設計も、より効率的に行うことが可能になる。
本発明にかかる方法では、「ディプロタイプ」の表現型の識別を可能とする、測定すべき多型部位の個数の下限を、識別すべき「ハプロタイプ」の種類数より決定する。そして、この下限条件を満足する、複数の「ハプロタイプ」相互の識別可能な、「最小数」の多型部位で構成される「変異セット」を複数の候補として選別し、その候補の中から、「ディプロタイプ」の表現型の相違を識別することが可能なものを選定する。従って、複数の「ハプロタイプ」相互の識別は勿論、一組の「ハプロタイプ」の組み合わせの相違に起因する、「ディプロタイプ」の表現型の相違をも識別可能な「最小数」の多型部位で構成される「変異セット」を効率的に選別できる。
本発明にかかる、「ハプロタイプ」のみでなく、「ディプロタイプ」の識別も可能である、「最小数」の多型部位で構成される「変異セット」を選別する方法を以下に詳しく説明する。加えて、該選別方法を適用して、選別される「最小数」の多型部位で構成される「変異セット」に対して、その多型部位の塩基を判定するためのプローブ・セットの設計方法、あるいは、塩基配列解析用プライマー・セットの設計方法を併せて説明する。
また、該「最小数」の多型部位で構成される「変異セット」を選別する方法に基づく、「変異セット」選別用ソフトウエア、該ソフトウエアを実装し、「変異セット」選別の操作を行うシステムに関しても、詳しい説明を行う。同じく、前記プローブ・セットの設計方法に基づく、プローブ・セット設計用ソフトウエア、該ソフトウエアを実装し、プローブ・セット設計の操作を行うシステムに関しても、詳しい説明を行う。前記塩基配列解析用プライマー・セットの設計方法に基づく、プライマー・セット設計用ソフトウエア、該ソフトウエアを実装し、プライマー・セット設計の操作を行うシステムに関しても、詳しい説明を行う。
まず、本発明の変異セットの選別法では、
ハプロタイプの組み合わせであるディプロタイプを識別する変異セットの選別法において、下記の二つの工程を有することを特徴としている。
・ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する第一の工程。
・前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する第二の工程。
その際、「変異セット」として、下記のように定義される変異セットを用いることが好ましい。まず、A(アデニン)、G(グアニン)、T(チミン)、C(シトシン)の塩基配列で構成される複数の個体のDNA配列についてアライメントし、アライメントした結果、1%以上の頻度で見られる変異を多型と定義する。次に、定義された多型部位を複数箇所、個々の個体を識別する識別子として、選択し、この識別子を用いて、変異セットを定義する。
特に、前記変異セットは、個々の個体が有するハプロタイプを識別する識別子として、定義された多型部位の複数箇所について、野生型アレル、変異型アレルを識別可能な文字表記を行って、ハプロタイプ配列の形態で定義することが好ましい。なお、前記変異セットは、多型と定義される変異として、一塩基多型、インサーション、デリーション、リピート配列を含むセットとすることができる。
一方、前記ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する第一の工程では、下記の操作を行う形態とすることが好ましい。
・ハプロタイプ配列の形態で定義されている個体数分の変異セットを、並列することで、各個体のハプロタイプ配列を行に、定義された多型部位の複数箇所の各変異を列として、行列を構築する。
・その上で、特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セットを複数抽出する。
・該ハプロタイプの情報量として必要十分な最小数の変異セット複数を、ディプロタイプの表現型をも識別可能な最小の変異セットの候補として、選別する。
例えば、前記る第一の工程において、特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セット複数の抽出は、下記のステップ(a)〜(i)を含む操作によって行われることが好ましい。
ステップ(a):複数の変異セットの候補を多型情報データベースから抽出し、変異部位だけで構成されたハプロタイプ配列を取得する。
ステップ(b):識別したい複数の個体の配列行に対して、アライメントされた変異セットの列について、列方向に野生型か変異型かを表現するパターンが同一、もしくは反転しているセットが他にある場合には、その列のセットを除外する。
ステップ(c):識別したい複数の個体の配列行に対して、一つ参照行を決め、各変異セットの列方向で参照行と異なる要素がある場合に、消去し参照行と識別できることを表示する。
ステップ(d):順に全ての個体の配列行に対して、参照行として、ステップ(c)を繰り返し、全ての配列行の組合せについて比較し、消去演算する。
ステップ(e):全ての個体の配列行について、行方向に消去された要素数をカウントし、最も少ない配列行の消去された列を変異セットの第1の候補とする。
ステップ(f):第1の候補の変異列を固定し、他の異なる列と組合せ、全ての組合せで行方向にスクリーニングして、消去した要素を少なくとも1つ含む場合には、その行を消去し他の行と識別できることを表示する。逆に、第1の候補が複数ある場合には、その各々に対して処理を実行する。
ステップ(g):全ての個体の配列行について、行方向に消去された要素数をカウントし、最も少ない配列行の消去された列セットを、変異セットの第2の候補とする。第2の候補は、第1の候補を継承する。
ステップ(h):第2の候補の変異列セットを固定し、他の異なる列と組合せ、ステップ(f)からステップ(g)の操作を繰り返す。
ステップ(i):候補の変異列セットにおいて、列方向の要素が全て消去されると、一個体の特定配列を識別するための必要十分な最小数の変異セットとして決定する。
また、前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する第二の工程では、下記の操作を行う形態とすることが好ましい。すなわち、特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セット複数として抽出された、複数の変異セット候補から、個人のディプロタイプが重複しないように、最小数の最適な変異セットを抽出する。
例えば、前記第二の工程においては、ディプロタイプの表現型をも識別可能な最小の変異セットの選別は、以下の手順で行うことが好ましい。すなわち、前記の最小数変異セットの候補に対して、全て個体の配列行の組合せについてディプロタイプを演算する下記の(j)〜(l)のステップを含む操作によって行うことが好ましい。
ステップ(j):野生型アレル、変異型アレルを識別し、同一列の要素を第1の演算方法で処理することでディプロタイプの要素として、野生型ホモ、変異型ホモ、ヘテロを出力する。
ステップ(k):前記のディプロタイプの組合せ全てに対して、同一変異列の要素を第2の演算方法で処理することで同一のディプロタイプが複数あるか否かを検証する。
ステップ(l):下記の三種の操作のいずれかを行う。
・同一ディプロタイプが複数ある場合には、当該の変異セットを候補から除外し、別箇の変異セットでステップ(j)〜ステップ(l)を繰り返す。
・全てのディプロタイプが単独で存在する場合には、その変異セットを最適化された候補とする。
あるいは
・全ての最小数変異セットについて候補がない場合には、変異セットの列数を増やして、前記工程1のステップ(a)からステップ(i)、ならびにステップ(j)からステップ(l)の処理を繰り返す。
例えば、前記ステップ(j)の第1の演算方法の処理において、
前記の変異セットの候補に対して、野生型アレル、変異型アレルを識別可能な文字表記したハプロタイプ配列について、各配列の異なる全ての組合せの間で和演算処理を行う。その演算結果により、野生型ホモ、変異型ホモ、ヘテロを識別し、それをディプロタイプ配列とすることが好ましい。
また、前記ステップ(k)の第2の演算方法の処理において、
前記のディプロタイプ配列について異なる全ての組合せの間で減演算処理を行う。その演算結果がすべて0になる組合せについて、異なるハプロタイプ配列のセットで同一のディプロタイプ配列を表現する組み合わせが存在すると判断することができる。
あるいは、前記ステップ(k)の第2の演算方法の処理において、
前記ディプロタイプ配列について異なる全ての組合せに間で比較演算処理を行う。その演算結果が全て同値である組合せについて、異なるハプロタイプ配列のセットで同一のディプロタイプ配列を表現する組み合わせが存在すると判断することもできる。
最終的に、異なる全てのハプロタイプの組合せが異なるディプロタイプ型を示すように選択された変異セットを選別することが望ましい。もしくは、異なるハプロタイプの組合せによって同じディプロタイプ型を示す組数が最小数になるように選択された変異セットを選別することもできる。
また、本発明では、ハプロタイプ相互の識別、ならびに、ディプロタイプの表現型をも識別可能な最小の変異セットに対して、その変異検出用のプローブ・セットを設計する方法を提供する。すなわち、該最小の変異セットを構成する、多型部位の複数箇所について、それぞれの塩基の種別を特定するために利用されるプローブ・セットを設計する方法を提供する。本発明にかかるプローブ・セットの設計方法における、該プローブ・セットの設計工程は、下記のステップAとステップBを含む。
ステップA:
上で述べた本発明の変異セットの選別方法を適用して、最小の変異セットを選定する。
ステップB:
選定された最小の変異セットを構成する各多型部位について、該多型部位をその塩基配列中に含ように、プローブの塩基配列を選択する。
さらに、本発明では、ハプロタイプ相互の識別、ならびに、ディプロタイプの表現型をも識別可能な最小の変異セットに対して、その変異検出用のプライマー・セットを設計する方法を提供する。すなわち、該最小の変異セットを構成する、多型部位の複数箇所について、それぞれの塩基の種別を特定するために利用されるプライマー・セットを設計する方法を提供する。本発明にかかるプライマー・セットの設計方法における、該プライマー・セットの設計工程は、下記のステップAとステップBを含む。
ステップA:
上で述べた本発明の変異セットの選別方法を適用して、最小の変異セットを選定する。
ステップB:
選定された最小の変異セットを構成する各多型部位について、該多型部位の塩基の種類を特定可能なように、プライマーの塩基配列を選択する。
なお、本発明にかかる変異セットの選別方法は、一連の数値演算処理、ならびに、該数値演算処理結果を用いる論理演算処理を行うことで、最小の変異セットを特定する形態として実施できる。これらの演算処理を含む操作は、コンピュータシステム上で実行するため、専用のソフトウエアとして、記録媒体上に記録する形態にすることが望ましい。
従って、本発明は、前記の「専用のソフトウエア」を収納する、ソフトウエア収納記録媒体の発明をも提供する。
すなわち、本発明のソフトウエア収納記録媒体は、下記のような構成上の特徴を有する。
・上述する本発明の変異セットの選別方法を適用して、最小の変異セットを選定するためのものである。
・その方法における、一連の数値演算処理、ならびに、該数値演算処理結果を用いる論理演算処理をコンピュータシステム上で実行するためのプログラムを、主要な要素としている。
・そのプログラムを、該コンピュータシステムにおいて実行可能なプログラム言語により表記したソフトウエアを記録媒体上に電子的に収納してなるものである。
また、本発明の変異セットの選別方法は、上述するように、「専用のソフトウエア」を用いて、コンピュータシステム上において、その設計操作を実施することが一般的である。従って、本発明は、本発明の変異セットの選別方法を適用して、最小の変異セットを選定する操作を実施する用途に適するコンピュータシステムの発明をも提供する。
すなわち、本発明にかかる変異セットの選別システムは、下記の構成上の特徴を有する。
・ハプロタイプの組み合わせであるディプロタイプを識別する変異セットを選別する作業を実施するための、コンピュータシステムである。
・該システムは、下記の二つの工程を具えている。
ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する、第一の演算処理を実施する第一の工程。
前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する、第二の演算処理を実施する第二の工程。
なお、本発明にかかる変異セットの選別システムにおいても、上記の本発明の変異セットの選別方法における好適な構成を選択すると、好ましい形態となる。
例えば、本発明の一態様では、各「ハプロタイプ」が、複数箇所の多型部位において、観測される塩基配列が、野生型アレル(W)か、変異型アレル(M)かの差違によって、相互に識別できる点に着目する。すなわち、各「ハプロタイプ」:Ci:i=1〜NHは、複数箇所の多型部位:ck:k=1〜NSNPにおける塩基配列の区分:ck(i):k=1〜NSNPを示す、行ベクトル(…,ck(i),…)を利用して、表記できる。その際、各「ハプロタイプ」:Ciを示す行ベクトル(…,ck(i),…)は、該多型部位:ck:k=1〜NSNPの総数、「NSNP次元のベクトル空間」上で、互いに相違する行ベクトル群を構成している。一方、二つの「ハプロタイプ」の組み合わせ(Ci,Cj)に起因する「ディプロタイプ」の表現型も、「NSNP次元のベクトル空間」上で、行ベクトル(…,{ck(i)+ck(j)},…)と表記できる。
この表記法を採用する際、各「ハプロタイプ」、ならびに「ハプロタイプ」の組(Ci,Cj)に起因する「ディプロタイプ」の表現型の識別も可能な、「最小数」の多型部位で構成される「変異セット」は、下記の手順で選別できることを見出した。
まず、「最小数」:Nの多型部位で構成される「変異セット」により、各「ハプロタイプ」:Ci、ならびに「ハプロタイプ」の組(Ci,Cj)に起因する「ディプロタイプ」の表現型を行ベクトルで表記することを考える。このN個の要素からなる行ベクトルは、基となる「NSNP次元のベクトル空間」上で定義される行ベクトル(…,ck(i),…)を、「N次元のベクトル空間」に投影したものに相当する。その「N次元のベクトル空間」に投影した際、各「ハプロタイプ」:Ciを示す行ベクトルが、同一にならないことが、「ハプロタイプ」相互の識別が可能な「変異セット」の必要条件(a)となる。同様に、「N次元のベクトル空間」に投影した際、「ディプロタイプ」の表現型を表記する行ベクトルが、同一にならないことが、「ディプロタイプ」相互の識別が可能な「変異セット」の必要条件(b)となる。
必要条件(a)は、「N次元のベクトル空間」において、「ハプロタイプ」の行ベクトルに可能な選択肢の総数:2N通りが、識別すべき「ハプロタイプ」の総数NHより多い:NH≦2Nと表現できる。一方、必要条件(b)は、少なくとも、「N次元のベクトル空間」において、「ハプロタイプ」の行ベクトル中に、互いに逆ベクトルとなる組が、二つ以上存在していない条件とすることもできる。すなわち、「N次元のベクトル空間」において、「ハプロタイプ」の行ベクトルに可能な選択肢は、1/2・(2N)の互いに逆ベクトルとなる「ベクトル対」で構成されている。従って、必要条件(b)は、「ハプロタイプ」:Ciを示すN次元のベクトル中に、互いに逆ベクトルとなる組が、二つ以上存在していない条件:(NH−1)≦1/2・2Nと表現できる。この必要条件(b):(NH−1)≦2N-1は、勿論、必要条件(a):NH≦2Nをも満たしている。
従って、必要条件(b):(NH−1)≦2N-1を満たす、最小のNを先ず決定する。次いで、基となる「NSNP次元のベクトル空間」上で定義される行ベクトル(…,ck(i),…,cNSNP(i))を、「N次元のベクトル空間」に投影した行ベクトル(…,ck'(i),…,cN(i))を考慮する。この各「ハプロタイプ」:Ciを示す行ベクトル(…,ck'(i),…,cN(i))が、互いに、相違したものとなるようなNの多型部位で構成される「変異セット」(ck')を複数選別する。選別される、「最小数」:Nの多型部位で構成される複数の「変異セット」を候補として、「ディプロタイプ」の表現型を表記する、N次元の行ベクトル(…,{ck'(i)+ck'(j)},…)を考慮する。その際、このN次元の行ベクトル(…,{ck'(i)+ck'(j)},…)相互が、同一にならないことを基準に、「最小数」:Nの多型部位で構成される「変異セット」を選定する。
本発明の一態様の「最小数」の多型部位で構成される「変異セット」の選別方法は、上記の必要条件(b):(NH−1)≦2N-1を満たす範囲で、「ハプロタイプ」相互の識別が可能な「変異セット」候補を複数選別する第1の工程を具えている。さらに、第1の工程で選別される、複数の「変異セット」候補について、「ディプロタイプ」の表現型をも識別可能か否かの検証を行う第2の工程を設けている。この第1の工程、第2の工程の二つの関門を通過したものを、「最小数」の多型部位で構成される「変異セット」として、選定する方法としている。
また、本発明の一態様にかかる、「最小数」の多型部位で構成される「変異セット」を選別する方法は、具体的には、その構成、ならびに、その好ましい形態は、下記のように記述することができる。
この態様においては、本発明にかかる「最小数」の多型部位で構成される「変異セット」を選別する方法は、下記の構成を有することが好ましい。
この態様の「変異セット」の選別方法は、
個体の有する相同染色体上、相同遺伝子座を占めるアレル(対立遺伝子)に関して、該個体が属する集団中において、複数種のアレル(対立遺伝子)の存在が確認されている際に適用する。
その複数種のアレル(対立遺伝子)各々に対してA(アデニン)、G(グアニン)、T(チミン)、C(シトシン)の塩基で構成される塩基配列に関して、相互の塩基配列をアライメントする。該塩基配列のアライメントによって対比した際、見出される複数の変異箇所中、前記集団中における出現頻度の確率が1%以上である複数の箇所を選択し、該遺伝子の多型部位と定義する。
選択された該遺伝子の多型部位の総数をNsnp0と表記する。
前記複数種のアレル(対立遺伝子)相互の区別を行う指標として、該Nsnp0個の多型部位における塩基の種別を用い、各多型部位の塩基として、該集団中における出現頻度の最大の塩基を「野生型アレル(W)」、それ以外の塩基を「変異型アレル(M)」と定義する。
前記Nsnp0個の多型部位における塩基の種別の2値化処理を行って、前記複数種のアレル(対立遺伝子)を識別する識別子として、次の行ベクトルを考える。すなわち、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)における、2値化処理された塩基の種別で構成される、Nsnp0個の要素:ck(i)(k=1〜Nsnp0)からなる、Nsnp0次元の行ベクトルを定義する。
前記複数種のアレル(対立遺伝子)を、該Nsnp0次元の行ベクトルに基づき分類し、該Nsnp0次元の行ベクトルが同一となるアレル(対立遺伝子)の群を複数種定義し、この定義された複数種のアレル(対立遺伝子)の群を該遺伝子の「ハプロタイプ」と称する。
定義される、該遺伝子の複数種の「ハプロタイプ」の総数をNHと表記し、該NH種の「ハプロタイプ」をCi:i=1〜NHと表記する。
各個体中に存在する相同遺伝子座を占める、二つのアレル(対立遺伝子)の組み合わせに起因して、その「ハプロタイプ」の組み合わせ(Ci,Cj)に由来する、前記Nsnp0個の多型部位における、塩基の種別;WとMの組み合わせの表現型を考える。そして、前記Nsnp0個の多型部位における、塩基の種別;WとMの組み合わせの表現型を、各個体の「ディプロタイプ」:(Ci,Cj)と定義する。
本発明では、各個体の有する、二つのアレル(対立遺伝子)の組み合わせを分類する上で利用可能な、各「ハプロタイプ」相互の識別、同時に、その組み合わせである「ディプロタイプ」:(Ci,Cj)の相違の識別を行うことを目標とする。更に、各「ハプロタイプ」相互の識別と、「ディプロタイプ」:(Ci,Cj)の相違の識別が可能な、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)中から選択される、「最小数」の多型部位で構成される「変異セット」を選定する方法が、本発明で提供される。
その際、該選定方法は、下記の手順を有する。
前記「最小数」の多型部位で構成される「変異セット」を構成する多型部位の個数をNと表記する際、
条件:(NH−1)≦2N-1を満たすNの最小値:Nminを算定する。
その上で、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)中から、該Nmin個以上の多型部位を選択して、構成される「変異セット」の集合の中から、「最小数」の多型部位で構成される「変異セット」を選定する。
該「最小数」の多型部位で構成される「変異セット」を選定する工程は、下記のステップ(a)〜(i)の操作を含んでなる第1の工程と、ステップ(j)〜(l)の操作を含んでなる第2の工程を含む。
(第1の工程):各「ハプロタイプ」相互の識別を行うことが可能な、Nmin個以上の多型部位で構成される「変異セット」を、「最小数」の多型部位で構成される「変異セット」の候補として抽出する、下記のステップ(a)〜(i)の操作を含んでなる工程;
ステップ(a):
前記集団中において、その存在が確認されている複数種のアレル(対立遺伝子)の塩基配列の情報を、該遺伝子の多型情報を収納するデータベースから抽出する。抽出された塩基配列の情報に基づき、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)における、2値化処理された塩基の種別で構成される、Nsnp0個の要素:ck(i)(k=1〜Nsnp0)からなる、Nsnp0次元の行ベクトルを作成する。次いで、作成されるNsnp0次元の行ベクトルの集合中から、互いに、相違するNsnp0次元の行ベクトルを示す、該NH種の「ハプロタイプ」:Ci:i=1〜NHを表記する、Nsnp0次元の行ベクトルNH種を選別する。
ステップ(b):
前記Nsnp0次元の行ベクトルNH種を用いて、NH行×Nsnp0列の行列を形成し、その行列の各列より、Nsnp0個のNH次元の列ベクトルを作成する。各列ベクトル間の対比を行い、相互に同一の列ベクトルの群、ならびに、相互に逆ベクトルの関係にある列ベクトルの群を選択する。選択される列ベクトルの群中の、一つの列ベクトルを選択し、該群に含まれる他の列ベクトルを除去し、前記NH行×Nsnp0列の行列から、各列ベクトルが相互に独立している列ベクトルにより構成される部分行列を作成する。該部分行列の列の総数をNsnpと表記し、該NH行×Nsnp列の行列における、各列を与えている多型部位:ck(k=1〜Nsnp)を、該Nmin個以上の多型部位を選択して、構成される「変異セット」の可能な要素として選択する。
ステップ(c):
H行×Nsnp列の行列において、各「ハプロタイプ」:Ciを表記する行ベクトル(ck(i))を、参照行として選択する。他の「ハプロタイプ」:Cjを表記する行ベクトル(ck(j))に対して、前記参照行の行ベクトル(ck(i))と、各要素ck(j)とck(i)の比較を行う。比較する要素ck(j)とck(i)が、異なる場合、両者間の区別が可能として、ck(j)を「−」の符号に置換する。この操作を、前記参照行の「ハプロタイプ」:Ciを表記する行ベクトル(ck(i))以外の、(NH−1)個の行ベクトルに施す。この対比操作の結果を、NH行×Nsnp列の行列として、表記し、「ハプロタイプ」:Ciを表記する行ベクトル(ck(i))を参照行とする、第1の対比結果の行列とする。
ステップ(d):
引き続き、各「ハプロタイプ」:Ciを表記する行ベクトル(ck(i))を参照行として、同じ対比操作を行う。最終的に、各「ハプロタイプ」:Ciを表記する行ベクトル(ck(i))を参照行とする、第1の対比結果の行列を、計NH個作成する。
ステップ(e):
作成される計NH個の第1の対比結果の行列を参照し、前記の対比操作が施された後の行、NH×(NH−1)のうち、「−」の符号へ置き換えが、最小数である行を選択する。この選択された行において、「−」の符号へ置き換えがなされている要素(列)を特定する。この特定される要素(列)を与えている多型部位を特定する。この特定される多型部位を、「最小数」の多型部位で構成される「変異セット」を構成する多型部位の「第1の候補」:ck1とする。
ステップ(f):
次いで、「第1の候補」:ck1と、他の多型部位:ck:ck≠ck1との組み合わせ:(ck1,ck)として、計(Nsnp−1)組を考える。
H行×Nsnp列の行列において、各「ハプロタイプ」:Ciを表記する行ベクトルを、参照行として選択する。他の「ハプロタイプ」:Cjを表記する行ベクトルに対して、前記参照行の行ベクトルと、各要素対(ck1(i),ck(i))と(ck1(j),ck(j))の比較を行う。比較する要素対(ck1(i),ck(i))と(ck1(j),ck(j))が、異なる場合、両者間の区別が可能として、(ck1(j),ck(j))を「−」の符号に置換する。この操作を、前記参照行の「ハプロタイプ」:Ciを表記する行ベクトル以外の、(NH−1)個の行ベクトルに施す。この対比操作の結果を、列要素として、計(Nsnp−1)個の(ck1,ck)を有する、NH行×(Nsnp−1)列の行列として、表記する。このNH行×(Nsnp−1)列の行列を、「ハプロタイプ」:Ciを表記する行ベクトルを参照行とする、第2の対比結果の行列とする。
引き続き、各「ハプロタイプ」:Ciを表記する行ベクトルを参照行として、同じ対比操作を行う。最終的に、各「ハプロタイプ」:Ciを表記する行ベクトルを参照行とする、第2の対比結果の行列を、計NH個作成する。
ステップ(g):
作成される計NH個の第2の対比結果の行列を参照し、前記の対比操作が施された後の行NH×(NH−1)のうち、「−」の符号へ置き換えが、最小数である行を選択する。この選択された行において、「−」の符号へ置き換えがなされている要素対(ck1,ck)を特定する。この特定される要素対(ck1,ck)を与えている、他の多型部位:ckを特定する。この特定される、他の多型部位:ckを、「最小数」の多型部位で構成される「変異セット」を構成する多型部位の「第2の候補」:ck2とする。
ステップ(h):
次いで、「第1の候補」:ck1、「第2の候補」:ck2と他の多型部位:ckとの組み合わせ:(ck1,ck2,ck)として、計(Nsnp−2)組を考える。
前記ステップ(f)の対比操作に準じて、対比操作を進め、その結果を、列要素として、計(Nsnp−2)個の(ck1,ck2,ck)を有する、NH行×(Nsnp−2)列の行列として、表記する。このNH行×(Nsnp−2)列の行列を、「ハプロタイプ」:Ciを表記する行ベクトルを参照行とする、第3の対比結果の行列とする。
引き続き、各「ハプロタイプ」:Ciを表記する行ベクトルを参照行として、同じ対比操作を行う。最終的に、各「ハプロタイプ」:Ciを表記する行ベクトルを参照行とする、第3の対比結果の行列を、計NH個作成する。
作成される計NH個の第3の対比結果の行列を参照し、前記の対比操作が施された後の行、NH×(NH−1)のうち、「−」の符号へ置き換えが、最小数である行を選択する。この選択された行において、「−」の符号へ置き換えがなされている要素組(ck1,ck2,ck)を特定する。この特定される要素組(ck1,ck2,ck)を与えている、他の多型部位:ckを特定する。この特定される、他の多型部位:ckを、「最小数」の多型部位で構成される「変異セット」を構成する多型部位の「第3の候補」:ck3とする。
なお、前記「第2の候補」:ck2が複数選別されている場合、各(ck1,ck2)について、同様の対比操作を行う。
ステップ(i):
選別される多型部位の総数が、上記のNmin個に達するまで、前記ステップ(h)に準じて、多型部位の数を増した組を考え、対比操作を進める。
選別される多型部位の総数が、上記のNmin個に達すると、その対比操作の結果を示す対比結果の行列中には、列要素(ck1,…,ckNmin)は、全て「−」に書き換えられるものが存在する。この(ck1,…,ckNmin)の組は、各「ハプロタイプ」相互の識別を行うことが可能な、Nmin個の多型部位で構成される「変異セット」として、選別される。このステップ(i)において、選別されたNmin個の多型部位で構成される複数個の「変異セット」は、下記の第2の工程における、「ディプロタイプ」:(Ci,Cj)の相違の識別を行うことが可能な「変異セット」の候補とされる。
(第2の工程):第1の工程で選別される、Nmin個の多型部位で構成される「変異セット」の候補から、「ディプロタイプ」:(Ci,Cj)の相違の識別も可能な「変異セット」を選択する、下記のステップ(j)〜(l)の操作を含んでなる工程;
ステップ(j):
min個の多型部位で構成される「変異セット」の候補:(ck1,…,ckNmin)の一つについて、各「ハプロタイプ」Ciを表記する、Nmin次元の行ベクトルを定義する。各「ハプロタイプ」の組み合わせ(Ci,Cj)に由来する、「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトルを作成する。このNmin次元の行ベクトルは、「ハプロタイプ」の組み合わせ(Ci,Cj)における、各要素の組み合わせに基づき、「野生型ホモ」、「変異型ホモ」、「ヘテロ」の3種の指標のいずれかにより、表記する。
「野生型ホモ」は、その多型部位において、二つの「ハプロタイプ」(Ci,Cj)が、ともに、野生型アレル(W)である組み合わせ(W+W)を意味する。
「変異型ホモ」は、その多型部位において、二つの「ハプロタイプ」(Ci,Cj)が、ともに、変異型アレル(M)である組み合わせ(M+M)を意味する。
「ヘテロ」は、その多型部位において、二つの「ハプロタイプ」(Ci,Cj)が、一方は野生型アレル(W)、他方は、変異型アレル(M)である組み合わせ(W+M)を意味する。
「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトルは、各「ハプロタイプ」Ciを表記する、Nmin次元の行ベクトルを用いて、第1の演算処理を施すことで、その要素を算定する。
ステップ(k):
各「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトル相互を比較し、同一のNmin次元の行ベクトルで表記される、複数の「ディプロタイプ」:(Ci,Cj)が存在するか、否かを判定する。
この各「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトル相互の比較は、二つのNmin次元の行ベクトルに対して、第2の演算処理を施すことで、同一か否かを判定する。
ステップ(l):
同一のNmin次元の行ベクトルで表記される、複数の「ディプロタイプ」:(Ci,Cj)が存在する場合、その「変異セット」:(ck1,…,ckNmin)は、「ディプロタイプ」:(Ci,Cj)の識別も可能な「変異セット」ではないと判定する。
同一のNmin次元の行ベクトルで表記される、複数の「ディプロタイプ」:(Ci,Cj)が存在しない場合、その「変異セット」:(ck1,…,ckNmin)は、「ディプロタイプ」:(Ci,Cj)の識別も可能な「変異セット」であると判定する。
他のNmin個の多型部位で構成される「変異セット」の候補:(ck1,…,ckNmin)に関して、前記ステップ(i)〜(l)を繰り返す。
最終的に、ステップ(l)において、「ディプロタイプ」:(Ci,Cj)の識別も可能な「変異セット」であると判定された「変異セット」:(ck1,…,ckNmin)を、「最小数」の多型部位で構成される「変異セット」と選定する。
その際、好ましくは、第1の演算手段は、
各「ハプロタイプ」Ciを表記する、Nmin次元の行ベクトルに基づき、「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトルを、下記のように定義する。
すなわち、「ハプロタイプ」Ciを表記する、Nmin次元の行ベクトルと、「ハプロタイプ」Cjを表記する、Nmin次元の行ベクトルとの「和」によって、これを定義しNmin次元の行ベクトルとする。
また、第2の演算手段は、下記の手段で構成することができる。
比較される二つの「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトル間の「差ベクトル」を求める。
該「差ベクトル」が、零ベクトルである場合、同一のNmin次元の行ベクトルであると判定する。
該「差ベクトル」が、零ベクトルでない場合、同一のNmin次元の行ベクトルではないと判定する。
あるいは、第2の演算手段は、下記の手段で構成することもできる。
比較される二つの「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトル間で、各要素を相互に比較する。
全ての要素が同一である場合、同一のNmin次元の行ベクトルであると判定する。
同一でない要素が存在する場合、同一のNmin次元の行ベクトルではないと判定する。
上記態様では、本発明の方法においては、
前記遺伝子の多型部位における変異とは、一塩基多型、インサーション、デリーション、リピート配列のいずれかに起因する変異であることができる。
また、本発明にかかる、プローブ・セットの設計方法の一態様では、下記の構成を有することが好ましい。
この態様のプローブ・セットの設計方法は、
個体の有する相同染色体上、相同遺伝子座を占めるアレル(対立遺伝子)に関して、該個体が属する集団中において、複数種のアレル(対立遺伝子)の存在が確認されている際に適用する。
その各々複数種のアレル(対立遺伝子)のA(アデニン)、G(グアニン)、T(チミン)、C(シトシン)の塩基で構成される塩基配列に関して、相互の塩基配列をアライメントする。この塩基配列のアライメントによって対比した際、見出される複数の変異箇所中、前記集団中における出現頻度の確率が、1%以上である複数の箇所を選択し、該遺伝子の多型部位と定義する。
選択された該遺伝子の多型部位の総数をNsnp0と表記する。
前記複数種のアレル(対立遺伝子)相互の区別を行う指標として、該Nsnp0個の多型部位における塩基の種別を用い、各多型部位の塩基として、該集団中における出現頻度の最大の塩基を「野生型アレル(W)」、それ以外の塩基を「変異型アレル(M)」と定義する。
前記Nsnp0個の多型部位における塩基の種別の2値化処理を行って、前記複数種のアレル(対立遺伝子)を識別する識別子として、次の行ベクトルを考える。これは、、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)における、2値化処理された塩基の種別で構成される、Nsnp0個の要素:ck(i)(k=1〜Nsnp0)からなる、Nsnp0次元の行ベクトルと定義する。
前記複数種のアレル(対立遺伝子)を、該Nsnp0次元の行ベクトルに基づき分類し、該Nsnp0次元の行ベクトルが同一となるアレル(対立遺伝子)の群を複数種定義し、この定義された複数種のアレル(対立遺伝子)の群を該遺伝子の「ハプロタイプ」と称する。
定義される、該遺伝子の複数種の「ハプロタイプ」の総数をNHと表記し、該NH種の「ハプロタイプ」をCi:i=1〜NHと表記する。
各個体中に存在する相同遺伝子座を占める、二つのアレル(対立遺伝子)の組み合わせに起因して、その「ハプロタイプ」の組み合わせ(Ci,Cj)に由来する、前記Nsnp0個の多型部位における、塩基の種別;WとMの組み合わせの表現型を考える。そして、前記Nsnp0個の多型部位における、塩基の種別;WとMの組み合わせの表現型を、各個体の「ディプロタイプ」:(Ci,Cj)と定義する。
本発明は、各個体の有する、二つのアレル(対立遺伝子)の組み合わせを分類する上で利用可能な、各「ハプロタイプ」相互の識別、同時に、その組み合わせである「ディプロタイプ」:(Ci,Cj)の相違の識別を行うことを目標とする。更に、「ハプロタイプ」相互の識別と、「ディプロタイプ」:(Ci,Cj)の相違の識別が可能な、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)中から選択される、「最小数」の多型部位で構成される「変異セット」を選定する。
その上で、該「最小数」の多型部位で構成される「変異セット」における、各多型部位における塩基の種別を特定するために利用されるプローブ・セットを設計する方法である。
本発明のプローブ・セットの設計方法において、該プローブ・セットの設計工程は、下記のステップAとステップBを含む。
ステップA:
上述する本発明の変異セットの選別方法を適用して、「最小数」の多型部位で構成される「変異セット」を選定する。
ステップB:
選定された「最小数」の多型部位で構成される「変異セット」の各多型部位について、該多型部位をその塩基配列中に含むように、プローブの塩基配列を選択する。
また、本発明の一態様にかかる、プライマー・セットの設計方法は、下記の構成を有することが好ましい。
この態様のプライマー・セットの設計方法は、
個体の有する相同染色体上、相同遺伝子座を占めるアレル(対立遺伝子)に関して、該個体が属する集団中において、複数種のアレル(対立遺伝子)の存在が確認されている際に適用する。
その各々複数種のアレル(対立遺伝子)のA(アデニン)、G(グアニン)、T(チミン)、C(シトシン)の塩基で構成される塩基配列に関して、相互の塩基配列をアライメントする。この塩基配列のアライメントによって対比した際、見出される複数の変異箇所中、前記集団中における出現頻度の確率が、1%以上である複数の箇所を選択し、該遺伝子の多型部位と定義する。
選択された該遺伝子の多型部位の総数をNsnp0と表記する。
前記複数種のアレル(対立遺伝子)相互の区別を行う指標として、該Nsnp0個の多型部位における塩基の種別を用い、各多型部位の塩基として、該集団中における出現頻度の最大の塩基を「野生型アレル(W)」、それ以外の塩基を「変異型アレル(M)」と定義する。
前記Nsnp0個の多型部位における塩基の種別の2値化処理を行って、前記複数種のアレル(対立遺伝子)を識別する識別子として、次の行ベクトルを考える。すなわち、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)における、2値化処理された塩基の種別で構成される、Nsnp0個の要素:ck(i)(k=1〜Nsnp0)からなる、Nsnp0次元の行ベクトルを定義する。
前記複数種のアレル(対立遺伝子)を、該Nsnp0次元の行ベクトルに基づき分類し、該Nsnp0次元の行ベクトルが同一となる複数種のアレル(対立遺伝子)の群を定義し、この定義された複数種のアレル(対立遺伝子)の群を該遺伝子の「ハプロタイプ」と称する。
定義される、該遺伝子の複数種の「ハプロタイプ」の総数をNHと表記し、該NH種の「ハプロタイプ」をCi:i=1〜NHと表記する。
各個体中に存在する相同遺伝子座を占める、二つのアレル(対立遺伝子)の組み合わせに起因して、その「ハプロタイプ」の組み合わせ(Ci,Cj)に由来する、前記Nsnp0個の多型部位における、塩基の種別;WとMの組み合わせの表現型を考える。そして、前記Nsnp0個の多型部位における、塩基の種別;WとMの組み合わせの表現型を、各個体の「ディプロタイプ」:(Ci,Cj)と定義する。
各個体の有する、二つのアレル(対立遺伝子)の組み合わせを分類する上で利用可能な、各「ハプロタイプ」相互の識別、同時に、その組み合わせである「ディプロタイプ」:(Ci,Cj)の相違の識別を行うことを目標とする。「ハプロタイプ」相互の識別と、「ディプロタイプ」:(Ci,Cj)の相違の識別が可能な、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)中から選択される、「最小数」の多型部位で構成される「変異セット」を選定する。
その上で、該「最小数」の多型部位で構成される「変異セット」における、各多型部位における塩基の種別を特定するために利用されるプライマー・セットを設計する方法である。
この態様のプライマー・セットの設計方法において、該プライマー・セットの設計工程は、下記のステップAとステップBを含む。
ステップA:
上述する本発明の一態様の変異セットの選別方法を適用して、「最小数」の多型部位で構成される「変異セット」を選定する。
ステップB:
選定された「最小数」の多型部位で構成される「変異セット」の各多型部位について、該多型部位の塩基配列の解析用プライマーに適する、プライマーの塩基配列を選択する。
なお、本発明の一態様の変異セットの選別方法は、一連の数値演算処理、ならびに、該数値演算処理結果を用いる論理演算処理を行うことで、「最小数」の多型部位で構成される「変異セット」を特定する形態として実施できる。これらの演算処理を含む操作は、コンピュータシステム上で実行するため、専用のソフトウエアとして、記録媒体上に記録する形態にすることが望ましい。
従って、この態様は、前記の「専用のソフトウエア」を収納する、ソフトウエア収納記録媒体の発明をも提供する。
すなわち、この態様のソフトウエア収納記録媒体は、下記のような構成上の特徴を有する。
・上述する本発明の一態様の変異セットの選別方法を適用して、「最小数」の多型部位で構成される「変異セット」を選定するためのものである。
・その方法における、一連の数値演算処理、ならびに、該数値演算処理結果を用いる論理演算処理をコンピュータシステム上で実行するためのプログラムを、主要な要素としている。
・そのプログラムを、該コンピュータシステムにおいて実行可能なプログラム言語により表記したソフトウエアを記録媒体上に電子的に収納してなるものである。
また、本発明の一態様の変異セットの選別方法は、上述するように、「専用のソフトウエア」を用いて、コンピュータシステム上において、その設計操作を実施することが一般的である。従って、本発明は、本発明の変異セットの選別方法を適用して、「最小数」の多型部位で構成される「変異セット」を選定する操作を実施する用途に適するコンピュータシステムの発明をも提供する。
すなわち、本発明の一態様にかかる「最小数」の多型部位で構成される「変異セット」の選定を実行するためのコンピュータシステムは、下記の構成上の特徴を有する。
この態様の「変異セット」選定用コンピュータシステムは、
個体の有する相同染色体上、相同遺伝子座を占めるアレル(対立遺伝子)に関して、該個体が属する集団中において、複数種のアレル(対立遺伝子)の存在が確認されている際に利用される。
その各々複数種のアレル(対立遺伝子)のA(アデニン)、G(グアニン)、T(チミン)、C(シトシン)の塩基で構成される塩基配列に関して、相互の塩基配列をアライメントする。該塩基配列のアライメントによって対比した際、見出される複数の変異箇所中、前記集団中における出現頻度の確率が、1%以上である複数の箇所を選択し、該遺伝子の多型部位と定義する。
選択された該遺伝子の多型部位の総数をNsnp0と表記する。
前記複数種のアレル(対立遺伝子)相互の区別を行う指標として、該Nsnp0個の多型部位における塩基の種別を用い、各多型部位の塩基として、該集団中における出現頻度の最大の塩基を「野生型アレル(W)」、それ以外の塩基を「変異型アレル(M)」と定義する。
前記Nsnp0個の多型部位における塩基の種別の2値化処理を行って、前記複数種のアレル(対立遺伝子)を識別する識別子として、次の行ベクトルを考える。すなわち、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)における、2値化処理された塩基の種別で構成される、Nsnp0個の要素:ck(i)(k=1〜Nsnp0)からなる、Nsnp0次元の行ベクトルを定義する。
前記複数種のアレル(対立遺伝子)を、該Nsnp0次元の行ベクトルに基づき分類し、該Nsnp0次元の行ベクトルが同一となる複数種のアレル(対立遺伝子)の群を定義し、この定義された複数種のアレル(対立遺伝子)の群を該遺伝子の「ハプロタイプ」と称する。
定義される、該遺伝子の複数種の「ハプロタイプ」の総数をNHと表記し、該NH種の「ハプロタイプ」をCi:i=1〜NHと表記する。
各個体中に存在する相同遺伝子座を占める、二つのアレル(対立遺伝子)の組み合わせに起因して、その「ハプロタイプ」の組み合わせ(Ci,Cj)に由来する、前記Nsnp0個の多型部位における、塩基の種別;WとMの組み合わせの表現型を考える。そして、前記Nsnp0個の多型部位における、塩基の種別;WとMの組み合わせの表現型を、各個体の「ディプロタイプ」:(Ci,Cj)と定義する。
本発明は、各個体の有する、二つのアレル(対立遺伝子)の組み合わせを分類する上で利用可能な、各「ハプロタイプ」相互の識別、同時に、その組み合わせである「ディプロタイプ」:(Ci,Cj)の相違の識別を行うことを目標とし、各「ハプロタイプ」相互の識別と、「ディプロタイプ」:(Ci,Cj)の相違の識別が可能な、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)中から選択される、「最小数」の多型部位で構成される「変異セット」を選定する。この「最小数」の多型部位で構成される「変異セット」を選定する作業を実施するための、コンピュータシステムである。
その際、該システムは、
まず、前記「最小数」の多型部位で構成される「変異セット」を構成する多型部位の個数をNと表記する際、条件:(NH−1)≦2N-1を満たすNの最小値:Nminを算定する演算処理を実施する。
次いで、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)中から、該Nmin個以上の多型部位を選択して、構成される「変異セット」の集合の中から、「最小数」の多型部位で構成される「変異セット」を選定する演算処理を実施するシステムである。
該「最小数」の多型部位で構成される「変異セット」を選定する演算処理工程は、下記のステップ(a)〜(i)の演算操作を含んでなる第1の工程と、ステップ(j)〜(l)の演算操作を含んでなる第2の工程を含む。
(第1の工程):各「ハプロタイプ」相互の識別を行うことが可能な、Nmin個以上の多型部位で構成される「変異セット」を、「最小数」の多型部位で構成される「変異セット」の候補として抽出する、下記のステップ(a)〜(i)の操作を含んでなる工程;
ステップ(a):
前記集団中において、その存在が確認されている複数種のアレル(対立遺伝子)の塩基配列の情報を、該遺伝子の多型情報を収納するデータベースから抽出する。抽出された塩基配列の情報に基づき、前記Nsnp0個の多型部位:ck(k=1〜Nsnp0)における、2値化処理された塩基の種別で構成される、Nsnp0個の要素:ck(i)(k=1〜Nsnp0)からなる、Nsnp0次元の行ベクトルを作成する。次いで、作成されるNsnp0次元の行ベクトルの集合中から、互いに、相違するNsnp0次元の行ベクトルを示す、該NH種の「ハプロタイプ」:Ci:i=1〜NHを表記する、Nsnp0次元の行ベクトルNH種を選別する。
ステップ(b):
前記Nsnp0次元の行ベクトルNH種を用いて、NH行×Nsnp0列の行列を形成し。その行列の各列より、Nsnp0個のNH次元の列ベクトルを作成する。各列ベクトル間の対比を行い、相互に同一の列ベクトルの群、ならびに、相互に逆ベクトルの関係にある列ベクトルの群を選択する。選択される列ベクトルの群中の中から、一つの列ベクトルを選択し、該群に含まれる他の列ベクトルを除去し、前記NH行×Nsnp0列の行列から、各列ベクトルが相互に独立している列ベクトルにより構成されている部分行列を作成する。該部分行列の列の総数をNsnpと表記し、該NH行×Nsnp列の行列における、各列を与えている多型部位:ck(k=1〜Nsnp)を、該Nmin個以上の多型部位を選択して、構成される「変異セット」の可能な要素として選択する。
ステップ(c):
H行×Nsnp列の行列において、各「ハプロタイプ」:Ciを表記する行ベクトル(ck(i))を、参照行として選択する。他の「ハプロタイプ」:Cjを表記する行ベクトル(ck(j))に対して、前記参照行の行ベクトル(ck(i))と、各要素ck(j)とck(i)の比較を行う。比較する要素ck(j)とck(i)が、異なる場合、両者間の区別が可能として、ck(j)を「−」の符号に置換する。この操作を、前記参照行の「ハプロタイプ」:Ciを表記する行ベクトル(ck(i))以外の、(NH−1)個の行ベクトルに施す。この対比操作の結果を、NH行×Nsnp列の行列として、表記し、「ハプロタイプ」:Ciを表記する行ベクトル(ck(i))を参照行とする、第1の対比結果の行列とする。
ステップ(d):
引き続き、各「ハプロタイプ」:Ciを表記する行ベクトル(ck(i))を参照行として、同じ対比操作を行う。最終的に、各「ハプロタイプ」:Ciを表記する行ベクトル(ck(i))を参照行とする、第1の対比結果の行列を、計NH個作成する。
ステップ(e):
作成される計NH個の第1の対比結果の行列を参照し、前記の対比操作が施された後の行、NH×(NH−1)のうち、「−」の符号へ置き換えが、最小数である行を選択する。この選択された行において、「−」の符号へ置き換えがなされている要素(列)を特定する。この特定される要素(列)を与えている多型部位を特定する。この特定される多型部位を、「最小数」の多型部位で構成される「変異セット」を構成する多型部位の「第1の候補」:ck1とする。
ステップ(f):
次いで、「第1の候補」:ck1と、他の多型部位:ck:ck≠ck1との組み合わせ:(ck1,ck)として、計(Nsnp−1)組を考える。
H行×Nsnp列の行列において、各「ハプロタイプ」:Ciを表記する行ベクトルを、参照行として選択する。他の「ハプロタイプ」:Cjを表記する行ベクトルに対して、前記参照行の行ベクトルと、各要素対(ck1(i),ck(i))と(ck1(j),ck(j))の比較を行う。比較する要素対(ck1(i),ck(i))と(ck1(j),ck(j))が、異なる場合、両者間の区別が可能として、(ck1(j),ck(j))を「−」の符号に置換する。この操作を、前記参照行の「ハプロタイプ」:Ciを表記する行ベクトル以外の、(NH−1)個の行ベクトルに施す。この対比操作の結果を、列要素として、計(Nsnp−1)個の(ck1,ck)を有する、NH行×(Nsnp−1)列の行列として、表記する。このNH行×(Nsnp−1)列の行列を、「ハプロタイプ」:Ciを表記する行ベクトルを参照行とする、第2の対比結果の行列とする。
引き続き、各「ハプロタイプ」:Ciを表記する行ベクトルを参照行として、同じ対比操作を行う。最終的に、各「ハプロタイプ」:Ciを表記する行ベクトルを参照行とする、第2の対比結果の行列を、計NH個作成する。
ステップ(g):
作成される計NH個の第2の対比結果の行列を参照し、前記の対比操作が施された後の行NH×(NH−1)のうち、「−」の符号へ置き換えが、最小数である行を選択する。この選択された行において、「−」の符号へ置き換えがなされている要素対(ck1,ck)を特定する。この特定される要素対(ck1,ck)を与えている、他の多型部位:ckを特定する。この特定される、他の多型部位:ckを、「最小数」の多型部位で構成される「変異セット」を構成する多型部位の「第2の候補」:ck2とする。
ステップ(h):
次いで、「第1の候補」:ck1、「第2の候補」:ck2と他の多型部位:ckとの組み合わせ:(ck1,ck2,ck)として、計(Nsnp−2)組を考える。
前記ステップ(f)の対比操作に準じて、対比操作を進め、その結果を、列要素として、計(Nsnp−2)個の(ck1,ck2,ck)を有する、NH行×(Nsnp−2)列の行列として、表記する。このNH行×(Nsnp−2)列の行列を、「ハプロタイプ」:Ciを表記する行ベクトルを参照行とする、第3の対比結果の行列とする。
引き続き、各「ハプロタイプ」:Ciを表記する行ベクトルを参照行として、同じ対比操作を行う。最終的に、各「ハプロタイプ」:Ciを表記する行ベクトルを参照行とする、第3の対比結果の行列を、計NH個作成する。
作成される計NH個の第3の対比結果の行列を参照し、前記の対比操作が施された後の行、NH×(NH−1)のうち、「−」の符号へ置き換えが、最小数である行を選択する。この選択された行において、「−」の符号へ置き換えがなされている要素組(ck1,ck2,ck)を特定する。この特定される要素組(ck1,ck2,ck)を与えている、他の多型部位:ckを特定する。この特定される、他の多型部位:ckを、「最小数」の多型部位で構成される「変異セット」を構成する多型部位の「第3の候補」:ck3とする。
なお、前記「第2の候補」:ck2が複数選別されている場合、各(ck1,ck2)について、同様の対比操作を行う。
ステップ(i):
選別される多型部位の総数が、上記のNmin個に達するまで、前記ステップ(h)に準じて、多型部位の数を増した組を考え、対比操作を進める。
選別される多型部位の総数が、上記のNmin個に達すると、その対比操作の結果を示す対比結果の行列中には、列要素(ck1,…,ckNmin)は、全て「−」に書き換えられるものが存在する。この(ck1,…,ckNmin)の組は、各「ハプロタイプ」相互の識別を行うことが可能な、Nmin個の多型部位で構成される「変異セット」として、選別される。このステップ(i)において、選別されたNmin個の多型部位で構成される複数個の「変異セット」は、下記の第2の工程における、「ディプロタイプ」:(Ci,Cj)の相違の識別を行うことが可能な「変異セット」の候補とされる。
(第2の工程):第1の工程で選別される、Nmin個の多型部位で構成される「変異セット」の候補から、「ディプロタイプ」:(Ci,Cj)の相違の識別も可能な「変異セット」を選択する、下記のステップ(j)〜(l)の操作を含んでなる工程;
ステップ(j):
min個の多型部位で構成される「変異セット」の候補:(ck1,…,ckNmin)の一つについて、各「ハプロタイプ」Ciを表記する、Nmin次元の行ベクトルを定義する。各「ハプロタイプ」の組み合わせ(Ci,Cj)に由来する、「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトルを作成する。このNmin次元の行ベクトルは、「ハプロタイプ」の組み合わせ(Ci,Cj)における、各要素の組み合わせに基づき、「野生型ホモ」、「変異型ホモ」、「ヘテロ」の3種の指標のいずれかにより、表記する。
「野生型ホモ」は、その多型部位において、二つの「ハプロタイプ」(Ci,Cj)が、ともに、野生型アレル(W)である組み合わせ(W+W)を意味する。
「変異型ホモ」は、その多型部位において、二つの「ハプロタイプ」(Ci,Cj)が、ともに、変異型アレル(M)である組み合わせ(M+M)を意味する。
「ヘテロ」は、その多型部位において、二つの「ハプロタイプ」(Ci,Cj)が、一方は野生型アレル(W)、他方は、変異型アレル(M)である組み合わせ(W+M)を意味する。
「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトルは、各「ハプロタイプ」Ciを表記する、Nmin次元の行ベクトルを用いて、第1の演算処理を施すことで、その要素を算定する。
ステップ(k):
各「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトル相互を比較し、同一のNmin次元の行ベクトルで表記される、複数の「ディプロタイプ」:(Ci,Cj)が存在するか、否かを判定する。
この各「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトル相互の比較は、二つのNmin次元の行ベクトルに対して、第2の演算処理を施すことで、同一か否かを判定する。
ステップ(l):
同一のNmin次元の行ベクトルで表記される、複数の「ディプロタイプ」:(Ci,Cj)が存在する場合、その「変異セット」:(ck1,…,ckNmin)は、「ディプロタイプ」:(Ci,Cj)の識別も可能な「変異セット」ではないと判定する。
同一のNmin次元の行ベクトルで表記される、複数の「ディプロタイプ」:(Ci,Cj)が存在しない場合、その「変異セット」:(ck1,…,ckNmin)は、「ディプロタイプ」:(Ci,Cj)の識別も可能な「変異セット」であると判定する。
他のNmin個の多型部位で構成される「変異セット」の候補:(ck1,…,ckNmin)に関して、前記ステップ(i)〜(l)を繰り返す。
最終的に、ステップ(l)において、「ディプロタイプ」:(Ci,Cj)の識別も可能な「変異セット」であると判定された「変異セット」:(ck1,…,ckNmin)を、「最小数」の多型部位で構成される「変異セット」と選定する。
その際、好ましくは、第1の演算手段は、下記の操作で構成する。
各「ハプロタイプ」Ciを表記する、Nmin次元の行ベクトルに基づき、「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトルを、下記のように定義する。
すなわち、「ハプロタイプ」Ciを表記する、Nmin次元の行ベクトルと、「ハプロタイプ」Cjを表記する、Nmin次元の行ベクトルとの「和」によって、定義されるNmin次元の行ベクトルとする。
また、第2の演算手段は、下記の操作で構成することができる。
比較される二つの「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトル間の「差ベクトル」を求める。
該「差ベクトル」が、零ベクトルである場合、同一のNmin次元の行ベクトルであると判定する。
該「差ベクトル」が、零ベクトルでない場合、同一のNmin次元の行ベクトルではないと判定する。
あるいは、第2の演算手段は、下記の操作で構成することもできる。
比較される二つの「ディプロタイプ」:(Ci,Cj)を表記する、Nmin次元の行ベクトル間で、各要素を相互に比較する。
全ての要素が同一である場合、同一のNmin次元の行ベクトルであると判定する。
同一でない要素が存在する場合、同一のNmin次元の行ベクトルではないと判定する
本発明のシステムにおいては、
前記遺伝子の多型部位における変異は、一塩基多型、インサーション、デリーション、リピート配列のいずれかに起因する変異であることができる。
一つの態様においては、本発明にかかるコンピュータシステムは、そのハードウエアの構成は、複数の機器例えば、ホストコンピュータ、インタフェース機器、ネットワーク機器のような統合システムであってもよい。あるいは、前記のシステムの演算機能、入出力機能などを具える、一体型のコンピュータであってもよい。
一方、本発明にかかるソフトウエア収納記録媒体では、記憶媒体として、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD、磁気テープ、不揮発性のメモリカード、ROMなどが利用できる。
なお、実際のコンピュータシステムにおける、一連の処理・操作の実行は、前記コンピュータシステムの記録媒体中に収納されるソフトウエアの読み込みによって行われる。すなわち、ソフトウエアの実装とは、実際に、ソフトウエアの読み込みがなされた状態、あるいは、ソフトウエアの読み込みが可能な状態に、ソフトウエア収納記録媒体をシステムに装着された状態を意味する。ソフトウエアの主要な要素のプログラムは、一連の処理ステップの進行を規定するものであり、その際、利用される各種の演算処理自体は、システム側に設けられていてもよい。勿論、該プログラム中のサブ・セットとして、一体化されていてもよく、プログラム自体に、演算処理を内在する形態であってもよい。
なお、プログラムにより実行される演算処理は、下記の実施形態に記載する各ステップの作業内容を、利用するシステムで実行可能な演算処理に適する形態に定式化したものとする。
以下に、具体例に基づき、本発明をより詳しく説明する。なお、下記の具体例は、本発明の最良の実施形態の一例であるが、本発明は、かかる態様に限定されるものではない。
〔第1の実施形態〕
図1〜図8を参照して、本発明にかかる第1の実施形態を、以下に説明する。
8つの多型部位中から、Haplotype1〜Haplotype6(Ci:i=1〜6)を識別でき、同時に、ホモ型(Ci、Ci)、ヘテロ型(Ci、Cj)の組み合わせの「ディプロタイプ」相互の区別も可能な「最小数の変異セット」を抽出する例を説明する。
(ステップa−b)
この実施形態では、各「ハプロタイプ」:Ciは、8つの多型部位における、変異の種別:ck(i)(k=1〜8)を用いて、Ci=(c1(i),…,ck(i),…,c8(i))と表記する。また、全体の集団における出現頻度確率を評価した場合、各多型部位ck(k=1〜8)に関して、最も出現頻度の高い「塩基種類」を、野生型アレル(W)の塩基と定義する。それ以外の塩基を、変異型アレル(M)と定義する。「ハプロタイプ」:Ciの多型部位ck(k=1〜8)が、野生型アレル(W)の場合、ck(i)=−1と、変異型アレル(M)の場合、ck(i)=+1と表記する。
Haplotype1〜Haplotype6(Ci:i=1〜6)に関して、確認されている多型部位の総数はNSNP、各Ciは、(c1(i),…,ck(i),…,cNSNP(i))となっている。その際、各多型部位ck(k=1〜NSNP)における列(ck(1),…,ck(i),…,ck(6))を比較し、同じ列ベクトルとなるものがある場合、その複数の多型部位ckの内一つのみを選択する。すなわち、確認されている多型部位において、同じ列ベクトルを示す複数の多型部位に関しては、それぞれ、その一つを予め選別している。
加えて、各多型部位ck(k=1〜NSNP)における列(ck(1),…,ck(i),…,ck(6))を比較し、相互に、要素が反転した列ベクトルとなるものがある場合も、その複数の多型部位ckの内一つのみを選択している。この二つ列は、互いに相違はしているが、各要素を−1⇔+1と変換すると、同じものとなるため、互いに、「独立」するものとは見做せない。従って、その一方のみを、予め選別している。
以上の操作によって、「等価」と見做せる列ベクトルのうち、一つを残すことによって、検討の対象となる多型部位ckを限定している。ここでは、選別後、k=1〜8に限定されている。
図1に、Haplotype1〜Haplotype6を、それぞれCi=(c1(i),…,ck(i),…,c8(i))と表記し、列(C1,…,C6)を、6行×8列の行例〔ck(i)〕として、示している。その際、各列(ck(1),…,ck(i),…,ck(6))は、互いに相違しており、また、各行(c1(i),…,ck(i),…,c8(i))も、互いに相違している。
(ステップc−i)
Haplotype1〜Haplotype6を示す行ベクトルCi=(c1(i),…,ck(i),…,c8(i)):i=1〜6は、8次元空間において、互いに区別可能なベクトルと見做せる。
8つの多型部位ck(k=1〜8)のうち、N個の多型部位ckを選択して、N次元空間を想定する。N個の多型部位ckの選択は、8N通りあり、それぞれの組み合わせを、Nj:j=1〜8Nと表記する。
組み合わせ:Njにおける、N次元空間上において、Haplotype1〜Haplotype6を表記する行ベクトルCi Njを考える。この行ベクトルCi Njは、前記組み合わせ:Nj:(ck Nj:k=1〜N)に従って、N次元の行ベクトル(c1 Nj(i),…,ck Nj(i),…,cN Nj(i))と表記される。一方、N次元の行ベクトルにおいて、各要素を、+1、−1のいずれかとすると、異なる行ベクトルは、2N通りしかない。
この2N通りの行ベクトル中に、Haplotype1〜Haplotype6に対応して、互いに異なる6つの行ベクトルが含まれるためには、少なくとも、6<2Nの条件を満足する必要がある。換言すると、この事例では、Nは、3以上である必要がある。
なお、2N通りの行ベクトルは、その要素は、+1、−1のいずれかであり、全ての要素について、−1⇔+1と変換すると、同じものとなる、互いに逆ベクトルの関係にある、ベクトル組、2N-1組で構成されている。
一方、ヘテロ型(Ci、Cj)組み合わせの「ディプロタイプ」を、行ベクトル({c1 Nj(i)+c1 Nj(j)},…,{ck Nj(i)+ck Nj(j)},…,{cN Nj(i)+cN Nj(j)})と表記する。その際、ヘテロ型(Ci、Cj)組み合わせが、互いに逆ベクトルの関係にある、ベクトル組であると、{ck Nj(i)+ck Nj(j)}=0となる。従って、少なくとも、この互いに逆ベクトルの関係にある、ベクトル組に相当するヘテロ型(Ci、Cj)の組み合わせの「ディプロタイプ」は、区別不能となる。
換言するならば、ヘテロ型(Ci、Cj)の組み合わせの「ディプロタイプ」の全てを区別可能とする必要条件は、下記のようになる。各「ハプロタイプ」:Ciが、互いに逆ベクトルの関係にある、ベクトル組、2N-1組から、独立に選択されたものとなっていることである。この事例では、互いに逆ベクトルの関係にある、ベクトル組、2N-1組から、6つの組を選択できることがその条件となる。従って、少なくとも、6<2N-1の条件を満足する必要がある。換言すると、この事例では、Nは、4以上である必要がある。
実際に、6つの「ハプロタイプ」:Ci:i=1〜6について、「最小数」の多型部位を含む変異セット、すなわち、3個の多型部位からなるセット(ck Nj:i=1〜3)を考える。その場合、互いに逆ベクトルの関係にある、ベクトル組は、22組=4組しかない。従って、少なくとも、4つの「ハプロタイプ」:Ciは、互いに逆ベクトルの関係にある、ベクトル組となっている。すなわち、ヘテロ型(Ci、Cj)組み合わせの「ディプロタイプ」のうち、二つは、({c1 Nj(i)+c1 Nj(j)},{c2 Nj(i)+c2 Nj(j)},{c3 Nj(i)+c3 Nj(j)})=(0,0,0)となっている。
仮に、4つの「ハプロタイプ」:Ci:i=1〜3,6について、「最小数」の多型部位を含む変異セット、すなわち、3個の多型部位からなるセット(ck Nj:i=1〜3,6)を考える。その場合、互いに逆ベクトルの関係にある、ベクトル組は、22組=4組であるから、4つの「ハプロタイプ」:Ciは、互いに逆ベクトルの関係にないように選択することが可能となる。一般に、NH種の「ハプロタイプ」:Ciを判別でき、同時に、{1/2NH×(NH−1)}種のヘテロ型(Ci、Cj)「ディプロタイプ」の区別も可能な「最小数」の多型部位を含む変異セットの数:Nは、NH≦2N-1の条件を満たす必要がある。単に、NH種の「ハプロタイプ」:Ciを判別できる、「最小数」の多型部位を含む変異セットの数:Nminは、場合によっては、NH≦2Nminの条件を満たすのみで十分である。
以下に、単に6種の「ハプロタイプ」:Ciを判別できる、「最小数」の多型部位を含む変異セット、すなわち、多型部位の数:Nmin=3の変異セットを選別する工程を先ず説明する。さらに、ヘテロ型(Ci、Cj)「ディプロタイプ」の区別も可能な「最小数」の多型部位を含む変異セットの候補となる、多型部位の数:N=4の変異セットを選別する工程を説明する。
6種の「ハプロタイプ」:Ci:i=1〜6を識別する上では、8個の多型部位ck(k=1〜8)全てを判定要素とするのは、確かに冗長である。そのため、有効な「最小数」:Nminの多型部位を抽出し、最小数の変異セットの組を選別する。ここでは、選別方法として、特開2005−190427号公報に開示される「配列を同定するための変異要素のセット抽出方法」を応用する。
(ステップc,d)
6行×8列の行例〔ck(i)〕に示す、Haplotype1〜Haplotype6のうち、「参照行」を一つだけ固定して、列方向に「参照行」の要素と異なる場合には識別可の記号として−に置換する。「参照行」と同値である場合には、そのままの値を保存する。図2は、「参照行」として、Haplotype1〜Haplotype6を、それぞれ選び、前記の比較演算処理を行った結果を、6通りの「6行×8列の行例」として、図示したものである。各「6行×8列の行例」中、黒枠で囲まれた行が「参照行」である。なお、この比較演算処理を施す6行×8列の行例〔ck(i)〕を、最上部に示す。この6行×8列の行例〔ck(i)〕は、図1と同じ行列である。
(ステップe)
比較演算処理を行った結果のうち、Haplotype3を「参照行」とした結果に着目する。Haplotype5の行に対する比較演算処理結果では、多型部位:c5(多型5)のみが、「識別可(−)」となっており、それ以外の7つの要素:ck(5):k=1〜4、6〜8は、「消去」されていない。すなわち、少なくとも、Haplotype3とHaplotype5との間の識別を行う上では、多型部位:c5(多型5)の判定が不可欠であることが判る。勿論、Haplotype1〜Haplotype6の識別を行う際には、Haplotype3とHaplotype5との間の識別は必須である。換言するならば、Haplotype1〜Haplotype6の識別を行う上でも、多型部位:c5(多型5)の判定が不可欠であることになる。従って、「最小数」の多型部位を含む変異セットにおける、多型部位の「第1の候補」として、多型部位:c5(多型5)が選択される。
(ステップf)
次に、多型部位:c5(多型5)と、他の一つの多型部位を組み合わせ、(c5,ck):k=1〜4、6〜8を考慮する。6行×7列の行例〔(c5(i),ck(i))〕を考え、同様に、「参照行」を一つだけ固定して、列方向に「参照行」の要素と異なる場合には識別可の記号として−に置換する。「参照行」と同値である場合には、そのままの値を保存する。すなわち、(c5(i),ck(i))相互を比較して、少なくとも、一方の値が相違していれば、「識別可」とする。(c5(i),ck(i))が同じ値の場合、ck(i)の値を表記する。図3に、前記(c5(i),ck(i))相互の比較演算処理結果を、5通りの「6行×7列の行例」として、図示する。列の表示:15、25、35、45、56、57、58は、おのおの、多型1と5、多型2と5、多型3と5、多型4と5、多型5と6、多型5と7、多型5と8の組み合わせを示す。
(ステップg)
比較演算処理を行った結果のうち、Haplotype3を「参照行」とした結果に着目する。Haplotype4の行に対する比較演算処理結果では、多型4と5、多型5と7、多型5と8の組み合わせは、「識別可(−)」となっている。それ以外の4つの組み合わせは、「消去」されていない。
すなわち、Haplotype3とHaplotype4との間の識別を行う上では、多型4と5(c4,c5)、多型5と7(c5,c7)、多型5と8(c5,c8)の組み合わせ判定のいずれかが不可欠であることが判る。勿論、Haplotype1〜Haplotype6の識別を行う際には、Haplotype3とHaplotype4との間の識別は必須である。換言するならば、Haplotype1〜Haplotype6の識別を行う上でも、多型4と5(c4,c5)、多型5と7(c5,c7)、多型5と8(c5,c8)の組み合わせ判定のいずれかの判定が不可欠であることになる。従って、「最小数」の多型部位を含む変異セットにおける、多型部位の「第2の候補」として、多型4と5(c4,c5)、多型5と7(c5,c7)、多型5と8(c5,c8)の組み合わせが選択される。
(ステップh)
次に、多型4と5(c4,c5)と、他の一つの多型部位を組み合わせ、(c4,c5,ck):k=1〜3、6〜8を考慮する。6行×6列の行例〔(c4(i),c5(i),ck(i))〕を考え、同様に、「参照行」を一つだけ固定して、列方向に「参照行」の要素と異なる場合には識別可の記号として−に置換する。「参照行」と同値である場合には、そのままの値を保存する。すなわち、(c4(i),c5(i),ck(i))相互を比較して、少なくとも、一方の値が相違していれば、「識別可」とする。(c4(i),c5(i),ck(i))が同じ値の場合、ck(i)の値を表記する。このとき、多型3、4と5(c3,c4,c5)、多型6、4と5(c4,c5,c6)の組み合わせでは、Haplotype1〜Haplotype6の識別が可能であることが判る。
同様に、多型5と8(c5,c8)と、他の一つの多型部位を組み合わせ、(c5,c8,ck):k=1〜4、6、7を考慮する。6行×6列の行例〔(c5(i),c8(i),ck(i))〕を考え、同様に、「参照行」を一つだけ固定して、列方向に「参照行」の要素と異なる場合には識別可の記号として−に置換する。「参照行」と同値である場合には、そのままの値を保存する。すなわち、(c5(i),c8(i),ck(i))相互を比較して、少なくとも、一方の値が相違していれば、「識別可」とする。(c5(i),c8(i),ck(i))が同じ値の場合、ck(i)の値を表記する。このとき、多型3、5と8(c3,c5,c8)、多型6、5と8(c5,c6,c8)の組み合わせでは、Haplotype1〜Haplotype6の識別が可能であることが判る。
また、多型5と7(c5,c7)と、他の一つの多型部位を組み合わせ、(c5,c7,ck):k=1〜4、6、8を考慮する。6行×6列の行例〔(c5(i),c7(i),ck(i))〕を考え、同様に、「参照行」を一つだけ固定して、列方向に「参照行」の要素と異なる場合には識別可の記号として−に置換する。「参照行」と同値である場合には、そのままの値を保存する。すなわち、(c5(i),c7(i),ck(i))相互を比較して、少なくとも、一方の値が相違していれば、「識別可」とする。(c5(i),c7(i),ck(i))が同じ値の場合、ck(i)の値を表記する。いずれの組み合わせでも、まだ、「ハプロタイプ」相互の識別できていない組み合わせが、少なくとも一つ残っている。
以上の比較演算処理を行った結果を、図4に併せて示す。
(ステップi)
以上のステップc〜hの結果、全ての「ハプロタイプ」:Ci:i=1〜6を識別することが可能な、「最小数」Nmin=3の多型部位の組み合わせで構成される「変異セット」が選別されている。選別された多型部位の組み合わせは、(c3,c4,c5)、(c4,c5,c6)、(c3,c5,c8)、(c5,c6,c8)の4種のセットである。
上記のヘテロ型(Ci、Cj)「ディプロタイプ」の区別も可能な「最小数」の多型部位を含む変異セットが選択されるための必要条件;NH≦2N-1は、NH=6では、N=4以上である。従って、この「最小数」Nmin=3の多型部位の組み合わせで構成される「変異セット」は、ヘテロ型(Ci、Cj)「ディプロタイプ」の区別も可能な「最小数」の多型部位を含む変異セットでは無いことを、実際に検証する。
(ステップj〜l)
(c3,c4,c5)、(c4,c5,c6)、(c3,c5,c8)、(c5,c6,c8)の4種のセットについて、「ハプロタイプ」:Ci:i=1〜6を表記する行ベクトルを、図5に示す。これらの行ベクトルを、相互に比較すると、互いに、逆ベクトルとなっているベクトル組が、2組存在している。
ヘテロ型(Ci、Cj)「ディプロタイプ」を表記する行ベクトルとして、(c3,c4,c5)のセットでは、({c3(i)+c3(j)},{c4(i)+c4(j)},{c5(i)+c5(j)})を定義する。(c4,c5,c6)のセットでは、({c4(i)+c4(j)},{c5(i)+c5(j)},{c6(i)+c6(j)})を定義する。(c3,c5,c8)のセットでは、({c3(i)+c3(j)},{c5(i)+c5(j)},{c8(i)+c8(j)})を定義する。(c5,c6,c8)のセットでは、({c5(i)+c5(j)},{c6(i)+c6(j)},{c8(i)+c8(j)})を定義する。
図5には、前記の定義に従って、ヘテロ型(Ci、Cj)「ディプロタイプ」を表記する行ベクトルを併せて示す。ヘテロ型(Ci、Cj)「ディプロタイプ」に関して、その「ハプロタイプ」の組み合わせを、例えば、「Haplotype1とHaplotype2のディプロタイプ」は、「Haplotype1+2」のように表記している。「+2」は変異型アレルホモ、「−2」は野生型アレルホモ、「0」はヘテロを意味する。
図5に示すヘテロ型(Ci、Cj)「ディプロタイプ」を表記する行ベクトルを参照すると、いずれの「変異セット」においても、(0,0,0)を示す「ディプロタイプ」が二つ存在している。少なくとも、この二つの「ディプロタイプ」間の区別が不能であることが判る。
その他にも、区別不能な複数の「ディプロタイプ」が存在することを確認する。その目的で、ヘテロ型(Ci、Cj)「ディプロタイプ」を示す行ベクトル中に、「0」を二つ以上含むものを抽出する。抽出した結果を、図6に示す。この「0」を二つ以上含むヘテロ型(Ci、Cj)「ディプロタイプ」の相互比較を行う。すなわち、二つのヘテロ型(Ci、Cj)「ディプロタイプ」を表記する行ベクトル間の「差ベクトル」を求める。すなわち、各要素間の差を算出し、行ベクトルの形式で表記する。二つのヘテロ型(Ci、Cj)「ディプロタイプ」を表記する行ベクトルが同じ場合、求められる「差ベクトル」は、(0,0,0)となる。図6の下段には、この二つのヘテロ型(Ci、Cj)「ディプロタイプ」を表記する行ベクトル間の「差ベクトル」を示す。
(c3,c4,c5)、(c4,c5,c6)、(c3,c5,c8)、(c5,c6,c8)の4種のセットの何れにおいても、(0,0,0)となる「差ベクトル」が三つ存在している。
変異セット(c3,c4,c5)においては、下記のヘテロ型(Ci、Cj)「ディプロタイプ」の間で、相互の区別が不能となっている。
・「Haplotype1とHaplotype3のディプロタイプ」と「Haplotype5とHaplotype6のディプロタイプ」;(0,−2,0)
・「Haplotype1とHaplotype4のディプロタイプ」と「Haplotype2とHaplotype5のディプロタイプ」;(0,0,0)
・「Haplotype2とHaplotype3のディプロタイプ」と「Haplotype4とHaplotype6のディプロタイプ」;(0,0,−2)
変異セット(c4,c5,c6)においては、下記のヘテロ型(Ci、Cj)「ディプロタイプ」の間で、相互の区別が不能となっている。
・「Haplotype1とHaplotype3のディプロタイプ」と「Haplotype5とHaplotype6のディプロタイプ」;(−2,0,0)
・「Haplotype1とHaplotype4のディプロタイプ」と「Haplotype2とHaplotype5のディプロタイプ」;(0,0,0)
・「Haplotype2とHaplotype3のディプロタイプ」と「Haplotype4とHaplotype6のディプロタイプ」;(0,−2,0)
変異セット(c3,c5,c8)においては、下記のヘテロ型(Ci、Cj)「ディプロタイプ」の間で、相互の区別が不能となっている。
・「Haplotype1とHaplotype3のディプロタイプ」と「Haplotype2とHaplotype5のディプロタイプ」;(0,0,−2)
・「Haplotype1とHaplotype4のディプロタイプ」と「Haplotype5とHaplotype6のディプロタイプ」;(0,0,0)
・「Haplotype2とHaplotype4のディプロタイプ」と「Haplotype3とHaplotype6のディプロタイプ」;(0,−2,0)
変異セット(c5,c6,c8)においては、下記のヘテロ型(Ci、Cj)「ディプロタイプ」の間で、相互の区別が不能となっている。
・「Haplotype1とHaplotype3のディプロタイプ」と「Haplotype2とHaplotype5のディプロタイプ」;(0,0,−2)
・「Haplotype1とHaplotype4のディプロタイプ」と「Haplotype5とHaplotype6のディプロタイプ」;(0,0,0)
・「Haplotype2とHaplotype4のディプロタイプ」と「Haplotype3とHaplotype6のディプロタイプ」;(−2,0,0)
以上のように、「ハプロタイプ」の識別が可能な「最小数」の多型部位を含む変異セットに関して、上記の必要条件;NH≦2N-1を満たさない場合、ヘテロ型(Ci、Cj)「ディプロタイプ」間に区別不能な組み合わせが残ることが検証される。
従って、必要条件;NH≦2N-1;NH=6では、N=4以上を満たすように、4つの多型部位の組み合わせで構成される、「ハプロタイプ」の識別が可能な「変異セット」を新たに見つける。
その際、(c3,c4,c5)、(c4,c5,c6)、(c3,c5,c8)、(c5,c6,c8)の4種のサブ・セット自体でも、「ハプロタイプ」の識別が可能である。従って、さらに一つの多型部位を付加した、(c3,c4,c5,ck)、(c4,c5,c6,ck)、(c3,c5,c8,ck)、(c5,c6,c8,ck)型の「変異セット」も、「ハプロタイプ」の識別が可能な「変異セット」である。
(c3,c4,c5,ck)、(c4,c5,c6,ck)、(c3,c5,c8,ck)、(c5,c6,c8,ck)型の「変異セット」として、下記の16種類が存在する。
・(c3,c4,c5,ck)型の「変異セット」
(1,3,4,5)、(2,3,4,5)、(3,4,5,6)、(3,4,5,7)、(3,4,5,8);5種類
・(c4,c5,c6,ck)型の「変異セット」
(1,4,5,6)、(2,4,5,6)、(4,5,6,7)、(4,5,6,8);(5−1)種類
・(c3,c5,c8,ck)型の「変異セット」
(1,3,5,8)、(2,3,5,8)、(3,5,6,8)、(3,5,7,8):(5−1)種類
・(c5,c6,c8,ck)型の「変異セット」
(1,5,6,8)、(2,5,6,8)、(5,6,7,8):(5−2)種類
図4に示す、(c3,c4,c5)、(c4,c5,c6)、(c3,c5,c8)、(c5,c6,c8)以外のサブ・セット;合計{(3×6)−4}のサブ・セットについて、一つの多型部位を付加したセットを考える。上記と同様の演算処理を行って、得られる行列型の演算結果に基づき、「ハプロタイプ」の識別が可能な「変異セット」をさらに探索する。「ハプロタイプ」の識別が可能な「変異セット」として、下記の「変異セット」13種が、さらに選択される。
・(c1,c4,c5,ck)型の「変異セット」
(1,2,4,5)、(1,4,5,8);2種類
・(c2,c4,c5,ck)型の「変異セット」
(2,4,5,7);1種類
・(c4,c5,c7,ck)型の「変異セット」
(4,5,7,8);1種類
・(c1,c5,c7,ck)型の「変異セット」
(1,2,5,7)、(1,3,5,7)、(1,5,6,7)、(1,5,7,8);4種類
・(c2,c5,c7,ck)型の「変異セット」
(2,3,5,7)、(2,5,6,7)、(2,5,7,8);3種類
・(c3,c5,c7,ck)型の「変異セット」
(3,5,7,8);1種類
・(c1,c5,c8,ck)型の「変異セット」
(1,2,5,8);1種類
従って、16種類+13種類の「変異セット」が、N=4の多型部位の組み合わせで構成される、「ハプロタイプ」の識別が可能な「変異セット」として、選別される。
この29種の「変異セット」について、各「変異セット」における、6種の「ハプロタイプ」:Ci:i=1〜6を表記する行ベクトルを作成する。
例えば、変異セット(c1,c4,c5,c8)における、6種の「ハプロタイプ」:Ci:i=1〜6を表記する行ベクトル(c1(i),c4(i),c5(i),c8(i))を、図7に示す。また、ヘテロ型(Ci、Cj)「ディプロタイプ」を表す行ベクトル({c1(i)+c1(j)},{c4(i)+c4(j)},{c5(i)+c5(j)},{c8(i)+c8(j)})を定義する。このヘテロ型(Ci、Cj)「ディプロタイプ」を表す行ベクトルを、図7の下段に示す。次いで、二つのヘテロ型(Ci、Cj)「ディプロタイプ」を表す行ベクトルの「差ベクトル」を算出する。算出される「差ベクトル」を、図8に示す。
まず、図7に示す、ヘテロ型(Ci、Cj)「ディプロタイプ」を表す行ベクトル中に、(0,0,0,0)となるものは、一つしか存在していない。また、図8に示される「差ベクトル」中に、(0,0,0,0)となるものは存在していない。すなわち、ヘテロ型(Ci、Cj)「ディプロタイプ」を表す行ベクトルが、同一となるものは存在していない。換言すると、この変異セット(c1,c4,c5,c8)を用いる際には、ヘテロ型(Ci、Cj)「ディプロタイプ」の全てが識別可能であることが判る。
同様の検証操作を、残る28種類の「変異セット」に関しても、実施して、ヘテロ型(Ci、Cj)「ディプロタイプ」の全てを識別可能な「変異セット」を選択する。以上の検証操作の結果、下記する合計5種の「変異セット」が、ヘテロ型(Ci、Cj)「ディプロタイプ」の全てを識別可能である「変異セット」として、選択された。
「変異セット」(1,4,5,8)、(4,5,7,8)、(1,5,7,8)、(3,4,5,8)、(4,5,6,8)
なお、この5種の「変異セット」は、「ハプロタイプ」の全てを識別可能であるので、ホモ型(Ci、Ci)「ディプロタイプ」も識別可能である。
上記の例では、必要条件;(NH−1)<NH≦2N-1を満たしている、4つの多型部位の組み合わせで構成される「変異セット」中に、「ハプロタイプ」のみでなく、ヘテロ型(Ci、Cj)「ディプロタイプ」の識別も可能である「変異セット」が見出されている。従って、前記の5種の「変異セット」は、「ハプロタイプ」のみでなく、「ディプロタイプ」の識別も可能である、「最小数」の多型部位で構成される「変異セット」となっている。
上記の例では、「ディプロタイプ」:(Ci、Cj)を表す行ベクトルを、「ハプロタイプ」CiとCjを表す行ベクトルの「和」:(Ci+Cj)を示す行ベクトルとして、定義している。この「和ベクトル」:(Ci+Cj)の総数は、「ハプロタイプ」の種類NHに対して、NH+1/2NH・(NH−1)=1/2NH・(NH+1)となっている。一方、N次元で、各要素が、「+2」、「−2」、「0」のいずれである行ベクトルの種類の総数は、3Nである。「ディプロタイプ」:(Ci、Cj)を表す行ベクトルの相違を識別できるためには、1/2NH・(NH+1)≦3Nの条件を満たすことが必要である。例えば、NH=6の場合、1/2NH・(NH+1)=21となり、N=3の場合、3N=27となり、前記の条件を満たしてはいる。しかし、実際には、N=3の場合には、「ディプロタイプ」:(Ci、Cj)を表す行ベクトルの相違を識別できる「変異セット」は存在しない。その点からも、上記の必要条件;(NH−1)<NH≦2N-1を採用することが適切であることが示される。
上記の実施形態においては、表現される「ディプロタイプ」が、同一か否かを判定する手段として、「ディプロタイプ」を表記する行ベクトル間で、「差ベクトル」を算出し、算出される「差ベクトル」が、零ベクトルか否かを判定基準としている。この二つの行ベクトルが同一か否かを判定する手段としては、他の比較演算処理を採用することもできる。例えば、二つの行ベクトルA,A’の長さ(norm(A)、norm(A’))をそれぞれ算出する。次いで、二つの行ベクトルの内積:A・A’を算出し、norm(A)=norm(A’)、A・A’=norm(A)・norm(A’)の場合、二つの行ベクトルが同一であると判定する手段を採用することもできる。
上記の実施形態では、各多型部位における塩基種類(変異)を、「野生型アレル(W)」と「変異型アレル(M)」の二つの区分に分類して、「2値化」を行っている。「野生型アレル(W)」を「−1」、「変異型アレル(M)」を「+1」と表記している。また、表現される「ディプロタイプ」においては、「野生型アレル(W)」のホモ、「変異型アレル(M)」のホモ、ヘテロの三つの区分となり、それに対応する「三つの値」を利用している。すなわち、「野生型アレル(W)」のホモ(W+W)を「−2」、「変異型アレル(M)」のホモ(M+M)を「+2」、ヘテロ(W+M)を「0」と表記している。
上記の「ハプロタイプ」を表記する行ベクトル間における要素ck(i)相互の比較演算処理が可能である限り、「野生型アレル(W)」と「変異型アレル(M)」の「2値化」表記法は、上記の形式以外を採用することができる。その際、「ディプロタイプ」を表記する行ベクトルの要素{ck(i)+ck(j)}に関して、「三つの値」を与えるように、「和演算」を適宜定義することが可能である。
例えば、「野生型アレル(W)」を「A」、「変異型アレル(M)」を「A*」として、表記することができる。その際、「A」は、絶対値|A|=1の複素数とし、「A*」は、その共役的複素数とする。一方、要素{ck(i)+ck(j)}を与える、「和演算」を、{A+A}≡A・A,{A*+A*}≡A*・A*,{A+A*}≡A・A*=1(但し、A・A≠A*・A*)と、「複素数の乗算」の形式で定義することも可能である。
従来の「ハプロタイプ」の全てを識別可能な「最小数」の多型部位で構成される「変異セット」を選定する方法は、「ハプロタイプ」のみでなく、「ディプロタイプ」の識別も可能であるための必要条件:NH≦2N-1を考慮していないものであった。従って、前記の必要条件:NH≦2N-1を満足しない「多型部位の個数:N」、上記の例では、N=3の条件で、「ハプロタイプ」の全てを識別可能な「最小数」の多型部位で構成される「変異セット」を選択している。このN=3の条件で選択される「変異セット」は、必要条件:NH≦2N-1を満足してないため、ヘテロ型(Ci、Cj)「ディプロタイプ」のうち、幾つかに関しては、その組み合わせ(Ci、Cj)の識別ができないものであった。
本発明では、「ハプロタイプ」のみでなく、「ディプロタイプ」の識別も可能である、「最小数」の多型部位で構成される「変異セット」を選択するため、前記の必要条件:NH≦2N-1を満足する「変異セット」を対象として、選別操作を行っている。その際、必要条件:NH≦2N-1を満足する「変異セット」中から、「ハプロタイプ」の全てを識別可能な「最小数」の多型部位で構成される複数個の「変異セット」を、候補として選択する。次いで、この「変異セット」候補について、ヘテロ型(Ci、Cj)「ディプロタイプ」の全てを識別可能か否かの検証操作を施し、実際に、ヘテロ型(Ci、Cj)「ディプロタイプ」の全てを識別可能なものを選別している。
本発明の「最小数」の多型部位で構成される「変異セット」の選別法では、各多型部位における、塩基種類を、「野生型アレル(W)」と「変異型アレル(M)」の二つの区分に分類して、「2値化」を行っている。従って、「一塩基多型」のみでなく、インサーション型、デリーション型の変異であっても、「野生型アレル(W)」と「変異型アレル(M)」の二つの区分に分類して、「2値化」可能なものも対象とできる。
一方、「ハプロタイプ」と、「ハプロタイプ」対で表記される「ディプロタイプ」を対象とするため、一般に、一組の相同染色体上の、相同の遺伝子座に、一対のアレル(対立遺伝子)が存在している系を対象とする。すなわち、識別の対象となる「ハプロタイプ」対が、一組の相同染色体上の、相同の遺伝子座に、一対のアレル(対立遺伝子)として存在する限り、個体の生物種、属、株に制限はない。通常、一つの遺伝子内に存在する複数個の多型部位によって決定される「ハプロタイプ」を対象とする。しかしながら、複数の遺伝子からなる「遺伝子群」を対象として、この「遺伝子群」中に散在している複数個の多型部位によって決定される「ハプロタイプ」を対象とすることもできる。
本発明では、既に「塩基配列」が判明している複数種の「ハプロタイプ」を対象として、その塩基配列中に存在する「多型部位」が、「野生型アレル(W)」と「変異型アレル(M)」のいずれかを測定することを前提としている。本発明にかかる方法は、この測定すべき「多型部位」の種類を選択する際に利用される。すなわち、各個体が有している「ハプロタイプ」対に対して、該遺伝子の塩基配列中に存在している複数個の「多型部位」のうち、測定すべき「最小数」の「多型部位」の種類(位置)を選択する際に利用される。各「多型部位」の種類(位置)に応じて、その部位の塩基(変異)が「野生型アレル(W)」と「変異型アレル(M)」のいずれかを判定するため、それぞれ、専用のプローブまたは、配列解析用のプライマーを作製する。その際、作製すべきプローブまたは、プライマーの種類の総数を、必要最小限に留める上では、本発明にかかる選別方法を応用して、「最小数」の多型部位で構成される「変異セット」を決定することが有効である。勿論、「最小数」の多型部位で構成される「変異セット」に対応する「変異測定」を行うため、測定に利用する検出デバイスのコスト・パフォーマンスを向上させる目的でも有効である。
本発明にかかる「塩基配列を識別する変異セット」の選別法は、その塩基配列中に変異を有する遺伝子の変異分析、また、該遺伝子の変異分析を応用した診断の分野において、該遺伝子の変異分析に利用される核酸プローブ、プライマーを設計する際利用できる。
本発明の第1の実施形態において、識別の対象とする「ハプロタイプ」6種と、「変異セット」を構成する際、その要素の候補となる、8箇所の多型部位を説明する図である。「ハプロタイプ」6種が示す該8箇所の多型部位における塩基の種別;変異型アレル(M)、野生型アレル(W)を、行列形式で表記している。 本発明の第1の実施形態において、「ハプロタイプ」6種を識別可能な、「最小数」の多型部位で構成される「変異セット」を選定する工程中、該「変異セット」に含まれる多型部位の「第1の候補」(ck1)を選択するステップc〜eを説明する図である。「ハプロタイプ」6種を表記する行ベクトルの一つを「参照行」とし、他の行ベクトルと、要素{ck}が同じか、異なるかの比較演算を行い、異なると判断される結果を、「−」で示す。 本発明の第1の実施形態において、「ハプロタイプ」6種を識別可能な、「最小数」の多型部位で構成される「変異セット」を選定する工程中、該「変異セット」に含まれる多型部位の「第2の候補」(ck2)を選択するステップf〜gを説明する図である。「第1の候補」(ck1)と、他の多型部位(ck)との組み合わせ(ck1,ck)について、その要素対{ck1,ck}を考慮する。「ハプロタイプ」6種を表記する行ベクトルの一つを「参照行」とし、他の行ベクトルと、要素対{ck1,ck}が同じか、異なるかの比較演算を行い、異なると判断される結果を、「−」で示す。 本発明の第1の実施形態において、「ハプロタイプ」6種を識別可能な、「最小数」の多型部位で構成される「変異セット」を選定する工程中、該「変異セット」に含まれる多型部位の「第2の候補」(ck2)を選択するステップhを説明する図である。「第1の候補」(ck1)、「第2の候補」(ck2)と、他の多型部位(ck)との組み合わせ(ck1,ck2,ck)について、その要素ベクトル{ck1,ck2,ck}を考慮する。「ハプロタイプ」6種を表記する行ベクトルの一つを「参照行」とし、他の行ベクトルと、要素ベクトル{ck1,ck2,ck}が同じか、異なるかの比較演算を行い、異なると判断される結果を、「−」で示す。 本発明の第1の実施形態において、3箇所の多型部位で構成される「変異セット」中から選別された、「ハプロタイプ」6種を識別可能な「変異セット」を示す図である。また、該「変異セット」において、ヘテロ型(Ci、Cj)「ディプロタイプ」を表記する行ベクトルの要素{ck(i)+ck(j)}を併せて示す。 本発明の第1の実施形態において、「ハプロタイプ」6種を識別可能な、3箇所の多型部位で構成される「変異セット」において、表現が等しくなるヘテロ型(Ci、Cj)「ディプロタイプ」を抽出する(ステップk)の操作を示す図である。上段に、ヘテロ型(Ci、Cj)「ディプロタイプ」を表記する行ベクトル中、「0」と表記される要素を2以上含むものを選別した結果をしめす。下段には、上段に示すヘテロ型(Ci、Cj)「ディプロタイプ」において、二つのヘテロ型(Ci、Cj)「ディプロタイプ」を表記する行ベクトルの「差ベクトル」の算出結果を示す。「差ベクトル」が、零ベクトルとなり、二つのヘテロ型(Ci、Cj)「ディプロタイプ」が同一の表現を示す組み合わせを、網掛け表示で示す。 本発明の第1の実施形態において、4箇所の多型部位で構成される「変異セット」中から選別された、「ハプロタイプ」6種を識別可能な「変異セット」の一例:(c1,c4,c5,c8)を示す図である。また、該「変異セット」において、ヘテロ型(Ci、Cj)「ディプロタイプ」を表記する行ベクトルの要素{ck(i)+ck(j)}を併せて示す。 本発明の第1の実施形態において、「ハプロタイプ」6種を識別可能な、4箇所の多型部位で構成される「変異セット」において、表現が等しくなるヘテロ型(Ci、Cj)「ディプロタイプ」の有無を確認する(ステップk)の操作を示す図である。二つのヘテロ型(Ci、Cj)「ディプロタイプ」を表記する行ベクトルの「差ベクトル」の算出結果を示す。

Claims (16)

  1. ハプロタイプの組み合わせであるディプロタイプを識別する変異セットの選別法において、
    ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する第一の工程と、
    前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する第二の工程とを有する
    ことを特徴とする変異セットの選別法。
  2. A(アデニン)、G(グアニン)、T(チミン)、C(シトシン)の塩基配列で構成される複数の個体のDNA配列についてアライメントし、
    アライメントした結果、1%以上の頻度で見られる変異を多型と定義し、
    定義された多型部位を複数箇所、個々の個体を識別する識別子として、該識別子を用いて、前記変異セットが定義されている
    ことを特徴とする請求項1に記載の変異セットの選別法。
  3. 前記変異セットは、
    個々の個体が有するハプロタイプを識別する識別子として、
    定義された多型部位の複数箇所について、野生型アレル、変異型アレルを識別可能な文字表記を行って、ハプロタイプ配列の形態で定義されている
    ことを特徴とする請求項2に記載の変異セットの選別法。
  4. 前記変異セットは、
    多型と定義される変異として、
    一塩基多型、インサーション、デリーション、リピート配列を含むセットである
    ことを特徴とする請求項2または3に記載の変異セットの選別法。
  5. 前記ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する第一の工程では、
    ハプロタイプ配列の形態で定義されている個体数分の変異セットを、並列することで、各個体のハプロタイプ配列を行に、定義された多型部位の複数箇所の各変異を列として、行列を構築した上で、
    特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セットを複数抽出し、
    該ハプロタイプの情報量として必要十分な最小数の変異セット複数を、ディプロタイプの表現型をも識別可能な最小の変異セットの候補として、選別する
    ことを特徴とする請求項3に記載の変異セット選別方法。
  6. 前記ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する第一の工程において、
    特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セット複数の抽出は、下記のステップ(a)〜(i)を含む操作によって行われる
    ことを特徴とする請求項5に記載の変異セット選別方法。
    (a)複数の変異セットの候補を多型情報データベースから抽出し、変異部位だけで構成されたハプロタイプ配列を取得するステップ;
    (b)識別したい複数の個体の配列行に対して、アライメントされた変異セットの列について、列方向に野生型か変異型かを表現するパターンが同一、もしくは反転しているセットが他にある場合には、その列のセットを除外するステップ;
    (c)識別したい複数の個体の配列行に対して、一つ参照行を決め、各変異セットの列方向で参照行と異なる要素がある場合に、消去し参照行と識別できることを表示するステップ;
    (d)順に全ての個体の配列行に対して、参照行として、ステップ(c)を繰り返し、全ての配列行の組合せについて比較し、消去演算するステップ;
    (e)全ての個体の配列行について、行方向に消去された要素数をカウントし、最も少ない配列行の消去された列を変異セットの第1の候補とするステップ;
    (f)第1の候補の変異列を固定し、他の異なる列と組合せ、全ての組合せで行方向にスクリーニングして、消去した要素を少なくとも1つ含む場合には、その行を消去し他の行と識別できることを表示し、第1の候補が複数ある場合には、その各々に対して処理を実行するステップ;
    (g)全ての個体の配列行について、行方向に消去された要素数をカウントし、最も少ない配列行の消去された列セットを、変異セットの第2の候補とし、第2の候補は、第1の候補を継承するステップ;
    (h)第2の候補の変異列セットを固定し、他の異なる列と組合せ、ステップ(f)からステップ(g)の操作を繰り返すステップ;
    (i)候補の変異列セットにおいて、列方向の要素が全て消去されると、一個体の特定配列を識別するための必要十分な最小数の変異セットとして決定するステップ。
  7. 前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する第二の工程では、
    特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セット複数として抽出された、複数の変異セット候補から、個人のディプロタイプが重複しないように、最小数の最適な変異セットを抽出する
    ことを特徴とする請求項6に記載の変異セット選別方法。
  8. 前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する第二の工程においては、
    ディプロタイプの表現型をも識別可能な最小の変異セットの選別は、
    前記の最小数変異セットの候補に対して、全て個体の配列行の組合せについてディプロタイプを演算する下記の(j)〜(l)のステップを含む操作によって行われる
    ことを特徴とする請求項7記載の変異セット選別方法。
    (j)野生型アレル、変異型アレルを識別し、同一列の要素を第1の演算方法で処理することでディプロタイプの要素として、野生型ホモ、変異型ホモ、ヘテロを出力するステップ。
    (k)前記のディプロタイプの組合せ全てに対して、同一変異列の要素を第2の演算方法で処理することで同一のディプロタイプが複数あるか否かを検証するステップ。
    (l)・同一ディプロタイプが複数ある場合には、当該の変異セットを候補から除外し、別箇の変異セットでステップ(j)〜ステップ(l)を繰り返す;
    ・全てのディプロタイプが単独で存在する場合には、その変異セットを最適化された候補とする;
    あるいは
    ・全ての最小数変異セットについて候補がない場合には、変異セットの列数を増やして、前記工程1のステップ(a)からステップ(i)、ならびにステップ(j)からステップ(l)の処理を繰り返す;
    前記の三種の操作のいずれかを行うステップ。
  9. 前記ステップ(j)の第1の演算方法の処理において、
    前記の変異セットの候補に対して、野生型アレル、変異型アレルを識別可能な文字表記したハプロタイプ配列について、各配列の異なる全ての組合せの間で和演算処理をし、その演算結果により、野生型ホモ、変異型ホモ、ヘテロを識別し、それをディプロタイプ配列とする
    ことを特徴とする請求項8に記載の変異セット選別方法。
  10. 前記ステップ(k)の第2の演算方法の処理において、
    前記のディプロタイプ配列について異なる全ての組合せの間で減演算処理をし、その演算結果がすべて0になる組合せについて、異なるハプロタイプ配列のセットで同一のディプロタイプ配列を表現する組み合わせが存在すると判断する
    ことを特徴とする請求項9に記載の変異セット選別方法。
  11. 前記ステップ(k)の第2の演算方法の処理において、
    前記ディプロタイプ配列について異なる全ての組合せに間で比較演算処理をし、その演算結果が全て同値である組合せについて、異なるハプロタイプ配列のセットで同一のディプロタイプ配列を表現する組み合わせが存在すると判断する
    ことを特徴とする請求項9に記載の変異セット選別方法。
  12. 異なる全てのハプロタイプの組合せが異なるディプロタイプ型を示すように選択された変異セット、もしくは、異なるハプロタイプの組合せによって同じディプロタイプ型を示す組数が最小数になるように選択された変異セットを選別する
    ことを特徴とする請求項8〜11のいずれか一項に記載の変異セット選別方法。
  13. ハプロタイプ相互の識別、ならびに、ディプロタイプの表現型をも識別可能な最小の変異セットに対して、該最小の変異セットを構成する、多型部位の複数箇所について、それぞれの塩基の種別を特定するために利用されるプローブ・セットを設計する方法であって、
    該プローブ・セットの設計工程は、下記のステップAとステップBを含む
    ことを特徴とするプローブ・セットの設計方法。
    ステップA:
    請求項1〜11のいずれか一項に記載の変異セットの選別方法を適用して、最小の変異セットを選定する。
    ステップB:
    選定された最小の変異セットを構成する各多型部位について、該多型部位をその塩基配列中に含ように、プローブの塩基配列を選択する。
  14. ハプロタイプ相互の識別、ならびに、ディプロタイプの表現型をも識別可能な最小の変異セットに対して、該最小の変異セットを構成する、多型部位の複数箇所について、それぞれの塩基の種別を特定するために利用されるプライマー・セットを設計する方法であって、
    該プライマー・セットの設計工程は、下記のステップAとステップBを含む
    ことを特徴とするプローブ・セットの設計方法。
    ステップA:
    請求項1〜11のいずれか一項に記載の変異セットの選別方法を適用して、最小の変異セットを選定する。
    ステップB:
    選定された最小の変異セットを構成する各多型部位について、該多型部位の塩基の種類を特定可能なように、プライマーの塩基配列を選択する。
  15. 請求項1〜11のいずれか一項に記載される変異セットの選別方法を適用して、最小の変異セットを選定するための、一連の数値演算処理、ならびに、該数値演算処理結果を用いる論理演算処理をコンピュータシステム上で実行するためのプログラムを、該コンピュータシステムにおいて実行可能なプログラム言語により表記したソフトウエアを記録媒体上に電子的に収納してなる
    ことを特徴とする、ソフトウエア収納記録媒体。
  16. ハプロタイプの組み合わせであるディプロタイプを識別する変異セットを選別する作業を実施するための、コンピュータシステムであって、
    該システムは、
    ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する、第一の演算処理を実施する第一の工程と、
    前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する、第二の演算処理を実施する第二の工程とを具えている
    ことを特徴とする変異セットの選別システム。
JP2006352404A 2006-12-27 2006-12-27 塩基配列を識別する変異セットの選別法 Pending JP2008165375A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006352404A JP2008165375A (ja) 2006-12-27 2006-12-27 塩基配列を識別する変異セットの選別法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006352404A JP2008165375A (ja) 2006-12-27 2006-12-27 塩基配列を識別する変異セットの選別法

Publications (1)

Publication Number Publication Date
JP2008165375A true JP2008165375A (ja) 2008-07-17

Family

ID=39694825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006352404A Pending JP2008165375A (ja) 2006-12-27 2006-12-27 塩基配列を識別する変異セットの選別法

Country Status (1)

Country Link
JP (1) JP2008165375A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017510865A (ja) * 2013-12-27 2017-04-13 コリア インスティテュート オブ サイエンス アンド テクノロジー インフォメーション 変異遺伝体シーケンス予測方法、装置及び変異遺伝体シーケンス予測プログラムを格納する格納媒体
WO2019022018A1 (ja) * 2017-07-24 2019-01-31 国立研究開発法人農業・食品産業技術総合研究機構 多型検出法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017510865A (ja) * 2013-12-27 2017-04-13 コリア インスティテュート オブ サイエンス アンド テクノロジー インフォメーション 変異遺伝体シーケンス予測方法、装置及び変異遺伝体シーケンス予測プログラムを格納する格納媒体
WO2019022018A1 (ja) * 2017-07-24 2019-01-31 国立研究開発法人農業・食品産業技術総合研究機構 多型検出法
JPWO2019022018A1 (ja) * 2017-07-24 2020-05-28 国立研究開発法人農業・食品産業技術総合研究機構 多型検出法
JP7166638B2 (ja) 2017-07-24 2022-11-08 国立研究開発法人農業・食品産業技術総合研究機構 多型検出法

Similar Documents

Publication Publication Date Title
Purdom et al. FIRMA: a method for detection of alternative splicing from exon array data
Capriotti et al. Predicting the insurgence of human genetic diseases associated to single point protein mutations with support vector machines and evolutionary information
Chang et al. An overview of genome-wide association studies
Warren et al. Targeted assembly of short sequence reads
Drineas et al. Inferring geographic coordinates of origin for Europeans using small panels of ancestry informative markers
US20220414597A1 (en) Methods for Analysis of Digital Data
AU2002359549A1 (en) Methods for the identification of genetic features
Olson et al. Variant calling and benchmarking in an era of complete human genome sequences
Chennen et al. MISTIC: A prediction tool to reveal disease-relevant deleterious missense variants
Horscroft et al. Sequencing era methods for identifying signatures of selection in the genome
US20050149271A1 (en) Methods and apparatus for complex gentics classification based on correspondence anlysis and linear/quadratic analysis
Andrews et al. A new mouse SNP genotyping assay for speed congenics: combining flexibility, affordability, and power
Liu et al. Quantitative comparison of EST libraries requires compensation for systematic biases in cDNA generation
Hettiarachchi et al. GWAS to identify SNPs associated with common diseases and individual risk: Genome Wide Association Studies (GWAS) to identify SNPs associated with common diseases and individual risk
Raimondi et al. An interpretable low-complexity machine learning framework for robust exome-based in-silico diagnosis of Crohn’s disease patients
Celaj et al. An RNA foundation model enables discovery of disease mechanisms and candidate therapeutics
Lemay et al. Screening populations for copy number variation using genotyping-by-sequencing: a proof of concept using soybean fast neutron mutants
Wang et al. How accurately is ncRNA aligned within whole-genome multiple alignments?
JP2008165375A (ja) 塩基配列を識別する変異セットの選別法
Fazal et al. RExPRT: a machine learning tool to predict pathogenicity of tandem repeat loci
Schaub et al. A Classifier-based approach to identify genetic similarities between diseases
Kaiser et al. Automated structural variant verification in human genomes using single-molecule electronic DNA mapping
Qian et al. PopAlu: population-scale detection of Alu polymorphisms
Claesen et al. A hidden Markov-model for gene mapping based on whole-genome next generation sequencing data
Pfenninger et al. Spontaneous rate of clonal single nucleotide mutations in Daphnia galeata