JP2008165375A

JP2008165375A - 塩基配列を識別する変異セットの選別法

Info

Publication number: JP2008165375A
Application number: JP2006352404A
Authority: JP
Inventors: 慎一郎 ▲高▼濱; Shinichiro Takahama
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-12-27
Filing date: 2006-12-27
Publication date: 2008-07-17

Abstract

【課題】ヘテロ型の「ハプロタイプ」の組に由来する「ディプロタイプ」相互の区別を可能とする、あるいは、区別不能な「ディプロタイプ」を最小限にするための、変異セットの選別法の提供。
【解決手段】識別すべき「ハプロタイプ」の種類Ｎ_Hに対して、変異セットの多型部位数Ｎを（Ｎ_H−１）≦２^N-1を満たす範囲に設定し、「ハプロタイプ」相互の識別が可能な「変異セット」候補を複数選別する第１の工程を具えている。さらに、第１の工程で選別される、複数の「変異セット」候補について、「ディプロタイプ」の表現型をも識別可能か否かの検証を行う第２の工程を設けている。この第１の工程、第２の工程の二つの関門を通過したものを、「最小数」の多型部位で構成される「変異セット」として、選定する方法としている。
【選択図】なし

Description

本発明は、複数の配列情報の中から特定配列を特徴づけている要素を抽出する情報処理方法に関する。特に、遺伝子多型情報の組み合わせ（以降、ハプロタイプと呼ぶ）を構成する変異セットを最適化する情報処理技術に関する。

分類学上は同一種に分類される生物群においても、個体間の比較を行うと、その遺伝子に起因する多様性を示す。具体的には、特定の遺伝子の塩基配列を個体間で比較すると、塩基配列の相違が離散的に存在する。特に、遺伝子の塩基配列中の特定部位の塩基が、個体群全体において、ある確率分布で相違している場合がある。この一塩基の変異は、「一塩基多型（ＳＮＰ）」と称されている。一方、ゲノムＤＮＡ上には、多数の遺伝子が存在しているが、「一塩基多型」を示す遺伝子が複数個存在している。さらに、一つの遺伝子上に、「一塩基多型（ＳＮＰ）」を示す部位が、複数箇所存在することも少なくない。

遺伝子の塩基配列中に「一塩基多型（ＳＮＰ）」が存在する場合、該遺伝子の発現により産生される産物、例えば、タンパク質、ペプチド性生理物質、ＲＮＡに差違が生じることもある。あるいは、産生される産物自体には、差違は存在しないが、その産生量に差違が生じる場合もある。その結果として、個体を示す体質に相違が生じる場合も知られている。すなわち、個体の示す体質に影響する遺伝的要因として、遺伝子の多型（ＳＮＰｓ）が着目されている。個体の遺伝子多型を知ることで、例えば、薬剤の代謝に関連する情報から直接疾患要因を特定する情報まで、種々の情報が得られる。その目的で、個体から採取されたゲノムＤＮＡ試料を利用して、その個体が有する遺伝子の多型を検出し、特定するための、遺伝子検査薬、キット、装置が開発されている。

一方、既に判明している遺伝子の多型（ＳＮＰｓ）の総数は、膨大な数に達しつつある。また、薬剤代謝、疾患罹患の危険性など、個体の体質的要因の決定は、代謝酵素タンパク質群や疾患関連タンパク質群など、複数種のタンパク質が関与していることも少なくない。個々の遺伝子、例えば、代謝酵素遺伝子や、疾患関連遺伝子においても、それぞれの遺伝子中には、多数の多型が存在して、この「複数個の多型の組み合わせ」に依って、その遺伝子産物に顕著な差違が生じることが少なくない。すなわち、特定の遺伝子から発現されるタンパク質のアミノ酸配列を対比すると、複数種の変異体が存在しており、これらの変異体をコードする遺伝子は、特定の「複数個の多型の組み合わせ」を有することが多い。この「複数個の多型の組み合わせ」を構成する個々の多型は、「連鎖」しており、一つの「ハプロタイプ」を構成している。「ハプロタイプ」を構成する複数個の多型に関しては、その「連鎖マップ」に従って、系統的に多型を検出し、特定することが重要となっている。

従来、遺伝子の多型情報を抽出する方法としては、先ず、多数の個体の遺伝子の塩基配列をアライメントし、変異が見出される部位（多型部位）を特定する。次いで、該多型部位に変異を有する遺伝子に関連した表現系と、検出された多型との相関を検証した上で、該遺伝子のアレル（対立遺伝子）群を特定する。特定されたアレル（対立遺伝子）の種類が増えてくると、該遺伝子中に存在することが確認された多型部位の総数も増えてくる。しかしながら、各アレル（対立遺伝子）で見出される、複数個の特定の多型は、全部もしくは一部「連鎖」しており、個々のアレルを判別する際に、全ての多型部位を調査する必要がない場合も少なくない。

この点に着目し、対象の遺伝子において、既に確認され、また、その塩基の出現頻度も確定している、多数の多型部位の中で、特定の「ハプロタイプ」の決定に必須な「最小数」の多型部位を含む変異セットを選択する手法が開発されている。例えば、特許文献１に開示される「配列を同定するための変異要素のセット抽出方法」を、該遺伝子の塩基配列に応用すると、特定の「ハプロタイプ」の決定に必須な「最小数」の多型部位のセット（変異セット）が取得される。
特開２００５−１９０４２７号公報

特許文献１に開示される手法により取得される、「最小数」の多型部位のセット（変異セット）は、評価対象の核酸分子が、該遺伝子の既知の「ハプロタイプ」のいずれに属するかを決定する目的としては、十分なものである。一方、個体のゲノムが、２個一組の相同染色体ｎ組からなる２倍体型の構成である場合、一組の相同染色体上の、相同の遺伝子座に、一対のアレル（対立遺伝子）が存在している。すなわち、対象の遺伝子Ｃには、複数種（Ｎ_H種）のアレル（対立遺伝子）｛Ｃｉ：ｉ＝１〜Ｎ_H｝が存在しており、各個体は、ホモ型の（Ｃ_i、Ｃ_i）、あるいは、ヘテロ型の（Ｃ_i、Ｃ_j）の組み合わせを有することになる。ホモ型の（Ｃ_i、Ｃ_i）の場合には、前記「最小数」の多型部位のセット（変異セット）を用いて、その「ハプロタイプ」を特定することが可能である。一方、ヘテロ型の（Ｃ_i、Ｃ_j）の場合には、その組み合わせによっては、「最小数」の多型部位のセット（変異セット）により判定される多型の種類を比較する限り、同一の「ディプロタイプ」を表現することがある。従って、そのような場合には、前記「最小数」の多型部位のセット（変異セット）を用いて、検出される多型情報のみからは、該個体の「ハプロタイプ」、すなわち、（Ｃ_i、Ｃ_j）の組み合わせを確定できない。その際には、対象とする個体の属する家系、集団（人種、民族）における各アレルの出現頻度（確率分布）を考慮して、該「ディプロタイプ」を表現する複数種の「ハプロタイプ」の組み合わせ（Ｃ_i、Ｃ_j）間で、その確率を統計的に推定する。例えば、各個体の有する「ハプロタイプ」の組み合わせ（Ｃ_i、Ｃ_j）は、両親由来の２種の配偶子に由来することを考慮して、両家系における各アレルの出現頻度（確率分布）に基づき、各（Ｃ_i、Ｃ_j）の組み合わせが出現する確率を統計的に推定する。その推定結果において、最も高い確率を示す（Ｃ_i、Ｃ_j）の組み合わせを、対象の個体は有すると推断していた。

一方、対象とする遺伝子において、確認されている多型部位の総数を、Ｎ_SNPとし、その多型部位（ｃ_k：ｋ＝１〜Ｎ_SNP）における、塩基の出現パターン（ｃ₁，…，ｃ_k，…，ｃ_NSNP）を考える。各多型部位（ｃ_k：ｋ＝１〜Ｎ_SNP）に出現する塩基の種類が２である場合、可能な出現パターン（ｃ₁，…，ｃ_k，…，ｃ_NSNP）の総数は、２の（Ｎ_SNP）乗となる。しかしながら、実際に、アレル（対立遺伝子）として、確認されている、出現パターン（ｃ₁，…，ｃ_k，…，ｃ_NSNP）の種類は、前記の最大数（２^NSNP）よりも、格段に少ない数（Ｎ_H）である。この点を利用して、「最小数」の多型部位のセット（変異セット）、すなわち、Ｎ_SNPより遥かに小さな「最小数」：Ｎ_min個の多型部位のみで、Ｎ_H種類のアレル（対立遺伝子）｛Ｃ_i：ｉ＝１〜Ｎ_H｝の区別を行っている。すなわち、Ｎ_H＜２^Nminとなっている。

さらに、ホモ型の（Ｃ_i、Ｃ_i）、あるいは、ヘテロ型の（Ｃ_i、Ｃ_j）の組み合わせの総数は、｛Ｎ_H＋1/2Ｎ_H×（Ｎ_H−１）｝＝1/2Ｎ_H×（Ｎ_H＋１）である。従って、少なくとも、｛1/2Ｎ_H×（Ｎ_H＋１）｝＜1/2（２^Nmin）×（２^Nmin＋１）となっている。1/2（２^Nmin）×（２^Nmin＋１）＜２^NSNPの条件が満たされる場合、変異セットを構成する、多型部位の数：Ｎ_setを増し、その多型部位：ｃ_kの組み合わせを適正に選別すると、ヘテロ型（Ｃ_i、Ｃ_j）を区別することが可能となる場合もある。

しかしながら、ヘテロ型（Ｃ_i、Ｃ_j）の「ハプロタイプ」の組に由来する「ディプロタイプ」相互の区別を可能とする、あるいは、区別不能な「ディプロタイプ」を最小限にするための、変異セットの選別法は、未だ具現化されていなかった。

本発明は、前記課題を解決するものである。本発明の目的は、ヘテロ型（Ｃ_i、Ｃ_j）の「ハプロタイプ」の組に由来する「ディプロタイプ」相互の区別を可能とする、あるいは、区別不能な「ディプロタイプ」を最小限にするための、変異セットの選別法を提供することにある。

本発明では、各「ハプロタイプ」が、複数箇所の多型部位において、観測される塩基配列が、野生型アレル（Ｗ）か、変異型アレル（Ｍ）かの差違によって、相互に識別できる点に着目する。例えば、各「ハプロタイプ」：Ｃ_i：ｉ＝１〜Ｎ_Hは、複数箇所の多型部位：ｃ_k：ｋ＝１〜Ｎ_SNPにおける塩基配列の区分：ｃ_k（ｉ）：ｋ＝１〜Ｎ_SNPを示す、行ベクトル（…，ｃ_k（ｉ），…）を利用して、表記できる。その際、各「ハプロタイプ」：Ｃ_iを示す行ベクトル（…，ｃ_k（ｉ），…）は、該多型部位：ｃ_k：ｋ＝１〜Ｎ_SNPの総数、「Ｎ_SNP次元のベクトル空間」上で、互いに相違する行ベクトル群を構成している。一方、二つの「ハプロタイプ」の組み合わせ（Ｃ_i，Ｃ_j）に起因する「ディプロタイプ」の表現型も、「Ｎ_SNP次元のベクトル空間」上で、行ベクトル（…，｛ｃ_k（ｉ）＋ｃ_k（ｊ）｝，…）と表記できる。

この表記法を採用する際、各「ハプロタイプ」、ならびに「ハプロタイプ」の組（Ｃ_i，Ｃ_j）に起因する「ディプロタイプ」の表現型の識別も可能な、「最小数」の多型部位で構成される「変異セット」は、下記の手順で選別できることを見出した。

すなわち、本発明にかかる変異セットの選別法では、
ハプロタイプの組み合わせであるディプロタイプを識別する変異セットの選別法において、下記の二つの工程を有することを特徴としている。

・ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する第一の工程。

・前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する第二の工程。

本発明にかかる方法により選別される「最小数」の多型部位で構成される「変異セット」は、複数の「ハプロタイプ」相互の識別に加えて、相同染色体上に一組の「ハプロタイプ」を有する個体が示す「ディプロタイプ」相互の識別も可能である。すなわち、個体が示す「ディプロタイプ」相互の識別により、該「ディプロタイプ」の表現を与える、一組の「ハプロタイプ」の組み合わせを特定することが可能である。有性生殖による繁殖を行う生物では、各個体の有する遺伝子型は、二つの配偶子の由来する相同染色体上に存在するアレル（対立遺伝子）の組み合わせに因って決定される。該相同の遺伝子座に存在するアレル（対立遺伝子）は、父系と母系の二つの系統に由来している。この二つのアレル（対立遺伝子）に起因する発現がなされると、例えば、ｍＲＮＡ中には、両者の塩基配列を有する２種のｍＲＮＡ分子が共存している「ディプロタイプ」の表現型を示す。該遺伝子中に存在する多型部位の塩基配列を判定すると、「ディプロタイプ」の表現型においては、一組の「ハプロタイプ」が示す多型部位の情報が総合された状態で観測される。該「最小数」の多型部位で構成される「変異セット」は、一組の「ハプロタイプ」の組み合わせの相違に起因する、「ディプロタイプ」の表現型の相違を識別することで、その個体における「ハプロタイプ」の組み合わせを特定することを可能にする。加えて、一組の「ハプロタイプ」の組み合わせの相違に起因する、「ディプロタイプ」の表現型の相違を識別する上で、測定すべき多型部位の個数を「最小数」とする利点を有している。この「最小数」の多型部位で構成される「変異セット」を採用すると、各「ハプロタイプ」が示す多型部位を検出用のプローブ・セットや、プライマー・セットの設計も、より効率的に行うことが可能になる。

本発明にかかる方法では、「ディプロタイプ」の表現型の識別を可能とする、測定すべき多型部位の個数の下限を、識別すべき「ハプロタイプ」の種類数より決定する。そして、この下限条件を満足する、複数の「ハプロタイプ」相互の識別可能な、「最小数」の多型部位で構成される「変異セット」を複数の候補として選別し、その候補の中から、「ディプロタイプ」の表現型の相違を識別することが可能なものを選定する。従って、複数の「ハプロタイプ」相互の識別は勿論、一組の「ハプロタイプ」の組み合わせの相違に起因する、「ディプロタイプ」の表現型の相違をも識別可能な「最小数」の多型部位で構成される「変異セット」を効率的に選別できる。

本発明にかかる、「ハプロタイプ」のみでなく、「ディプロタイプ」の識別も可能である、「最小数」の多型部位で構成される「変異セット」を選別する方法を以下に詳しく説明する。加えて、該選別方法を適用して、選別される「最小数」の多型部位で構成される「変異セット」に対して、その多型部位の塩基を判定するためのプローブ・セットの設計方法、あるいは、塩基配列解析用プライマー・セットの設計方法を併せて説明する。

また、該「最小数」の多型部位で構成される「変異セット」を選別する方法に基づく、「変異セット」選別用ソフトウエア、該ソフトウエアを実装し、「変異セット」選別の操作を行うシステムに関しても、詳しい説明を行う。同じく、前記プローブ・セットの設計方法に基づく、プローブ・セット設計用ソフトウエア、該ソフトウエアを実装し、プローブ・セット設計の操作を行うシステムに関しても、詳しい説明を行う。前記塩基配列解析用プライマー・セットの設計方法に基づく、プライマー・セット設計用ソフトウエア、該ソフトウエアを実装し、プライマー・セット設計の操作を行うシステムに関しても、詳しい説明を行う。

まず、本発明の変異セットの選別法では、
ハプロタイプの組み合わせであるディプロタイプを識別する変異セットの選別法において、下記の二つの工程を有することを特徴としている。

その際、「変異セット」として、下記のように定義される変異セットを用いることが好ましい。まず、Ａ（アデニン）、Ｇ（グアニン）、Ｔ（チミン）、Ｃ（シトシン）の塩基配列で構成される複数の個体のＤＮＡ配列についてアライメントし、アライメントした結果、１％以上の頻度で見られる変異を多型と定義する。次に、定義された多型部位を複数箇所、個々の個体を識別する識別子として、選択し、この識別子を用いて、変異セットを定義する。

特に、前記変異セットは、個々の個体が有するハプロタイプを識別する識別子として、定義された多型部位の複数箇所について、野生型アレル、変異型アレルを識別可能な文字表記を行って、ハプロタイプ配列の形態で定義することが好ましい。なお、前記変異セットは、多型と定義される変異として、一塩基多型、インサーション、デリーション、リピート配列を含むセットとすることができる。

一方、前記ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する第一の工程では、下記の操作を行う形態とすることが好ましい。

・ハプロタイプ配列の形態で定義されている個体数分の変異セットを、並列することで、各個体のハプロタイプ配列を行に、定義された多型部位の複数箇所の各変異を列として、行列を構築する。

・その上で、特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セットを複数抽出する。

・該ハプロタイプの情報量として必要十分な最小数の変異セット複数を、ディプロタイプの表現型をも識別可能な最小の変異セットの候補として、選別する。

例えば、前記る第一の工程において、特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セット複数の抽出は、下記のステップ（ａ）〜（ｉ）を含む操作によって行われることが好ましい。

ステップ（ａ）：複数の変異セットの候補を多型情報データベースから抽出し、変異部位だけで構成されたハプロタイプ配列を取得する。

ステップ（ｂ）：識別したい複数の個体の配列行に対して、アライメントされた変異セットの列について、列方向に野生型か変異型かを表現するパターンが同一、もしくは反転しているセットが他にある場合には、その列のセットを除外する。

ステップ（ｃ）：識別したい複数の個体の配列行に対して、一つ参照行を決め、各変異セットの列方向で参照行と異なる要素がある場合に、消去し参照行と識別できることを表示する。

ステップ（ｄ）：順に全ての個体の配列行に対して、参照行として、ステップ（ｃ）を繰り返し、全ての配列行の組合せについて比較し、消去演算する。

ステップ（ｅ）：全ての個体の配列行について、行方向に消去された要素数をカウントし、最も少ない配列行の消去された列を変異セットの第１の候補とする。

ステップ（ｆ）：第１の候補の変異列を固定し、他の異なる列と組合せ、全ての組合せで行方向にスクリーニングして、消去した要素を少なくとも１つ含む場合には、その行を消去し他の行と識別できることを表示する。逆に、第１の候補が複数ある場合には、その各々に対して処理を実行する。

ステップ（ｇ）：全ての個体の配列行について、行方向に消去された要素数をカウントし、最も少ない配列行の消去された列セットを、変異セットの第２の候補とする。第２の候補は、第１の候補を継承する。

ステップ（ｈ）：第２の候補の変異列セットを固定し、他の異なる列と組合せ、ステップ（ｆ）からステップ（ｇ）の操作を繰り返す。

ステップ（ｉ）：候補の変異列セットにおいて、列方向の要素が全て消去されると、一個体の特定配列を識別するための必要十分な最小数の変異セットとして決定する。

また、前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する第二の工程では、下記の操作を行う形態とすることが好ましい。すなわち、特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セット複数として抽出された、複数の変異セット候補から、個人のディプロタイプが重複しないように、最小数の最適な変異セットを抽出する。

例えば、前記第二の工程においては、ディプロタイプの表現型をも識別可能な最小の変異セットの選別は、以下の手順で行うことが好ましい。すなわち、前記の最小数変異セットの候補に対して、全て個体の配列行の組合せについてディプロタイプを演算する下記の（ｊ）〜（ｌ）のステップを含む操作によって行うことが好ましい。

ステップ（ｊ）：野生型アレル、変異型アレルを識別し、同一列の要素を第１の演算方法で処理することでディプロタイプの要素として、野生型ホモ、変異型ホモ、ヘテロを出力する。

ステップ（ｋ）：前記のディプロタイプの組合せ全てに対して、同一変異列の要素を第２の演算方法で処理することで同一のディプロタイプが複数あるか否かを検証する。

ステップ（ｌ）：下記の三種の操作のいずれかを行う。

・同一ディプロタイプが複数ある場合には、当該の変異セットを候補から除外し、別箇の変異セットでステップ（ｊ）〜ステップ（ｌ）を繰り返す。

・全てのディプロタイプが単独で存在する場合には、その変異セットを最適化された候補とする。

あるいは
・全ての最小数変異セットについて候補がない場合には、変異セットの列数を増やして、前記工程１のステップ（ａ）からステップ（ｉ）、ならびにステップ（ｊ）からステップ（ｌ）の処理を繰り返す。

例えば、前記ステップ（ｊ）の第１の演算方法の処理において、
前記の変異セットの候補に対して、野生型アレル、変異型アレルを識別可能な文字表記したハプロタイプ配列について、各配列の異なる全ての組合せの間で和演算処理を行う。その演算結果により、野生型ホモ、変異型ホモ、ヘテロを識別し、それをディプロタイプ配列とすることが好ましい。

また、前記ステップ（ｋ）の第２の演算方法の処理において、
前記のディプロタイプ配列について異なる全ての組合せの間で減演算処理を行う。その演算結果がすべて０になる組合せについて、異なるハプロタイプ配列のセットで同一のディプロタイプ配列を表現する組み合わせが存在すると判断することができる。

あるいは、前記ステップ（ｋ）の第２の演算方法の処理において、
前記ディプロタイプ配列について異なる全ての組合せに間で比較演算処理を行う。その演算結果が全て同値である組合せについて、異なるハプロタイプ配列のセットで同一のディプロタイプ配列を表現する組み合わせが存在すると判断することもできる。

最終的に、異なる全てのハプロタイプの組合せが異なるディプロタイプ型を示すように選択された変異セットを選別することが望ましい。もしくは、異なるハプロタイプの組合せによって同じディプロタイプ型を示す組数が最小数になるように選択された変異セットを選別することもできる。

また、本発明では、ハプロタイプ相互の識別、ならびに、ディプロタイプの表現型をも識別可能な最小の変異セットに対して、その変異検出用のプローブ・セットを設計する方法を提供する。すなわち、該最小の変異セットを構成する、多型部位の複数箇所について、それぞれの塩基の種別を特定するために利用されるプローブ・セットを設計する方法を提供する。本発明にかかるプローブ・セットの設計方法における、該プローブ・セットの設計工程は、下記のステップＡとステップＢを含む。

ステップＡ：
上で述べた本発明の変異セットの選別方法を適用して、最小の変異セットを選定する。

ステップＢ：
選定された最小の変異セットを構成する各多型部位について、該多型部位をその塩基配列中に含ように、プローブの塩基配列を選択する。

さらに、本発明では、ハプロタイプ相互の識別、ならびに、ディプロタイプの表現型をも識別可能な最小の変異セットに対して、その変異検出用のプライマー・セットを設計する方法を提供する。すなわち、該最小の変異セットを構成する、多型部位の複数箇所について、それぞれの塩基の種別を特定するために利用されるプライマー・セットを設計する方法を提供する。本発明にかかるプライマー・セットの設計方法における、該プライマー・セットの設計工程は、下記のステップＡとステップＢを含む。

ステップＢ：
選定された最小の変異セットを構成する各多型部位について、該多型部位の塩基の種類を特定可能なように、プライマーの塩基配列を選択する。

なお、本発明にかかる変異セットの選別方法は、一連の数値演算処理、ならびに、該数値演算処理結果を用いる論理演算処理を行うことで、最小の変異セットを特定する形態として実施できる。これらの演算処理を含む操作は、コンピュータシステム上で実行するため、専用のソフトウエアとして、記録媒体上に記録する形態にすることが望ましい。

従って、本発明は、前記の「専用のソフトウエア」を収納する、ソフトウエア収納記録媒体の発明をも提供する。

すなわち、本発明のソフトウエア収納記録媒体は、下記のような構成上の特徴を有する。

・上述する本発明の変異セットの選別方法を適用して、最小の変異セットを選定するためのものである。

・その方法における、一連の数値演算処理、ならびに、該数値演算処理結果を用いる論理演算処理をコンピュータシステム上で実行するためのプログラムを、主要な要素としている。

・そのプログラムを、該コンピュータシステムにおいて実行可能なプログラム言語により表記したソフトウエアを記録媒体上に電子的に収納してなるものである。

また、本発明の変異セットの選別方法は、上述するように、「専用のソフトウエア」を用いて、コンピュータシステム上において、その設計操作を実施することが一般的である。従って、本発明は、本発明の変異セットの選別方法を適用して、最小の変異セットを選定する操作を実施する用途に適するコンピュータシステムの発明をも提供する。

すなわち、本発明にかかる変異セットの選別システムは、下記の構成上の特徴を有する。

・ハプロタイプの組み合わせであるディプロタイプを識別する変異セットを選別する作業を実施するための、コンピュータシステムである。

・該システムは、下記の二つの工程を具えている。

ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する、第一の演算処理を実施する第一の工程。

前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する、第二の演算処理を実施する第二の工程。

なお、本発明にかかる変異セットの選別システムにおいても、上記の本発明の変異セットの選別方法における好適な構成を選択すると、好ましい形態となる。

例えば、本発明の一態様では、各「ハプロタイプ」が、複数箇所の多型部位において、観測される塩基配列が、野生型アレル（Ｗ）か、変異型アレル（Ｍ）かの差違によって、相互に識別できる点に着目する。すなわち、各「ハプロタイプ」：Ｃ_i：ｉ＝１〜Ｎ_Hは、複数箇所の多型部位：ｃ_k：ｋ＝１〜Ｎ_SNPにおける塩基配列の区分：ｃ_k（ｉ）：ｋ＝１〜Ｎ_SNPを示す、行ベクトル（…，ｃ_k（ｉ），…）を利用して、表記できる。その際、各「ハプロタイプ」：Ｃ_iを示す行ベクトル（…，ｃ_k（ｉ），…）は、該多型部位：ｃ_k：ｋ＝１〜Ｎ_SNPの総数、「Ｎ_SNP次元のベクトル空間」上で、互いに相違する行ベクトル群を構成している。一方、二つの「ハプロタイプ」の組み合わせ（Ｃ_i，Ｃ_j）に起因する「ディプロタイプ」の表現型も、「Ｎ_SNP次元のベクトル空間」上で、行ベクトル（…，｛ｃ_k（ｉ）＋ｃ_k（ｊ）｝，…）と表記できる。

まず、「最小数」：Ｎの多型部位で構成される「変異セット」により、各「ハプロタイプ」：Ｃ_i、ならびに「ハプロタイプ」の組（Ｃ_i，Ｃ_j）に起因する「ディプロタイプ」の表現型を行ベクトルで表記することを考える。このＮ個の要素からなる行ベクトルは、基となる「Ｎ_SNP次元のベクトル空間」上で定義される行ベクトル（…，ｃ_k（ｉ），…）を、「Ｎ次元のベクトル空間」に投影したものに相当する。その「Ｎ次元のベクトル空間」に投影した際、各「ハプロタイプ」：Ｃ_iを示す行ベクトルが、同一にならないことが、「ハプロタイプ」相互の識別が可能な「変異セット」の必要条件（ａ）となる。同様に、「Ｎ次元のベクトル空間」に投影した際、「ディプロタイプ」の表現型を表記する行ベクトルが、同一にならないことが、「ディプロタイプ」相互の識別が可能な「変異セット」の必要条件（ｂ）となる。

必要条件（ａ）は、「Ｎ次元のベクトル空間」において、「ハプロタイプ」の行ベクトルに可能な選択肢の総数：２^N通りが、識別すべき「ハプロタイプ」の総数Ｎ_Hより多い：Ｎ_H≦２^Nと表現できる。一方、必要条件（ｂ）は、少なくとも、「Ｎ次元のベクトル空間」において、「ハプロタイプ」の行ベクトル中に、互いに逆ベクトルとなる組が、二つ以上存在していない条件とすることもできる。すなわち、「Ｎ次元のベクトル空間」において、「ハプロタイプ」の行ベクトルに可能な選択肢は、１／２・（２^N）の互いに逆ベクトルとなる「ベクトル対」で構成されている。従って、必要条件（ｂ）は、「ハプロタイプ」：Ｃ_iを示すＮ次元のベクトル中に、互いに逆ベクトルとなる組が、二つ以上存在していない条件：（Ｎ_H−１）≦１／２・２^Nと表現できる。この必要条件（ｂ）：（Ｎ_H−１）≦２^N-1は、勿論、必要条件（ａ）：Ｎ_H≦２^Nをも満たしている。

従って、必要条件（ｂ）：（Ｎ_H−１）≦２^N-1を満たす、最小のＮを先ず決定する。次いで、基となる「Ｎ_SNP次元のベクトル空間」上で定義される行ベクトル（…，ｃ_k（ｉ），…，ｃ_NSNP（ｉ））を、「Ｎ次元のベクトル空間」に投影した行ベクトル（…，ｃ_k'（ｉ），…，ｃ_N（ｉ））を考慮する。この各「ハプロタイプ」：Ｃ_iを示す行ベクトル（…，ｃ_k'（ｉ），…，ｃ_N（ｉ））が、互いに、相違したものとなるようなＮの多型部位で構成される「変異セット」（ｃ_k'）を複数選別する。選別される、「最小数」：Ｎの多型部位で構成される複数の「変異セット」を候補として、「ディプロタイプ」の表現型を表記する、Ｎ次元の行ベクトル（…，｛ｃ_k'（ｉ）＋ｃ_k'（ｊ）｝，…）を考慮する。その際、このＮ次元の行ベクトル（…，｛ｃ_k'（ｉ）＋ｃ_k'（ｊ）｝，…）相互が、同一にならないことを基準に、「最小数」：Ｎの多型部位で構成される「変異セット」を選定する。

本発明の一態様の「最小数」の多型部位で構成される「変異セット」の選別方法は、上記の必要条件（ｂ）：（Ｎ_H−１）≦２^N-1を満たす範囲で、「ハプロタイプ」相互の識別が可能な「変異セット」候補を複数選別する第１の工程を具えている。さらに、第１の工程で選別される、複数の「変異セット」候補について、「ディプロタイプ」の表現型をも識別可能か否かの検証を行う第２の工程を設けている。この第１の工程、第２の工程の二つの関門を通過したものを、「最小数」の多型部位で構成される「変異セット」として、選定する方法としている。

また、本発明の一態様にかかる、「最小数」の多型部位で構成される「変異セット」を選別する方法は、具体的には、その構成、ならびに、その好ましい形態は、下記のように記述することができる。

この態様においては、本発明にかかる「最小数」の多型部位で構成される「変異セット」を選別する方法は、下記の構成を有することが好ましい。

この態様の「変異セット」の選別方法は、
個体の有する相同染色体上、相同遺伝子座を占めるアレル（対立遺伝子）に関して、該個体が属する集団中において、複数種のアレル（対立遺伝子）の存在が確認されている際に適用する。

その複数種のアレル（対立遺伝子）各々に対してＡ（アデニン）、Ｇ（グアニン）、Ｔ（チミン）、Ｃ（シトシン）の塩基で構成される塩基配列に関して、相互の塩基配列をアライメントする。該塩基配列のアライメントによって対比した際、見出される複数の変異箇所中、前記集団中における出現頻度の確率が１％以上である複数の箇所を選択し、該遺伝子の多型部位と定義する。

選択された該遺伝子の多型部位の総数をＮ_snp0と表記する。

前記複数種のアレル（対立遺伝子）相互の区別を行う指標として、該Ｎ_snp0個の多型部位における塩基の種別を用い、各多型部位の塩基として、該集団中における出現頻度の最大の塩基を「野生型アレル（Ｗ）」、それ以外の塩基を「変異型アレル（Ｍ）」と定義する。

前記Ｎ_snp0個の多型部位における塩基の種別の２値化処理を行って、前記複数種のアレル（対立遺伝子）を識別する識別子として、次の行ベクトルを考える。すなわち、前記Ｎ_snp0個の多型部位：ｃ_k（ｋ＝１〜Ｎ_snp0）における、２値化処理された塩基の種別で構成される、Ｎ_snp0個の要素：ｃ_k（ｉ）（ｋ＝１〜Ｎ_snp0）からなる、Ｎ_snp0次元の行ベクトルを定義する。

前記複数種のアレル（対立遺伝子）を、該Ｎ_snp0次元の行ベクトルに基づき分類し、該Ｎ_snp0次元の行ベクトルが同一となるアレル（対立遺伝子）の群を複数種定義し、この定義された複数種のアレル（対立遺伝子）の群を該遺伝子の「ハプロタイプ」と称する。

定義される、該遺伝子の複数種の「ハプロタイプ」の総数をＮ_Hと表記し、該Ｎ_H種の「ハプロタイプ」をＣ_i：i＝１〜Ｎ_Hと表記する。

各個体中に存在する相同遺伝子座を占める、二つのアレル（対立遺伝子）の組み合わせに起因して、その「ハプロタイプ」の組み合わせ（Ｃ_i，Ｃ_j）に由来する、前記Ｎ_snp0個の多型部位における、塩基の種別；ＷとＭの組み合わせの表現型を考える。そして、前記Ｎ_snp0個の多型部位における、塩基の種別；ＷとＭの組み合わせの表現型を、各個体の「ディプロタイプ」：（Ｃ_i，Ｃ_j）と定義する。

本発明では、各個体の有する、二つのアレル（対立遺伝子）の組み合わせを分類する上で利用可能な、各「ハプロタイプ」相互の識別、同時に、その組み合わせである「ディプロタイプ」：（Ｃ_i，Ｃ_j）の相違の識別を行うことを目標とする。更に、各「ハプロタイプ」相互の識別と、「ディプロタイプ」：（Ｃ_i，Ｃ_j）の相違の識別が可能な、前記Ｎ_snp0個の多型部位：ｃ_k（ｋ＝１〜Ｎ_snp0）中から選択される、「最小数」の多型部位で構成される「変異セット」を選定する方法が、本発明で提供される。

その際、該選定方法は、下記の手順を有する。

前記「最小数」の多型部位で構成される「変異セット」を構成する多型部位の個数をＮと表記する際、
条件：（Ｎ_H−１）≦２^N-1を満たすＮの最小値：Ｎ_minを算定する。

その上で、前記Ｎ_snp0個の多型部位：ｃ_k（ｋ＝１〜Ｎ_snp0）中から、該Ｎ_min個以上の多型部位を選択して、構成される「変異セット」の集合の中から、「最小数」の多型部位で構成される「変異セット」を選定する。

該「最小数」の多型部位で構成される「変異セット」を選定する工程は、下記のステップ（ａ）〜（ｉ）の操作を含んでなる第１の工程と、ステップ（ｊ）〜（ｌ）の操作を含んでなる第２の工程を含む。

（第１の工程）：各「ハプロタイプ」相互の識別を行うことが可能な、Ｎ_min個以上の多型部位で構成される「変異セット」を、「最小数」の多型部位で構成される「変異セット」の候補として抽出する、下記のステップ（ａ）〜（ｉ）の操作を含んでなる工程；
ステップ（ａ）：
前記集団中において、その存在が確認されている複数種のアレル（対立遺伝子）の塩基配列の情報を、該遺伝子の多型情報を収納するデータベースから抽出する。抽出された塩基配列の情報に基づき、前記Ｎ_snp0個の多型部位：ｃ_k（ｋ＝１〜Ｎ_snp0）における、２値化処理された塩基の種別で構成される、Ｎ_snp0個の要素：ｃ_k（ｉ）（ｋ＝１〜Ｎ_snp0）からなる、Ｎ_snp0次元の行ベクトルを作成する。次いで、作成されるＮ_snp0次元の行ベクトルの集合中から、互いに、相違するＮ_snp0次元の行ベクトルを示す、該Ｎ_H種の「ハプロタイプ」：Ｃ_i：i＝１〜Ｎ_Hを表記する、Ｎ_snp0次元の行ベクトルＮ_H種を選別する。

ステップ（ｂ）：
前記Ｎ_snp0次元の行ベクトルＮ_H種を用いて、Ｎ_H行×Ｎ_snp0列の行列を形成し、その行列の各列より、Ｎ_snp0個のＮ_H次元の列ベクトルを作成する。各列ベクトル間の対比を行い、相互に同一の列ベクトルの群、ならびに、相互に逆ベクトルの関係にある列ベクトルの群を選択する。選択される列ベクトルの群中の、一つの列ベクトルを選択し、該群に含まれる他の列ベクトルを除去し、前記Ｎ_H行×Ｎ_snp0列の行列から、各列ベクトルが相互に独立している列ベクトルにより構成される部分行列を作成する。該部分行列の列の総数をＮ_snpと表記し、該Ｎ_H行×Ｎ_snp列の行列における、各列を与えている多型部位：ｃ_k（ｋ＝１〜Ｎ_snp）を、該Ｎ_min個以上の多型部位を選択して、構成される「変異セット」の可能な要素として選択する。

ステップ（ｃ）：
Ｎ_H行×Ｎ_snp列の行列において、各「ハプロタイプ」：Ｃ_iを表記する行ベクトル（ｃ_k（ｉ））を、参照行として選択する。他の「ハプロタイプ」：Ｃ_jを表記する行ベクトル（ｃ_k（ｊ））に対して、前記参照行の行ベクトル（ｃ_k（ｉ））と、各要素ｃ_k（ｊ）とｃ_k（ｉ）の比較を行う。比較する要素ｃ_k（ｊ）とｃ_k（ｉ）が、異なる場合、両者間の区別が可能として、ｃ_k（ｊ）を「−」の符号に置換する。この操作を、前記参照行の「ハプロタイプ」：Ｃ_iを表記する行ベクトル（ｃ_k（ｉ））以外の、（Ｎ_H−１）個の行ベクトルに施す。この対比操作の結果を、Ｎ_H行×Ｎ_snp列の行列として、表記し、「ハプロタイプ」：Ｃ_iを表記する行ベクトル（ｃ_k（ｉ））を参照行とする、第１の対比結果の行列とする。

ステップ（ｄ）：
引き続き、各「ハプロタイプ」：Ｃ_iを表記する行ベクトル（ｃ_k（ｉ））を参照行として、同じ対比操作を行う。最終的に、各「ハプロタイプ」：Ｃ_iを表記する行ベクトル（ｃ_k（ｉ））を参照行とする、第１の対比結果の行列を、計Ｎ_H個作成する。

ステップ（ｅ）：
作成される計Ｎ_H個の第１の対比結果の行列を参照し、前記の対比操作が施された後の行、Ｎ_H×（Ｎ_H−１）のうち、「−」の符号へ置き換えが、最小数である行を選択する。この選択された行において、「−」の符号へ置き換えがなされている要素（列）を特定する。この特定される要素（列）を与えている多型部位を特定する。この特定される多型部位を、「最小数」の多型部位で構成される「変異セット」を構成する多型部位の「第１の候補」：ｃ_k1とする。

ステップ（ｆ）：
次いで、「第１の候補」：ｃ_k1と、他の多型部位：ｃ_k：ｃ_k≠ｃ_k1との組み合わせ：（ｃ_k1，ｃ_k）として、計（Ｎ_snp−１）組を考える。

Ｎ_H行×Ｎ_snp列の行列において、各「ハプロタイプ」：Ｃ_iを表記する行ベクトルを、参照行として選択する。他の「ハプロタイプ」：Ｃ_jを表記する行ベクトルに対して、前記参照行の行ベクトルと、各要素対（ｃ_k1（ｉ），ｃ_k（ｉ））と（ｃ_k1（ｊ），ｃ_k（ｊ））の比較を行う。比較する要素対（ｃ_k1（ｉ），ｃ_k（ｉ））と（ｃ_k1（ｊ），ｃ_k（ｊ））が、異なる場合、両者間の区別が可能として、（ｃ_k1（ｊ），ｃ_k（ｊ））を「−」の符号に置換する。この操作を、前記参照行の「ハプロタイプ」：Ｃ_iを表記する行ベクトル以外の、（Ｎ_H−１）個の行ベクトルに施す。この対比操作の結果を、列要素として、計（Ｎ_snp−１）個の（ｃ_k1，ｃ_k）を有する、Ｎ_H行×（Ｎ_snp−１）列の行列として、表記する。このＮ_H行×（Ｎ_snp−１）列の行列を、「ハプロタイプ」：Ｃ_iを表記する行ベクトルを参照行とする、第２の対比結果の行列とする。

引き続き、各「ハプロタイプ」：Ｃ_iを表記する行ベクトルを参照行として、同じ対比操作を行う。最終的に、各「ハプロタイプ」：Ｃ_iを表記する行ベクトルを参照行とする、第２の対比結果の行列を、計Ｎ_H個作成する。

ステップ（ｇ）：
作成される計Ｎ_H個の第２の対比結果の行列を参照し、前記の対比操作が施された後の行Ｎ_H×（Ｎ_H−１）のうち、「−」の符号へ置き換えが、最小数である行を選択する。この選択された行において、「−」の符号へ置き換えがなされている要素対（ｃ_k1，ｃ_k）を特定する。この特定される要素対（ｃ_k1，ｃ_k）を与えている、他の多型部位：ｃ_kを特定する。この特定される、他の多型部位：ｃ_kを、「最小数」の多型部位で構成される「変異セット」を構成する多型部位の「第２の候補」：ｃ_k2とする。

ステップ（ｈ）：
次いで、「第１の候補」：ｃ_k1、「第２の候補」：ｃ_k2と他の多型部位：ｃ_kとの組み合わせ：（ｃ_k1，ｃ_k2，ｃ_k）として、計（Ｎ_snp−２）組を考える。

前記ステップ（ｆ）の対比操作に準じて、対比操作を進め、その結果を、列要素として、計（Ｎ_snp−２）個の（ｃ_k1，ｃ_k2，ｃ_k）を有する、Ｎ_H行×（Ｎ_snp−２）列の行列として、表記する。このＮ_H行×（Ｎ_snp−２）列の行列を、「ハプロタイプ」：Ｃ_iを表記する行ベクトルを参照行とする、第３の対比結果の行列とする。

引き続き、各「ハプロタイプ」：Ｃ_iを表記する行ベクトルを参照行として、同じ対比操作を行う。最終的に、各「ハプロタイプ」：Ｃ_iを表記する行ベクトルを参照行とする、第３の対比結果の行列を、計Ｎ_H個作成する。

作成される計Ｎ_H個の第３の対比結果の行列を参照し、前記の対比操作が施された後の行、Ｎ_H×（Ｎ_H−１）のうち、「−」の符号へ置き換えが、最小数である行を選択する。この選択された行において、「−」の符号へ置き換えがなされている要素組（ｃ_k1，ｃ_k2，ｃ_k）を特定する。この特定される要素組（ｃ_k1，ｃ_k2，ｃ_k）を与えている、他の多型部位：ｃ_kを特定する。この特定される、他の多型部位：ｃ_kを、「最小数」の多型部位で構成される「変異セット」を構成する多型部位の「第３の候補」：ｃ_k3とする。

なお、前記「第２の候補」：ｃ_k2が複数選別されている場合、各（ｃ_k1，ｃ_k2）について、同様の対比操作を行う。

ステップ（ｉ）：
選別される多型部位の総数が、上記のＮ_min個に達するまで、前記ステップ（ｈ）に準じて、多型部位の数を増した組を考え、対比操作を進める。

選別される多型部位の総数が、上記のＮ_min個に達すると、その対比操作の結果を示す対比結果の行列中には、列要素（ｃ_k1，…，ｃ_kNmin）は、全て「−」に書き換えられるものが存在する。この（ｃ_k1，…，ｃ_kNmin）の組は、各「ハプロタイプ」相互の識別を行うことが可能な、Ｎ_min個の多型部位で構成される「変異セット」として、選別される。このステップ（ｉ）において、選別されたＮ_min個の多型部位で構成される複数個の「変異セット」は、下記の第２の工程における、「ディプロタイプ」：（Ｃ_i，Ｃ_j）の相違の識別を行うことが可能な「変異セット」の候補とされる。

（第２の工程）：第１の工程で選別される、Ｎ_min個の多型部位で構成される「変異セット」の候補から、「ディプロタイプ」：（Ｃ_i，Ｃ_j）の相違の識別も可能な「変異セット」を選択する、下記のステップ（ｊ）〜（ｌ）の操作を含んでなる工程；
ステップ（ｊ）：
Ｎ_min個の多型部位で構成される「変異セット」の候補：（ｃ_k1，…，ｃ_kNmin）の一つについて、各「ハプロタイプ」Ｃ_iを表記する、Ｎ_min次元の行ベクトルを定義する。各「ハプロタイプ」の組み合わせ（Ｃ_i，Ｃ_j）に由来する、「ディプロタイプ」：（Ｃ_i，Ｃ_j）を表記する、Ｎ_min次元の行ベクトルを作成する。このＮ_min次元の行ベクトルは、「ハプロタイプ」の組み合わせ（Ｃ_i，Ｃ_j）における、各要素の組み合わせに基づき、「野生型ホモ」、「変異型ホモ」、「ヘテロ」の３種の指標のいずれかにより、表記する。

「野生型ホモ」は、その多型部位において、二つの「ハプロタイプ」（Ｃ_i，Ｃ_j）が、ともに、野生型アレル（Ｗ）である組み合わせ（Ｗ＋Ｗ）を意味する。

「変異型ホモ」は、その多型部位において、二つの「ハプロタイプ」（Ｃ_i，Ｃ_j）が、ともに、変異型アレル（Ｍ）である組み合わせ（Ｍ＋Ｍ）を意味する。

「ヘテロ」は、その多型部位において、二つの「ハプロタイプ」（Ｃ_i，Ｃ_j）が、一方は野生型アレル（Ｗ）、他方は、変異型アレル（Ｍ）である組み合わせ（Ｗ＋Ｍ）を意味する。

「ディプロタイプ」：（Ｃ_i，Ｃ_j）を表記する、Ｎ_min次元の行ベクトルは、各「ハプロタイプ」Ｃ_iを表記する、Ｎ_min次元の行ベクトルを用いて、第１の演算処理を施すことで、その要素を算定する。

ステップ（ｋ）：
各「ディプロタイプ」：（Ｃ_i，Ｃ_j）を表記する、Ｎ_min次元の行ベクトル相互を比較し、同一のＮ_min次元の行ベクトルで表記される、複数の「ディプロタイプ」：（Ｃ_i，Ｃ_j）が存在するか、否かを判定する。

この各「ディプロタイプ」：（Ｃ_i，Ｃ_j）を表記する、Ｎ_min次元の行ベクトル相互の比較は、二つのＮ_min次元の行ベクトルに対して、第２の演算処理を施すことで、同一か否かを判定する。

ステップ（ｌ）：
同一のＮ_min次元の行ベクトルで表記される、複数の「ディプロタイプ」：（Ｃ_i，Ｃ_j）が存在する場合、その「変異セット」：（ｃ_k1，…，ｃ_kNmin）は、「ディプロタイプ」：（Ｃ_i，Ｃ_j）の識別も可能な「変異セット」ではないと判定する。

同一のＮ_min次元の行ベクトルで表記される、複数の「ディプロタイプ」：（Ｃ_i，Ｃ_j）が存在しない場合、その「変異セット」：（ｃ_k1，…，ｃ_kNmin）は、「ディプロタイプ」：（Ｃ_i，Ｃ_j）の識別も可能な「変異セット」であると判定する。

他のＮ_min個の多型部位で構成される「変異セット」の候補：（ｃ_k1，…，ｃ_kNmin）に関して、前記ステップ（ｉ）〜（ｌ）を繰り返す。

最終的に、ステップ（ｌ）において、「ディプロタイプ」：（Ｃ_i，Ｃ_j）の識別も可能な「変異セット」であると判定された「変異セット」：（ｃ_k1，…，ｃ_kNmin）を、「最小数」の多型部位で構成される「変異セット」と選定する。

その際、好ましくは、第１の演算手段は、
各「ハプロタイプ」Ｃ_iを表記する、Ｎ_min次元の行ベクトルに基づき、「ディプロタイプ」：（Ｃ_i，Ｃ_j）を表記する、Ｎ_min次元の行ベクトルを、下記のように定義する。

すなわち、「ハプロタイプ」Ｃ_iを表記する、Ｎ_min次元の行ベクトルと、「ハプロタイプ」Ｃ_jを表記する、Ｎ_min次元の行ベクトルとの「和」によって、これを定義しＮ_min次元の行ベクトルとする。

また、第２の演算手段は、下記の手段で構成することができる。

比較される二つの「ディプロタイプ」：（Ｃ_i，Ｃ_j）を表記する、Ｎ_min次元の行ベクトル間の「差ベクトル」を求める。

該「差ベクトル」が、零ベクトルである場合、同一のＮ_min次元の行ベクトルであると判定する。

該「差ベクトル」が、零ベクトルでない場合、同一のＮ_min次元の行ベクトルではないと判定する。

あるいは、第２の演算手段は、下記の手段で構成することもできる。

比較される二つの「ディプロタイプ」：（Ｃ_i，Ｃ_j）を表記する、Ｎ_min次元の行ベクトル間で、各要素を相互に比較する。

全ての要素が同一である場合、同一のＮ_min次元の行ベクトルであると判定する。

同一でない要素が存在する場合、同一のＮ_min次元の行ベクトルではないと判定する。

上記態様では、本発明の方法においては、
前記遺伝子の多型部位における変異とは、一塩基多型、インサーション、デリーション、リピート配列のいずれかに起因する変異であることができる。

また、本発明にかかる、プローブ・セットの設計方法の一態様では、下記の構成を有することが好ましい。

この態様のプローブ・セットの設計方法は、
個体の有する相同染色体上、相同遺伝子座を占めるアレル（対立遺伝子）に関して、該個体が属する集団中において、複数種のアレル（対立遺伝子）の存在が確認されている際に適用する。

その各々複数種のアレル（対立遺伝子）のＡ（アデニン）、Ｇ（グアニン）、Ｔ（チミン）、Ｃ（シトシン）の塩基で構成される塩基配列に関して、相互の塩基配列をアライメントする。この塩基配列のアライメントによって対比した際、見出される複数の変異箇所中、前記集団中における出現頻度の確率が、１％以上である複数の箇所を選択し、該遺伝子の多型部位と定義する。

前記Ｎ_snp0個の多型部位における塩基の種別の２値化処理を行って、前記複数種のアレル（対立遺伝子）を識別する識別子として、次の行ベクトルを考える。これは、、前記Ｎ_snp0個の多型部位：ｃ_k（ｋ＝１〜Ｎ_snp0）における、２値化処理された塩基の種別で構成される、Ｎ_snp0個の要素：ｃ_k（ｉ）（ｋ＝１〜Ｎ_snp0）からなる、Ｎ_snp0次元の行ベクトルと定義する。

本発明は、各個体の有する、二つのアレル（対立遺伝子）の組み合わせを分類する上で利用可能な、各「ハプロタイプ」相互の識別、同時に、その組み合わせである「ディプロタイプ」：（Ｃ_i，Ｃ_j）の相違の識別を行うことを目標とする。更に、「ハプロタイプ」相互の識別と、「ディプロタイプ」：（Ｃ_i，Ｃ_j）の相違の識別が可能な、前記Ｎ_snp0個の多型部位：ｃ_k（ｋ＝１〜Ｎ_snp0）中から選択される、「最小数」の多型部位で構成される「変異セット」を選定する。

その上で、該「最小数」の多型部位で構成される「変異セット」における、各多型部位における塩基の種別を特定するために利用されるプローブ・セットを設計する方法である。

本発明のプローブ・セットの設計方法において、該プローブ・セットの設計工程は、下記のステップＡとステップＢを含む。

ステップＡ：
上述する本発明の変異セットの選別方法を適用して、「最小数」の多型部位で構成される「変異セット」を選定する。

ステップＢ：
選定された「最小数」の多型部位で構成される「変異セット」の各多型部位について、該多型部位をその塩基配列中に含むように、プローブの塩基配列を選択する。

また、本発明の一態様にかかる、プライマー・セットの設計方法は、下記の構成を有することが好ましい。

この態様のプライマー・セットの設計方法は、
個体の有する相同染色体上、相同遺伝子座を占めるアレル（対立遺伝子）に関して、該個体が属する集団中において、複数種のアレル（対立遺伝子）の存在が確認されている際に適用する。

前記複数種のアレル（対立遺伝子）を、該Ｎ_snp0次元の行ベクトルに基づき分類し、該Ｎ_snp0次元の行ベクトルが同一となる複数種のアレル（対立遺伝子）の群を定義し、この定義された複数種のアレル（対立遺伝子）の群を該遺伝子の「ハプロタイプ」と称する。

各個体の有する、二つのアレル（対立遺伝子）の組み合わせを分類する上で利用可能な、各「ハプロタイプ」相互の識別、同時に、その組み合わせである「ディプロタイプ」：（Ｃ_i，Ｃ_j）の相違の識別を行うことを目標とする。「ハプロタイプ」相互の識別と、「ディプロタイプ」：（Ｃ_i，Ｃ_j）の相違の識別が可能な、前記Ｎ_snp0個の多型部位：ｃ_k（ｋ＝１〜Ｎ_snp0）中から選択される、「最小数」の多型部位で構成される「変異セット」を選定する。

その上で、該「最小数」の多型部位で構成される「変異セット」における、各多型部位における塩基の種別を特定するために利用されるプライマー・セットを設計する方法である。

この態様のプライマー・セットの設計方法において、該プライマー・セットの設計工程は、下記のステップＡとステップＢを含む。

ステップＡ：
上述する本発明の一態様の変異セットの選別方法を適用して、「最小数」の多型部位で構成される「変異セット」を選定する。

ステップＢ：
選定された「最小数」の多型部位で構成される「変異セット」の各多型部位について、該多型部位の塩基配列の解析用プライマーに適する、プライマーの塩基配列を選択する。

なお、本発明の一態様の変異セットの選別方法は、一連の数値演算処理、ならびに、該数値演算処理結果を用いる論理演算処理を行うことで、「最小数」の多型部位で構成される「変異セット」を特定する形態として実施できる。これらの演算処理を含む操作は、コンピュータシステム上で実行するため、専用のソフトウエアとして、記録媒体上に記録する形態にすることが望ましい。

従って、この態様は、前記の「専用のソフトウエア」を収納する、ソフトウエア収納記録媒体の発明をも提供する。

すなわち、この態様のソフトウエア収納記録媒体は、下記のような構成上の特徴を有する。

・上述する本発明の一態様の変異セットの選別方法を適用して、「最小数」の多型部位で構成される「変異セット」を選定するためのものである。

また、本発明の一態様の変異セットの選別方法は、上述するように、「専用のソフトウエア」を用いて、コンピュータシステム上において、その設計操作を実施することが一般的である。従って、本発明は、本発明の変異セットの選別方法を適用して、「最小数」の多型部位で構成される「変異セット」を選定する操作を実施する用途に適するコンピュータシステムの発明をも提供する。

すなわち、本発明の一態様にかかる「最小数」の多型部位で構成される「変異セット」の選定を実行するためのコンピュータシステムは、下記の構成上の特徴を有する。

この態様の「変異セット」選定用コンピュータシステムは、
個体の有する相同染色体上、相同遺伝子座を占めるアレル（対立遺伝子）に関して、該個体が属する集団中において、複数種のアレル（対立遺伝子）の存在が確認されている際に利用される。

その各々複数種のアレル（対立遺伝子）のＡ（アデニン）、Ｇ（グアニン）、Ｔ（チミン）、Ｃ（シトシン）の塩基で構成される塩基配列に関して、相互の塩基配列をアライメントする。該塩基配列のアライメントによって対比した際、見出される複数の変異箇所中、前記集団中における出現頻度の確率が、１％以上である複数の箇所を選択し、該遺伝子の多型部位と定義する。

本発明は、各個体の有する、二つのアレル（対立遺伝子）の組み合わせを分類する上で利用可能な、各「ハプロタイプ」相互の識別、同時に、その組み合わせである「ディプロタイプ」：（Ｃ_i，Ｃ_j）の相違の識別を行うことを目標とし、各「ハプロタイプ」相互の識別と、「ディプロタイプ」：（Ｃ_i，Ｃ_j）の相違の識別が可能な、前記Ｎ_snp0個の多型部位：ｃ_k（ｋ＝１〜Ｎ_snp0）中から選択される、「最小数」の多型部位で構成される「変異セット」を選定する。この「最小数」の多型部位で構成される「変異セット」を選定する作業を実施するための、コンピュータシステムである。

その際、該システムは、
まず、前記「最小数」の多型部位で構成される「変異セット」を構成する多型部位の個数をＮと表記する際、条件：（Ｎ_H−１）≦２^N-1を満たすＮの最小値：Ｎ_minを算定する演算処理を実施する。

次いで、前記Ｎ_snp0個の多型部位：ｃ_k（ｋ＝１〜Ｎ_snp0）中から、該Ｎ_min個以上の多型部位を選択して、構成される「変異セット」の集合の中から、「最小数」の多型部位で構成される「変異セット」を選定する演算処理を実施するシステムである。

該「最小数」の多型部位で構成される「変異セット」を選定する演算処理工程は、下記のステップ（ａ）〜（ｉ）の演算操作を含んでなる第１の工程と、ステップ（ｊ）〜（ｌ）の演算操作を含んでなる第２の工程を含む。

ステップ（ｂ）：
前記Ｎ_snp0次元の行ベクトルＮ_H種を用いて、Ｎ_H行×Ｎ_snp0列の行列を形成し。その行列の各列より、Ｎ_snp0個のＮ_H次元の列ベクトルを作成する。各列ベクトル間の対比を行い、相互に同一の列ベクトルの群、ならびに、相互に逆ベクトルの関係にある列ベクトルの群を選択する。選択される列ベクトルの群中の中から、一つの列ベクトルを選択し、該群に含まれる他の列ベクトルを除去し、前記Ｎ_H行×Ｎ_snp0列の行列から、各列ベクトルが相互に独立している列ベクトルにより構成されている部分行列を作成する。該部分行列の列の総数をＮ_snpと表記し、該Ｎ_H行×Ｎ_snp列の行列における、各列を与えている多型部位：ｃ_k（ｋ＝１〜Ｎ_snp）を、該Ｎ_min個以上の多型部位を選択して、構成される「変異セット」の可能な要素として選択する。

その際、好ましくは、第１の演算手段は、下記の操作で構成する。

各「ハプロタイプ」Ｃ_iを表記する、Ｎ_min次元の行ベクトルに基づき、「ディプロタイプ」：（Ｃ_i，Ｃ_j）を表記する、Ｎ_min次元の行ベクトルを、下記のように定義する。

すなわち、「ハプロタイプ」Ｃ_iを表記する、Ｎ_min次元の行ベクトルと、「ハプロタイプ」Ｃ_jを表記する、Ｎ_min次元の行ベクトルとの「和」によって、定義されるＮ_min次元の行ベクトルとする。

また、第２の演算手段は、下記の操作で構成することができる。

あるいは、第２の演算手段は、下記の操作で構成することもできる。

同一でない要素が存在する場合、同一のＮ_min次元の行ベクトルではないと判定する
本発明のシステムにおいては、
前記遺伝子の多型部位における変異は、一塩基多型、インサーション、デリーション、リピート配列のいずれかに起因する変異であることができる。

一つの態様においては、本発明にかかるコンピュータシステムは、そのハードウエアの構成は、複数の機器例えば、ホストコンピュータ、インタフェース機器、ネットワーク機器のような統合システムであってもよい。あるいは、前記のシステムの演算機能、入出力機能などを具える、一体型のコンピュータであってもよい。

一方、本発明にかかるソフトウエア収納記録媒体では、記憶媒体として、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが利用できる。

なお、実際のコンピュータシステムにおける、一連の処理・操作の実行は、前記コンピュータシステムの記録媒体中に収納されるソフトウエアの読み込みによって行われる。すなわち、ソフトウエアの実装とは、実際に、ソフトウエアの読み込みがなされた状態、あるいは、ソフトウエアの読み込みが可能な状態に、ソフトウエア収納記録媒体をシステムに装着された状態を意味する。ソフトウエアの主要な要素のプログラムは、一連の処理ステップの進行を規定するものであり、その際、利用される各種の演算処理自体は、システム側に設けられていてもよい。勿論、該プログラム中のサブ・セットとして、一体化されていてもよく、プログラム自体に、演算処理を内在する形態であってもよい。

なお、プログラムにより実行される演算処理は、下記の実施形態に記載する各ステップの作業内容を、利用するシステムで実行可能な演算処理に適する形態に定式化したものとする。

以下に、具体例に基づき、本発明をより詳しく説明する。なお、下記の具体例は、本発明の最良の実施形態の一例であるが、本発明は、かかる態様に限定されるものではない。

〔第１の実施形態〕
図１〜図８を参照して、本発明にかかる第１の実施形態を、以下に説明する。

８つの多型部位中から、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６（Ｃ_i：ｉ＝１〜６）を識別でき、同時に、ホモ型（Ｃ_i、Ｃ_i）、ヘテロ型（Ｃ_i、Ｃ_j）の組み合わせの「ディプロタイプ」相互の区別も可能な「最小数の変異セット」を抽出する例を説明する。

（ステップａ−ｂ）
この実施形態では、各「ハプロタイプ」：Ｃ_iは、８つの多型部位における、変異の種別：ｃ_k（ｉ）（ｋ＝１〜８）を用いて、Ｃ_i＝（ｃ₁（ｉ），…，ｃ_k（ｉ），…，ｃ₈（ｉ））と表記する。また、全体の集団における出現頻度確率を評価した場合、各多型部位ｃ_k（ｋ＝１〜８）に関して、最も出現頻度の高い「塩基種類」を、野生型アレル（Ｗ）の塩基と定義する。それ以外の塩基を、変異型アレル（Ｍ）と定義する。「ハプロタイプ」：Ｃ_iの多型部位ｃ_k（ｋ＝１〜８）が、野生型アレル（Ｗ）の場合、ｃ_k（ｉ）＝−１と、変異型アレル（Ｍ）の場合、ｃ_k（ｉ）＝＋１と表記する。

Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６（Ｃ_i：ｉ＝１〜６）に関して、確認されている多型部位の総数はＮ_SNP、各Ｃ_iは、（ｃ₁（ｉ），…，ｃ_k（ｉ），…，ｃ_NSNP（ｉ））となっている。その際、各多型部位ｃ_k（ｋ＝１〜Ｎ_SNP）における列（ｃ_k（１），…，ｃ_k（ｉ），…，ｃ_k（６））を比較し、同じ列ベクトルとなるものがある場合、その複数の多型部位ｃ_kの内一つのみを選択する。すなわち、確認されている多型部位において、同じ列ベクトルを示す複数の多型部位に関しては、それぞれ、その一つを予め選別している。

加えて、各多型部位ｃ_k（ｋ＝１〜Ｎ_SNP）における列（ｃ_k（１），…，ｃ_k（ｉ），…，ｃ_k（６））を比較し、相互に、要素が反転した列ベクトルとなるものがある場合も、その複数の多型部位ｃ_kの内一つのみを選択している。この二つ列は、互いに相違はしているが、各要素を−１⇔＋１と変換すると、同じものとなるため、互いに、「独立」するものとは見做せない。従って、その一方のみを、予め選別している。

以上の操作によって、「等価」と見做せる列ベクトルのうち、一つを残すことによって、検討の対象となる多型部位ｃ_kを限定している。ここでは、選別後、ｋ＝１〜８に限定されている。

図１に、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６を、それぞれＣ_i＝（ｃ₁（ｉ），…，ｃ_k（ｉ），…，ｃ₈（ｉ））と表記し、列（Ｃ₁，…，Ｃ₆）を、６行×８列の行例〔ｃ_k（ｉ）〕として、示している。その際、各列（ｃ_k（１），…，ｃ_k（ｉ），…，ｃ_k（６））は、互いに相違しており、また、各行（ｃ₁（ｉ），…，ｃ_k（ｉ），…，ｃ₈（ｉ））も、互いに相違している。

（ステップｃ−ｉ）
Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６を示す行ベクトルＣ_i＝（ｃ₁（ｉ），…，ｃ_k（ｉ），…，ｃ₈（ｉ））：ｉ＝１〜６は、８次元空間において、互いに区別可能なベクトルと見做せる。

８つの多型部位ｃ_k（ｋ＝１〜８）のうち、Ｎ個の多型部位ｃ_kを選択して、Ｎ次元空間を想定する。Ｎ個の多型部位ｃ_kの選択は、₈Ｃ_N通りあり、それぞれの組み合わせを、Ｎｊ：ｊ＝１〜₈Ｃ_Nと表記する。

組み合わせ：Ｎｊにおける、Ｎ次元空間上において、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６を表記する行ベクトルＣ_i ^Njを考える。この行ベクトルＣ_i ^Njは、前記組み合わせ：Ｎｊ：（ｃ_k ^Nj：k＝１〜Ｎ）に従って、Ｎ次元の行ベクトル（ｃ₁ ^Nj（ｉ），…，ｃ_k ^Nj（ｉ），…，ｃ_N ^Nj（ｉ））と表記される。一方、Ｎ次元の行ベクトルにおいて、各要素を、＋１、−１のいずれかとすると、異なる行ベクトルは、２^N通りしかない。

この２^N通りの行ベクトル中に、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６に対応して、互いに異なる６つの行ベクトルが含まれるためには、少なくとも、６＜２^Nの条件を満足する必要がある。換言すると、この事例では、Ｎは、３以上である必要がある。

なお、２^N通りの行ベクトルは、その要素は、＋１、−１のいずれかであり、全ての要素について、−１⇔＋１と変換すると、同じものとなる、互いに逆ベクトルの関係にある、ベクトル組、２^N-1組で構成されている。

一方、ヘテロ型（Ｃ_i、Ｃ_j）組み合わせの「ディプロタイプ」を、行ベクトル（｛ｃ₁ ^Nj（ｉ）＋ｃ₁ ^Nj（ｊ）｝，…，｛ｃ_k ^Nj（ｉ）＋ｃ_k ^Nj（ｊ）｝，…，｛ｃ_N ^Nj（ｉ）＋ｃ_N ^Nj（ｊ）｝）と表記する。その際、ヘテロ型（Ｃ_i、Ｃ_j）組み合わせが、互いに逆ベクトルの関係にある、ベクトル組であると、｛ｃ_k ^Nj（ｉ）＋ｃ_k ^Nj（ｊ）｝＝０となる。従って、少なくとも、この互いに逆ベクトルの関係にある、ベクトル組に相当するヘテロ型（Ｃ_i、Ｃ_j）の組み合わせの「ディプロタイプ」は、区別不能となる。

換言するならば、ヘテロ型（Ｃ_i、Ｃ_j）の組み合わせの「ディプロタイプ」の全てを区別可能とする必要条件は、下記のようになる。各「ハプロタイプ」：Ｃ_iが、互いに逆ベクトルの関係にある、ベクトル組、２^N-1組から、独立に選択されたものとなっていることである。この事例では、互いに逆ベクトルの関係にある、ベクトル組、２^N-1組から、６つの組を選択できることがその条件となる。従って、少なくとも、６＜２^N-1の条件を満足する必要がある。換言すると、この事例では、Ｎは、４以上である必要がある。

実際に、６つの「ハプロタイプ」：Ｃ_i：ｉ＝１〜６について、「最小数」の多型部位を含む変異セット、すなわち、３個の多型部位からなるセット（ｃ_k ^Nj：ｉ＝１〜３）を考える。その場合、互いに逆ベクトルの関係にある、ベクトル組は、２²組＝４組しかない。従って、少なくとも、４つの「ハプロタイプ」：Ｃ_iは、互いに逆ベクトルの関係にある、ベクトル組となっている。すなわち、ヘテロ型（Ｃ_i、Ｃ_j）組み合わせの「ディプロタイプ」のうち、二つは、（｛ｃ₁ ^Nj（ｉ）＋ｃ₁ ^Nj（ｊ）｝，｛ｃ₂ ^Nj（ｉ）＋ｃ₂ ^Nj（ｊ）｝，｛ｃ₃ ^Nj（ｉ）＋ｃ₃ ^Nj（ｊ）｝）＝（０，０，０）となっている。

仮に、４つの「ハプロタイプ」：Ｃ_i：ｉ＝１〜３，６について、「最小数」の多型部位を含む変異セット、すなわち、３個の多型部位からなるセット（ｃ_k ^Nj：ｉ＝１〜３，６）を考える。その場合、互いに逆ベクトルの関係にある、ベクトル組は、２²組＝４組であるから、４つの「ハプロタイプ」：Ｃ_iは、互いに逆ベクトルの関係にないように選択することが可能となる。一般に、Ｎ_H種の「ハプロタイプ」：Ｃ_iを判別でき、同時に、｛1/2Ｎ_H×（Ｎ_H−１）｝種のヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の区別も可能な「最小数」の多型部位を含む変異セットの数：Ｎは、Ｎ_H≦２^N-1の条件を満たす必要がある。単に、Ｎ_H種の「ハプロタイプ」：Ｃ_iを判別できる、「最小数」の多型部位を含む変異セットの数：Ｎ_minは、場合によっては、Ｎ_H≦２^Nminの条件を満たすのみで十分である。

以下に、単に６種の「ハプロタイプ」：Ｃ_iを判別できる、「最小数」の多型部位を含む変異セット、すなわち、多型部位の数：Ｎ_min＝３の変異セットを選別する工程を先ず説明する。さらに、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の区別も可能な「最小数」の多型部位を含む変異セットの候補となる、多型部位の数：Ｎ＝４の変異セットを選別する工程を説明する。

６種の「ハプロタイプ」：Ｃ_i：ｉ＝１〜６を識別する上では、８個の多型部位ｃ_k（ｋ＝１〜８）全てを判定要素とするのは、確かに冗長である。そのため、有効な「最小数」：Ｎ_minの多型部位を抽出し、最小数の変異セットの組を選別する。ここでは、選別方法として、特開２００５−１９０４２７号公報に開示される「配列を同定するための変異要素のセット抽出方法」を応用する。

（ステップｃ，ｄ）
６行×８列の行例〔ｃ_k（ｉ）〕に示す、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６のうち、「参照行」を一つだけ固定して、列方向に「参照行」の要素と異なる場合には識別可の記号として−に置換する。「参照行」と同値である場合には、そのままの値を保存する。図２は、「参照行」として、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６を、それぞれ選び、前記の比較演算処理を行った結果を、６通りの「６行×８列の行例」として、図示したものである。各「６行×８列の行例」中、黒枠で囲まれた行が「参照行」である。なお、この比較演算処理を施す６行×８列の行例〔ｃ_k（ｉ）〕を、最上部に示す。この６行×８列の行例〔ｃ_k（ｉ）〕は、図１と同じ行列である。

（ステップｅ）
比較演算処理を行った結果のうち、Ｈａｐｌｏｔｙｐｅ３を「参照行」とした結果に着目する。Ｈａｐｌｏｔｙｐｅ５の行に対する比較演算処理結果では、多型部位：ｃ₅（多型５）のみが、「識別可（−）」となっており、それ以外の７つの要素：ｃ_k（５）：ｋ＝１〜４、６〜８は、「消去」されていない。すなわち、少なくとも、Ｈａｐｌｏｔｙｐｅ３とＨａｐｌｏｔｙｐｅ５との間の識別を行う上では、多型部位：ｃ₅（多型５）の判定が不可欠であることが判る。勿論、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６の識別を行う際には、Ｈａｐｌｏｔｙｐｅ３とＨａｐｌｏｔｙｐｅ５との間の識別は必須である。換言するならば、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６の識別を行う上でも、多型部位：ｃ₅（多型５）の判定が不可欠であることになる。従って、「最小数」の多型部位を含む変異セットにおける、多型部位の「第１の候補」として、多型部位：ｃ₅（多型５）が選択される。

（ステップｆ）
次に、多型部位：ｃ₅（多型５）と、他の一つの多型部位を組み合わせ、（ｃ₅，ｃ_k）：ｋ＝１〜４、６〜８を考慮する。６行×７列の行例〔（ｃ₅（ｉ），ｃ_k（ｉ））〕を考え、同様に、「参照行」を一つだけ固定して、列方向に「参照行」の要素と異なる場合には識別可の記号として−に置換する。「参照行」と同値である場合には、そのままの値を保存する。すなわち、（ｃ₅（ｉ），ｃ_k（ｉ））相互を比較して、少なくとも、一方の値が相違していれば、「識別可」とする。（ｃ₅（ｉ），ｃ_k（ｉ））が同じ値の場合、ｃ_k（ｉ）の値を表記する。図３に、前記（ｃ₅（ｉ），ｃ_k（ｉ））相互の比較演算処理結果を、５通りの「６行×７列の行例」として、図示する。列の表示：１５、２５、３５、４５、５６、５７、５８は、おのおの、多型１と５、多型２と５、多型３と５、多型４と５、多型５と６、多型５と７、多型５と８の組み合わせを示す。

（ステップｇ）
比較演算処理を行った結果のうち、Ｈａｐｌｏｔｙｐｅ３を「参照行」とした結果に着目する。Ｈａｐｌｏｔｙｐｅ４の行に対する比較演算処理結果では、多型４と５、多型５と７、多型５と８の組み合わせは、「識別可（−）」となっている。それ以外の４つの組み合わせは、「消去」されていない。

すなわち、Ｈａｐｌｏｔｙｐｅ３とＨａｐｌｏｔｙｐｅ４との間の識別を行う上では、多型４と５（ｃ₄，ｃ₅）、多型５と７（ｃ₅，ｃ₇）、多型５と８（ｃ₅，ｃ₈）の組み合わせ判定のいずれかが不可欠であることが判る。勿論、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６の識別を行う際には、Ｈａｐｌｏｔｙｐｅ３とＨａｐｌｏｔｙｐｅ４との間の識別は必須である。換言するならば、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６の識別を行う上でも、多型４と５（ｃ₄，ｃ₅）、多型５と７（ｃ₅，ｃ₇）、多型５と８（ｃ₅，ｃ₈）の組み合わせ判定のいずれかの判定が不可欠であることになる。従って、「最小数」の多型部位を含む変異セットにおける、多型部位の「第２の候補」として、多型４と５（ｃ₄，ｃ₅）、多型５と７（ｃ₅，ｃ₇）、多型５と８（ｃ₅，ｃ₈）の組み合わせが選択される。

（ステップｈ）
次に、多型４と５（ｃ₄，ｃ₅）と、他の一つの多型部位を組み合わせ、（ｃ₄，ｃ₅，ｃ_k）：ｋ＝１〜３、６〜８を考慮する。６行×６列の行例〔（ｃ₄（ｉ），ｃ₅（ｉ），ｃ_k（ｉ））〕を考え、同様に、「参照行」を一つだけ固定して、列方向に「参照行」の要素と異なる場合には識別可の記号として−に置換する。「参照行」と同値である場合には、そのままの値を保存する。すなわち、（ｃ₄（ｉ），ｃ₅（ｉ），ｃ_k（ｉ））相互を比較して、少なくとも、一方の値が相違していれば、「識別可」とする。（ｃ₄（ｉ），ｃ₅（ｉ），ｃ_k（ｉ））が同じ値の場合、ｃ_k（ｉ）の値を表記する。このとき、多型３、４と５（ｃ₃，ｃ₄，ｃ₅）、多型６、４と５（ｃ₄，ｃ₅，ｃ₆）の組み合わせでは、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６の識別が可能であることが判る。

同様に、多型５と８（ｃ₅，ｃ₈）と、他の一つの多型部位を組み合わせ、（ｃ₅，ｃ₈，ｃ_k）：ｋ＝１〜４、６、７を考慮する。６行×６列の行例〔（ｃ₅（ｉ），ｃ₈（ｉ），ｃ_k（ｉ））〕を考え、同様に、「参照行」を一つだけ固定して、列方向に「参照行」の要素と異なる場合には識別可の記号として−に置換する。「参照行」と同値である場合には、そのままの値を保存する。すなわち、（ｃ₅（ｉ），ｃ₈（ｉ），ｃ_k（ｉ））相互を比較して、少なくとも、一方の値が相違していれば、「識別可」とする。（ｃ₅（ｉ），ｃ₈（ｉ），ｃ_k（ｉ））が同じ値の場合、ｃ_k（ｉ）の値を表記する。このとき、多型３、５と８（ｃ₃，ｃ₅，ｃ₈）、多型６、５と８（ｃ₅，ｃ₆，ｃ₈）の組み合わせでは、Ｈａｐｌｏｔｙｐｅ１〜Ｈａｐｌｏｔｙｐｅ６の識別が可能であることが判る。

また、多型５と７（ｃ₅，ｃ₇）と、他の一つの多型部位を組み合わせ、（ｃ₅，ｃ₇，ｃ_k）：ｋ＝１〜４、６、８を考慮する。６行×６列の行例〔（ｃ₅（ｉ），ｃ₇（ｉ），ｃ_k（ｉ））〕を考え、同様に、「参照行」を一つだけ固定して、列方向に「参照行」の要素と異なる場合には識別可の記号として−に置換する。「参照行」と同値である場合には、そのままの値を保存する。すなわち、（ｃ₅（ｉ），ｃ₇（ｉ），ｃ_k（ｉ））相互を比較して、少なくとも、一方の値が相違していれば、「識別可」とする。（ｃ₅（ｉ），ｃ₇（ｉ），ｃ_k（ｉ））が同じ値の場合、ｃ_k（ｉ）の値を表記する。いずれの組み合わせでも、まだ、「ハプロタイプ」相互の識別できていない組み合わせが、少なくとも一つ残っている。

以上の比較演算処理を行った結果を、図４に併せて示す。

（ステップｉ）
以上のステップｃ〜ｈの結果、全ての「ハプロタイプ」：Ｃ_i：ｉ＝１〜６を識別することが可能な、「最小数」Ｎ_min＝３の多型部位の組み合わせで構成される「変異セット」が選別されている。選別された多型部位の組み合わせは、（ｃ₃，ｃ₄，ｃ₅）、（ｃ₄，ｃ₅，ｃ₆）、（ｃ₃，ｃ₅，ｃ₈）、（ｃ₅，ｃ₆，ｃ₈）の４種のセットである。

上記のヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の区別も可能な「最小数」の多型部位を含む変異セットが選択されるための必要条件；Ｎ_H≦２^N-1は、Ｎ_H＝６では、Ｎ＝４以上である。従って、この「最小数」Ｎ_min＝３の多型部位の組み合わせで構成される「変異セット」は、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の区別も可能な「最小数」の多型部位を含む変異セットでは無いことを、実際に検証する。

（ステップｊ〜ｌ）
（ｃ₃，ｃ₄，ｃ₅）、（ｃ₄，ｃ₅，ｃ₆）、（ｃ₃，ｃ₅，ｃ₈）、（ｃ₅，ｃ₆，ｃ₈）の４種のセットについて、「ハプロタイプ」：Ｃ_i：ｉ＝１〜６を表記する行ベクトルを、図５に示す。これらの行ベクトルを、相互に比較すると、互いに、逆ベクトルとなっているベクトル組が、２組存在している。

ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表記する行ベクトルとして、（ｃ₃，ｃ₄，ｃ₅）のセットでは、（｛ｃ₃（ｉ）＋ｃ₃（ｊ）｝，｛ｃ₄（ｉ）＋ｃ₄（ｊ）｝，｛ｃ₅（ｉ）＋ｃ₅（ｊ）｝）を定義する。（ｃ₄，ｃ₅，ｃ₆）のセットでは、（｛ｃ₄（ｉ）＋ｃ₄（ｊ）｝，｛ｃ₅（ｉ）＋ｃ₅（ｊ）｝，｛ｃ₆（ｉ）＋ｃ₆（ｊ）｝）を定義する。（ｃ₃，ｃ₅，ｃ₈）のセットでは、（｛ｃ₃（ｉ）＋ｃ₃（ｊ）｝，｛ｃ₅（ｉ）＋ｃ₅（ｊ）｝，｛ｃ₈（ｉ）＋ｃ₈（ｊ）｝）を定義する。（ｃ₅，ｃ₆，ｃ₈）のセットでは、（｛ｃ₅（ｉ）＋ｃ₅（ｊ）｝，｛ｃ₆（ｉ）＋ｃ₆（ｊ）｝，｛ｃ₈（ｉ）＋ｃ₈（ｊ）｝）を定義する。

図５には、前記の定義に従って、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表記する行ベクトルを併せて示す。ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」に関して、その「ハプロタイプ」の組み合わせを、例えば、「Ｈａｐｌｏｔｙｐｅ１とＨａｐｌｏｔｙｐｅ２のディプロタイプ」は、「Ｈａｐｌｏｔｙｐｅ１＋２」のように表記している。「＋２」は変異型アレルホモ、「−２」は野生型アレルホモ、「０」はヘテロを意味する。

図５に示すヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表記する行ベクトルを参照すると、いずれの「変異セット」においても、（０，０，０）を示す「ディプロタイプ」が二つ存在している。少なくとも、この二つの「ディプロタイプ」間の区別が不能であることが判る。

その他にも、区別不能な複数の「ディプロタイプ」が存在することを確認する。その目的で、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を示す行ベクトル中に、「０」を二つ以上含むものを抽出する。抽出した結果を、図６に示す。この「０」を二つ以上含むヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の相互比較を行う。すなわち、二つのヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表記する行ベクトル間の「差ベクトル」を求める。すなわち、各要素間の差を算出し、行ベクトルの形式で表記する。二つのヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表記する行ベクトルが同じ場合、求められる「差ベクトル」は、（０，０，０）となる。図６の下段には、この二つのヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表記する行ベクトル間の「差ベクトル」を示す。

（ｃ₃，ｃ₄，ｃ₅）、（ｃ₄，ｃ₅，ｃ₆）、（ｃ₃，ｃ₅，ｃ₈）、（ｃ₅，ｃ₆，ｃ₈）の４種のセットの何れにおいても、（０，０，０）となる「差ベクトル」が三つ存在している。

変異セット（ｃ₃，ｃ₄，ｃ₅）においては、下記のヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の間で、相互の区別が不能となっている。

・「Ｈａｐｌｏｔｙｐｅ１とＨａｐｌｏｔｙｐｅ３のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ５とＨａｐｌｏｔｙｐｅ６のディプロタイプ」；（０，−２，０）
・「Ｈａｐｌｏｔｙｐｅ１とＨａｐｌｏｔｙｐｅ４のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ２とＨａｐｌｏｔｙｐｅ５のディプロタイプ」；（０，０，０）
・「Ｈａｐｌｏｔｙｐｅ２とＨａｐｌｏｔｙｐｅ３のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ４とＨａｐｌｏｔｙｐｅ６のディプロタイプ」；（０，０，−２）
変異セット（ｃ₄，ｃ₅，ｃ₆）においては、下記のヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の間で、相互の区別が不能となっている。

・「Ｈａｐｌｏｔｙｐｅ１とＨａｐｌｏｔｙｐｅ３のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ５とＨａｐｌｏｔｙｐｅ６のディプロタイプ」；（−２，０，０）
・「Ｈａｐｌｏｔｙｐｅ１とＨａｐｌｏｔｙｐｅ４のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ２とＨａｐｌｏｔｙｐｅ５のディプロタイプ」；（０，０，０）
・「Ｈａｐｌｏｔｙｐｅ２とＨａｐｌｏｔｙｐｅ３のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ４とＨａｐｌｏｔｙｐｅ６のディプロタイプ」；（０，−２，０）
変異セット（ｃ₃，ｃ₅，ｃ₈）においては、下記のヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の間で、相互の区別が不能となっている。

・「Ｈａｐｌｏｔｙｐｅ１とＨａｐｌｏｔｙｐｅ３のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ２とＨａｐｌｏｔｙｐｅ５のディプロタイプ」；（０，０，−２）
・「Ｈａｐｌｏｔｙｐｅ１とＨａｐｌｏｔｙｐｅ４のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ５とＨａｐｌｏｔｙｐｅ６のディプロタイプ」；（０，０，０）
・「Ｈａｐｌｏｔｙｐｅ２とＨａｐｌｏｔｙｐｅ４のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ３とＨａｐｌｏｔｙｐｅ６のディプロタイプ」；（０，−２，０）
変異セット（ｃ₅，ｃ₆，ｃ₈）においては、下記のヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の間で、相互の区別が不能となっている。

・「Ｈａｐｌｏｔｙｐｅ１とＨａｐｌｏｔｙｐｅ３のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ２とＨａｐｌｏｔｙｐｅ５のディプロタイプ」；（０，０，−２）
・「Ｈａｐｌｏｔｙｐｅ１とＨａｐｌｏｔｙｐｅ４のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ５とＨａｐｌｏｔｙｐｅ６のディプロタイプ」；（０，０，０）
・「Ｈａｐｌｏｔｙｐｅ２とＨａｐｌｏｔｙｐｅ４のディプロタイプ」と「Ｈａｐｌｏｔｙｐｅ３とＨａｐｌｏｔｙｐｅ６のディプロタイプ」；（−２，０，０）
以上のように、「ハプロタイプ」の識別が可能な「最小数」の多型部位を含む変異セットに関して、上記の必要条件；Ｎ_H≦２^N-1を満たさない場合、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」間に区別不能な組み合わせが残ることが検証される。

従って、必要条件；Ｎ_H≦２^N-1；Ｎ_H＝６では、Ｎ＝４以上を満たすように、４つの多型部位の組み合わせで構成される、「ハプロタイプ」の識別が可能な「変異セット」を新たに見つける。

その際、（ｃ₃，ｃ₄，ｃ₅）、（ｃ₄，ｃ₅，ｃ₆）、（ｃ₃，ｃ₅，ｃ₈）、（ｃ₅，ｃ₆，ｃ₈）の４種のサブ・セット自体でも、「ハプロタイプ」の識別が可能である。従って、さらに一つの多型部位を付加した、（ｃ₃，ｃ₄，ｃ₅，ｃ_k）、（ｃ₄，ｃ₅，ｃ₆，ｃ_k）、（ｃ₃，ｃ₅，ｃ₈，ｃ_k）、（ｃ₅，ｃ₆，ｃ₈，ｃ_k）型の「変異セット」も、「ハプロタイプ」の識別が可能な「変異セット」である。

（ｃ₃，ｃ₄，ｃ₅，ｃ_k）、（ｃ₄，ｃ₅，ｃ₆，ｃ_k）、（ｃ₃，ｃ₅，ｃ₈，ｃ_k）、（ｃ₅，ｃ₆，ｃ₈，ｃ_k）型の「変異セット」として、下記の１６種類が存在する。

・（ｃ₃，ｃ₄，ｃ₅，ｃ_k）型の「変異セット」
（１，３，４，５）、（２，３，４，５）、（３，４，５，６）、（３，４，５，７）、（３，４，５，８）；５種類
・（ｃ₄，ｃ₅，ｃ₆，ｃ_k）型の「変異セット」
（１，４，５，６）、（２，４，５，６）、（４，５，６，７）、（４，５，６，８）；（５−１）種類
・（ｃ₃，ｃ₅，ｃ₈，ｃ_k）型の「変異セット」
（１，３，５，８）、（２，３，５，８）、（３，５，６，８）、（３，５，７，８）：（５−１）種類
・（ｃ₅，ｃ₆，ｃ₈，ｃ_k）型の「変異セット」
（１，５，６，８）、（２，５，６，８）、（５，６，７，８）：（５−２）種類
図４に示す、（ｃ₃，ｃ₄，ｃ₅）、（ｃ₄，ｃ₅，ｃ₆）、（ｃ₃，ｃ₅，ｃ₈）、（ｃ₅，ｃ₆，ｃ₈）以外のサブ・セット；合計｛（３×６）−４｝のサブ・セットについて、一つの多型部位を付加したセットを考える。上記と同様の演算処理を行って、得られる行列型の演算結果に基づき、「ハプロタイプ」の識別が可能な「変異セット」をさらに探索する。「ハプロタイプ」の識別が可能な「変異セット」として、下記の「変異セット」１３種が、さらに選択される。

・（ｃ₁，ｃ₄，ｃ₅，ｃ_k）型の「変異セット」
（１，２，４，５）、（１，４，５，８）；２種類
・（ｃ₂，ｃ₄，ｃ₅，ｃ_k）型の「変異セット」
（２，４，５，７）；１種類
・（ｃ₄，ｃ₅，ｃ₇，ｃ_k）型の「変異セット」
（４，５，７，８）；１種類
・（ｃ₁，ｃ₅，ｃ₇，ｃ_k）型の「変異セット」
（１，２，５，７）、（１，３，５，７）、（１，５，６，７）、（１，５，７，８）；４種類
・（ｃ₂，ｃ₅，ｃ₇，ｃ_k）型の「変異セット」
（２，３，５，７）、（２，５，６，７）、（２，５，７，８）；３種類
・（ｃ₃，ｃ₅，ｃ₇，ｃ_k）型の「変異セット」
（３，５，７，８）；１種類
・（ｃ₁，ｃ₅，ｃ₈，ｃ_k）型の「変異セット」
（１，２，５，８）；１種類
従って、１６種類＋１３種類の「変異セット」が、Ｎ＝４の多型部位の組み合わせで構成される、「ハプロタイプ」の識別が可能な「変異セット」として、選別される。

この２９種の「変異セット」について、各「変異セット」における、６種の「ハプロタイプ」：Ｃ_i：ｉ＝１〜６を表記する行ベクトルを作成する。

例えば、変異セット（ｃ₁，ｃ₄，ｃ₅，ｃ₈）における、６種の「ハプロタイプ」：Ｃ_i：ｉ＝１〜６を表記する行ベクトル（ｃ₁（ｉ），ｃ₄（ｉ），ｃ₅（ｉ），ｃ₈（ｉ））を、図７に示す。また、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表す行ベクトル（｛ｃ₁（ｉ）＋ｃ₁（ｊ）｝，｛ｃ₄（ｉ）＋ｃ₄（ｊ）｝，｛ｃ₅（ｉ）＋ｃ₅（ｊ）｝，｛ｃ₈（ｉ）＋ｃ₈（ｊ）｝）を定義する。このヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表す行ベクトルを、図７の下段に示す。次いで、二つのヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表す行ベクトルの「差ベクトル」を算出する。算出される「差ベクトル」を、図８に示す。

まず、図７に示す、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表す行ベクトル中に、（０，０，０，０）となるものは、一つしか存在していない。また、図８に示される「差ベクトル」中に、（０，０，０，０）となるものは存在していない。すなわち、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表す行ベクトルが、同一となるものは存在していない。換言すると、この変異セット（ｃ₁，ｃ₄，ｃ₅，ｃ₈）を用いる際には、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の全てが識別可能であることが判る。

同様の検証操作を、残る２８種類の「変異セット」に関しても、実施して、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の全てを識別可能な「変異セット」を選択する。以上の検証操作の結果、下記する合計５種の「変異セット」が、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の全てを識別可能である「変異セット」として、選択された。

「変異セット」（１，４，５，８）、（４，５，７，８）、（１，５，７，８）、（３，４，５，８）、（４，５，６，８）
なお、この５種の「変異セット」は、「ハプロタイプ」の全てを識別可能であるので、ホモ型（Ｃ_i、Ｃ_i）「ディプロタイプ」も識別可能である。

上記の例では、必要条件；（Ｎ_H−１）＜Ｎ_H≦２^N-1を満たしている、４つの多型部位の組み合わせで構成される「変異セット」中に、「ハプロタイプ」のみでなく、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の識別も可能である「変異セット」が見出されている。従って、前記の５種の「変異セット」は、「ハプロタイプ」のみでなく、「ディプロタイプ」の識別も可能である、「最小数」の多型部位で構成される「変異セット」となっている。

上記の例では、「ディプロタイプ」：（Ｃ_i、Ｃ_j）を表す行ベクトルを、「ハプロタイプ」Ｃ_iとＣ_jを表す行ベクトルの「和」：（Ｃ_i＋Ｃ_j）を示す行ベクトルとして、定義している。この「和ベクトル」：（Ｃ_i＋Ｃ_j）の総数は、「ハプロタイプ」の種類Ｎ_Hに対して、Ｎ_H＋1/2Ｎ_H・（Ｎ_H−１）＝1/2Ｎ_H・（Ｎ_H＋１）となっている。一方、Ｎ次元で、各要素が、「＋２」、「−２」、「０」のいずれである行ベクトルの種類の総数は、３^Nである。「ディプロタイプ」：（Ｃ_i、Ｃ_j）を表す行ベクトルの相違を識別できるためには、1/2Ｎ_H・（Ｎ_H＋１）≦３^Nの条件を満たすことが必要である。例えば、Ｎ_H＝６の場合、1/2Ｎ_H・（Ｎ_H＋１）＝２１となり、Ｎ＝３の場合、３^N＝２７となり、前記の条件を満たしてはいる。しかし、実際には、Ｎ＝３の場合には、「ディプロタイプ」：（Ｃ_i、Ｃ_j）を表す行ベクトルの相違を識別できる「変異セット」は存在しない。その点からも、上記の必要条件；（Ｎ_H−１）＜Ｎ_H≦２^N-1を採用することが適切であることが示される。

上記の実施形態においては、表現される「ディプロタイプ」が、同一か否かを判定する手段として、「ディプロタイプ」を表記する行ベクトル間で、「差ベクトル」を算出し、算出される「差ベクトル」が、零ベクトルか否かを判定基準としている。この二つの行ベクトルが同一か否かを判定する手段としては、他の比較演算処理を採用することもできる。例えば、二つの行ベクトルＡ，Ａ’の長さ（ｎｏｒｍ（Ａ）、ｎｏｒｍ（Ａ’））をそれぞれ算出する。次いで、二つの行ベクトルの内積：Ａ・Ａ’を算出し、ｎｏｒｍ（Ａ）＝ｎｏｒｍ（Ａ’）、Ａ・Ａ’＝ｎｏｒｍ（Ａ）・ｎｏｒｍ（Ａ’）の場合、二つの行ベクトルが同一であると判定する手段を採用することもできる。

上記の実施形態では、各多型部位における塩基種類（変異）を、「野生型アレル（Ｗ）」と「変異型アレル（Ｍ）」の二つの区分に分類して、「２値化」を行っている。「野生型アレル（Ｗ）」を「−１」、「変異型アレル（Ｍ）」を「＋１」と表記している。また、表現される「ディプロタイプ」においては、「野生型アレル（Ｗ）」のホモ、「変異型アレル（Ｍ）」のホモ、ヘテロの三つの区分となり、それに対応する「三つの値」を利用している。すなわち、「野生型アレル（Ｗ）」のホモ（Ｗ＋Ｗ）を「−２」、「変異型アレル（Ｍ）」のホモ（Ｍ＋Ｍ）を「＋２」、ヘテロ（Ｗ＋Ｍ）を「０」と表記している。

上記の「ハプロタイプ」を表記する行ベクトル間における要素ｃ_k（ｉ）相互の比較演算処理が可能である限り、「野生型アレル（Ｗ）」と「変異型アレル（Ｍ）」の「２値化」表記法は、上記の形式以外を採用することができる。その際、「ディプロタイプ」を表記する行ベクトルの要素｛ｃ_k（ｉ）＋ｃ_k（ｊ）｝に関して、「三つの値」を与えるように、「和演算」を適宜定義することが可能である。

例えば、「野生型アレル（Ｗ）」を「Ａ」、「変異型アレル（Ｍ）」を「Ａ^*」として、表記することができる。その際、「Ａ」は、絶対値｜Ａ｜＝１の複素数とし、「Ａ^*」は、その共役的複素数とする。一方、要素｛ｃ_k（ｉ）＋ｃ_k（ｊ）｝を与える、「和演算」を、｛Ａ＋Ａ｝≡Ａ・Ａ，｛Ａ^*＋Ａ^*｝≡Ａ^*・Ａ^*，｛Ａ＋Ａ^*｝≡Ａ・Ａ^*＝１（但し、Ａ・Ａ≠Ａ^*・Ａ^*）と、「複素数の乗算」の形式で定義することも可能である。

従来の「ハプロタイプ」の全てを識別可能な「最小数」の多型部位で構成される「変異セット」を選定する方法は、「ハプロタイプ」のみでなく、「ディプロタイプ」の識別も可能であるための必要条件：Ｎ_H≦２^N-1を考慮していないものであった。従って、前記の必要条件：Ｎ_H≦２^N-1を満足しない「多型部位の個数：Ｎ」、上記の例では、Ｎ＝３の条件で、「ハプロタイプ」の全てを識別可能な「最小数」の多型部位で構成される「変異セット」を選択している。このＮ＝３の条件で選択される「変異セット」は、必要条件：Ｎ_H≦２^N-1を満足してないため、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」のうち、幾つかに関しては、その組み合わせ（Ｃ_i、Ｃ_j）の識別ができないものであった。

本発明では、「ハプロタイプ」のみでなく、「ディプロタイプ」の識別も可能である、「最小数」の多型部位で構成される「変異セット」を選択するため、前記の必要条件：Ｎ_H≦２^N-1を満足する「変異セット」を対象として、選別操作を行っている。その際、必要条件：Ｎ_H≦２^N-1を満足する「変異セット」中から、「ハプロタイプ」の全てを識別可能な「最小数」の多型部位で構成される複数個の「変異セット」を、候補として選択する。次いで、この「変異セット」候補について、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の全てを識別可能か否かの検証操作を施し、実際に、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の全てを識別可能なものを選別している。

本発明の「最小数」の多型部位で構成される「変異セット」の選別法では、各多型部位における、塩基種類を、「野生型アレル（Ｗ）」と「変異型アレル（Ｍ）」の二つの区分に分類して、「２値化」を行っている。従って、「一塩基多型」のみでなく、インサーション型、デリーション型の変異であっても、「野生型アレル（Ｗ）」と「変異型アレル（Ｍ）」の二つの区分に分類して、「２値化」可能なものも対象とできる。

一方、「ハプロタイプ」と、「ハプロタイプ」対で表記される「ディプロタイプ」を対象とするため、一般に、一組の相同染色体上の、相同の遺伝子座に、一対のアレル（対立遺伝子）が存在している系を対象とする。すなわち、識別の対象となる「ハプロタイプ」対が、一組の相同染色体上の、相同の遺伝子座に、一対のアレル（対立遺伝子）として存在する限り、個体の生物種、属、株に制限はない。通常、一つの遺伝子内に存在する複数個の多型部位によって決定される「ハプロタイプ」を対象とする。しかしながら、複数の遺伝子からなる「遺伝子群」を対象として、この「遺伝子群」中に散在している複数個の多型部位によって決定される「ハプロタイプ」を対象とすることもできる。

本発明では、既に「塩基配列」が判明している複数種の「ハプロタイプ」を対象として、その塩基配列中に存在する「多型部位」が、「野生型アレル（Ｗ）」と「変異型アレル（Ｍ）」のいずれかを測定することを前提としている。本発明にかかる方法は、この測定すべき「多型部位」の種類を選択する際に利用される。すなわち、各個体が有している「ハプロタイプ」対に対して、該遺伝子の塩基配列中に存在している複数個の「多型部位」のうち、測定すべき「最小数」の「多型部位」の種類（位置）を選択する際に利用される。各「多型部位」の種類（位置）に応じて、その部位の塩基（変異）が「野生型アレル（Ｗ）」と「変異型アレル（Ｍ）」のいずれかを判定するため、それぞれ、専用のプローブまたは、配列解析用のプライマーを作製する。その際、作製すべきプローブまたは、プライマーの種類の総数を、必要最小限に留める上では、本発明にかかる選別方法を応用して、「最小数」の多型部位で構成される「変異セット」を決定することが有効である。勿論、「最小数」の多型部位で構成される「変異セット」に対応する「変異測定」を行うため、測定に利用する検出デバイスのコスト・パフォーマンスを向上させる目的でも有効である。

本発明にかかる「塩基配列を識別する変異セット」の選別法は、その塩基配列中に変異を有する遺伝子の変異分析、また、該遺伝子の変異分析を応用した診断の分野において、該遺伝子の変異分析に利用される核酸プローブ、プライマーを設計する際利用できる。

本発明の第１の実施形態において、識別の対象とする「ハプロタイプ」６種と、「変異セット」を構成する際、その要素の候補となる、８箇所の多型部位を説明する図である。「ハプロタイプ」６種が示す該８箇所の多型部位における塩基の種別；変異型アレル（Ｍ）、野生型アレル（Ｗ）を、行列形式で表記している。本発明の第１の実施形態において、「ハプロタイプ」６種を識別可能な、「最小数」の多型部位で構成される「変異セット」を選定する工程中、該「変異セット」に含まれる多型部位の「第１の候補」（ｃ_k1）を選択するステップｃ〜ｅを説明する図である。「ハプロタイプ」６種を表記する行ベクトルの一つを「参照行」とし、他の行ベクトルと、要素｛ｃ_k｝が同じか、異なるかの比較演算を行い、異なると判断される結果を、「−」で示す。本発明の第１の実施形態において、「ハプロタイプ」６種を識別可能な、「最小数」の多型部位で構成される「変異セット」を選定する工程中、該「変異セット」に含まれる多型部位の「第２の候補」（ｃ_k2）を選択するステップｆ〜ｇを説明する図である。「第１の候補」（ｃ_k1）と、他の多型部位（ｃ_k）との組み合わせ（ｃ_k1，ｃ_k）について、その要素対｛ｃ_k1，ｃ_k｝を考慮する。「ハプロタイプ」６種を表記する行ベクトルの一つを「参照行」とし、他の行ベクトルと、要素対｛ｃ_k1，ｃ_k｝が同じか、異なるかの比較演算を行い、異なると判断される結果を、「−」で示す。本発明の第１の実施形態において、「ハプロタイプ」６種を識別可能な、「最小数」の多型部位で構成される「変異セット」を選定する工程中、該「変異セット」に含まれる多型部位の「第２の候補」（ｃ_k2）を選択するステップｈを説明する図である。「第１の候補」（ｃ_k1）、「第２の候補」（ｃ_k2）と、他の多型部位（ｃ_k）との組み合わせ（ｃ_k1，ｃ_k2，ｃ_k）について、その要素ベクトル｛ｃ_k1，ｃ_k2，ｃ_k｝を考慮する。「ハプロタイプ」６種を表記する行ベクトルの一つを「参照行」とし、他の行ベクトルと、要素ベクトル｛ｃ_k1，ｃ_k2，ｃ_k｝が同じか、異なるかの比較演算を行い、異なると判断される結果を、「−」で示す。本発明の第１の実施形態において、３箇所の多型部位で構成される「変異セット」中から選別された、「ハプロタイプ」６種を識別可能な「変異セット」を示す図である。また、該「変異セット」において、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表記する行ベクトルの要素｛ｃ_k（ｉ）＋ｃ_k（ｊ）｝を併せて示す。本発明の第１の実施形態において、「ハプロタイプ」６種を識別可能な、３箇所の多型部位で構成される「変異セット」において、表現が等しくなるヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を抽出する（ステップｋ）の操作を示す図である。上段に、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表記する行ベクトル中、「０」と表記される要素を２以上含むものを選別した結果をしめす。下段には、上段に示すヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」において、二つのヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表記する行ベクトルの「差ベクトル」の算出結果を示す。「差ベクトル」が、零ベクトルとなり、二つのヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」が同一の表現を示す組み合わせを、網掛け表示で示す。本発明の第１の実施形態において、４箇所の多型部位で構成される「変異セット」中から選別された、「ハプロタイプ」６種を識別可能な「変異セット」の一例：（ｃ₁，ｃ₄，ｃ₅，ｃ₈）を示す図である。また、該「変異セット」において、ヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表記する行ベクトルの要素｛ｃ_k（ｉ）＋ｃ_k（ｊ）｝を併せて示す。本発明の第１の実施形態において、「ハプロタイプ」６種を識別可能な、４箇所の多型部位で構成される「変異セット」において、表現が等しくなるヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」の有無を確認する（ステップｋ）の操作を示す図である。二つのヘテロ型（Ｃ_i、Ｃ_j）「ディプロタイプ」を表記する行ベクトルの「差ベクトル」の算出結果を示す。

Claims

ハプロタイプの組み合わせであるディプロタイプを識別する変異セットの選別法において、
ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する第一の工程と、
前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する第二の工程とを有する
ことを特徴とする変異セットの選別法。
Ａ（アデニン）、Ｇ（グアニン）、Ｔ（チミン）、Ｃ（シトシン）の塩基配列で構成される複数の個体のＤＮＡ配列についてアライメントし、
アライメントした結果、１％以上の頻度で見られる変異を多型と定義し、
定義された多型部位を複数箇所、個々の個体を識別する識別子として、該識別子を用いて、前記変異セットが定義されている
ことを特徴とする請求項１に記載の変異セットの選別法。
前記変異セットは、
個々の個体が有するハプロタイプを識別する識別子として、
定義された多型部位の複数箇所について、野生型アレル、変異型アレルを識別可能な文字表記を行って、ハプロタイプ配列の形態で定義されている
ことを特徴とする請求項２に記載の変異セットの選別法。
前記変異セットは、
多型と定義される変異として、
一塩基多型、インサーション、デリーション、リピート配列を含むセットである
ことを特徴とする請求項２または３に記載の変異セットの選別法。
前記ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する第一の工程では、
ハプロタイプ配列の形態で定義されている個体数分の変異セットを、並列することで、各個体のハプロタイプ配列を行に、定義された多型部位の複数箇所の各変異を列として、行列を構築した上で、
特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セットを複数抽出し、
該ハプロタイプの情報量として必要十分な最小数の変異セット複数を、ディプロタイプの表現型をも識別可能な最小の変異セットの候補として、選別する
ことを特徴とする請求項３に記載の変異セット選別方法。
前記ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する第一の工程において、
特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セット複数の抽出は、下記のステップ（ａ）〜（ｉ）を含む操作によって行われる
ことを特徴とする請求項５に記載の変異セット選別方法。
（ａ）複数の変異セットの候補を多型情報データベースから抽出し、変異部位だけで構成されたハプロタイプ配列を取得するステップ；
（ｂ）識別したい複数の個体の配列行に対して、アライメントされた変異セットの列について、列方向に野生型か変異型かを表現するパターンが同一、もしくは反転しているセットが他にある場合には、その列のセットを除外するステップ；
（ｃ）識別したい複数の個体の配列行に対して、一つ参照行を決め、各変異セットの列方向で参照行と異なる要素がある場合に、消去し参照行と識別できることを表示するステップ；
（ｄ）順に全ての個体の配列行に対して、参照行として、ステップ（ｃ）を繰り返し、全ての配列行の組合せについて比較し、消去演算するステップ；
（ｅ）全ての個体の配列行について、行方向に消去された要素数をカウントし、最も少ない配列行の消去された列を変異セットの第１の候補とするステップ；
（ｆ）第１の候補の変異列を固定し、他の異なる列と組合せ、全ての組合せで行方向にスクリーニングして、消去した要素を少なくとも１つ含む場合には、その行を消去し他の行と識別できることを表示し、第１の候補が複数ある場合には、その各々に対して処理を実行するステップ；
（ｇ）全ての個体の配列行について、行方向に消去された要素数をカウントし、最も少ない配列行の消去された列セットを、変異セットの第２の候補とし、第２の候補は、第１の候補を継承するステップ；
（ｈ）第２の候補の変異列セットを固定し、他の異なる列と組合せ、ステップ（ｆ）からステップ（ｇ）の操作を繰り返すステップ；
（ｉ）候補の変異列セットにおいて、列方向の要素が全て消去されると、一個体の特定配列を識別するための必要十分な最小数の変異セットとして決定するステップ。
前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する第二の工程では、
特定の個体のハプロタイプ配列を識別するために、ハプロタイプの情報量として必要十分な最小数の変異セット複数として抽出された、複数の変異セット候補から、個人のディプロタイプが重複しないように、最小数の最適な変異セットを抽出する
ことを特徴とする請求項６に記載の変異セット選別方法。
前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する第二の工程においては、
ディプロタイプの表現型をも識別可能な最小の変異セットの選別は、
前記の最小数変異セットの候補に対して、全て個体の配列行の組合せについてディプロタイプを演算する下記の（ｊ）〜（ｌ）のステップを含む操作によって行われる
ことを特徴とする請求項７記載の変異セット選別方法。
（ｊ）野生型アレル、変異型アレルを識別し、同一列の要素を第１の演算方法で処理することでディプロタイプの要素として、野生型ホモ、変異型ホモ、ヘテロを出力するステップ。
（ｋ）前記のディプロタイプの組合せ全てに対して、同一変異列の要素を第２の演算方法で処理することで同一のディプロタイプが複数あるか否かを検証するステップ。
（ｌ）・同一ディプロタイプが複数ある場合には、当該の変異セットを候補から除外し、別箇の変異セットでステップ（ｊ）〜ステップ（ｌ）を繰り返す；
・全てのディプロタイプが単独で存在する場合には、その変異セットを最適化された候補とする；
あるいは
・全ての最小数変異セットについて候補がない場合には、変異セットの列数を増やして、前記工程１のステップ（ａ）からステップ（ｉ）、ならびにステップ（ｊ）からステップ（ｌ）の処理を繰り返す；
前記の三種の操作のいずれかを行うステップ。
前記ステップ（ｊ）の第１の演算方法の処理において、
前記の変異セットの候補に対して、野生型アレル、変異型アレルを識別可能な文字表記したハプロタイプ配列について、各配列の異なる全ての組合せの間で和演算処理をし、その演算結果により、野生型ホモ、変異型ホモ、ヘテロを識別し、それをディプロタイプ配列とする
ことを特徴とする請求項８に記載の変異セット選別方法。
前記ステップ（ｋ）の第２の演算方法の処理において、
前記のディプロタイプ配列について異なる全ての組合せの間で減演算処理をし、その演算結果がすべて０になる組合せについて、異なるハプロタイプ配列のセットで同一のディプロタイプ配列を表現する組み合わせが存在すると判断する
ことを特徴とする請求項９に記載の変異セット選別方法。
前記ステップ（ｋ）の第２の演算方法の処理において、
前記ディプロタイプ配列について異なる全ての組合せに間で比較演算処理をし、その演算結果が全て同値である組合せについて、異なるハプロタイプ配列のセットで同一のディプロタイプ配列を表現する組み合わせが存在すると判断する
ことを特徴とする請求項９に記載の変異セット選別方法。
異なる全てのハプロタイプの組合せが異なるディプロタイプ型を示すように選択された変異セット、もしくは、異なるハプロタイプの組合せによって同じディプロタイプ型を示す組数が最小数になるように選択された変異セットを選別する
ことを特徴とする請求項８〜１１のいずれか一項に記載の変異セット選別方法。
ハプロタイプ相互の識別、ならびに、ディプロタイプの表現型をも識別可能な最小の変異セットに対して、該最小の変異セットを構成する、多型部位の複数箇所について、それぞれの塩基の種別を特定するために利用されるプローブ・セットを設計する方法であって、
該プローブ・セットの設計工程は、下記のステップＡとステップＢを含む
ことを特徴とするプローブ・セットの設計方法。
ステップＡ：
請求項１〜１１のいずれか一項に記載の変異セットの選別方法を適用して、最小の変異セットを選定する。
ステップＢ：
選定された最小の変異セットを構成する各多型部位について、該多型部位をその塩基配列中に含ように、プローブの塩基配列を選択する。
ハプロタイプ相互の識別、ならびに、ディプロタイプの表現型をも識別可能な最小の変異セットに対して、該最小の変異セットを構成する、多型部位の複数箇所について、それぞれの塩基の種別を特定するために利用されるプライマー・セットを設計する方法であって、
該プライマー・セットの設計工程は、下記のステップＡとステップＢを含む
ことを特徴とするプローブ・セットの設計方法。
ステップＡ：
請求項１〜１１のいずれか一項に記載の変異セットの選別方法を適用して、最小の変異セットを選定する。
ステップＢ：
選定された最小の変異セットを構成する各多型部位について、該多型部位の塩基の種類を特定可能なように、プライマーの塩基配列を選択する。
請求項１〜１１のいずれか一項に記載される変異セットの選別方法を適用して、最小の変異セットを選定するための、一連の数値演算処理、ならびに、該数値演算処理結果を用いる論理演算処理をコンピュータシステム上で実行するためのプログラムを、該コンピュータシステムにおいて実行可能なプログラム言語により表記したソフトウエアを記録媒体上に電子的に収納してなる
ことを特徴とする、ソフトウエア収納記録媒体。
ハプロタイプの組み合わせであるディプロタイプを識別する変異セットを選別する作業を実施するための、コンピュータシステムであって、
該システムは、
ハプロタイプ相互の識別が可能な最小の変異セットを複数選別する、第一の演算処理を実施する第一の工程と、
前記第一の工程で選別された複数の変異セット候補から、ディプロタイプの表現型をも識別可能な最小の変異セットを選別する、第二の演算処理を実施する第二の工程とを具えている
ことを特徴とする変異セットの選別システム。