JP6310456B2

JP6310456B2 - ツリー型空間データ構造を使用した遺伝子データセットの母集団分類

Info

Publication number: JP6310456B2
Application number: JP2015525996A
Authority: JP
Inventors: チャクラバルティ，ビスワループ; ムニヤッパ，プラカッシュ; クマール，スニル; シン，ランディープ; クマール，スボード; マトゥール，アシュワタ
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2012-08-07
Filing date: 2013-08-07
Publication date: 2018-04-11
Anticipated expiration: 2033-08-07
Also published as: EP2883179A2; BR112015002556A2; CN111667885A; WO2014024142A3; CN104541276A; RU2015108003A; WO2014024142A2; JP2015526816A; US20150186596A1

Description

以下は、遺伝子解析技術及び医療技術に関し、さらに、腫瘍学技術及び獣医学技術等を含む医療技術等の遺伝子解析技術の適用に関する。

大きな遺伝子データセットは、何万から何十万もの遺伝子データポイントを生じる能力を持つマイクロアレイであって、例えばデータポイントのそれぞれが、標的タンパク質等の発現レベルに相当する、マイクロアレイ、並びに、長い配列、及び、百万を超える塩基に等しい全ゲノムの配列でさえも出力する能力を持つ「次世代」のシーケンシングシステム等の技術を使用して、個々に対して取得することができる。そのようなデータセットから、一塩基多型（ＳＮＰ）、コピー数多型（ＣＮＶ）等、例えば特定のタイプの癌を示す医学的証拠となる種々の遺伝子マーカーを同定することができる。

そのような遺伝子マーカーの解釈は、民族性、性別若しくは一部の他の母集団グループ化による個々の分類の知識によって促進されるか、又は場合によっては、そのような知識を要求さえもするということが既知である。例えば、一部のゲノム変異体（本明細書において使用される場合、「遺伝子」及び「ゲノム」は交換可能であるとみなされるということに留意されたい）は、母集団に応じて２つ以上の異なる遺伝性障害に関連づけられてきた。場合によっては、１つの対立遺伝子は、１つの母集団においてメジャーな対立遺伝子であり、別の母集団においてはマイナーな（且つ疾患を示す）対立遺伝子である。このように、適切な母集団を知ることは、遺伝子変異体の適切な解釈のために有用であるか又は要求さえされる。

場合によっては、遺伝子データセットは、現存する知識及び／又は観察された表現型に基づき分類することができる。例えば、患者の性別又は民族性は、既知であるか又は自己申告され得る。しかし、このアプローチは、エラーの傾向があり得る。一部の分類は、対象及び処理を行う医療関係者には知らされていない場合もあり得る。例えば、患者は、診断未確定の医学的状態によって、又は、特定の疾患に対する傾向を示す遺伝子サインによって定められた母集団のグループに気づかずに属し得る。適切な母集団の同定は、一部の治療の効きめが母集団間で異なり得るためにも、疾病管理において重要である。さらに、遺伝子データセットは、事務上の誤り若しくは漏れ、又は、個人のプライバシー若しくは文化的感受性の尊重のため、利用可能な分類情報でラベルされない場合もある。

母集団への遺伝子データセットの割当は、或いは、遺伝子型及び発現／メチル化状態等の母集団特異的遺伝子マーカーに基づき得る。このアプローチは、有利に、遺伝子データセット自体から母集団グループ化情報を引き出す。

新たな個体に対して遺伝子解析を行う場合、取得される遺伝子データセットは、この母集団分類に供される。同様に、個体の母集団内の部分母集団の遺伝子解析を行う場合、そのような分類は、ここでも、準備作業である。遺伝子データセットの母集団分類は、典型的に、時間のかかるプロセスであり、分析中のそれぞれの新たな遺伝子データセット（例えばそれぞれの新たな患者）に対して行われなければならない。

さらに、遺伝子データセットにおける別々の遺伝子マーカー（例えば、特異的な母集団を示す対立遺伝子等）を観察することを当てにする母集団分類アプローチは、母集団分類プロセスにおいて完全な遺伝子データセットを使用しない。

以下は、前述の限定等を克服する改善された器具及び方法を熟考している。

一態様によると、非一時的（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙ）な記憶媒体が、参照母集団の遺伝子データセットを表す特徴ベクトルに対する特徴削減を行って、特徴ベクトルの次元数と比較して削減された次元数のベクトル空間に特徴ベクトルを位置づけるマッピングを生じるステップ、マッピングを使用して、参照母集団の遺伝子データセットの削減された次元数のベクトル表現を生じるステップ、及び、ツリー型空間データ構造におけるデータポイントとして、参照母集団の遺伝子データセットの削減された次元数のベクトル表現を記憶するステップを含む方法を行う、電子データ処理装置によって実行可能な命令を記憶する。マッピングは、適切に一次変換であり、Ｙ＝Ｍ（Ｘ）であってもよく、Ｘは、遺伝子データセットを表す特徴ベクトルであり、Ｙは、遺伝子データセットの削減された次元数のベクトル表現であり、さらに、Ｍは、変換マトリクスである。特徴削減は、主成分分析（ＰＣＡ）を利用してもよい。方法は、さらに、参照母集団の遺伝子データセットが取得された対象に関する情報を用いて、ツリー型空間データ構造におけるデータポイントに注釈をつけるステップ、及び、データポイントの分布及びその注釈に基づき、例えば、ツリー型空間データ構造によって指標をつけられた空間における注釈をつけたデータポイントのクラスタリングを行うことによって、ツリー型空間データ構造の空間領域を、参照母集団内の母集団に関連づけるステップを含んでもよい。方法は、さらに、マッピングを使用して、発端者の遺伝子データセットの発端者の削減された次元数のベクトル表現を生じるステップ、ツリー型空間データ構造において、発端者の削減された次元数のベクトル表現を位置づけるステップ、及び、ツリー型空間データ構造におけるその位置に基づき、発端者の遺伝子データセットを分類するステップを含んでもよい。

別の態様によると、器具が、すぐ前の段落において明記された非一時的な記憶媒体、並びに、非一時的な記憶媒体上に記憶された命令を読み出す及び実行するように構成される電子データ処理装置を含む。

別の態様によると、方法が、遺伝子データセットを表す特徴ベクトルを構築するステップ、一次変換を使用して特徴ベクトルの次元数を削減し、遺伝子データセットの削減された次元数のベクトル表現を生じるステップ、ツリー型空間データ構造において、遺伝子データセットの削減された次元数のベクトル表現を位置づけるステップ、及び、ツリー型空間データ構造におけるその削減された次元数のベクトル表現の位置に基づき、１つ又は複数の母集団に遺伝子データセットを割り当てるステップを含む。少なくとも構築するステップ、生じるステップ及び位置づけるステップは、電子データ処理装置によって適切に行われる。

別の態様によると、器具が、参照母集団の参照遺伝子データセットを表す参照特徴ベクトルを構築する、一次変換を使用して参照特徴ベクトルを変換し、参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現を生じる、及び、ツリー型空間データ構造を構築し、参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現の少なくともいくつかの次元によって定められるデータポイントとして、参照遺伝子データセットに指標をつけるようにプログラムされた電子データ処理装置を含む。一次変換は、参照特徴ベクトルに対して特徴削減を行うことによって生じてもよい。

１つの利点が、より効率的な遺伝子データセットの母集団分類又はグループ化に属する。

別の利点が、より正確な遺伝子データセットの母集団分類又はグループ化に属する。

別の利点が、より細かく分解された母集団グループまで容易に拡張可能な（すなわち、定義となるような部分母集団まで拡張可能な）母集団分類の枠組みを提供することに属する。

別の利点が、所定の別々の遺伝子マーカーに基づくのではなく凝集した遺伝子データセットに基づき、遺伝子データセットの母集団分類又はグループ化を行うことに属する。

別の利点が、例えば、分類されることになる各サンプルに対して新たに特徴削減を行うことなく予め計算された一次変換を使用して、計算の複雑性が減少した母集団分類を行うことに属する。

以下の詳細な説明を読むことによって、数多くのさらなる利点及び利益が当業者には明らかになる。

本発明は、種々の要素及び要素の取り合わせにおいて、並びに、種々のプロセス動作及びプロセス動作の取り合わせにおいて具体化することができる。図面は、好ましい実施形態を例示する目的のためだけにあり、本発明を限定するとして解釈されることはない。

ツリー型空間データ構造（ＳＤＳ）を利用する母集団分類子を生じるためのシステムの概略図である。二次元のデータポイントが使用された場合に図１のシステムによって適切に生じた例示的な４分木構造の概略図である。三次元のデータポイントが使用された場合に図１のシステムによって適切に生じた例示的な８分木ＳＤＳの概略図である。図１のシステムによって生じた母集団分類子の動作の概略図である。

図１を参考にすると、遺伝子データセットを分類するための母集団分類子を生じるためのシステムが概略的に示されている。当該システムは、開示される処理動作を行うようにプログラムされたコンピュータ又は他の電子データ処理装置１０によって適切に実行され、さらに、入力として、参照母集団のメンバーに対する複数の遺伝子データセット１２を受けている。遺伝子データセットは、例えば、マイクロアレイ又は他の実験処理を使用して生じる遺伝子シーケンシングデータ（核ＤＮＡ、ミトコンドリアＤＮＡ、ＲＮＡ又はメチル化データ等）、タンパク質発現データを含み得る。一部の実施形態において、遺伝子データセット１２は、全ゲノムの配列のＷＧＳデータセット、又は、次世代のシーケンシング器具によって生じる他の実質的な遺伝子配列を含む。遺伝子データセット１２は、任意で、例えばシーケンシングデータ及びマイクロアレイデータ両方等、２つ以上のタイプの遺伝子データを含んでもよい。遺伝子データセット１２は、実質的に重複しており（すなわち、同じ遺伝子領域を含む、又は、同じ標準的なマイクロアレイから生じる等）、さらに、標準化されたフィルタリング及び／又は処理１４を受ける。「標準化された」とは、遺伝子データセット１２が全て同じフィルタリング及び／又は処理１４を受けるということを意味し、例示的な例として、一塩基多型（ＳＮＰ）若しくはコピー数多型（ＣＮＶ）のような他の遺伝子変異体の同定、遺伝子発現量の規準化、データの２値化（若しくはより漠然とした離散化）又は異常値の除去等を含んでもよい。動作１６において、標準化された特徴ベクトルＸが、それぞれのフィルターがかけられた／処理された参照遺伝子データセットに対して生じる。「標準化された」とは、各特徴ベクトルＸが、対応するベクトル要素と同じ数の次元（すなわち、同じ次元数）を有するということを意味し、例えば、ベクトル要素ｘ_３が１つの特徴ベクトルにおいて特定のＳＮＰを表す場合、従って、ベクトル要素ｘ_３は、全ての他の特徴ベクトルにおいても同じＳＮＰを表す。動作１４、１６の出力は、参照遺伝子データセット１２のセットに対応し且つ該セットを表す特徴ベクトルＸのセットである。このように、参照遺伝子データセット１２のセットにおいてｍの個体がある場合、従って、ｍの対応する特徴ベクトルがある。

一般に、特徴ベクトルＸは、高次元数のものであってもよく、例えば、それぞれの特徴ベクトルＸは、何百、何千、何万又はそれ以上の特徴（すなわちベクトル要素）を含有する。ゲノム科学の文献から、種々の特徴が、特定の母集団と相関性がある若しくは相関性がない（ａｎｔｉ−ｃｏｒｒｅｌａｔｉｖｅ）として同定可能であってもよく、母集団は、本明細書において使用される場合、いかなる証拠となる個々のグループ化も広く包含する。母集団のいくつかの例として、民族的母集団、性別的母集団、エピジェネティック的母集団、疾患的母集団（例えば糖尿病を持つ人間等）、又は、疾患傾向的母集団（すなわち、特定の疾患にかかりやすくさせる遺伝子構造を有する人間）等が挙げられる。関心のある母集団は、母集団の交わりによって定めることができ、例えば、関心のある母集団は、中央ヨーロッパの民族母集団と性別が女性の母集団との交わり（すなわち、中央ヨーロッパの民族の女性の母集団）であってもよい。関心のある母集団は、より多くを包含する母集団の部分母集団であってもよく、例えば、インド人の母集団は、パンジャビ（Ｐｕｎｊａｂｉｓ）、ベンガリ（Ｂｅｎｇａｌｉｓ）等、種々の民族的母集団に分けることができる。

しかし、本明細書においては、対象を母集団に割り当てるための所定の別々の遺伝子マーカーへの依存は、数多くの欠陥を有するということが認識される。結果として生じる分類は、新たな遺伝子研究が以前に決定された遺伝子マーカーの関係をさらに精密又は正確にするため、時代遅れになり得る。所定の別々の遺伝子マーカーに基づく分類は、時間の経過に伴い関心のあるものになり得る新たな且つ異なる母集団グループ化まで容易に拡張可能であるわけでもない。別々のマーカーと種々の母集団との間の相関関係の強さも、場合によっては弱くあり、又は、所与の対象が、相互に矛盾した遺伝子マーカーを有し得る（例えば、マーカーＡが、対象は母集団Ｐに属するということを示し得る一方で、マーカーＢが、その対象は母集団Ｐには属さないということを示し、割当をあいまいにし得る）。

開示される母集団分類技術は、所定の別々の遺伝子マーカーに頼らないが、正しくは代わりに、凝集した遺伝子データセットに基づく。このような目的で、遺伝子データセットは、削減された次元数のベクトル表現として表され、ツリー型空間データ構造（ＳＤＳ）を使用して指標づけされる。削減された次元数は、主成分分析（ＰＣＡ）、探索的因子分析（ＥＦＡ）、多次元的尺度構成法（ＭＤＳ）又はカーネル主成分分析（ＫＰＣＡ）等、実質的且つ特徴の削減アルゴリズムを使用して達成することができる。結果として生じる削減された次元数のベクトル表現は、ベクトル要素又はベクトル成分を有し、その値は、特徴ベクトルＸの特徴を「共に混ぜる」又は「混ぜ合わせる」。結果として生じる削減された次元数のベクトル表現は、遺伝学的に類似している対象を同定及びグループ化するために効率的な機構を提供するツリー型空間データ構造（ＳＤＳ）において指標づけされる。遺伝学的に関連のある個体の母集団（例えば民族的母集団等）は、従って、ツリー型ＳＤＳにおいて空間的に位置づけられることが予想される。

図１を続けて参考にすると、次元数削減が、マッピング又は一次変換を使用して適切に行われ、その式はＹ＝Ｍ（Ｘ）であり、ここでＸは、（例えば動作１６によって出力される）遺伝子データセットを表す特徴ベクトルであり、Ｙは、遺伝子データセットの削減された次元数のベクトル表現であり、さらに、Ｍは、変換マトリクスである。このような目的で、主成分分析（ＰＣＡ）、探索的因子分析（ＥＦＡ）、多次元的尺度構成法（ＭＤＳ）又はカーネル主成分分析（ＫＰＣＡ）等の特徴削減動作１８が適用される。

例示的な例として、ＰＣＡが、例示的な特徴削減動作１８において利用される。ＰＣＡが平均値減算（ｍｅａｎｓｕｂｔｒａｃｔｉｏｎ）（すなわち平均値センタリング（ｍｅａｎｃｅｎｔｅｒｉｎｇ））と組み合わせて適用される場合、ＰＣＡ成分は、入力データセットにおける大きな分散の方向に相当する。ＰＣＡ成分は、主成分として既知の相関関係がない変数である。マトリクスの次元数の適した選択によって、いかなる数の主成分も生じるようにＰＣＡを選ぶことができる。ＰＣＡの（平均値センタリングを用いる）動作１８は、従って、一次変換マトリクスＭを生じ、Ｍは、特徴ベクトルＸ（又は、マトリクスの行として配置されるそのようなベクトルのセット）に影響を及ぼし、さらに、削減された次元数のベクトル表現Ｙ（又は、入力Ｘが特徴ベクトルのマトリクスである場合にマトリクスの行として配置される削減された次元数のベクトル表現のセット）を出力する。原則として、一次変換マトリクスＭは、手動で構築することができたが、ＰＣＡ又は別の特徴削減技術を使用することによって、出力される１つ又は複数の削減された次元数のベクトル表現の要素が、異なる遺伝学的母集団を区別するよう非常に識別力のあるベクトル要素を有するように一次変換マトリクスＭを構築するための自動化アプローチが提供される。（例えばＰＣＡにおいて、この識別力は、分散を最大にする主成分から生じる）。

大部分の特徴削減アルゴリズム（ＰＣＡを含む）に対して、特徴削減動作１８は、いかなる選ばれた数の次元を有する削減された次元数のベクトル表現Ｙを出力するよう選ぶことができる。特徴ベクトルＸにおいて記憶された遺伝子特徴の所望の混合又は混ぜ合わせを達成するために、並びに、計算効率を提供するために、１つ又は複数の削減された次元数のベクトル表現Ｙの次元数は、特徴ベクトルＸの次元数と比較して削減されるのが好ましい。別言すれば、特徴削減１８は、参照母集団の遺伝子データセット１２を表す特徴ベクトルＸに影響を及ぼして、特徴ベクトルＸの次元数と比較して削減された次元数のベクトル空間に特徴ベクトルＸを位置づけるマッピング２０を生じる。特徴削減の量が増やされる（より削減された次元数、すなわち、より少ない次元数を有する削減された次元数のベクトル表現Ｙに一致する）に従い、特徴の混合又は混ぜ合わせも計算効率も改善される。一部の実施形態において、削減された次元数のベクトル表現Ｙに対してより多い次元数が熟考されるけれども、削減された次元数のベクトル表現Ｙは、２つ又は３つの次元を有する。

特徴削減動作１８は、マッピング又は一次変換２０を生じ、その式は適切にＹ＝Ｍ（Ｘ）であり、ここでＸは、遺伝子データセットを表す特徴ベクトルであり、Ｙは、遺伝子データセットの削減された次元数のベクトル表現であり、さらに、Ｍは、変換マトリクスである。事実、特徴削減動作１８は、変換マトリクスＭを最適化して、参照母集団の遺伝子データセット１２を表す特徴ベクトルＸのセットに対する削減された次元数のベクトル表現Ｙの要素の識別力を最大にするのに役立つ。この最適化は、典型的に、（削減された次元数のベクトル表現Ｙの次元数を最適化する特徴削減アルゴリズムを利用するよう熟考されるけれども）削減された次元数のベクトル表現Ｙの選ばれた次元数に対して行われる。その後、参照母集団のそれぞれの特徴ベクトルＸにマッピング２０を適用して、対応する削減された次元数のベクトル表現Ｙを生じることができる。（計算効率のために、この変換は、行が参照母集団の特徴ベクトルであるマトリクスに一次変換Ｍが影響を及ぼす１つのマトリクス演算において行うことができる）。ここでも、参照母集団がｍの個体を含む場合には、これらは、動作１４、１６により生じたｍの特徴ベクトルＸによって表され、これらのｍの特徴ベクトルＸは、マッピング２０を最適化するために特徴削減動作１８において使用され、さらに、最終的には、これらｍの特徴ベクトルＸは、マッピング２０によって（個々に、又は、ｍの行がｍの特徴ベクトルＸであるマトリクスに影響を及ぼすことにより）変換され、対応するｍの削減された次元数のベクトル表現Ｙを生じる。

図１を続けて参考にし、さらに、図２及び３を簡単に参考にすると、動作２２において、ｍの削減された次元数のベクトル表現Ｙに指標をつけるツリー型空間データ構造（ＳＤＳ）が構築される。ツリー型ＳＤＳは、ベクトル空間を分割する帰納的空間分割アルゴリズムを使用して構築される。一部の既知のツリー型ＳＤＳは、（二次元のベクトル空間に適用可能であり、それぞれの空間領域を４つの部分に帰納的に分割する）４分木構造（図２を参照）、（三次元のベクトル空間に適用可能であり、それぞれの空間領域を８つの部分に帰納的に分割する）８分木構造（図３を参照）、ハイパーツリー（ｈｙｐｅｒｔｒｅｅ）構造（すなわち、四次元以上に対して概括するもの）、ｋｄ木構造及びＵＢ木構造等を含む。ツリー型ＳＤＳは、粗い空間解像度から細かい局所的解像度に効率的に「ドリルダウン」するのを可能にするため、ツリー型ＳＤＳは、地理情報システム（ＧＩＳ）アプリケーション（例えば、ズームイン及びアウトを可能にするコンピュータ化された地理的マッピングアプリケーション等）における使用に対してよく知られている。有利に（さらに、それぞれ図２及び３の４分木及び８分木構造において概略図で例示されているように）、一部のＳＤＳインデックスにおいて、帰納的分割のレベルの数は、局所的に変わり得る。ＧＩＳアプリケーションにおいて、例えば、帰納的分割は、人口密集都市においてより多い数のレベルに対して行われて（より細かい空間解像度を与えて）もよい一方で、帰納的分割は、少ない関心のある特徴を有する過疎の又は人気のない領域においてより少ないレベルに対して行われて（より粗い空間解像度を与え、さらに、より少ないメモリ又は記憶装置を要求して）もよい。

ＧＩＳアプリケーションにおけるツリー型ＳＤＳの別の利点は、人口増加の領域における空間解像度を上げるために容易に調整されるということである。これは、高い人口増加率の地理的領域を表す１つ又は複数の領域にさらなる帰納的分割を適用する（すなわち、さらなるレベルを加える）ことによって行うことができる。逆に、メモリ又は記憶装置が貴重である場合に、人口減少の領域は、ＳＤＳの「リーフ」領域をマージすることによって修正し、帰納的空間分割の後ろの方の帰納を「アンドゥ―する」ことができる。

動作２２は、ツリー型ＳＤＳを構築して、参照母集団のｍの個体のｍの削減された次元数のベクトル表現Ｙを指標づけする。ツリー型ＳＤＳは、自動的に動作して、（その削減された次元数のベクトル表現Ｙによって表される）類似の遺伝子構造を有する個体を、同じ空間分割若しくは領域において、又は、隣接した空間分割若しくは領域においてグループ化する。

一部の実施形態において、ツリー型ＳＤＳ構築動作２２は、削減された次元数のベクトル表現Ｙの次元数と同じ数の次元を有するツリー型ＳＤＳを構築する。例えば、削減された次元数のベクトル表現Ｙが三次元を有する場合、従って、これらの実施形態において、構築されるツリー型ＳＤＳも三次元を有する（さらに、例えば８分木であり得る）。

或いは、ツリー型ＳＤＳ構築動作２２は、削減された次元数のベクトル表現Ｙの次元数よりも少ない次元を有するツリー型ＳＤＳを構築してもよい。例えば、削減された次元数のベクトル表現Ｙが三次元を有する場合、従って、これらの実施形態において、構築されるツリー型ＳＤＳは二次元のみを有し得る（さらに、例えば４分木であり得る）。ＰＣＡの場合に、第１の主成分は、典型的に、（トレーニング母集団、この場合参照母集団に対して）最大の分散を有し、第２の主成分は次に大きい分散を有する等である。従って、ＰＣＡにより生じた削減された次元数のベクトル表現Ｙの次元の総数よりも少ないものが、ツリー型ＳＤＳを構築することにおいて使用される場合、一般的に、「最初のＮの」主成分を使用することが有利である。

動作２２は、このように、ツリー型空間データ構造における（参照）データポイントとして、参照母集団の遺伝子データセット１２の削減された次元数のベクトル表現を記憶する。これらのデータポイントは、削減された次元数のベクトル表現と同じ数の次元を有してもよい（その場合、削減された次元数のベクトル表現は、本質的に、データポイント「である」）。或いは、データポイントは、削減された次元数のベクトル表現よりも少ない次元を有してもよく、例えば、各データポイントは、三次元（又はそれ以上の次元）のＰＣＡにより生じた削減された次元数のベクトル表現の最初の２つの主成分によって表される。構築されるツリー型ＳＤＳは、例えば（二次元のデータポイントを指標づけするための）４分木構造、（三次元のデータポイントを指標づけするための）８分木構造、ｋｄ木構造又はＵＢ木構造等、データポイントの次元数に適合するいかなる構造であってもよい。

動作２４において、ツリー型ＳＤＳによって指標づけされた（参照）データポイントは、民族的母集団、表現型的母集団又は他の関心のある母集団を定めるために、注釈がつけられる、グループ化される、さもなければラベルされる。一般的に、動作２４は、参照母集団の遺伝子データセットが取得された対象に関する情報で、ツリー型ＳＤＳにおけるデータポイントに注釈をつけること、及び、データポイントの分布及びその注釈に基づき、ツリー型ＳＤＳの空間領域を、参照母集団内の母集団に関連づけることを含む。関連づけることは、ツリー型ＳＤＳによって指標をつけられた空間における注釈をつけたデータポイントのクラスタリングを行うことを伴ってもよい。適したクラスタリングアルゴリズムは、例示的な例として、Ｋ平均クラスタリング又はＫメドイドクラスタリング等を含む。Ｋメドイドクラスタリング技術は、一般的に、Ｋ平均クラスタリングよりも異常値を許容する。

例示的な図３の８分木構造を参考にすると、ツリー型ＳＤＳの空間的性質は、遺伝学的に類似したデータポイントのクラスターが、ベクトル空間において隣接した領域を形成するということを意味する。例示的な図３において、５つの例示的なクラスターが、破線円によって概略的に示されている。（８分木構造は三次元であるため、これらのクラスターは、例えば球体、楕円体又は一部の異形等、実際に三次元であるということに留意されたい）。例えば、データポイントに対するＮ個の最隣接を同定することは、データポイントを含有するツリー型ＳＤＳのリーフノードにおけるポイントをカウントし、次に、（ツリー型ＳＤＳの空間的性質のため最隣接である）Ｎ個の隣接したものが同定されるまでより多いレベルまで外に拡張することによって行うことができるため、ツリー型ＳＤＳにおいてクラスタリングを行うことは有利であり得る。

図１のシステムの出力は、マッピング２０を含む母集団分類子、並びに、ツリー型ＳＤＳ、及び、動作２２、２４によって生じたその指標づけされた参照ポイントである。マッピング２０は、例えばマトリクスに基づくマッピング式Ｙ＝Ｍ（Ｘ）を使用して、一次変換として有利に実行されてもよく、ここでＭは変換マトリクスである。

図４を参考にすると、図１のシステムによって生じた母集団分類子３０の動作が記載されている。母集団分類子３０は、図１のシステムが実行されるものと同じコンピュータであってもよいか又は異なるコンピュータであってもよいコンピュータ１０によって適切に実行される。母集団分類子３０への入力は、（必ずしもそうであるわけではないけれども）典型的に参照母集団のメンバーではない「新たな」個体３３から抽出された新たな遺伝子データセット３２である。（個体又は対象は、本明細書において使用される場合、遺伝医学検査若しくは人間母集団研究等に対する場合と同様に、典型的に、ヒトの個体又は対象であるが、特に、個体又は対象は、本明細書において使用される場合、適切に前臨床試験若しくは獣医学的実務における場合と同様に、個々の動物又は動物対象であってもよく、或いは、適切に検死法医学的遺伝子検査若しくは考古学的ミイラ検査等における場合と同様に、ミイラ又は他の死亡したヒト若しくは動物の対象であってもよいということに留意されたい）。

一般に、新たな対象３３は、発端者の対象、すなわち、研究中若しくは遺伝子解析レポートの対象となる特定の個体又は対象であってもよい。

或いは、新たな対象３３は、母集団分類子をアップデートするために加えられるさらなる参照対象であってもよい。有利に、開示される母集団分類子技術は、新たな対象又は個体を用いて容易にアップデートされ、ツリー型ＳＤＳの分割解像度（すなわちレベルの数）は、ツリー型ＳＤＳの種々の領域におけるより高い母集団密度に適応する必要に応じて増やされ、さらに、いかなる母集団領域のアップデートも、任意で、新たな個体が加えられる領域に局在化される。より細かい解像度の（例えば、部分母集団を定める）母集団の定義が特定の遺伝子解析に対して有用であるということを新たな医学研究が示す場合に、解像度をさらなる分割によって上げることもできる。

新たな遺伝子データセット３２は、フィルタリング／処理動作１４、及び、特徴ベクトル生成動作１６によって処理されて、新たな遺伝子データセット３２を表す特徴ベクトルＸを生じる。これらは、図１のシステムにおいて参照遺伝子データセット１２に適用される同じ動作１４、１６であるため、新たな遺伝子データセット３２を表す特徴ベクトルは、参照母集団を表す特徴ベクトルに比較できる。すなわち、新たな遺伝子データセット３２を表す特徴ベクトルは、参照母集団を表す特徴ベクトルと比較して、対応するベクトル要素を有する同じ数の次元（すなわち同じ次元数）を有する標準化された特徴ベクトルである。

図４を続けて参考にすると、新たな遺伝子データセット３２を表すこの標準化された特徴ベクトルは、次に、図１のシステムにより行われた特徴削減動作１８によって最適化されたマッピング２０を使用して変換される。この変換によって、新たな遺伝子データセット３２の削減された次元数のベクトル表現Ｙが生じ、標準的なマッピング２０により生じることによって、削減された次元数のベクトル表現Ｙは、参照母集団の参照遺伝子データセット１２の削減された次元数のベクトル表現と比較して同じ次元数及び対応するベクトル要素を有する。従って、新たな遺伝子データセット３２の削減された次元数のベクトル表現Ｙを、「ドリルダウン」プロセス３４、３６を使用してツリー型ＳＤＳにおいて位置づけることができる。動作３４において、新たな遺伝子データセット３２の削減された次元数のベクトル表現Ｙは、ツリー型ＳＤＳの最上位の領域に割り当てられる（すなわち、その中に位置付けられる）。動作３６において、新たな遺伝子データセット３２の削減された次元数のベクトル表現Ｙは、例えばツリー型ＳＤＳのリーフノードに到達するか又は所望の空間解像度に到達する等、停止基準に達するまで、ツリー型ＳＤＳのそれぞれ次の低いレベルに帰納的に割り当てられる。動作３６は、ツリー型ＳＤＳを生じるために使用される帰納的分割のため、計算効率がよい。いかなる所与のレベルであっても、次の低いレベルにおけるＹの位置は、Ｙを含有する現在のレベルの領域の分割（すなわち「小」区域）の１つに必ずある。４分木構造に対しては、探索するのに４つの（小）領域のみあり、８分木構造に対しては、探索するのに８つの領域がある等である。

図４を続けて参考にすると、新たな対象３３が発端者の対象である場合、次に、動作３８において、その発端者の対象は、ツリー型ＳＤＳにおける新たな遺伝子データセット３２の削減された次元数のベクトル表現Ｙの位置に基づき、１つ又は複数の母集団に割り当てられる。ツリー型ＳＤＳの空間的性質のため、母集団は、典型的に、ツリー型ＳＤＳの空間領域に、すなわち、１つ又は複数の隣接した領域に対応する。このように、新たな遺伝子データセット３２の削減された次元数のベクトル表現Ｙがこの空間領域又は隣接した領域の群の中にある場合、従って、新たな対象３３は、その母集団に割り当てられる。（所与の領域は２つ以上の母集団に属してもよく、例えば、所与の領域は、インド民族の母集団、ベンガリ（部分）母集団及び女性の性別の母集団等に属してもよいということに留意されたい）。

（特徴ベクトルＸと比較した）削減された次元数のベクトル表現Ｙの次元削減は、削減された次元数のベクトル表現Ｙが、全ての本来の遺伝子情報を含有しないということを意味する。従って、削減された次元数のベクトル表現Ｙは、特定のＳＮＰ又は他の特定の遺伝子マーカーを同定すること等の遺伝子解析を行うための適したデータセットではない。正しくは、削減された次元数のベクトル表現Ｙは、母集団の割当に使用される。後の遺伝子解析４０は、典型的に、発端者の対象が割り当てられる母集団に対して、ＳＮＰ、遺伝子発現レベル、又は、疾患若しくは他の表現型特徴を示す他の遺伝子マーカーを同定するために行われる。遺伝子解析４０は、特徴ベクトルＸに影響を与えることができ、その場合、処理動作１４、１６は、後の遺伝子解析４０においててこ入れされる。さらに又は或いは、本来の遺伝子データセット３２が、（例えばフィルタリング１４が関心のあるＳＮＰを捨ててしまったかもしれない場合に適切であり得るように）利用されてもよい。

遺伝子解析４０は、新たな対象３３が発端者の対象である場合に行われる。一方、新たな対象３３が、母集団分類子をアップデートするための新たな参照対象である場合、従って、位置づけ動作３４、３６の後には、母集団分類子アップデート動作が適切に続く。例えば、新たな遺伝子データセット３２の削減された次元数のベクトル表現Ｙに対応する（又は、一部の実施形態においてＹと同じである）データポイントは、その適切な位置にてツリー型ＳＤＳに加えられ、さらに、新たな参照対象３３に関する既知の情報で注釈がつけられてもよい。新たな参照対象３３が属する母集団は、新たな遺伝子データセット３２の削減された次元数のベクトル表現Ｙ及びその注釈によって表された新たな情報を説明するために、再度クラスター形成されてもよく、さもなければ、再定義又は調整されてもよい。

前述の説明において、各遺伝子データセットは個々の対象に対応するということが全般的に仮定されてきている。しかし、場合によっては、単一の個体が２つ以上の異なる遺伝子データセットの供給源であってもよいということを正しく理解されたい。例えば、１人の癌患者が、健康な組織の遺伝子データセットを生じるために健康な組織から、及び、疾患の遺伝子データセットを生じるために悪性腫瘍から取得された複数の遺伝子サンプルを有し得る。そのような場合、健康及び疾患の遺伝子データセットは個々に処理され、さらに、ツリー型ＳＤＳにおいてそれぞれ位置付けることができる別々のデータポイントを定め、それらのポイントの距離は、健康な組織と病気の組織との間の遺伝的差異を示している。

例示的な図１及び４において、記載されたシステムは、コンピュータ又は他の電子データ処理装置１０によって実行されている。これらのシステム及び開示される母集団割当技術は、開示される動作を行うための電子データ処理装置により実行可能な命令を記憶する非一時的な記憶媒体によって実行することができるということも理解されたい。例えば、非一時的な記憶媒体は、ハードディスクドライブ若しくは他の磁気記憶媒体、光ディスク若しくは他の光記憶媒体、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フラッシュメモリ若しくは別の電子記憶媒体、又は、その種々の組み合わせ等であってもよい。

開示される母集団割当技術は、母集団クラスターデータを記憶するための効率的な機構、すなわちツリー型ＳＤＳを提供し、さらに、この記憶機構によって、新たに配列決定された、遺伝子型を同定された、さもなければ、取得された遺伝子データセットを速く分類する確固とした方法を提供する。発端者の個体に由来している母集団という点でどの個体が遺伝学的に類似しているかを知ることが有利であり得る研究又は臨床適用の場合、開示されるアプローチは、参照個体の実際の遺伝子配列又はサインを暴くことなく、そのような情報を示す方法を提供し、それは、遺伝子データのプライバシーのため望ましくあり得る。

開示される方法が、同じ出所の組織からの病気及び正常なサンプルを比較するために利用される場合、ツリー型ＳＤＳにおける隣接したサンプルの遺伝子解析は、発端者のサンプルにおけるあり得る病原のモードについて詳しく述べ得る。例えば、同じ経路の異なる遺伝子が隣接したサンプルに関与している場合、同じ経路は、発端者のサンプルに関与しているかもしれない。

開示されるアプローチにおいて、パイプライン全体が、サンプルを分類するために再度実行される必要があるわけではなく、その結果、時間及びコンピュータリソースの節約となる。特に、計算集約型の特徴削減動作１８は１回のみ行われ、その後、計算効率のよい一次変換Ｍが適用される。この計算効率を考慮して、開示されるアプローチは、母集団情報に連関する疾患クラスにサンプルが属しているかどうかを決定するための高速のスクリーニング方法として容易に適用される。

以下において、いくつかさらなる例示的な例が記載される。

一例において、多様な網羅的母集団からの多数の個体からのゲノム配列情報が収集され、さらに、ＳＮＰ細胞が、一般に容認されたルール下で抽出された選ばれた位置にて作製される。例えば、そのようなＳＮＰのマイナー対立遺伝子頻度（ＭＡＦ）は、各母集団において閾値よりも上であるべきであり、多くのミスコール（ｍｉｓｓｉｎｇｃａｌｌ）があるべきではなく、及び、ＳＮＰは、それらの間で連鎖不平衡がないように十分に分けられるべきである等である。遺伝子データは、特徴ベクトルＸを生じるために、一般に容認されたルールを使用して数字で記録される。この網羅的データセットは、次に、ＰＣＡ、又は、例えば、多次元的尺度構成法（ＭＤＳ）若しくはカーネルＰＣＡ（ＫＰＣＡ）等の別の次元数削減（例えば因子分析等）の手順に供されてマッピングＭを生じ、マッピングＭは、次に、特徴ベクトルＸに適用されて、削減された次元数のベクトル表現Ｙを生じる。データセットにおける最大の変化に寄与するＹの最初のいくつかの次元（又は、次元削減が積極的である場合にＹの全ての次元）が選択され（３から４の次元が一部の実施形態において熟考され）、さらに、ｋｄ木構造、８分木構造又はＵＢ木構造等のツリー型空間データ構造（ＳＤＳ）において記憶される。この処理によって、母集団分類子が生じる。

新たに配列決定されたサンプルに対して、高次元データから（参照データセットに対して計算された）より低い次元数変換データセットまで、同じマッピングＭが使用される。参照データセットは、適切に包括的なデータセット（すなわち「網羅的」データセット）であるという仮定の下、新たなサンプルは、本来の母集団クラスターの１つに属し、データセットにおいてさらなる分散を導入し過ぎず、さらに、マッピングは、変換された空間において新たなサンプルをほぼ正確に置き、従って、新たに次元数削減手順をやり直す複雑な計算を回避するであろう。新たなサンプルの削減された次元数のベクトル表現を使用することによって、本来の（すなわち参照）データセットが問い合わされ、さらに、このサンプルの母集団の関係又はその最隣接した個体等の情報が引き出される。

サンプル遺伝子型の母集団は、典型的に、削減された次元数のベクトル空間において不均一に分布されると予想される。そのような不均一の分布は、空間分布を収容するように帰納的分割を適合させることができるため、ツリー型ＳＤＳによって容易に収容される。適したツリー型ＳＤＳは、３つの選ばれた主成分に対して８分木、又は、＞３の選ばれた主成分に対してハイパーツリーを含む。

以下において、処理作業の流れの例が記載される。

第一に、異なる網羅的母集団からの多数の関係がない個体が、後に検査されることになる有望なニューカマーが現れ得るいかなる重要な母集団も除外しないように集められる。これらの個体は、参照データを形成する。

第二に、全ゲノムのＳＮＰに対して、これらの個体のシーケンシング又はジェノタイピング情報が取得される。

第三に、ＳＮＰが、各部分母集団において各ＳＮＰが（ａ）（異常値に達して解析を歪め得る稀なＳＮＰを含まないように）ＭＡＦ（マイナー／ミニマム対立遺伝子頻度）≧０．０５を有するように、（ｂ）（情報が配列決定からの場合には余分であり、理想的には、その場合には欠損した情報があるべきではない）欠損した遺伝子型＜１０％を有するように、さらに、（ｃ）（母集団において安定なＳＮＰのみを含むために、すなわち、重要な選択圧力のない、及び、明らかな生存特色（ｓｕｒｖｉｖａｌｔｒａｉｔ）に関連づけられないために）ハーディ・ワインベルグ平衡（ＨＷＥ）にあるように、フィルターにかけられる。

第四に、ＳＮＰは、以下の換算、［ＡＡ，ＡＤ，ＤＤ］→［２，１，０］を使用して数字で記録され、ここで「Ａ」は、全ての参照個体を考慮してＳＮＰに対してメジャーな対立遺伝子であり、さらに、「Ｄ」は、マイナーな対立遺伝子である。４つ以上のあり得る二倍体の遺伝子型を有するＣＮＶのような変異体の場合、例えば、［コピー数状態０，１，２，３，４，５］−＞［０，１，２，３，４，５］等、同様に離散化され得る。

第五に、ｍの個体及びｎのＳＮＰ遺伝子型がある場合、データは、ｍ×ｎのマトリクスＸとして表すことができ、１つの個体の遺伝子型は、Ｘの１つの行に沿って表されている。

第六に、各数字でコードされたＳＮＰに対して、平均値が計算され、さらに、Ｘ−Ｘ_Ｍ＝Ｘ´（Ｘ_Ｍは平均値）という関係を有して、Ｘが、Ｘ´まで平均値センタリングされる。

第七に、主成分分析（ＰＣＡ）が、ｍ×ｌのマトリクスＹを得るために行われ、ここでは１≦ｌ≦ｎである。データにおける最大の分散に寄与する最初のいくつかの主成分（例えば固有値＞１の又はスクリー分析による通常の基準）が記憶のために選択され、例えば、最初の３つの主成分のみが記憶される場合にｍ×３のマトリクスであるＹ´として記憶される。

第八に、第五から第七の動作が、ＭがＸからＹ´までのマッピングである場合に、Ｙ´＝Ｍ（Ｘ）として表される。（これは、例えばＥＦＡ／ＭＤＳ、ＫＰＣＡ等の他の次元数削減手順に当てはまる）
第九に、三次元のツリー型空間データ構造（ＳＤＳ）における座標としてＹ´からの３つの主成分の値を使用し、マトリクスＹ´は、例えば、母集団の起源又は地理的起源等の人口統計学的情報等、個体に対する注釈情報を記憶するために使用される。８分木構造は、３つの主成分の値に適している。これは、従って、参照データバンクとして使用され、それに対して新たなサンプルが比較される。クラスター｛Ｃ_１，Ｃ_２，・・・，Ｃ_ｍ｝が、ｍ個のクラスター代表ポイントのセット（セントロイド／メドイド）を有するツリー型ＳＤＳにおけるデータポイントにわたって計算されるか又は決定される。

第十に、ニューカマーの個々の遺伝子型Ｇが利用可能である場合、Ｇ´＝Ｍ（Ｇ）としてマッピングＭを用いて主成分空間に変換され、Ｍは、Ｙ´＝Ｍ（Ｘ）におけるものと全く同じである。ＰＣＡ（又は他の特徴削減）は回避され、さらに、予め計算された値を有した行列代数のみが含まれるため、この変換は計算効率がよく、ほぼ一定の時間かかる。

第十一に、Ｇ´において得られた座標から、ツリー型ＳＤＳにおいて記憶されたデータが効率的に問い合わせされて種々の情報を提供する。種々の情報は、例えば、（ａ）クラスターＧが、もしあればどの母集団に属するか（ここでは、ツリー型ＳＤＳが、Ｇがクラスター｛Ｃ_１，Ｃ_２，・・・，Ｃ_ｍ｝の１つに属するかどうかを決定するために問い合わされる）、及び／又は（ｂ）どの個体がＧに最も近いか（ここでは、Ｇのｋ最隣接個体が、ツリー型ＳＤＳにわたって行われたＫ−ＮＮ探索アルゴリズムを使用して決定される）、並びに／又は、（ｃ）隣接した個体等の人口統計学的な注釈情報等の情報である。

第十二に、同じ組織起源からの正常及び異なる癌サンプル又は（例えば変性疾患等の）他の疾患サンプルからの遺伝子型情報を有する異なる母集団からの個体の場合に、類似の方法を利用することができる。

第十三に、ニューカマーの個体が新たな母集団からのものである場合に、ＰＣＡを再度行い、さらに、エラーマトリクスを計算することができる（“ＭｏｄｅｌｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｅｒｒｏｒｃｏｖａｒｉａｎｃｅｍａｔｒｉｘｅｓｔｉｍａｔｉｏｎｆｒｏｍｎｏｉｓｙｄａｔａｕｓｉｎｇＰＣＡ，”Ｓ．ＮａｒａｓｉｍｈａｎａｎｄＳ．Ｌ．Ｓｈａｈ，ＣｏｎｔｒｏｌＥｎｇｉｎｅｅｒｉｎｇＰｒａｃｔｉｃｅ，ｖｏｌ．１６，ｎｏ．１，Ｊａｎｕａｒｙ２００８，Ｐａｇｅｓ１４６−１５５を参照）。必要に応じて、さらなる主成分が、新たな参照データに含まれてもよい。

本発明は、好ましい実施形態を参考にして記述されてきた。明らかに、前述の詳細な説明を読み理解した後、修正及び変更が他の者の心に浮かぶはずである。本発明は、付随の特許請求の範囲又はその同等物内にある限りではそのような修正及び変更を全て含むとして解釈されることが意図される。

Claims

電子データ処理装置によって実行可能な命令を記憶する非一時的な記憶媒体であって、
前記命令が、
参照母集団の遺伝子データセットを表す特徴ベクトルに対する特徴削減を行うステップであり、前記特徴ベクトルの次元数と比較して削減された次元数のベクトル空間に前記特徴ベクトルを位置づけるマッピングを生じる、ステップ、
前記マッピングを使用して、前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現を生じるステップ、
ツリー型空間データ構造におけるデータポイントとして、前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現を記憶するステップ、
前記参照母集団の遺伝子データセットが取得された対象に関する情報を用いて、前記ツリー型空間データ構造における前記データポイントに注釈をつけるステップ、及び、
データポイントの分布及びその注釈に基づき、前記ツリー型空間データ構造の空間領域を、前記参照母集団内の母集団に関連づけるステップ、
を含む方法を行う命令である、非一時的な記憶媒体。
前記マッピングは一次変換である、請求項１に記載の非一時的な記憶媒体。
前記マッピングはＹ＝Ｍ（Ｘ）であり、Ｘは、遺伝子データセットを表す特徴ベクトルであり、Ｙは、前記遺伝子データセットの削減された次元数のベクトル表現であり、さらに、Ｍは、変換マトリクスである、請求項１又は２に記載の非一時的な記憶媒体。
前記行うステップは、
前記マッピングを生じるために、前記参照母集団の遺伝子データセットを表す特徴ベクトルに対する主成分分析を行うステップを含む、請求項１乃至３のいずれか一項に記載の非一時的な記憶媒体。
前記ツリー型空間データ構造は、前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現の次元数に等しい次元数を有する、請求項１乃至４のいずれか一項に記載の非一時的な記憶媒体。
前記ツリー型空間データ構造は、前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現の次元数よりも少ない次元数を有し、さらに、
前記記憶するステップは、
前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現の次元の全てよりも少ない次元によって定められる座標を有するデータポイントとして、前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現を記憶するステップ、
を含む、請求項１乃至４のいずれか一項に記載の非一時的な記憶媒体。
前記ツリー型空間データ構造は、４分木構造、８分木構造、ｋｄ木構造又はＵＢ木構造である、請求項１乃至６のいずれか一項に記載の非一時的な記憶媒体。
前記方法は、
前記マッピングを使用して、前記参照母集団の一部ではない新たな遺伝子データセットの新たな削減された次元数のベクトル表現を生じるステップ、及び
前記ツリー型空間データ構造における新たなデータポイントとして、前記新たな削減された次元数のベクトル表現を記憶するステップ、
をさらに含む、請求項１乃至７のいずれか一項に記載の非一時的な記憶媒体。
前記関連づけるステップは、
前記ツリー型空間データ構造によって指標をつけられた空間における前記注釈をつけたデータポイントのクラスタリングを行うステップを含む、請求項１乃至８のいずれか一項に記載の非一時的な記憶媒体。
前記クラスタリングが、Ｋメドイドクラスタリングである、請求項９に記載の非一時的な記憶媒体。
前記方法は、
前記マッピングを使用して、発端者の遺伝子データセットの発端者の削減された次元数のベクトル表現を生じるステップ、
前記ツリー型空間データ構造において、前記発端者の削減された次元数のベクトル表現を位置づけるステップ、及び、
前記ツリー型空間データ構造におけるその位置に基づき、前記発端者の遺伝子データセットを分類するステップ、
をさらに含む、請求項１乃至１０のいずれか一項に記載の非一時的な記憶媒体。
請求項１乃至１１のいずれか一項に記載の非一時的な記憶媒体、並びに、
該非一時的な記憶媒体上に記憶された命令を読み出す及び実行するように構成される電子データ処理装置、
を含む器具。
遺伝子データセットを表す特徴ベクトルを構築するステップ、
一次変換を使用して前記特徴ベクトルの次元数を削減し、前記遺伝子データセットの削減された次元数のベクトル表現を生じるステップ、
ツリー型空間データ構造において、前記遺伝子データセットの削減された次元数のベクトル表現を位置づけるステップであり、前記位置づけが、
参照母集団の遺伝子データセットが取得された対象に関する情報を用いて注釈をつけられた前記ツリー型空間データ構造におけるデータポイントを同定すること、及び、
データポイントの分布及びその注釈に基づき、前記ツリー型空間データ構造の空間領域を、前記参照母集団内の母集団に関連づけること、
を含む、ステップ、及び、
前記ツリー型空間データ構造におけるその削減された次元数のベクトル表現の位置に基づき、１つ又は複数の母集団に前記遺伝子データセットを割り当てるステップ、
を含む方法であって、
少なくとも前記構築するステップ、生じるステップ及び位置づけるステップは、電子データ処理装置によって行われる、方法。
前記遺伝子データセットが割り当てられる前記１つ又は複数の母集団に基づき、臨床的に重要であるとして、前記遺伝子データセットにおける１つ又は複数の遺伝子マーカーを同定するステップ、
をさらに含む、請求項１３に記載の方法。
（ｉ）参照母集団の参照遺伝子データセットを表す参照特徴ベクトルを構築するステップ、
（ｉｉ）一次変換を使用して前記参照特徴ベクトルの次元数を削減し、前記参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現を生じるステップ、及び、
（ｉｉｉ）前記ツリー型空間データ構造を構築し、前記参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現の少なくともいくつかの次元によって定められるデータポイントとして、前記参照遺伝子データセットに指標をつけるステップ、
をさらに含み、
動作（ｉ）、（ｉｉ）及び（ｉｉｉ）は、前記電子データ処理装置によって行われる、請求項１３又は１４に記載の方法。
前記参照特徴ベクトルに対する特徴削減を行って一次変換を生じるステップであり、前記特徴削減は、前記電子データ処理装置によって行われる、ステップ
をさらに含む、請求項１５に記載の方法。
前記特徴削減は、主成分分析、探索的因子分析、多次元的尺度構成法及びカーネル主成分分析の１つである、請求項１６に記載の方法。
電子データ処理装置を含む器具であって、
前記電子データ処理装置が、
参照母集団の参照遺伝子データセットを表す参照特徴ベクトルを構築する、
一次変換を使用して前記参照特徴ベクトルを変換し、前記参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現を生じる、及び、
ツリー型空間データ構造を構築し、前記参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現の少なくともいくつかの次元によって定められるデータポイントとして、前記参照遺伝子データセットに指標をつける、
前記参照母集団の遺伝子データセットが取得された対象に関する情報を用いて、前記ツリー型空間データ構造における前記データポイントに注釈をつける、
データポイントの分布及びその注釈に基づき、前記ツリー型空間データ構造の空間領域を、前記参照母集団内の母集団に関連づける、
ようにプログラムされる、器具。
前記電子データ処理装置は、前記参照特徴ベクトルに対する特徴削減を行って一次変換を生じるようにさらにプログラムされる、請求項１８に記載の器具。
前記電子データ処理装置は、
一次変換を使用して、発端者の遺伝子データセットを表す特徴ベクトルを変換し、前記発端者の遺伝子データセットの削減された次元数のベクトル表現を生じる、
前記ツリー型空間データ構造において、前記発端者の遺伝子データセットの削減された次元数のベクトル表現を位置づける、及び、
前記ツリー型空間データ構造におけるその削減された次元数のベクトル表現の位置に基づき、前記発端者の遺伝子データセットを１つ又は複数の母集団に割り当てる、
ようさらにプログラムされる、請求項１８又は１９に記載の器具。