JP6310456B2 - ツリー型空間データ構造を使用した遺伝子データセットの母集団分類 - Google Patents

ツリー型空間データ構造を使用した遺伝子データセットの母集団分類 Download PDF

Info

Publication number
JP6310456B2
JP6310456B2 JP2015525996A JP2015525996A JP6310456B2 JP 6310456 B2 JP6310456 B2 JP 6310456B2 JP 2015525996 A JP2015525996 A JP 2015525996A JP 2015525996 A JP2015525996 A JP 2015525996A JP 6310456 B2 JP6310456 B2 JP 6310456B2
Authority
JP
Japan
Prior art keywords
tree
genetic
data set
population
dimensions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015525996A
Other languages
English (en)
Other versions
JP2015526816A (ja
Inventor
チャクラバルティ,ビスワループ
ムニヤッパ,プラカッシュ
クマール,スニル
シン,ランディープ
クマール,スボード
マトゥール,アシュワタ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2015526816A publication Critical patent/JP2015526816A/ja
Application granted granted Critical
Publication of JP6310456B2 publication Critical patent/JP6310456B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Ecology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

以下は、遺伝子解析技術及び医療技術に関し、さらに、腫瘍学技術及び獣医学技術等を含む医療技術等の遺伝子解析技術の適用に関する。
大きな遺伝子データセットは、何万から何十万もの遺伝子データポイントを生じる能力を持つマイクロアレイであって、例えばデータポイントのそれぞれが、標的タンパク質等の発現レベルに相当する、マイクロアレイ、並びに、長い配列、及び、百万を超える塩基に等しい全ゲノムの配列でさえも出力する能力を持つ「次世代」のシーケンシングシステム等の技術を使用して、個々に対して取得することができる。そのようなデータセットから、一塩基多型(SNP)、コピー数多型(CNV)等、例えば特定のタイプの癌を示す医学的証拠となる種々の遺伝子マーカーを同定することができる。
そのような遺伝子マーカーの解釈は、民族性、性別若しくは一部の他の母集団グループ化による個々の分類の知識によって促進されるか、又は場合によっては、そのような知識を要求さえもするということが既知である。例えば、一部のゲノム変異体(本明細書において使用される場合、「遺伝子」及び「ゲノム」は交換可能であるとみなされるということに留意されたい)は、母集団に応じて2つ以上の異なる遺伝性障害に関連づけられてきた。場合によっては、1つの対立遺伝子は、1つの母集団においてメジャーな対立遺伝子であり、別の母集団においてはマイナーな(且つ疾患を示す)対立遺伝子である。このように、適切な母集団を知ることは、遺伝子変異体の適切な解釈のために有用であるか又は要求さえされる。
場合によっては、遺伝子データセットは、現存する知識及び/又は観察された表現型に基づき分類することができる。例えば、患者の性別又は民族性は、既知であるか又は自己申告され得る。しかし、このアプローチは、エラーの傾向があり得る。一部の分類は、対象及び処理を行う医療関係者には知らされていない場合もあり得る。例えば、患者は、診断未確定の医学的状態によって、又は、特定の疾患に対する傾向を示す遺伝子サインによって定められた母集団のグループに気づかずに属し得る。適切な母集団の同定は、一部の治療の効きめが母集団間で異なり得るためにも、疾病管理において重要である。さらに、遺伝子データセットは、事務上の誤り若しくは漏れ、又は、個人のプライバシー若しくは文化的感受性の尊重のため、利用可能な分類情報でラベルされない場合もある。
母集団への遺伝子データセットの割当は、或いは、遺伝子型及び発現/メチル化状態等の母集団特異的遺伝子マーカーに基づき得る。このアプローチは、有利に、遺伝子データセット自体から母集団グループ化情報を引き出す。
新たな個体に対して遺伝子解析を行う場合、取得される遺伝子データセットは、この母集団分類に供される。同様に、個体の母集団内の部分母集団の遺伝子解析を行う場合、そのような分類は、ここでも、準備作業である。遺伝子データセットの母集団分類は、典型的に、時間のかかるプロセスであり、分析中のそれぞれの新たな遺伝子データセット(例えばそれぞれの新たな患者)に対して行われなければならない。
さらに、遺伝子データセットにおける別々の遺伝子マーカー(例えば、特異的な母集団を示す対立遺伝子等)を観察することを当てにする母集団分類アプローチは、母集団分類プロセスにおいて完全な遺伝子データセットを使用しない。
以下は、前述の限定等を克服する改善された器具及び方法を熟考している。
一態様によると、非一時的(non−transitory)な記憶媒体が、参照母集団の遺伝子データセットを表す特徴ベクトルに対する特徴削減を行って、特徴ベクトルの次元数と比較して削減された次元数のベクトル空間に特徴ベクトルを位置づけるマッピングを生じるステップ、マッピングを使用して、参照母集団の遺伝子データセットの削減された次元数のベクトル表現を生じるステップ、及び、ツリー型空間データ構造におけるデータポイントとして、参照母集団の遺伝子データセットの削減された次元数のベクトル表現を記憶するステップを含む方法を行う、電子データ処理装置によって実行可能な命令を記憶する。マッピングは、適切に一次変換であり、Y=M(X)であってもよく、Xは、遺伝子データセットを表す特徴ベクトルであり、Yは、遺伝子データセットの削減された次元数のベクトル表現であり、さらに、Mは、変換マトリクスである。特徴削減は、主成分分析(PCA)を利用してもよい。方法は、さらに、参照母集団の遺伝子データセットが取得された対象に関する情報を用いて、ツリー型空間データ構造におけるデータポイントに注釈をつけるステップ、及び、データポイントの分布及びその注釈に基づき、例えば、ツリー型空間データ構造によって指標をつけられた空間における注釈をつけたデータポイントのクラスタリングを行うことによって、ツリー型空間データ構造の空間領域を、参照母集団内の母集団に関連づけるステップを含んでもよい。方法は、さらに、マッピングを使用して、発端者の遺伝子データセットの発端者の削減された次元数のベクトル表現を生じるステップ、ツリー型空間データ構造において、発端者の削減された次元数のベクトル表現を位置づけるステップ、及び、ツリー型空間データ構造におけるその位置に基づき、発端者の遺伝子データセットを分類するステップを含んでもよい。
別の態様によると、器具が、すぐ前の段落において明記された非一時的な記憶媒体、並びに、非一時的な記憶媒体上に記憶された命令を読み出す及び実行するように構成される電子データ処理装置を含む。
別の態様によると、方法が、遺伝子データセットを表す特徴ベクトルを構築するステップ、一次変換を使用して特徴ベクトルの次元数を削減し、遺伝子データセットの削減された次元数のベクトル表現を生じるステップ、ツリー型空間データ構造において、遺伝子データセットの削減された次元数のベクトル表現を位置づけるステップ、及び、ツリー型空間データ構造におけるその削減された次元数のベクトル表現の位置に基づき、1つ又は複数の母集団に遺伝子データセットを割り当てるステップを含む。少なくとも構築するステップ、生じるステップ及び位置づけるステップは、電子データ処理装置によって適切に行われる。
別の態様によると、器具が、参照母集団の参照遺伝子データセットを表す参照特徴ベクトルを構築する、一次変換を使用して参照特徴ベクトルを変換し、参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現を生じる、及び、ツリー型空間データ構造を構築し、参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現の少なくともいくつかの次元によって定められるデータポイントとして、参照遺伝子データセットに指標をつけるようにプログラムされた電子データ処理装置を含む。一次変換は、参照特徴ベクトルに対して特徴削減を行うことによって生じてもよい。
1つの利点が、より効率的な遺伝子データセットの母集団分類又はグループ化に属する。
別の利点が、より正確な遺伝子データセットの母集団分類又はグループ化に属する。
別の利点が、より細かく分解された母集団グループまで容易に拡張可能な(すなわち、定義となるような部分母集団まで拡張可能な)母集団分類の枠組みを提供することに属する。
別の利点が、所定の別々の遺伝子マーカーに基づくのではなく凝集した遺伝子データセットに基づき、遺伝子データセットの母集団分類又はグループ化を行うことに属する。
別の利点が、例えば、分類されることになる各サンプルに対して新たに特徴削減を行うことなく予め計算された一次変換を使用して、計算の複雑性が減少した母集団分類を行うことに属する。
以下の詳細な説明を読むことによって、数多くのさらなる利点及び利益が当業者には明らかになる。
本発明は、種々の要素及び要素の取り合わせにおいて、並びに、種々のプロセス動作及びプロセス動作の取り合わせにおいて具体化することができる。図面は、好ましい実施形態を例示する目的のためだけにあり、本発明を限定するとして解釈されることはない。
ツリー型空間データ構造(SDS)を利用する母集団分類子を生じるためのシステムの概略図である。 二次元のデータポイントが使用された場合に図1のシステムによって適切に生じた例示的な4分木構造の概略図である。 三次元のデータポイントが使用された場合に図1のシステムによって適切に生じた例示的な8分木SDSの概略図である。 図1のシステムによって生じた母集団分類子の動作の概略図である。
図1を参考にすると、遺伝子データセットを分類するための母集団分類子を生じるためのシステムが概略的に示されている。当該システムは、開示される処理動作を行うようにプログラムされたコンピュータ又は他の電子データ処理装置10によって適切に実行され、さらに、入力として、参照母集団のメンバーに対する複数の遺伝子データセット12を受けている。遺伝子データセットは、例えば、マイクロアレイ又は他の実験処理を使用して生じる遺伝子シーケンシングデータ(核DNA、ミトコンドリアDNA、RNA又はメチル化データ等)、タンパク質発現データを含み得る。一部の実施形態において、遺伝子データセット12は、全ゲノムの配列のWGSデータセット、又は、次世代のシーケンシング器具によって生じる他の実質的な遺伝子配列を含む。遺伝子データセット12は、任意で、例えばシーケンシングデータ及びマイクロアレイデータ両方等、2つ以上のタイプの遺伝子データを含んでもよい。遺伝子データセット12は、実質的に重複しており(すなわち、同じ遺伝子領域を含む、又は、同じ標準的なマイクロアレイから生じる等)、さらに、標準化されたフィルタリング及び/又は処理14を受ける。「標準化された」とは、遺伝子データセット12が全て同じフィルタリング及び/又は処理14を受けるということを意味し、例示的な例として、一塩基多型(SNP)若しくはコピー数多型(CNV)のような他の遺伝子変異体の同定、遺伝子発現量の規準化、データの2値化(若しくはより漠然とした離散化)又は異常値の除去等を含んでもよい。動作16において、標準化された特徴ベクトルXが、それぞれのフィルターがかけられた/処理された参照遺伝子データセットに対して生じる。「標準化された」とは、各特徴ベクトルXが、対応するベクトル要素と同じ数の次元(すなわち、同じ次元数)を有するということを意味し、例えば、ベクトル要素xが1つの特徴ベクトルにおいて特定のSNPを表す場合、従って、ベクトル要素xは、全ての他の特徴ベクトルにおいても同じSNPを表す。動作14、16の出力は、参照遺伝子データセット12のセットに対応し且つ該セットを表す特徴ベクトルXのセットである。このように、参照遺伝子データセット12のセットにおいてmの個体がある場合、従って、mの対応する特徴ベクトルがある。
一般に、特徴ベクトルXは、高次元数のものであってもよく、例えば、それぞれの特徴ベクトルXは、何百、何千、何万又はそれ以上の特徴(すなわちベクトル要素)を含有する。ゲノム科学の文献から、種々の特徴が、特定の母集団と相関性がある若しくは相関性がない(anti−correlative)として同定可能であってもよく、母集団は、本明細書において使用される場合、いかなる証拠となる個々のグループ化も広く包含する。母集団のいくつかの例として、民族的母集団、性別的母集団、エピジェネティック的母集団、疾患的母集団(例えば糖尿病を持つ人間等)、又は、疾患傾向的母集団(すなわち、特定の疾患にかかりやすくさせる遺伝子構造を有する人間)等が挙げられる。関心のある母集団は、母集団の交わりによって定めることができ、例えば、関心のある母集団は、中央ヨーロッパの民族母集団と性別が女性の母集団との交わり(すなわち、中央ヨーロッパの民族の女性の母集団)であってもよい。関心のある母集団は、より多くを包含する母集団の部分母集団であってもよく、例えば、インド人の母集団は、パンジャビ(Punjabis)、ベンガリ(Bengalis)等、種々の民族的母集団に分けることができる。
しかし、本明細書においては、対象を母集団に割り当てるための所定の別々の遺伝子マーカーへの依存は、数多くの欠陥を有するということが認識される。結果として生じる分類は、新たな遺伝子研究が以前に決定された遺伝子マーカーの関係をさらに精密又は正確にするため、時代遅れになり得る。所定の別々の遺伝子マーカーに基づく分類は、時間の経過に伴い関心のあるものになり得る新たな且つ異なる母集団グループ化まで容易に拡張可能であるわけでもない。別々のマーカーと種々の母集団との間の相関関係の強さも、場合によっては弱くあり、又は、所与の対象が、相互に矛盾した遺伝子マーカーを有し得る(例えば、マーカーAが、対象は母集団Pに属するということを示し得る一方で、マーカーBが、その対象は母集団Pには属さないということを示し、割当をあいまいにし得る)。
開示される母集団分類技術は、所定の別々の遺伝子マーカーに頼らないが、正しくは代わりに、凝集した遺伝子データセットに基づく。このような目的で、遺伝子データセットは、削減された次元数のベクトル表現として表され、ツリー型空間データ構造(SDS)を使用して指標づけされる。削減された次元数は、主成分分析(PCA)、探索的因子分析(EFA)、多次元的尺度構成法(MDS)又はカーネル主成分分析(KPCA)等、実質的且つ特徴の削減アルゴリズムを使用して達成することができる。結果として生じる削減された次元数のベクトル表現は、ベクトル要素又はベクトル成分を有し、その値は、特徴ベクトルXの特徴を「共に混ぜる」又は「混ぜ合わせる」。結果として生じる削減された次元数のベクトル表現は、遺伝学的に類似している対象を同定及びグループ化するために効率的な機構を提供するツリー型空間データ構造(SDS)において指標づけされる。遺伝学的に関連のある個体の母集団(例えば民族的母集団等)は、従って、ツリー型SDSにおいて空間的に位置づけられることが予想される。
図1を続けて参考にすると、次元数削減が、マッピング又は一次変換を使用して適切に行われ、その式はY=M(X)であり、ここでXは、(例えば動作16によって出力される)遺伝子データセットを表す特徴ベクトルであり、Yは、遺伝子データセットの削減された次元数のベクトル表現であり、さらに、Mは、変換マトリクスである。このような目的で、主成分分析(PCA)、探索的因子分析(EFA)、多次元的尺度構成法(MDS)又はカーネル主成分分析(KPCA)等の特徴削減動作18が適用される。
例示的な例として、PCAが、例示的な特徴削減動作18において利用される。PCAが平均値減算(mean subtraction)(すなわち平均値センタリング(mean centering))と組み合わせて適用される場合、PCA成分は、入力データセットにおける大きな分散の方向に相当する。PCA成分は、主成分として既知の相関関係がない変数である。マトリクスの次元数の適した選択によって、いかなる数の主成分も生じるようにPCAを選ぶことができる。PCAの(平均値センタリングを用いる)動作18は、従って、一次変換マトリクスMを生じ、Mは、特徴ベクトルX(又は、マトリクスの行として配置されるそのようなベクトルのセット)に影響を及ぼし、さらに、削減された次元数のベクトル表現Y(又は、入力Xが特徴ベクトルのマトリクスである場合にマトリクスの行として配置される削減された次元数のベクトル表現のセット)を出力する。原則として、一次変換マトリクスMは、手動で構築することができたが、PCA又は別の特徴削減技術を使用することによって、出力される1つ又は複数の削減された次元数のベクトル表現の要素が、異なる遺伝学的母集団を区別するよう非常に識別力のあるベクトル要素を有するように一次変換マトリクスMを構築するための自動化アプローチが提供される。(例えばPCAにおいて、この識別力は、分散を最大にする主成分から生じる)。
大部分の特徴削減アルゴリズム(PCAを含む)に対して、特徴削減動作18は、いかなる選ばれた数の次元を有する削減された次元数のベクトル表現Yを出力するよう選ぶことができる。特徴ベクトルXにおいて記憶された遺伝子特徴の所望の混合又は混ぜ合わせを達成するために、並びに、計算効率を提供するために、1つ又は複数の削減された次元数のベクトル表現Yの次元数は、特徴ベクトルXの次元数と比較して削減されるのが好ましい。別言すれば、特徴削減18は、参照母集団の遺伝子データセット12を表す特徴ベクトルXに影響を及ぼして、特徴ベクトルXの次元数と比較して削減された次元数のベクトル空間に特徴ベクトルXを位置づけるマッピング20を生じる。特徴削減の量が増やされる(より削減された次元数、すなわち、より少ない次元数を有する削減された次元数のベクトル表現Yに一致する)に従い、特徴の混合又は混ぜ合わせも計算効率も改善される。一部の実施形態において、削減された次元数のベクトル表現Yに対してより多い次元数が熟考されるけれども、削減された次元数のベクトル表現Yは、2つ又は3つの次元を有する。
特徴削減動作18は、マッピング又は一次変換20を生じ、その式は適切にY=M(X)であり、ここでXは、遺伝子データセットを表す特徴ベクトルであり、Yは、遺伝子データセットの削減された次元数のベクトル表現であり、さらに、Mは、変換マトリクスである。事実、特徴削減動作18は、変換マトリクスMを最適化して、参照母集団の遺伝子データセット12を表す特徴ベクトルXのセットに対する削減された次元数のベクトル表現Yの要素の識別力を最大にするのに役立つ。この最適化は、典型的に、(削減された次元数のベクトル表現Yの次元数を最適化する特徴削減アルゴリズムを利用するよう熟考されるけれども)削減された次元数のベクトル表現Yの選ばれた次元数に対して行われる。その後、参照母集団のそれぞれの特徴ベクトルXにマッピング20を適用して、対応する削減された次元数のベクトル表現Yを生じることができる。(計算効率のために、この変換は、行が参照母集団の特徴ベクトルであるマトリクスに一次変換Mが影響を及ぼす1つのマトリクス演算において行うことができる)。ここでも、参照母集団がmの個体を含む場合には、これらは、動作14、16により生じたmの特徴ベクトルXによって表され、これらのmの特徴ベクトルXは、マッピング20を最適化するために特徴削減動作18において使用され、さらに、最終的には、これらmの特徴ベクトルXは、マッピング20によって(個々に、又は、mの行がmの特徴ベクトルXであるマトリクスに影響を及ぼすことにより)変換され、対応するmの削減された次元数のベクトル表現Yを生じる。
図1を続けて参考にし、さらに、図2及び3を簡単に参考にすると、動作22において、mの削減された次元数のベクトル表現Yに指標をつけるツリー型空間データ構造(SDS)が構築される。ツリー型SDSは、ベクトル空間を分割する帰納的空間分割アルゴリズムを使用して構築される。一部の既知のツリー型SDSは、(二次元のベクトル空間に適用可能であり、それぞれの空間領域を4つの部分に帰納的に分割する)4分木構造(図2を参照)、(三次元のベクトル空間に適用可能であり、それぞれの空間領域を8つの部分に帰納的に分割する)8分木構造(図3を参照)、ハイパーツリー(hypertree)構造(すなわち、四次元以上に対して概括するもの)、kd木構造及びUB木構造等を含む。ツリー型SDSは、粗い空間解像度から細かい局所的解像度に効率的に「ドリルダウン」するのを可能にするため、ツリー型SDSは、地理情報システム(GIS)アプリケーション(例えば、ズームイン及びアウトを可能にするコンピュータ化された地理的マッピングアプリケーション等)における使用に対してよく知られている。有利に(さらに、それぞれ図2及び3の4分木及び8分木構造において概略図で例示されているように)、一部のSDSインデックスにおいて、帰納的分割のレベルの数は、局所的に変わり得る。GISアプリケーションにおいて、例えば、帰納的分割は、人口密集都市においてより多い数のレベルに対して行われて(より細かい空間解像度を与えて)もよい一方で、帰納的分割は、少ない関心のある特徴を有する過疎の又は人気のない領域においてより少ないレベルに対して行われて(より粗い空間解像度を与え、さらに、より少ないメモリ又は記憶装置を要求して)もよい。
GISアプリケーションにおけるツリー型SDSの別の利点は、人口増加の領域における空間解像度を上げるために容易に調整されるということである。これは、高い人口増加率の地理的領域を表す1つ又は複数の領域にさらなる帰納的分割を適用する(すなわち、さらなるレベルを加える)ことによって行うことができる。逆に、メモリ又は記憶装置が貴重である場合に、人口減少の領域は、SDSの「リーフ」領域をマージすることによって修正し、帰納的空間分割の後ろの方の帰納を「アンドゥ―する」ことができる。
動作22は、ツリー型SDSを構築して、参照母集団のmの個体のmの削減された次元数のベクトル表現Yを指標づけする。ツリー型SDSは、自動的に動作して、(その削減された次元数のベクトル表現Yによって表される)類似の遺伝子構造を有する個体を、同じ空間分割若しくは領域において、又は、隣接した空間分割若しくは領域においてグループ化する。
一部の実施形態において、ツリー型SDS構築動作22は、削減された次元数のベクトル表現Yの次元数と同じ数の次元を有するツリー型SDSを構築する。例えば、削減された次元数のベクトル表現Yが三次元を有する場合、従って、これらの実施形態において、構築されるツリー型SDSも三次元を有する(さらに、例えば8分木であり得る)。
或いは、ツリー型SDS構築動作22は、削減された次元数のベクトル表現Yの次元数よりも少ない次元を有するツリー型SDSを構築してもよい。例えば、削減された次元数のベクトル表現Yが三次元を有する場合、従って、これらの実施形態において、構築されるツリー型SDSは二次元のみを有し得る(さらに、例えば4分木であり得る)。PCAの場合に、第1の主成分は、典型的に、(トレーニング母集団、この場合参照母集団に対して)最大の分散を有し、第2の主成分は次に大きい分散を有する等である。従って、PCAにより生じた削減された次元数のベクトル表現Yの次元の総数よりも少ないものが、ツリー型SDSを構築することにおいて使用される場合、一般的に、「最初のNの」主成分を使用することが有利である。
動作22は、このように、ツリー型空間データ構造における(参照)データポイントとして、参照母集団の遺伝子データセット12の削減された次元数のベクトル表現を記憶する。これらのデータポイントは、削減された次元数のベクトル表現と同じ数の次元を有してもよい(その場合、削減された次元数のベクトル表現は、本質的に、データポイント「である」)。或いは、データポイントは、削減された次元数のベクトル表現よりも少ない次元を有してもよく、例えば、各データポイントは、三次元(又はそれ以上の次元)のPCAにより生じた削減された次元数のベクトル表現の最初の2つの主成分によって表される。構築されるツリー型SDSは、例えば(二次元のデータポイントを指標づけするための)4分木構造、(三次元のデータポイントを指標づけするための)8分木構造、kd木構造又はUB木構造等、データポイントの次元数に適合するいかなる構造であってもよい。
動作24において、ツリー型SDSによって指標づけされた(参照)データポイントは、民族的母集団、表現型的母集団又は他の関心のある母集団を定めるために、注釈がつけられる、グループ化される、さもなければラベルされる。一般的に、動作24は、参照母集団の遺伝子データセットが取得された対象に関する情報で、ツリー型SDSにおけるデータポイントに注釈をつけること、及び、データポイントの分布及びその注釈に基づき、ツリー型SDSの空間領域を、参照母集団内の母集団に関連づけることを含む。関連づけることは、ツリー型SDSによって指標をつけられた空間における注釈をつけたデータポイントのクラスタリングを行うことを伴ってもよい。適したクラスタリングアルゴリズムは、例示的な例として、K平均クラスタリング又はKメドイドクラスタリング等を含む。Kメドイドクラスタリング技術は、一般的に、K平均クラスタリングよりも異常値を許容する。
例示的な図3の8分木構造を参考にすると、ツリー型SDSの空間的性質は、遺伝学的に類似したデータポイントのクラスターが、ベクトル空間において隣接した領域を形成するということを意味する。例示的な図3において、5つの例示的なクラスターが、破線円によって概略的に示されている。(8分木構造は三次元であるため、これらのクラスターは、例えば球体、楕円体又は一部の異形等、実際に三次元であるということに留意されたい)。例えば、データポイントに対するN個の最隣接を同定することは、データポイントを含有するツリー型SDSのリーフノードにおけるポイントをカウントし、次に、(ツリー型SDSの空間的性質のため最隣接である)N個の隣接したものが同定されるまでより多いレベルまで外に拡張することによって行うことができるため、ツリー型SDSにおいてクラスタリングを行うことは有利であり得る。
図1のシステムの出力は、マッピング20を含む母集団分類子、並びに、ツリー型SDS、及び、動作22、24によって生じたその指標づけされた参照ポイントである。マッピング20は、例えばマトリクスに基づくマッピング式Y=M(X)を使用して、一次変換として有利に実行されてもよく、ここでMは変換マトリクスである。
図4を参考にすると、図1のシステムによって生じた母集団分類子30の動作が記載されている。母集団分類子30は、図1のシステムが実行されるものと同じコンピュータであってもよいか又は異なるコンピュータであってもよいコンピュータ10によって適切に実行される。母集団分類子30への入力は、(必ずしもそうであるわけではないけれども)典型的に参照母集団のメンバーではない「新たな」個体33から抽出された新たな遺伝子データセット32である。(個体又は対象は、本明細書において使用される場合、遺伝医学検査若しくは人間母集団研究等に対する場合と同様に、典型的に、ヒトの個体又は対象であるが、特に、個体又は対象は、本明細書において使用される場合、適切に前臨床試験若しくは獣医学的実務における場合と同様に、個々の動物又は動物対象であってもよく、或いは、適切に検死法医学的遺伝子検査若しくは考古学的ミイラ検査等における場合と同様に、ミイラ又は他の死亡したヒト若しくは動物の対象であってもよいということに留意されたい)。
一般に、新たな対象33は、発端者の対象、すなわち、研究中若しくは遺伝子解析レポートの対象となる特定の個体又は対象であってもよい。
或いは、新たな対象33は、母集団分類子をアップデートするために加えられるさらなる参照対象であってもよい。有利に、開示される母集団分類子技術は、新たな対象又は個体を用いて容易にアップデートされ、ツリー型SDSの分割解像度(すなわちレベルの数)は、ツリー型SDSの種々の領域におけるより高い母集団密度に適応する必要に応じて増やされ、さらに、いかなる母集団領域のアップデートも、任意で、新たな個体が加えられる領域に局在化される。より細かい解像度の(例えば、部分母集団を定める)母集団の定義が特定の遺伝子解析に対して有用であるということを新たな医学研究が示す場合に、解像度をさらなる分割によって上げることもできる。
新たな遺伝子データセット32は、フィルタリング/処理動作14、及び、特徴ベクトル生成動作16によって処理されて、新たな遺伝子データセット32を表す特徴ベクトルXを生じる。これらは、図1のシステムにおいて参照遺伝子データセット12に適用される同じ動作14、16であるため、新たな遺伝子データセット32を表す特徴ベクトルは、参照母集団を表す特徴ベクトルに比較できる。すなわち、新たな遺伝子データセット32を表す特徴ベクトルは、参照母集団を表す特徴ベクトルと比較して、対応するベクトル要素を有する同じ数の次元(すなわち同じ次元数)を有する標準化された特徴ベクトルである。
図4を続けて参考にすると、新たな遺伝子データセット32を表すこの標準化された特徴ベクトルは、次に、図1のシステムにより行われた特徴削減動作18によって最適化されたマッピング20を使用して変換される。この変換によって、新たな遺伝子データセット32の削減された次元数のベクトル表現Yが生じ、標準的なマッピング20により生じることによって、削減された次元数のベクトル表現Yは、参照母集団の参照遺伝子データセット12の削減された次元数のベクトル表現と比較して同じ次元数及び対応するベクトル要素を有する。従って、新たな遺伝子データセット32の削減された次元数のベクトル表現Yを、「ドリルダウン」プロセス34、36を使用してツリー型SDSにおいて位置づけることができる。動作34において、新たな遺伝子データセット32の削減された次元数のベクトル表現Yは、ツリー型SDSの最上位の領域に割り当てられる(すなわち、その中に位置付けられる)。動作36において、新たな遺伝子データセット32の削減された次元数のベクトル表現Yは、例えばツリー型SDSのリーフノードに到達するか又は所望の空間解像度に到達する等、停止基準に達するまで、ツリー型SDSのそれぞれ次の低いレベルに帰納的に割り当てられる。動作36は、ツリー型SDSを生じるために使用される帰納的分割のため、計算効率がよい。いかなる所与のレベルであっても、次の低いレベルにおけるYの位置は、Yを含有する現在のレベルの領域の分割(すなわち「小」区域)の1つに必ずある。4分木構造に対しては、探索するのに4つの(小)領域のみあり、8分木構造に対しては、探索するのに8つの領域がある等である。
図4を続けて参考にすると、新たな対象33が発端者の対象である場合、次に、動作38において、その発端者の対象は、ツリー型SDSにおける新たな遺伝子データセット32の削減された次元数のベクトル表現Yの位置に基づき、1つ又は複数の母集団に割り当てられる。ツリー型SDSの空間的性質のため、母集団は、典型的に、ツリー型SDSの空間領域に、すなわち、1つ又は複数の隣接した領域に対応する。このように、新たな遺伝子データセット32の削減された次元数のベクトル表現Yがこの空間領域又は隣接した領域の群の中にある場合、従って、新たな対象33は、その母集団に割り当てられる。(所与の領域は2つ以上の母集団に属してもよく、例えば、所与の領域は、インド民族の母集団、ベンガリ(部分)母集団及び女性の性別の母集団等に属してもよいということに留意されたい)。
(特徴ベクトルXと比較した)削減された次元数のベクトル表現Yの次元削減は、削減された次元数のベクトル表現Yが、全ての本来の遺伝子情報を含有しないということを意味する。従って、削減された次元数のベクトル表現Yは、特定のSNP又は他の特定の遺伝子マーカーを同定すること等の遺伝子解析を行うための適したデータセットではない。正しくは、削減された次元数のベクトル表現Yは、母集団の割当に使用される。後の遺伝子解析40は、典型的に、発端者の対象が割り当てられる母集団に対して、SNP、遺伝子発現レベル、又は、疾患若しくは他の表現型特徴を示す他の遺伝子マーカーを同定するために行われる。遺伝子解析40は、特徴ベクトルXに影響を与えることができ、その場合、処理動作14、16は、後の遺伝子解析40においててこ入れされる。さらに又は或いは、本来の遺伝子データセット32が、(例えばフィルタリング14が関心のあるSNPを捨ててしまったかもしれない場合に適切であり得るように)利用されてもよい。
遺伝子解析40は、新たな対象33が発端者の対象である場合に行われる。一方、新たな対象33が、母集団分類子をアップデートするための新たな参照対象である場合、従って、位置づけ動作34、36の後には、母集団分類子アップデート動作が適切に続く。例えば、新たな遺伝子データセット32の削減された次元数のベクトル表現Yに対応する(又は、一部の実施形態においてYと同じである)データポイントは、その適切な位置にてツリー型SDSに加えられ、さらに、新たな参照対象33に関する既知の情報で注釈がつけられてもよい。新たな参照対象33が属する母集団は、新たな遺伝子データセット32の削減された次元数のベクトル表現Y及びその注釈によって表された新たな情報を説明するために、再度クラスター形成されてもよく、さもなければ、再定義又は調整されてもよい。
前述の説明において、各遺伝子データセットは個々の対象に対応するということが全般的に仮定されてきている。しかし、場合によっては、単一の個体が2つ以上の異なる遺伝子データセットの供給源であってもよいということを正しく理解されたい。例えば、1人の癌患者が、健康な組織の遺伝子データセットを生じるために健康な組織から、及び、疾患の遺伝子データセットを生じるために悪性腫瘍から取得された複数の遺伝子サンプルを有し得る。そのような場合、健康及び疾患の遺伝子データセットは個々に処理され、さらに、ツリー型SDSにおいてそれぞれ位置付けることができる別々のデータポイントを定め、それらのポイントの距離は、健康な組織と病気の組織との間の遺伝的差異を示している。
例示的な図1及び4において、記載されたシステムは、コンピュータ又は他の電子データ処理装置10によって実行されている。これらのシステム及び開示される母集団割当技術は、開示される動作を行うための電子データ処理装置により実行可能な命令を記憶する非一時的な記憶媒体によって実行することができるということも理解されたい。例えば、非一時的な記憶媒体は、ハードディスクドライブ若しくは他の磁気記憶媒体、光ディスク若しくは他の光記憶媒体、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ若しくは別の電子記憶媒体、又は、その種々の組み合わせ等であってもよい。
開示される母集団割当技術は、母集団クラスターデータを記憶するための効率的な機構、すなわちツリー型SDSを提供し、さらに、この記憶機構によって、新たに配列決定された、遺伝子型を同定された、さもなければ、取得された遺伝子データセットを速く分類する確固とした方法を提供する。発端者の個体に由来している母集団という点でどの個体が遺伝学的に類似しているかを知ることが有利であり得る研究又は臨床適用の場合、開示されるアプローチは、参照個体の実際の遺伝子配列又はサインを暴くことなく、そのような情報を示す方法を提供し、それは、遺伝子データのプライバシーのため望ましくあり得る。
開示される方法が、同じ出所の組織からの病気及び正常なサンプルを比較するために利用される場合、ツリー型SDSにおける隣接したサンプルの遺伝子解析は、発端者のサンプルにおけるあり得る病原のモードについて詳しく述べ得る。例えば、同じ経路の異なる遺伝子が隣接したサンプルに関与している場合、同じ経路は、発端者のサンプルに関与しているかもしれない。
開示されるアプローチにおいて、パイプライン全体が、サンプルを分類するために再度実行される必要があるわけではなく、その結果、時間及びコンピュータリソースの節約となる。特に、計算集約型の特徴削減動作18は1回のみ行われ、その後、計算効率のよい一次変換Mが適用される。この計算効率を考慮して、開示されるアプローチは、母集団情報に連関する疾患クラスにサンプルが属しているかどうかを決定するための高速のスクリーニング方法として容易に適用される。
以下において、いくつかさらなる例示的な例が記載される。
一例において、多様な網羅的母集団からの多数の個体からのゲノム配列情報が収集され、さらに、SNP細胞が、一般に容認されたルール下で抽出された選ばれた位置にて作製される。例えば、そのようなSNPのマイナー対立遺伝子頻度(MAF)は、各母集団において閾値よりも上であるべきであり、多くのミスコール(missing call)があるべきではなく、及び、SNPは、それらの間で連鎖不平衡がないように十分に分けられるべきである等である。遺伝子データは、特徴ベクトルXを生じるために、一般に容認されたルールを使用して数字で記録される。この網羅的データセットは、次に、PCA、又は、例えば、多次元的尺度構成法(MDS)若しくはカーネルPCA(KPCA)等の別の次元数削減(例えば因子分析等)の手順に供されてマッピングMを生じ、マッピングMは、次に、特徴ベクトルXに適用されて、削減された次元数のベクトル表現Yを生じる。データセットにおける最大の変化に寄与するYの最初のいくつかの次元(又は、次元削減が積極的である場合にYの全ての次元)が選択され(3から4の次元が一部の実施形態において熟考され)、さらに、kd木構造、8分木構造又はUB木構造等のツリー型空間データ構造(SDS)において記憶される。この処理によって、母集団分類子が生じる。
新たに配列決定されたサンプルに対して、高次元データから(参照データセットに対して計算された)より低い次元数変換データセットまで、同じマッピングMが使用される。参照データセットは、適切に包括的なデータセット(すなわち「網羅的」データセット)であるという仮定の下、新たなサンプルは、本来の母集団クラスターの1つに属し、データセットにおいてさらなる分散を導入し過ぎず、さらに、マッピングは、変換された空間において新たなサンプルをほぼ正確に置き、従って、新たに次元数削減手順をやり直す複雑な計算を回避するであろう。新たなサンプルの削減された次元数のベクトル表現を使用することによって、本来の(すなわち参照)データセットが問い合わされ、さらに、このサンプルの母集団の関係又はその最隣接した個体等の情報が引き出される。
サンプル遺伝子型の母集団は、典型的に、削減された次元数のベクトル空間において不均一に分布されると予想される。そのような不均一の分布は、空間分布を収容するように帰納的分割を適合させることができるため、ツリー型SDSによって容易に収容される。適したツリー型SDSは、3つの選ばれた主成分に対して8分木、又は、>3の選ばれた主成分に対してハイパーツリーを含む。
以下において、処理作業の流れの例が記載される。
第一に、異なる網羅的母集団からの多数の関係がない個体が、後に検査されることになる有望なニューカマーが現れ得るいかなる重要な母集団も除外しないように集められる。これらの個体は、参照データを形成する。
第二に、全ゲノムのSNPに対して、これらの個体のシーケンシング又はジェノタイピング情報が取得される。
第三に、SNPが、各部分母集団において各SNPが(a)(異常値に達して解析を歪め得る稀なSNPを含まないように)MAF(マイナー/ミニマム対立遺伝子頻度)≧0.05を有するように、(b)(情報が配列決定からの場合には余分であり、理想的には、その場合には欠損した情報があるべきではない)欠損した遺伝子型<10%を有するように、さらに、(c)(母集団において安定なSNPのみを含むために、すなわち、重要な選択圧力のない、及び、明らかな生存特色(survival trait)に関連づけられないために)ハーディ・ワインベルグ平衡(HWE)にあるように、フィルターにかけられる。
第四に、SNPは、以下の換算、[AA,AD,DD]→[2,1,0]を使用して数字で記録され、ここで「A」は、全ての参照個体を考慮してSNPに対してメジャーな対立遺伝子であり、さらに、「D」は、マイナーな対立遺伝子である。4つ以上のあり得る二倍体の遺伝子型を有するCNVのような変異体の場合、例えば、[コピー数状態0,1,2,3,4,5]−>[0,1,2,3,4,5]等、同様に離散化され得る。
第五に、mの個体及びnのSNP遺伝子型がある場合、データは、m×nのマトリクスXとして表すことができ、1つの個体の遺伝子型は、Xの1つの行に沿って表されている。
第六に、各数字でコードされたSNPに対して、平均値が計算され、さらに、X−X=X´(Xは平均値)という関係を有して、Xが、X´まで平均値センタリングされる。
第七に、主成分分析(PCA)が、m×lのマトリクスYを得るために行われ、ここでは1≦l≦nである。データにおける最大の分散に寄与する最初のいくつかの主成分(例えば固有値>1の又はスクリー分析による通常の基準)が記憶のために選択され、例えば、最初の3つの主成分のみが記憶される場合にm×3のマトリクスであるY´として記憶される。
第八に、第五から第七の動作が、MがXからY´までのマッピングである場合に、Y´=M(X)として表される。(これは、例えばEFA/MDS、KPCA等の他の次元数削減手順に当てはまる)
第九に、三次元のツリー型空間データ構造(SDS)における座標としてY´からの3つの主成分の値を使用し、マトリクスY´は、例えば、母集団の起源又は地理的起源等の人口統計学的情報等、個体に対する注釈情報を記憶するために使用される。8分木構造は、3つの主成分の値に適している。これは、従って、参照データバンクとして使用され、それに対して新たなサンプルが比較される。クラスター{C,C,・・・,C}が、m個のクラスター代表ポイントのセット(セントロイド/メドイド)を有するツリー型SDSにおけるデータポイントにわたって計算されるか又は決定される。
第十に、ニューカマーの個々の遺伝子型Gが利用可能である場合、G´=M(G)としてマッピングMを用いて主成分空間に変換され、Mは、Y´=M(X)におけるものと全く同じである。PCA(又は他の特徴削減)は回避され、さらに、予め計算された値を有した行列代数のみが含まれるため、この変換は計算効率がよく、ほぼ一定の時間かかる。
第十一に、G´において得られた座標から、ツリー型SDSにおいて記憶されたデータが効率的に問い合わせされて種々の情報を提供する。種々の情報は、例えば、(a)クラスターGが、もしあればどの母集団に属するか(ここでは、ツリー型SDSが、Gがクラスター{C,C,・・・,C}の1つに属するかどうかを決定するために問い合わされる)、及び/又は(b)どの個体がGに最も近いか(ここでは、Gのk最隣接個体が、ツリー型SDSにわたって行われたK−NN探索アルゴリズムを使用して決定される)、並びに/又は、(c)隣接した個体等の人口統計学的な注釈情報等の情報である。
第十二に、同じ組織起源からの正常及び異なる癌サンプル又は(例えば変性疾患等の)他の疾患サンプルからの遺伝子型情報を有する異なる母集団からの個体の場合に、類似の方法を利用することができる。
第十三に、ニューカマーの個体が新たな母集団からのものである場合に、PCAを再度行い、さらに、エラーマトリクスを計算することができる(“Model identification and error covariance matrix estimation from noisy data using PCA,”S.Narasimhan and S.L.Shah,Control Engineering Practice,vol.16,no.1,January 2008,Pages 146−155を参照)。必要に応じて、さらなる主成分が、新たな参照データに含まれてもよい。
本発明は、好ましい実施形態を参考にして記述されてきた。明らかに、前述の詳細な説明を読み理解した後、修正及び変更が他の者の心に浮かぶはずである。本発明は、付随の特許請求の範囲又はその同等物内にある限りではそのような修正及び変更を全て含むとして解釈されることが意図される。

Claims (20)

  1. 電子データ処理装置によって実行可能な命令を記憶する非一時的な記憶媒体であって、
    前記命令が、
    参照母集団の遺伝子データセットを表す特徴ベクトルに対する特徴削減を行うステップであり、前記特徴ベクトルの次元数と比較して削減された次元数のベクトル空間に前記特徴ベクトルを位置づけるマッピングを生じる、ステップ、
    前記マッピングを使用して、前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現を生じるステップ
    リー型空間データ構造におけるデータポイントとして、前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現を記憶するステップ、
    前記参照母集団の遺伝子データセットが取得された対象に関する情報を用いて、前記ツリー型空間データ構造における前記データポイントに注釈をつけるステップ、及び、
    データポイントの分布及びその注釈に基づき、前記ツリー型空間データ構造の空間領域を、前記参照母集団内の母集団に関連づけるステップ、
    を含む方法を行う命令である、非一時的な記憶媒体。
  2. 前記マッピングは一次変換である、請求項1に記載の非一時的な記憶媒体。
  3. 前記マッピングはY=M(X)であり、Xは、遺伝子データセットを表す特徴ベクトルであり、Yは、前記遺伝子データセットの削減された次元数のベクトル表現であり、さらに、Mは、変換マトリクスである、請求項1又は2に記載の非一時的な記憶媒体。
  4. 前記行うステップは、
    前記マッピングを生じるために、前記参照母集団の遺伝子データセットを表す特徴ベクトルに対する主成分分析を行うステップを含む、請求項1乃至3のいずれか一項に記載の非一時的な記憶媒体。
  5. 前記ツリー型空間データ構造は、前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現の次元数に等しい次元数を有する、請求項1乃至4のいずれか一項に記載の非一時的な記憶媒体。
  6. 前記ツリー型空間データ構造は、前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現の次元数よりも少ない次元数を有し、さらに、
    前記記憶するステップは、
    前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現の次元の全てよりも少ない次元によって定められる座標を有するデータポイントとして、前記参照母集団の遺伝子データセットの削減された次元数のベクトル表現を記憶するステップ、
    を含む、請求項1乃至4のいずれか一項に記載の非一時的な記憶媒体。
  7. 前記ツリー型空間データ構造は、4分木構造、8分木構造、kd木構造又はUB木構造である、請求項1乃至6のいずれか一項に記載の非一時的な記憶媒体。
  8. 前記方法は、
    前記マッピングを使用して、前記参照母集団の一部ではない新たな遺伝子データセットの新たな削減された次元数のベクトル表現を生じるステップ、及び
    前記ツリー型空間データ構造における新たなデータポイントとして、前記新たな削減された次元数のベクトル表現を記憶するステップ、
    をさらに含む、請求項1乃至7のいずれか一項に記載の非一時的な記憶媒体。
  9. 前記関連づけるステップは、
    前記ツリー型空間データ構造によって指標をつけられた空間における前記注釈をつけたデータポイントのクラスタリングを行うステップを含む、請求項1乃至8のいずれか一項に記載の非一時的な記憶媒体。
  10. 前記クラスタリングが、Kメドイドクラスタリングである、請求項に記載の非一時的な記憶媒体。
  11. 前記方法は、
    前記マッピングを使用して、発端者の遺伝子データセットの発端者の削減された次元数のベクトル表現を生じるステップ、
    前記ツリー型空間データ構造において、前記発端者の削減された次元数のベクトル表現を位置づけるステップ、及び、
    前記ツリー型空間データ構造におけるその位置に基づき、前記発端者の遺伝子データセットを分類するステップ、
    をさらに含む、請求項1乃至10のいずれか一項に記載の非一時的な記憶媒体。
  12. 請求項1乃至11のいずれか一項に記載の非一時的な記憶媒体、並びに、
    該非一時的な記憶媒体上に記憶された命令を読み出す及び実行するように構成される電子データ処理装置、
    を含む器具。
  13. 遺伝子データセットを表す特徴ベクトルを構築するステップ、
    一次変換を使用して前記特徴ベクトルの次元数を削減し、前記遺伝子データセットの削減された次元数のベクトル表現を生じるステップ、
    ツリー型空間データ構造において、前記遺伝子データセットの削減された次元数のベクトル表現を位置づけるステップであり、前記位置づけが、
    参照母集団の遺伝子データセットが取得された対象に関する情報を用いて注釈をつけられた前記ツリー型空間データ構造におけるデータポイントを同定すること、及び、
    データポイントの分布及びその注釈に基づき、前記ツリー型空間データ構造の空間領域を、前記参照母集団内の母集団に関連づけること、
    を含む、ステップ、及び、
    前記ツリー型空間データ構造におけるその削減された次元数のベクトル表現の位置に基づき、1つ又は複数の母集団に前記遺伝子データセットを割り当てるステップ、
    を含む方法であって、
    少なくとも前記構築するステップ、生じるステップ及び位置づけるステップは、電子データ処理装置によって行われる、方法。
  14. 前記遺伝子データセットが割り当てられる前記1つ又は複数の母集団に基づき、臨床的に重要であるとして、前記遺伝子データセットにおける1つ又は複数の遺伝子マーカーを同定するステップ、
    をさらに含む、請求項13に記載の方法。
  15. (i)参照母集団の参照遺伝子データセットを表す参照特徴ベクトルを構築するステップ、
    (ii)一次変換を使用して前記参照特徴ベクトルの次元数を削減し、前記参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現を生じるステップ、及び、
    (iii)前記ツリー型空間データ構造を構築し、前記参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現の少なくともいくつかの次元によって定められるデータポイントとして、前記参照遺伝子データセットに指標をつけるステップ、
    をさらに含み、
    動作(i)、(ii)及び(iii)は、前記電子データ処理装置によって行われる、請求項13又は14に記載の方法。
  16. 前記参照特徴ベクトルに対する特徴削減を行って一次変換を生じるステップであり、前記特徴削減は、前記電子データ処理装置によって行われる、ステップ
    をさらに含む、請求項15に記載の方法。
  17. 前記特徴削減は、主成分分析、探索的因子分析、多次元的尺度構成法及びカーネル主成分分析の1つである、請求項16に記載の方法。
  18. 電子データ処理装置を含む器具であって、
    前記電子データ処理装置が、
    参照母集団の参照遺伝子データセットを表す参照特徴ベクトルを構築する、
    一次変換を使用して前記参照特徴ベクトルを変換し、前記参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現を生じる、及び、
    ツリー型空間データ構造を構築し、前記参照母集団の参照遺伝子データセットの削減された次元数のベクトル表現の少なくともいくつかの次元によって定められるデータポイントとして、前記参照遺伝子データセットに指標をつける、
    前記参照母集団の遺伝子データセットが取得された対象に関する情報を用いて、前記ツリー型空間データ構造における前記データポイントに注釈をつける、
    データポイントの分布及びその注釈に基づき、前記ツリー型空間データ構造の空間領域を、前記参照母集団内の母集団に関連づける、
    ようにプログラムされる、器具。
  19. 前記電子データ処理装置は、前記参照特徴ベクトルに対する特徴削減を行って一次変換を生じるようにさらにプログラムされる、請求項18に記載の器具。
  20. 前記電子データ処理装置は、
    一次変換を使用して、発端者の遺伝子データセットを表す特徴ベクトルを変換し、前記発端者の遺伝子データセットの削減された次元数のベクトル表現を生じる、
    前記ツリー型空間データ構造において、前記発端者の遺伝子データセットの削減された次元数のベクトル表現を位置づける、及び、
    前記ツリー型空間データ構造におけるその削減された次元数のベクトル表現の位置に基づき、前記発端者の遺伝子データセットを1つ又は複数の母集団に割り当てる、
    ようさらにプログラムされる、請求項18又は19に記載の器具。
JP2015525996A 2012-08-07 2013-08-07 ツリー型空間データ構造を使用した遺伝子データセットの母集団分類 Expired - Fee Related JP6310456B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261680344P 2012-08-07 2012-08-07
US61/680,344 2012-08-07
PCT/IB2013/056453 WO2014024142A2 (en) 2012-08-07 2013-08-07 Population classification of genetic data set using tree based spatial data structure

Publications (2)

Publication Number Publication Date
JP2015526816A JP2015526816A (ja) 2015-09-10
JP6310456B2 true JP6310456B2 (ja) 2018-04-11

Family

ID=49382551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015525996A Expired - Fee Related JP6310456B2 (ja) 2012-08-07 2013-08-07 ツリー型空間データ構造を使用した遺伝子データセットの母集団分類

Country Status (7)

Country Link
US (1) US20150186596A1 (ja)
EP (1) EP2883179A2 (ja)
JP (1) JP6310456B2 (ja)
CN (2) CN104541276A (ja)
BR (1) BR112015002556A2 (ja)
RU (1) RU2015108003A (ja)
WO (1) WO2014024142A2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
WO2016193075A1 (en) * 2015-06-02 2016-12-08 Koninklijke Philips N.V. Methods, systems and apparatus for subpopulation detection from biological data
EP3356560A4 (en) * 2015-09-30 2019-06-12 Inform Genomics, Inc. SYSTEMS AND METHODS FOR PREDICTING EVENTS RELATED TO A THERAPEUTIC REGIME
CN105469108B (zh) * 2015-11-17 2019-04-05 深圳先进技术研究院 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统
CN108700652B (zh) * 2015-12-09 2023-04-21 欧利景无线有限公司 用于无线事件检测和监控的方法、装置和系统
CN106503196B (zh) * 2016-10-26 2019-05-03 云南大学 云环境下可扩展存储索引结构的构建和查询方法
EP3545446A1 (en) 2016-11-28 2019-10-02 Koninklijke Philips N.V. Analytic prediction of antibiotic susceptibility
EP3559822A4 (en) * 2016-12-22 2020-08-19 Liveramp, Inc. FINGERPRINT WITH MIXED DATA AND ANALYSIS OF THE MAIN COMPONENTS
CN106682454B (zh) * 2016-12-29 2019-05-07 中国科学院深圳先进技术研究院 一种宏基因组数据分类方法和装置
CN107347181B (zh) * 2017-07-11 2020-07-14 南开大学 一种基于双频Wi-Fi信号的室内定位方法
CN108052800A (zh) * 2017-12-19 2018-05-18 石家庄铁道大学 一种传染性病毒传播过程的可视化重建方法及终端
US10692605B2 (en) * 2018-01-08 2020-06-23 International Business Machines Corporation Library screening for cancer probability
CN110211631B (zh) * 2018-02-07 2024-02-09 深圳先进技术研究院 一种全基因组关联分析方法、系统及电子设备
US20220180323A1 (en) * 2020-12-04 2022-06-09 O5 Systems, Inc. System and method for generating job recommendations for one or more candidates

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963956A (en) * 1997-02-27 1999-10-05 Telcontar System and method of optimizing database queries in two or more dimensions
US6122628A (en) * 1997-10-31 2000-09-19 International Business Machines Corporation Multidimensional data clustering and dimension reduction for indexing and searching
US6134541A (en) * 1997-10-31 2000-10-17 International Business Machines Corporation Searching multidimensional indexes using associated clustering and dimension reduction information
JP2001011533A (ja) * 1999-06-30 2001-01-16 Kobe Steel Ltd 耐熱鋼の熱処理方法
US6741983B1 (en) * 1999-09-28 2004-05-25 John D. Birdwell Method of indexed storage and retrieval of multidimensional information
US8392418B2 (en) * 2009-06-25 2013-03-05 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and model
JP5333815B2 (ja) * 2008-02-19 2013-11-06 株式会社日立製作所 k最近傍検索方法、k最近傍検索プログラム及びk最近傍検索装置
US8417708B2 (en) * 2009-02-09 2013-04-09 Xerox Corporation Average case analysis for efficient spatial data structures
EP2241983B1 (en) * 2009-04-17 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for searching objects in a database

Also Published As

Publication number Publication date
EP2883179A2 (en) 2015-06-17
BR112015002556A2 (pt) 2017-07-04
CN111667885A (zh) 2020-09-15
WO2014024142A3 (en) 2014-05-15
CN104541276A (zh) 2015-04-22
RU2015108003A (ru) 2016-09-27
WO2014024142A2 (en) 2014-02-13
JP2015526816A (ja) 2015-09-10
US20150186596A1 (en) 2015-07-02

Similar Documents

Publication Publication Date Title
JP6310456B2 (ja) ツリー型空間データ構造を使用した遺伝子データセットの母集団分類
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US7653491B2 (en) Computer systems and methods for subdividing a complex disease into component diseases
US20230222311A1 (en) Generating machine learning models using genetic data
CN109689891A (zh) 用于无细胞核酸的片段组谱分析的方法
Vidya et al. Prediction of cervical cancer using hybrid induction technique: A solution for human hereditary disease patterns
JP7041614B2 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
Cario et al. Orchid: a novel management, annotation and machine learning framework for analyzing cancer mutations
Shi et al. Sparse discriminant analysis for breast cancer biomarker identification and classification
US20180300451A1 (en) Techniques for fractional component fragment-size weighted correction of count and bias for massively parallel DNA sequencing
Liu et al. Multiple incomplete views clustering via non-negative matrix factorization with its application in Alzheimer's disease analysis
Shahweli et al. In Silico Molecular Classification of Breast and Prostate Cancers using Back Propagation Neural Network
CN110476215A (zh) 用于多序列文件的签名-散列
Habich et al. Two-phase clustering strategy for gene expression data sets
Karim et al. A deep learning approach to genomics data for population scale clustering and ethnicity prediction
US20230230704A1 (en) Methods and systems for providing molecular data based on ct images
Mutalib et al. Weighted frequent itemset of SNPs in genome wide studies
Ashtiani et al. Revisiting the General Concept of Network Centralities: A Propose for Centrality Analysis in Network Science
Jiangeng et al. A novel hybrid approach to selecting marker genes for cancer classification using gene expression data
Ge et al. Heritability of neuroanatomical shape
Petre et al. A colon cancer microarray analysis technique
Poli et al. Biomarkers in NeoMark european project for oral cancers
Díez-Obrero et al. The Colon Transcriptome Explorer (CoTrEx) 2.0: a Reference Web-Based Resource for Exploring Population-Based Normal Colon Gene Expression
DeSantis et al. A latent class model with hidden markov dependence for array cgh data
Persson Comparing Two Algorithms for the Detection of Cross-Contamination in Simulated Tumor Next-Generation Sequencing Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180316

R150 Certificate of patent or registration of utility model

Ref document number: 6310456

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees