JP2014139787A - 表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム - Google Patents

表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム Download PDF

Info

Publication number
JP2014139787A
JP2014139787A JP2014005564A JP2014005564A JP2014139787A JP 2014139787 A JP2014139787 A JP 2014139787A JP 2014005564 A JP2014005564 A JP 2014005564A JP 2014005564 A JP2014005564 A JP 2014005564A JP 2014139787 A JP2014139787 A JP 2014139787A
Authority
JP
Japan
Prior art keywords
genetic marker
relevance score
interaction
feature
genetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014005564A
Other languages
English (en)
Other versions
JP6332598B2 (ja
Inventor
Laxmi P Parida
ラクシュミー・ピー・パリダ
He Dan
ダン・ヘ
Haws David
デーヴィッド・ホーズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2014139787A publication Critical patent/JP2014139787A/ja
Application granted granted Critical
Publication of JP6332598B2 publication Critical patent/JP6332598B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 エピスタシス効果をモデル化するためのマーカーを選択すること。
【解決手段】 1つの実施形態において、プロセッサは、遺伝子マーカー集合と表現型とを受け取る。遺伝子マーカー集合の各々について、表現型に関する関連性スコアが判定される。最も高い関連性スコアを有する、遺伝子マーカー集合内の遺伝子マーカーの関連性スコアに基づいて、閾値が設定される。遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、少なくとも1つの遺伝子マーカーと遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアが判定される。少なくとも1つの相互作用が、閾値を満たす該少なくとも1つの相互作用の関連性スコアに基づいて、上位k特徴集合に追加される。
【選択図】 図2

Description

本発明は、一般に計算生物学の分野に関し、より具体的には、表現型予測のために遺伝子エピスタシスをモデル化するための特徴を選択することに関する。
特徴選択方法は、分類及び回帰の問題にとって重大である。これは、例えば、大規模な学習アプリケーション、特に、変数の量が標本数より遥かに多い、遺伝子発現データ及び遺伝子型などの生物学データに関する学習アプリケーションにおいて共通している。
Peng他、「Feature selection based on mutual information criteria of max−dependecy, max−relevance,and min−redundancy」、Pattern Analysis and Machine Intelligence、IEEE Transactions、2005年、第27巻、第8号、pp.1226−1238
「次元の呪い」問題は、学習アルゴリズムの計算効率に影響を与えるだけでなく、これらのアルゴリズムの性能の低下にもつながる。この問題に対処するために、これらの特徴に対して学習アルゴリズムが訓練される種々の特徴選択方法を利用することができる。
1つの実施形態において、エピスタシス効果をモデル化するためのマーカーを選択するためのコンピュータによって実行される方法が開示される。コンピュータによって実行される方法は、遺伝子マーカー集合と表現型とをプロセッサによって受け取ることを含む。遺伝子マーカー集合の各々について、表現型に関する関連性スコアが判定される。最も高い関連性スコアを有する、遺伝子マーカー集合内の遺伝子マーカーの関連性スコアに基づいて、閾値が設定される。遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、少なくとも1つの遺伝子マーカーと遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアが判定される。少なくとも1つの相互作用が、閾値を満たす該少なくとも1つの相互作用の関連性スコアに基づいて、上位k特徴集合に追加される。上位k特徴集合内の各々の特徴は、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうちの一方である。上位k特徴集合の部分集合が、身体的形質に対するエピスタシスの効果をモデル化するために選択される。
別の実施形態において、エピスタシス効果をモデル化するためのマーカーを選択するための情報処理システムが開示される。情報処理システムは、メモリと、該メモリに通信可能に結合されたプロセッサとを含む。特徴選択モジュールが、メモリ及びプロセッサに通信可能に結合される。特徴選択モジュールは、ある方法を実施するように構成される。その方法は、遺伝子マーカー集合と表現型とを受け取ることを含む。遺伝子マーカー集合の各々について、表現型に関する関連性スコアが判定される。最も高い関連性スコアを有する、遺伝子マーカー集合内の遺伝子マーカーの関連性スコアに基づいて、閾値が設定される。遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、少なくとも1つの遺伝子マーカーと遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアが判定される。少なくとも1つの相互作用が、閾値を満たす該少なくとも1つの相互作用の関連性スコアに基づいて、上位k特徴集合に追加される。上位k特徴集合内の各々の特徴は、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうちの一方である。上位k特徴集合の部分集合が、身体的形質に対するエピスタシスの効果をモデル化するために選択される。
更なる実施形態において、エピスタシス効果をモデル化するためのマーカーを選択するための、非一時的なコンピュータ・プログラム製品が開示される。コンピュータ・プログラム製品は、処理回路による読み出しが可能な、該処理回路がある方法を実施するために実行する命令を格納するストレージ媒体を含む。この方法は、遺伝子マーカー集合と表現型とを受け取ることを含む。遺伝子マーカー集合の各々について、表現型に関する関連性スコアが判定される。最も高い関連性スコアを有する、遺伝子マーカー集合内の遺伝子マーカーの関連性スコアに基づいて、閾値が設定される。遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、少なくとも1つの遺伝子マーカーと遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアが判定される。少なくとも1つの相互作用が、閾値を満たす該少なくとも1つの相互作用の関連性スコアに基づいて、上位k特徴集合に追加される。上位k特徴集合内の各々の特徴は、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうちの一方である。上位kの特徴セットの部分集合が、身体的形質に対するエピスタシスの効果をモデル化するために選択される。
添付の図面において、個別の図の全てを通じて同様の参照符号は同一要素又は機能的に類似した要素を指し示し、それら図面は、以下の詳細な説明と共に本明細書に組み入れられ且つ本明細書の一部を構成するものであり、種々の実施形態を更に例証する役目、及び全て本発明に従う種々の原理及び利点を説明する役目を果たす。
本発明の1つの実施形態による動作環境の一例を示すブロック図である。 本発明の1つの実施形態による、エピスタシス効果をモデル化するためのマーカーの選択の一例を示す操作フロー図である。
図1は、本発明の1つの実施形態による1つの動作環境100の全般的な概要を示す。特に、図1は、本発明の実施形態において利用することができる情報処理システム102を示す。図1に示される情報処理システム102は、適切なシステムの一例に過ぎず、上記の本発明の実施形態の使用又は機能の範囲を限定することを意図したものではない。図1の情報処理システム102は、上述の機能のいずれかを実装及び/又は実行することができる。任意の適切に構成された処理システムを本発明の実施形態における情報処理システム102として用いることができる。
図1に示されるように、情報処理システム102は、汎用コンピューティング・デバイスの形態で示される。情報処理システム102のコンポーネントは、1つ又は複数のプロセッサ又は処理ユニット104、システム・メモリ106、及び、システム・メモリ106を含む種々のシステム・コンポーネントをプロセッサ104に結合するバス108を含むことができるが、これらに限定されるものではない。
バス108は、メモリ・バス又はメモリ・コントローラ、周辺バス、アクセラレーテッド・グラフィックス・ポート、及び、種々のバス・アーキテクチャのいずれかを用いるプロセッサ又はローカル・バスを含む、幾つかのタイプのバス構造のうちのいずれか1つ又は複数を表す。限定ではなく例として、このようなアーキテクチャは、Industry Standard Architecture(ISA)バス、Micro Channel Architecture(MCA)バス、Enhanced ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカル・バス、及びPeripheral Component Interconnects(PCI)バスを含む。
システム・メモリ106は、1つの実施形態において、後述の1つ又は複数の実施形態を実施するように構成された特徴選択モジュール109を含む。例えば、1つの実施形態において、特徴選択モジュール109は、最大関連性及び最小冗長性基準に基づくエピスタシス特徴選択プロセスに合わせて構成される。この特徴選択機構は、本明細書において「EMRMR」と呼ばれる。より詳細に後述するように、EMRMRを用いて、特徴選択モジュール109は、表現型予測のための効率的なエピスタシスのモデル化のために、最大関連性及び最小冗長性基準を用いて特徴空間から特徴の集合を選択する。図1では、特徴選択モジュール109がメイン・メモリ内に存在しているように示されているが、特徴選択モジュール109は、プロセッサ104内に存在してもよく、別個のハードウェア・コンポーネントであってもよく、及び/又は、複数の情報処理システム及び/又はプロセッサにわたって分散していてもよいことに留意されたい。
システム・メモリ106はまた、ランダム・アクセス・メモリ(RAM)110及び/又はキャッシュ・メモリ112といった、揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。情報処理システム102は、他の取り外し可能/取り外し不可能、揮発性/不揮発性のコンピュータ・システム・ストレージ媒体をさらに含むことができる。単なる例として、1つ又は複数の剛体ディスク及び/又は磁気媒体といった、取り外し不可能又は取り外し可能な不揮発性媒体(典型的には「ハード・ドライブ」と呼ばれる)との間の読み出し及び書き込みのために、ストレージ・システム114を設けることができる。取り外し可能な不揮発性磁気ディスク(例えば、「フロッピィ・ディスク」)との間の読み出し及び書き込みのための磁気ディスク・ドライブと、CD−ROM、DVD−ROM又は他の光媒体などの取り外し可能な不揮発性光ディスクとの間の読み出し及び書き込みのための光ディスク・ドライブとを設けることができる。このような例においては、各々は、1つ又は複数のデータ媒体インターフェースによってバス108に接続することができる。メモリ106は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュールの組を有する少なくとも1つのプログラム製品を含むことができる。
限定ではなく例として、メモリ106内に、プログラム・モジュール118の組を有するプログラム/ユーティリティ116、並びにオペレーティング・システム、1つ又は複数のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データを、格納することができる。オペレーティング・システム、1つ又は複数のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データ、又はそれらのいくつかの組み合わせの各々は、ネットワーキング環境の実装形態を含むことができる。プログラム・モジュール118は、一般に、本発明の実施形態の機能及び/又は方法を実行する。
情報処理システム102はまた、キーボード、ポインティング・デバイス、ディスプレイ122などといった1つ又は複数の外部デバイス120、ユーザが情報処理システム102と対話することを可能にする1つ又は複数のデバイス、及び/又は、コンピュータ・システム/サーバ102が1つ又は複数の他のコンピューティング・デバイスと通信することを可能にするいずれかのデバイス(例えば、ネットワーク・カード、モデムなど)と通信することができる。このような通信は、I/Oインターフェース124を経由して行うことができる。さらにまた、情報処理システム102は、ローカル・エリア・ネットワーク(LAN)、汎用広域ネットワーク(WAN)、及び/又はパブリック・ネットワーク(例えば、インターネット)などの1つ又は複数のネットワークと、ネットワーク・アダプタ126を介して通信することができる。示されるように、ネットワーク・アダプタ126は、情報処理システム102の他のコンポーネントと、バス108を介して通信する。情報処理システム102とともに他のハードウェア及び/又はソフトウェア・コンポーネントもまた使用できることを理解されたい。例として、限定されるものではないが、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部のディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、及びデータ・アーカイブ・ストレージ・システムが挙げられる。
特徴選択に関する1つの基準は、最大関連性及び最小冗長性(MRMR:Maximum−Relevance and Minimum−Redundancy)と呼ばれる。MRMRは、その階級値に最も大きく関連する、且つまた、互いに対する依存性が最も小さい特徴を貪欲に選択する。MRMRにおいて、最大関連性基準は、個々の特徴と階級変数との間の全ての相互情報量の値の平均値を最大にする特徴を探索する。しかしながら、最大関連性のみに基づく特徴選択は、高い冗長性を有する特徴を選択する傾向があり、すなわち選択された特徴の相関性が高くなる傾向がある。これらの高度に相関する特徴のうちの幾つかを除去しても、それぞれの階級弁別力は全く変化しないか又は問題にならない量しか変化しないであろう。従って、最小冗長性基準は、相互排反する特徴を選択するために利用される。MRMRに関するより詳細な議論は、その全体が引用よりここに組み入れられる非特許文献1において与えられる。
表現型予測問題において、入力は、一般に、ある表現型値と、遺伝子型値(本明細書においては「特徴」、「マーカー」及び「遺伝子型」とも呼ばれる)の集合とを各々が有する、標本の集合である。表現型予測におけるタスクは、この入力データを用いてモデルを訓練して、更なる遺伝子型データを用いて入手できない表現型データを予測できるようにすることである。従って、回帰は次式で表され、
Figure 2014139787

式中、Yは表現型、Xはi番目の遺伝子型値、dは遺伝子型の総数、βはi番目の遺伝子型に関する回帰係数であり、eは、典型的には正規分布であると仮定した場合の、誤差である。遺伝子型の数は、通常、標本の数より遥かに多いので、予測は、「次元の呪い」問題の影響を被る。
エピスタシスは、異なる遺伝子型が互いに相互作用することがある現象である。エピスタシス効果がある場合、エピスタシス回帰モデルの1つのタイプは次式で与えることができ、
Figure 2014139787

式中、Xは、i番目とj番目の遺伝子型の遺伝子型値の積であり、これら2つの遺伝子型の相互作用を表す。可能な全てのエピスタシス対の数はO(d)であり、ここでdは遺伝子型の数である。dは通常、数万から数百万に及ぶので、しらみつぶし探索は、中程度のデータ集合に対してすら実行不可能である。特徴空間が数万から数百万にも及ぶような問題設定において、しらみつぶし探索は、完了するまで数週間から数年もかかることがある。従って、より効率的な方法を開発することは非常に重要である。
エピスタシス効果検出には貪欲戦略が適用されており、この場合、周辺効果(marginal effect)が高いマーカーの部分集合が最初に選択される。次に、エピスタシスに関する統計的検定が、この部分集合内の全てのマーカー間、又は部分集合内のマーカーと残りのマーカーとの間で行われる。これらの戦略に伴う1つの問題は、一般に、存在が実証されているが周辺効果が低いマーカー間の全ての可能なエピスタシスが欠落するということである。従って、1つ又は複数の実施形態は、あらゆるマーカーを1つ1つ評価し、そのマーカーが有意なエピスタシス効果をもたらす確率を計算するモデルを提供する。その確率が特定の閾値より高い場合に、そのマーカーと残りのマーカーとの間の全ての相互作用が解析される。
1つの実施形態において、特徴選択モジュール109は、入力として、遺伝子マーカーなどの特徴の集合と表現型などの階級/目標値とを各々が含む、訓練標本の集合を受け取る。別の実施形態において、特徴選択モジュール109はまた、各々が訓練標本と同じ特徴の集合のみを含み、目標値が欠落している検定標本の集合も受け取る。選択される特徴の数kもまた、入力として特徴選択モジュール109で受け取る。1つの実施形態において、特徴は行として表すことができ、標本は列として表すことができる。従って、訓練標本及び検定標本は、同じ列(特徴)を含むが、異なる行(標本)を含む。他の実施形態においては、検定標本を受け取らず、EMRMR選択プロセスは訓練標本に対してのみ行われることに留意されたい。特徴選択モジュール109により行われるEMRMR特徴選択プロセスの出力は、特徴の集合及びエピスタシス効果(即ち、相互作用)である。検定標本も入力として特徴選択モジュール109に与えられる場合、選択された特徴の集合をさらに処理して、検定標本から欠落している目標値を予測するためのモデルを構築することができる。
上記の入力に基づいて、特徴選択モジュール109は、訓練標本のみを考慮して、全ての特徴の関連性スコアを次式に従って判定し、
Figure 2014139787

式中、Iは所与の特徴x(例えば、マーカー)と階級値c(例えば、表現型)との間の相互情報量である。2つの変数xとyとの相互情報量Iは、同時周辺確率p(x)及びp(y)並びに確率分布p(x,y)に基づいて、次式のように定義することができる。
Figure 2014139787

変数の相互情報量Iを判定するには、他の方法を用いることもできることに留意されたい。
特徴選択モジュール109は、次に、全ての特徴をその関連性スコアを使用してランク付けする。特徴選択モジュール109は、上位k番目の特徴の関連性スコアに従って閾値Kを設定する。この閾値は、Kより低い関連性スコアを有する相互作用が選択されることを防ぐ。閾値Kは、相互作用を上位k特徴集合へと追加することによって、より効率的に相互作用を排除するようにさらに改良される。例えば、訓練標本の中の特徴ごとに、特徴選択モジュール109は、所与の特徴と訓練標本の集合内のその他の特徴との間の相互作用を解析する。特徴選択モジュール109は、これらの相互作用ごとに、式3及び式4に関して上で論じたのと同様の方法で階級値に関する関連性スコアを判定する。
特徴選択モジュール109は、次に、この関連性スコアを閾値Kと比較する。関連性スコアが閾値Kより大きければ、特徴選択モジュール109は、その相互作用を上位k特徴集合に追加する。次いで、上位k特徴集合内で最も低くランク付けされた特徴である最下位の特徴を除去することにより、上位k特徴集合が更新される。閾値Kは、更新された特徴集合内のk番目の特徴の現在の関連性スコアで動的に更新される。従って、閾値Kが高くなるにつれて、ある相互作用が選択されることはより難しくなり、そのことにより1つ又は複数の実施形態のモデルがより効率的になる。
1つの実施形態において、特徴選択モジュール109は、所与の特徴とその他の全ての特徴との間の全ての相互作用を考慮する必要はないことに留意されたい。例えば、この実施形態では、特徴選択モジュール109は、その特徴と他の特徴との間の少数の相互作用を無作為抽出し、これら抽出された相互作用の関連性スコアを計算する。具体的には、特徴選択モジュール109は、全ての特徴が独立に生成されると仮定する。所与の特徴を考えると、特徴選択モジュール109は、全ての特徴の集合からf個の特徴を無作為抽出する。次に、所与の特徴とf個の選択されたマーカーの集合の各々との間の各々の相互作用の関連性スコアが、上述の方法と同様にして判定される。
特徴選択モジュール109は、このとき、所与の特徴が関与する相互作用の関連性スコアが正規分布に従うものと仮定する。f個の関連性スコアを用いて、特徴選択モジュール109は、正規分布の平均及び標準偏差を推定する。次にこの分布を用いて、且つ、特徴の総数がNとして与えられると、特徴選択モジュール109は、N−1個の可能な相互作用の中から少なくとも1つの有意な関連性スコアが見いだされる確率を計算し、ここで、スコアは現在のスコア閾値Kより高ければ有意である。確率が所定の閾値P、例えば0.005より低ければ、この特徴はスキップされる。確率が閾値Pより高ければ、特徴選択モジュール109は、この所与の特徴と残りの全ての特徴との間の相互作用を検討/検定する。
例えば、特徴選択モジュール109は、所与の特徴と全ての特徴の集合内の残りの特徴との間の相互作用の関連性スコアを、既に上述した方法と同様に判定する。特徴選択モジュール109は、これらの関連性スコアを閾値Kと比較する。関連性スコアが閾値Kより大きければ、その相互作用が上位k特徴集合に追加され、集合内の最下位の特徴が除去される。閾値Kは、更新された特徴集合内のk番目の特徴の現在の関連性スコアで動的に更新され、この更新された特徴集合は、いまやマーカー及び相互作用の両方を含むことになる。上記プロセスは、訓練集合内の全ての特徴が検討されるまで続けられ、上位k特徴の最終的な集合が生成される。特徴選択モジュール109は次に、この上位k特徴の最終的な集合を出力する。
次いで、MRMRプロセス、例えば、その全体を引用によりここに組み入れる「Transductive Feature Selection With Maximum−Relevancy and Minimum−Redundancy Criteria」という名称の、同一出願人による係属中の米国特許出願番号第13/745,930号において考察されている転導的(transductive)MRMR(TMRMR)プロセス(これに限定されないが)を用いて、特徴の部分集合を上位k特徴から選択することができる。この実施形態において、特徴の部分集合内の各々の特徴は、表現型との関連性を最大化し、且つ、他の選択された特徴に関する冗長性を最小化する。
図2は、エピスタシス効果をモデル化するためのマーカーを選択するためのプロセス全体の一例を示す操作フロー図である。操作フロー図は、ステップ202において開始し、ステップ204に直接進む。特徴選択モジュール109は、ステップ204において、遺伝子マーカー集合と表現型とを受け取る。特徴選択モジュール109は、ステップ206において、その表現型に関する関連性スコアを遺伝子マーカー集合の各々について判定する。特徴選択モジュール109は、ステップ208において、最も高い関連性スコアを有する、遺伝子マーカー集合内の遺伝子マーカーの関連性スコアに基づいて、閾値を設定する。特徴選択モジュール109は、ステップ210において、遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、該少なくとも1つの遺伝子マーカーと遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアを判定する。特徴選択モジュール109は、ステップ212において、少なくとも1つの相互作用を、閾値を満たす該少なくとも1つの相互作用の関連性スコアに基づいて、上位k特徴集合に追加する。上位k特徴集合内の各々の特徴は、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうちの一方である。制御フローは、ステップ214において終了する。
当業者により認識されるように、本発明の態様は、システム、方法又はコンピュータ・プログラム製品として具体化することができる。従って、本発明の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又はソフトウェアの態様とハードウェアの態様とを組み合わせた実施形態の形態をとることができ、これらは全て、本明細書において一般的に「回路」、「モジュール」又は「システム」と呼ぶことができる。さらに、本発明の態様は、具体化されたコンピュータ可読プログラム・コードを有する1つ又は複数のコンピュータ可読媒体内に具体化されたコンピュータ・プログラム製品の形態をとることができる。
1つ又は複数のコンピュータ可読媒体の任意の組み合わせを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読ストレージ媒体とすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子、磁気、光、電磁気、赤外線、若しくは半導体のシステム、装置、若しくはデバイス、又は上記のもののいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例(非網羅的なリスト)として、1つ又は複数の配線を有する電気的接続、携帯用コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、光ファイバ、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、光記憶装置、磁気記憶装置、又は上記のもののいずれかの適切な組み合わせが挙げられる。本明細書の文脈において、コンピュータ可読ストレージ媒体は、命令処理システム、装置若しくはデバイスによって又はそれらとの関連で用いるためのプログラムを収容又は格納することができる任意の有形媒体とすることができる。
コンピュータ可読信号媒体は、コンピュータ可読プログラム・コードが、例えばベースバンド内に又は搬送波の一部としてその中に具体化された、伝搬データ信号を含むことができる。このような伝搬信号は、これらに限定されるものではないが、電磁気、光又はこれらのいずれかの適切な組み合わせを含む、種々の形態のいずれかを取ることができる。コンピュータ可読信号媒体は、コンピュータ可読ストレージ媒体ではなく、且つ、命令処理システム、装置若しくはデバイスによって又はこれらと関連して用いるためのプログラムを通信、伝搬、又は搬送することができる、任意のコンピュータ可読媒体とすることができる。
コンピュータ可読媒体上に具体化されたプログラム・コードは、これらに限定されるものではないが、無線、有線、光ファイバ・ケーブル、RFなど、又は上記のもののいずれかの適切な組み合わせを含む、任意の適切な媒体を用いて伝送することができる。
本発明の態様のための動作を実行するためのコンピュータ・プログラム・コードは、Java、Smalltalk、C++などのようなオブジェクト指向型プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、1つ又は複数のプログラミング言語の任意の組み合わせで記述することができる。プログラム・コードは、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で独立型ソフトウェアパッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。後者のシナリオにおいては、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は、外部コンピュータへの接続がなされる場合もある(例えば、インターネット・サービス・プロバイダを用いるインターネットを通じて)。
本発明の態様を、本発明の種々の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して上で論じた。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ・プログラム命令によって実装することができることが理解されるであろう。これらのコンピュータ・プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサにより実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実装するための手段を生成するようにすることができる。
これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイスに特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実装する命令を含む製品を製造するようにすることもできる。
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で、コンピュータ実装プロセスを生成するための一連の動作ステップを実施させてコンピュータ実装プロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実装するためのプロセスを提供するようにすることもできる。
本明細書において用いられる用語は、特定の実施形態を説明する目的のためのものにすぎず、本発明を限定することを意図したものではない。本明細書において用いられる場合、単数形「a」、「an」及び「the」は、文脈が明らかにそうでないことを示していない限り、複数形も同様に含むことが意図される。「含む(comprises)」及び/又は「含んでいる(comprising)」という用語は、本明細書において用いられる場合、言明された特徴、整数、ステップ、動作、要素、及び/又はコンポーネントの存在を指定するが、1つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネント、及び/又はそれらの群の存在又は追加を排除するものではないことが、さらに理解されるであろう。
本発明の種々の説明は、例示及び説明の目的で提示されたものであるが、網羅的であることを意図するものではなく、又は本発明を開示された形態の限定することを意図するものでもない。本発明の範囲及び思想から逸脱することのない多くの変更及び変形が、当業者には明らかであろう。実施形態は、本発明の原理及び実際の適用を最も良く説明するように、且つ、当業者が、企図された特定の使用に適するように種々の修正を伴う種々の実施形態について本発明を理解することを可能にするように選択され、説明がなされた。
100:動作環境
102:情報処理システム
104:処理ユニット
106:システム・メモリ
108:バス
109:特徴選択モジュール
110:ランダム・アクセス・メモリ(RAM)
112:キャッシュ・メモリ
114:ストレージ・システム
116:プログラム・ユーティリティ
118:プログラム・モジュール
120:外部デバイス
122:ディスプレイ
124:I/Oインターフェース
126:ネットワーク・アダプタ

Claims (15)

  1. エピスタシス効果をモデル化するためのマーカーを選択するための、コンピュータによって実行される方法であって、
    遺伝子マーカー集合と表現型とをプロセッサによって受け取ることと、
    前記遺伝子マーカー集合の各々について、前記表現型に関する関連性スコアを判定することと、
    最も高い関連性スコアを有する、前記遺伝子マーカー集合内の遺伝子マーカーの前記関連性スコアに基づいて、閾値を設定することと、
    前記遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアを判定することと、
    前記少なくとも1つの相互作用を、前記閾値を満たす前記少なくとも1つの相互作用の前記関連性スコアに基づいて、上位k特徴集合に追加することと
    を含み、ここで前記上位k特徴集合内の各々の特徴が、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうちの一方である、
    コンピュータによって実行される方法。
  2. 前記遺伝子マーカー集合の各々について判定される前記関連性スコアが、前記遺伝子マーカー集合の前記各々と前記表現型との間の相互情報量に基づくものである、請求項1に記載のコンピュータによって実行される方法。
  3. 前記少なくとも1つの相互作用について判定される前記関連性スコアが、前記少なくとも1つの相互作用と前記表現型との間の相互情報量に基づくものである、請求項1に記載のコンピュータによって実行される方法。
  4. 前記遺伝子マーカー集合から遺伝子マーカー部分集合を無作為抽出することと、
    前記遺伝子マーカー部分集合から、少なくとも1つの追加の遺伝子マーカーを選択することと
    をさらに含む、請求項1に記載のコンピュータによって実行される方法。
  5. 前記少なくとも1つの相互作用の前記関連性スコアを判定することが、
    前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー部分集合の各々との間の第1の複数の相互作用の各々について、前記表現型に関する関連性スコアを含む第1の関連性スコア集合を判定することと、
    前記第1の関連性スコア集合に関連付けられた正規分布に基づいて、前記少なくとも1つの遺伝子マーカーが前記閾値を上回る関連性スコアを含む相互作用に関連付けられる確率を判定することと、
    前記確率を、確率閾値と比較することと、
    前記確率閾値を満たす前記確率に基づいて、前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の残りの遺伝子マーカーの集合との間の第2の複数の相互作用の各々についての関連性スコアを含む第2の関連性スコア集合を判定することと
    を含み、ここで、前記第2の複数の相互作用が、前記少なくとも1つの相互作用を含み、前記残りの遺伝子マーカーの集合が、前記少なくとも1つの追加の遺伝子マーカーを含む、
    請求項4に記載のコンピュータによって実行される方法。
  6. 前記少なくとも1つの相互作用を前記上位k特徴集合に追加することに基づいて、最も低い関連性スコアに関連付けられた遺伝子マーカー及び相互作用のうちの一方を前記上位k特徴集合から除去することにより、更新された上位k特徴集合を生成すること
    をさらに含む、請求項1に記載のコンピュータによって実行される方法。
  7. 前記閾値を、更新された上位k特徴内の遺伝子マーカー及び相互作用のうちの一方に関連付けられた最も高い関連性スコアに従って更新すること
    をさらに含む、請求項6に記載のコンピュータによって実行される方法。
  8. 前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの追加の相互作用についての関連性スコアを判定することと、
    前記少なくとも1つの追加の相互作用の関連性スコアを、前記更新された閾値と比較することと、
    前記少なくとも1つの追加の相互作用を、前記更新された閾値を満たす前記少なくとも1つの追加の相互作用の前記関連性スコアに基づいて、前記上位k特徴集合に追加することと
    をさらに含む、請求項7に記載のコンピュータによって実行される方法。
  9. 前記上位k特徴集合の部分集合内の各々の特徴が、前記表現型に対する関連性を最大化し、且つ、選択された他の特徴に対する冗長性を最小化する、請求項1に記載のコンピュータによって実行される方法。
  10. エピスタシス効果をモデル化するためのマーカーを選択するための情報処理システムであって、
    メモリと、
    前記メモリに通信可能に結合されたプロセッサと、
    前記メモリ及び前記プロセッサに結合された特徴選択モジュールと
    を含み、前記特徴選択モジュールが、
    遺伝子マーカー集合と表現型とをプロセッサによって受け取ることと、
    前記遺伝子マーカー集合の各々について、前記表現型に関する関連性スコアを判定することと、
    最も高い関連性スコアを有する、前記遺伝子マーカー集合内の遺伝子マーカーの前記関連性スコアに基づいて、閾値を設定することと、
    前記遺伝子マーカー集合内の少なくとも1つの遺伝子マーカーについて、前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの相互作用についての関連性スコアを判定することと、
    前記少なくとも1つの相互作用を、前記閾値を満たす前記少なくとも1つの相互作用の前記関連性スコアに基づいて、上位k特徴集合に追加することと
    を含む方法を実行するように構成され、ここで前記上位k特徴集合内の各々の特徴が、各々が上位k関連性スコアを含む、遺伝子マーカー及び相互作用のうち1つである、情報処理システム。
  11. 前記特徴選択モジュールが実行する方法が、
    前記遺伝子マーカー集合から遺伝子マーカーの部分集合を無作為抽出することと、
    前記遺伝子マーカーの部分集合から、少なくとも1つの追加の遺伝子マーカーを選択することと
    をさらに含む、請求項10に記載の情報処理システム。
  12. 前記少なくとも1つの相互作用の前記関連性スコアを判定することが、
    前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー部分集合の各々との間の第1の複数の相互作用の各々について、前記表現型に関する関連性スコアを含む第1の関連性スコア集合を判定することと、
    前記第1の関連性スコアの集合に関連付けられた正規分布に基づいて、前記少なくとも1つの遺伝子マーカーが前記閾値を上回る関連性スコアを含む相互作用に関連付けられる確率を判定することと、
    前記確率を、確率閾値と比較することと、
    前記確率閾値を満たす前記確率に基づいて、前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の残りの遺伝子マーカーの集合との間の第2の複数の相互作用の各々についての関連性スコアを含む第2の関連性スコア集合を判定することと
    を含み、ここで、前記第2の複数の相互作用が、前記少なくとも1つの相互作用を含み、前記残りの遺伝子マーカーの集合が、前記少なくとも1つの追加の遺伝子マーカーを含む、請求項11に記載の情報処理システム。
  13. 前記特徴選択モジュールが実行する方法が、
    前記少なくとも1つの相互作用を前記上位k特徴集合に追加することに基づいて、最も低い関連性スコアに関連付けられた遺伝子マーカー及び相互作用のうちの一方を前記上位k特徴集合から除去することにより、更新された上位k特徴集合を生成すること、
    をさらに含む、請求項10に記載の情報処理システム。
  14. 前記特徴選択モジュールが実行する方法が、
    前記閾値を、更新された上位k特徴内の遺伝子マーカー及び相互作用のうちの一方に関連付けられた最も高い関連性スコアに従って更新することと、
    前記少なくとも1つの遺伝子マーカーと前記遺伝子マーカー集合内の少なくとも1つのその他の遺伝子マーカーとの間の少なくとも1つの追加の相互作用についての関連性スコアを判定することと、
    前記少なくとも1つの追加の相互作用の関連性スコアを、前記更新された閾値と比較することと、
    前記少なくとも1つの追加の相互作用を、前記更新された閾値を満たす前記少なくとも1つの追加の相互作用の前記関連性スコアに基づいて、前記上位k特徴集合に追加することと、
    をさらに含む、請求項13に記載の情報処理システム。
  15. コンピュータに実行されることにより、前記コンピュータに請求項1乃至9のいずれかに記載の方法を実行させるコンピュータ・プログラム。
JP2014005564A 2013-01-21 2014-01-16 表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム Active JP6332598B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US13/745914 2013-01-21
US13/745,914 US10102333B2 (en) 2013-01-21 2013-01-21 Feature selection for efficient epistasis modeling for phenotype prediction
US14/030,743 US10108775B2 (en) 2013-01-21 2013-09-18 Feature selection for efficient epistasis modeling for phenotype prediction
US14/030743 2013-09-18

Publications (2)

Publication Number Publication Date
JP2014139787A true JP2014139787A (ja) 2014-07-31
JP6332598B2 JP6332598B2 (ja) 2018-05-30

Family

ID=51190135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014005564A Active JP6332598B2 (ja) 2013-01-21 2014-01-16 表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム

Country Status (3)

Country Link
US (4) US10102333B2 (ja)
JP (1) JP6332598B2 (ja)
CN (1) CN103942467B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102333B2 (en) * 2013-01-21 2018-10-16 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006503346A (ja) * 2001-12-03 2006-01-26 ディーエヌエー・プリント・ジェノミックス・インコーポレイテッド 分類ツリー分析を含む遺伝子学的分類における使用のための方法および装置
JP2006048429A (ja) * 2004-08-05 2006-02-16 Nec Corp 解析エンジン交換型システム及びデータ解析プログラム
WO2006088208A1 (ja) * 2005-02-21 2006-08-24 Dainippon Sumitomo Pharma Co., Ltd 生体の生理的変化の予測方法および装置
JP2008503589A (ja) * 2004-06-22 2008-02-07 マキシジェン, インコーポレイテッド 機能的生体分子を同定するための方法、システムおよびソフトウェア
JP2009523285A (ja) * 2006-01-11 2009-06-18 ネオコデックス・ソシエダッド・リミターダ 遺伝的関連の決定方法および装置
JP2010224815A (ja) * 2009-03-23 2010-10-07 Japan Found Cancer Res 網羅的ゲノムワイドsnp情報に基づくエピスタシス効果の探索アルゴリズム
JP2011180120A (ja) * 2010-02-03 2011-09-15 Daiwa House Industry Co Ltd 防水シート診断方法および診断装置
JP2012502398A (ja) * 2008-09-12 2012-01-26 ナビジェニクス インコーポレイティド 複数の環境的リスク因子及び遺伝的リスク因子を組み込む方法及びシステム

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1290312C (zh) 1998-06-23 2006-12-13 夏普公司 除去读取双面或重叠原稿产生的透印的图像处理装置及其方法
US7624074B2 (en) 2000-08-07 2009-11-24 Health Discovery Corporation Methods for feature selection in a learning machine
US20020042681A1 (en) * 2000-10-03 2002-04-11 International Business Machines Corporation Characterization of phenotypes by gene expression patterns and classification of samples based thereon
US7421417B2 (en) 2003-08-28 2008-09-02 Wisconsin Alumni Research Foundation Input feature and kernel selection for support vector machine classification
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7536030B2 (en) 2005-11-30 2009-05-19 Microsoft Corporation Real-time Bayesian 3D pose tracking
US20070168306A1 (en) 2006-01-17 2007-07-19 Li Jonathan Q Method and system for feature selection in classification
US8026931B2 (en) 2006-03-16 2011-09-27 Microsoft Corporation Digital video effects
CN101210266A (zh) * 2006-12-30 2008-07-02 苏州市长三角系统生物交叉科学研究院有限公司 基因组遗传标记间的相互作用与遗传性状相关性的测定方法
US7500216B1 (en) 2007-02-07 2009-03-03 Altera Corporation Method and apparatus for performing physical synthesis hill-climbing on multi-processor machines
AU2008300011A1 (en) * 2007-09-12 2009-03-19 Pfizer, Inc. Methods of using genetic markers and related epistatic interactions
US8504504B2 (en) 2008-09-26 2013-08-06 Oracle America, Inc. System and method for distributed denial of service identification and prevention
US9495515B1 (en) * 2009-12-09 2016-11-15 Veracyte, Inc. Algorithms for disease diagnostics
US8655821B2 (en) 2009-02-04 2014-02-18 Konstantinos (Constantin) F. Aliferis Local causal and Markov blanket induction method for causal discovery and feature selection from data
US20100287093A1 (en) 2009-05-07 2010-11-11 Haijian He System and Method for Collections on Delinquent Financial Accounts
RU2607999C2 (ru) 2009-06-30 2017-01-11 ДАУ АГРОСАЙЕНСИЗ ЭлЭлСи Применение способов машинного обучения для извлечения правил ассоциации в наборах данных растений и животных, содержащих в себе молекулярные генетические маркеры, сопровождаемое классификацией или прогнозированием с использованием признаков, созданных по этим правилам ассоциации
WO2011008262A2 (en) 2009-07-13 2011-01-20 H. Lee Moffitt Cancer Center & Research Institute Methods and apparatus for diagnosis and/or prognosis of cancer
US10321840B2 (en) 2009-08-14 2019-06-18 Brainscope Company, Inc. Development of fully-automated classifier builders for neurodiagnostic applications
US9098342B2 (en) 2009-09-18 2015-08-04 Nec Laboratories America, Inc. Extracting overlay invariants network for capacity planning and resource optimization
US20130231258A1 (en) 2011-12-09 2013-09-05 Veracyte, Inc. Methods and Compositions for Classification of Samples
US20110246409A1 (en) 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
US8885898B2 (en) 2010-10-07 2014-11-11 Siemens Medical Solutions Usa, Inc. Matching of regions of interest across multiple views
US9230063B2 (en) 2011-01-05 2016-01-05 The Board Of Trustees Of The University Of Illinois Automated prostate tissue referencing for cancer detection and diagnosis
WO2012096992A1 (en) 2011-01-10 2012-07-19 Rutgers, The State University Of New Jersey Boosted consensus classifier for large images using fields of view of various sizes
WO2012097152A2 (en) 2011-01-13 2012-07-19 Laboratory Corporation Of America Holdings Methods and systems for predictive modeling of hiv-1 replication capacity
US8744982B2 (en) 2011-05-12 2014-06-03 University Of Utah Research Foundation Gene-specific prediction
CA2851268A1 (en) 2011-10-06 2013-04-11 Infersystems Corp. Automated allocation of media via network
US20130109995A1 (en) 2011-10-28 2013-05-02 Neil S. Rothman Method of building classifiers for real-time classification of neurological states
WO2013086522A1 (en) 2011-12-10 2013-06-13 Veracyte, Inc. Methods and compositions for sample identification
US8792974B2 (en) 2012-01-18 2014-07-29 Brainscope Company, Inc. Method and device for multimodal neurological evaluation
CN102629305B (zh) * 2012-03-06 2015-02-25 上海大学 一种面向snp数据的特征选择方法
US9471881B2 (en) * 2013-01-21 2016-10-18 International Business Machines Corporation Transductive feature selection with maximum-relevancy and minimum-redundancy criteria
US10102333B2 (en) * 2013-01-21 2018-10-16 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006503346A (ja) * 2001-12-03 2006-01-26 ディーエヌエー・プリント・ジェノミックス・インコーポレイテッド 分類ツリー分析を含む遺伝子学的分類における使用のための方法および装置
JP2008503589A (ja) * 2004-06-22 2008-02-07 マキシジェン, インコーポレイテッド 機能的生体分子を同定するための方法、システムおよびソフトウェア
JP2006048429A (ja) * 2004-08-05 2006-02-16 Nec Corp 解析エンジン交換型システム及びデータ解析プログラム
WO2006088208A1 (ja) * 2005-02-21 2006-08-24 Dainippon Sumitomo Pharma Co., Ltd 生体の生理的変化の予測方法および装置
JP2009523285A (ja) * 2006-01-11 2009-06-18 ネオコデックス・ソシエダッド・リミターダ 遺伝的関連の決定方法および装置
JP2012502398A (ja) * 2008-09-12 2012-01-26 ナビジェニクス インコーポレイティド 複数の環境的リスク因子及び遺伝的リスク因子を組み込む方法及びシステム
JP2010224815A (ja) * 2009-03-23 2010-10-07 Japan Found Cancer Res 網羅的ゲノムワイドsnp情報に基づくエピスタシス効果の探索アルゴリズム
JP2011180120A (ja) * 2010-02-03 2011-09-15 Daiwa House Industry Co Ltd 防水シート診断方法および診断装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GAYAN, J.: "A method for detecting epistasis in genome-wide studies using case-control multi-locus association a", BMC GENOMICS, vol. 9, JPN6017047617, 31 July 2008 (2008-07-31), pages 360, XP021042101, ISSN: 0003700448, DOI: 10.1186/1471-2164-9-360 *

Also Published As

Publication number Publication date
US20190012426A1 (en) 2019-01-10
US10102333B2 (en) 2018-10-16
JP6332598B2 (ja) 2018-05-30
CN103942467A (zh) 2014-07-23
US20190012427A1 (en) 2019-01-10
US11335434B2 (en) 2022-05-17
US11335433B2 (en) 2022-05-17
US20140207427A1 (en) 2014-07-24
CN103942467B (zh) 2018-05-25
US20140207436A1 (en) 2014-07-24
US10108775B2 (en) 2018-10-23

Similar Documents

Publication Publication Date Title
Dalla-Torre et al. The nucleotide transformer: Building and evaluating robust foundation models for human genomics
Liesecke et al. Ranking genome-wide correlation measurements improves microarray and RNA-seq based global and targeted co-expression networks
Schbath et al. Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis
US9412077B2 (en) Method and apparatus for classification
Aflakparast et al. Cuckoo search epistasis: a new method for exploring significant genetic interactions
US9471881B2 (en) Transductive feature selection with maximum-relevancy and minimum-redundancy criteria
US11769073B2 (en) Methods and systems for producing an expanded training set for machine learning using biological sequences
Pei et al. CLADES: A classification‐based machine learning method for species delimitation from population genetic data
US20140207800A1 (en) Hill-climbing feature selection with max-relevancy and minimum redundancy criteria
US9008974B2 (en) Taxonomic classification system
Castelli et al. A hybrid genetic algorithm for the repetition free longest common subsequence problem
JP6332598B2 (ja) 表現型予測のためのエピスタシスの効率的なモデル化のための特徴選択方法、情報処理システム、及びコンピュータ・プログラム
Seetharam et al. Maximizing prediction of orphan genes in assembled genomes
US20180239866A1 (en) Prediction of genetic trait expression using data analytics
US11177018B2 (en) Stable genes in comparative transcriptomics
Chen et al. Multi-objective evolutionary triclustering with constraints of time-series gene expression data
Mishra et al. Probable Biomarker Identification Using Recursive Feature Extraction and Network Analysis
KR20210050362A (ko) 앙상블 모델 프루닝 방법, 유전자 가위를 검출하는 앙상블 모델 생성 방법 및 장치
Wang et al. DeCOOC Deconvoluted Hi‐C Map Characterizes the Chromatin Architecture of Cells in Physiologically Distinctive Tissues
Natarajan et al. ReneGENE-GI: empowering precision genomics with FPGAs on HPCs
JP2006260073A (ja) 遺伝子関係抽出プログラム、遺伝子関係抽出方法および遺伝子関係抽出装置
Liland Recognizing plasmid-reads by machine learning and K-mer statistics
Hasan et al. SPAI: Single Platform for Analyzing Indels
WO2024018053A1 (en) Method, computer program product and system for optimizing protein expression
Chapuis et al. Graphics processing unit–accelerated quantitative trait loci detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171212

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20180118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180327

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20180328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180417

R150 Certificate of patent or registration of utility model

Ref document number: 6332598

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150