JP2007334719A - 遺伝子発現解析の欠損値補完システム - Google Patents

遺伝子発現解析の欠損値補完システム Download PDF

Info

Publication number
JP2007334719A
JP2007334719A JP2006167020A JP2006167020A JP2007334719A JP 2007334719 A JP2007334719 A JP 2007334719A JP 2006167020 A JP2006167020 A JP 2006167020A JP 2006167020 A JP2006167020 A JP 2006167020A JP 2007334719 A JP2007334719 A JP 2007334719A
Authority
JP
Japan
Prior art keywords
data
missing value
data set
gene expression
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006167020A
Other languages
English (en)
Inventor
Atsushi Mori
敦 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2006167020A priority Critical patent/JP2007334719A/ja
Publication of JP2007334719A publication Critical patent/JP2007334719A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】遺伝子発現解析結果のデータに含まれる欠損値に対して意味のあるデータを予測することができる遺伝子発現解析の欠損値補完システムを提供する。
【解決手段】遺伝子発現解析の欠損値補完システムは、欠損値補完処理を行う対象のデータセットから仮データセットを生成する仮データセット生成部と、上記仮データセットに対してクラスタ解析を行い、非類似のデータを除去するクラスタ解析部と、上記クラスタ解析結果に基づいて、トレーニングデータを生成するトレーニングデータ生成部と、上記トレーニングデータをデータ学習プログラムに入力して分類器を作成する分類器作成部と、上記欠損値を含むデータから生成した入力データを上記分類器に入力して、欠損値を予測する欠損値予測部と、を有する。
【選択図】図1

Description

本発明は、計測データの欠損値補完技術に関し、特にマイクロアレイによる遺伝子発現解析結果のデータにおける欠損値補完技術に関する。
マイクロアレイ実験では、実験ミスによる外れ値などのデータや、低発現値のため信頼性の低いデータなどが発生する。このようなデータは、解析に使用すべきでない。そのため、フラグを付けて欠損値データとすることが一般的である。
特許文献1にはルールインダクション法を用いたデータ分析方法において欠損値を補完する手法が記載されている。
特開2000-40000 (P2000-40000A)
従来のデータ分析方法では、欠損値に対して0を入力するか、又は、欠損値の代わりに欠損値以外のデータの平均値又は中央値を用いる。しかしながら、従来の方法では、信頼性のある解析結果を得ることは困難である。
本発明の目的は、遺伝子発現解析結果のデータに含まれる欠損値に対して意味のあるデータを予測することができる遺伝子発現解析の欠損値補完システムを提供することにある。
本発明の遺伝子発現解析の欠損値補完システムによると、遺伝子発現データから欠損値補完処理を行う対象のデータセットを取得するデータセット取得部と、上記データセットをフィルタリング処理し、欠損値を検出するフィルタリング部と、上記検出した欠損値に基づいて仮データセットを生成する仮データセット生成部と、上記仮データセットに対してクラスタ解析を行い、非類似のデータを除去するクラスタ解析部と、上記クラスタ解析結果に基づいて、トレーニングデータを生成するトレーニングデータ生成部と、上記トレーニングデータをデータ学習プログラムに入力して分類器を作成する分類器作成部と、上記欠損値を含むデータから生成した入力データを上記分類器に入力して、欠損値を予測する欠損値予測部と、を有する。
本発明によると、遺伝子発現解析結果のデータに含まれる欠損値に対して意味のあるデータを予測することができる。
以下、本発明による遺伝子発現解析の欠損値補完システムの一実施の形態について説明する。図1は、本発明による遺伝子発現解析の欠損値補完システムの例を示す。本例の遺伝子発現解析の欠損値補完システムは、キャラクタ及びグラフィック画面を有するディスプレイ装置101、キーボード102、マウス103、遺伝子発現データの選択、学習、予測、解析を行う中央処理装置104、及び、遺伝子発現データ106を格納する外部記憶装置105を備える。中央処理装置104は、データセット取得部110、フィルタリング部111、仮データセット生成部112、クラスタ解析部113、トレーニングデータ生成部114、分類器作成部115は、及び、欠損値予測部116を有する。
データセット取得部110は、外部記憶装置105に記憶された遺伝子発現データ106から、欠損値補完処理を行う対象のデータセットを取得する。フィルタリング部111は、データセット取得部110によって取得されたデータセットをフィルタリング処理し、欠損値を検出する。仮データセット生成部112は、欠損値を含むデータセットから仮データセットを生成する。クラスタ解析部113は、仮データセットに対してクラスタ解析を行い、非類似のデータを除去する。トレーニングデータ生成部114は、クラスタ解析後のデータからトレーニングデータを生成する。分類器作成部115は、データ学習プログラムを用いて分類器を作成する。欠損値予測部116は、欠損値を含むデータを分類器に入力して、欠損値を予測する。
データセット取得部110、フィルタリング部111、仮データセット生成部112、クラスタ解析部113、トレーニングデータ生成部114、分類器作成部115は、及び、欠損値予測部116は、いずれもコンピュータプログラムによって実現することができる。
図2を参照して本例の遺伝子発現解析の欠損値補完システムにて用いるデータの例を説明する。図2(a)は、データセット取得部110が取得した遺伝子発現データ110のデータセットの例を示す。本例の遺伝子発現データ110のデータセットは、プローブデータの行とサンプルデータの列からなる二次元のマトリックス状であり、上端の行にはSample名201が表示され、左端の列にProbe名202が表示されている。このデータセットには、欠損値203、204が含まれる。欠損値203、204は、低発現や実験又は計測ミスによってデータが不採用となった場合、又は、データが無い場合を示す。ここでは、欠損値203が補完対象の欠損値であると仮定する。
図2(b)は、仮データセット生成部112が生成した仮データセットを示す。図示のように、仮データセットは、図2(a)のデータセットから、補完対象の欠損値203が含まれるサンプルデータ(Sample Bの列)と、他の欠損値204が含まれるプローブデータ(Probe dの行)を除去することによって得られる。
図2(c)は、クラスタ解析部113がクラスタ解析を行った結果のデータを示す。クラスタ解析部113は、仮データセットに対してプローブ方向に沿ってクラスタ解析を行い、非類似のプローブデータを除去する。ここでは、Probe eの行が非類似であると判定され削除されている。
図2(d)は、トレーニングデータ生成部114が生成したトレーニングデータを示す。図示のように、トレーニングデータは、図2(c)のクラスタ解析の結果のデータから、補完対象の欠損値203が含まれるプローブデータ(Probe cの行)を除去することによって得られる。
図2(e)は、データ学習アルゴリズムにトレーニングデータを入力して得られた出力である。データ学習アルゴリズムでは、トレーニングデータに対する出力を教師信号と比較する。教師信号は正解値を意味する。両者が異なるときは、結合荷重と閾値を変更する。こうして、出力が教師信号と等しくなるように、結合荷重と閾値を変更することを学習と呼ぶ。学習後のデータ学習アルゴリズムは分類器と呼ばれる。図2(e)は、学習後の出力値を示し、これは教師信号に等しい。
図2(d)は、分類器の入力データである。入力データは、補完対象の欠損値203が含まれるプローブデータ(Probe cの行)から、欠損値203を除去することによって得られる。図2(e)は、分類器の出力データである。出力データとして補完対象の欠損値203の予測値が得られる。
図3は、階層型ニューラルネットワークであるパーセプトロンの模式図である。本例の遺伝子発現解析の欠損値補完システムにおける欠損値補完処理では、データ学習アルゴリズムを用いる。データ学習アルゴリズムには様々な例が知られているが、ここでは、階層型ニューラルネットワークであるパーセプトロンを説明する。パーセプトロンは、入力層302、中間層303、及び、出力層304を有する。学習時には、入力データ301はトレーニングデータである。出力データ305が、教師信号(正解値)と等しくなるまで、結合荷重と閾値を変更する。これを学習と称する。出力データ305は、最終的には教師信号に等しくなる。学習後のデータ学習アルゴリズムは分類器と称される。予測時には、入力データ301は、図2(d)に示すように、補完対象の欠損値が含まれるProbeデータから補完対象の欠損値を除いたデータであり、出力データ305は欠損値の予測値である。
データ学習アルゴリズムを用いることによって、単なる線形回帰では得られない予測値が得られる。ここではデータ学習アルゴリズムとしてパーセプトロンを説明したが、バックプロパゲーションを用いてもよい。また、データ学習アルゴリズムの代わりに、類似の結果が得られる他のアルゴリズムを用いてもよい。そのようなアルゴリズムとして、例えば最適解が得られることが保障されているSVMにガウシアンカーネルを用いて回帰予測するアルゴリズムがある。
図4を参照して本発明による遺伝子発現解析の欠損値補完システムにおける欠損値補完処理を説明する。ステップS401にて、データセット取得部110は、外部記憶装置105に格納された遺伝子発現データ110から欠損値補完処理の対象であるデータセットを取得する。こうして取得したデータセットの例は図2(a)に示す。ステップS402にて、補完対象の欠損値の1つを自動的に選択する。ここでは、図2(a)のデータセットからProbe cに対するSample Bを選択する。ステップS403にて、フィルタリング部111は、フィルタリング処理によって、欠損値をデータセットから検出する。例えば、欠損値に付したフラグを検出することによって欠損値を検出してよい。ここでは、図2(a)のデータセットから補完対象の欠損値203を検出する。ステップS404にて、仮データセット生成部112は、データセットから仮データセットを生成する。仮データセットの生成方法は、図2(b)を参照して既に説明した。こうして、図2(b)に示す仮データセットが得られる。ステップS405にて、クラスタ解析部113は仮データセットをクラスタ解析し、非類似のプローブデータを除去する。クラスタ解析によって非類似のプローブデータを除去する方法は、図2(c)を参照して既に説明した。こうして、図2(c)に示すデータセットが得られる。クラスタリングアルゴリズムの種類はデンドログラムでもSOMでもその他の手法でも構わないが、ブートストラップ法などで安定なクラスタが求まるものが望ましい。
ステップS406にて、トレーニングデータ生成部114は、トレーニングデータを生成する。トレーニングデータの生成方法は、図2(d)を参照して既に説明した。こうして、図2(d)に示すトレーニングデータが得られる。ステップS407にて、分類器作成部115は、分類器を作成する。分類器の作成方法は、図2(d)及び図2(e)を参照して既に説明した。
ステップS408にて、欠損値予測部116は、補完対象の欠損値203の予測値を求める。予測値を求める方法は、図2(f)及び図(g)を参照して既に説明した。こうして図(g)に示す予測値が得られる。
ステップS409にて、データセットに含まれる全ての欠損値が補完されたか否かを判定する。更に、データセットに含まれるプローブデータのうち、欠損値の割合が多すぎるプローブの判定を行う。更に欠損値補完を行う場合はステップS402に戻る。ステップS402では、次の欠損値204を補完対象の欠損値とする。更に欠損値補完を行わない場合はこの処理を終了する。
以上のように、本発明による遺伝子発現解析の欠損値補完システムによれば、次のような効果がある。遺伝子発現解析の欠損値欠損値補完において、従来のサンプルやプローブの平均値などで補完する方法に比較して、例えば、増幅作用を内部に持つ遺伝子ネットワークの上流にあるため重要であるが低発現による欠損値の多さから解析前に除外されていたような遺伝子の発見の漏れを防ぐ可能性が高まる。
以上本発明の例を説明したが本発明は上述の例に限定されるものではなく、特許請求の範囲に記載された発明の範囲にて様々な変更が可能であることは当業者に容易に理解されよう。
本発明の遺伝子発現解析の欠損値補完システムの例を示す図である。 本発明の遺伝子発現解析の欠損値補完システムにて用いるデータの例を示す図である。 階層型ニューラルネットワークであるパーセプトロンの模式図である。 本発明の遺伝子発現解析の欠損値補完システムにおける処理を示す図である。
符号の説明
101…ディスプレイ装置、102…キーボード、103…マウス、104…中央処理装置、105…外部記憶装置、106…遺伝子発現データ、110…データセット取得部、111…フィルタリング部、112…仮データセット生成部、113…クラスタ解析部、114…トレーニングデータ生成部、115…分類器作成部、116…欠損値予測部

Claims (1)

  1. 遺伝子発現データから欠損値補完処理を行う対象のデータセットを取得するデータセット取得部と、上記データセットをフィルタリング処理し、欠損値を検出するフィルタリング部と、上記検出した欠損値に基づいて仮データセットを生成する仮データセット生成部と、上記仮データセットに対してクラスタ解析を行い、非類似のデータを除去するクラスタ解析部と、上記クラスタ解析結果に基づいて、トレーニングデータを生成するトレーニングデータ生成部と、上記トレーニングデータをデータ学習プログラムに入力して分類器を作成する分類器作成部と、上記欠損値を含むデータから生成した入力データを上記分類器に入力して、欠損値を予測する欠損値予測部と、を有する遺伝子発現解析の欠損値補完システム。
JP2006167020A 2006-06-16 2006-06-16 遺伝子発現解析の欠損値補完システム Pending JP2007334719A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006167020A JP2007334719A (ja) 2006-06-16 2006-06-16 遺伝子発現解析の欠損値補完システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006167020A JP2007334719A (ja) 2006-06-16 2006-06-16 遺伝子発現解析の欠損値補完システム

Publications (1)

Publication Number Publication Date
JP2007334719A true JP2007334719A (ja) 2007-12-27

Family

ID=38934131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006167020A Pending JP2007334719A (ja) 2006-06-16 2006-06-16 遺伝子発現解析の欠損値補完システム

Country Status (1)

Country Link
JP (1) JP2007334719A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103443809A (zh) * 2012-02-08 2013-12-11 日本电气株式会社 判别模型学习设备、方法和程序
WO2016068245A1 (ja) * 2014-10-30 2016-05-06 株式会社 東芝 遺伝子型推定装置、方法、及びプログラム
CN111766832A (zh) * 2020-06-29 2020-10-13 重庆大学 一种不完备数据驱动的数控机床切削能耗预测建模方法
JP2021518024A (ja) * 2018-01-22 2021-07-29 ジャック カッパー 機械学習アルゴリズムのためのデータを生成する方法、システム
CN116823338A (zh) * 2023-08-28 2023-09-29 国网山东省电力公司临沂供电公司 电力用户经济属性缺失值的推断方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103443809A (zh) * 2012-02-08 2013-12-11 日本电气株式会社 判别模型学习设备、方法和程序
CN103443809B (zh) * 2012-02-08 2016-09-28 日本电气株式会社 判别模型学习设备、方法和程序
WO2016068245A1 (ja) * 2014-10-30 2016-05-06 株式会社 東芝 遺伝子型推定装置、方法、及びプログラム
JPWO2016068245A1 (ja) * 2014-10-30 2017-06-08 株式会社東芝 遺伝子型推定装置、方法、及びプログラム
US20170364631A1 (en) * 2014-10-30 2017-12-21 Kabushiki Kaisha Toshiba Genotype estimation device, method, and program
US11355219B2 (en) 2014-10-30 2022-06-07 Kabushiki Kaisha Toshiba Genotype estimation device, method, and program
JP2021518024A (ja) * 2018-01-22 2021-07-29 ジャック カッパー 機械学習アルゴリズムのためのデータを生成する方法、システム
JP7169369B2 (ja) 2018-01-22 2022-11-10 ジャック カッパー 機械学習アルゴリズムのためのデータを生成する方法、システム
CN111766832A (zh) * 2020-06-29 2020-10-13 重庆大学 一种不完备数据驱动的数控机床切削能耗预测建模方法
CN116823338A (zh) * 2023-08-28 2023-09-29 国网山东省电力公司临沂供电公司 电力用户经济属性缺失值的推断方法
CN116823338B (zh) * 2023-08-28 2023-11-17 国网山东省电力公司临沂供电公司 电力用户经济属性缺失值的推断方法

Similar Documents

Publication Publication Date Title
Preuer et al. Interpretable deep learning in drug discovery
MacLean Knowledge graphs and their applications in drug discovery
Wang et al. FastGGM: an efficient algorithm for the inference of Gaussian graphical model in biological networks
US9262412B2 (en) Techniques for predictive input method editors
US11397633B2 (en) Unifying semi-supervised approach for machine condition monitoring and fault diagnosis
Statnikov et al. Analysis and computational dissection of molecular signature multiplicity
Lopes et al. Gene expression complex networks: synthesis, identification, and analysis
JP2007334719A (ja) 遺伝子発現解析の欠損値補完システム
Beckage et al. Network growth modeling to capture individual lexical learning
Kulikov et al. Relay protection and automation algorithms of electrical networks based on simulation and machine learning methods
US11501037B2 (en) Microstructures using generative adversarial networks
Rios-Martinez et al. Deep self-supervised learning for biosynthetic gene cluster detection and product classification
Siegismund et al. Developing deep learning applications for life science and pharma industry
Erbe et al. Transcriptomic forecasting with neural ordinary differential equations
Nerukh et al. Identifying and correcting non-Markov states in peptide conformational dynamics
Gholami et al. Cross-species common regulatory network inference without requirement for prior gene affiliation
Turek et al. OmicsON–Integration of omics data with molecular networks and statistical procedures
Kaiser et al. Network-based approaches for the investigation of microbial community structure and function using metagenomics-based data
US9384729B2 (en) Method and system for detecting boundary of coarticulated units from isolated speech
McDermott et al. Defining the players in higher-order networks: predictive modeling for reverse engineering functional influence networks
Sachs et al. Single timepoint models of dynamic systems
Lin et al. A quadratically regularized functional canonical correlation analysis for identifying the global structure of pleiotropy with NGS data
Chereda et al. Stability of feature selection utilizing graph convolutional neural network and layer-wise relevance propagation
Kernfeld et al. Model-X knockoffs reveal data-dependent limits on regulatory network identification
Manes et al. EnsMOD: A Software Program for Omics Sample Outlier Detection