JP2006209276A - 生体試料分類システム及びその方法 - Google Patents
生体試料分類システム及びその方法 Download PDFInfo
- Publication number
- JP2006209276A JP2006209276A JP2005017599A JP2005017599A JP2006209276A JP 2006209276 A JP2006209276 A JP 2006209276A JP 2005017599 A JP2005017599 A JP 2005017599A JP 2005017599 A JP2005017599 A JP 2005017599A JP 2006209276 A JP2006209276 A JP 2006209276A
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- biological samples
- biological sample
- feature amount
- biological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】本発明の課題は各生体試料から得た複数時点における遺伝子発現データを用いて、生体試料を分類する方法及び装置を提供するものである。
【解決手段】生体試料についての時系列からなる特徴量をまとめてパターンとして扱うことで、生体試料の特徴や生体反応の特徴をよりよく反映した生体試料の分類方法を実現する。
【選択図】図1
【解決手段】生体試料についての時系列からなる特徴量をまとめてパターンとして扱うことで、生体試料の特徴や生体反応の特徴をよりよく反映した生体試料の分類方法を実現する。
【選択図】図1
Description
本発明は、生体試料の分類システム及びその方法に関するものである。
DNAチップ(DNAマイクロアレイ)は数万種に上る遺伝子の発現量を一度に測定できる手法として生物学、医学薬学等の様々な分野で活用されている。しかし、網羅的な解析ができる反面、1解析あたり数万の数値データが得られるため、人の手だけでその結果を把握し解釈することが困難であり、計算機を用いて遺伝子発現データを分析し可視化するツールが広く用いられている。このようなツールの代表的なものに最も類似性の高いデータ同士を結合して1つのデータ(クラスタ)を作る手順を繰り返し行うことで階層型のクラスタを生成する階層型クラスタリング方法がある(非特許文献1)。また、予めユーザによってクラスタの数kを指定して(1)k個のクラスタの中心を適当な方法で仮に決める、(2)どの中心に最も類似性が高いかを基準に全データをk個のクラスタに振り分ける、(3)振り分けられたデータに基づいて各クラスタの中心を計算しなおす、(4)(2)〜(3)の手順を中心が収束するまで繰り返す、という手順でk個のクラスタを生成するK−Meansクラスタリング等が知られている(非特許文献2)。他に、クラスタリング手法の改良を試みた例としては、ニューラルネットワークを用いて遺伝子をその時系列発現パターンに基づいてクラスタリングする方法がある(特許文献1)。
M.B. Eisen et al.(Proc. Natl. Acad. Sci. USA Vol.95, pp, 14863-14868, December 1998)
Soukas, A. et al.(Genes & Development vol.14, pp, 963-980, 2000)
生体試料から得られる遺伝子発現量及び、臨床検査値等その他の生体試料の特徴量の性質として、非常に誤差が大きいことが挙げられる。この誤差は測定誤差だけでなく、生体試料にもともと存在する個体差等の実験誤差が大きな部分を占めている。
また、従来の分類手法の解析対象は、生体試料から得られた1実験条件のみでの遺伝子発現データであるか、または複数条件での遺伝子発現データを何の構造もなく並列に並べたデータの集合に限られていた。測定され得る特徴量に比べてその背景にある生理的現象は遥かに複雑であり、生体試料を特徴付けて背景にある生理現象を推し量るためにはある1時点における特徴量だけでは不十分である。例えば、日常的に測定される健康状態の指標である体温や血圧を例にとっても、ある1時点における測定ではあまり意味が無く、平常時の値や過去数日間の値の推移を持って健康状態が推定されている。
以上のような性質を有する生体試料を対象とした解析においては、様々な条件の変化に伴う特徴量の変動パターンを捕らえる必要がある。
以上のような性質を有する生体試料を対象とした解析においては、様々な条件の変化に伴う特徴量の変動パターンを捕らえる必要がある。
生体試料間で変化させる条件の例としては、サンプリングの時点、化合物の投与量、処理や処置の時間等がある。
例えば、「医薬品の遺伝毒性試験に関するガイドライン」(厚生省医薬安全局、平成11年)の中で「げっ歯類を用いる小核試験」においては、化合物投与の用量とサンプリングの時点を共に複数設定することが推奨されており、結果を解釈する際にも用量相関性関係に留意するよう指摘されている。
しかし、従来の分類手法はこれらの系列を持ったデータの系列を無視して別個のデータとして扱うか、系列の順序を無視して並列な集合として扱うことしかできなかった。
例えば、「医薬品の遺伝毒性試験に関するガイドライン」(厚生省医薬安全局、平成11年)の中で「げっ歯類を用いる小核試験」においては、化合物投与の用量とサンプリングの時点を共に複数設定することが推奨されており、結果を解釈する際にも用量相関性関係に留意するよう指摘されている。
しかし、従来の分類手法はこれらの系列を持ったデータの系列を無視して別個のデータとして扱うか、系列の順序を無視して並列な集合として扱うことしかできなかった。
複数の生体試料についてのG個の特徴量からなるT時点の時系列データの入力に対して、各特徴量の時系列パターンを考慮した試料間の類似度を算出する方法を提供する。
図1は、本発明の構成を表している。
構成の全体は、クラスタリングに必要な情報を入力しクラスタリング結果を表示する、入出力部と、入出力部から送られた条件に基づいてクラスタリングの計算を行い入出力部へ計算結果を返すクラスタリング部からなっている。
図1は、本発明の構成を表している。
構成の全体は、クラスタリングに必要な情報を入力しクラスタリング結果を表示する、入出力部と、入出力部から送られた条件に基づいてクラスタリングの計算を行い入出力部へ計算結果を返すクラスタリング部からなっている。
入出力部は、情報入力部、条件指定部、表示部を有している。
情報入力部は、複数試料の特徴量データ、例えばDNAチップの発現データを入力するための手段である。条件指定部は前記特徴量データのうちクラスタリングに用いる試料のリストと特徴量項目、時系列特徴量の類似度、特徴量データ変換条件、クラスタリングアルゴリズムといったクラスタリングに必要な条件を指定するための手段である。時系列特徴量の類似度については後で述べる。また、特徴量データ変換条件とは入力された特徴量データの数値をそのまま用いる、対数変換を行う、各試料の中央値または平均値で割り算する、各遺伝子の中央値または平均値で割り算する、何らかの処置を施した試料の特徴量データを未処置の試料の特徴量データで割り算するといった数値変換処理の条件を指す。クラスタリングアルゴリズムには、例えば階層型クラスタリングやK−Meansクラスタリング等を指定できる。情報入力部と条件指定部で入力された、特徴量データ及び指定された条件はクラスタリング部へ送られる。
情報入力部は、複数試料の特徴量データ、例えばDNAチップの発現データを入力するための手段である。条件指定部は前記特徴量データのうちクラスタリングに用いる試料のリストと特徴量項目、時系列特徴量の類似度、特徴量データ変換条件、クラスタリングアルゴリズムといったクラスタリングに必要な条件を指定するための手段である。時系列特徴量の類似度については後で述べる。また、特徴量データ変換条件とは入力された特徴量データの数値をそのまま用いる、対数変換を行う、各試料の中央値または平均値で割り算する、各遺伝子の中央値または平均値で割り算する、何らかの処置を施した試料の特徴量データを未処置の試料の特徴量データで割り算するといった数値変換処理の条件を指す。クラスタリングアルゴリズムには、例えば階層型クラスタリングやK−Meansクラスタリング等を指定できる。情報入力部と条件指定部で入力された、特徴量データ及び指定された条件はクラスタリング部へ送られる。
次にクラスタリング部の内部の構成について述べる。
入出力部より送られた特徴量データ及び指定された条件は、まずクラスタリング前処理部に送られる。そこでは、前記特徴量データから条件指定部で指定された特徴量データ変換条件に従い特徴量データを変換し、指定された試料と遺伝子に該当する部分の発現データを抜き出してクラスタリング制御部へ送るといった処理がなされる。
入出力部より送られた特徴量データ及び指定された条件は、まずクラスタリング前処理部に送られる。そこでは、前記特徴量データから条件指定部で指定された特徴量データ変換条件に従い特徴量データを変換し、指定された試料と遺伝子に該当する部分の発現データを抜き出してクラスタリング制御部へ送るといった処理がなされる。
クラスタリング制御部は、試料間類似度行列生成部とクラスタ生成部を有している。試料間類似度行列生成部は、適宜類似度算出部を呼び出しながらクラスタリングに必要な試料間類似度行列を生成するための手段である。また、クラスタ生成部は、クラスタリングアルゴリズム、例えば階層型クラスタリングによって試料間類似度行列に基づいてクラスタを生成する手段である。
類似度算出部は、特徴量選択部、類似度ベクトル算出部、類似度ベクトル変換部を有しており、試料間類似度行列生成部が指定した複数試料についての試料間類似度を、条件指定部で指定された類似度を用いて算出する。特徴量選択部は、試料間類似度行列生成部から送られてきた複数の生体試料の時系列特徴量データから、特徴量ベクトルを順次選択する。類似度ベクトル算出部は、特徴量ベクトルから類似度ベクトルを算出する。類似度ベクトル変換部は、類似度ベクトルをスカラー量で表される類似度に変換する。類似度算出部で行われる計算の詳細については後で述べる。図2は、試料間類似度行列生成部で行われる類似度行列算出のフローを表している。クラスタリング前処理部より送られてきた複数試料の特徴量データから、2つの試料の特徴量データを抜き出して類似度算出部に送り、類似度算出部から試料間類似度を得る。このこの動作を必要な2試料の組合せ全てについて繰り返し、試料間類似度行列を生成する。生成した試料間類似度行列はクラスタ生成部へ送られる。
図3は、類似度算出部で行われる特徴量データ間の類似度算出フローを表している。このフローは図2で示した2試料間の時系列特徴量類似度を算出する方法に相当する。
以下に、図3中の2つの生体試料間の類似度を算出する手順を、図4〜6を用いながら示す。
以下に、図3中の2つの生体試料間の類似度を算出する手順を、図4〜6を用いながら示す。
(1)試料間類似度行列生成部から送られてきた2つの生体試料の時系列特徴量データから2つの生体試料C1、C2に共通の特徴量gkを選択し(図4)、2つの時系列特徴量ベクトルx1k、x2kを得る(図5)。
(2)2つの生体試料におけるこの1つの特徴量gkを時系列の順序に並べた2つのベクトル同士の類似度sk(k=1~G、ただしGは特徴量の個数)を、2つの時系列データx1k、x2kの関数として求める(図5)。この関数の例としては、ピアソン相関係数やコサイン係数、スピアマン相関係数等に代表される各種相関係数、ユークリッド平方距離、標準化ユークリッド距離、ミンコフスキー距離、マハラノビス汎距離を用いてよい。または、特徴量の平均、中央値、最大値、最小値、最大値と最小値の差分、最大値または最小値を取る時点、特定の2時点間の差分または傾き、回帰直線の傾きまたは切片、回帰曲線の平均的な傾きまたは曲率、極値の大きさ、極値を取る時点、極値の数、傾きが初めて閾値を超えるまたは下回る時点、各種の統計的検定によって有意となる時点の数または初めて有意となる時点または初めて有意でなくなる時点等を特徴量の要約値として算出し、2つの特徴量ベクトルについての該要約値の差異を基準に類似度を与える関数を用いてもよい。特徴量の要約値として最大値を取る時点を用いて、特徴量gの試料Caと試料Cbの最大値を取る時点をそれぞれta,tbとし、時点間の距離をdt(ta,tb)と表すことにすると、類似度sを例えば(総時点数)−dt(ta,tb)と定義することができる。図6のように総時点数=4での時、特徴量gが図6の(a)のような値をとる場合には試料C1と試料C2の最大値を取る時点は共にt3で、類似度s=4−dt(t3,t3)=4−0=4。図6の(b)のような値をとる場合には試料C1と試料C2の最大値を取る時点はそれぞれt3、t2で、類似度s=4−dt(t3,t2)=4−1=3となる。
(3)全ての特徴量について前記(1)(2)の操作を繰り返すことで得られる類似度skを成分に持つベクトルS=(s1,・・・,sG)を、2つの生体試料の類似度を表す類似度ベクトルとする。
(4)類似度ベクトルの関数としてスカラー値で表現される2生体試料間の類似度を求める。この関数として例えば、ベクトルの要素の総和、m乗和(mは0でない)、または要素の最大値、最小値、中央値、または特定の範囲に含まれる要素の総和、m乗和(mは0でない)、または各要素を入力とするロジスティック関数の出力の総和、m乗和(mは0でない)等を用いてよい。
前記2生体試料間の類似度、または類似度の逆数や類似度の符号を変えた数等を用いて算出した非類似度を、公知の教師信号なしまたは教師信号ありのクラスタリングに適用することで、複数生体試料を各特徴量の時系列パターンを考慮して分類することが可能となる。
本発明は時系列データ以外にも、用量、線量など順序が規定できるデータセット一般に適用可能である。
また、生体試料の特徴量としては、遺伝子の発現量以外にも、タンパク質量や修飾済みタンパク質の量または非修飾タンパク質に対する存在比、特定ゲノム領域におけるゲノムDNAのコピー数、特定ゲノム領域におけるゲノムDNAまたはヌクレオソームの修飾の程度、代謝産物量、体重、身長、年齢、血中イオン濃度、血中の逸脱酵素濃度、各種血球数、その他の臨床検査値等、多数の生物学的特徴量の時系列データを扱うことができる。
また、生体試料の特徴量としては、遺伝子の発現量以外にも、タンパク質量や修飾済みタンパク質の量または非修飾タンパク質に対する存在比、特定ゲノム領域におけるゲノムDNAのコピー数、特定ゲノム領域におけるゲノムDNAまたはヌクレオソームの修飾の程度、代謝産物量、体重、身長、年齢、血中イオン濃度、血中の逸脱酵素濃度、各種血球数、その他の臨床検査値等、多数の生物学的特徴量の時系列データを扱うことができる。
各特徴量の時系列パターンに基づいた類似度は、より生理的現象に即した尺度であると考えられる。そのため、該類似度を用いることで生理的現象をより正確に捉えた生物学的分析が可能となる。
化合物の毒性を評価するため、ラットにC1からC5の5種類の化合物を投与し、時系列的に5点(t={0,6,12,24,48},単位:時間、t=0は投与前を意味する。)で屠殺して肝臓のtotalRNAを抽出した。オリゴ(dT)24プライマーをアニールさせ、totalRNAを鋳型とするcDNAを合成した後、t=0の試料はCy3で、それ以外の試料はCy5で蛍光標識した。化合物投与後(t={6,12,24,48})のCy5標識cDNAの1つと投与前(t=0)のCy3標識cDNAとを組み合わせて、それぞれをDNAチップ(日立製作所社製薬物応答解析用ラットDNAチップ)上にかけ、競合ハイブリダイゼーションを62℃のもと12時間行った。洗浄後スキャナー(GSI-Lumonics社製ScanArray 5000)により各スポットの蛍光強度を測定し、数値化ソフトウエア(GSI-Lumonics社製QuantArray)を用いて各遺伝子におけるCy5(投与後試料)とCy3(投与前試料)との蛍光強度を求め、Cy5/Cy3の蛍光強度の比を、該スポットに対応する遺伝子の発現データとした(表1)。
次にDNAチップにより測定された遺伝子の発現データに基づいた投与化合物の分類を試みた。
化合物c投与後の時点t(t={6,12,24,48})における遺伝子gの発現データをXgtcとする。
化合物c投与後の時点t(t={6,12,24,48})における遺伝子gの発現データをXgtcとする。
また、化合物c投与後の遺伝子gの時系列発現データをXgcとする。(g=1~G、ただしGは遺伝子の数でこの例ではG=36。)
2種の化合物CiとCj(i,j={1,2,3,4,5})をそれぞれ投与したラットの発現データを用いて、化合物CiとCjの類似度を、sij=Σg(fs(Xgi,Xgj))で定義する。
2種の化合物CiとCj(i,j={1,2,3,4,5})をそれぞれ投与したラットの発現データを用いて、化合物CiとCjの類似度を、sij=Σg(fs(Xgi,Xgj))で定義する。
ここではピアソン相関係数を用て、fs(Xgi,Xgj)=(Σt(Xgti−m(Xgi)(Xgtj−m(Xgj))/(Σt(Xgti−m(Xgi))2・Σt(Xgtj−m(Xgj))2)1/2(ただし、m(Xgi)は、Xgti(t={6,12,24,48})の平均値)と定義した。ピアソン相関係数やコサイン係数、スピアマン相関係数等に代表される各種相関係数をもちいることで、発現データの値そのものではなく相対的な増減のパターンを反映した類似度とすることができる。
ピアソン相関係数以外の類似度、例えばユークリッド平方距離を用いる場合には、fs(Xgi,Xgj)=(Σt(Xgti−Xgtj)2)1/2とする。ユークリッド平方距離は発現データの値自体の大小を反映した類似度であり、仮に時系列で発現量の相対的な変化がない遺伝子でも、高い発現量で変化がないのかより低い発現量で変化がないのかを区別することができる。ユークリッド平方距離の他、標準化ユークリッド距離、ミンコフスキー距離、マハラノビス汎距離等を用いて同様の効果を得ることができる。
また、各試料における特徴量の要約値を求め、要約値の差異を基準とした類似度を用いても良い。例えば時系列データの総時点数nt、時系列発現データXgcの最大値を取る時点を与える関数tmax(Xgc)、時点taとtbの距離を与える関数dt(ta,tb)とを用いてfs(Xgi,Xgj)=nt−dt(tmax(Xgi)−tmax(Xgj))と定義することができる。この類似度は、相関係数やユークリッド平方距離のように全体の傾向を捉えるのではなくより目的に特化した類似度となる。最大値をとる時点の他にも極値を取る時点、極値の数、傾きが初めて閾値を超えるまたは下回る時点、各種の統計的検定によって有意となる時点の数または初めて有意となる時点または初めて有意でなくなる時点等を用いて、同様に目的に特化した類似度を得ることがることができる。
最大値と最小値の差分、最大値または最小値を取る時点、特定の2時点間の差分または傾き、回帰直線の傾きまたは切片、回帰曲線の平均的な傾きまたは曲率、極値の大きさを利用した類似度を用いることで相関係数を用いた場合と同様に時系列における変化の傾向を捉える効果を得ることができると考えられる。
特徴量の要約値として特徴量の平均、中央値、最大値、最小値を用いた場合はユークリッド平方距離と似た効果を得ることができると考えられる。
特徴量の要約値として特徴量の平均、中央値、最大値、最小値を用いた場合はユークリッド平方距離と似た効果を得ることができると考えられる。
表2に類似度の計算過程を示した。
化合物C1とC2の遺伝子G1の時系列発現データはそれぞれ、Xg=1,c=1=(1.07,0.62,0.67,1.21)、Xg=1,c=2=(2.00,1.06,0.64,2.21)で、Xg=1,c=1とXg=1,c=2のピアソン係数は0.95である。同様に他の遺伝子についてもピアソン相関係数を順次計算し、その総和が5.01であるので、化合物C1とC2の類似度s1,2=5.01となる。
化合物C1とC2の遺伝子G1の時系列発現データはそれぞれ、Xg=1,c=1=(1.07,0.62,0.67,1.21)、Xg=1,c=2=(2.00,1.06,0.64,2.21)で、Xg=1,c=1とXg=1,c=2のピアソン係数は0.95である。同様に他の遺伝子についてもピアソン相関係数を順次計算し、その総和が5.01であるので、化合物C1とC2の類似度s1,2=5.01となる。
この手順を化合物の組合せについて繰り返すことで、類似度sijを成分に持つ、化合物C1からC5の類似度行列Sを得た(表3)。
この類似度行列Sと前出の遺伝子数Gを用いて、dij=G−sijを成分に持つ、化合物C1からC5の非類似度行列D=dij定義し、表4を得た。
この非類似度行列Dを用いて、化合物C1からC5についての階層型クラスタリングを行った。階層型クラスタリングを実施するに当たっては統計解析パッケージR(The R Project for Statistical Computingによる。http://www.r-project.org/ を参照されたい)のclusterパッケージに含まれるagnes関数を用いた。agnes関数は凝集法階層型クラスタリングのUPGMA法を実装したものである。agnes関数の詳細についてはKaufman, L. and Rousseeuw, P.J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley, New York.を参照されたい。
階層型クラスタリングの結果得られた化合物C1からC5の樹状図を図7に示した。各化合物の既知の肝毒性を照会したところ、化合物C2とC5は共に肝細胞の壊死を示すことがが報告されており、本手法によりラット肝臓における化合物投与時の生理的反応を反映した化合物の分類がなされていることを確認することができた。
図8は本実施例における装置の構成を示すものである。
発現データベース1とデータ解析コンピュータ2はネットワークで接続されている。発現データベース1には、例えば、予め測定された各化合物を投与した際の時系列遺伝子発現データを格納しておく。データ解析コンピュータ2には、各種のクラスタリング条件を指定するためのインタフェースが、ウェブブラウザ上に表示される。このインタフェースは、例えば、化合物のリストから取捨選択して選択された化合物を投与した際の発現データを解析に用いるためのチェックボックスと、データ変換条件をデータベース中の発現値を対数変換するか否かを選択するラジオボタンと、時系列発現データの類似度の算出方法を実施例1に示したピアソン相関係数の総和とユークリッド距離の総和のいずれかから選択するラジオボタンと、クラスタリングのアルゴリズムを階層型クラスタリングとK−Meansから選択するラジオボタンを含む。
発現データベース1とデータ解析コンピュータ2はネットワークで接続されている。発現データベース1には、例えば、予め測定された各化合物を投与した際の時系列遺伝子発現データを格納しておく。データ解析コンピュータ2には、各種のクラスタリング条件を指定するためのインタフェースが、ウェブブラウザ上に表示される。このインタフェースは、例えば、化合物のリストから取捨選択して選択された化合物を投与した際の発現データを解析に用いるためのチェックボックスと、データ変換条件をデータベース中の発現値を対数変換するか否かを選択するラジオボタンと、時系列発現データの類似度の算出方法を実施例1に示したピアソン相関係数の総和とユークリッド距離の総和のいずれかから選択するラジオボタンと、クラスタリングのアルゴリズムを階層型クラスタリングとK−Meansから選択するラジオボタンを含む。
利用者はデータ解析コンピュータ2を用いて、ウェブブラウザ上のインタフェースを通じてクラスタリング条件を指定し計算の実行を指示する。クラスタリングの計算は実施例1に示された方法に則ってデータ解析コンピュータ2にて行われ、クラスタリングの結果はデータ解析コンピュータ2のディスプレイに表示される。
クラスタリングの結果は、画像ファイルとしてデータ解析コンピュータ2の外部記憶装置に保存したり、紙面に印刷することも可能である。
クラスタリングの結果は、画像ファイルとしてデータ解析コンピュータ2の外部記憶装置に保存したり、紙面に印刷することも可能である。
1・・・時系列遺伝子発現データを格納する発現データベース
2・・・各種クラスタリング条件を入力し、クラスタリング結果を出力するデータ解析コンピュータ
3・・・出力されたクラスタリング結果。
2・・・各種クラスタリング条件を入力し、クラスタリング結果を出力するデータ解析コンピュータ
3・・・出力されたクラスタリング結果。
Claims (8)
- 複数の生体試料の各々について、複数特徴量の組が順序をもって与えられたデータセットを入力させる入力手段と、
前記特徴量のデータの変換条件を指定させる条件指定手段と、
前記データセットから少なくとも2つの生体試料の組み合わせを選択するクラスタリング制御手段と、
選択された前記生体試料間の類似度を算出する類似度算出手段と、
算出された前記生体試料間の類似度に基づきクラスタを生成するクラスタ生成手段と、
生成されたクラスタを表示する表示手段とを備えることを特徴とする生体試料分類システム。 - 請求項1に記載の生体試料分類システムにおいて、前記類似度算出手段は、前記クラスタリング制御手段により選択された2つの生体試料の各々について、特徴量を順序をもって並べたベクトルから、前記複数の特徴量の各特徴量における前記2つの生体試料間の類似度を算出する特徴量パターン類似度算出手段と、算出された前記各特徴量における2つの生体試料間の類似度から、前記2つの生体試料間の類似度を算出する生体試料間類似度算出手段を有することを特徴とする生体試料分類システム。
- 請求項2に記載の生体試料分類システムにおいて、前記特徴量パターン類似度算出手段は、前記2つの生体試料についての特徴量ベクトル間でピアソン相関係数を用いて類似度を算出することを特徴とする生体試料分類システム。
- 請求項2に記載の生体試料分類システムにおいて、前記生体試料間類似度算出手段は、特徴量gについての特徴量パターン類似度sgを用いて、s=Σg(sg)m(mは0でない)で表される関数によって類似度sを算出することを特徴とする生体試料分類システム。
- 複数の生体試料の各々について、複数特徴量の組が順序をもって与えられたデータセットを入力させる工程と、
前記特徴量のデータの変換条件を指定させる工程と、
前記データセットから少なくとも2つの生体試料の組み合わせを選択させる工程と、
選択された前記生体試料間の類似度を算出する類似度算出工程と、
算出された前記生体試料間の類似度に基づきクラスタを生成するクラスタ生成工程と、
生成されたクラスタを表示する表示する工程とを有すること特徴とする生体試料分類方法。 - 請求項5に記載の生体試料分類方法において、前記類似度算出工程は、前記選択された2つの生体試料の各々について、特徴量を順序をもって並べたベクトルから、前記複数の特徴量の各特徴量における前記2つの生体試料間の類似度を算出する工程と、算出された前記各特徴量における2つの生体試料間の類似度から、前記2つの生体試料間の類似度を算出する工程とを有することを特徴とする生体試料分類方法。
- 請求項6に記載の生体試料分類方法において、前記各特徴量における2つの生体試料間の類似度は、前記2つの生体試料についての特徴量ベクトル間でピアソン相関係数を用いて類似度を算出することを特徴とする生体試料分類システム。
- 請求項6に記載の生体試料分類方法において、前記2つの生体試料間の類似度は、特徴量gについての特徴量パターン類似度sgを用いて、s=Σg(sg)m(mは0でない)で表される関数によって類似度sを算出することを特徴とする生体試料分類システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005017599A JP2006209276A (ja) | 2005-01-26 | 2005-01-26 | 生体試料分類システム及びその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005017599A JP2006209276A (ja) | 2005-01-26 | 2005-01-26 | 生体試料分類システム及びその方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006209276A true JP2006209276A (ja) | 2006-08-10 |
Family
ID=36966092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005017599A Pending JP2006209276A (ja) | 2005-01-26 | 2005-01-26 | 生体試料分類システム及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006209276A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015198620A1 (ja) * | 2014-06-23 | 2015-12-30 | オリンパス株式会社 | 組織地図作成方法 |
WO2019049354A1 (ja) * | 2017-09-11 | 2019-03-14 | 株式会社島津製作所 | 試料カテゴリーの特定装置、分析システム、及び分析ネットワークシステム |
US11113612B2 (en) | 2016-12-26 | 2021-09-07 | Morgan Stanley Services Group Inc. | Predictive asset optimization for computer resources |
-
2005
- 2005-01-26 JP JP2005017599A patent/JP2006209276A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015198620A1 (ja) * | 2014-06-23 | 2015-12-30 | オリンパス株式会社 | 組織地図作成方法 |
US11113612B2 (en) | 2016-12-26 | 2021-09-07 | Morgan Stanley Services Group Inc. | Predictive asset optimization for computer resources |
US11481653B2 (en) | 2016-12-26 | 2022-10-25 | Morgan Stanley Services Group Inc. | Predictive asset optimization for computer resources |
WO2019049354A1 (ja) * | 2017-09-11 | 2019-03-14 | 株式会社島津製作所 | 試料カテゴリーの特定装置、分析システム、及び分析ネットワークシステム |
JPWO2019049354A1 (ja) * | 2017-09-11 | 2020-09-10 | 株式会社島津製作所 | 試料カテゴリーの特定装置、分析システム、及び分析ネットワークシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tumor Analysis Best Practices Working Group | Expression profiling—best practices for data generation and interpretation in clinical trials | |
Sturn et al. | Genesis: cluster analysis of microarray data | |
Saeed et al. | [9] TM4 microarray software suite | |
Zambelli et al. | Motif discovery and transcription factor binding sites before and after the next-generation sequencing era | |
JP5448447B2 (ja) | ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計 | |
Annala et al. | A linear model for transcription factor binding affinity prediction in protein binding microarrays | |
Suzuki et al. | An application of multiscale bootstrap resampling to hierarchical clustering of microarray data: How accurate are these clusters | |
Greenberg | DNA microarray gene expression analysis technology and its application to neurological disorders | |
Jung et al. | Power and sample size calculation for microarray studies | |
Schachtner et al. | Knowledge-based gene expression classification via matrix factorization | |
Chen et al. | How will bioinformatics impact signal processing research? | |
Tognon et al. | A survey on algorithms to characterize transcription factor binding sites | |
Varshavsky et al. | Compact: A comparative package for clustering assessment | |
JP2006209276A (ja) | 生体試料分類システム及びその方法 | |
Chen et al. | Optimal cDNA microarray design using expressed sequence tags for organisms with limited genomic information | |
Liu et al. | Cross-generation and cross-laboratory predictions of Affymetrix microarrays by rank-based methods | |
US20070271223A1 (en) | Method and implementation of reliable consensus feature selection in biomedical discovery | |
Grewal et al. | Analysis of expression data: an overview | |
Adetiba et al. | Experimental investigation of frequency chaos game representation for in silico and accurate classification of viral pathogens from genomic sequences | |
Kumar Sarmah et al. | Microarray data integration: frameworks and a list of underlying issues | |
US20200357484A1 (en) | Method for simultaneous multivariate feature selection, feature generation, and sample clustering | |
WO2007145789A2 (en) | Method and implementation of reliable consensus feature selection in biomedical discovery | |
EP1134687A2 (en) | Method for displaying results of hybridization experiments | |
Berger et al. | Studying DNA microarray data using independent component analysis | |
Eichler | Bioinformatics/biostatistics: microarray analysis |