JP2007156721A - 有効因子抽出システム - Google Patents
有効因子抽出システム Download PDFInfo
- Publication number
- JP2007156721A JP2007156721A JP2005349541A JP2005349541A JP2007156721A JP 2007156721 A JP2007156721 A JP 2007156721A JP 2005349541 A JP2005349541 A JP 2005349541A JP 2005349541 A JP2005349541 A JP 2005349541A JP 2007156721 A JP2007156721 A JP 2007156721A
- Authority
- JP
- Japan
- Prior art keywords
- sample set
- virtual sample
- groups
- factor
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims abstract description 49
- 239000000284 extract Substances 0.000 claims abstract description 7
- 108090000623 proteins and genes Proteins 0.000 claims description 122
- 238000004458 analytical method Methods 0.000 claims description 61
- 238000012360 testing method Methods 0.000 claims description 30
- 108020004999 messenger RNA Proteins 0.000 claims description 8
- 238000012795 verification Methods 0.000 abstract 1
- 238000000034 method Methods 0.000 description 41
- 230000014509 gene expression Effects 0.000 description 34
- 238000009826 distribution Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 13
- 206010028980 Neoplasm Diseases 0.000 description 12
- 201000011510 cancer Diseases 0.000 description 12
- 238000002493 microarray Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000012775 microarray technology Methods 0.000 description 6
- 230000001105 regulatory effect Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 101150062031 L gene Proteins 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000001558 permutation test Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000000528 statistical test Methods 0.000 description 3
- 206010027476 Metastases Diseases 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 238000000491 multivariate analysis Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
サンプル数が比較的少ない場合においてもサンプル群から、人工的にサンプルを発生させて仮想サンプル集合を生成し、この仮想サンプル集合を用いることで、特定の因子を高い信頼性で選択・抽出することが可能な有効因子抽出システムを提供することである。
【解決手段】
サンプル集合X,Yから、任意に前記サンプルを抽出して対に形成される複数の仮想サンプル集合Xt,Ytを生成する仮想サンプル集合生成部3と、それぞれの仮想サンプル集合に含まれるサンプルが保有する前記特徴量を読み出して平均値及び分散値を演算する統計量演算部5と、平均値及び分散値からFisher比を演算するFisher比演算部6と、演算されたFisher比を用いて有意な共通因子を検定する検定部8とを有するものである。
【選択図】図1
Description
このような有効な因子の選択と絞込みは、特に近年急速に進歩してきたマイクロアレイ技術とこれを用いるバイオインフォマテックスの分野における利用が研究されている。すなわち、因子として遺伝子を考え、例えば癌に関係がありそうな遺伝子を発見するために、癌と非癌の験者の遺伝子のサンプル集合を用いて解析を行い、発癌に関係のある可能性の高い遺伝子を選択・絞込みを行なうというものである。
ナノテクノロジーの援用によりマイクロアレイ技術が急速に進歩し、遺伝子の発現量を基にして遺伝子を網羅的、系統的に解析することが可能となってきている。マイクロアレイは生体組織にあるmRNAを定量化するもので、これにより個々の遺伝子の発現量を全て測ることができる。このマイクロアレイから提供される膨大な遺伝子発現情報からいかに有用な知見を得ることができるかは、ひとえにバイオインフォマテックスに依存しており、それゆえバイオインフォマテックスはライフサイエンスにおいて極めて重要な役割を果たすものである。
マイクロアレイ技術とバイオインフォマテックスは、車の車輪のごとく、互いに進歩しなければその意義・価値が見出せないという関係にある。日本のマイクロアレイ技術は世界に伍するレベルである一方、バイオインフォマテックスは外国に大きく引き離され、マイクロアレイ技術の優秀さにも関わらずマイクロアレイ研究は国際競争力に欠けているのが現状である。
このように、早急な研究開発が望まれるバイオインフォマテックスであるが、既にいくつか関連する技術が公開されている。
本発明の有効因子情報選択装置においては、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、複数の因子情報を含む標本情報を用いて多変量解析などに有効な因子情報を選択するために、属性の異なる2つの標本情報群における因子情報について、平均及び標準偏差を求め、具体的には明細書中に示される判定式を用いることが開示されている。
この有効因子情報選択装置によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる。
本発明に係る判定方法においては、疾患を伴う複数の患者を薬剤又は放射線に対する感受性を示す第1の患者群と感受性を示さない第2の患者群に分ける工程と、第1の患者群と第2の患者群の遺伝子の発現プロフィールを分析する工程と、第1及び第2の患者群の間で発現の程度に有意に異なる遺伝子を統計的検定により1個以上選択する工程を含むものである。
この差示的に発現される遺伝子の調節因子結合部位の統計的分析に関する発明においては、示差的に発見される遺伝子の統計的分析方法であって、示差的に発現される遺伝子のセットを得る工程と該示差的に発現される遺伝子の調節領域を含むゲノム配列を、調節因子結合部位の存在についてスクリーニングする工程と、ゲノム規模のバックグラウンドまたは組織規模のバックグラウンドと比較して、該示差的に発現される遺伝子のセット内で富化された少なくとも1つの調節因子結合部位を同定する工程を含むものである。
しかしながら、これら従来の技術においては、当該サンプルの数が比較的少数
であった場合に、因子の選択や抽出が如何なる精度上の影響を受け、また、その精度向上のために如何なる対応策を施すなどということも一切記載されていない。
これら従来技術においては、サンプル群に存在する因子の抽出には少なくとも統計的な手段を用いて有意性を評価しながら実施するものであるが、その際の優位性に少なからず影響を与えると考えられるサンプル数の影響に対する考慮がなされていないのである。
もちろんサンプル数が十分多数である場合には、解析時間をサンプル数に応じて十分に取ることによれば精度の高い処理を行うことも可能である。しかしながら、因子として例えば遺伝子を考え、特定の情報として癌・非癌という属性を考えてみると、サンプルとして入手可能な癌患者に関する情報としては物理的にもプライバシーという観点からも限られており、しかも一口に癌といっても部位によってその情報に幅もあることから、解析に十分な症例数やサンプル数を確保することは現実には非常に困難であり、従って従来技術に係る装置や方法を用いた場合には、抽出された因子がその特定の属性や情報を備えているということに対する確度あるいは精度は必ずしも高いとはいえないという課題があった。
上記構成の有効因子抽出システムでは、仮想サンプル集合生成部において生成される仮想サンプル集合に含まれるサンプルが保有する特徴量について共通因子毎に平均値と分散値を演算する作用を備えている。また、これらの平均値及び分散値から群間の統計的距離を演算し、この統計的距離を用いて有意な共通因子を検定するという作用も備える。なお、共通とは、サンプルに対して共通という意味である。
この有効因子抽出システムにおいては、有意な共通因子として抽出されたものを予め定めた頻度を閾値として抽出する作用を備える。
この有効因子抽出システムにおいては、請求項2に記載の発明の作用に加えて頻度解析部で抽出された共通因子毎に複数の仮想サンプル集合すべての統計的距離を演算する作用を備えている。
上記構成の有効因子抽出システムでは、請求項1乃至請求項3のいずれか1項に記載の発明の作用に加えて、統計的距離をキステムは、請求項1乃至請求項3のーとして並べ替えを行なうという作用を有する。
上記構成の有効因子抽出システムの作用は上記の請求項1乃至請求項4のいずれか1項に記載の発明の作用と同様である。
特に請求項4に記載の有効因子抽出システムにおいては、統計的距離の大小に従って共通因子を並べ替えられるので、有意性の有無を容易に判断することができる。
図1は、本発明の本実施の形態に係る有効因子抽出システムの構成図である。
図1において、有効因子抽出システムは入力部1、演算部2、出力部11及び2つのデータベースであるサンプルデータベース14と解析結果データベース20から構成されている。また、演算部2は仮想サンプル集合生成部3と共通因子選択部4から構成されている。
本実施の形態に係る有効因子抽出システムについて、マイクロアレイからの遺伝子発現情報を用いて、例えば癌関連となる標的遺伝子を選択するシステムを例にして説明する。
また、この図2における遺伝子発現データは、具体的には図3に示されるようにマイクロアレイを介して得られた患者xj(j=1〜N)の遺伝子gi(i=1〜n)の発現量(具体的にはmRNAの量)の集合として捉えられるものである。
入力されたサンプル集合X15及びサンプル集合Y16はサンプルデータベース14に格納され、仮想サンプル集合生成部3によって読み出されて仮想サンプル集合Xt17及び仮想サンプル集合Yt18を生成する。仮想サンプル集合生成部3は、入力部1から入力されるサンプル集合X15やサンプル集合Y16を直接用いて仮想サンプル集合を生成してもよい。
この仮想サンプル集合Xt17及び仮想サンプル集合Yt18を用いて共通因子選択部4において解析を実行し、標的遺伝子の集合を得るものである。この共通因子選択部4は、統計量演算部5、Fisher比演算部6、ソーティング部7、検定部8、頻度解析部9及び一般化Fisher比演算部10から構成され、この共通因子選択部4における解析によって得られる解析結果に関するデータは、解析結果データベース20に仮想サンプル集合平均値データ21,仮想サンプル集合分散値データ22、Fisher比データ23、一般化Fisher比データ24などとして格納される。
ここで、サンプル集合X={x1,x2,・・・,xN}とサンプル集合Y={y1,y2,・・・,yN}が与えられているものとする。サンプルxiは患者iの生体組織からマイクロアレイを通して得られる遺伝子発現量を成分とする数ベクトルである。
遺伝子の数をnとすれば、患者iはn次元ベクトルとして表現可能である。ここでは、遺伝子が特徴を備えた共通因子であり、相対する群として分けるための属性は前述のような再発群と非再発群などである。
復元抽出法は、復元を許してサンプルの無作為抽出を行うもので、簡単であるため説明を省略する。
手順1:サンプル集合Xからランダムに一つのサンプルを取り出し、それをxi0と表わす。
手順2:xi0に最も接近しているr個のサンプルxi1,xi2,・・・,xirを求める。
手順3:仮想サンプルx*を次式(1)により求める。
サンプル集合Yに対しても同様にして仮想サンプル集合を生成し、以上の処理
をL回繰り返すことにより、仮想サンプル集合の組をL個生成することができる。
手順1:サンプル集合Xからランダムに一つのサンプルxを取り出す。
手順2:式(3)に示されるように摂動εをxに付加する。
手順3 手順1から手順3までをN回繰り返して、N個のx*を要素とする仮想サンプル集合を生成する。
局所線形結合法と同様にして、L個の仮想サンプル集合の組を生成する。
このように、仮想サンプル集合の生成には様々な手法が考えられ、どの手法が適切であるかは解くべき問題に依存しており、問題に応じて使い分けるのが現実的である。上述の手法のいずれかを採用する仮想サンプル集合生成部3は、L個の仮想サンプル集合の組(X1,Y1),(X2,Y2),・・・(XL,YL)を生成するのである。
このようにして生成された仮想サンプル集合Xt17、仮想サンプル集合Yt18は仮想サンプル集合生成部3によってサンプルデータベース14に格納される。
仮想サンプル集合の組(Xt,Yt)(t=1,2,・・・,L)を用いて、まず統計量演算部5で遺伝子に関して、Xtの遺伝子発現量の平均μi(Xt)と分散σi 2(Xt)を求め、同様にYtの平均μi(Yt)と分散σi 2(Yt)を求める。これら仮想サンプル集合の平均値及び分散値は、統計量演算部5によって解析結果データベース20に仮想サンプル集合平均値データ21及び仮想サンプル集合分散値データ22として格納される。
以上の処理を全ての遺伝子に対して行いFisher比Fi(Xt,Yt)(t=1,2,・・・,L)を求める。
この処理を模式的に示すのが図4である。図4は、本実施の形態に係る有効因子抽出システムにおいて、サンプル集合X,Yから仮想サンプル集合生成部によって仮想サンプル集合Xt,Ytが生成され、統計量演算部5及びFisher比演算部6によって、Fisher比Fi(Xt,Yt)(t=1,2,・・・,L)が演算されることを表現するものである。
Fisher比は、2群を識別する際の例えば遺伝子の有用性を評価するもので、2群の平均的な広がりで正規化された平均間距離として定義される。つまりFisher比は2群間の距離を表わす。このFisher比の値が大きいと、2群で発現量が大きく異なっていることを意味する。そこで、Fisher比の値が大きい遺伝子を選択することになる。
従来は、ただ一組のサンプル集合を用いてFisher比を求め、Fisher比の値が大きい遺伝子を選択していた。しかし、用いるサンプル集合が変わればFisher比の値も変わる。例えば、サンプル集合AではFisher比の値が大きく癌標的遺伝子として認知されているものが、別のサンプル集合BではFisher比の値が小さくなる場合もあり、このときはサンプル集合Aを用いた結果が否定される。このように、解析結果が特定のサンプル集合に強く依存し信頼性に欠けていた。
本実施の形態においては、仮想サンプル集合生成部3によって人工的に仮想サンプル集合を2つの群毎にL個生成して、これらの仮想サンプル集合の複数の組に対して図4に示されるようにFisher比Fを演算するので、精度を向上させることができるのである。
図5において、サンプル集合X,Yは、患者の遺伝子情報で構成されるもので、それぞれのサンプル集合の属性は例えばX対Yで癌対非癌などで代表されるものである。それぞれのサンプル集合における特徴量の分布を2つの遺伝子gk,gtに着目して示すと、gkの方が分布は明確に分離しており、このことからこの2群のサンプル集合の属性を明確に表現しているのは、gtよりもgkであると考えられる。すなわち、gkの方が標的遺伝子にふさわしいということになる。
このようなサンプル集合が形成されている場合に、それらから仮想サンプル集合を形成させて、その仮想サンプル集合を用いて前述のとおり統計量を演算子、式(4)で表現されるFisher比なるものを演算することで、図5に示されるような遺伝子上での分布の分離程度を判断して、標的遺伝子を求めるのが、本実施の形態に係る有効因子抽出システムである。
その中の2つの遺伝子gi,gjの特徴量(発現量)に対して仮想サンプル集合Xt,Ytについて分布を取ってみると遺伝子giでは明確にサンプル集合Xt,Ytで分離され、遺伝子gjでは分布が重複して分離できないことが理解される。そして、このようなときにFisher比はgiで大きくgjで小さくなる。
このような2つの遺伝子では、前述のとおりこの仮想サンプル集合Xt,Ytを分ける属性に関係すると考えられる標的遺伝子は、遺伝子giの方であると理解されるのである。
もう少し具体的に図7を参照して説明する。図7は2つの遺伝子gi,gjの発現量(mRNA)をそれぞれy軸、x軸に示すものである。数字はサンプルの番号を意味している。この図では、遺伝子2(gj)では丸印で示されるサンプル集合Yに含まれる患者の遺伝子発現量も角印で示されるサンプル集合Xに含まれる患者の遺伝子発現量もほぼ同じである一方、遺伝子1(gi)では、丸印で示される仮想サンプル集合Ytに含まれる患者の遺伝子発現量の方が角印で示される仮想サンプル集合Xtに含まれる患者の遺伝子発現量よりも明確に大きな値を示しており、標的遺伝子がgiであることが理解されるのである。
このような遺伝子発現量の差を明確化する指標として式(4)で示されるFisher比をFisher比演算部6によって演算するのである。演算されたFisher比はFisher比演算部6によって解析結果データベース20にFisher比データ23として格納される。
降順に順序付けされた遺伝子では、上位の遺伝子ほどFisher比が大きく、属性の相違に基づく2群を明確にするにふさわしい遺伝子、すなわち標的遺伝子であることが理解される。このように順序付けされたFisher比データ23はソーティング部7によって解析結果データベース20に格納してもよいし、格納せずにそのまま検定部8に送出してもよい。尚、ソーティング部7による順次付けは常に降順である必要はなく、昇順であってもよい。
Random Permutation Test法では、2群が等しいものと仮定した帰無仮説を否定することにより2群を識別する上で有効な遺伝子を決定できる。今、識別したい二つの群からのサンプル集合Xとサンプル集合Yがあるとする。まず2群が等しいと仮定し、サンプル集合Xとサンプル集合Yを一緒にした混合サンプル集合からサンプルを無作為抽出して偽サンプル集合Yと偽サンプル集合Yを作成する。この偽サンプル集合XとYに対して各遺伝子のFisher比を計算する。偽サンプル集合XとYの作成から各遺伝子のFisher比の計算までの処理を独立に例えば1000回繰り返し、Fisher比の分布を求める。このFisher比の分布の上限を、ある有意水準のもとにしきい値αで定める。処理の回数は結果の信頼度が得られる程度に適宜設定してもよく、入力部1から予め解析定数データ19としてサンプルデータベース14に格納しておいてもよい。しきい値αも同様である。
このような検定をL個の仮想サンプル集合の組に対して実施すると、L個の仮想サンプル集合の組に対して有効であると判定された遺伝子部分集合がL個得られることになる。
本実施の形態においては、検定の方法としてRandom Permutation Test法を用いたが、特にこの方法に限定するものではなく、Fisher比の大きさについて2群を識別可能なものを求めることができる検定であればどのような方法でもよい。
そして、これをより精度の高い標的遺伝子と認定する。または、この条件を緩和し、L個の集合の中で例えば8割、あるいは7割ほど有効であるとされた遺伝子を標的遺伝子と認定することも考えられる。
この頻度解析部9における標的遺伝子の認定方法、すなわち標的とする共通因子の認定方法について図8を参照しながら具体的に説明する。図8において、候補の遺伝子集合がg1〜g10とする場合に、検定部8によって、仮想サンプル集合1,2,3において、それぞれ遺伝子部分集合として,S1,S2,S3が形成されたとする。それぞれ図中に示されるとおり、各仮想サンプル毎に候補とされる遺伝子が含まれるが、必ずしも完全に一致するものとはなっていない。
そこで、頻度解析部9を用いて、例えばすべての遺伝子部分集合に出現するものあるいは3つの部分集合のうち2に出現するものなどとして解析条件を予め設定しておく。その設定は、入力部1から解析条件13として入力し解析定数データ19としてサンプルデータベース14に格納しておくとよい。解析条件はユーザーによって適宜設定してよく、全てや2/3などの数値に限定するものではない。また、いくつかの解析条件を同時に使用して図8に示されるように解析条件毎に結果を示すようにしてもよい。
このようにして標的遺伝子集合が得られる。このようにして得られた標的遺伝子集合に関するデータは頻度解析部9によって、共通因子抽出データ26として解析結果データベース20に格納される。
一般化Fisher比演算部10で演算を行う前に、まず、統計量演算部5が標的遺伝子集合内の各遺伝子について、それぞれ式(5)、(6)で表されるFisher比Fiの平均μ(Fi)と分散σ2(Fi)を演算する。これらの平均値と分散値は、仮想サンプル集合平均値データ21、仮想サンプル集合分散値データ22として解析結果データベース20に格納してもよいし、そのまま一般化Fisher比演算部10から読み出されるようにしてもよい。
このとき、この遺伝子は、信頼性が高く、かつ、どの仮想サンプル集合に対しても平均的に発現量の相違が著しいということになる。一般化Fisher比を用いる手法と従来手法との決定的に異なる点は、Fisher比を従来のように確定値としてではなく確率変数として取り扱い、Fisher比の分布を考えていることにある。
一般化Fisher比の具体例としては、次の(8)〜(10)などの式で表現されるが、これらに限定するものではない。なお例えば式(10)のパラメータαは解析定数データ19として入力部1から予め入力してサンプルデータベース14に格納しておくとよい。
ソーティング部7では、一般化Fisher比の値が大きい順に標的遺伝子を順序付ける。その際に用いられるデータは、一般化Fisher比演算部10から直接読み出してもよいし、解析結果データベース20から一般化Fisher比データ24として読み出してもよい。
順序付けされた標的遺伝子は、基本的にはその上位から医学的、あるいは生物学的に意味のある標的遺伝子を選択することができるように示されるが、最終的な標的遺伝子の選択は本有効因子抽出システムを操作するユーザーによる判断も加味されることになる。本有効因子抽出システムは、最終的な判断を容易にすべく支援するシステムである。
図9を参照すれば容易に理解されるが、所望の属性によって2群に分けられるサンプル集合X,Yが存在しており、これらから仮想サンプル集合生成部3を用いてL個の仮想サンプル集合を生成し、それぞれの仮想サンプル集合において共通因子選択部4を用いて共通因子の部分集合であるL個の遺伝子部分集合(S1,・・St,・・,SL)を選択する。
仮想サンプル集合を用いてFisher比を演算して検定を実施することで、この段階である程度精度の高い標的遺伝子が得られる。
しかしながら、さらに高精度を追求するために、これらの遺伝子部分集合を用いて頻度解析部9では、各部分集合に共通する遺伝子を選択し、さらに一般化Fisher比演算部10において一般化Fisher比を演算する。前述のとおり、Fisher比を各遺伝子部分集合における確率変数として捉えて、仮想サンプル集合全体としての一般化Fisher比を演算して、ソーティング部7で順序付けを行うことで、遺伝子の部分集合における標的遺伝子よりもさらに信頼性の高い標的遺伝子を抽出することができるのである。
表1は、再発群と非再発群という、相対する群のサンプル集合から仮想サンプル集合生成部3を用いて仮想サンプル集合を生成し、その生成された仮想サンプル集合の中から、仮想サンプル集合Xt(再発群)、仮想サンプル集合Yt(非再発群)を例として選択している。この仮想サンプル集合Xt、Ytには3名ずつの患者(x1,x2,x3)、(y1,y2,y3)が含まれており、数ある遺伝子の中から、遺伝子番号g1〜g5までの遺伝子発現量を示してまとめた表である。遺伝子発現量とは前述のとおりあるmRNAの量を意味するものである。
この表2に示された状態から、ソーティング部7はこのFisher比の降順あるいは昇順に遺伝子を順序付けし、さらに検定部8では有意水準を定めて統計上の検定を行って2群を識別する上で有効な遺伝子数を決定する。
その後、さらに頻度解析部9では図8を参照しながら説明したとおり、各仮想サンプル集合における検定部8に抽出された遺伝子部分集合から頻度解析を行なうことで標的遺伝子集合を形成させる。そして、一般化Fisher比演算部10において一般化Fisher比を演算して、精度の高い標的遺伝子を選択、抽出するのである。
Claims (5)
- 共通の因子にそれぞれ定量的な特徴量を保有するサンプルを、任意に予め定められる属性によって判別される2つの群に分別したサンプル集合から、各群それぞれ任意に前記サンプルを抽出して対に形成される複数の仮想サンプル集合を生成する仮想サンプル集合生成部と、それぞれの仮想サンプル集合に含まれる各群すべてのサンプルが保有する前記特徴量を前記共通因子毎に読み出して群毎にその平均値及び分散値を演算する統計量演算部と、これらの群毎の平均値及び分散値から群間の統計的距離を前記共通因子毎に演算する統計的距離演算部と、これらの前記共通因子毎に演算された統計的距離を用いて前記属性によって判別される2つの群を識別するために有意な共通因子を検定する検定部とを有することを特徴とする有効因子抽出システム。
- 前記検定部で検定された有意な共通因子を前記仮想サンプル集合毎に読み出して、仮想サンプル集合全体において予め定めた頻度以上に存在する共通因子を抽出する頻度解析部とを有することを特徴とする請求項1記載の有効因子抽出システム。
- 共通の因子にそれぞれ定量的な特徴量を保有するサンプルを、任意に予め定められる属性によって判別される2つの群に分別したサンプル集合から、各群それぞれ任意に前記サンプルを抽出して対に形成される複数の仮想サンプル集合を生成する仮想サンプル集合生成部と、それぞれの仮想サンプル集合に含まれる各群すべてのサンプルが保有する前記特徴量を前記共通因子毎に読み出して群毎にその平均値及び分散値を演算する統計量演算部と、これらの群毎の平均値及び分散値から群間の統計的距離を前記共通因子毎に演算する統計的距離演算部と、これらの前記共通因子毎に演算された統計的距離を用いて前記属性によって判別される2つの群を識別するために有意な共通因子を検定する検定部と、前記検定部で検定された有意な共通因子を前記仮想サンプル集合毎に読み出して、仮想サンプル集合全体において予め定めた頻度以上に存在する共通因子を抽出する頻度解析部と、前記頻度解析部で抽出された共通因子毎に前記複数の仮想サンプル集合すべての統計的距離の平均値及び分散値から一般化統計的距離を演算する一般化統計的距離演算部とを備えることを特徴とする有効因子抽出システム。
- 統計的距離演算部又は一般化統計的距離演算部で演算された統計的距離をキーとして、前記共通因子を並べ替えするソーティング部を有することを特徴とする請求項1乃至請求項3のいずれか1項に記載の有効因子抽出システム。
- 前記共通因子は遺伝子であり、前記定量的な特徴量はmRNAであることを特徴とする請求項1乃至請求項4のいずれか1項に記載の有効因子抽出システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005349541A JP4714869B2 (ja) | 2005-12-02 | 2005-12-02 | 有効因子抽出システム |
PCT/JP2006/324019 WO2007063972A1 (ja) | 2005-12-02 | 2006-11-30 | 有効因子抽出システムとその方法とそのプログラム |
US12/156,094 US8140456B2 (en) | 2005-12-02 | 2008-05-29 | Method and system of extracting factors using generalized Fisher ratios |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005349541A JP4714869B2 (ja) | 2005-12-02 | 2005-12-02 | 有効因子抽出システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007156721A true JP2007156721A (ja) | 2007-06-21 |
JP4714869B2 JP4714869B2 (ja) | 2011-06-29 |
Family
ID=38092305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005349541A Active JP4714869B2 (ja) | 2005-12-02 | 2005-12-02 | 有効因子抽出システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8140456B2 (ja) |
JP (1) | JP4714869B2 (ja) |
WO (1) | WO2007063972A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017091277A (ja) * | 2015-11-11 | 2017-05-25 | チトセ バイオ エボリューション ピーティーイー リミテッド | 細胞を分類可能な遺伝子の選出方法 |
KR102266382B1 (ko) * | 2020-09-28 | 2021-06-18 | 신한아이타스(주) | 사전 컴플라이언스 코드를 팩터 단위로 모듈화하여 구성하는 방법 및 장치 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573411B (zh) * | 2014-12-30 | 2018-04-17 | 深圳先进技术研究院 | 一种生物标志物相关性可视化方法以及装置 |
TWI708190B (zh) | 2019-11-15 | 2020-10-21 | 財團法人工業技術研究院 | 圖像辨識方法、物體辨識模型的訓練系統與物體辨識模型的訓練方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003085548A1 (fr) * | 2002-04-04 | 2003-10-16 | Ishihara Sangyo Kaisha, Ltd. | Dispositif et procede d'analyse de donnees |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6647341B1 (en) * | 1999-04-09 | 2003-11-11 | Whitehead Institute For Biomedical Research | Methods for classifying samples and ascertaining previously unknown classes |
JP2003061678A (ja) | 2001-08-29 | 2003-03-04 | Univ Tokyo | 遺伝子のスクリーニング方法及び感受性の判定方法 |
US20040191779A1 (en) | 2003-03-28 | 2004-09-30 | Jie Zhang | Statistical analysis of regulatory factor binding sites of differentially expressed genes |
JP2005038256A (ja) | 2003-07-16 | 2005-02-10 | Jgs:Kk | 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体 |
US7467119B2 (en) * | 2003-07-21 | 2008-12-16 | Aureon Laboratories, Inc. | Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition |
-
2005
- 2005-12-02 JP JP2005349541A patent/JP4714869B2/ja active Active
-
2006
- 2006-11-30 WO PCT/JP2006/324019 patent/WO2007063972A1/ja active Application Filing
-
2008
- 2008-05-29 US US12/156,094 patent/US8140456B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003085548A1 (fr) * | 2002-04-04 | 2003-10-16 | Ishihara Sangyo Kaisha, Ltd. | Dispositif et procede d'analyse de donnees |
Non-Patent Citations (5)
Title |
---|
JPN6010066311, Iizuka, N., "Oligonucleotide microarray for prediction of early intrahepatic recurrence of hepatocellular carcino", THE LANCET, 20030315, Vol.361, No.9361, p.923−9 * |
JPN6010066314, 飯塚徳男, "肝臓におけるゲノミクス研究 7.肝細胞癌:転移予測", 肝臓, 20051025, 第46巻,第10号, p.616−621, 日本肝臓学会 * |
JPN6010066317, Xiong, M., "Feature (gene) selection in gene expression−based tumor classification", Molecular genetics and metabolism, 200106, Vol.73, No.3, p.239−47 * |
JPN6010066321, Golub, T.R., "Molecular classification of cancer: class discovery and class prediction by gene expression monitori", Science, 199910, Vol.286, p.531−7 * |
JPN6010066329, Guyon, I, "An introduction to variable and feature selection", The Journal of Machine Learning Research, 2003, Vol.3, p.1157−82 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017091277A (ja) * | 2015-11-11 | 2017-05-25 | チトセ バイオ エボリューション ピーティーイー リミテッド | 細胞を分類可能な遺伝子の選出方法 |
KR102266382B1 (ko) * | 2020-09-28 | 2021-06-18 | 신한아이타스(주) | 사전 컴플라이언스 코드를 팩터 단위로 모듈화하여 구성하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP4714869B2 (ja) | 2011-06-29 |
WO2007063972A1 (ja) | 2007-06-07 |
US20080319711A1 (en) | 2008-12-25 |
US8140456B2 (en) | 2012-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Open source machine-learning algorithms for the prediction of optimal cancer drug therapies | |
JP6729457B2 (ja) | データ解析装置 | |
CN112289376B (zh) | 一种检测体细胞突变的方法及装置 | |
Muscarella et al. | A well-resolved phylogeny of the trees of Puerto Rico based on DNA barcode sequence data | |
JP4714869B2 (ja) | 有効因子抽出システム | |
Tran | A novel method for finding non-small cell lung cancer diagnosis biomarkers | |
Cheng et al. | Developmental validation of STRmix™ NGS, a probabilistic genotyping tool for the interpretation of autosomal STRs from forensic profiles generated using NGS | |
Chan et al. | Evaluation of dynamic time warp barycenter averaging (DBA) for its potential in generating a consensus nanopore signal for genetic and epigenetic sequences | |
KR102217272B1 (ko) | 유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법 | |
JP2017126212A (ja) | パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置 | |
JP5307996B2 (ja) | 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム | |
WO2013150291A1 (en) | A method for measuring performance of a spectroscopy system | |
CN112951324A (zh) | 一种基于欠采样的致病同义突变预测方法 | |
KR20200057664A (ko) | 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 | |
Lauria | Rank‐Based miRNA Signatures for Early Cancer Detection | |
Maleki et al. | Silver: Forging almost Gold Standard Datasets. Genes 2021, 12, 1523 | |
Besalú i Llorà et al. | Ranking Series of Cancer-Related Gene Expression Data by Means of the Superposing Significant Interaction Rules Method | |
Wang | Statistical Analysis and Visualization of Single Cell RNA Sequencing Data at Population Scale | |
Tsai | Applications of Analytics in Disease Prediction Types | |
Conti et al. | Experimental Design for Comparative Metagenomics Investigating and optimising the trade-off between number of samples and sequencing depth | |
Olorunshola | Classifying Different Cancer Types Based on Transcriptomics Data Using Machine Learning Algorithms | |
Shukir | Class Prediction Methods Applied to Microarray Data for Classification | |
CN117935928A (zh) | 一种基于蛋白组学的高级别浆液性卵巢癌免疫分型模型的构建方法及应用 | |
Foszner et al. | Structured bi-clusters algorithm for classification of dna microarray data | |
Chlis et al. | Extracting reliable gene expression signatures through stable bootstrap validation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110118 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |