JP4714869B2 - 有効因子抽出システム - Google Patents

有効因子抽出システム Download PDF

Info

Publication number
JP4714869B2
JP4714869B2 JP2005349541A JP2005349541A JP4714869B2 JP 4714869 B2 JP4714869 B2 JP 4714869B2 JP 2005349541 A JP2005349541 A JP 2005349541A JP 2005349541 A JP2005349541 A JP 2005349541A JP 4714869 B2 JP4714869 B2 JP 4714869B2
Authority
JP
Japan
Prior art keywords
sample set
gene
virtual sample
unit
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005349541A
Other languages
English (en)
Other versions
JP2007156721A (ja
Inventor
義彦 浜本
正朗 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATIONAL UNIVERSITY CORPORATION YAMAGUCHI UNIVERSITY
Original Assignee
NATIONAL UNIVERSITY CORPORATION YAMAGUCHI UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATIONAL UNIVERSITY CORPORATION YAMAGUCHI UNIVERSITY filed Critical NATIONAL UNIVERSITY CORPORATION YAMAGUCHI UNIVERSITY
Priority to JP2005349541A priority Critical patent/JP4714869B2/ja
Priority to PCT/JP2006/324019 priority patent/WO2007063972A1/ja
Publication of JP2007156721A publication Critical patent/JP2007156721A/ja
Priority to US12/156,094 priority patent/US8140456B2/en
Application granted granted Critical
Publication of JP4714869B2 publication Critical patent/JP4714869B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、共通の因子にそれぞれ定量的な特徴量を保有するサンプルを任意に予め定められる属性によって判別される2つの群に分別したサンプル集合から、その属性を判別するにふさわしい標的と考えられる有効な因子を抽出する有効因子抽出システムに関する。
一般に、ある因子を含むサンプルの集合から任意にサンプルを抽出して解析を行い、所定の判定や識別などに有効な因子を選択して因子を絞り込むという操作は様々な産業分野において実施されている。
このような有効な因子の選択と絞込みは、特に近年急速に進歩してきたマイクロアレイ技術とこれを用いるバイオインフォマテックスの分野における利用が研究されている。すなわち、因子として遺伝子を考え、例えば癌に関係がありそうな遺伝子を発見するために、癌と非癌の験者の遺伝子のサンプル集合を用いて解析を行い、発癌に関係のある可能性の高い遺伝子を選択・絞込みを行なうというものである。
ナノテクノロジーの援用によりマイクロアレイ技術が急速に進歩し、遺伝子の発現量を基にして遺伝子を網羅的、系統的に解析することが可能となってきている。マイクロアレイは生体組織にあるmRNAを定量化するもので、これにより個々の遺伝子の発現量を全て測ることができる。このマイクロアレイから提供される膨大な遺伝子発現情報からいかに有用な知見を得ることができるかは、ひとえにバイオインフォマテックスに依存しており、それゆえバイオインフォマテックスはライフサイエンスにおいて極めて重要な役割を果たすものである。
マイクロアレイ技術とバイオインフォマテックスは、車の車輪のごとく、互いに進歩しなければその意義・価値が見出せないという関係にある。日本のマイクロアレイ技術は世界に伍するレベルである一方、バイオインフォマテックスは外国に大きく引き離され、マイクロアレイ技術の優秀さにも関わらずマイクロアレイ研究は国際競争力に欠けているのが現状である。
このように、早急な研究開発が望まれるバイオインフォマテックスであるが、既にいくつか関連する技術が公開されている。
例えば、特許文献1には、「有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体」という名称で、複数の因子を含む標本を用いる多変量解析やパターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができる発明が開示されている。
本発明の有効因子情報選択装置においては、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、複数の因子情報を含む標本情報を用いて多変量解析などに有効な因子情報を選択するために、属性の異なる2つの標本情報群における因子情報について、平均及び標準偏差を求め、具体的には明細書中に示される判定式を用いることが開示されている。
この有効因子情報選択装置によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる。
また、特許文献2には、「遺伝子のスクリーニング方法及び感受性の判定方法」という名称で、遺伝子のスクリーニングという分野に特化した発明ではあるものの、薬剤や放射線に対する感受性に関与する遺伝子を選択・抽出する方法に関する発明が開示されている。
本発明に係る判定方法においては、疾患を伴う複数の患者を薬剤又は放射線に対する感受性を示す第1の患者群と感受性を示さない第2の患者群に分ける工程と、第1の患者群と第2の患者群の遺伝子の発現プロフィールを分析する工程と、第1及び第2の患者群の間で発現の程度に有意に異なる遺伝子を統計的検定により1個以上選択する工程を含むものである。
そして、特許文献3には、「差示的に発現される遺伝子の調節因子結合部位の統計的分析」という名称で、示差的に発現される遺伝子を伴う疾患の処置のための治療ストラテジーを開発するために、示差的に発現される遺伝子における調節因子結合部位を同定及び特徴付けるための方法が開示されている。
この差示的に発現される遺伝子の調節因子結合部位の統計的分析に関する発明においては、示差的に発見される遺伝子の統計的分析方法であって、示差的に発現される遺伝子のセットを得る工程と該示差的に発現される遺伝子の調節領域を含むゲノム配列を、調節因子結合部位の存在についてスクリーニングする工程と、ゲノム規模のバックグラウンドまたは組織規模のバックグラウンドと比較して、該示差的に発現される遺伝子のセット内で富化された少なくとも1つの調節因子結合部位を同定する工程を含むものである。
特開2005−38256号公報 特開2003−61678号公報 特開2004−298178号公報
これらの特許文献1乃至3に記載された従来の技術では、確かに、例えば遺伝子に代表される因子について、サンプル群の中から特定の情報を備えるものを統計的な処理を施すことで選択、抽出するものである。
しかしながら、これら従来の技術においては、当該サンプルの数が比較的少数
であった場合に、因子の選択や抽出が如何なる精度上の影響を受け、また、その精度向上のために如何なる対応策を施すなどということも一切記載されていない。
これら従来技術においては、サンプル群に存在する因子の抽出には少なくとも統計的な手段を用いて有意性を評価しながら実施するものであるが、その際の優位性に少なからず影響を与えると考えられるサンプル数の影響に対する考慮がなされていないのである。
もちろんサンプル数が十分多数である場合には、解析時間をサンプル数に応じて十分に取ることによれば精度の高い処理を行うことも可能である。しかしながら、因子として例えば遺伝子を考え、特定の情報として癌・非癌という属性を考えてみると、サンプルとして入手可能な癌患者に関する情報としては物理的にもプライバシーという観点からも限られており、しかも一口に癌といっても部位によってその情報に幅もあることから、解析に十分な症例数やサンプル数を確保することは現実には非常に困難であり、従って従来技術に係る装置や方法を用いた場合には、抽出された因子がその特定の属性や情報を備えているということに対する確度あるいは精度は必ずしも高いとはいえないという課題があった。
本発明はかかる従来の事情に対処してなされたものであり、サンプル数が比較的少ない場合においてもサンプル群から、人工的にサンプルを発生させて仮想サンプル集合を生成し、この仮想サンプル集合を用いることで、特定の因子を高い信頼性で選択・抽出することが可能な有効因子抽出システムを提供することを目的とする。
上記目的を達成するため、請求項1記載の発明である有効因子抽出システムは、共通の因子にそれぞれ定量的な特徴量を保有するサンプルを、任意に予め定められる属性によって判別される2つの群に分別したサンプル集合から、各群それぞれ任意に前記サンプルを抽出して対に形成される複数の仮想サンプル集合を生成する仮想サンプル集合生成部と、それぞれの仮想サンプル集合に含まれる各群すべてのサンプルが保有する前記特徴量を前記共通因子毎に読み出して群毎にその平均値及び分散値を演算する統計量演算部と、これらの群毎の平均値及び分散値から群間の統計的距離を前記共通因子毎に演算する統計的距離演算部と、これらの前記共通因子毎に演算された統計的距離を用いて前記属性によって判別される2つの群を識別するために有意な共通因子を検定する検定部と、前記検定部で検定された有意な共通因子を前記仮想サンプル集合毎に読み出して、仮想サンプル集合全体において予め定めた頻度以上に存在する共通因子を抽出する頻度解析部と、前記頻度解析部で抽出された共通因子毎に前記複数の仮想サンプル集合すべての統計的距離の平均値及び分散値から一般化統計的距離を演算する一般化統計的距離演算部とを備えるものである。
この有効因子抽出システムにおいては、仮想サンプル集合生成部において生成される仮想サンプル集合に含まれるサンプルが保有する特徴量について共通因子毎に平均値と分散値を演算する作用を備えている。また、これらの平均値及び分散値から群間の統計的距離を演算し、この統計的距離を用いて有意な共通因子を検定するという作用も備える。なお、共通とは、サンプルに対して共通という意味である。さらに、有意な共通因子として抽出されたものを予め定めた頻度を閾値として抽出する作用を備える。そして、これらの作用に加えて頻度解析部で抽出された共通因子毎に複数の仮想サンプル集合すべての統計的距離を演算する作用を備えている。
さらに、請求項に記載の発明である有効因子抽出システムは、請求項1記載の有効因子抽出システムにおいて、統計的距離演算部又は一般化統計的距離演算部で演算された統計的距離をキーとして、前記共通因子を並べ替えするソーティング部を有するものである。
上記構成の有効因子抽出システムでは、請求項1記載の発明の作用に加えて、統計的距離をキーとして並べ替えを行なうという作用を有する。
最後に、請求項に記載の発明である有効因子抽出システムは、請求項1又は請求項2に記載の有効因子抽出システムにおいて、前記共通因子は遺伝子であり、前記定量的な特徴量はmRNAであるものである。
上記構成の有効因子抽出システムの作用は上記の請求項1又は請求項2に記載の発明の作用と同様である。
本発明の有効因子抽出システムでは、仮想サンプル集合生成部が任意に予め定められる属性によって判別される2つの群に分別したサンプル集合から、各群それぞれ任意にサンプルを抽出して対に形成される複数の仮想サンプル集合を生成するので、たとえ比較的少ないサンプル集合しか得られない場合であっても、複数の仮想サンプル集合でそれぞれの共通因子の特徴量の平均値や分散値から群間の統計的距離を求めるという解析が可能であることから、共通因子に関する解析精度の向上を図ることができる。また、検定部を備えて属性によって判別される2つの群を識別するために有意な共通因子を検定することができるので、共通因子の抽出の信頼性を向上させることが可能である。
特に請求項に記載の有効因子抽出システムにおいては、一旦頻度解析部でふるいにかけた共通因子に対して再度複数の仮想サンプル集合すべての統計的距離の平均値及び分散値から一般化統計的距離を演算するので、さらに高い精度で有意な共通因子を選択、抽出することができる。
特に請求項に記載の有効因子抽出システムにおいては、統計的距離の大小に従って共通因子を並べ替えられるので、有意性の有無を容易に判断することができる。
以下に、本発明の最良の実施の形態に係る有効因子抽出システムを図1乃至図9に基づき説明する。本実施の形態においては、2群の分布間の統計的距離として、Fisher比を用いて説明するが、Fisher比の他にもChernoff距離、Bhattacharyya距離、Divergenceなど様々な統計的距離を用いてもよい。2群の分布間の統計的距離としてのFisher比、Chernoff距離、Bhattacharyya距離、Divergenceはいずれも2群の分布の平均値と分散値を基に計算され、2群間の距離を表すもので、この距離が大きいほど2群の属性に関して差異が大きいことを意味するものである。
図1は、本発明の本実施の形態に係る有効因子抽出システムの構成図である。
図1において、有効因子抽出システムは入力部1、演算部2、出力部11及び2つのデータベースであるサンプルデータベース14と解析結果データベース20から構成されている。また、演算部2は仮想サンプル集合生成部3と共通因子選択部4から構成されている。
本実施の形態に係る有効因子抽出システムについて、マイクロアレイからの遺伝子発現情報を用いて、例えば癌関連となる標的遺伝子を選択するシステムを例にして説明する。
このようなシステムの場合は、図2に示されるとおり、生体組織からマイクロアレイを介して取り出された遺伝子発現データを解析部を通じて標的となる遺伝子群を抽出するという一連の流れの中の解析部の機能を発揮するものである。
また、この図2における遺伝子発現データは、具体的には図3に示されるようにマイクロアレイを介して得られた患者x(j=1〜N)の遺伝子g(i=1〜n)の発現量(具体的にはmRNAの量)の集合として捉えられるものである。
図1に戻って、有効因子抽出システムの入力部1はサンプルデータベース14に格納されるサンプル集合X15、サンプル集合Y16あるいは共通因子選択部4において実行される統計的な解析を行なうための解析条件13を入力するためのものである。このサンプル集合X15が、図2及び図3に示される遺伝子発現データの集合となる。図1に示されるサンプル集合Y16は、サンプル集合X15とは異なる属性を備えた別の群である。
入力されたサンプル集合X15及びサンプル集合Y16はサンプルデータベース14に格納され、仮想サンプル集合生成部3によって読み出されて仮想サンプル集合X17及び仮想サンプル集合Y18を生成する。仮想サンプル集合生成部3は、入力部1から入力されるサンプル集合X15やサンプル集合Y16を直接用いて仮想サンプル集合を生成してもよい。
この仮想サンプル集合X17及び仮想サンプル集合Y18を用いて共通因子選択部4において解析を実行し、標的遺伝子の集合を得るものである。この共通因子選択部4は、統計量演算部5、Fisher比演算部6、ソーティング部7、検定部8、頻度解析部9及び一般化Fisher比演算部10から構成され、この共通因子選択部4における解析によって得られる解析結果に関するデータは、解析結果データベース20に仮想サンプル集合平均値データ21,仮想サンプル集合分散値データ22、Fisher比データ23、一般化Fisher比データ24などとして格納される。
2つのサンプル集合X15とサンプル集合Y16は、相対する2群、例えば癌治療の医療現場では(再発群 対 非再発群)、(転移群 対 無転移群)、(抗癌剤投与前群 対 投与後群)、(放射線照射前群 対 照射後群)などの2群に代表される集合からそれぞれ採取されたサンプル集合を示している。
ここで、サンプル集合X={x,x,・・・,x}とサンプル集合Y={y,y,・・・,y}が与えられているものとする。サンプルxは患者iの生体組織からマイクロアレイを通して得られる遺伝子発現量を成分とする数ベクトルである。
遺伝子の数をnとすれば、患者iはn次元ベクトルとして表現可能である。ここでは、遺伝子が特徴を備えた共通因子であり、相対する群として分けるための属性は前述のような再発群と非再発群などである。
このようにサンプリングされたサンプル集合X15,Y16から仮想サンプル集合生成部3は仮想サンプル集合を生成するが、この生成法としては、広く知られた「復元抽出法」、「非復元抽出法」、「局所線形結合法」及び「摂動付加法」などがある。
復元抽出法は、復元を許してサンプルの無作為抽出を行うもので、簡単であるため説明を省略する。
非復元抽出法では、サンプル集合XとYから以下の手順により仮想サンプル集合を生成する。N個のサンプルからなる集合Xから非復元抽出によりM(M<N)個のサンプルからなる仮想サンプル集合を生成する。ここで、仮想サンプル集合が実のサンプル集合の近似であるという考えから、Mの値を可能な限りNの値に近いようにとる。具体的にはM=N−1あるいはN−2とする。この処理を独立にL回繰り返してL個の仮想サンプル集合を得る。同様に、サンプル集合Yからも非復元抽出により仮想サンプル集合をL個生成する。これにより、L個の仮想サンプル集合の組が得られる。
局所線形結合法では、以下の手順により仮想サンプル集合を生成する。局所線形結合法では、局所的なスムージングにより外れ値となるサンプルの影響を低減させることができる。
手順1:サンプル集合Xからランダムに一つのサンプルを取り出し、それをxi0と表わす。
手順2:xi0に最も接近しているr個のサンプルxi1,xi2,・・・,xirを求める。
手順3:仮想サンプルx*を次式(1)により求める。
Figure 0004714869
但しωは重みで、式(2)を満たす。尚、ωの値は乱数により与える。
Figure 0004714869
手順4:手順1から手順3までをN回繰り返して、N個のx*を要素とする仮想サンプル集合を生成する。
サンプル集合Yに対しても同様にして仮想サンプル集合を生成し、以上の処理
をL回繰り返すことにより、仮想サンプル集合の組をL個生成することができる。
摂動付加法では、以下の手順により仮想サンプル集合を生成する。摂動付加法はニューラルネットワークの分野で汎化能力を向上させる手法としてノイズ注入法の名で知られている。
手順1:サンプル集合Xからランダムに一つのサンプルxを取り出す。
手順2:式(3)に示されるように摂動εをxに付加する。
Figure 0004714869
εは、平均ベクトルがゼロベクトル、共分散行列が単位行列の正規分布に従うn次元ベクトルで、乱数により生成される。
手順3 手順1から手順3までをN回繰り返して、N個のx*を要素とする仮想サンプル集合を生成する。
局所線形結合法と同様にして、L個の仮想サンプル集合の組を生成する。
このように、仮想サンプル集合の生成には様々な手法が考えられ、どの手法が適切であるかは解くべき問題に依存しており、問題に応じて使い分けるのが現実的である。上述の手法のいずれかを採用する仮想サンプル集合生成部3は、L個の仮想サンプル集合の組(X,Y),(X,Y),・・・(X,Y)を生成するのである。
このようにして生成された仮想サンプル集合X17、仮想サンプル集合Y18は仮想サンプル集合生成部3によってサンプルデータベース14に格納される。
次に、図1に示される共通因子選択部4では、各仮想サンプル集合X17,Y18の組に対して以下のような処理を行う。
仮想サンプル集合の組(X,Y)(t=1,2,・・・,L)を用いて、まず統計量演算部5で遺伝子に関して、Xの遺伝子発現量の平均μ(X)と分散σ (X)を求め、同様にYの平均μ(Y)と分散σ (Y)を求める。これら仮想サンプル集合の平均値及び分散値は、統計量演算部5によって解析結果データベース20に仮想サンプル集合平均値データ21及び仮想サンプル集合分散値データ22として格納される。
次に、Fisher比演算部6は遺伝子gのFisher比F(X,Y)の値を以下の計算式(4)により求める。遺伝子発現量の仮想サンプル集合平均値データ21及び仮想サンプル集合分散値データ22はFisher比演算部6によって解析結果データベース20から読み出すかあるいは統計量演算部5において演算された結果をそのまま用いることも可能である。
Figure 0004714869
ここで、PとPはそれぞれXとYの事前確率であり、多くの場合P=P=1/2とする。
以上の処理を全ての遺伝子に対して行いFisher比F(X,Y)(t=1,2,・・・,L)を求める。
この処理を模式的に示すのが図4である。図4は、本実施の形態に係る有効因子抽出システムにおいて、サンプル集合X,Yから仮想サンプル集合生成部によって仮想サンプル集合X,Yが生成され、統計量演算部5及びFisher比演算部6によって、Fisher比F(X,Y)(t=1,2,・・・,L)が演算されることを表現するものである。
Fisher比は、2群を識別する際の例えば遺伝子の有用性を評価するもので、2群の平均的な広がりで正規化された平均間距離として定義される。つまりFisher比は2群間の距離を表わす。このFisher比の値が大きいと、2群で発現量が大きく異なっていることを意味する。そこで、Fisher比の値が大きい遺伝子を選択することになる。
従来は、ただ一組のサンプル集合を用いてFisher比を求め、Fisher比の値が大きい遺伝子を選択していた。しかし、用いるサンプル集合が変わればFisher比の値も変わる。例えば、サンプル集合AではFisher比の値が大きく癌標的遺伝子として認知されているものが、別のサンプル集合BではFisher比の値が小さくなる場合もあり、このときはサンプル集合Aを用いた結果が否定される。このように、解析結果が特定のサンプル集合に強く依存し信頼性に欠けていた。
本実施の形態においては、仮想サンプル集合生成部3によって人工的に仮想サンプル集合を2つの群毎にL個生成して、これらの仮想サンプル集合の複数の組に対して図4に示されるようにFisher比Fを演算するので、精度を向上させることができるのである。
ここで、図5及び図6を参照しながら遺伝子上での2群の属性について説明し、さらにFisher比の大小の概念について説明する。図5は一対のサンプル集合における遺伝子上での特徴量(発現量)の分布状況を示す概念図であり、図6はFisher比の概念を示す図である。図7は5組のサンプルに係る遺伝子g,gについて、発現量(mRNA)の分布を座標に示す概念図である。
図5において、サンプル集合X,Yは、患者の遺伝子情報で構成されるもので、それぞれのサンプル集合の属性は例えばX対Yで癌対非癌などで代表されるものである。それぞれのサンプル集合における特徴量の分布を2つの遺伝子g,gに着目して示すと、gの方が分布は明確に分離しており、このことからこの2群のサンプル集合の属性を明確に表現しているのは、gよりもgであると考えられる。すなわち、gの方が標的遺伝子にふさわしいということになる。
このようなサンプル集合が形成されている場合に、それらから仮想サンプル集合を形成させて、その仮想サンプル集合を用いて前述のとおり統計量を演算子、式(4)で表現されるFisher比なるものを演算することで、図5に示されるような遺伝子上での分布の分離程度を判断して、標的遺伝子を求めるのが、本実施の形態に係る有効因子抽出システムである。
図6は、図5に示される分布図を仮想サンプル集合において適用し、さらに平均値や分散値などの統計量を追加したものである。
その中の2つの遺伝子g,gの特徴量(発現量)に対して仮想サンプル集合X,Yについて分布を取ってみると遺伝子gでは明確にサンプル集合X,Yで分離され、遺伝子gでは分布が重複して分離できないことが理解される。そして、このようなときにFisher比はgで大きくgで小さくなる。
このような2つの遺伝子では、前述のとおりこの仮想サンプル集合X,Yを分ける属性に関係すると考えられる標的遺伝子は、遺伝子gの方であると理解されるのである。
もう少し具体的に図7を参照して説明する。図7は2つの遺伝子g,gの発現量(mRNA)をそれぞれy軸、x軸に示すものである。数字はサンプルの番号を意味している。この図では、遺伝子2(g)では丸印で示されるサンプル集合Yに含まれる患者の遺伝子発現量も角印で示されるサンプル集合Xに含まれる患者の遺伝子発現量もほぼ同じである一方、遺伝子1(g)では、丸印で示される仮想サンプル集合Yに含まれる患者の遺伝子発現量の方が角印で示される仮想サンプル集合Xに含まれる患者の遺伝子発現量よりも明確に大きな値を示しており、標的遺伝子がgであることが理解されるのである。
このような遺伝子発現量の差を明確化する指標として式(4)で示されるFisher比をFisher比演算部6によって演算するのである。演算されたFisher比はFisher比演算部6によって解析結果データベース20にFisher比データ23として格納される。
ソーティング部7は、解析結果データベース20に格納されているFisher比データ23を読み出し、あるいはFisher比演算部6で演算されたFisher比のデータを用い、Fisher比の値の大きさに基づいて、共通因子すなわち遺伝子を降順に順序付けする。
降順に順序付けされた遺伝子では、上位の遺伝子ほどFisher比が大きく、属性の相違に基づく2群を明確にするにふさわしい遺伝子、すなわち標的遺伝子であることが理解される。このように順序付けされたFisher比データ23はソーティング部7によって解析結果データベース20に格納してもよいし、格納せずにそのまま検定部8に送出してもよい。尚、ソーティング部7による順次付けは常に降順である必要はなく、昇順であってもよい。
検定部8は、順序付けされたFisher比データ23を用いて、Random Permutation Test法などにより有意水準を定めて統計上の検定を行って2群を識別する上で有効な遺伝子数を決定する。すなわち上位何位までが2群を識別可能な標的遺伝子としてふさわしいかを決定するのである。
Random Permutation Test法では、2群が等しいものと仮定した帰無仮説を否定することにより2群を識別する上で有効な遺伝子を決定できる。今、識別したい二つの群からのサンプル集合Xとサンプル集合Yがあるとする。まず2群が等しいと仮定し、サンプル集合Xとサンプル集合Yを一緒にした混合サンプル集合からサンプルを無作為抽出して偽サンプル集合Yと偽サンプル集合Yを作成する。この偽サンプル集合XとYに対して各遺伝子のFisher比を計算する。偽サンプル集合XとYの作成から各遺伝子のFisher比の計算までの処理を独立に例えば1000回繰り返し、Fisher比の分布を求める。このFisher比の分布の上限を、ある有意水準のもとにしきい値αで定める。処理の回数は結果の信頼度が得られる程度に適宜設定してもよく、入力部1から予め解析定数データ19としてサンプルデータベース14に格納しておいてもよい。しきい値αも同様である。
ここで、命題「2群が等しいならば、あらゆるFisher比の値はしきい値α未満である」を考え、この命題の対偶をとれば「Fisher比の値がしきい値α以上であれば2群は異なる」と言える。そこで、しきい値α以上のFisher比の値を有する遺伝子を、2群を識別する上で有効な遺伝子と見なす。各仮想サンプル集合で有効とされる遺伝子やその数は一般に異なり、各遺伝子部分集合はFisher比の計算に用いた仮想サンプル集合に対してだけ統計的に有効である。
このような検定をL個の仮想サンプル集合の組に対して実施すると、L個の仮想サンプル集合の組に対して有効であると判定された遺伝子部分集合がL個得られることになる。
本実施の形態においては、検定の方法としてRandom Permutation Test法を用いたが、特にこの方法に限定するものではなく、Fisher比の大きさについて2群を識別可能なものを求めることができる検定であればどのような方法でもよい。
検定部8は、L個の仮想サンプル集合の組に対して検定の結果得られたもの、すなわち2群を識別可能として選定されたFisher比の集合及びそのFisher比を与えた標的遺伝子としてふさわしい遺伝子の集合を検定結果データ25として解析結果データベース20に格納する。
頻度解析部9は、解析結果データベース20の検定結果データ25を読み出し、あるいは検定部8で得られた検定結果データ25を直接用いて、L個の遺伝子部分集合に対し、各遺伝子部分集合に共通して含まれる遺伝子、つまり、どの仮想サンプル集合においても有効であると判定された遺伝子を選定する。
そして、これをより精度の高い標的遺伝子と認定する。または、この条件を緩和し、L個の集合の中で例えば8割、あるいは7割ほど有効であるとされた遺伝子を標的遺伝子と認定することも考えられる。
この頻度解析部9における標的遺伝子の認定方法、すなわち標的とする共通因子の認定方法について図8を参照しながら具体的に説明する。図8において、候補の遺伝子集合がg〜g10とする場合に、検定部8によって、仮想サンプル集合1,2,3において、それぞれ遺伝子部分集合として,S,S,Sが形成されたとする。それぞれ図中に示されるとおり、各仮想サンプル毎に候補とされる遺伝子が含まれるが、必ずしも完全に一致するものとはなっていない。
そこで、頻度解析部9を用いて、例えばすべての遺伝子部分集合に出現するものあるいは3つの部分集合のうち2に出現するものなどとして解析条件を予め設定しておく。その設定は、入力部1から解析条件13として入力し解析定数データ19としてサンプルデータベース14に格納しておくとよい。解析条件はユーザーによって適宜設定してよく、全てや2/3などの数値に限定するものではない。また、いくつかの解析条件を同時に使用して図8に示されるように解析条件毎に結果を示すようにしてもよい。
図8によれば、全ての遺伝子部分集合に出現するとした場合には、標的遺伝子集合Aとしてgとgが抽出され、3つのうち2つに出現するとした場合には、これらの他にもg、g、gが加わって標的遺伝子集合Bが形成されることになる。
このようにして標的遺伝子集合が得られる。このようにして得られた標的遺伝子集合に関するデータは頻度解析部9によって、共通因子抽出データ26として解析結果データベース20に格納される。
次に、一般化Fisher比演算部10では、頻度解析部9で得られた標的遺伝子集合の各遺伝子に対して一般化Fisher比を演算する。この標的遺伝子集合に関するデータは、頻度解析部9から直接受けてもよいし、解析結果データベース20から共通因子抽出データ26を読み出してもよい。
一般化Fisher比演算部10で演算を行う前に、まず、統計量演算部5が標的遺伝子集合内の各遺伝子について、それぞれ式(5)、(6)で表されるFisher比Fの平均μ(F)と分散σ(F)を演算する。これらの平均値と分散値は、仮想サンプル集合平均値データ21、仮想サンプル集合分散値データ22として解析結果データベース20に格納してもよいし、そのまま一般化Fisher比演算部10から読み出されるようにしてもよい。
Figure 0004714869
ここでRは標的遺伝子集合内の遺伝子数を表す。次に、一般化Fisher比演算部10は、統計量演算部5からあるいは解析結果データベース20からμ(F)とσ(F)を読み出して以下の式(7)のような一般化Fisher比を演算する。
Figure 0004714869
ここで、H(μ(F))はμ(F)の関数であって、分子H(μ(F))はその値が大きいほど2群間の差異が大きい遺伝子を意味する。一方、分母G(σ(F))はσ(F)の関数であってサンプルが異なることによるFisher比の変動量(正の値)を表わし、この値が小さい程、解析結果の信頼性が高いことを意味する。以上からG(σ(F))に対するH(μ(F))の比が大きい遺伝子は、G(σ(F))の値が小さく、その一方でH(μ(F))の値が大きい遺伝子を意味する。
このとき、この遺伝子は、信頼性が高く、かつ、どの仮想サンプル集合に対しても平均的に発現量の相違が著しいということになる。一般化Fisher比を用いる手法と従来手法との決定的に異なる点は、Fisher比を従来のように確定値としてではなく確率変数として取り扱い、Fisher比の分布を考えていることにある。
一般化Fisher比の具体例としては、次の(8)〜(10)などの式で表現されるが、これらに限定するものではない。なお例えば式(10)のパラメータαは解析定数データ19として入力部1から予め入力してサンプルデータベース14に格納しておくとよい。
Figure 0004714869
一般化Fisher比演算部10によって演算された一般化Fisher比は、一般化Fisher比演算部10によって解析結果データベース20内に一般化Fisher比データ24として格納される。
ソーティング部7では、一般化Fisher比の値が大きい順に標的遺伝子を順序付ける。その際に用いられるデータは、一般化Fisher比演算部10から直接読み出してもよいし、解析結果データベース20から一般化Fisher比データ24として読み出してもよい。
順序付けされた標的遺伝子は、基本的にはその上位から医学的、あるいは生物学的に意味のある標的遺伝子を選択することができるように示されるが、最終的な標的遺伝子の選択は本有効因子抽出システムを操作するユーザーによる判断も加味されることになる。本有効因子抽出システムは、最終的な判断を容易にすべく支援するシステムである。
出力部11は、入力部1を介して演算部2やサンプルデータベース14に入力するデータや解析条件を表示・出力したり、それらのデータを用いて仮想サンプル集合生成部3や共通因子選択部4で演算する際の選択された入力データや解析条件、さらにその演算の結果などを出力するものである。もちろん、最終的に選択された共通因子、本実施の形態における標的遺伝子を表示・出力することも可能である。
以上説明したような解析の流れを本有効因子抽出システムの構成との関係を明確にしながら図9に示す。
図9を参照すれば容易に理解されるが、所望の属性によって2群に分けられるサンプル集合X,Yが存在しており、これらから仮想サンプル集合生成部3を用いてL個の仮想サンプル集合を生成し、それぞれの仮想サンプル集合において共通因子選択部4を用いて共通因子の部分集合であるL個の遺伝子部分集合(S,・・S,・・,S)を選択する。
仮想サンプル集合を用いてFisher比を演算して検定を実施することで、この段階である程度精度の高い標的遺伝子が得られる。
しかしながら、さらに高精度を追求するために、これらの遺伝子部分集合を用いて頻度解析部9では、各部分集合に共通する遺伝子を選択し、さらに一般化Fisher比演算部10において一般化Fisher比を演算する。前述のとおり、Fisher比を各遺伝子部分集合における確率変数として捉えて、仮想サンプル集合全体としての一般化Fisher比を演算して、ソーティング部7で順序付けを行うことで、遺伝子の部分集合における標的遺伝子よりもさらに信頼性の高い標的遺伝子を抽出することができるのである。
次に、実際に仮想サンプル集合X、Yを用いてFisher比を演算する実施例について説明する。
表1は、再発群と非再発群という、相対する群のサンプル集合から仮想サンプル集合生成部3を用いて仮想サンプル集合を生成し、その生成された仮想サンプル集合の中から、仮想サンプル集合X(再発群)、仮想サンプル集合Y(非再発群)を例として選択している。この仮想サンプル集合X、Yには3名ずつの患者(x,x,x)、(y,y,y)が含まれており、数ある遺伝子の中から、遺伝子番号g〜gまでの遺伝子発現量を示してまとめた表である。遺伝子発現量とは前述のとおりあるmRNAの量を意味するものである。
Figure 0004714869
このようにしてまとめた表1のデータを用いて、それぞれの仮想サンプル集合において遺伝子番号毎に統計量演算部5によって平均μ、μ及び分散σ、σを演算し、それらからFisher比演算部6では式(4)に示されるようなFisher比を演算する。その結果を遺伝子毎に表2に示す。本Fisher比の演算においても事前確率はそれぞれ1/2としている。
Figure 0004714869
表2によれば、明らかなとおり遺伝子番号g〜gまでの遺伝子では、遺伝子gが最もFisher比が大きく標的遺伝子としては最も好ましいことが理解できる。
この表2に示された状態から、ソーティング部7はこのFisher比の降順あるいは昇順に遺伝子を順序付けし、さらに検定部8では有意水準を定めて統計上の検定を行って2群を識別する上で有効な遺伝子数を決定する。
その後、さらに頻度解析部9では図8を参照しながら説明したとおり、各仮想サンプル集合における検定部8に抽出された遺伝子部分集合から頻度解析を行なうことで標的遺伝子集合を形成させる。そして、一般化Fisher比演算部10において一般化Fisher比を演算して、精度の高い標的遺伝子を選択、抽出するのである。
以上説明したように、本発明の請求項1乃至請求項に記載された発明は、医療分野、特にマイクロアレイ技術とともに研究開発されているバイオインフォマテックスの分野における利用が可能である。
本発明の実施の形態に係る有効因子抽出システムの概念図である。 本実施の形態に係る有効因子抽出システムを用いた遺伝子解析の流れを示すフロー図である。 遺伝子発現データを説明するための概念図である。 本実施の形態に係る有効因子抽出システムにおいて、サンプル集合X,Yから仮想サンプル集合X,Yが生成され、Fisher比F(X,Y)が演算されることを説明するための概念図である。 一対のサンプル集合における遺伝子上での特徴量(発現量)の分布状況を示す概念図である。 図5に示される分布図を仮想サンプル集合において適用し、さらに平均値や分散値などの統計量を追加してFisher比の大小を説明するための概念図である。 2つの遺伝子g,gの発現量(mRNA)をそれぞれy軸、x軸に示してFisher比の大小を説明するための概念図である。 本実施の形態に係る有効因子抽出システムの頻度解析部の機能を説明するための概念図である。 本実施の形態に係る有効因子抽出システムの解析の流れを説明するための概念図である。
符号の説明
1…入力部 2…演算部 3…仮想サンプル集合生成部 4…共通因子選択部 5…統計量演算部 6…Fisher比演算部 7…ソーティング部 8…検定部 9…頻度解析部 10…一般化Fisher比演算部 11…出力部 12…データ 13…解析条件 14…サンプルデータベース 15…サンプル集合X 16…サンプル集合Y 17…仮想サンプル集合X 18…仮想サンプル集合Y 19…サンプル集合定数データ 20…解析結果データベース 21…仮想サンプル集合平均値データ 22…仮想サンプル集合分散値データ 23…Fisher比データ 24…一般化Fisher比データ 25…検定結果データ 26…共通因子抽出データ

Claims (3)

  1. 共通の因子にそれぞれ定量的な特徴量を保有するサンプルを、任意に予め定められる属性によって判別される2つの群に分別したサンプル集合から、各群それぞれ任意に前記サンプルを抽出して対に形成される複数の仮想サンプル集合を生成する仮想サンプル集合生成部と、それぞれの仮想サンプル集合に含まれる各群すべてのサンプルが保有する前記特徴量を前記共通因子毎に読み出して群毎にその平均値及び分散値を演算する統計量演算部と、これらの群毎の平均値及び分散値から群間の統計的距離を前記共通因子毎に演算する統計的距離演算部と、これらの前記共通因子毎に演算された統計的距離を用いて前記属性によって判別される2つの群を識別するために有意な共通因子を検定する検定部と、前記検定部で検定された有意な共通因子を前記仮想サンプル集合毎に読み出して、仮想サンプル集合全体において予め定めた頻度以上に存在する共通因子を抽出する頻度解析部と、前記頻度解析部で抽出された共通因子毎に前記複数の仮想サンプル集合すべての統計的距離の平均値及び分散値から一般化統計的距離を演算する一般化統計的距離演算部とを備えることを特徴とする有効因子抽出システム。
  2. 統計的距離演算部又は一般化統計的距離演算部で演算された統計的距離をキーとして、前記共通因子を並べ替えするソーティング部を有することを特徴とする請求項1記載の有効因子抽出システム。
  3. 前記共通因子は遺伝子であり、前記定量的な特徴量はmRNAであることを特徴とする請求項1又は請求項2に記載の有効因子抽出システム。
JP2005349541A 2005-12-02 2005-12-02 有効因子抽出システム Active JP4714869B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005349541A JP4714869B2 (ja) 2005-12-02 2005-12-02 有効因子抽出システム
PCT/JP2006/324019 WO2007063972A1 (ja) 2005-12-02 2006-11-30 有効因子抽出システムとその方法とそのプログラム
US12/156,094 US8140456B2 (en) 2005-12-02 2008-05-29 Method and system of extracting factors using generalized Fisher ratios

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005349541A JP4714869B2 (ja) 2005-12-02 2005-12-02 有効因子抽出システム

Publications (2)

Publication Number Publication Date
JP2007156721A JP2007156721A (ja) 2007-06-21
JP4714869B2 true JP4714869B2 (ja) 2011-06-29

Family

ID=38092305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005349541A Active JP4714869B2 (ja) 2005-12-02 2005-12-02 有効因子抽出システム

Country Status (3)

Country Link
US (1) US8140456B2 (ja)
JP (1) JP4714869B2 (ja)
WO (1) WO2007063972A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573411B (zh) * 2014-12-30 2018-04-17 深圳先进技术研究院 一种生物标志物相关性可视化方法以及装置
JP6788961B2 (ja) * 2015-11-11 2020-11-25 チトセ バイオ エボリューション ピーティーイー リミテッド 細胞を分類可能な遺伝子の選出方法
TWI708190B (zh) 2019-11-15 2020-10-21 財團法人工業技術研究院 圖像辨識方法、物體辨識模型的訓練系統與物體辨識模型的訓練方法
KR102266382B1 (ko) * 2020-09-28 2021-06-18 신한아이타스(주) 사전 컴플라이언스 코드를 팩터 단위로 모듈화하여 구성하는 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003085548A1 (fr) * 2002-04-04 2003-10-16 Ishihara Sangyo Kaisha, Ltd. Dispositif et procede d'analyse de donnees

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6647341B1 (en) * 1999-04-09 2003-11-11 Whitehead Institute For Biomedical Research Methods for classifying samples and ascertaining previously unknown classes
JP2003061678A (ja) 2001-08-29 2003-03-04 Univ Tokyo 遺伝子のスクリーニング方法及び感受性の判定方法
US20040191779A1 (en) 2003-03-28 2004-09-30 Jie Zhang Statistical analysis of regulatory factor binding sites of differentially expressed genes
JP2005038256A (ja) 2003-07-16 2005-02-10 Jgs:Kk 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体
US7467119B2 (en) * 2003-07-21 2008-12-16 Aureon Laboratories, Inc. Systems and methods for treating, diagnosing and predicting the occurrence of a medical condition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003085548A1 (fr) * 2002-04-04 2003-10-16 Ishihara Sangyo Kaisha, Ltd. Dispositif et procede d'analyse de donnees

Also Published As

Publication number Publication date
JP2007156721A (ja) 2007-06-21
WO2007063972A1 (ja) 2007-06-07
US8140456B2 (en) 2012-03-20
US20080319711A1 (en) 2008-12-25

Similar Documents

Publication Publication Date Title
JP2017224283A (ja) ビッグデータ解析方法及び該解析方法を利用した質量分析システム
KR101828052B1 (ko) 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
CN112289376B (zh) 一种检测体细胞突变的方法及装置
CN109801680B (zh) 基于tcga数据库的肿瘤转移复发预测方法及系统
Horng et al. An expert system to classify microarray gene expression data using gene selection by decision tree
Muscarella et al. A well-resolved phylogeny of the trees of Puerto Rico based on DNA barcode sequence data
Djemiel et al. BIOCOM-PIPE: a new user-friendly metabarcoding pipeline for the characterization of microbial diversity from 16S, 18S and 23S rRNA gene amplicons
JP4714869B2 (ja) 有効因子抽出システム
Roder et al. Improving the power of gene set enrichment analyses
CN113362894A (zh) 一种对协同致死的癌症驱动基因进行预测的方法
Matos et al. Research techniques made simple: mass cytometry analysis tools for decrypting the complexity of biological systems
Tran A novel method for finding non-small cell lung cancer diagnosis biomarkers
JP6623774B2 (ja) パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置
CN116864011A (zh) 基于多组学数据的结直肠癌分子标志物识别方法及系统
CN111733251A (zh) 一种特征miRNA表达谱组合及肾透明细胞癌早期预测方法
KR102217272B1 (ko) 유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법
CN110223732A (zh) 多类生物序列注释的整合方法
JP5307996B2 (ja) 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
CN111383716B (zh) 基因对的筛选方法、装置、计算机设备和存储介质
Kim et al. Multivariate cluster-based multifactor dimensionality reduction to identify genetic interactions for multiple quantitative phenotypes
Livesey et al. Transforming RNA-Seq gene expression to track cancer progression in the multi-stage early to advanced-stage cancer development
KR20200057664A (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
Ramsey A method for cross-species visualization and analysis of RNA-sequence data
Burzykowski et al. Experimental Design in Quantitative Proteomics
Besalú i Llorà et al. Ranking Series of Cancer-Related Gene Expression Data by Means of the Superposing Significant Interaction Rules Method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110118

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150